PSIHOAKUSTIKA 2009

Sadržaj

 

PRAG SLUHA I TONALNA AUDIOMETRIJA   3

GLASNOĆA   9

TONSKA VISINA   16

DIFERENCIJALNI PRAG   28

MASKIRANJE   34

KRITIČNI POJAS  -  Critical Badwidth   43

LOKALIZACIJA  IZVORA  ZVUKA U PROSTORU   48

ANALIZA  ZVUČNOG OKRUŽENJA   55

 


PRAG SLUHA I TONALNA AUDIOMETRIJA

 

APSOLUTNI PRAG SLUHA

 

Apsolutna osjetljivost uha određena je minimalnim zvučnim tlakom, dovoljnim da pobudi osjet sluha u tihoj okolini. Ne može se čuti svaki zvuk. Ne može se čuti zvuk premalog intenziteta i zvuk previsoke ili preniske  frekvencije. Neki ljudi ne mogu čuti zvukove koje drugi ljudi mogu čuti. Ako se želi odrediti fizičke osobine zvuka koji je čujan normalnim osobama, mjeri se apsolutni prag sluha. U drugom slučaju, s obzirom na to da su poznata svojstva zvukova čujnih normalnim osobama, možemo mjeriti za koliko neki pojedinci odstupaju od tog takozvanog normalnog praga sluha i na taj način određujemo relativni prag sluha.

Najjednostavniji stimulusi za mjerenje sluha su čisti tonovi jer ih je relativno  jednostavno definirati samo s dvije dimenzije - intenzitetom i frekvencijom. Određujući prag sluha opisujemo osjetljivosti slušnog mehanizma. Prag sluha i osjetljivost recipročne su veličine – niži prag sluha znači veću osjetljivost.

Mjeri se zvučni tlak. Izvor zvuka je zvučnik (kad se mjeri u slobodnom polju) ili slušalice. Ako je izvor zvuka zvučnik, mjeri se takozvano minimalno čujno polje (MAF - minimum audible field). Na mjestu na kojem je bila glava ispitanika kojem se određuje prag sluha, postavlja se mjerni mikrofon. Ako su izvor zvuka slušalice, mjeri se minimalni čujni pritisak (MAP - minimum audible pressure). U tom slučaju mjerni mikrofon postavlja se istovremeno sa slušalicama kojima se određuje prag slušanja i to unutar slušalice, unutar slušnog kanala  ili sasvim kod bubnjića.  Rezultati koji se dobivaju ovakvim različitim mjerenjima međusobno se razlikuju. Kod mjerenja minimalnog čujnog zvučnog tlaka (MAP), same slušalice, njihov tip i način postavljanja značajno djeluju na rezultat mjerenja.  S druge strane, kod mjerenja minimalnog čujnog polja (MAF), značajan faktor koji djeluje na rezultate jest kut (azimut) pod kojim zvuk dolazi do slušatelja, odnosno položaj glave.

Najmanji zvučni tlak koji se može čuti iznosi približno 0.00002 Pa. Zapravo,  u frekvencijskoj zoni u kojoj je ljudsko uho najosjetljivije, između 1000 i 5000 Hz neki “dobro čujući” ljudi mogu čuti zvučni tlak i manji od referentnoga. Podataka o apsolutnom pragu sluha ima toliko koliko ima različitih mjerenja. Razlike u rezultatima pojedinih mjerenja imaju različite uzroke. Veliku raznolikost unosi način mjerenja zvučnog tlaka. Mjerenje zvučnog tlaka može se izvršiti na raznim mjestima: unutar slušalice, na početku slušnog kanala, unutar slušnog kanala ili kod bubnjića. Drugačijim postavljanjem mjernog mikrofona dobivaju se različiti rezultati. Na sljedećem dijagramu prikazani su rezultati ispitivanja praga sluha grupe od 198 ispitanika, s tim da je za rezultat prikazan punom linijom mjerni mikrofon bio postavljen 3mm unutar slušnog kanala, a za rezultate prikazane isprekidanom linijom 7 mm izvan slušnog kanala.

(Fig. 2.1, iz Moore, 1994, str. 48.)

Minimalna čujna razina zvuka predstavljena kao funkcija frekvencije za dva položaja pri ulasku u slušni kanal (meatus). Puna linija označava razine zvuka izmjerenu 0,3 cm po ulasku u meatus, a isprekidana linija označava razine zvuka 0,7 cm prije ulaska u slušni kanal. (prenešeno iz Moore, 1994, str. 48)

 

 

Uzimajući u obzir rezultate mnogih istraživanja, Inernacionalna Standardizacijska Organizacija (ISO) preporuča 1963. godine za pojedine audiometrijske frekvencije razine intenziteta koje se mogu smatrati normalnim sluhom.

frekvencija (Hz)

razina intenziteta (dB)

125

46

250

25

500

11

1000

6,5

1500

6,5

2000

8,5

3000

7,5

4000

9,5

6000

8

8000

9,5

 

 

PSIHOFIZIČKI POSTUPAK TRAŽENJA PRAGA SLUŠANJA

Mjerenje osjetljivosti jedne konkretne osobe na akustički stimulus nije sasvim jednostavno jer osjetljivost varira s vremenom. Jedan dan može se naći da je neki intetzitet zvuka dovoljan da izazove osjet, a drugog dana da taj intenzitet nije dovoljan da izazove osjet. Isto tako za vrijeme iste seanse mjerenja stimulus neke određene jačine u jednom trenutku izazove osjet, a u drugom ne. Zbog toga mjerenje i izražavanje osjetljivosti mora uključiti statističku obradu. To znači da treba izračunati srednju vrijednost mnogih vremenski razmaknutih mjerenja. Postavlja se konkretno pitanje: ako neke jačine stimulusa povremeno izazovu osjet ali ne uvijek, koja se onda veličina stimulusa može smatrati pragom – ona veličina koju ispitanik zamijeti samo u najpovoljnijim okolnostima ili ona koja je dovoljno velika da uvijek potakne ostjet? U psihofizici postoji dogovor je da se pragom smatra ona veličina stimulusa koja u 50 % prezentacija evocira osjet.

Opis odgovora ispitanika

Eksperimentator nikad sa sigurnošću ne zna da li ispitanik zaista čuje ili ne čuje. Oslanja se na svjestan odgovor ispitanika koji je apriori subjektivan. Ima pokušaja objektivnih metoda mjerenja sluha pomoću neke nehotične reakcije (sužavanje - širenje zjenica) ali kod toga nismo sigurni da li mjerimo stvarno slušanje.  U klasičnoj tonalnoj audiometriji ispitanik samo daje znak da li čuje ili ne čuje signal. On mora reagirati (na pr. dizanjem ruke) odmah čim začuje signal i objaviti (spuštanjem ruke) kad je signal prestao. Kad se smanjivanjem intenziteta približi jedva čujnom području, smanjuje se sigurnost ispitanika u signaliziranju početka i završetka emitiranja stimulusa. Ispitanici ne reagiraju čim je počeo signal i premda siginal traje, objavlju da je prestao. Oni na tako malim zvučnim razinama ne mogu više razlučiti što je stvarni signal, a što slušna halucinacija.

Metoda ugađanja

Ispitanik sam ugađa pomoću atenuatora intenzitet zvuka kojeg smatra jedva čujnim i upisuje se rezultat. Kod toga važna je uputa ispitaniku. On treba tako ugoditi intenzitet zvuka da bude "jedva čujan". Možemo ispitaniku reći da počne s jasno čujnim intenzitetom da bi se upoznao sa zvukom kojeg treba čuti pa da postepeno smanjuje intenzitet do trenutka da nestane zvuka. Tada ga ponovo može pojačati do trenutka kad postane čujan. Kod toga brzina pojačavanja i stišavanja kao i veličina skokova ovise sasvim o ispitaniku. Ton kojim ispitanik manipulira može biti konstantan ili isprekidan. Uz kontinuirani ton prag sluha je viši, naročito na visokim frekvencijama.

Metoda granica

U ovom slučaju eksperimentator regulira intenzitet stimulusa a ispitanik dizanjem ruke daje znak čuje li ili ne čuje. Počinje se s tonom koji je znatno iznad praga. Zatim se postepeno i ravnomjerno smanjuje intenzitet stimulusa do trenutka kad ispitanik spusti ruku označivši time da više ne čuje. Nastavlja se sa stišavanjem još 10 dB od tog trenutka i tek tada se ponovo pojačava dok ispitanik ne da znak da ponovo čuje. I opet pojačavši još 10 dB, postupak se ponavlja desetak puta. Treba imati na umu da brzina promjene signala i veličina pojedinih skokova mogu utjecati na konačni rezultat mjerenja. Na taj se način dobiva skup mjerenja sličan onome dobivenom metodom ugađanja. Pola podataka dobiveno je stišavanjem signala a pola pojačavanjem. S manjim brojem mjerenja sugerira se medijan kao mjera centralne tendencije, no uz dovoljan broj mjerenja aritmetička sredina neće znatno odstupati od medijana.

Pregled parametara koji djeluju na prag sluha

- Postoji veća osjetljivost na promjenljive signale nego na kontinuirane. Ta osjetljivost veća je uz višu  frekvenciju signala. Sporo prekidan ton od 4000 Hz ima 15 dB niže prag nego kontinuirani.

- Utjecaj  povećanja, odnosno, smanjenja  intenziteta:  ovisno  o  postupku ispitivnja dobivaju se dva niza podataka - jedan niz  koji  se  dobije povećavanjem  intenziteta  stimulusa  iz  nečujnog  područja  a  drugi stišavanjem intenziteta iz jasno čujnog područja. Opće je mišljenje da je  prag  dobiven  postupkom  stišavnja  niži.   Međutim,   takva   se pretpostavka potvrđuje  samo  ako  se  eksperimentira  s  isprekidanim tonom.  Ako  se  ispituje  kontinuiranim  tonom  upravo  je   obrnuto: ispitivanje silaznim nizom intenziteta s kontinuiranim tonom  prag  je konzistentno viši.

- Prag se snižava što je razina intenziteta  od  koje počinje stišavanje niža.

- Uputa ispitanicima vrlo je značajan faktor u konačnim  rezultatima: može se inzistirati da ispitanik javlja da čuje  tek  kad  ima  sasvim jasnu predodžbu tona s  definiranom  visinom  a  može  se  tražiti  da reagira čim čuje nešto različito od tišine.

  (fig 45. Hirsh (1956) str.122)

 

Na slici gornja krivulja predstavlja prag prema prvoj, a  donja krivulja prag prema drugoj uputi. U okolini 4000 Hz,  razlika  između  krivulja  je  oko  7  dB.  Autori napominju da je varijabilitet (nesigurnost) u oba slučaja podjednak.

 

Zavisnost veličine praga o trajanju stimulusa

- Veličina praga zavisna je i o trajanju tona kojim se eksperimentira. Za kraće tonove od 500 ms prag raste i to zavisno od frekvencije. Za frekvenciju 500 Hz prag se primjetno diže ako je stimulus kraći od 400 ms. Za frekvencije 2-5 kHz prag se diže ako je trajanje stimulusa kraće od 200 ms i za svako prepolavljanje trajanja signala prag poraste za 3 dB, to jest prag određuje ukupna zvučna energija (Stevens, 1998).

Varijabilitet u mjerenju praga

Poznato je da u slučaju kad se jednoj istoj osobi mjeri prag  sluha bilo uzastopno u jednoj seansi bilo drugog dana, rezultati nikada nisu identični. Uzroci takvog varijabiliteta su mnogobrojni i nisu obavezno samo vezani za varijabilitet fiziološkog praga ispitanika.

- Varijabilitet (standardna devijacija) kojem je uzrok konkretno prianjanje slušalice može iznositi do 7 dB.

- U vrlo strogo kontroliranim eksperimentalnim uvjetima, u sukcesivnim mjerenjima s malim vremenskim razmakom, nalazi se varijabilitet od 1 dB.

- U kliničkim mjerenjima varijabilitet pacijenata bez sumnje bit će veći nego u ovim strogo kontroliranim eksperimentima. U standardnom kliničkom postupku među rezultatima uzstopnih mjerenja standardnu devijaciju iznosi do  4 dB. Ovaj varijabilitet pojedinog ispitanika multiplicira se kad se traži prag većih grupa. U tom je slučaju velik utjecaj takozvanih fizičkih faktora, namještanja slušalica, razlike u veličini slušnog kanala i kao posljedica toga, razlika u akustičikm osobinama okoline mjerenja.

 

Normalni prag

Ima mnogo teorijskih i praktičnih razloga da se definira što se smatra normalnim pragom sluha. Međutim, unatoč mnogobrojnim laboratorijskim eksperimentima s malim grupama i istraživanjima na velikim grupama ispitanika nije ustanovljena jedinstvena vrijednost (krivulja) koja bi se smatrala pragom normalnog sluha.

Klinički dijagnostičari, unatoč ovako nedefiniraj situaciji nisu sasvim bez oslonca. Važno je da upotrebljavaju istu metodu a proizvođači opreme za audiometriranje već su ugradili standardizirane vrijednosti u uređaje. Ovim vrijednostima dodaje se korekcija za konkretne slušalice ili zvučnik.

Slika 2.3 prikazuje prag sluha mladih zdravih osoba. Najniža crtkana linija odnosi se na 10% najosjetljivijih. To znači da većina neće registrirati zvuk tih razina intenziteta. Puna linija smatra se pragom zato jer 50% ispitanika može registrirati intenzitete koje povezuje ta krivulja. Samo mali dio frekvencijskog spektra može se čuti ispod razine referentnoga zvučnoga intenziteta. Naročita osjetljivost oko 4 kHz tumači se utjecajem rezonancijske frekvencije slušnoga kanala.

 

 

 

 

 

 

 

 

 

Desna strana dijagrama praga slušanja, prema visokim frekvencijama, strmo se penje i jako je zavisna o dobi ispitanika. Za osobe od 20 godina, za frekvenciju od 17 kHz, prag sluha je 50 dB iznad referentnog zvučnog tlaka, a za osobe od 65 godina već je frekvenciji od 8 kHz prag sluha 50 dB iznad referentnog zvučnog tlaka (Stevens, 1998).

Brownovo gibanje molekula zraka kod obične temperature uzrokuje "zvučni tlak" koji je u području 1000 do 6000 Hz samo 10 dB ispod referentnog zvučnog tlaka. To znači da bi veća osjetljivost ljudskog uha bila nekorisna. Zbog toga  možemo pretpostaviti da niti životinje u tom frekvencijskom dijapazonu nemaju bolju slušnu osjetljivost.

Prag boli

Ako se intenzitet čujnog zvuka povećava slušatelj (ispitanik) doživljava zvuk kao glasniji ali ako se zvučni intenzitet već vrlo jakog zvuka i dalje povećava,  počinje primjećivati neslušni, taktilni osjet. Priroda tog osjeta mnogo ovisi o frekvenciji,  a različiti ispitanici imaju različito iskustvo. Na niskim frekvencijama osjeća se lagana vibracija superponirana zvuku. U nekim slučajevima pojavljuje se lagana vrtoglavica zbog pobude polukružnih kanala. Na visokim frekvencijama osjeća se najprije škakljanje, svrbež u srednjem uhu a potom  jak bol. Zbog  graničnih uvjeta (nehumani eksperimenti) prag boli utvrđen je u eksperimentima u kojima su ispitanici sami pojačavali zvuk dok ne primjete ekstraauditivni osjet. Prag boli iznosi oko 120 fona razine glasnoće (oko 120 dB razine zvučnog tlaka) i predstavlja gornju granicu dinamike slušanja.

 

 

 

REFERENCIJE

Zwicker- Fastl .....

 

Atkinson, R.C., R.J. Herrnstein, G. Lindzey, R.D. Luce, eds. (1988) Stevens' Handbook of Experimental Psychology, John Wiley & Sons.

Hirsh, I.J. (1952) The Measurement of hearing, Mc Grow-Hill Co. Inc.

Moore, B.C.J. (1994) Psychology of hearing, Academic Press.

Seto, W.W. (1971) Acoustics, McGrow-Hill

Sivian, A.M. & White, S.D. (1933) On minimum audible sound fields, J. Acoust. Soc.Am. 4, 288-321. (prema Moore, 1994)

Stevens, K. N. (1998) Acoustic Phonetics, MIT Press.

Stevens, S.S. &  H. Davis (1960) Hearing (Its Psychology and Physiology), John Wiley & Sons, Inc.

 

 

GLASNOĆA

(Zwicker-Fastl)

 

Razina glasnoće

 

Uspoređivanje glasnoća dovodi do konzistentnijih rezultata nego procjena veličine (comparison/ magnitude estimation).  Ideju razine glasnoće uveo je Barkhausen dvadesetih godina prošlog stoljeća.  

 

Razina glasnoće nekog zvuka (loudness level) jest razina zvučnog tlaka (sound preassure level, SPL) tona od 1 kHz koji je isto glasan kao taj zvuk. Jedinica takve dimenzije zove se "fon" (phon).  Razina glasnoće može se izmjeriti i izraziti za bilo koji zvuk. Najčešće se ilustrira za čiste tonove različitih frekvencija. Linije krivulje koje povezuju mjesta iste razine glasnoće zovu se izofone.

Slika 8.1 Linije iste glasnoće  - izovone za čiste tonove. Brojevi kojima su krivulje označene izraženi su u fonima (jedinica za razinu glasnoće) i u sonima (jedinica za glasnoće).

 

Prema definiciji, sve krivulje neke razine glasnoće (parametar označen nad krivuljom)  na mjestu koje označava frekvenciju od 1000 Hz imaju isti broj fona  i decibela. Prag sluha, koji je također krivulja iste glasnoće, označen je crtkanom linijom. Zbog toga što je razina zvučnog tlaka (SPL) na pragu sluha za 1000 Hz 3 dB, a ne 0 dB, parametar nad crtkanom krivuljom je 3 fona. Za tihe zvukove, oko 20 fona, krivulje iste glasnoće gotovo su paralelne s krivuljom koja označava prag sluha. Za tonove iznad 200 Hz krivulje su paralelne i na većim  intenzitetima.  Za frekvencije ispod 200 Hz, krivulje na većim intenzitetima sve su položenije, među njima je manji razmak. Ton od 50 Hz 50 dB razine zvučnog tlaka dosiže razinu glasnoće od 20 fona, dok 50 Hz 110 dB (SPL) doseže 100 fona. Razlika u broju fona i broju decibela na malim intenzitetima je 30 a na velikim samo 10. Najosjetljivije mjesto u spektru, između 2 i 5 kHz označeno je na pragu sluha snižavanjem krivulje. Na velikim intenzitetima taj je udolina još izraženija.

 

 

Funkcija glasnoće

 

Glasnoća je osjet koji odgovara (korelira) s intenzitetom stimulusa.  Odnos veličine  stimulusa i veličine osjeta može se mjeriti tako da ispitanici odgovaraju na pitanje koliko je puta neki zvuk glasniji ili tiši od referentnoga. To se može postići tako da ispitanik ugađa intenzitet stimulusa tako da osjet glasnoće prema prema referentnom zvuku ima neki zadani odnos, ili na taj način da se procjenjuje veličina (odnos) dvaju prezentiranih zvukova. Standardni ton 1000 Hz 40 dB SPL predstavlja glasnoću jednog sona. Za procjenu glasnoća najjednostavniji je odnos udvostručavanja, odnosno, prepolovljavanja. Ispitanici traže na koju se razinu zvučnog intenziteta mora povečati intenzitet da zvuk bude dvostruko glasniji od početnoga ili koliko treba smanjiti razinu intenziteta da se procjenjuje upola glasnim od početnoga.  

 

 

 

Slika 8.3. Potrebno povećanje (smanjenje) razine intenziteta da bi se postigao osjet dvostruke (rapolovljene) glasnoće tona od 1 kHz u zavisnosti početnoj razini.

 

Prosječna vrijednost dobivena na temelju mnogobrojnih mjerenja ovoga tipa jest da ton od 1000 Hz treba pojačati 10 dB da bi izazvao osjet dvostruke glasnoće. To znači, ton od 40 dB SPL treba pojačati na 50 dB SPL da bi osjet glasnoće porasao od 1 na dva sona. Od 40 dB (fona) naviše vodoravna linija označava da oko 10 dB predstavlja osjet dvostruke glasnoće. Ispod 40 dB smanjuje se potrebna razlika u razini intenziteta da bi se postigla promjena glasnoće 1:2. Dakle, povećanje razine intenziteta za 10 fona rezultira povećanjem dvostrukim povećanjem glasnoće, a povećanje razine od 20 fona rezultira četiri puta glasnijim zvukom, 4 sona. Međutim, zvukovi koji imaju samo 20 fona, nisu samo 4 puta tiši od zvukova s 40 fona, već su tiši s faktorom 6,6 odnosno imaju samo 0,15 sona (1/6,6), a ne 0,25 sona. Da bi se udvostručila glasnoća tonu razine zvučnog tlaka od 20 dB, potrebno je samo 5 dB, a na razini 10 dB potrebno je samo 2 dB da se zvuk čini dvostruko glasnijim. Zvuk od 3 fona, predstavlja prag sluha, pa je to dakle glasnoća od 0 sona.

 

Glasnoća djelomično maskiranih tonova

 

Šum razine gustoće (density level) od 30 dB  (po hercu) djeluje kao maskirajući zvuk i podiže prag čujnosti tona od 1 kHz tako da je tek čujan uz razinu zvučnog tlaka od 50 dB. Dakle, njegova je glasnoća u tom slučaju nula sona.  Da nema maskirajućeg tona, takav zvuk imao bi glasnoću od 2 sona. Međutim, ako se razina tona od 1 kHz poveća uz prisustvo istog maskirajućeg šuma, do 80 dB, provocirati će osjet glasnoće sličan kao da nema maske. To znači da je krivulja glasnoće u tom slučaju strmija.

 

Slika 8.10. Glasnoća tona od 1 kHz u funkciji njegove razine. Crtkana linija predstavlja funkciju glasnoće u tihim uvjetima. Druge dvije krivulje predstavljaju glasnoću tona od 1 kHz uz prisustvo ružičastog šuma razine intenziteta od 40 i 60 dB po 1/3 oktave. Vidimo da su uz višu razinu šuma krivulje strmije i da uz veće razine tona od 1 kHz konvergiraju sličnim vrijednostima.

 

Loudness recruitment (iz Moore 1997)

 

Rekritman glasnoće nalazi se kod pereptivne nagluhosti, odnosno kod oštećenja kohlee, a primjećuje se po većem porastu glasnoće uz isti porast stimulusa. Pretpostavimo da netko ima jednostrano oštećenje na 4000 Hz od 60 dB. Ako zdravom uhu emitiramo 4 kHz sa 100 dB SPL tada će to slušatelju biti isto tako glasno kao kad mu isti ton (4 kHz, 100 dB) emitiramo u oštećeno uho. Prema tome ton koji je samo 40 dB iznad praga u oštećenom uhu, čini se isto glasnim kao ton koji je 100 dB iznad praga u zdravom uhu. Takvo se ponašanje u ovom slučaju smatra nenormalnim, međutim, treba primijetiti da je to sličan fenomen kao u slučaju slušanja vrlo niskih i vrlo visokih frekvencija (za normalno uho).

 

 

fig.2.12 Primjer rekritmana glasnoće za jednostranih oštećenja. Ton fiksne razine u oštećenom uhu alternira se s tonom promjenjive (ugodljive) razine glasnoće u zrdavom uhu. Ispitanici su ugađali razinu intenziteta u zdravom uhu tako da se izjednači s glasnoćom u oštećenom uhu. Prema tome dijagram (puna linija) predstavlja razinu intenziteta (SPL) tona u zdravom uhu u funkciji razine intenziteta u oštećenom uhu u slučaju kad su po glasnoći izjedančeni.  Crtkana linija (nagib 1) predstavlja funkciju za oba zdrava uha.

 

Za oba zdrava uha funkcija zapravo nije pravac nagiba 1, nego je malo na velikim intenzitetima krivulja malo blažeg nagiba zbog toga jer ipistanici izbjegavaju jako glasne zvukove.

 

Pogledamo li dijagram, ton od 60 dB SPL u oštećenom uhu čini se jednako glasnim kao ton od 27 dB SPL u zdravom uhu. Tu se vidi razlika u apsolutnom pragu između oba uha. Međutim, ton od 90 dB SPL u oštećenom uhu čini se jednako glasnim kao ton od 80 dB u zdravom uhu. Treba pretpostaviti da bi se uz veće intenzitete eksperimentiranja krivulja susrela s onom za normalno slušanje.

 


 

 

Utjecaj trajanja na glasnoću zvuka

 

Većina prirodnih zvukova dinamički je modulirana u vremenu. To se posebno odnosi na govor i glazbu. Pokusima je ustanovljeno da osjet glasnoće ovisi o trajanju zvuka. Isto tako zavisi o učestalosti ponavljanja kratkotrajnih impulsa.

 

slika 8.12 Glasnoća isječaka zvuka iz tona od 2 kHz 57 dB SPL u funkciji trajanja tih isječaka.

 

Glasnoća u funkciji trajanja mijenja se (smanjuje) samo za kraće zvukove od 100 milisekundi. Za duže zvukove od 100 ms, glasnoća je neovisna o njihovu trajanju. Na slici 8.12 prikazana je glasnoća (soni na ordinati) isječaka tona od 2 kHz. (Ton od 2 kHz upotrijebljen je umjesto tona od 1 kHz zato jer dozvoljava veće skračivanje bez bitnog utjecaja proširenja spektra) Isječci tona oblikovani su postepenim počecima i zavšecima.

Glasnoća se smanjuja s faktorom 2 za skračivanje zvuka faktorom 10.  To znači, ako ton skratimo od 100 ms na 10 ms, glasnoća mu padne od 4 sona na 2 sona. Nadalje, ekstrapoliramo li krivulju, skraćenje do 1 milisekude dovest će do redukcije na glasnoću od 1 son.

 

slika 8.13 Razina glasnoće isječaka tona od 2 kHz od 57 dB SPL u funkciji njihova trajanja. Crtkane linije predstavljaju upotrebljivu aproksimaciju. 

 

Usporedimo li podatke slike 8.12 sa slikom 8.13, vidimo prije opisanu zavisnost, ovdje na drugi način prikazanu. Razina glasnoće (izražena fonima) opada za 10 fona ako se trajanje smanji 10 puta.  Slična se zavisnost nalazi ako se eksperimentira i drugim frekvencijama.

 

Kako vidimo na dijagramu 8.13, ton 2 kHz trajanja 5 ms ima razinu glasnoće od 47.5 fona. Takav je zvučni isječak upotrijebljen za promatranje zavisnosti o njegovu ponavljanju (repetition rate).

 

 

slika 8.14 Razina glasnoće isječka od 5 ms trajanja tona od 2 kHz 57 dB SPL , u funkciji o broju ponavljanja (u sekundi) Uz 200 ponavljanja u sekundi postiže se kontinuriani ton.

 

Do otprilike 5 ponavljanja u sekundi takav tonski isječak ima približno istu razinu glasnoće kao i jedan izolirano emitiran, to jest  47.5 fona. Uz veću učestalost tonskih isječaka razina glasnoće raste postepeno sve do učestalosti od 200 puta u sekundi, kad se niz impulsa pretvara u kontinuirani ton, a razina glasnoće dosegne razinu dugotrajnih tonova 60 fona.

 

 

TONSKA VISINA

(Zwicker-Fastl)

 

Izraženost tonske visine  - “pitch strentgh

 

Osjet tonske visine nije rezerviran za zvukove isključivo harmoničnog (glazbenog) karaktera.  Svi zvukovi provociraju nekakav osjet tonske visine, ali taj osjet nije jednako izrazit, određen, pouzdan. Odatle ideja da se zvukovi u vezi s tonskom visinom mogu poredati prema tome koliko siguran, definiran osjet tonske visine provociraju. Na primjer, čisti ton od 1 kHz pobudi vrlo jasan osjet tonske visine, dok šum, propušten visoko propusnim filtrom granične frekvencije 1 kHz pobudi osjet približno jednake tonske visine ali ne tako jak, pouzdan. 

 

“Jačina” osjeta tonske visine može se kvantificirati metodom procjene veličine (magnitude estimation).

 

Na slici 5.24 prikazana je shema različitih tipova zvukova, rangiranih prema jačini osjeta tonske visine koji pobuđuju, od čistog tona, preko različitih kompleksnih harmoničnih zvukova do šumova na različite načine filtriranih.

 

Fig. 5.24 Shematski prikaz zvukova upotrebljenih za promatranje jačine tonske visine.

 

Slika 5.25 a-c prikazuje relativnu jačinu osjeta tonske visine za različite tipove zvukova 1 – 11. Svaki dijagram odnosi se na drugu frekvencijsku zonu (125 Hz, 250 Hz i 500 Hz). Vidimo da jačina osjeta tonske visine opada na sva tri dijagrama, uz veći redni broj (tip zvuka). Najjači osjet tonske visine pobuđuje čisti ton (zvuk br. 1). Jačina tonske visine kompleksnih tonova prosječno postiže upola slabiji osjet tonske visine. Različite vrste šumova (zvukovi 7 –11) pobuđuju 5–10 puta slabiji osjet tonske visine od čistog tona. Zvuk br. 4, uskopojasni šum jedini je izuzetak, i njegov “pitch strength” može se usporediti s onim kompleksnih tonova. Širokopojasni šumovi ne pobuđuju nikakav osjet tonske visine, slično kao visoko-propušteni ako je granična frekvencija relativno nisko (zvuk br. 11).

 

Slika 5.25 a,bc

 

Dakle, zvukovi s linijskim spektrom (diskretne frekvencijske komponente) pobuđuju relativno jasan osjet tonske visine, a zvukovi kontinuiranog spektra (šumovi) relativno slab osjet tonske visine. Izuzetak je samo uskopojasni šum.

 

Slika 5.26 Relativna jačina tonske visine u funkciji trajanja čistiog tona 1 kHz, 80 dB SPL.

 

Uz veće trajanje, tonska visina je izraženija. Do trajanja od 300 milisekundi, jačina tonske visine linearno raste s logaritmom trajanja.

 

Slika 5.27 Relativna jačina tonske visine čistog tona od 1 kHz, trajanja 500 milisekundi u funkciji njegove razine.

 

Povišenjem razine reprodukcije, relativna jačina osjeta tonske visine također se povećava i to 10% za povećanje razine od 10 dB. U dinamičkom rasponu od 20 do 80 dB SPL, jačina osjeta tonske visine poraste s faktorom 2,5. U istom dinamičkom rasponu registriramo 100 puta veći osjet glasnoće. Unatoč tome što osjet glasnoće zavisi od trajanja tona, smanjenu jačinu osjeta tonske visine uz kraće zvukove ne možemo povezati s  manjom glasnoćom.

 

Slika 5.28 Relativna jačina osjeta tonske visine čistih tonova, s 80 dB SPL  i trajanja 500 ms, u funkciji frekvencije test tona.

 

Najizraženiji osjet tonske visine pobuđuju tonovi srednjih frekvencija. Prama slici 5.28 vidimo da tonovi niskih frekvenicija (125 Hz) i tonovi viskokoih (8-10 kHz) pobuđuju tri puta slabiji osjet tonske visine nego tonovi oko 1,5 kHz.

 

Odnos tonskih visina (pitch ratio)

 

Osjet tonske visine može se mjeriti (uspoređivati) u odnosu na frekvencijsku skalu u hercima, na različite načine. Jedna je od mogućnosti ispitanicima emitirati ton frekvencije f1, i zahtijevati da namjest ton koji će im se činiti po tonskoj visini upola tako visoko ili dvostruko tako visoko.

Ako se emitira ton niske frekvencije (npr. 440 Hz) i od ispitanika se traži da namjesti drugi ton tako da bude po tonskoj visini upola niže, oni namještaju oko 220 Hz. To znači da za niske frekvencije, raspolovljavanje" osjeta tonske visine odgovara frekvencijskom omjeru 2:1. Međutim, za visoke frekvencije to nije slučaj. Ako se od ispitanika traži da odaberu upola niži ton od tona koji ima 8 kHz, oni neće namjestiti 4 kHz nego oko 1300 Hz. Unatoč velikim razlikama među ispitanicima ova se vrijednost potvrdila u različitim eksperimentima. Kad se promatraju frekvencije iznad 1 kHz, odnos dvostrukosti u tonskoj visini uvijek predstavlja veći odnos od 1:2 u frekvencijskom smislu. To je prikazano punom linijom na dijagramu na slici 5.1. Crtkana linija predstavlja odnos 2:1. Puna linija i isprekidana poklapaju se otprilike do  frekvencije od 1 kHz, a odstupanje se odnosi na više frekvencije. Slučaj da se frekvencija od 1300 Hz čuje kao polovina tonske visine frekvencije od 8 kHz prikazan je na dijagramu strelicom i isprekidanim linijama.

 

fig. 5.1 Frekvencija i odnos tonskih visina. Povezanost frekvenicije f1 i frekvencije koja se po tonskoj visini percipira kao polovica početne.

 

Eksperimenti s raspolovljavanjem ili udvostručavanjem tonske visine neće dati apsolutne veličine. Za to je potrebno osnovati referentnu vrijednost. Preporučljivo je odabrati referentnu vrijednost niske frekvencije u zoni u kojoj je osjet tonske visine proporcionalan frekvenciji (koeficijent proporcionalnosti 1). Točkasta linija na dijagramu (sl. 5.1) dobivena je translatiranjem pune linije lijevo faktorom 2. Referentna točka označena je križićem.

fig. 5.2

 

Frekvencija od 8 kHz odgovarati će 2100 mela. Kako se upola niži ton od 8 kHz namješta na oko 1300 Hz, to  znači, da 1300 Hz predstavlja 1050 mela.

 

Pomaci tonske visine

 

Tonska visina čistih tonova djelomično zavisi i od intenziteta kojim se reproducira. Tako ton od 200 Hz s 80 dB razine zvučnog tlaka (SPL) zvuči dublje nego ako se reproducira s 40 dB razine zvučnog tlaka. Međutim, isti eksperiment s 6000 Hz daje suprotan rezultat – glasniji ton čini se višim.

 

fig.5.3 Pomak tonske visine čistog tona (parametar, 0,2, 1, 4 i 6 kHz) u zavisnosti o razini reprodukcije u odnosu na tonsku visinu pri razini od 40 fona.

 

Prema tome ako se tonska visina čistog tona treba točno precizirati, treba navesti osim frekvencije i razinu reprodukcije.

 

 

Maskirajući zvukovi djeluju na pomak tonske visine

 

fig. 5.4 Pomak tonske visine test tonova, djelomično maskiranih širokopojasnim šumom u zavisnosti o frekvenicji test tona. Razina maskirajućeg šuma je 60 dB spl, a razina tonova 50 dB. Frekvencijska je skala označena u hercima i barkovima.

 

Pomak (promjena) osjeta tonske visine može se dogoditi ako je uz test ton prisutan i neki drugi ton, koji ga djelomično maskira. Slika 5.4 prikazuje pomak tonske visine čistim tonovima u prisustvu širokopojasnog šuma. Tonska visina u prisustvu maskirajućeg šuma čini se višom i do 3 %. Višim frekvencijama pomak u tonskoj visini je veći.

 

 

Ako je maskirajući zvuk uskopojasan, dobivaju se veći pomaci tonske visine:

fig.5.5 Pomak tonske visine čistog tona koju uzrokuje maskirajući tona niže frekvencije, u funkciji razlike razina između test tona i maskirajućeg tona. Parametar je frekvencija test tona.

 

Maskirajući zvuk je čisti ton upola niže frekvencije od test tona. Dijagram prikazuje zavisnost veličine pomaka tonske visine od razlike razina maskirajućeg i test tona. Za ton od 300 Hz može se primijetiti pomak tonske visine do 8 %. Za tonove od 1-4 kHz samo 1 %. Međutim ako se ton od 4 kHz maskira (ne upola nižim nego s 3 kHz, dobiava se povišenje tonske visine za 6 %.

 

fig. 5.6  Pomak tonske visine čistih tonova u prisustvnu maskirajućeg tona više frekvencije, u funkciji razlike njihovih razina. Parametar je frekvencija test tona.

 

Tonska visina kompleksnih tonova

 

Kompleksan ton može se promatrati kao suma nekoliko čistih tonova. Ako su frekvencije čistih tonova koji su sastavnice kompleksnoga cjelobrojni umnošci frekvencije osnovnog tona, onda je takav kompleksan ton harmoničan. Zapravo su kompleksni tonovi daleko češći u svakodnevnoj pojavnosti nego čisti tonovi (npr. vokalski govora, glazbeni tonovi).

Tonska visina kompleksnim tonovima može se ustanoviti usporedbom s čistim tonom. Naime, kompleksni tonovi unatoč tome što se sastoje od više sastavnih komponenata, ne pobuđuju i simultano više tonskih visina nego samo jednu ili barem jednu koja je najistaknutija. U slučaju harmoničnih tonova, tonska visina zavisi o frekvencijskom razmaku između sastavnih komponenata, odnosno o frekvenciji osnovnog tona. Međutim, pogleda li se pažljivije, nije baš tako: čisti tonovi po tonskoj visini jednaki kompleksnima mogu biti i do 3% niže frekvencije od frekvencije osnovnog tona. Primjer tomu vidimo na slici 5.8.

 

fig. 5.8 Relativna frekvencijska razlika između frekvencije osnovnog tona kompleksnog zvuka i čistog tona koji ima jednaku tonsku visinu, u funkciji fundamentalne frekvencije. Razina kompleksnog tona je 50 dB a čistog tona 60 dB (ispod 100 Hz, 70 dB).

 

Za frekvencije ispod 1000 Hz, ta je razlika sve veća. Na primjer, kompleksan ton fundamentalne frekvencije 60 Hz pobuđuje jednaku tonsku visinu kao čisti ton od 58,2 Hz. Ili, kompleksan ton fundamentalne frekvencije 400 Hz po tonskoj se visini izjednačuje s čistim tonom frekvencije 1% niže, odnosno s 396 Hz. Iznad 1000 Hz, kompleksni tonovi i čisti tonovi pobuđuju jednaku tonsku visinu.

 

fig.5.9 Pomak tonske visine kompleksnih tonova u  funkciji njihove razine. Fundamentalna frekvencija je 200 Hz, a razina čistog tona s kojim se uspoređuje je 50 dB.

 

Tonska visina kompleksnih tonova zavisi i od razine reprodukcije. Slika 5.9 prikazuje pomak tonske visine kompleksnog tona fundamentalne frekvencije 200 Hz u funkciji njegove razine. S povećanjem razine (reporodukcije) tona percipira se sve niža  tonska visina.  Slično je ponašanje ustanovljeno i kod zavisnosti tonske visine o razini reprodukcije za čiste tonove niskih frekvencija (fig.5.3). To bi značilo da se tonska visina kompleksnom tonu temelji na tonskoj visini njegovih niskih komponenata. To je u skladu i s podacima prikazanim slikom 5.8, to jest, čisti tonovi imaju nižu tonsku visinu od kompleksnih tonova jednake fundamentalne frekvencije. Ako se niski harmonici uklone iz kompleksnog tona, tonska visina jedva se mijenja, odnosno jednaka je tonskoj visini čistih tonova. 

 

Tonska visina koju pobuđuje komplesan ton s uklonjenim niskim harmonicima naziva se virtualnom tonskom visinom (virtual pitch) ili rezidualnom tonskom visinom. Međutim, nije svejedno koje su sastavne komponente kompleksnog tona prisutne (dostupne) i koja je fundamentalna frekvencija da bi se mogla percipirati virtualna tonska visina.

 

fig. 5.10 Zona virtualne tonske visine. Fundamentalna frekvencija u funkciji najniže frekvencijske komponente (visokoporpusni filtar). Zasijenjena površina predstavlja zonu frekvencijskih komponenata koje pobuđuju virtualnu tonsku visinu.

 

Ako je fundamentalna frekvencija kokmpleksnog tona 50 Hz, najniža sastavna komponenta kompleksnog zvuka mora biti ispod 1000 Hz da bi bilo moguće osjetiti tonsku visinu. Dakle, najmanje od dvadesetog harmonika naviše. Isto tako, na dijagramu 5.10 možemo vidjeti da u  slučaju kad su prisutne samo komponente kompleksnog tona iznad 5000 Hz, ne može se osjetiti tonska visina.

 

 

Tonska visina inharmoničnog kompleksnog zvuka

 

iz Houtsma:

Ako sastavne komponente kompleksnog tona nisu harmonično organizirane (cjelobrojni umnošci) tada do osjeta tonske visine dolazi se različitim strategijama. «Odvaguje» se što ima na osjet tonske visine jači utjecaj: najsnažnija komponenta, ili približno harmoničan odnos ili...

 

Na primjer, kompleksan ton sastavljen od 800 Hz, 1000 i 1200 Hz, pobuđuje osjet visine koji se uspoređuje s tonom od 200 Hz (nepostojećim fundamentalnim tonom). Međutim, što se dogodi kad svakoj od sastavnih komponenata povisimo frekvenciju za 20 Hz? U tom slučaju, frekvencije 820, 1020 i 1220 Hz više nisu cjelobrojni umnošci niti jedne moguće zajedničke fundamentalne frekvencije. Slušni sustav u takvom slučaju prihvaća «približnu harmoničnost».

820/4=205

1020/5=204

1220/6=203.3

 

 

850/4=212,5

1050/5=210

1250/6=208,27

 

(212,5+210+208.27)/3=210,93

 

Ovakvu kombinaciju sastavnih komponenata može se razumijeti kao približno četvrti, peti i šesti harmonik frekvencije 210 Hz. (demonstracija 21. track 38 i 39 Houtsma et al. 1987)

 

Tonska visina šuma

 

Šum koji je frekvencijski strmo omeđen (filtriran) može pobuditi osjet tonske visine. U tom slučaju tonska visina nisko ili visoko propuštenog šuma odgovara graničnoj frekvenciji.

 

fig. 5.14 Tonska visina nisko propuštenog i visoko propuštenog šuma. Frekvencija po tonskoj visini usporedivog tona u funkciji granične frekvencije (cut-off ). Kružići se odnose na nisko propušten šum, a trokuti na visokopropušten šum.

 

Rezultati na dijagramu 5.14 dobiveni su vrlo strimim filtriranjem šuma, 120 dB/oc.

 

Prema ovome, trebalo bi očekivati da pojasno propušten šum pobuđuje dvostruk osjet tonske visine: jedan koji proizlazi iz donje granične frekvencije i jedan za koji je odgovorna gornja granična frekvencija pojasa. Rezultati eksperimenata s pojasno propusnim filtrima prikazani su na fig. 5.15. 

 

fig. 5.15 a-c Tonska visina pojasno propuštenog šuma. Razlika između frekvencije čistog tona izjednačene po tonskoj visini u funkciji središnje frekvencije pojasno propuštenog šuma. Točke predstavljaju pojedine usporedbe tonske visine. pune linije predstavljaju granične frekvencije pojasa. Širina pojasa šuma na dijagramima je: a – 3kHz, b - 600 Hz i c – 200 Hz.

 

U slučaju kad je širina pojasa šuma 3 kHz, većina usporedbi poklapa se s donjom ili gornjom graničnom frekvencijom pojasa. No, ako je središnja frekvencija pojasa 1700 Hz, samo je gornja granična frekvencija pobudila osjet tonske visine. Što je središnja frekvencija viša, i što je pojas šuma uži, sve je više izjednačavanja tonske visine sa središnjom frekvencijom ili nekom unutar pojasa.

 

Tonska visina vrlo uskog pojasa šuma zavisi o njegovoj središnoj frekvenciji.

 

fig. 5.16 Tonska visina uskopojasnog šuma. Frekvencijska razlika između usporedivog tona (matching frequency) i središnje frekvencije pojasa šuma u funkciji središnje frekvencije pojasa šuma. Crtkane linije predstavljaju veličinu diferencijalnog praga za čiste tonove.

 


 

 

DIFERENCIJALNI PRAG

 

prema Zwicker-Fastl

 

Diferencijalnim pragom u psihofizici naziva se najmanja promjena ili razlika u veličini signala koja se može primijetiti. Kad se radi o akustičkom signalu, važno je razlikovati dva načina prezentiranja signala: najmanje primjetljivo variranje nekog od parametara signala (što se može usporediti s variranjem razine vode), i druge strane, najmanju primijetljivu razliku između dva signala (kao što dvije jabuke mogu biti različite). U ovom drugom slučaju, dva se akustička signala prezentiraju odvojena pauzom.

 

Promijene amplitude

 

Čini se da se percepcija razine (amplitude) zvuka temelji na veličini od oko 1 dB.

 

Prag za amplitudnu varijaciju

 

Nagla promjena razine zvučnog tlaka sinusoidalnog tona uzrokuje ne samo percepciju promjene razine nego i čujni "klik", zvuk šireg spektra koji nastaje u trenutku nagle promjene. Da bi se izbjegao taj klik, jedva primjetljiva razlika u razini signala često se mjeri amplitudno moduliranim tonom.

Slika 7.1 Jedva primjetljiva amplitudna modulacija (lijeva ordinata) i odgovarajuća varijacija razine (desna skala) za ton od 1 kHz i za bijeli šum (WN) u zavisnosti od razine zvučnog tlaka koja varira (modulacija) 4 puta u sekundi.

 

S dijagrama na slici 7.1 možemo očitati da u slučaju kad se razina čistog tona od 1 kHz (puna linija) varira 4 puta u sekundi (fmod=4 Hz) onda na malim razinama (tihi zvuk) potrebne su velike varijacije da bi se mogle primijetiti, do 20 % (0,2 na lijevoj ordinati). Uz razinu od 40 dB stupanj modulacije koji se može primijetiti je oko 6%. Za veće razine potrebna veličina modulacije da bi se mogla primijetiti i dalje opada, tako da na razini od 100 dB iznosi oko 1%.

 

Za bijeli šum (crtkana linija) situacija je drugačija. Za niske razine, slično kao za čisti ton, potrebna je promjena od 20% da bi se primijetila. Porastom razine šuma kojim se eksperimentira, prag vrlo brzo opada i na 30 dB može se primijetiti već promjena od 4%. Ta sa veličina daljnjim porastom razine više ne mijenja sve do razine od 100 dB.

 

Ako promatramo čisti ton od 1 kHz, veličina modulacije od 6% , što odgovara razlici razine od 1 dB ima tendenciju stabiliziranja. Ta se veličina često ponavlja u psihoakustičkim pokusima. Ipak, za više razine ta je veličina još manja.

 

Zavisnost primijetljive amplitudne modulacije  o frekvenciji modulacije prikazana je na slici 7.2.  Dvije pune linije odnose se na ton od 1 kHz razina od 40 i 80 dB. Kao što se na slici vidi, uho je najosjetljivije na amplitudne modulacije ako je njihova učestalost 2 do 5 puta u sekundi. Krivulje dosižu minimum oko 4 Hz. Nakon toga potrebna veličina modulacije povečava se do otprilike učestalosti modulacije od 50 puta u sekundi (50 Hz) i nakon toga ponovo naglo opada.  To ponovo smanjenje primjetljive veličine modulacije s obzirom na povišenje frekvencije (učestalosti) modulacije uzrokovano je pojavom novog čujnog zvuka.

 

Slika 7.2 Jedva primjetljiv stupanj amplitudne modulacije u funkciji frekvencije modulacije za ton od 1 kHz (pune linije) i za bijeli šum (crtkana linija).

 

(Slijedi diskusija i pokus sa uskopojasnim šumom. Postavlja se pitanje odakle ta razlika između pune i ctkane linije na slici 7.1, odnosno kako to da prag za šum uz veće razine ne pada dalje kao za ton. )

 

Just – Noticeable Level Difference

Najmanja primjetljiva razlika u razinama

Unatoč razlikama u veličini diferencijalnog praga ako se radi o percepciji varijacije (amplitudne modulacije) koje su posljedica različitih eksperimentalnih postupaka, tako dobivene vrijednosti uvijek su veće nego ako se traži razlika u razini dvaju zvukova međusobno odvojenih pauzom. Tipičan primjer vidimo na slici 7.4. Lijevi dijagram odnosi se na promjenu intenziteta a desni na promjenu frekvencije čistog tona od 1 kHz.

 

 

slika 7.4 Jedva primjetljive promjene razine (lijevo) i promjene frekvencije (desno) za ton od  1 kHz, u funkciji intenziteta tona kojim se eksperimentira. Linije koje povezuju prazne kružiće odnose se na rezultate dobivena amplitudnom modulacijom (lijevo) i frekvencijskom modulacijom (desno), a linije povezane ispunjenim kružićima odnose se na amplitudne odnosno frekvencijske razlike (tonovi koji s e uspoređuju odvojeni su pauzom od 200 ms)

 

Ako promotrimo lijevi dijagram: najmanja primjetljiva varijacija amplitude za razine eksperimentiranja 30 do 70 dB iznosi od 2 do 0,7 dB. U istom dinamičkom rasponu najmanja primjetljiva razlika među odvojeno emitiranim tonovima iznosi 0,7 do 0,3 dB. Dakle, pokusi s amplitudnim variranjem daju 2,5 puta veće vrijednosti diferencijalnog praga (izražavamo li se u decibelima) u odnosu na pokuse s tonovima različitih razina odvojenim pauzom. Krivulje pritom ostaju paralelne (slična zavisnost o razini eksperimentiranja). Za razliku od toga, veličina diferencijalnog praga za promjenu frekvencije u prikazanom dinamičkom rasponu ne zavisi o razini kojom se eksperimentira (vidi desni dijagram). Faktor razlike između krivulja za frekv. dif. prag je oko 3.

 

Na slici 7.5 vidimo kako veličina intenzitetskog diferencijalnog praga zavisi od razine zvučnog tlaka kojom se eksperimentira.  U dinamičkom rasponu od 40 do 100 dB SPL veličina jedva primjetljive razlike pada od 0,4 do 0,2 dB. Što se više približavamo pragu sluha, veličina diferencijalnog praga brže raste. Ovakva zavisnost ustanovljena je za različite frekvencije, ne samo za 1 kHz.

 

Slika 7.5 Jedva primjetljiva razlika razine (intenziteta) tona od 1 kHz u funkciji razine zvučnog tlaka kojom se eksperimetira.

 

Da bi se mjerila najmanja amplitudna razlika (ne modulacija) umeće se pauza između signala. Veličina diferencijalnog praga ne zavisi o veličini pauze u rasponu 0,1 do 2 sekunde. 

Međutim, rezultati (veličina diferencijalnog praga) zavise o trajanju signala. Slika 7.6 prikazuje tu zavisnost.  Kraće trajanje signala povećava diferencijalni prag.

 

Slika 7.6 Jedva primjetljiva razlika u razini tona od 1 kHz u odnosu na rezultate dobivene uz trajanje od 200 ms, u zavisnosti od trajanja signala (tone burst)

 

 

Prag za detekciju frekvencijske modulacije

 

Signal u ovom slučaju je čisti ton neke frekvencije koji se onda (sinusoidalno)modulira do f+df prema višim frekvencijama i do f-df prema nižim. Prema tome, veličina varijacije je zapravo 2df. (d znači delta). Kao i prije, za amplitudne modulacije, ustanovljeno je da je naš slušni sustav najosjetljiviji na učestalost modulacije od 4 puta u sekundi (4 Hz).

Slika 7.8 Jedva primjetljiva frekvencijska modulacija u funkciji frekvencije tona uz učestalost modulacije 4 puta u sekundi. Dijagram se odnosi na razinu glasnoće 60 fona.

 

Na slici 7.8 prikazana je veličina jedva primjetne frekvenijcske modulacije u zavisnosti od frekvencije tona "nositelja" (carrier frequency). Na niskim frekvencijama, do 500 Hz, veličina jedva primjetljive modulacije (JND,  diferencijalni prag) je oko 3,6 Hz. Iznad 500 Hz veličina 2df raste proporcionalno frekvenciji i to s 0,007 f. To znači da je u tom dijapazonu veličina dif. praga oko 0,7% od frekvencije nositelja. Za frekvencije ispod 500 Hz relativna veličina dif. praga u odnosu na frekvenciju zapravo se povećava, pa za 50 Hz, veličina od 3,6 Hz predstavlja  pola tona glazbene ljestvice. To znači da smo slabo osjetljivi za promjenu frekvenicije ako se radi o niskim frekvencijama. To međutim za glazbu nema velikog značenja jer zvuk glazbenih instrumenata nije čisti ton nego sadrži harmonike viših frekvencija. Za precizno ugađanje žica kontrabasa koriste se alikvotni tonovi a ne osnovni ton.

 

Na slici 6.10 vidi se velika podudarnost između veličine kritičnog pojasa i veličine diferencijalnog praga (vidi diskusiju uz sliku 6.1)

 

Slika 7.9 Broj "frekvencijskih stepenica" temeljenih na veličini diferencijalnog praga za frekvencijsku modulaciju, koji su nanizani jedan do drugoga. Svaka točka na dijagramu predstavlja 25 konsekutivnih veličina dif. praga. Crtkana linija predstavlja aproksimaciju proporcionalnosti za niske frekvencije.

 

Na dijagramu nije bilo moguće ucrtati svaki diferencijalni prag, nego je označen svaki dvadestpeti. Ako promatramo od nule, broj pragova proporcionalan je frekvenciji (zato je crtkana linija pravac). Nakon 500 Hz, funkcija ocrtana nizom točaka počinje odstupati od pravca proporcionalnosti i čini se da se ponaša logaritamski: frekvencijski pomak (dijapazon) od jedne oktave odgovara zbroju 100 diferencijalnih pragova (4 točke). Ukupno je moguće nadovezati 640 stepenica u dijapazonu do 16 kHz.

S obzirom na to da je od helikotreme do ovalnog prozora s razmakom od po 9 mikrona smješteno 3600 unutarnjih osjetnih stanica, možemo deducirati da razmak jednog diferencijalnog praga obuhvaća 6 unutarnjih osjetnih stanica. Slična funkcija dobiva se i u vezi s kritičnim pojasima (vidi poglavlje 6).

 

Zavisnost veličine diferencijalnog praga o glasnoći (razini prezentacije) relativno je mala. Smanjenje razine glasnoće od 100 do 30 fona poveća diferencijalni prag s faktorom od samo 1,5.  Bliže pragu sluha, razlika se bitno povećava.

 

Jedva primjetna frekvencijska razlika (tonovi odvojeni pauzom)

 

Zavisnost veličine diferencijalnog praga za razlikovanje dvaju tonova (ne modulacija) o frekvenciji i razini prezentacije slična je kao u dosada opisivanom slučaju frekvencijske modulacije, ali su apsolutne vrijednosti 3 puta manje. Dakle, naš je slušni mehanizam osjetljivi ako treba detektirati frekvencijsku razliku dvaju tonova nego u slučaju da treba detektirati modulaciju. Pauza koja odvaja signale, paradoksalno, povećava osjetljivost. Realna aproksimacija dobiva se ako krivulju na slici 7.8 pomaknemo prema dolje za faktor 3. Tada u području ispod 500 Hz možemo primijetiti frekvencijsku razliku od 1 Hz a prema višim frekvencijama ta se razlika povećava proporcionalno frekvenciji, približno 0,002f.

 

Posebno treba naglasiti da se ove dvije vrste podataka, rezultati koji se dobiju mjerenjem frekvencijske modulacije i rezultati koji se dobiju usporedbom dvaju pauzom odvojenih tonova, u literaturi se često miješaju.

 

Veličina jedva primjetljive frekvencijske razlike zavisna je o razini prezentacije samo za razine glasnoće ispod 25 fona. Na razini 5 fona DL je pet puta veći nego na razini 25 fona. Sve se ovo odnosi na tonove dužeg trajanja od 200 ms. 

 

 //kod Zwickera originalno piše 25 dB, ali to bi onda vrijedilo samo za određeno frekvencijsko područje, jer za niske frekvencije 25 dB ne mora doprijeti niti do praga sluha - Bakran//

Slika 7.11 Frekvencijska diskriminacija kratkotrajnih čistih tonova. Jedva primjetljiva frekvencijska razlika u funkciji trajanja tona.

 

Ako tonovi kojima se uspoređuje frekvencija traju kraće od 200 ms, diferencijalni se prag povećava. To je povećanje, međutim, frekvencijski zavisno.

 


MASKIRANJE

 

prema  Zwicker i Fastl (1999) Psychoacoustics

 

Maskiranje u svakodnevnom životu ima važnu ulogu. Za razgovor na pločniku u tihoj ulici, na primjer, dovoljno je malo zvučne energije da bi govornici razumjeli jedan drugoga. Međutim, ako prođe kamion, a nismo povećali glasnoću (snagu) govorenja, naš sugovornik nas neće čuti, odnosno, razumjeti. U takvom slučaju možemo pričekati da kamion prođe, pa onda nastaviti konverzaciju, a možemo povećati snagu govorenja, odnosno glasnoću. Sličan efekt događa se u glazbi: ako jedan instrument svira glasno, on može maskirati zvuk drugog instrumenta koji svira tiho. Ako glasan instrument ima pauzu,  ponovno se začuje onaj tihi instrument. Ovo su tipični primjeri simultanog maskiranja. Efekt maskiranja kvantitativno se može izraziti određivanjem praga maskiranja. Maskirajući prag (masked threshold) je razina zvučnog tlaka test tona koja je potrebna da se dosegne prag slušanja u prisustvu maskirajućeg  zvuka. Maskirajući prag (prag uz prisustvo maskirajućeg tona) gotovo uvijek je viši od praga u tišini, osmi u slučaju kad su test ton i maskirajući zvuk jako različiti  po svojim spektralnim svojstvima.

Efekt maskiranja može se primijetiti i onda kad maska i signal nisu istovremeni. Ako signal prethodi maski onda se radi o maskiranju unazad (backward masking), a kad signal nastupa nakon što je maska prestala, onda je to maskiranje unaprijed (forward masking).

 

Maskiranje čistog tona šumom

 

U psihoakustici se koriste različite vrste šuma. Takozvani "bijeli šum" predstavalja širokopojasni šum kojem je spektralna gustoća (spectral density) neovisna o frekvenciji, ne provocira osjet tonske visine niti ritma. Za razliku od bijelog šuma, ružičasti šum ima visoke frekvencije atenuirane. U ovom poglavlju bit će riječi o još jednoj vrsti šuma: jednoliko maskirajućem šumu (uniform masking noise).

 

Čisti tonovi maskirani široko pojasnim šumom

 

Slika 4.1 predstavlja razinu praga (threshold level) u funkciji frekvencije test tona uz prisustvo bijelog šuma nekoliko različitih razina gustoće (denity level).

slika 4.1  Razina upravo maskiranog test tona (prag) bijelim šumom. Crtkana krivulja predstavlja prag u tihim uvjetima (bez šuma). Parametar inad uz krivulja je razina gustoće šuma. Dodamo li tim vrijednostima 40 dB dobijemo razinu zvučnog tlaka.

 

Premda se za bijeli šum definira da je spektralno neovisne gustoće, to znači istog intenziteta u svakom jednko širokom pojasu u cijelom spektru od 20 Hz do 20 kHz, on do 500 Hz djeluje linearno maskirajuće, a za frekvencije iznad 500 Hz efekt maskiranja veći je za 10 dB po dekadi (deset puta veća frekvencija). Na dijagramu je to prikazano točkastom linijom. Za niske frekvencije prag maskiranja je oko 17 dB iznad razine gustoće šuma. Po brojevima koji predstavljaju spektralnu gustoću šuma (lwn) vidimo da i negativne vrijednosti djeluju maskirajuće. Povećanje razine gustoće šuma od 10 dB podiže prag test tonovima također za 10 dB. To znači da široko pojasni šum maskira linearno. Za vrlo niske i vrlo visoke frekvencije, maskirajući prag isti je kao u tišini, odnosno, gubi se efekt maskiranja.

 

Za neka mjerenja potrebno je postići prag maskiranja neovisan o frekvenciji test tona. To se postiže posebnim šumom kojemu je spektralna gustoća ovisna o frekvenciji. Takav se šum postiže tako da predstavlja zrcalnu sliku efekta maskiranja, odnosno da se od 500 Hz naviše atenuira 10 dB po dekadi. Takav šum naziva se jednoliko maskirajućim šumom.

Slika 4.2  Razina upravo maskiranog test tona jednoliko maskirajućim šumom. Gornji dijagram predstavlja potrebno atenuiranje da bie se od bijelog šuma kreirao jednoliko maskirajući šum. 

 

Razina maskiranja prikazana na slici 4.2 podudara se za frekvencije do 500 Hz s onom prikazanom na slici 4.1.

 

Čisti tonovi maskirani uskopojasnim šumom

 

U ovom kontekstu, uskopojasnim šumom smatra se šum širine pojasa  jednakim ili manjim od širine kritčnog pojasa za neku frekvenciju. To znači da je za frekvencije do 500 Hz uži od 100 Hz, a za više frekvencije 0,2 f. Kad se radi o uskopojasnom šumu, za izražavanje razine šuma bolje je koristiti ukupnu razinu šuma umjesto razine gustoće. Ako se zna širina pojasa, razina gustoće jednostavno se transformira u ukupnu razinu.

 

Slika 4.3 prikazuje prag čistog tona maskirnog bijelim šumom širine kritičnog pojasa, središnjih frekvencija 0,25, 1 i 4 kHz. Razina maskirajućih šumova je 60 dB a njihova širina 100, 160 i 700 Hz. Strmina gušenja filtara je više od 200 dB/oc, što je više nego je frekvencijska selektivnost ljudskog uha. Frekvencijska ovisnost maskirajućeg praga za uskopojasni šum centriran oko 1 kHz slična je onoj za 4 kHz, dok je za 250  Hz krivulja nešto šira. Osim toga maksimalan efekt maskiranja se za više središnje frekvencije maskirajućeg šuma smanjuje unatoč tome što je svaki od tri maskirajuća pojasa šuma iste razine intenziteta  od 60 dB. Za 250 Hz maksimum je 2 dB ispod crtkane linije koja predstavlja razinu intenziteta od 60 dB, za 1000 Hz 3 dB, a za 4 kHz 5 dB manje. Lijevi bok krivulje maskiranja vrlo je strm, oko 100 dB po oktavi. Desni bok nešto je manje strm.

 

Slika 4.3 Razina test tona tek maskiranog šumom širine kritičnog pojasa razine 60 dB, središnjih frekvencija 250 Hz, 1 kHz i 4 kHz. Crtkana linija predstavalja prag bez prisustva maske.

Slika 4.4 Razina test tona (tek) maskiranog šumom širine kritičnog pojasa središnje frekvencije 1 kHz i različitih razina intenziteta u zavisnosti o frekvenciji test tona.

 

Na slici 4.4 prikazana je zavisnost praga maskiranja (masked threshold)  o razini šuma. Sve se krivulje strmo uspinju do maksimalnog efekta maskiranja koje je oko središnje frekvencije pojasa šuma. Ta strmina (lijevog boka) neovisna je o razini šuma, a maksimum uvijek doseže 3 dB ispod razine maskirajućeg šuma. Desni bok krivulje maskiranja za više razine šuma sve je položeniji, dakle efekt maskiranja nije linearan. Uleknuće na krivuljama za razine šuma od 80 i 100 dB proizlazi od nelinearnosti našeg slušnog sustava, odnosno, zbog tzv. diferencijalnog tona koji nastaje interakcijom test tona i uskopojasnog maskirajućeg šuma. Kod većih razina test tona, ispitanici prag dosižu slušajući bilo što dodatno pa tako i taj diferencijalni ton koji se čuje sve dok razina test tona ne dosegne točkasti dio krivulje.

 

Čisti tonovi maskirani šumom filtriranim nisko propusnim i visokopropusnim filtrom

 

Maskiranje čistih tonova  bijelim šumom kojem je frekvencijski raspon omeđen niskopropusni i visokopropusnim filtrom prikazano je na slici 4.5. Parametar (0, 20 i 40 dB) je, kao za bijeli šum, razina gustoće intenziteta šuma.

 

Slika 4.5 Razina test tona upravo maskiranog niskopropusnim (low pass) šumom (pune linije), i visokopropusnim šumom (točkaste linije) za različite razine gustoće šuma, u funkciji frekvencije test tona. Granične frekvencije visokopropusno i niskopropusno filtriranog šuma su 900 Hz i 1100 Hz.

 

Na graničnoj frekvenciji masiranje se smanjuje ali ne strminom filtra nego slično kao i kod maskiranja uskopojasnim šumom prikazanim na slici 4.4. Za frekvencije ispod granične za nispopropusno filtrirani šum, efekt maskiranja isti je kao i za bijeli šum. Isto vrijedi i za frekvencije iznad granične frekvencije kad je maskirajući šum filtriran visokopropusnim filtrom. To jest, prag maskiranja izdiže se za 10 dB po dekadi. Ako se pogleda kombinacija strmina prikazanih lijevi bok prikazan točkastom a desni punom linijom, oblik efekta maskiranja isti je kao u slučaju maskiranja uskopojasnim šumom širine kritičnog pojasa.

 

Maskiranje čistih tonova tonovima

 

Unatoč tome što su stimulusi u ovom slučuaju relativno jednostavno definirani, promatranje, eksprimentiranje se susreće s poteškoćama, osobito na srednjim i višim razinama.  Na slici 4.6 prikazan je prag test tona (u funkciji njegove frekvencije) maskiranog čistim tonom od 1 kHz razine intenziteta 80 dB. Ispitanici su reagirali čim bi čuli neki efekt pored zvuka maske. U tom slučaju, kad se frekvenije maske i test tona približe čujni su treptaji. Na primjer, test ton od 990 Hz razine intenziteta 60 dB s maskom proizvodi treptaje  od 10 Hz. Ispitanici u tom slučaju čuju nešto drugo nego kontinuirani maskirajući ton i reagiraju. Treptaji se mogu identificirati još oko 2 kHz i oko 3 kHz.

Drugi je problem u situaciji kad je test ton oko 1400 Hz, razine inetnzitena od 40 dB. Pažljivim ispitivanjem može se ustanoviti da na toj razini ispitanici uz masku ne čuju 1400 Hz nego diferencijalni ton od 600 Hz. Test ton od 1400 Hz s prepoznatljivom tonskom visinom može se čuti tek na razini od 50 dB.

Slika 4.6 Razina test tona maskiranog čistim tonom (1 kHz, 80 dB SPL) u funkciji frekvencije test tona. Crtkanu zonu predstavlja područje treptaja a sivu (točkastu) područje pojave diferencijalnog tona.

 

Maskiranje čistih tonova kompleksnim tonovima

 

Čisti tonovi u prirodi su jako rijetki. Najsličniji su čistom tonu zvuk flaute i pijev nekih ptica. Većina glazbenih instrumenata proizvodi uz osnovni ton i niz harmonika. Razlika u boji glazbenih instrumenata proizlazi iz različitih frekvencijskih spektara njihovih harmonika. Za razliku od flaute koja uglavnom proizvodi osnovni ton bez viših harmonika, truba proizvodi širok spektar harmonika pa može i maskirajući jače djelovati.

Slika 4.10  Razina test tona maskiranog kompleksnim tonom 200 Hz s deset harmonika

Razine pojedinih harmonika označene su kao parametar uz krivulje.

 

Različiti razmaci između maksimuma maskirajućeg efekta pojedinih harmonika proizlaze iz upotrebljene logaritamske frekvencijske skale (apscisa). U skladu s tim manjim razmacima su na višim frekvecijama i "dolovi" plići. U frekvencijskom dijapazonu iznad djelovanja najvišeg harmonika (2 kHz) desni bok krivulje položeniji je za više razine maske. Oktavu,  odnosno dvije oktave iznad frekvencije najvišeg harmonika maskirajući prag približava se pragu detekcije u tišini.

 

 

Psihoakustičke krivulje ugođenosti (tuning curves)

 

Maskirajuće djelovanje tona na tonove može se prikazati na različite načine. Imamo četiri varijable: frekvenciju i razinu maske, te frekvenciju i razinu test tona (signala). Najčešće prikazivali smo prag test tona u prisustvu maske  zavisnosti od frekvencije test tona. Na slici 4.13 a  prikazano je tako maskiranje kao i prag u tišini dobiveno naročitom poluautomatskom metodom – tracking metodom. Taj se prikaz može usporediti s dijagramom na slici 4.6 koji je detaljno opisan prije. Psihoakustičke krivulje ugođenosti slijede obrnutu logiku.  Prikazuje se razina maske potrebna da maskira fiksni test ton male razine, u funkciji frekvencije maske. Taj je princip prikazan (također tracking metodom) na slici 4.13 b. Ispitanik određuje intenzitet maske kojoj se frekvencija postepeno povisuje, tako da test ton bude na granici čujnosti. Dakle, namijesti se neka razina test tona koji je bez maske u čujnom području. Zatim se generira maskirajući ton kojem se i frekvencija automatski postepeno povisuje. Istovremeno povisuje se automatski razina intenziteta maske do trenutka kad ispitanik pritiskom na taster "objavi" da više ne čuje test ton. Od trenutka tog pritiska na taster, razina intenziteta maske automatski se polagano smanjuje dok ispitanik ponovnim pritiskom na taster ne objavi da ponovno čuje test ton i tako to traje dok čitav spektar ne bude skaniran takvim načinom.

Slika 4.13 a, b. Primjeri upotrebe "tracking" metode u mjerenju kontinuiranog praga u tišini i uz prisustvo maske (a), i psihoakustičke krivulje ugođenosti (b). Na slici (a) ordinata predstavlja razinu test tona, a na slici (b) razinu maske potrebnu da se maskira test ton fiksne razine označene zvjezdicom.

 

Vremenski odnosi kod maskiranja

 

Dosada je opisano maskiranje dugotrajnih test i maskirajućih zvukova. U glazbi, a osobito u govoru, protok zvučnih informacija ima vrlo izraženu vremensku strukturu. Glasni zvukovi slijede tihe i obratno. U govoru, vokali su najglasniji zvukovi, a okruženi su relativno tihim konsonantima. Okluzivi su često maskirani okolnim vokalima. //Autori Zwicker i Fastl, ovdje najvjerojatnije misle na čujnost samog šuma eksplizije, a ne na sposobnost identifikacije okluziva jer, poznato je da je u okolnim vokalima dio zvučne informacije koji olakšava identifikaciju.  op. Bakran// To maskiranje djelomično je posljedica odjeka prostora a djelomično je uvjetovano svojstvima slušnog sustava.

Slika 4.17 Shematski prikaz vremenskog djelovanja u maskiranju. Obratite pažnju na to da je za maskiranje unaprijed (post-masking, forward masking) drugo ishodište vremenske skale. Ordinata predstavalja razinu osjeta (broj decibela iznad praga u tihim uvjetima)

 

Da bi se izmjerili vremenski utjecaji u maskiranju, emitira se maska ograničenog trajanja i signali u principu vrlo kratkog trajanja. Zatim se signal koji je zanemarivog trajanja u odnosu na trajanje maske, pomiće bliže i dalje od vremenskih rubova maskirajućeg zvuka. Na slici 4.17 maska traje 200 ms. Razlikuju se tri vremenska razmaka. Maskiranje unazad (backward masking, premasking) događa se u zoni prije početka maskirajućeg zvuka. Tu se primjenjuju negativne vrijednosti vremenskog razmaka. Slijdi područje simultanog maskiranja, a nakon njega područje maskiranja unaprijed, (forward, postmasking). U tom posljednjem vremenskom području maska nije više fizički prisutna a maskirajući efekt još postoji. Maskiranje unaprijed, odnosno, djelovanje maskirajućeg zvuka i nakon njegova kraja može se razumijeti kao postepeno "odumiranje" zvuka (decay), vrijeme potrebno za odmaranje slušnih receptora. Maskiranje unazad s druge strane, ne znači da možemo čuti unaprijed masku koja će smetati. Može se pretpostaviti da je svakom zvuku potrebno neko vrijeme da dopre do svijesti, (built-up time), pa nadalje možemo pretpostaviti da tihom zvuku treba više vremena nego glasnom. Na taj način glasan zvuk koji slijedi tihoga može smetati percepcije tihoga zvuka unatoč tome što je prije počeo.  Efekt maskiranja unazad može se primijetiti samo u vrlo kratkom vremenskom razmaku, do 20 ms. S druge strane, maskiranje unaprijed, uz masku koja traje 200 ms, može se identificirati i do 100 ms nakon prestanka maskirajućeg zvuka. Prema tome, u nesimultanom maskranju, dominantno je maskiranje unaprijed.

 

 

Trajanje signala  kod simultanog maskiranja

 

Prag sluha u tihim uvjetima kao i maskirajući prag zavise o trajanju test tona. To moramo imati posebno na umu za promatranje nesimultanog maskiranja.

slika 4.18 Razina tek čujnog tona (Lt) u funkciji trajanja, za 3 različite frekvencije (0,2, 1 i 4 kHz) u tihim uvjetima, prikazano točkastim krivuljama, i uz dvije razine jednoliko maskirajućeg šuma (40 u 60 dB). Napomena:  Lt je razina kontinuiranog tona iz kojeg su uzeti kraći isječci (tone bursts)

 

Vidimo da za duže signale od 200 ms, prag je konstantan i u tišini i u uvjetima maskiranja. Za kraće signale, što je signal kraći, prag je viši oko 10 dB po dekadi. Ovakav rezultat obajašnjava se time da slušni mehanizam inetegrira zvučni intenzitet do trajanja 200 ms. Frekvencijska zavisnost praga odnosi se samo na mjerenje u tišini kao što je prikazano i prije na slici 4.2.

 

Trajanje signala kod nesimultanog maskiranja

 

Rezultati pokusa s maskiranjem unazad nisu pouzdani, teško se reproduciraju, čak i s uvježbanim ispitanicima. Djelovanje trajanja signala ne može se ispitati jer se ionako eksperimetnira s vrlo kratikim signalima s obzirom na to da se efekt može primijetiti samo u vremenskom razmako do 20 ms. To ujedno znači da je efekt ima relativno malu važnost. // Mogli bismo pretpostaviti da upravo maskiranje unazad djeluje na percepciju šuma eksplozije iza koje slijedi glasan vokalski zvuk. op Bakran//

Maskiranje unaprijed (postmasking, forward masking) djeluje do 200 ms nakon prestanka maske.

Slika 4.22 Razina (peak level) šuma od 20 mikrosekundi, tek čujna u prisustvu šuma trajanja 0,5 s, razine od 40, 60 i 80 dB u zavisnosti od vremena koje je prošlo od prestanka maskirajućeg šuma. Crtkane krivulje predstavljaju ekponencijalni model (koji, kao što se vidi, eksperimentalni podaci ne slijede u potpunosti.

 

Na slici 4.22 vidi se da djelovanje maske na čujnost kratkog impulsa traje do razmaka od 200 ms, i to neovisno o razini maskirajućeg zvuka. Primijećujemo i to da prvih 5 ms nakon kraja maske, prag detekcije ostaje isti kao i kod simultanog maskiranja. Tek nakon toga prag detekcije počinje se smanjivati.

Maskiranje unaprijed zavisi i od trajanja maske. Što duže maska traje, efekt maskiranja je veći.  To vidimo na slici 4.23 s primerom dva trajanja maske, iste razine.

 

Slika 4.23 Maskiranje unaprijed zavisi o trajanju maskirajućeg zvuka. Razina test tona od 2 kHz i trajanja 5 ms označena je u zavisnosti od vremenskog razmaka nakon prestanka maskirajućeg šuma razine 60 dB i dva trajanja  - 5 ms (točkasta linija) i 200 ms (puna linija)

 


KRITIČNI POJAS  -  Critical Badwidth

 

prema Zwicker – Fastl 1999

 

Ideju kritičnog pojasa predložio je Fletcher. On je pretpostavio da je u maskiranju efikasan samo onaj dio (šuma) frekvencijskog spektra koji je neposredno u blizini frekvencije test tona.

 

Kao što je pokazano na slici 4.1 maskiranje bijelog šuma zavisno je o frekvenciji, unatoč tomu što mu je razina gustoće neovisna o frekvenciji. Prag maskiranja neovisan je o frekvenciji samo do 500 Hz, a za više frekvencije prag maskiranja povisuje se 10 dB po dekadi (za deset puta veću frekveciju). Slušni sistem procesira zvukove relativno uskim frekvencijskim pojasima. S obzirom na to da je prag maskiranja do 500 Hz neovisan o frekvenciji, treba pretpostaviti da su u tom frekvencijskom dijapazonu frekvencijski pojasevi koji djeluju maskirajuće, iste širine. Nadalje, s obzirom na to da je bijeli šum iste razine gustoće u čitavom spektru, a iznad 500 Hz prag maskiranja se povisuje, možemo pretpostaviti da je za efekt maskiranja odgovoran širi frekvencijski pojas šuma, i to proširenje je proporcionalno povišenju praga od 10 dB po dekadi.

 

Za niske frekvencije kritični pojas je konstantne širine od 100 Hz. Iznad 500 Hz širna kritičnog pojasa iznosi oko 20 % središnje frekvencije pojasa, odnosno, širina kritičnog pojasa povećava se proporcionalno frekvenciji.

 

Neke metode određivanja kritičnog pojasa

 

Ima različitih metoda određivanja širine kritičnog pojasa. Na slici 6.3 prikazana je jedna od metoda.

Slika 6.3. Prag uskopojasnog šuma smještenog između dva maskirajuća tona iste razine (50 dB) u funkciji frekvenijskog razmaka između dvaju tonova.

 

Šum, centriran oko 2 kHz uskog je pojasa, manje od pretpostavljene veličine kritičnog pojasa. Vidimo da je krivulja maskiranja neovisna o frekvencijskom razmaku među maskirajućim tonovima do neke frekvencije (oko 300 Hz), a nakon toga, uz veći razmak između maskirajućih tonova, prag maskiranja se smanjuje.

 

Slika 6.4.  Prag detekcije test tona maskiranog dvama uskopojasnim šumovima raspoređenim oko test tona, u funkciji razmaka graničnih frekvencija maskirajuših šumova.

 

Na slici 6.4 prikazan je obrnut slučaj. Test ton je čisti ton od 2000 Hz, a lijevo i desno su uskopojasni šumovi koji ga maskiraju. Vidimo da se rezultati podudaraju s onima prikazanim na slici 6.3  (oko 300 Hz).

 

Točka, mjesto gdje se ukrštaju horizontalni dio i nagnuti dio krivulje frekvencijski je razmak koji se naziva  kritičnom pojasom. Ta je vrijednost neovisna o razini maskirajućeg zvuka.

 

Još jedna metoda određivanja kritičnog pojasa, koja je prikazana na slici 6.7, sastoji se u procjeni glasnoće pojasa šuma u funkciji širine pojasa. Šum je pojasno propušten oko središnje frekvencije 2 kHz. Njegova razina (SPL) drži se konstantnom na 47 dB, tako da se kod šireg pojasa mora smanjivati "intesity density level"  - relativni intenzitet po hercu širine pojasa. 

Slika 6.7. Glasnoća (u sonima) pojasno propuštenog šuma oko središnje frekvencije 2 kHz (razine 47 dB) u funkciji širine pojasa šuma.

 

Rezultati pokazuju da je glasnoća u takvim okolnostima nepromijenjena (oko 2 sona) sve dok je širina pojasa šuma manja od veličine kritičnog pojasa, u ovom slučaju, za središnju frekvenciju 2 kHz,  300 Hz. Daljnje širenja pojasa, unatoč tome što se ukupna razina drži konstantnom, dovodi do procjene veće glasnoće i to čak 3 puta veće za velike širine pojasa šuma, kad se dosegne glasnoća širokopojasnog šuma.

 

Critical band rate scale

 

Na temelju raznih metoda određivanja kritičnog pojasa i s velikim brojem ispitanika procijenjena je veličina kritičnog pojasa u cijelom čujnom dijapazonu.

 

Slika 6.8.  Širina kritičnog pojasa u  funkciji (središnje) frekvencije. Crtkana linija predstavlja pojednostavljen prikaz za niski i visoki dio spektra.

 

Kako se na slici 6.8 vidi, do 500 Hz, širina kritičnog pojasa je nepromijenjena i iznosi 100 Hz. Nakon toga, uz više frekvencije kritični se pojas postepeno proširuje, najprije nešto sporije, a nakon 3 kHz brže. Crtkanom linijom označeno je povećanje proporcionalno frekvenciji, i to, 0,2 f.  To znači, za središnju frekvenciju 2 kHz, širina kritičnog pojasa je 0,2*2000 = 400 Hz.

Ako se granične frekvencije kritičnih pojasa nadovežu tako da se gornja granica jednog kritičnog pojasa poklopi s donjom granicom sljedećega, dobiva se Bark frekvencijska skala (prema Barkhausenu, tvorcu jedinice za razinu glasnoće – fon)

 

Tablica 6.1 Bark skala tabelarno: z predstavlja redni broj Barka, fl i fu donja i gornja granična frekvencija, delta fg je širina pojasa a fc središnja frekvencija pojasa.

 

 

Podaci iz tablice 6.1 prikazani su i na dijagramu slika 6.9.

 

slika 6.9. Redni broj pripadnog slijeda Barka u funkciji frekvencije. Obje su koordinate linearne.

 

Prvi Bark odnosi se na frekvencijski dijapazon od 0 -  100 Hz. Drugi je od 100 do 200 Hz i tako dalje.

 

Skala kritičnih pojasa objašnjava razne druge psihoakustičke fenomene, i u korelaciji je s veličinom  frekvencijskog diferencijalnog praga te s frekvencijskim rasporedom osjetnih stanica uzduž bazilarne membrane. Vidi sliku 6.10.

Slika 6.10. Kritični pojas, veličina diferencijalnog praga za frekvencijske promjene i frekvencijski razmak koji odgovara pomaku od 0,2 mm na bazilarnoj membrani.

 

 

 


 

 

 

 

 

 

 

LOKALIZACIJA  IZVORA  ZVUKA U PROSTORU

 

Erasmus Darwin, otac glasovitog Darwina, 1790. godine primijetio je da slijepa osoba, kad uđe u nepoznatu prostoriju, s velikom točnošću, samo na temelju zvuka konverzacije, može odrediti veličinu i oblik prostorije te položaj pojedinih govornika.

Prva istraživanja sposobnosti lokaliziranja izvora zvuka vođena su na otvorenom, izvan prostorije, da bi se izbjegla reverberacija. Pionir je u tim istraživanjima bio Lord Rayleigh, koji je 1870. godine okupio na travnjaku Cambridgea svoje asistente, razmjestio ih u krug i oni su predstavljali različite izvore zvuka. Svoja opažanja iznio je još 1907. godine. Sve što je tada izrečeno potvrđuje se u modernim istraživanjima.

Kronološki, prva je teorija lokalizacije na temelju razlike intenziteta u dva uha, zatim se pojavila teorija fazne razlike i na posljetku teorija razlike u vremenu. Ključni eksperiment koji je potvrdio sve ove tri teorije proveden je 1934. g. na Harwardu. U tom eksperimentu ispitanik je sjedio na okretnoj stolici, zavezanih očiju, tri metra iznad tla (da se izbjegne reverberacija), a na 4 m dugoj okretnoj motki s centrom okretanja u podnožje stolca, bio je pričvršćen zvučnik koji je emitirao tonove do 10 kHz. Rezultat tog istraživanja bio je da točnost lokalizacije (u funkciji frekvencije) iznad 1000 Hz opada i najslabija je na 4000 Hz. Više frekvencije opet se lokaliziraju dobro kao niske. Uzrok je tome to što se mehanizmi lokalizacije ne preklapaju. Oko 4000 Hz fazna razlika više ne funkcionira, a razlika intenziteta još nije dovoljna.

Moderna teorija lokaliziranja zvuka u prostoru temelji se na binauralnom slušanju. Lokaliziranje samo jednim uhom (monoauralno) također je moguće. međutim ni izdaleka tako precizno kao s dva uha.

Tri su osnovna mehanizma lokaliziranja: razlika u intenzitetu, razlika u vremenu i razlika u fazi.

Utjecaj pojedinog od ovih mehanizama provjeravan je u eksperimentima sa slušalicama, jer u prirodnim uvjetima sve su ove razlike u zvuku simultane i ne može se odvojeno promatrati utjecaj pojedinog faktora. To zapravo nisu pokusi lokalizacije, već lateralizacije. Koliko god se čini da su takvi eksperimenti artificijelni, na temelju njih dobro se može predvidjeti ponašanje ispitanika u slobodnom polju (Kuhn, 1977; Mills, 1960).

Razlika u intenzitetu

Ako se svakom uhu posebno privede isti zvuk koji se razlikuje samo po intenzitetu, slušalac ima slušnu sliku pomaknutu (lateralizira) prema uhu u kojem je glasniji. Takva forma zvuka ne nalazi se u prirodi jer se, kad je prirodni izvor zvuka pomaknut iz medijalne ravnine (azimut nula) ujedno je i faza različita, ne samo intenzitet. Razlika u intenzitetu zvuka, kad se izvor pomiče oko glave, nastaje prvenstveno zbog sjene glave, a ne zbog razlike u udaljenosti. Razlika u udaljenosti može na razliku u intenzitetu djelovati samo kad je izvor vrlo blizu glave (pad intenziteta proporcionalan je kvadratu razlike udaljenosti). Sjena glave različito djeluje na različite frekvencije. Zvukovi frekvencije ispod 300 Hz intenzitetski gotovo nisu izmijenjeni čak niti uz azimut 90 stupnjeva. Uz višu frekvenciju razlika u intenzitetu zvuka uzrokovana sjenom glave sve je veća: ton od 10 kHz čak je 30 dB slabiji u suprotnom uhu.

fig. 70. (Stevens i Davis, 1960. str.168)

Iz dijagrama (fig. 70) jasno je da kompleksan zvuk zapravo mijenja oblik spektra. Govorni signal sa svojim specifičnim sastavom, mijenja intenzitet u raličitim ušima prema dijagramu na fig. 71 (Stevens i Davis, 1960. str.169)

Uz azimut 42 i 137 stupnjeva razlika u ukupnom intenzitetu ista je ali zvuk nije iste boje (uha nisu dijametralno suprotno položena nego pod 165 stupnjeva  i primjetan je utjecaj slušne školjke).

U laboratorijskim uvjetima kad se tonovi koji dolaze do ušiju razlikuju samo po intenzitetu, efekt lateraliziranja javlja se kad se pređe određeni prag.

Slika fig. 72 (Stevens i Davis, 1960. str.170) prikazuje jednu vrstu diferencijalne osjetljivosti koje se može usporediti s rezultatima istraživanja diferencijalnog praga osjetljivosti za intenzitet. U ovom je slučaju diferencijalni prag dvostruko veći nego u eksperimnetima u kojima intenzitetski različit signal dopire simultano u oba uha.

Veličina lateralizacije proporcionalna je veličini razlike intenziteta izraženoj brojem decibela.

fig. 71 (Stevens i Davis, 1960. str.169)

fig. 72. Stevens i Davis, 1960. str.170.

 

Utjecaj razlike u fazi

Ako je izvor zvuka izvan medijalne ravnine (izvan azimuta 0 stupnjeva) nastaje razlika u udaljenosti koju zvuk mora preći od izvora do receptora. Za impulsne zvukove ta razlika u udaljenosti uzrokuje razliku u vremenu stizanja, a za kontinuirane razliku u fazi zvučnog vala. Uz pretpostavku da neuralni impulsi koji prenose informaciju od osjetnih stanica prema mozgu "pale" uvijek u istom faznom trenutku (phase locked), razlika u fazi ponovno postaje vremenskom razlikom. Izvor se lokalizira u onu stranu u kojem je uhu "vodeća" faza. Međutim razlika u fazi zavisi od frekvencije zvuka, odnosno njegove valne duljine. Ako je polovica valne duljine zvuka manja od maksimalne udaljenosti između dva uha (20 - 23 cm) informacija o faznoj razlici postaje dvosmislena. To je zbog toga što se veća fazna razlika od 180 stupnjeva može perceptivno interpretirati i kao ranije stizanje i kao kašnjenje. Granična frekvencija zvuka u tom je smislu 750 Hz (Moore, 1994, str. 195). Razlika u udaljenosti od izvora ilustrirana je na fig. 6.1.

fig 6.1 moore '94, str 196.

 

Pokretanjem glave dvosmislenost informacije fazne razlike može se djelomično razriješiti tako da frekvencijska granica funkcioniranja fazne razlike u lokalizaciji izvora zvuka u naravi nije stroga, pa Moore (1994) navodi da se fazna razlika za periodične zvukove može iskoristiti i do 1500 Hz.

 

Utjecaj razlike u vremenu

Fazna razlika odnosi se na kontinuirane tonove. Većina prirodnih zvukova ima početke i krajeve, te promjenu spektralnog oblika i intenziteta. Sve se takve promjene mogu nazvati tranzijentima. Kad izvor zvuka nije jednako udaljen od oba uha, ovi tranzijenti u njih stižu s vremenskim pomakom.

Najmanja je vremenska razlika koja dovodi do lateraliziranja oko 10 mikrosekundi a takva vremenska razlika nastaje ako je izvor zvuka pomaknut za 1 stupanj (Moore, 1994. str199). 

Međutim, kritičan je frekvencijski sastav impulsa (klika): Ako je filtriran visokopropusnim filtrom, tako da sadrži samo komponente iznad 4000 Hz, interauralno vrijeme mora se produžiti na 100-200 mikrosekundi da bi se održao isti efekt lateralizacije kao s frekvencijski niskim impulsom s interauralnom razlikom od 30 mikrosekundi (Yost et al. 1971).

Najveća razlika u interauralnom vremenu stizanja koja djeluje na lateralizaciju signala iznosi 800 mikrosekunde. Veći vremenski razmak čuje se kao dva odvojena signala. Između ovih vrijednosti, veličina pomaka (lateralizacije) uglavnom je proporcionalna veličini razlike.

 

Određivanje udaljenosti izvora zvuka

Ako je zvuk poznat, udaljenost izvora određuje se prema ukupnom intenzitetu. Nepoznatim zvukovima može se udaljenost izvora odrediti pomoću kombinacije razlike u intenzitetu i razlike u fazi.

fig. 73. Stevens i Davis, 1960. str. 174. 

Dijagram na fig. 73 prikazuje razlike u intenzitetu i fazi zvuka od 256 Hz uz različite udaljenosti i azimute izmjerene pomoću lutke s mikrofonima na mjestu ušiju. Razlika u fazi ovisi o azimutu dok o udaljenosti gotovo ne ovisi. Odnos intenziteta ovisi i o azimutu i udaljenosti. Teoretski se prema tome može pretpostaviti da uz poznavanje smjera na temelju fazne razlike, dodatna informacija o razlici u intenzitetu mogućava određivanje udaljenosti. Čak i bez poznavanja azimuta u nekoj mjeri se može odrediti udaljenost samo na temelju razlike intenziteta. Na primjer za ton od 256 Hz odnos zvučnog tlaka od 0.40 znači da izvor mora biti najviše 50 cm udaljen od glave. Eksperimenti su pokazali da je ovakva teoretska pretpostavka određivanja udaljenosti na temelju kombinacije faze i odnosa intenziteta vrlo nesiguran kriterij. Neki su ispitanici sasvim nesposobni upotrijebiti ovu mogućnost za određivanje udaljenosti.

 

Lokalizacija stvarnih izvora zvuka

Kod lokalizacije stvarnih izvora zvukova ne može se odvojiti utjecaj razlike u intenzitetu, fazi i vremenu u dva uha. Svi ovi "znakovi" djeluju simultano. Na temelju eksperimenata u slobodnom polju ustanovljeno je (Pierce i David, 1958):

- šumovi se lokaliziraju bolje nego tonovi,

- diskriminacija lijevo-desno vrlo je točna,

- točnost lijevo-desno smanjuje se ako je izvor u blizini medijalne ravnine,

- točnost se smanjuje i kad je izvor oko azimuta 90 stupnjeva

Ovo posljednje lako je razumljivo prema dijagramu fig. 73. (Stevens i Davis, 1960. str. 174) gdje se vidi da uz azimut 90 st. postoji dijapazon od 30 st. u kojem su razlike u fazi i intenzitetu minimalne.

fig. 74. Stevens i Davis, 1960. str. 177.

Na slici 74. prikazani su rezultati eksperimenata u slobodnom polju u kojima su ispitanici trebali identificirati iz koje od 15 st. razmaknutih pozicija dolazi zvuk. Dijagram A predstavlja prosječnu pogrešku identifikacije u funkciji frekvencije tona kojim se eksperimentira. Na niskim frekvencijama greška je približno konstantna i naglo se povećava oko 3000 Hz, a smanjuje se opet oko 4000 Hz, dok je na 10 kHz slična je greški na 1000 Hz. Smanjena točnost lokalizacije za frekvencije između 2000 i 4000 Hz objašnjava se utjecajem dvaju lokalizirajućih faktora: intenziteta i faze. Dijagram B pokazuje utjecaj pojedinog od ovih faktora. Utjecaj faze na lokalizaciju naglo pada iznad 800 Hz. Crtkano-točkasta linija predstavlja razliku u intenzitu u dva uha ako je izvor sa strane: iznad 4000 Hz razlika u intenzitetu naglo se povećava. U okolini 3 kHz ni razlika faze niti intenziteta ne omogućuju precizno lokaliziranje. Dijagram "C" na fig. 74 prikazuje postotak zamjena ispred/iza glave. Na prvi pogled vidi se da je frekvencijski spektar podijeljen na dvije zone: ispod i iznad 3000 Hz. Na niskim frekvencijama na kojima se lokalizira na temelju fazne razlike, diskriminacija ispred/iza samo je nešto bolja od slučajnosti. Iznad 4000 Hz kad lokalizacija funkcionira na temelju razlike u intenzitetu tri puta je preciznija diskriminacija ispred/iza. Ako se u eksperimentu s 10 kHz nepredvidivo mijenja intenzitet zvuka preciznost diskriminacije ispred/iza padne ispod one koja je deklarirana za niske tonove. To znači da ispitanici vrlo brzo, na temelju samo nekoliko pokušaja ustanove neki interni "standard"- referentni intenzitet i tiše tonove lokaliziraju iza, a glasnije ispred glave. Kod toga, izgleda, znatan utjecaj ima oblik uške.

Nije više iznenađujuće da se kompleksni tonovi i šumovi, koji sadrže i visoke i niske frekvencije mogu relativno lagano lokalizirati. Kompleksni tonovi (zvukovi) bolje se lokaliziraju od čistih i u opoziciji naprijed/iza jer im se mijenja spektar (boja).

 

Utjecaj pokreta glave

Ako ne postoji relativnog pomaka izvora i slušača, lokalizacija se svodi na određivanje kuta otklona u odnosu na medijalnu ravninu a određivanje položaja izvora prema ostalim ravninama vrlo je problematično. Efikasnost pokreta vidi se kad je ispitaniku dozvoljeno da pomiče glavu lijevo - desno u horizontalnoj ravnini: ako je izvor ravno ispred ispitanika i on nije siguran dolazi li zvuk sprijeda ili straga, pomakne li glavu u lijevo, izvor će se pojaviti na desnoj strani, a da je otraga, uz isti pomak glave pojavio bi se na lijevoj strani. Ako je izvor okomito iznad glave, pokretanje glave lijevo - desno neće promijeniti niti fazu niti intenzitet u ušima i to će biti znak da za lokalizaciju.

 

Okomita ravnina (medial sagital plane)

Unatoč isključivanju osnovnih binauralnih mehanizama (kad je izvor simetrično u odnosu na uši) lokalizacija je moguća. Sposobnost / lokaliziranja pet puta je slabija nego u horizontalnoj ravnini. Uvjet je, međutim:

- da zvuk bude kompleksan,

- da sadži spektralne komponente iznad 7 kHz,

- da uška bude slobodna,

- da ispitanik poznaje spektralni sastav

Lokaliziranje se zasniva na efektu filtriranja zbog oblika ušne školje i glave. (Roffler i Butler, 1968;  Searle et al. 1976).

 

REFERENCIJE

Ebata, M., T. Sone, T. Nimura (1968) Improvement of hearing ability by directional information. J. Acoust. Soc. Am. 43, 289-297.

Kuhn, G.H. (1977) Model for the interaural time differences in the azimuthal plane. J. Acoust. Soc. Am. 62, 1457-167.

Mills, A.W. (1960) Lateralization of high-frequency tones J. Acoust. Soc. Am. 32, 132-134.

Moore, B. C. J. (1994) An Introduction to the Psychology of Hearing, (fourth edition) Academic Press Limited, London.

Perrott, D.R. (1984) Discrimination of the spacial distribution of concurrently active sound sources. J. Acoust. Soc. Am. 76.

Pierce, J.R. i E.E. David (1958) Mans's World of Sound, Doubleday Co. Inc. Garden City, New York.

Rayleigh, Lord (1907) On our perception of sound direction, Philosophical Magazine, 13, 214-232.

Roffler, S.K., R.A. Butler (1968) Factors that influence the localization in vertical plane. J. Acoust. Soc. Am. 43, 1255-1259.

Searle, C.L., L.D. Braida, M.F. Davis, H.S. Colburn, (1976) Model for auditory localization. J. Acoust. Soc. Am. 60, 1164-....

Stevens, S. S., i Davis, H. (1960) Hearing: Its Psychology and Physiology, John Wiley & Sons, Inc.

Yost, W.A., F.L. Wightman, D.M. Green (1971) Lateralization of filtered cliks. J. Acoust. Soc. Am. 50, 1526-1531.


ANALIZA  ZVUČNOG OKRUŽENJA

 

 

Sažetak

 

U članku se raspravlja o doprinosu pojedinih svojstava govornog zvuka procesu perceptivnog odvajanja mnoštva simultano prisutnih zvukova kojima smo okruženi. Uz pregled doprinosa pojedinih autora  toj relativno malo istraživanoj temi (posebno kod nas) i komentar na temelju iskustava iz vlastitih istraživanja,  predlaže se nekoliko (za naše govorno područje) novih termina nužnih za razumijevanje problema.

 

Uvod

 

Tema o kojoj se ovdje raspravlja do sada kod nas nije sustavno obrađivana, unatoč tome što je poznata i stalno prisutna. Neka od kod nas objavljenih temeljnih istraživanja, pridonijela su ovoj raspravi, ali nisu interpretirana u tom svjetlu. Neprestano smo izloženi mnoštvu simultanih, pomiješanih zvukova. Da bismo se u toj mješavini mogli snalaziti, moramo biti u stanju prepoznavati pojedine smislene cjeline. U tom procesu važnu ulogu ima odluka o tome koji dijelovi osjetilnog stimulusa pripadaju istom objektu ili događaju iz okoline. O čemu se zapravo radi, o kojem pojedinom, konkretnom zvuku, može se prepoznati samo u slučaju prave kombinacije osjetilnih elemenata. Gestalt psiholozi početkom ovog stoljeća otvorili su pitanje organizacije percepcije, ali u svojim istraživanjima pretežno su se bavili vizulanim kanalom, dok je problem auditivne organizacije ostao zapostavljen. Jedan od razloga za to je i relativno zaostajenje tehnike manipuliranja zvukom. Tek zamahom digitalne tehnologije obrade zvuka posljednjih desetljeća omogućeno je sustavno laboratorijsko proučavanje auditivne percepcije. Problem o kojem se ovdje govori ne odnosi se samo na govor, već je to univerzalan auditivni problem. Ono što Cherry (1953) naziva coctail party efektom, Bregman (1994) na globalnom auditivnom (akustičkom) planu naziva problemom analize zvučnog okruženja (auditory scene analysis).

 

Da bismo pobliže definirali temu koja nas ovdje zanima, potrebno je uvesti jedan novi pojam (termin). Što mi kao slušatelji zapravo radimo? Mi neprestano iz mješavine zvukova koji nas okružuju izdvajamo i u cjeline povezujemo akustičke elemente koji pripadaju istom izvoru. To je posebna vrsta filtriranja koju klasični (elektro) akustički filtri ne mogu obaviti, osim u sasvim specifičnom slučaju kad zvukovi koje treba odvojiti iz mješavine zapremaju različite, ne-preklapajuće dijelove zvučnog spektra. Opisujući  kompleksne zvukove kojima smo okruženi, pa i govorni zvuk, koristimo se nizom termina kao što su: tonovi, šumovi, harmonici, tranzijenti, formanti itd. Ono što nedostaje za opis  zvučnog okruženja ili coctail party  problema jest izraz koji će označiti skup ili niz zvučnih elemenata koji predstavljaju cjelinu, odnosno, najčešće zvučne elemente koji pripadaju istom izvoru zvuka. Da bi označio pripadnost zvučnih elemenata jednoj cjelini, Bregman (1994) predlaže izraz stream, što se najneposrednije može prevesti kao "zvučni tok". Kriterij po kojem nešto predstavlja  jedan (isti) zvučni tok ili cjelinu u smislu ove rasprave, isključivo je perceptivan, dakle ne radi se o objektivnom akustičkom nego o psihoakustičkom određenju pojma. Uvedeni pojam, "zvučni tok" ili "zvučna cjelina", ne može se zamijeniti nekim od postojećih. U glazbi jedan zvučni tok može biti jedna melodija (tema), jedna ritmička figura ili zvuk istog instrumenta. U opisu govornog zvuka to može biti jedan vokal, riječ ili rečenica. Načelo se jednako odnosi na cjelokupno auditivno područje, na cjelokupno zvučno okruženje. Zajedničko svim ovim primjerima jest to da mora postojati unutarnja kohezija koja ujedinjuje akustičke elemente.

 

Proces percepcije, da bi uspješno obavio snalaženje u kompleksnom zvučnom prostoru, u mješavini zvukova, neprestano mora koristiti dva međusobno komplementarna mehanizma: razdvajanje (segregation) i spajanje (integration) zvučnih tokova. Oba ova mehanizma djeluju i na sukcesivnom i na simultanom planu. Odvajanje i spajanje nazvali smo komplementarnim mehanizmima, a ne međusobno isključivim, zato što djeluju istovremeno i rezultat nije kategorično opredjeljenje nego pretpostavka ponderirana vjerojatnošću. Ovu ideju može ilustrirati ishod bilo kojeg slušnog testa: čak i kada su signali nedvosmisleni, u velikoj skupini slušatelja nikad odgovori nisu potpuno podudarni. To potvrđuje navedenu pretpostavku o komplementarnom djelovanju razdvajanja i spajanja u procesu percepcije jer pokazuje da kod nekih ispitanika prevagne integrirajući mehanizam, a kod nekih separirajući.

 

Načelo objedinjavanja zvučnih elemenata u cjeline često se uspoređuje s osjetom vida. S obzirom na to da je spektrogram zapravo slika zvuka, moglo bi se očekivati da je upravo to medij u kojem se principi ponašanja osjeta na vizualnom planu neposredno poklapaju s analizom osjeta na auditivnom planu. Vizualno područje (kad je o spektrogramu riječ) pokazuje se značajno inferiornim auditivnoj domeni. Zbog toga pokusi u projektu visible speech opisani u istoimenoj knjizi (Potter et al. 1947) koja niz godina predstavlja početnicu za očitavanje spektrograma, nisu doveli do željenih rezultata. Da podsjetimo, izum spektrografa omogućio je da se predloži ideja po kojoj bi se slušno hendikepiranim osobama zvuk (govora) približio pomoću vizualnoga medija. Projekt nije uspio unotoč tome što su ispitanicima predočeni samo, u akustičkom smislu, relativno jasni govorni uzorci. Pravi se problem pojavljuje tek kad govorni uzorci više nisu dostupni u svojem "čistom" obliku nego su, na jedan od bezbroj načina, izobličeni ili maskirani drugim zvukom. Takva je, zapravo, normalna svakodnevna govorna situacija. Govornici ne komuniciraju zatvoreni u laboratorijskim uvjetima bez buke, prisustva drugih zvukova i ne izgovaraju riječi u takozvanom citatnom obliku. Unatoč svim tim negativnim ujecajima na prijenos govornog signala, govorna je komunikacija začuđujuće uspješna.

 

Govor kao organizirani slijed akustičkih elemenata

 

Govor je organiziran u vremenu "slijeva nadesno", odnosno u govoru je važan redoslijed akustičkih elemenata. Brzi slijed različitih vrsta zvukova koji dolaze od pojedinoga govornika moraju se okupljati u jedan tok i ne smiju se istovremeno sekvencijalno povezivati sa zvukovima koji dolaze od drugoga govornika. Redoslijed akustičkih elemenata, sekvencijalno povezivanje važno je i na razini pojedinih glasnika. Identifikacija onih glasnika govora kod kojih je vremenski slijed bitan element njihove organizacije (npr. afrikate) ovisi o redoslijedu relevantnih informacija koje se pripisuju jednom zvučnom toku. Tako se tišina pred šumom afrikate ne smije interpretirati kao prekid jednog zvučnog toka jer u tom slučaju ne bi bilo percepcije afrikate. Slušatelj mora tu tišinu inerpretirati kao događaj unutar istog zvučnog toka (slijed zvučnih elemenata istog izvora, govornika). Isto tako, ako jedan govornik prestane a drugi započne govoriti, slučajna tišina koja tako nastane ne smije signalizirati okluziju.

 

Percepcija redoslijeda akustičkih elemenata za razumijevanje govora ima ključno značenje. Uz prosječan tempo artikulacije oko 5 slogova u sekundi (Bakran, 1984) fonemi se izmjenjuju tempom bržim od 10 u sekundi, odnosno prosječno im je trajanje manje od 100 ms. Međutim, ako se govor umjetno ubrza do 30 fonema u sekundi (uz zadržavanje iste tonske visine) slušatelji i dalje mogu razumjeti govor bez vremenske konfuzije, odnosno, percipiraju ispravan slijed glasnika. Nasuprot tome, ako se niz u kojem se izmjenjuju niski i visoki tonovi ubrza na sličan način, ono što se u sporom tempu percipira kao jedan zvučni tok, počinje se razdvajati u pod-tokove (substreams), tonovi se povezuju u tokove koji imaju sličnu tonsku visinu.

 

Zanimljivo je da ljudi mogu razumjeti brzu izmjenu glasnika govora unatoč tome što je govor slijed kvalitativno različitih zvukova (frikativ je različiti tip zvuka od vokala), a nisu u stanju percipirati redoslijed nepovezanih zvukova (fićuk, šum, zujanje, vokal). Slijed takvih zvukova mora biti mnogo sporiji od slijeda glasnika govora da bi se ispravno identificirao. Za razumijevanje govora slušatelj mora ispravno odrediti redoslijed glasnika jer izmijenjeni redoslijed može predstavljati drugu riječ ili ne-riječ. Warren (1982) upozorava da se kod slušanja govora ne mora nužno prepoznati svaki konstitutivni element nego da slušatelji provode vrstu globalne analize, a rezultat uspoređuju s pohranjenim podacima u memoriji. Djeca prepoznaju riječi a da ne moraju biti svjesna od kojih su elemenata one sastavljene. Međutim, ovakvo objašnjenje ne rješava problem odjeljivanja zvučnih tokova u govoru.

 

Zanimljiv pokus kojim se pokazuje specifična struktura govornog zvuka proveo je Bregman (1994). On je pretpostavio da djeca počinju riječi prepoznavati kao cjeline zato što uočavaju da se isti zvučni tokovi (riječi) pojavljuju u različitim okolinama. Niz riječi bez stanke izgovarao je monotonim glasom tako da su se one ponavljale u različitom redoslijedu. Zatim je snimku reproducirao naopako. Na taj je način dobiven potpuno neprepoznatljiv niz zvukova. Nakon jednog sata, uspio je izdvojiti sve cjeline koje su se ponavljale. Potom je istim tempom kojim su se izmjenjivali glasnici govora snimio niz nepovezanih zvukova i isto ih tako grupirao u "riječi". Takvi se nizovi ni nakon dugog slušanja nisu mogli izdvajiti u prepoznatljive cjeline. Prema tome, u govornom zvuku mora postojati unutarnja kohezija koja slušatelju olakšava povezivanje u perceptivne cjeline. 

 

Warren (1982) proučava kako slušatelji određuju redoslijed nizova nepovezanih glasnika. Vrlo je teško odrediti redoslijed vokalnih segmenata u trajanju od 200 ms izrezanih iz prirodno izgovorenih vokala. Zadatak je lakši ako vokalni elementi traju 150 ms, s 50 ms tišine među segmentima. Još je lakše odrediti redoslijed ako to nisu izrezani elementi nego stvarno izgovoreni vokali s vlastitim prirodnim početkom i završetkom. Određivanje redoslijeda takvih zvučnih elemenata mnogo je bolje nego određivanje redoslijeda raznovrsnih zvukova (zvižduk, šum, zujanje, ton...) u istom tempu, ali je mnogo lošije nego određivanje elemenata brzog povezanoga govora. Superiornost određivanja redoslijeda vokala u odnosu na određivanje redoslijeda raznovrsnih zvukova može se djelomično protumačiti korištenjem jezičnih sposobnosti. Moguće je da se niz doživljava (čuje) kao višesložni verbalni izričaj. Uspješnost je prema tome bolja što su elementi niza sličniji prirodnom izgovoru.

 

S obzirom na to da se u prirodnom govoru izmjenjuju raznovrsni slogovi sastavljeni od kombinacija konsonanata i vokala, može se pretpostaviti da će uvođenje konsonantskih elemenata u pokuse identifikacije redoslijeda govornih elemenata olakšati percepciju. Lackner i Goldstein (1974) pokusom su provjerili da li postojanje okluziva /b/ ili /p/ koji unose kratku pauzu i  brzi tranzijent među vokalima  može olakšati detekciju redoslijeda. Iznenađuje rezultat da je uspjeh u detekciji najlošiji kada se izmjenjuju slogovi s konsonantom i slogovi bez konsonanta u nizu CV-V-CV-V. Uspješnost je u takvom slučaju bila ispod razine slučajnosti. Zbog toga su se slogovi s konsonantima odvojili u poseban zvučni tok pa su slušatelji umjesto “de-o-be-a-de-o... “ registrirali “de--be--de--...” i “--o--a--o...” kao odvojene, simultano reproducirane tokove.

 

Noteboom i sur. (1976) sistematski su istraživali djelovanje fundamentalne frekvencije sintetskih vokala na odvajanje tokova. Varirali su F0 od 0 do 20 polutonova, a trajanje segmenata od 100 ms razmaknuto je 0 do 400 ms. Rezultati su pokazali jasan "trade-off" efekt (mijenjanje veličine jedne varijable utječe na efikasnost druge) između frekvencijske različitosti i trajanja tišine između sukcesivnih stimulusa. Ako je pauza između sukcesivnih zvučnih elemenata bila oko 100 ms, razlika njihovih fundamentalnih frekvencija ne smije biti veća od 2-3 polutona kako bi se niz mogao percipirati kao jedan zvučni tok. Uz veći razmak među susjednim zvučnim elementima, frekvencijska razlika može biti veća. Uz razmak od 200 ms kao isti zvučni tok mogli su se percipirati vokalni elementi kojima se frekvencija osnovnog tona razlikovala do 10 polutonova.

 

Uloga harmoničkih odnosa i F0

 

Djelovanje tonske visine primijećeno je u istraživanjima selektivne pažnje. Ako se od ispitanika traži da "pokrivaju" jedan od dva simultana govora ("shadowing" - eksperimentalni postupak u kojem ispitanici sa što manjim vremenskim pomakom ponavljaju zadani tekst), oni će tu zadaću jednostavnije obaviti kad su ta dva glasa različite tonske visine (Norman, 1976). Uspješnosti zasjenjivanja također pomaže ako su spektri dvaju signala ograničeni na različita frekvencijska područja. U ovakvim i sličnim istraživanjima selektivne pažnje korišten je prirodni povezani govor tako da su akustičke okolnosti bile vrlo kompleksne. Istraživanje koje se opisuje u nastavku mnogo je analitičnije u akustičkom smislu.

 

Najprije, potrebno je pokazati da je slušni mehanizam u stanju istovremeno postojanje dviju različitih fundamentalnih frekvencija iskoristiti za odvajanje zvučnih tokova. U jednom pokusu Brokx i Noteboom (1982) promatrali su kako će ispitanici ponavljati besmislene rečenice koje su reproducirane simultano s čitanjem kontinuiranog teksta jedne priče. U jednom dijelu test-materijala muški je govornik povišenim registrom i normalnim intonacijskim varijacijama izgovarao besmislene rečenice, a u drugom ih je izgovarao svojim normalnim glasom. Kako se i očekivalo, mnogo je uspješnije bilo ponavljanje besmislenih rečenica kad je interferirajući signal bio bitno različite fundamentalne frekvencije.

 

Djelovanje tonske visine provjereno je i preciznim kontroliranjem tonske visine digitalnom obradom. Na taj se način isključuje djelovanje intonacije prirodnoga govora, njezinoga kontinuiteta, kao objedinjavajućeg faktora. Ustanovljeno je da se broj pogrešaka smanjuje s povećavanjem razlike u fundamentalnim frekvencijama. Uz razliku frekvencija od tri polutona broj pogrešaka smanji se za 20 %. Međutim, uz razliku od oktave, ponovno se povećava broj pogrešaka zbog toga što se frekvencije harmonika jednog i drugoga glasa poklapaju. Disonantan frekvencijski odnos pogoduje odvajanju tokova.

 

Korištenje dviju različitih fundamentalnih frekvencija za odvajanje dvaju glasova za slušni mehanizam ozbiljan je problem. Slušni mehanizam u svakom trenutku mora detektirati dvije različite fundamentalne frekvencije da bi registrirao dvije različite tonske visine, usto mora nekako oformiti dva odvojena spektra. Svaki od njih mora sadržavati ne samo harmonike, nego i njihove relativne intenzitete. To je potrebno zato što identitet zvučnih glasnika ovisi o relativnim intenzitetima pojedinih harmonika i o njihovim  promjenama u vremenu. Da bi se moglo odlučiti koja su dva vokala prisutna, kompleksan oblik intenzitetskih odnosa pojedinih harmonika mora se razložiti u dva odvojena spektralna oblika.

 

Kontinuirana priroda frekvencije osnovnog tona

 

Već se iz opisanih primjera i pokusa u kojima se manipuliralo frekvencijom tonova,  može razabrati da tonska visina ima vrlo važnu ulogu za percepciju zvučnog kontinuiteta. Percepciju tonske visine u govoru omogućuje (kvazi) periodičan karakter zvučnoga govora (detaljnije o teorijama percepcije tonske visine vidjeti Moore; 1990). Dijapazon i varijacije tonske visine u govoru nisu proizvoljne veličine. One djelomice ovise o fiziologiji proizvodnje harmoničnoga zvuka, a djelomice o paradigmama jezičnog funkcioniranja. Unatoč tome što osjet tonske visine pobuđuje periodičan, harmoničan zvuk, koji se u govoru vrlo brzo izmjenjuje s neperiodičnim (zvučni i bezvučni glasnici), osjet tonske visine ne mijenja se naglo, a pogotovo ne u ritmu izmjene zvučnih i bezvučnih glasnika. Prema tome postoje tri tipa ograničenja u kretanju tonske visine: jedno je relativna sporost promjene, drugo je jezična zadanost oblika promjene, i treće je ograničenje koje predstavljaju individualne karakteristike govornika (dijapazoni varijacija tonske visine kod različitih se govornika međusobno razlikuju).

 

Važnost intonativnog kontinuiteta pokazuje jednostavan pokus. Ako se iz povezanog govora izdvoje pojedine riječi te se one poredaju u jedan drugi, također smisleni niz, rezultat je teško razumljiv. Slušateljima se čini da zvuk dolazi iz različitih izvora i imaju poteškoća integrirati ga u smislenu cjelinu. Treisman (1960) provela je pokus u kojem je ispitanicima u jedno uho (lijeva slušalica) emitiran jedan tekst, a u drugo uho (desna slušalica) drugi tekst. Imali su zadatak ponavljati samo tekst koji se čuje u jednom (lijevom) uhu. U jednom trenutku preklopnikom bi se zamijenile strane, tako da tekst koji je stizao u lijevo uho dođe u desno, i obratno. Ispitanici bi nakon prebacivanja teksta koji su ponavljali iz lijevog uha u desno, ponovili još nekoliko riječi koje su nastavak istog teksta, bez obzira na to što se promijenilo uho, i tek su se onda ponovno vratili na zadatak, ponavljanju onoga što čuju u lijevom uhu.

 

Ovom se pokusu može prigovoriti to da se u njemu ne može odvojiti djelovanje niza čimbenika koji održavaju kontinuitet, npr. prostorna i semantička povezanost. U ponovljenom pokusu odvaja se djelovanje semantičke povezanosti i inotacijskog kontinuiteta. U trenutku prebacivanja iz jednoga u drugo uho, jednom je zadržan intonacijski oblik a promijenjen smisao, drugi puta obrnuto. Obje vrste “preklopnika” uzrokovale su pogreške u obavljanju zadatka, no greške nisu bile istoga tipa. Kada je prekinut semantički kontinuum, ispitanici bi zapeli u ponavljanju jer se nastavak ne očekuje na temelju konteksta, ali ne bi ponovili riječi u suprotnom uhu. Međutim, kad je prekinut intonativni kontinuum, ispitanici bi ponovili još koju riječ koja je stigla u suprotno uho jer one riječi koje su stizale u “zadano” uho nisu pripadale istom intonativnom obliku (kontinuitetu).

 

U pokusima s prirodnim govorom ne mogu se dobro kontrolirati sve dimenzije koje simultano djeluju na objedinjavanje i odvajanje zvučnih tokova. Zato su Darwin i Bethel-Fox (1977) pokusima sa sintetičkim govorom pokazali upravo nevjerojatnu važnost kontinuiteta fundamentalne frekvencije za percepciju slijeda govornih elemenata. Oni su sintetizirali slijed formanata za /uau/ s  pripadajućim tranzijentima i nepromijenjenom fundamentalnom frekvencijom (130 Hz). Takav se slijed čuje kao jedan slog. Međutim, ako se formantski oblik zadrži, a fundamentalna se frekvencija promijeni na polovici svakog tranzijenta tako da se dobije slijed: nisko, visoko, nisko, s frekvencijama 110, 170, 110 Hz, potpuno se gubi prijašnji perceptivni dojam te se čuju dva sloga niskog tona i jedan slog visokog tona. Na pitanje koji su to slogovi, odnosno koji glasnik čuju prije /a/, ispitanici su odgovarali /b/, zato jer je promjenom fundamentalne frekvencije na polovici tranzijenta od /u/ do /a/ prekinut zvučni tok i percipira se skraćeni tranzijent koji je nalik na tranzijent  od /b/. Ovim se pokusom pokazalo da je diskontinuitet fundamentalne frekvencije odvojio zvučne elemente u različite tokove unatoč kontinuitetu spektralnog oblika.

 

Kontinuitet frekvencije osnovnog tona može u jedan zvučni tok objediniti dva vokala između kojih je interpoliran bezvučni konsonant. Pitanje je po čemu je taj interpolirani konsonant dio istoga zvučnoga toka, odnosno kako to da spektralni diskontinuitet koji predstavlja interpolirani konsonant ne signalizira drugi zvučni tok. Vjerojatan odgovor na to pitanje jest da se radi o kontinuiranosti spektralnih promjena (vidjeti iduće poglavlje). Prekid zvuka za okluziju, odnosno rubovi toga prekida sadrže spektralni kontinuum. Međutim, u ovom slučaju simultano djeluje spektralni kontinuum koji se manifestira adekvatnim tranzijentima i kontinuum fundamentalne frekvencije. Ekstrapoliramo li rezultate Darwina i Bethell-Foxa, možemo zamisliti što će se u sintetiziranoj riječi  čuti ako se razbije kontinuitet toka fundamentalne frekvencije prije i poslije bezvučnog okluziva: moguće je da će se to čuti kao dva različita glasnika, kao što je moguće i da se uopće ne pecipira okluziv interpoliran između dvaju vokala. To znači da je upravo kontinuitet fundamentalne frekvencije zaslužan za percepciju bezvučnog okluziva u takvom okruženju.

 

Formanti kao faktor objedinjavanja zvučnih tokova

 

Istraživanja u vezi s grupiranjem simultanih komponenata uglavnom se odnose na grupiranje formanata jer oni predstavljaju relevantne akustičke znakove za identitet velikog dijela glasnika. Ima i drugih razloga za odabir formanata za materijal istraživanja: teorija njihova nastajanja prilično je zaokružena, a osim toga, oni predstavljaju jednostavne akustičke elemente pomoću kojih se vokali i okluzivi mogu lako sintetizirati.

 

Većina znanstvenika koji se bave govorom vjeruju da su formanti smislene perceptivne činjenice i da auditivni sustav slijedi te spektralne vrhove i njihove promjene u vremenu tijekom procesa prepoznavanja govora. Na spektrogramu je relativno lako vizualno razdvojiti formante. S druge strane, nije jednostavno "začuti" pojedini formant kao zasebnu boju. Ima istraživača koji sumnjaju u to da formanti imaju središnju ulogu u percepciji govora. Oni misle da su formanti samo akustička baza za perceptivnu analizu globalnih kvaliteta kao što su kompaktnost, oblik spektra ili brzina spektralne promjene (Stevens i Blumstein, 1981).

 

Broadbent i Ladefoged (1957) prvi su postavili pitanje grupiranja formanata u situaciji simultanog pojavljivanja formanata koji pripadaju različitim glasnicima. Pitanje je kako slušni sustav zna koju kombinaciju formanata treba odabrati da bi se oblikovao vokal. Njihovo je objašnjenje u tome da je presudno ritmično pulsiranje u funkciji frekvencije osnovnog tona. Uho grupira one formante koji imaju identično pulsiranje. To su autori zaključili na temelju pokusa u kojem su sintetizirali jednostavnu rečenicu, tako da su prvom i drugom formantu pridružili jednom identičnu F0, a drugi put različite F0. Rezultat je emitiran ispitanicima tako da su prvo oba formanta emitirana u isto uho, a potom u različita uha. Ispitanici su trebali procijeniti čuju li jednog ili dva govornika, i jesu li oni u na istom mjestu u prostoru. Kad je za sintetiziranje obaju formanata upotrebljena identična F0, bez obzira na to jesu li oni emitirani u isto ili u različita uha, ispitanici su čuli da se radi o jednom glasniku. Oni su, isto tako, čuli da je signal bio u onom uhu u koje je emitiran prvi formant. Nasuprot tome, kad su formanti sintetizirani različitim F0, bez obzira na to je li intonacija bila prirodno modulirana ili monotona, čuli su dva govornika.  Posebno je važan dio pokusa u kojem su korištena dva posebna generatora za osnovni ton, svaki za svoj formant, i kad su slijedili isti intonativni oblik. Zbog neznatnih neslaganja sustava, oni su se povremeno razilazili u fazama. Unatoč istoj frekvenciji osnovnog tona, povezivanje formanata u tom slučaju bilo je slabije, a kad bi se oni emitirali u različita uha, čula bi se dva govornika. To pokazuje da je za povezivanje različitih spektralnih dijelova potrebna velika vremenska podudarnost (preciznost), i da nije dovoljno da su harmonici povezani samo s istom F0, frekvencijski, nego F0 mora biti podudarna i u fazi. Ovi su pokusi posebno važni jer iste rezultate pokazuju s ljudskim glasom u rečenicama kao i s negovornim zvukom.

 

Cutting (1976) je pokusima provjeravao djelovanje frekvencije osnovnog tona u povezivanju formanata emitiranih u različita uha u funkciji fonetske identifikacije. Radilo se o slogovima okluziv-vokal, koji se uvjerljivo mogu sintetizirati sa samo dva formanta. U slučaju kad se sintetizirao slog “da” i kad su oba formanta prezentirana u oba uha,  samo je o frekvenciji osnovnog tona pojedinog formanta ovisilo čuje li se jedan ili dva govornika. Razlika u frekvenciji osnovnog tona od samo 2 Hz bila je dovoljna da se čuju dva različita glasa (govornika). Pritom je ispravno identificiran slog "da", a ne nešto drugo. To znači da slušatelji mogu kombinirati informacije iz lijevog i desnog uha da bi se uobličio identitet govornog elementa (sloga).

 

Postoji iznimka u tom općem ponašanju. Naime, kada postoje različite mogućnosti percepcije ovisno o tome koji se formanti grupiraju zajedno, podudarnost u frekvenciji osnovnog tona pomaže, priklanja se jednoj od mogućih percepcija. Ima slučajeva kad F1, F2 i F3 zajedno daju jedan perceptivni rezultat, a F1, F3 i F4 drugačiji. Ishod percepcije (identifikacije) ovisi o tome koja kombinacija formanata ima zajedničku frekvenciju osnovnog tona. Prema tome, frekvencija osnovnog tona, koja predstavlja važan čimbenik za mehanizam "primitivnoga" grupiranja, u problematičnim slučajevima može pomoći prepoznavanju fonema, premda je ono prvenstveno proces koji se temelji na obrascima (shema-based), dakle na naučenom.

 

Korelirane frekvencijske promjene

 

Fundamentalni ton ljudskoga glasa varira u vremenu. Te varijacije, dakle intonativni oblik,  istodobno mijenjaju frekvencije harmonika. To znači, ako se osnovnom tonu frekvencija promijeni za 25%, onda se i frekvencije svih harmonika paralelno promijene za 25%. S druge strane, ako dvije osobe govore istovremeno, nije  vjerojatno da se njihove intonacije mijenjaju paralelno. Paralelno pomicanje djeluje kao objedinjavajući faktor zvučnog toka, to jest oni harmonici koji se paralelno pomiču po frekvencijskoj skali, pripadaju istom zvučnom toku (glasu, govorniku).  Pritom nije jasno da li grupiranje prema tom načelu samo odvaja glasove u tom smislu da su slušatelji svjesni da se radi o različitim glasovima ili takvo grupiranje akustičkih elemenata olakšava ujedno i fonetsku identifikaciju. Ovdje se mogu miješati dva efekta. S jedne strane, paralelno pomicanje harmonika može djelovati tako da ih se grupira u jednu cjelinu. S druge strane, sama činjenica frekvencijskog pomicanja harmonika pridonosi boljem ocrtavanju spektralnog oblika. To postaje osobito važno kad je fundamentalna frekvencija relativno visoka, s razmaknutim harmonicima. Paralelno pomicanje harmonika pojašnjava oblik koji ne mora biti posve definiran frekvencijski stacionarnim harmonicima. Prema tome, ne može se razlučiti koliko na odvajanje zvučnih tokova djeluje sama činjenica paralelnog pomicanja frekvencija harmonika, a koliko to što se zbog pomicanja frekvencija harmonika jasnije ocrtava spektralni oblik, što omogućava bolju percepciju vokalne boje.

 

I kada govornici nastoje tonsku visinu održati stabilnom, frekvencija osnovnog tona neprestano se mijenja. Ta se pojava naziva mikromodulacijom ili jitter. Pokazalo se da dodavanje malih frekvencijskih nepravilnosti sintetiziranom glasu djeluje, ne samo tako da glas zvuči prirodnije, nego i tako da se harmonici bolje integriraju u jedan zvučni tok. Sintetizirani su različiti vokali, svaki svojim osnovnim tonom. Jedan skup stimulusa nije sadržavao nikakve frekvencijske nepravilnosti, a drugi skupovi stimulusa varirali su frekvencijski, pravilno (vibrato) ili nepravilno (jitter). Rezultati su pokazali da slušatelji jednostavnije prepoznaju, to jest odvajaju, vokale ako su frekvencijski modulirani, bez obzira na to kakve su vrste bile modulacije, pravilne ili nepravilne. Osim toga, u slučaju kad F0 nije bila modulirana, slušateljima je bilo teško procijeniti o kojim se tonskim visinama radi, a kad su stimulusi bili modulirani, čuli su točno koje su to različite tonske visine. U ponovljenim pokusima, u jednom slučaju sintetizirani vokal modulira se tako da se mijenjanjem frekvencije F0 bolje ocrtava spektralni oblik (mijenjaju se amplitude harmonika tako da uz promjenu frekvencije slijede spektralni oblik), a u drugom slučaju tako da amplitude harmonika ostaju nepromijenjene s promjenom F0 (pa se prema tomu mijenja spektralni oblik).

U oba slučaja podjednako je olakšana identifikacija vokala. To znači da modulirani vokali nisu jasniji samo zbog detaljnije ocrtanog spektralnog oblika. Vjerojatno je da modulacija snažnije pobuđuje živčani sustav.

 

Chalikia i Bregman (1989) promatrali su identifikaciju simultano emitiranih parova sintetičkih vokala kojima je F0 sporo modulirana, slično kao govorna intonacija. Pritom je promatran utjecaj razlike (razmaknutosti) fundamentalnih frekvencija i načina njihova mijenjanja. Fundamentalni ton pojedinih vokala za jedan skup stimulusa bio je nepromijenjen, za drugi se mijenjao paralelno, a za treći u suprotnom smjeru. Obje vrste pomaka, i paralelni i suprotni, značajno su pomogli identifikaciji vokala u usporedbi s nepromijenjenom F0. U slučaju kad razmak F0 iznosi upravo jednu oktavu, a to se odnosi na maksimalni razmak koji se kod suprotnih pomaka ostvaruje samo na početku i na kraju, stimulusi s paralelnim pomakom značajno se lošije identificiraju. U načelu, veći frekvencijski razmak između dviju fundamentalnih frekvencija pridonosi boljem odvajanju stimulusa. U slučaju kad se F0 mijenja u suprotnim smjerovima, zapravo je u većem dijelu trajanja stimulusa manji frekvencijski razmak nego kod parova kod kojih se F0 nije  mijenjala. To nije umanjilo uspješnost identifikacije.

 

Kontinuitet spektralnih promjena

 

S obzirom na to da je ustanovljena neobična važnost kontinuiranosti fundamentalne frekvencije za odjeljivanje i integriranje zvučnih tokova, može se postaviti pitanje ima li kontinuitet spektralnog oblika (frekvencije formanata) slično djelovanje. Kontinuiranost promjena spektralnog oblika na spektrogramima najbolje se može uočiti kad je govorna cjelina sastavljena samo od zvučnih elemenata. U tom je slučaju izvor zvuka neprestano ispod rezonancijskih šupljina i one sve djeluju na modifikaciju spektralnog oblika u skladu s artikulacijskim pokretima. Onda kada se bezvučni glasnici izmjenjuju sa zvučnima, također se može uočiti kontinuiranost spektralnih promjena (formanata). Međutim, kontinuitet toka formanata između zvučnih i bezvučnih glasnika, ne vidi se uvijek. Kontinuitet formanata može se opaziti, samo ako zvučna struja prolazi istim rezonantnim prostorima. S obzirom na to da je izvor zvuka za zvučne glasnike na razini larinksa, zvuk mora proći cijeli sustav rezonantnih prostora. Šumni se zvuk, međutim, stvara na različitim mjestima govornog trakta. Na primjer, šum za /h/ stvara se prije negoli zračna struja uđe u oralnu šupljinu pa se zbog toga filtrira na sličan način kao vokali tako da su mu i formanti u kontinuumu sa susjednim vokalima. S druge strane, šum za /f/ stvara se između zuba i usana, i ne filtrira se više kroz sve oralne prostore pa zato njegova formantska struktura nije slična (kontinuirana) susjednim glasnicima s kojima je u kontaktu. Prema tome, spektralni kontinuitet (formantski kontinuitet) “vidljiv” je i može se pratiti u kontaktu mnogih, ali ipak ne svih glasnika.

 

Postavlja se pitanje kako mogu govorni segmenti potpuno različitog spektralnog sastava i oblika (šumovi na primjer) biti objedinjeni u isti zvučni tok (s vokalima)? Budući da šum (frikativa) zajedno sa svojom okolinom stvara smislenu cjelinu, jedno od mogućih objašnjenja poziva se na znanje jezika: objedinjavanje u isti zvučni tok postiže se vježbom tijekom učenja jezika. Ipak, tranzijenti predstavljaju suptilne osobine akustičkog slijeda koje omogućuju “primitivnu” analizu i objedinjuju slijed u jedan zvučni tok. Tranzijenti sugeriraju artikulacijski kontinuum. Da se ne radi samo o naučenim oblicima, potvrđuje Bregmanovo iskustvo (Bregman, 1994). On je slušao govornika jezika s klikovima i unatoč tome što nije poznavao jezik, točno je identificirao položaj klika unutar zvučnog slijeda. To je bilo moguće jer je klik proizveden artikulacijom, a nije mehanički superponiran govoru na slučajnom mjestu. Izgovoreni klik rezultat je konsonantskog pokreta koji istovremeno modificira spektralne osobine zvučne okoline i ta sinkronost može signalizirati slušnom mehanizmu da su te dvije pojave povezane. Nasuprot tome, Ladefoged  i Broadbent (1960) i poslije drugi objavili su da slušatelji nisu u stanju odrediti mjesto slučajno interpoliranog klika u govornom toku. Takvo se ponašanje ispitanika primjećuje i u pokusu s restauracijom fonema. Ako se u govornom toku neki glasnik zamijeni komadićem šuma, slušatelji nadomještaju (u percepciji) zamijenjeni fonem kao da se ništa nije dogodilo, a najčešće nisu svjesni da je fonem bio zamijenjen. Osim toga, ispitanici često nisu u stanju točno odrediti na kojem su mjestu u govornom toku čuli da se pojavio šumni djelić (Erdeljac, 1997).

 

Bregman (1994) izvještava o pokusu u kojem je promatrano djelovanje spektralnog kontinuiteta u sintetiziranom govoru. Željelo se vidjeti kako formantski tranzijenti pridonose sekvencijalnoj integraciji slogova. Sintetizirani su različiti tipovi niza vokala /o, a, i, u/, svaki s istom fundamentalnom frekvencijom i stalnim frekvencijama prvih triju formanata. Jedan tip sastojao se od dugih vokala trajanja 120 ms bez tranzijenata. Drugi tip  uključio je sintetizirani /b/ u sekvenciji CVC (/b/ zbog toga što se u engleskom može jednostavno sintetizirati samo s vokalnim tranzijentima, jer zvučna okluzija nije obavezan akustički znak zvučnih okluziva u engleskom). Kod toga stabilni dio formanata trajao je 30 ms, a tranzijenti po 45 ms. U trećem tipu nizova kratki vokali sintetizirani su tako da je uzet od prethodnog tipa samo stabilni vokalni dio od 30 ms, a tranzijenti su zamijenjeni tišinom. U četvrtom tipu, formanti povezanih vokala neposredno se nadovezuju. Peti tip nizova može se nazvati pseudoslogovima zbog toga što je stabilnom dijelu formanata dodan pomak tranzijenata na više, što ne može rezultirati prepoznatljivim slogovima. 

Zadatak ispitanika bio je da ispišu redoslijed vokala. Od ponuđenih tipova dva su niza bila u izrazitoj prednosti: onaj s vokalima neposredno spojenim tranzijentima i onaj s CVC slogovima. Lošije se identificirao redoslijed vokala u nizovima u kojima oni nisu bili spojeni tranzijentima, a najlošije je prošao tip stimulusa s pseudoslogovima. Kod nepovezanih vokala slušatelji su često čuli dva vokala unutar jednog, a dva unutar drugog zvučnog toka. Pokazalo se također da je najefikasniji u objedinjavanju niza tranzijent najnižeg (prvog) formanta, a da najmanje utjecaja ima treći.

 

Ovakvo načelo odvajanja različitih zvučnih tokova na temelju suprotnog pomaka frekvencije osnovnog tona ne može se jednostavno primijeniti na frekvencije formanata. Formanti, u ovisnosti o promjenama oblika vokalnog trakta, mijenjaju frekvencije i paralelno i u suprotnim smjerovima, na prvi pogled neovisno, tako da korištenje takva suprotnoga pomaka frekvencija formanata za odvajanje glasova (zvučnih tokova) ne bi funkcioniralo. To da F1 i F2 unutar jedne riječi imaju suprotno kretanje redovita je pojava. Postavlja se pitanje: kako to da ih ne odvojimo i ne čujemo kao posebne zvukove? Jedan od mogućih odgovora na to pitanje mogao bi biti da ih objedinjuje zajednička harmonička struktura. Treba se sjetiti da su formanti zapravo skupine harmonika pojačane rezonancijom. Kad kažemo da se frekvencija formanta kreće prema dolje ili prema gore, mijenja se samo frekvencijsko područje koje će biti pojačano, a ne frekvencije harmonika. Zato, ako F0 raste, frekvencije svih harmonika rastu, a istovremeno, moguće je da frekvencija provoga formanta (F1) raste, a frekvencija drugoga (F2) da pada. Prema tome, ako se dogodi da dva formanta imaju različitu harmoničku strukturu, oni će se odvojiti u dva zvuka, ali se neće odvojiti u različite zvučne tokove na temelju suprotnog frekvencijskog pomaka.

 

Slušatelji ne slušaju pojedine fomante i nisu ih svjesni kao zasebne boje zvuka, nego njihova kombinacija predstavlja jednu boju. Takvo je slušanje u skladu s načinom nastajanja formanata. Formanti ne nastaju neovisno - mijenja se zapravo oblik rezonancijskog sustava. Pri tome, pojedini dijelovi artikulacijskog trakta, rezonantne šupljine, nisu neovisno zaslužne  za frekvencije pojedinih formanata. Zbog toga govornici ne mogu svojom voljom mijenjati frekvenciju pojednog formanta.

 

Pokazalo se da poteškoće u integriranju zvučnog toka nastaju i kada se nadovezuju različite širine formanata. Dakle, bez obzira na podudarnost središnjih frekvencija formanata, ako se naglo poveća širina formanta, to se čuje kao povećanje glasnoće u jednoj frekvencijskoj zoni. Isto tako glasnoća umetnutog šuma u govorni niz utječe na to hoće li (šum) biti integriran u zvučni tok ili će biti interpretiran kao neovisan zvučni događaj. To se primijetilo pri pokušaju sinteze konkatenacijom prethodno pripremljnih, spremljenih zvučnih elemenata oblika (Bakran i Lazić, 1998).

 

 

 

Važnost lokalizacije izvora zvuka

 

Vidjeli smo kako je kontinurianost fundamentalne frekvencije i formanata važna za integriranje govornih nizova. Oba ova kontinuiteta proizlaze iz postupnog mijenjanja  položaja (pokretanja) artikulatora i oblika govornog trakta. Vokalni trakt ne može se trenutačno prebaciti iz jednoga položaja, primjerenog proizvodnji nekoga glasnika, u drugi položaj. Jedan drugi oblik kontinuiranosti proizlazi iz  činjenice da su govornici u načelu na jednom određenom mjestu u prostoru ili se relativno polagano premještaju kroz prostor.

 

Položaj izvora zvukova u prostoru i binauralno slušanje nepobitno pripadaju najsnažnijim mehanizmima objedinjavanja i odvajanja zvučnih tokova. Načela lokalizacije odavno su poznata (vidjeti Stevens i Davis, 1960) i o njima ovdje nećemo raspravljati. Želimo samo istaknuti da govor, kao vrsta zvuka, maksimalno koristi sve poznate mehanizme lokalizacije, zato što je širokog spektra, dinamički i spektralno moduliran, pa se nikada ne događa da svi mehanizmi lokalizacije simultano zakažu. Onda kad jedan od mehanizama lokalizacije postaje nedovoljno uspješan zbog vrste zvuka, funkciju prostornog odvajanja preuzima drugi. 

 

Važnost lokaliziranja izvora zvuka za razumljivost  govora odavno je uočena u pokusima s maskiranjem. Maskirajući efekt manji je ako se signal (govor) i buka mogu prostorno odijeliti. Pokusom smo ustvrdili da razumljivost  govora može porasti do 25% ako se izvori signala i buke razdvoje u prostoru (Bakran, neobjavljen rad). Dakle, unatoč tome što razine intenziteta signala i buke ostaju iste, razumljivost je olakšana. Radi se o tome da kod prostornog razdvajanja u oba uha ne dopire identičan signal. U navedenom pokusu u jednom će uhu signal biti jači, a u drugom će biti jača buka. S obzirom na to da se zvuk u istom uhu lakše integrira u jedan zvučni tok, prostorno odvajanje olakšalo je odvajanje zvučnih tokova.

 

Kad se sukcesivni elementi kontinuiranoga govora emitiraju pomoću slušalica, tako  da se izmjenjuju lijevo i desno uho, sposobnost prepoznavanja pada. Prebacivanje signala u drugo uho djeluje kao tišina u prethodnom uhu, kao manjak signala, i to dovodi do pogrešne segmentacije. Prema tome, ako diskontinuiranost u prostornom smještaju zvuka predstavlja problem integraciji, zaključujemo da podudarnost mjesta olakšava integraciju (Huggins, 1964). Otežano prepoznavanje zbog premještanja (izmjenjivanja) signala od jednog do drugog uha može se primijetiti i na razini fonema. Ako se CV slog /mi/ prezentira tako da se u jednom uhu čuje samo /m/ a u drugom /i/, ispitanici će teško identificirati /m/ zbog toga što je smanjena mogućnost komparacije sukcesivnih spektralnih oblika, pa se ne registrira akustički znak za identifikaciju /m/ koji se sastoji u naglom proširenju spektra na prijelazu od /m/ u /i/.

 

Simultana organizacija  govornog zvuka

 

Dosad smo promatrali grupiranje i odvajanje u govornom zvuku u slučaju kad zvuk dolazi u različito vrijeme (sukcesivno). Postoje mehanizmi za grupiranje i odvajanje akustičkih komponenata koje do uha stižu istovremeno. Ti mehanizmi moraju odvajati akustičke elemente različitih glasova (govornika) kako ne bismo čuli zvuk koji je slučajna smjesa različitih glasova.  Oni također tako moraju integrirati komponente zvuka koji pripadaju istom glasu (govorniku) tako da se ne bi dogodilo da se kao odvojeni zvukovi (zvučni tokovi) čuju formanti ili harmonici istoga glasa. Pretpostavimo li da auditivni mehanizam najprije oformi nešto nalik neuralnom spektrogramu, kako bi detektirao i prepoznao neki glasnik, on mora objediniti spektralne komponente koje mu pripadaju. Simultane komponente kod negovornog zvuka mogu se odvajati na temelju različitih faktora: tonskom visinom, prostornim smještajem, spektralnim regijama, neovisnošću promjena.

 

Odnos "primitivnih" mehanizama procesiranja i mehanizama koji su zasnovni  na obrascima (shema-based)

 

U cijelom ovom radu pažnja je usredotočena na takozvane primitivne procese grupiranja i odvajanja zvučnih elemenata koji se temelje na svojstvima većine prirodnih zvukova: imaju neko trajanje, sporo se premještaju u prostoru i sastoje se od komponenata koje počinju i završavaju istovremeno. Međutim, ne smije se zanemariti da slušatelji imaju iskustvo i znanje o različitim vrstama zvukova kao što je govor, glazba i raznovrsni svakodnevni poznati zvukovi. Poznavanje zvukova pohranjeno je u obliku obrazaca, shema (Bregman, 1994). Svaki obrazac sadrži  informacije o nekoj posebnoj pravilnosti koje se manifestiraju na različitim razinama. Govor se u tom kontekstu najčešće navodi kao primjer. Ljudi koji znaju jezik imaju posebne obrasce za pojedine glasnike govora, za pojedine riječi i načine njihova korištenja. Obrasci se aktiviraju kad se u zvuku prepoznaju neki elementi. Aktiviran obrazac potom djeluje na daljnji tijek percepcije. Ako se čuje "whisky", aktiviran je obrazac koji omogućuje slušatelju da u nastavku bude spreman čuti npr. "s ledom" (Erdeljac, 1997).

Za razliku od obrazaca, primitivni procesi djeluju nezavisno od znanja pa čak i neovisno o volji slušatelja. Djelovanje primitivnih mehanizama i ovih "top-down" procesa ne može se uvijek jasno razlikovati. Ima laboratorijskih situacija kojima se može isključiti djelotvornost primitivnih procesa. Ako se sintetiziraju dva vokala iste frekvencije osnovnog tona, istog trajanja i emitiraju se s istog mjesta, nema "primitivnih" elemenata u zvuku koji bi ih razdvojili u odvojene cjeline. Ipak, slušatelji to mogu. Jedino je  objašnjenje da su aktivirani obrasci koji su se u tom zvuku prepoznaju. Drugi očit primjer odabiranja, odnosno, perceptivnog ishoda koji se temelji isključivo na aktiviranju obrazaca, nalazimo u pokusima s restauracijom fonema.

 

Ima eksperimentalnih iskustava u kojima se primitivni procesi sukobljavaju s obrascima. Ako se sintetizira vokal s dva formanta, ali tako da ih sačinjavaju harmonici koji pripadaju različitim fundamentalnim frekvencijama, slušatelji imaju neobičan slušni dojam: čuju dva odvojena zvuka, ali su u stanju čuti i vokal za koji je potreban čitav spektar, oba formanta.

 

Primitivni mehanizmi sortiraju signal u pojedine elemente, a mehanizmi koji se temelje na obrascima te elemente selektiraju i integriraju. Jedni i drugi procesi nisu osjetljivi na iste varijable. Npr. fundamentalna frekvencija grupe harmonika za primitivne je mehanizme vrlo značajna, a manje je važna za procese koji se temelje na obrascima.

 

Korelirane amplitudne promjene

 

U vezi s vremenskom organizacijom zvukova treba spomenuti neke činjenice koje djeluju na odvajanje zvukova različitih izvora. U načelu, neovisni zvukovi ne započinju i ne završavaju istovremeno. Osim toga, često jedan zvuk traje kad se drugi pridodaje mješavini. Prema tome, asinkronija početaka i završetaka relativno je pouzdan znak za odvajanje zvučnih tokova. U jednoj od psihoakustičkih demonstracija (Houtsma i sur. 1987) izmjenjuje se harmoničan ton sastavljen od 10 harmonika s tonom koji sadržava sve te harmonike, osim jednog. Slušatelji u toj izmjeni postanu svjesni zvuka pojedinog harmonika iako njegov zvuk nisu posebno čuli kao sastavni element harmoničnog tona.

 

U slučaju izmjene vokala i nazala događa se da viši formanti budu naglo utišani (na početku nazala), odnosno pojačani (na početku vokala). To bi trebalo potaknuti odvajanje na taj način da se jedan zvuk čini kontinuiranim, a drugi pridodanim. To zaista možemo introspekcijom osjetiti ponavljamo li sekvencu /mamamama.../. Međutim, taj je efekt razdvajanja znatno manji od efekta objedinjavanja koji uzrokuje harmonički kontinuitet.

 

Pokusima je ustanovljeno da u slučaju maskiranja  jednog vokala drugim, onda kad onaj maskirani počne nekoliko desetinki sekunde nakon maske, vokal se identificira kao da maske nema. Dapače, u tom slučaju efikasnost identifikacije ne ovisi više o razlici fundamentalnih frekvencija dvaju vokala. U prirodnom govoru nagle promjene energije događaju se na granicama okluziva i to okluzive čini otpornima na maskiranje.

 

Darwin (1984) je proučavao djelovanje (čistog) tona ubačenog u sintetizirani vokalni spektar. Ustanovio je da čak i kad se pridodani ton posve uklapa u harmoničku strukturu, ako nije sinkron s početkom vokala, čuje se kao odvojen zvuk i što je kasnije uključen, manje djeluje na percepciju vokalske boje tako da nakon 250 ms uopće više nema na nju utjecaja.

 

Ako se sintetiziraju dva odvojena formanata za prijelaz okluziv - vokal, i ako se ti formanti emitiraju svaki u jedno uho, razumljivost je oko 90 %. Međutim, ako nisu sinkroni, razumljivost uz vremenski pomak od 160 ms pada na 50 %. Identifikacija od 50 % i nije tako loša ako ima li se na umu da je konsonant pretežno definiran vokalnim tranzijentom trajanja otprilike 50 ms. Ako perceptivni proces treba informaciju o oba formanta (F1 i F2), on ih ne može spojiti u jedan osjet, ali može "koordinirati" informaciju jednoga i drugoga. Pokazalo se da asinkronija više otežava koordiniranje informacija pojedinih formanata nego nesklad u frekvenciji osnovnog tona (Cutting, 1976). Na temelju svih ovih primjera možemo zaključiti da sinkronizirane amplitudne promjene različitih dijelova spektra mogu pridonijeti pravilnom pridruživanju pojedinih spektralnih komponenata istom izvoru.

 

Harmoničnost se u načelu opisuje kao ekvidistantnost frekvencijskih komponenata, odnosno kao poseban, cjelobrojni odnos između frekvencija pojedinih harmonika i frekvencije osnovnog tona. Međutim, kad se pogleda tzv. "široki" spektrogram, harmonici se (u načelu) ne vide, a harmoničan zvuk prepoznaje se prema okomitim crtama razmaknutim upravo za period osnovnog tona koje sežu do visokog dijela spektra. Time se ocrtava sinkronija sastavnih komponenata. Ta sinkronija posebno je važan izvor informacija u visokom dijelu spektra kad se zbog ograničenja auditivnog sustava (širina kritičnog pojasa) pojedini harmonici teško razlučuju. Kod glasnika koji sadrže i harmoničan ton i šum, kao kod zvučnih frikativa, amplitudna modulacija koju uzrokuje periodičnost laringalnih impulsa vidljiva je i u šumnom dijelu spektra i ta sinkronija pomaže objediniti jake niske harmonične sastavne komponente sa šumom.

 

 

 

 

Zaključak

 

Čini se da slušni mehanizam rješava problem analize zvučnog okruženja na dva različita načina: upotrebom takozvanih primitivnih procesa  auditivnoga grupiranja i upravljajući  slušanje obrazaca koje se temelje na znanju (jezika), poznavanju zvukova. Ovi se mehanizmi međusobno nadopunjuju.

 

Integriranje i odvajanje zvukova temelji se na analizi koja smjesu zvukova dijeli na elemente. Nakon toga uključuje se strategija objedinjavanja elemenata koji pripadaju istoj cjelini, i to u vremenskom slijedu (sekvencijalno grupiranje), i u spektralnom smislu (simultano grupiranje). Najočitije je načelo grupiranja po sličnosti. To se odnosi na fundamentalnu frekvenciju, vremensku bliskost, spektralnu sličnost, prostornu bliskost i intenzitetsku sličnost. Jedan od važnih elemenata analize jesu frekvencijski odnosi među sastavnim elementima zvuka. Što su zvučni elementi frekvencijski udaljeniji, manja je vjerojatnost da pripadaju istom zvučnom toku. Drugo je od djelotvornih načelo integriranja elemenata analize harmoničnost frekvencijskih komponenata. Auditivni sustav odvojeno grupira harmoničke elemente koji pripadaju istom osnovnom tonu, formira odvojene osjete tonske visine i odvojene spektralne boje. Istovremeno, pojedini harmonici ne čuju se kao zasebni elementi. Sljedeće značajno načelo objedinjavanja elemenata zvučne analize jest korelacija promjena pojedinih zvučnih elemenata. Simultana  promjena frekvencijskih i intenzitetskih odnosa signal je za objedinjavanje u istu zvučnu cjelinu. Način na koji se ponaša harmoničan govorni zvuk, za to je idealan primjer. Tu treba imati na umu paralelne frekvencijske promjene harmonika u funkciji govorne intonacije kao i male nehotične, frekvencijske modulacije (jitter). Simultane amplitudne promjene u različitim dijelovima spektra pomažu njihovu integriranju. To se opet odnosi na dvije razine: velike spore promjene i one kojima je izvor u periodičnosti harmoničnog zvuka koja se proteže po čitavom spektru i uzrokuje sinkronu neuralnu pobudu. Uz sinkronost treba spomenuti i povezivanje prostorno podudarnih sinkronih elemenata i korelaciju s vizualnim kanalom. Prostorno povezivanje osim činjenice o različitosti zvuka koji dopire u različita uha, uključuje svijest o relativno sporim promjenama položaja izvora zvuka. Kontinuirani zvukovi lakše se povezuju u isti zvučni tok od diskontinuiranih. Poseban je fenomen koji se povezuje s analize zvučnog okruženja iluzija kontinuiteta. Ako jedan tihi trajni zvuk mjestimično prekinemo i nadomjestimo mnogo jačim zvukom posve drugih osobina, slušatelji imaju iluziju da tihi zvuk nije prekidan nego da traje "ispod" jačega, odnosno da je samo maskiran. Taj se princip kao istraživalačka metoda obilno koristi u pokusima s takozvanom "restauracijom fonema".

 

U cijelom ovom radu pozornost je usredotočena na takozvane primitivne procese grupiranja i odvajanja zvučnih elemenata koji se temelje na svojstvima većine prirodnih zvukova: imaju neko trajanje, sporo se premještaju u prostoru i sastoje se od komponenata koje počinju i završavaju istovremeno. Međutim, ne smije se zanemariti da slušatelji imaju iskustvo i znanje o različitim vrstama zvukova kao što je govor, glazba i raznovrsni svakodnevni poznati zvukovi. Znanje sadrži  informacije o nekoj posebnoj pravilnosti koje se manifestiraju na različitim razinama. Govor se u tom kontekstu najčešće navodi kao primjer. Ljudi koji znaju jezik imaju posebne obrasce za pojedine glasnike govora, za pojedine riječi i načine njihova korištenja. Obrasci se aktiviraju kad se u zvuku prepoznaju neki elementi. Aktivirani obrazac potom djeluje na daljnji tijek percepcije. Primitivni procesi djeluju neovisno o znanju, pa čak i neovisno o volji slušatelja. Djelovanje primitivnih mehanizama i top-down procesa ne može se uvijek jasno razdvojiti.

 

 

Referencije

 

Bakran, J. (1984). Vremenska organizacija hrvatskoga standardnog govora. Disertacija, Filozofski fakultet u Zagrebu.

 

Bakran, J. i Lazić, N. (1998). Fonetski problemi difonske sinteze hrvatskoga govora. Govor, XV, br. 2, 103- 116.

 

Bregman, A. S. (1994). Auditory Scene Analysis. MIT Press.

 

Broadbent, D. F. i Ladefoged, P. (1957). On the fusion of sounds reaching different sense organs. Journal of the Acoustical Society of America, 29, 708-710.

 

Brokx, J. K. L.  i Noteboom, S. L. (1982). Intonation and perceptual separation of sumultaneous voices. Journal of Phonetics, 10, 23-36.

 

Chalikia, M.H. & Bregman, A.S. (1989). The perceptual segregation of simultaneous audotory sognals: Pulse train segregation and vowel segregation. Perception & Psychophysics, 46, 487-497.

 

Cherry, E. C. (1953). Some experiments on the recognition of speech with one and with two ears. Journal of the Acoustical Society of America, 25, 975-979.

 

Cutting, J. E. (1976). Auditory and linguistic processes in speech perception: Inferences from six fusions in dihotic listening. Psychological Review. 83, 114-140.

 

Darwin, C. J. (1984). Perceiving vowels in  the presence of another sound: Constraints on formant perception. Journal of the Acoustical Society of America,  76, 1636-1647.

 

Darwin, C.J., Bethell.Fox, C.E. (1977). Pitch continuity and speech source attribution. Journal of Experimental Psychology: Human Perception and Performance, 3, 665-672.

 

Erdeljac, V. (1997). Prepoznavanje riječi. SOL, Ibis, Zagreb.

 

Huggins, A.W.F. (1964). Distortion of temporal patterns of speech: Interruptions and alternations. Journal of the Acoustical Society of America, 36, 1055-1065.

 

Houtsma, A.J.M., Rossing, T.D., Wagenaars, W.M. (1987). Auditory Demonstrations. Institute for Perception Research, Eindhoven, The Netherlands. (CD s popratnom knjžicom)

 

Ladefoged, P., Broadbent, D.E. (1960). Perception of sequence in auditory events. Quarterly Journal of Experimental Psychology, 12, 162-160.

 

Lackner, J.R., Goldstein, L.M. (1974). Primary audotory stream segregation of repeated consonant- vowel sequences. Journal of the Acoustical Society of America, 56, 1651-1652.

 

Moore, B.C.J. (1990). An Introduction to the Psychology of Hearing. Academic Press.

 

Norman, D.A. (1976). Memory and Attention: An Introduction to Human Information Processing. New York, Viley, (citirano prema Bregman 1994).

 

Noteboom, S,G., Brokx, J.P.L. De Rooij, J.J. (1976). Contributions of prosody to speech perception. In W.J.M. Levelt and G.B. Flores d'Arcais (eds.) Studies in the Perception of Language, Chichester: Wiley, (citirano prema Bregman 1994).

 

Potter, R.K., Kopp, G.A., i Green, H.C. (1947). Visible Speech. Van Nostrand.

 

Stevens, K.N., Blumstein, S.E. (1981). The search for invariant acoustic correlates of phonetic features. In P.D. Eimas and J. L. Miller (eds.) Perspective in the Study of Speech. Hillsdale, N.J.: Erlbaum.

 

Stevens, S.S., Davis, H. (1960). Hearing, its Psychology and Physiology, Wiley.

 

Treisman, A.M. (1960). Contextual cues in selective listening. Quarterly Journal of Experimental Psychology, 12, 242-248.

 

Warren, R.M. (1982). Auditory Perception: A New Synthesis. New York, Pergamon.

 

 

 

Naslov na engleskom:

AUDITORY  SCENE  ANALYSIS

 

za summary:

 

U članku se raspravlja o doprinosu pojedinih svojstava govornog zvuka procesu perceptivnog odvajanja mnoštva simultano prisutnih zvukova kojima smo okruženi. Problem predstavlja nastavak istraživanja organizacije percepcije kojim su se početkom stoljeća na vizulanom planu bavili "gestalt" psiholozi. Uz pregled doprinosa pojedinih autora o toj relativno malo istraživanoj temi i komentar na temelju iskustava iz vlastitih istraživanja,  predlaže se nekoliko novih termina (na hrvatskom jeziku) nužnih za razumijevanje problema.

 

Čini se da slušni mehanizam rješava problem analize zvučnog okruženja na dva različita načina: upotrebom takozvanih primitivnih procesa  auditivnog grupiranja i upravljajući  slušanje obrascima koje se temelje na znanju (jezika), poznavanju zvukova. Ovi se mehanizmi međusobno nadopunjuju. Integriranje i odvajanje zvukova temelji se na analizi koja smjesu zvukova dijeli na elemente. Nakon toga uključuje se strategija objedinjavanja elemenata koji pripadaju istoj cjelini, i to u vremenskom slijedu (sekvencijalno grupiranje), i u spektralnom smislu (simultano grupiranje). Najočitiji je princip grupiranja po sličnosti. To se odnosi na fundamentalnu frekvenciju, vremensku bliskost, spektralnu sličnost, prostornu bliskost i intenzitetsku sličnost. Jedan od važnih elemenata analize jesu frekvencijski odnosi među sastavnim elementima zvuka. Što su zvučni elementi frekvencijski udaljeniji manja je vjerojatnost da pripadaju istom zvučnom toku. Drugi je od djelotvornih principa integriranja elemenata analize harmoničnost frekvencijskih komponenata. Auditivni sustav odvojeno grupira harmoničke elemente koji pripadaju istom osnovnom tonu, formira odvojene osjete tonske visine i odvojene spektralne boje. Istovremeno, pojedini harmonici ne čuju se kao zasebni elementi. Sljedeći značajan princip objedinjavanja elemenata zvučne analize jest korelacija promjena pojedinih zvučnih elemenata. Simultana  promjena frekvencijskih i intenzitetskih odnosa signal je za objedinjavanje u istu zvučnu cjelinu. Način na koji se ponaša harmoničan govorni zvuk, za to je idealan primjer. Tu treba imati na umu paralelne frekvencijske promjene harmonika u funkciji govorne intonacije kao i male nehotične, frekvencijske modulacije (jitter). Simultane amplitudne promjene u različitim dijelovima spektra pomažu njihovu integriranju. To se opet odnosi na dvije razine: velike spore promijene i one kojima je izvor u periodičnosti harmoničnog zvuka koja se proteže po čitavom spektru i uzrokuje sinkronu neuralnu pobudu. Uz sinkronost treba spomenuti i povezivanje prostorno podudarnih sinkronih elemenata i korelaciju s vizualnim kanalom. Prostorno povezivanje osim činjenice o različitosti zvuka koji dopire u različita uha uključuje svijest o relativno sporim promjenama položaja izvora zvuka. Kontinuirani zvukovi lakše se povezuju u isti zvučni tok od diskontinuiranih.

 

U cijelom ovom radu pažnja je usredotočena na takozvane primitivne procese grupiranja i odvajanja zvučnih elemenata koji se temelje na svojstvima većine prirodnih zvukova: imaju neko trajanje, sporo se premještaju u prostoru i sastoje se od komponenata koje počinju i završavaju istovremeno. Međutim, ne smije se zanemariti da slušatelji imaju iskustvo i znanje o različitim vrstama zvukova kao što je govor, glazba i raznovrsni svakodnevni poznati zvukovi. Znanje sadrži  informacije o nekoj posebnoj pravilnosti koje se manifestiraju na različitim razinama. Govor se u tom kontekstu najčešće navodi kao primjer. Ljudi koji znaju jezik imaju posebne obrasce za pojedine glasnike govora, za pojedine riječi i načine njihova korištenja. Obrasci se aktiviraju kad se u zvuku prepoznaju neki elementi. Aktivirani obrazac potom djeluje na daljnji tijek percepcije. Primitivni procesi djeluju nezavisno od znanja, pa čak i neovisno o volji slušatelja. Djelovanje primitivnih mehanizama i "top-down" procesa ne može se uvijek jasno razlikovati.