Audiosignāla ciparu kodēšana un kompresija — III

Turpinot šīs sērijas iepriekšējā raksta (SP 1999, 3 (15), 24.—25. lpp.) tēmu, nevar apiet plašu izplatību guvušā GSM mobilā telefona kodēšanas procesus. Sākam arī iztirzāt digitālai audiotehnikai svarīgās neirofizikālās parādības cilvēka dzirdes aparātā.

GSM runas koders

Sākotnēji GSM runas koderam MOS kvalitātes balle bija apmēram 3,5 (skat. tabulu ), bet 1995./96. gadā GSM standartizācijas otrā fāzē kodera uzbūve tika pārstrādāta. Šo uzlaboto GSM koderu, kas līdzīgi CELP koderiempieder pie t.s. hibrīdkoderu grupas, tad arī aplūkosim. Iepriekšējās sērijas rakstā GSM koderu apzīmējām ar burtu kopu RPE-LTP-LP, kuru nozīme paskaidrota līdzās blokshēmai (1. zīm.). Kodera ieejā nonāk runas freimos, 0,02 s = 20 milisekunžu laika intervālos, sasmalcināti runas zilbju fragmenti, kas iegūti, veicot 8000 nolases sekundē, katrai nolasei piekārtojot 13 bitus. Tie kodera ieejā veido bitu plūsmas ātrumu 8000 x 13 = 104 kbit/s.

Kodēšanas process

GSM audiosignālu ciparu kodēšanas galvenie principi aizgūti no videosignālu kodēšanas tehnikas (skat., piemēram, SP 1999, 1 (13), 22. lpp.), kuri digitālās TV vajadzībām tika pētīti un optimizēti jau kopš astoņdesmito gadu beigām. Tāpēc vērīgs lasītājs šo koderu bloku sakārtojumā atradīs daudz līdzību. Šie principi ir diferenciālā kodēšana un prognoze, tikai GSM audiosignālu kodēšanas procesā runai nepieciešamos ierosināšanas signālus modelē ar RPE — regulāru impulsu secību. Tiek kodēta tikai atšķirība starp runas freima laikā pienākošo impulsu un prognozēto impulsu secību. Lai vēl efektīvāk prognozētu runas zilbju daļas, GSM kodera izejā runas freima laikā tiek izstrādāti trejādi signāli: P1 — pirmais (LP — lineārās prognozes) parametrs, precīzāk 36 bitu (160 nolases) kopa, kas dekoderā (mobilā telefona uztvērējā) stūrē īstermiņa sintēzes filtru; P2 — otrais (LTP — ilgtermiņa prognozes) parametrs (arī 36 bitu), kas dekoderā stūrē ilgtermiņa sintēzes fil- tru; R — RPE regulāro impulsu secība, kas paredzēta viena runas signāla ierosināšanai. Runas freima laika mērogā (20 ms) ar īstermiņa prognozi saprot prognozi apmēram vienas milisekundes laikā, galvenokārt runas nebalsīgajām skaņām. Ilgtermiņa gadījumā (apmēram ceturtdaļas freima intervāla laikā, t.i., piecās milisekundēs) tā paredzēta galvenokārt runas balsīgo skaņu pareģošanai. Atbilstošo sintēzes filtru stūrēšana izpaužas to koeficientu izmaiņā.

Kodera radītā kompresija

Kā novērtēt šī kodera signālu kompresiju? Runas freima laikā kodera izejā summāri tālāk tiek noraidīti 36+36+188 = 260 biti, šim nolūkam nepieciešamais bitu plūsmas ātrums ir 13 kbit/s.Tātad, ņemot vērā, ka bitu plūsmas ātrums kodera ieejā ir 104 kbit/s, GSM runas kodera kompresijas faktors ir 8. Neņemot vērā P1 un P2 parametru ieguldījumu, kas tikai samazina runas signālu dinamisko diapazonu, runas bitus tiešā veidā nesaturot, patiesā kompresijas attiecība pieaug līdz 11,1. Lai neciestu atskaņojuma kvalitāte, platjoslas audiokoderos tik lielu kompresiju parasti nepieļauj.

Pārraide ar pārtraukumiem — DTX

Protams, runas pārraide nav nepārtraukta, bet ar pauzēm. Sarunu režīmā mobilā telefona raidītājs darbojas tikai tad, kad tiek izteikti vārdi. Tā tiek ietaupīta elektroenerģija un paildzināts akumulatoru darbības cikls. Tāpat jāparedz kodera darbība ļoti sliktos uztveršanas apstākļos. Tādēļ runas signāla pārraides laikā tiek izmantota arī VAD (balss aktivitātes noteikšana) un SID (pauzes raksturojums) informācija (1. zīm.). To noraida pārraides zibšņu beigās. Parasti ar kanālkodēšanas procedūrām panāk, ka bitu kļūdu varbūtība samazinās no 10-1 ø 10-3 uz 10-5 ø 10-6. Ārkārtīgi sliktos uztveršanas apstākļos ļoti kļūdains runas freims no kanāla kodera atnāk jau ar BFI (Bad Frame Indication) karodziņu. Tādā gadījumā nelietojamais, faktiski zaudētais freims tiek atvietots ar iepriekšējo prognozēto (izskaitļoto) freimu. Tas ir t.s. Error Concealment (kļūdu noslēpšanas) paņēmiens. Ja arī tas nav iespējams vai ja runas pauzēs izpaužas pārlieku liels trokšņu līmenis, kas samazina kopējo runas signālu saprotamību, SID signālos tiekģenerēti mākslīgi fona, t.s. komfortablie trokšņi (Comfort Noise), kas nepatīkamos trokšņus nomaskē. Visu šo atjautīgo paņēmienu rezultātā uzlabotā GSM runas kodera MOS kvalitātes balle palielinājās, sasniedzot ņ4,0. GSM runas dekoderā, kas ir vienkāršāks par koderu, tiek veiktas inversas operācijas apgrieztā secībā.

Redundance un irrevalence

Videosignālu kompresijas gadījumā (skat., piemēram, SP 1999, 1 (13), 21. lpp.) runājām tikai par redundanci — datu pārbagātību un tās samazināšanu, bet digitālā audiosignālu tehnikā vienlīdz nozīmīga ir kā redundance, tā arī irrevalence. Pilnais audiosignāls var saturēt tik daudz datu, ka dažus no tiem cilvēka dzirdes aparāts nemaz neuztver. Tie tātad ir nesvarīgi, nevajadzīgi jeb irrevalenti dati. Taču tas pats audiosignāls atkarībā no sarežģītības pakāpes var saturēt informāciju, kas ir prognozējama un tādēļ izslēdzama tikai datu pārraides procesā, bet pēc vajadzības atjaunojama dekoderā (uztvērējā). Šādus datus audiotehnikā sauc par redundantiem. Aplūkotā GSM runas kodera izejā parametri P1 un P2 samazina pārraidīto runas signālu redundanci, bet R — runas ierosināšanas signālu datu kopa — samazina šo signālu irrevalenci (izmestie dati dekoderā vairs nav rekonstruējami).

Tīrie toņi un trokšņi

Tīrie toņi ir ar lielu redundanci un mazu irrevalenci. Tos var saspiest samērā vienkārši, izmantojot statistisko kompresijas procesu. Sarežģītas skaņas un trokšņu signāli ir ar mazu redundanci un lielu irrevalenci. Tos kompresē ar t.s. perceptuālo koderu, irrevalentos datus pilnīgi zaudējot. Lai labāk izprastu audiosignāla ciparu kodēšanas un kompresijas procesus, piemēram, saprastu, kāpēc runas traktu modelē ar lineārām filtru kopām, nepieciešams sīkāk iepazīties ar cilvēka dzirdes aparātu un t.s. maskēšanas efektiem.

Cilvēka dzirdes aparāts (CDzA)

Tas atrodas iekšējā ausī (2. zīm.). Tur izvietots gliemezis — 2,75 apgriezienu spirālveida formas kaula kanāls, kas pildīts ar limfas šķidrumu. Gliemeža pamatmembrāna (basilar membrane) kopā ar matu šūnām veido CDzA svarīgāko daļu — Kortija orgānu. Tas ir savdabīgs analogi digitālais pārveidotājs, jo no vidusauss pienākošās analogās mehāniskās (skaņu) svārstības — limfas spiedienizmaiņas — gliemeža elastīgos pamatmembrānas audus periodiski deformē, iesvārstot pieguļošo matu šūnu šķiedras (matus). Tām rezonējot uz noteiktas frekvences svārstībām (skaitļi uz pamatmembrānas 2. zīm.), izdalās elektroķīmiska substance, kas pamudina šūnu raidīt nervu tīklā impulsu. Tā tiek signalizēts par parciālu ierosu noteiktā pamatmembrānas vietā. Kortija orgāns jāuzskata par skaņas spektrālo analizatoru, jo sarežģītai skaņai uz smadzeņu dzirdes centru impulsu veidā tiek nosūtīta informācija par visām nepieciešamām skaņas frekvenču (Furjē) komponentēm. Šie procesi līdz galam vēl nav izpētīti.

Maskēšanas efektu pirmcēloņi

Vissvarīgākā atziņa no digitālās audiotehnikas viedokļa, kas noved pie maskēšanas efektu izpētes un to praktiskā lietojuma, ir tā, ka lielas intensitātes skaņas frekvenču komponentes ierosina ne tikai atbilstošai frekvencei visjutīgākās matu šūnas šķiedras, bet arī šķiedras blakus matu šūnās. Notiek noteiktas skaņu frekvences parciālās ierosas savdabīga izsmērēšanās nelielā frekvences apgabalā. Blakus matu šūnas kļūst it kā nejūtīgas pret citām, zemākas intensitātes frekvenčukomponentēm.

Maskēšana

Šādu intensīvu skaņu spēju nomākt, padarīt nedzirdamas vājākas skaņas sauc par maskēšanu. Jau 1938. gadā fiziologs un fiziķis H. Fletčers atklāja, ka maskēšanas efekts ir īpaši izteikts nelielās, t.s. kritiskās frekvenču joslās [1]. Cilvēkam dzirdamā skaņas frekvenču diapazonā — no apmēram 16 Hz līdz 20 kHz — izšķir 25 kritiskās joslas. Zem 500 Hz kritisko frekvenču joslu platums ir apmēram 100 Hz, bet no 500 Hz uz augstāko frekvenču pusi to platums pakāpeniski pieaug, pie 20 kHz sasniedzot apmēram 4 kHz.

Simultānā maskēšana

Ja maskēšanas parādību novēro frekvenču apgabalā, tad to sauc par simultāno (vienlaicīgo). Aplūkosim, piemēram, kā šis efekts izpaužas 5. kritiskās joslas robežās (400 — 510 Hz). Spēcīga skaņa — maskētājs (3. zīm.) 440 Hz spalgs, tīrs tonis (lielā seksta) — nomaskē citas, vājākas skaņas, kas zīmējumā parādītas kā sarkani stabiņi. Maskēšanas slieksnis uz augsto frekvenču pusi ir lēzenāks. Tas nozīmē, ka vājās skaņas virs 440 Hz tiek nomāktas daudz efektīvāk. Maskēšanas slieksni nosaka CDzA — tātad subjektīvi faktori, kā arī maskētāja skaņas spiediena līmenis un frekvence. Tāpat svarīga nozīme ir maskētāja un nomākto signālu raksturam (troksnis vai tīrs tonis). Troksnis maskē labāk nekā tonis. Problēma tikai tā, ka cilvēka runa un audiosignāli vispār nav ne tīri toņi, ne tīri trokšņi, bet gan abu kombinācija. Protams, maskēšana izpaužas arī kritiskās joslas blakus joslās, tikai mazākā mērā. Tātad maskētājs it kā paceļ dzirdamības slieksni (4. zīm.). Šo CDzA īpašību izmanto digitālajā audiotehnikā.

(Turpmāk vēl.)
Arnolds VĪTOLS,
speciāli Sakaru Pasaulei

Informācijas avots
H. Fletcher. Loudness, masking and their relationship to the hearing process and the problem of noise measurement. Acoust. Soc. Amer. 1938, vol. 9, 275-293. * Sk. SP 1999, 3 (15), 24.

Audiosignāla ciparu kodēšana un kompresija — III

Turpinot šīs sērijas iepriekšējā raksta (SP 1999, 3 (15), 24.—25. lpp.) tēmu, nevar apiet plašu izplatību guvušā GSM mobilā telefona kodēšanas procesus. Sākam arī iztirzāt digitālai audiotehnikai svarīgās neirofizikālās parādības cilvēka dzirdes aparātā.

GSM runas koders

Kodēšanas process

Kodera radītā kompresija

Pārraide ar pārtraukumiem — DTX

Redundance un irrevalence

Tīrie toņi un trokšņi

Cilvēka dzirdes aparāts (CDzA)

Maskēšanas efektu pirmcēloņi

Maskēšana

Simultānā maskēšana

Design and programming by Anton Alexandrov - 2001