Sakaru Pasaule - Žurnāls par
modernām komunikācijām

  
  


Atpakaļ Jaunais numurs Arhīvs Par mums Meklēšana

Audiosignāla ciparu kodēšana un kompresija — IV

   

Turpinot šīs sērijas tēmu, beidzam iztirzāt cilvēka dzirdes aparāta (CDzA) īpatnības. Aplūkosim CDzA modeli, kas ieiet platjoslas audiokoderu sastāvā, platjoslas runas kodēšanu un digitālās skaņas ierakstesveidus.

Temporālā maskēšana

Papildus simultānai maskēšanai (sk. SP 1999/ 4 (16), 32.–33. lpp.) CDzA dinamisko īpašību novērtēšanā liela nozīme ir temporālai maskēšanai. Pirmā izpaužas frekvenču, otrā — laika apgabalā, t. i., tad, kad spēcīgā skaņa parādās īsā laika intervālā. Temporālo maskēšanu nosaka CDzA kritisko joslu fiktīvās filtru kopas laika konstantes, un tai ir divi paveidi: pirmsmaskēšana (premasking) un pēcmaskēšana (postmasking) (1. zīm.). Spēcīgā skaņa (tumšās joslas zīm.) var maskēt (nomākt, padarīt nedzirdamu) vājās skaņas (sarkanie stabiņi zīm.) ne tikai tad, kad vājā skaņa seko spēcīgajai, bet pat tad, kad vājā skaņa parādījusies pirms spēcīgās! CDzA it kā spēj paredzēt spalgas skaņas. Pirmsmaskēšana gan izpaužas daudz mazākā mērā nekā pēcmaskēšana, jo laiks, kurā novērojamas šīs parādības, pirmsmaskēšanai ir apmēram 10 reižu īsāks nekā pēcmaskēšanas gadījumā, kur tas var būt 50Ö200 ms. Pirmsmaskēšana palīdz maskēt t. s. priekšatbalsi (piemēram, klusuma periodam sekojošu satricinoši spalgu kastaņetes skaņu), kas digitālā audiotehnikā rodas, pēkšņai lielai kvantēšanas kļūdai izplatoties kodēšanas blokā. Abus temporālās maskēšanas paveidus izmanto MPEG audiokodēšanas algoritmos.

Kompresēšanas iespējas

Tehnika vienmēr centusies izmantot cilvēka maņu orgānu īpatnības. Acij piemīt redzes inerce — tikai tādēļ ekrānā redzam TV attēlu, nevis kustīgu, spīdošu punktu. Digitālā audiotehnika savukārt izmanto CDzA īpatnības. Vispirms jau nav jēgas apstrādāt irrelevantās skaņas komponentes, kuras atrodas zem dzirdamības sliekšņa (2. zīm.). Tas pats attiecināms uz komponentēm, kuras tiek simultāni vai temporāli nomaskētas. Tāpat pārraides procesā tiek novāktas redundantās signāla avota komponentes, izmantojot korelāciju starp nolasēm. Tikai tāpēc digitālos audiosignālus iespējams kompresēt!

Kvantēšanas trokšņi

Jau minēju, ka digitālajā audiotehnikā nepatikšanas rada kvantēšanas trokšņi. Ar trokšņu formēšanas (noise shaping) paņēmienu izdodas tos aizbīdīt uz frekvenču joslām, kur tie vairs nav dzirdami. Trokšņu nobīdei jābūt dinamiski pielāgotai tekošam, īslaicīgam ieejas signāla spektram atbilstoši tā signāla un maskēšanas attiecībai. To var veikt dažādi, piemēram, sadalot visu pārraidāmo frekvenču joslu apakšjoslās un kodējot tās atsevišķi. Platjoslas audiokodēšanas procesā trokšņu formēšanas parametrus dinamiski kontrolē vēl daudz efektīvāk, izmantojot simultāno un temporālo maskēšanu.

CDzA psihoakustiskais modelis

Lai praktiski realizētu kompresēšanas iespējas, maskēšanas parādības nepieciešams aprakstīt matemātiski. Kāpēc? Definējot maskēšanu, aplūkojām tikai vienu maskētāju. Bet, ja to ir vairāk, turklāt vienlaikus, un katram savs maskēšanas slieksnis? Tad koderam jāizskaitļo t. s. globālais maskēšanas slieksnis, kas raksturo, kādas skaņu komponentes paliek nedzirdamas visā cilvēka ausij uztveramā frekvenču diapazonā. Taču koders to spēs tikai tad, ja tajā būs ieprogrammētas atbilstošas formulas. 3. zīm. blokshēmā parādīts CDzA psihoakustiskais modelis, ko turpmāk kodēšanas blokshēmās apzīmēsim ar vienu bloku. Blokshēmas ieejā tiek padots tā brīža akustisko signālu frekvenču spektrs. CDzA iekšauss Kortija orgānu — gliemeža pamatmembrānu ar 14 000 matu šūnu — modelē ar sarežģītu 25 filtru kopu, kur katrs filtrs laiž cauri frekvenču joslu, kas atbilst kritiskai frekvenču joslai. Atsevišķo filtru caurlaides frekvenču joslas savstarpēji pārsedzas. Kortija orgāna modelī procesors aprēķina signāla enerģijas sadalījumu visā gliemeža pamatmembrānas garumā. Tiek novērtēts arī signāla tonis. Tā iegūst informāciju, kā maskēšanas efekti maina dzirdamības slieksni 20Ö20 000 Hz joslā. Ja kvantēšanas trokšņa līmenis ir zemāks par izmainīto dzirdamības slieksni, kvantēšanas troksnis nav dzirdams. Ja tas ir tā pie visiem uztveramiem signāliem, tad šādi dekodēto skaņu digitālā audiotehnikā dēvē par transparentu skaņu.

Platjoslas runas kodēšana

Runas kodēšanu ar plašāku frekvenču joslu, nekā tas nepieciešams parastās telefonijas vajadzībām, garāmejot pieminēju tikai iepriekšējo rakstu tabulās. ITU-T G.722 platjoslas runas kodera standarts nosaka sākotnējās frekvenču joslas (50Ö7000 Hz) sadali divās apakšjoslās, ko veic ar kvadratūrspoguļfiltriem (KSF). Izmantojot šo metodi, katru joslu kodē ar dažādu kvantēšanas izšķiršanu, apakšējai joslai atvēlot 6 bit/nolase, bet augšējai — ar mazāku enerģētisko ieguldījumu — izmantojot tikai 2 bitus nolasei. Ja apakšējai joslai kvantēšanas izšķiršanu samazina līdz 4 vai 5 bitiem, kļūst iespējams samazināt bitu plūsmas ātrumu vai pārraidīt papildu datus. Kodēšanas paņēmiens — adaptīvā impulsu diferences koda modulācija ADPCM (Adaptive Differential Pulse Code Modulation). ADPCM ir DPCM (ko plaši izmanto videosignālu kodēšanai, sk. SP 1998/ 4 (12), 17.–19. lpp.) modifikācija. Darbības pamatprincips saglabājas, bet ADPCM koders šai gadījumā pielāgo prognozes bloku (filtru) runas signālam. To panāk, relatīvi īsām runas signālu sastāvdaļām ikreiz no jauna iestādot tām nepieciešamos prognozes filtra koeficientus. Tādējādi prognozes bloks vienmēr ir optimāli noskaņots atbilstošai runas signāla sastāvdaļai.

G.722 koders

Šis koders (4. zīm.) ir kļūdu robusts, jo bitu kļūdu varbūtība 10-3 vēl nepasliktina kvalitāti. Tas gan notiek, ja samazina kopējās plūsmas ātrumu no 64 kbit/s uz 48 kbit/s (MOS balle samazinās no 4,0Ö4,1 līdz 3,7). CELP koderi šai ziņā ir noturīgāki — pie 32 un 16 kbit/s atbilstoši MOS balle ir 4,0 un 3,8. Interesanti atzīmēt, ka G.722 koderiem vīriešu balss subjektīvā kvalitāte parasti izklausās labāka nekā sievietes balsij (caurmēra atšķirība 0,5Ö0,8 MOS balles). Platjoslas runas kodēšana iespējama arī MPEG-1 paplašinātā standartā ar diskretizācijas frekvencēm 24, 22,05 un 16 kHz (atbilstošās pārraidāmās frekvenču joslas 11,25, 10,3 un 7,5 kHz). 1993. gadā ITU-T G.722 koders tika modificēts 15 kHz platai joslai ar 32kHz diskretizācijas frekvenci. Rezultējošam stereo bitu plūsmas ātrumam 256 kbit/s subjektīvais kvalitātes vērtējums skaļruņa atskaņojuma noklausīšanās testos bija 4,2 un 4,0 MOS balles (atbilstoši nekodētam un kodētam signālam).

Digitālie platjoslas audioieraksti

Kompaktdisks (CD) — šis digitālās audiotehnikas faktiskais standarts — mūsdienās piesaistījis ne tikai melomānu uzmanību, bet arī padarījis ciparu platjoslas audio par populārāko mūzikas atskaņošanas veidu. Tiešām, visi CD atskaņojuma parametriir labāki nekā analogā ieraksta. Mazāk sagatavots klausītājs parasti viskrasāk izjūt tieši dinamiskā diapazona (visskaļākās un visklusākās skaņas amplitūdu attiecība) palielināšanos un stereokanālu labāku atdali (atbilstoši 40 dB un 60 dB vairāk salīdzinājumā ar analogo ierakstu).

Ierakstu veidi

Izplatību guvuši arī citu veidu digitālie audioieraksti: digitālā audiolente (DAT — Digital Audio Tape); Philips firmas izstrādātā digitālā kompaktkasete (DCC), kas izmanto MPEG-1 audiokodera I slāni; Sony firmas magnetooptiskais 64 mm minidisks (MD), kas izmanto ATRAC (Adaptive Transform Acoustic Coding) kompresēšanas algoritmu; abu minēto firmu kopražojums DVD (Digital Versatile Disc) disks (sīkāk sk. SP 1998, 1 (9), 94.-95. lpp.). Sk. tabulu. Visiem ierakstes veidiem (izņemot DVD) kvantēšanas izšķiršana ir 16 biti uz nolasi. Tas nozīmē: ja, piemēram, analogais (A) signāls mainās robežās no -5 V līdz +5 V, tad digitālam (D) signālam ir 216 = 65536 kvantēto līmeņu ar soli 152,4 µV. Tātad A/D pārveidotājam jābūt ļoti stabilam, lai nodrošinātu sprieguma precīzu dalīšanu tik daudzos amplitūdas līmeņos. Kompresijas faktors 4Ö5 ir pilnīgi pieļaujams, jo jutīgais CDzA šādu atskaņojumu praktiski neatšķir no oriģināla.

Nepieciešamās CD bitu plūsmas

Rezultējošais audiobitu plūsmas ātrums stereo variantā tātad ir 2 x 44,1 x 16 = 1,41 Mbit/s, turklāt sākotnēji kadrā ir tikai 6 biti. Kāpēc tad kopējā bitu plūsmā jāietver papildu biti? Ja to nedara, atskaņotā signāla kvalitāte stipri atpaliek no oriģināla. Kļūdas rodas gan ierakstē, gan lietošanas procesā (ieskrāpējumi, putekļi, pirkstu nospiedumi u. c.). Bitu kļūdu varbūtība šai gadījumā ir ņ10–4, kas platjoslas audiosignāliem ir pārāk daudz, lai CDzA nesaklausītu skaņas pasliktināšanos.

Kā uzlabot atskaņojumu?

Tātad, pirmkārt, papildu biti nepieciešami kļūdu korekcijai. Izmantojot t. s. šķērssavīto Rīda-Solomona bloku kodu (CIRC — Cross Interleaved Reed-Solomon Code), bitu kļūdu varbūtību izdodas samazināt līdz 10–9. CIRC būtība — audio biti netiek ierakstīti pēc kārtas, bet gan it kā izmētāti lielākā CD ieraksta celiņa gabalā, iepinot tur arī kļūdu korekciju bitus. Tādējādi pat ilgstoši traucējumi nespēj pilnīgi izkropļot audio bitus, kuri atskaņošanas procesā tiek atjaunoti, izmantojot apgrieztu izmētāšanas algoritmu.Kļūdas, kuras nevar izlabot, speciālā kļūdu noslēpšanas shēma vai nu interpolē, vai izmanto to vietā iepriekšējo nolasi, vai arī sliktākajā gadījumā tās izslēdz (signal muting) (5. zīm.). Otrkārt, tiek kartēti, t. i., pārvadīti citā formātā 8 informācijas biti uz 14 ar t. s. kodu sistēmu EFM (Eight to Fourteen Modulation), kam vēl pievieno trīs trenēšanas bitus. Tas arī uzlabo attiecību signāls/troksnis. Treškārt, tiek pievienoti kontroles biti, lai klausītājam būtu informācija par katru ieraksta daļu. Visbeidzot, katram kadram vēl pievieno 24 sinhronizācijas jeb kanāla bitus ar trim trenēšanas bitiem (ar signālu kanālu šeit gan jāsaprot CD ierakstes celiņu). Tas palielina kopējo bitu daudzumu uz vienu nolasi caurmērā no 16 uz 49 bitiem, kuriem arī ir nepieciešams kopējais plūsmas ātrums 1,41 x 49/16 = 4,32 Mbit/s. Tādējādi sākotnējais analogais signāls CD tiek ierakstīts jau pārveidotā un apstrādātā veidā. Atskaņošanas procesā pēc D/A pārveidotāja restaurēto analogo signālu vēl filtrē, un tad tas praktiski neatšķiras no oriģināla. Papildu biti nepieciešami arī citiem ierakstes veidiem.

Turpmākais progress

Lai tālāk uzlabotu audiosignālu atskaņošanas un arhivēšanas raksturlielumus, turpmāk tiks izmantoti arī DVD. Tiem diskretizācijas frekvence ir stipri augstāka (sākot no 98 kHz līdz vairāk nekā 200 kHz). Tāpat līdz 24 bitiem uz nolasi palielināta kvantēšanas amplitūdas izšķiršana. DVD diskiem ierakstāmās informācijas apjoms vienkāršākā variantā ir septiņkārt lielāks nekā CD: 4,7 GB (vienslāņa), 8,5 GB (divslāņa), 9,4 GB (divpusēji vienslāņa) un 17 GB (divpusēji divslāņa). Pēdējā gadījumā atskaņošanas ilgums pieaug līdz astoņām stundām! Paredzēts, ka MPEG-2 videoformātā vienā DVD diskā varēs ietilpināt pilna garuma mākslas filmu kopā ar vairākkanālu skaņas pavadījumu.

(Turpmāk vēl.)
Arnolds VĪTOLS,
speciāli Sakaru Pasaulei
 
Design and programming by Anton Alexandrov - 2001