Sakaru Pasaule - Žurnāls par
modernām komunikācijām

  
  


Atpakaļ Jaunais numurs Arhīvs Par mums Meklēšana

Audiosignāla ciparu kodēšana un kompresija – IX

   

Audiosignala ciparu kodešana un kompresija – IX

 

Pēc dažādu runas un platjoslas audio kodēšanas un kompresijas kodeku (sistēma koders + dekoders) aplūkošanas rakstu sērijas nobeigumā pievērsta uzmanība platjoslas audio kodeku atskaņojuma kvalitātes problēmām.

 

Video vai audiosignālu kompresēšanas algoritmu un programmatūras izstrādes procesā tiek pieņemta sākumdatu jeb parametru kopa, piemēram, bitu skaits, kas atvēlēts vienas nolases raksturošanai, kvantēšanas soļa lielums un raksturs, kustību vektoru meklēšanas apgabals (kodējot videosignālus!), Hafmana kodu grāmatas apjoms u. c. Taču algoritms (piemēram, MUSICAM, ASPEC – audio signāliem) ir kodeka dvēsele! Audiosignālu gadījumā par svarīgu sistēmas parametru jāuzskata pat koderā iebūvētais cilvēka dzirdes aparāta (CDzA) modelis.

Šie sākotnēji pieņemtie ļoti plašas izpratnes parametri beigu beigās nonāk firmas (koncerna) kodeka standartā. Tie var būt atšķirīgi, ja kodekus paredzēts izmantot dažādos lietojumos. Piemēram, izstrādājot attēla pārraides kodekus, svarīgi, vai tie paredzēti medicīnas darbinieku vajadzībām, domāti masu medijiem, izklaidei vai arī lietojumam jābūt universālam.

Tātad šiem sākotnēji pieņemtajiem parametriem ir ārkārtīgi liela nozīme algoritma praktiskajā realizācijā. Tie nosaka kodeka datu apstrādi līdz pat nepieciešamajam bitu plūsmas ātrumam un, kas pats svarīgākais, beigu beigās arī attēla vai atskaņojuma kvalitāti. Diemžēl, nav daudz vispārēju likumu, piemēram, tādi kā Naikvista kritērijs diskretizācijas frekvences izvēlē, kas dotu ērtu iespēju visus šos daudzos sākotnējos parametrus izvēlēties optimālus, vadoties no galvenā kodeka izejas lieluma (attēls, atskaņojums) kvalitātes. Tas tāpēc, ka pati kvalitāte ir pietiekoši sarežģīts jēdziens un bieži tiek neviennozīmīgi vērtēta.

 

Tālāk tikai par AUDIO

Kā ar atskaņojuma kvalitāti novērtēt dažādus platjoslas kodēšanas un kompresijas algoritmus? Kuram algoritmam dot priekšroku? Skaidrs, ka katrs no tiem, precīzāk, to praktiskais izpildījums – kodeks (piemēram, MPEG-1 II slānis, MPEG-2 BC, MPEG-2 AAC, MPAC vai PAC, AC-3 u. c.) raksturīgs ar optimālo bitu plūsmas ātrumu (kbit/s jeb kbps). Kaut gan sistēma spēj darboties pie dažādiem ātrumiem, svarīga ir minimālā bitu plūsma, pie kuras vēl saglabājas pārējie sistēmas raksturojumi. Vēl labāk, ja dota kbps josla, kurā šie raksturojumi nav sliktāki par sistēmas aprakstā uzdotajiem lielumiem. Kāpēc tik liela vērība tiek pievērsta bitu plūsmas ātrumam? Pavisam vienkārši – katrs pa gaisu – ar elektromagnētisko jeb radio viļņu palīdzību – vai pa vadiem, vai kabeli pārraidītais vai pārsūtītais bits maksā naudu!

 

Citi raksturojumi

Citi (bet ne visi!) svarīgi sistēmas raksturlielumi kā, piemēram, kodēšanas datu apstrādes aizture, kas mērojama milisekundēs (20÷100 un vairāk ms dažādiem algoritmiem) un ir nozīmīga, lai pārraide notiktu t. s. reālajā laikā; kodeka komplicētības pakāpe, ko var izteikt, piemēram, MIPS vienībās (sk. SP 1999/3, 24. lpp.); robustums, kura jēga tika skaidrota, aplūkojot MPEG-4 VIDEO (SP 1999/1, 22. lpp.). Protams, pats galvenais raksturojums ir atskaņojuma kvalitāte. Ar ko sākām, pie tā arī nonācām!

 

Raksturojumu noteikšana

Bitu plūsmas ātrumu var objektīvi un precīzi nomērīt, MIPS (Millions of Instructions Per Second) skaitlis objektīvi atkarīgs no nepieciešamā kodera procesora izvēles (piemēram, DSP, RISC vai CISC tipa *) un tā noslogojuma utt. Bet kā noteikt atskaņojuma kvalitāti? Situācija ir bēdīga.

T. Raidena 1996. gada pētījumi liecina, ka t. s. transparento atskaņojuma kvalitāti no audio platjoslas koderiem, kuros iebūvēts CDzA modelis, var iegūt visai plašā signāla/trokšņa attiecības rajonā (no 13 līdz 90 dB!). Vēl vairāk – noskaidrojās, ka analogam signālam piemērojamās kvalitātes lielumu (nelineāro kropļojumu koeficients, attiecība signāls/troksnis utt.) noteikšanas metodes bieži nav atbilstošas, jo dod juceklīgus un neadekvātus rezultātus [1].

* DSP – Digital Signal Processor

RISC – Reduced Instruction Set Computer

CISC – Complex Instruction Set Computer

 

Ko iesākt? - Lai visu izšķir auss!

Atliek objektīvos mērījumus un novērtējumus aizstāt ar dārgām un subjektīvām kvalitātes vērtēšanas metodēm, izmantojot ekspertus. Šie apsvērumi jau tika izteikti, aplūkojot runas koderu kvalitātes kritērijus (sk. SP 1999/2, 18. lpp.) un ievedot īpašas uz subjektīviem novērtējumiem bāzētas t. s. MOS (Mean Opinion Score) balles, kuras šīs sērijas rakstos arī izmantojām.

Piebilstot šeit tomēr par videokodekiem, jāatzīmē, ka jau pagājušās tūkstošgades pēdējās dekādes vidū japāņu speciālisti digitālā TV attēla kvalitātes noteikšanai arī izmantoja subjektīvās kvalitātes vērtēšanas metodes, rezultātus izteikdami DSCQS ballēs (sk., piemēram, [2]). Šai metodē visu izšķir cilvēka acs!

Lai atskaņojuma kvalitātes vērtētāju – ekspertu viedokļi būtu, cik nu tas iespējams, objektīvāki, noklausīšanās procedūras tiek standartizētas. Protams, var subjektīvos testus veikt jums vēlamā, neformālā veidā, taču labāk tos organizēt, izmantojot ITU-R rekomendācijas

 

ITU-R rekomendācijas

Platjoslas audio kodeku atskaņojuma kvalitātes novērtēšanai parasti izmanto ITU-R Rec. BS. 1116 [3] rekomendācijas, kas nosaka noklausīšanās vidi un procedūras mazu neatbilstību subjektīvam novērtējumam.

 

No MOS uz MSS

Minētās rekomendācijas platjoslas audio kodekiem iesaka piemērot citu subjektīvo atzīmi, t. s. MSS (Mean Subjective Score) balli. Šīs balles iegūšanai ieteikts izmantot trīs stimulu dubultslēptās references metodi. Pēc tās ekspertam dod iespēju noklausīties trīs signālus (stimulus) jeb skaņu fragmentus: A, B un C. Stimuls A ir nekodētais jeb dabiskais, t. s. references signāls. B un C vai C un B stimuli satur nejaušā secībā izvēlētu references signāla atkārtojumu un kodēto (caur kodēšanas – dekodēšanas sistēmu izgājušo un atkal par analogo pārveidoto) signālu, kura kvalitāti minētā metode cenšas arī noskaidrot.

 

Dubultslēpts

Metodi dēvē par dubultslēptu (burtiski: dubultaklu – double blind) tādēļ, ka to, kas ir B un kas ir C, nedrīkst zināt ne saaicinātie eksperti, ne paši testa organizētāji. Pēc visu trīs stimulu (atskaņoto skaņas signālu) noklausīšanās ekspertam jāatpazīst B vai C kā slēptā reference, bet neatbilstības kodētam signālam jānovērtē pēc 41 punktu skalas (1. zīm.). Balli 5,0 eksperts dod noslēptam references signālam. Tā šai subjektīvā eksperimentā iegūst MSS balli, kas vairs nav absolūts vērtējums kā MOS balle, bet gan relatīvs vērtējums attiecībā pret apslēpto references signālu. Ekspertu ir daudz, tādēļ veic rezultāta statistisko apstrādi, iegūstot vidējo (kopējo) balli un tās kļūdu.

 

Transparenta skaņa

Šis jēdziens šīs sērijas rakstos jau tika lietots. Šeit to definēsim precīzāk. Kodētam signālam skaņas kvalitāte tiek uzskatīta par transparentu (precīzāk, gandrīz transparentu), ja pēc trīs stimulu dubultslēptās references metodes iegūto rezultātu apstrādes

·  noslēptā references signāla kopējā MSS balles skaitliskā vērtība atrodas kodētā signāla 95 procentu ticamības intervālā

un otrādi -

·  ja kodētā signāla MSS balles skaitliskā vērtība atrodas references signāla 95 procentu ticamības intervālā.

Taču tas paredzēts samērā nelielām neatbilstībām. Lielāku neatbilstību salīdzināšanai izrādījušās noderīgas ITU-T rekomendācijas P.800/P.830. Ar tām pēc septiņu punktu CCR (Comparison Category Rating) reitinga parasti salīdzina divas sistēmas, I un II, novērtējot, kurai atskaņojuma kvalitāte labāka:

 

Tabula 1

CCR – salīdzināšanas kategoriju reitings

 

Balle               Vērtējums sistēmām I un II

+3                     I daudz labāka par II

+2                          I labāka par II

+1                    I nedaudz labāka par II

0                           I vienāda ar II

-1                   I nedaudz sliktāka par II

-2                         I sliktāka par II

-3                     I daudz sliktāka par II

 

CCR reitingu ērti lietot, ja kodēšanas sistēmas atšķiras ar lielākām neatbilstībām un jānovērtē, kurš no kodekiem labāks atskaņojuma kvalitātes ziņā. Ar CCR, piemēram, novērtēti WORLDSPACE satelītu komunikāciju sistēmu 16 kbps kodeki.

 

Subjektīvo testu trūkumi

Jebkuras subjektīvās metodes vērtējuma rezultātus jāpieņem ar zināmu piesardzību. Sevišķi tas attiecas uz MSS ballēs izteiktajiem ekspertu kolektīva testu rezultātiem. Jāizanalizē visi faktori, kas var iespaidot ekspertu vērtējumu: testa signālu (skaņas fragmentu) īpatnības, vietas (telpas) izvēle, kā arī individuālais eksperta uztveres asums un izziņas spēja.

Vēl jāņem vērā ekspertu atšķirīgos uzskatus. Varbūt kāds slepus lobē noteiktu firmu vai koncernu – kodeku izgatavotāju?

Ir norādes, ka sevišķi jutīgus un kaprīzus ekspertus, t. s. zelta ausu īpašniekus no atskaņojuma novērtēšanas seansiem parasti izraida.

 

… un īpatnības

Novērots, ka eksperti dažādi reaģē uz specifisko traucējumu veidiem (artifacts), piemēram, priekšatbalsi (sk. SP 2000/1, 33. lpp.), nenomaskētiem granulāriem (kvantēšanas) trokšņiem un izsitieniem jeb pacēlumiem (boosts) vai vājinājumiem skaņas diapazona augšējās frekvencēs.

Konstatēts, ka ļoti liela nozīme ir atskaņojamā skaņas signāla spiediena līmenim (skaļumam) un apkārtējā fona trokšņu līmenim. Pārlieks skaļums rada nevēlamus maskēšanas efektus, kas risinās jau noklausīšanās telpā. Arī testa signāla atskaņošanas veids var stipri ietekmēt ekspertam uztveramo kvalitāti, jo skaļruņu radītie kropļojumi rodas ne tikai tiešā veidā, bet arī kopiespaidā ar noklausīšanās telpas skaņas enerģijas saglabāšanās īpatnībām (reverberāciju).

 

Citas ITU rekomendācijas

Šīs subjektīvo testu neprecizitātes rosināja izstrādāt automātiskās kodēšanas sistēmu mērīšanas paņēmienus, kas galu galā noveda pie perceptuālās kodēšanas (t. i., tādas kodēšanas, kuras koders satur CDzA modeli) kvalitātes standarta ITU-R BS. 1387. Speciālisti neuzskata, ka tas viennozīmīgi aizvietos subjektīvās atskaņojuma novērtēšanas metodes, kaut arī darbs objektīvisma virzienā turpinās (sk. arī ITU-R IWP10-11Q).

 

Divkanālu (parastā stereo) kodeku subjektīvais vērtējums

Ideāli būtu, ja, savstarpēji salīdzinot dažādus platjoslas audio kodekus, MSS balles tiktu iegūtas vienā vietā un ar to pašu ekspertu kolektīvu. ITU-R Rec. BS. 1116 standartam atbilstošos noklausīšanās testos tika izmantoti šādi divkanālu kodeki: MPEG-1 II slānis, MPEG-1 III slānis, MPEG-2 AAC, Lucent Technologies PAC un Dolby AC-3. Tika analizētas 17 kodēšanas algoritmu un bitu pārraides ātruma kombinācijas, lietojot dažāda veida testa signālus, kurus eksperti uzskatīja par būtiskiem.

Subjektīvo testu rezultāti doti 1. zīm. un sagrupējami astoņās kvalitātes grupās. MPEG-2 AAC un Dolby AC-3 kodeki ar bitu plūsmu ātrumu 128 un 192 kbps atbilstoši izrādījās ar vislabāko vidējo subjektīvo balli (MMS), kas izteikta pēc diferences skalas, proti, labāku par –1,00. MPEG-2 AAC algoritms pie 128 kbps bija vienīgais kodeks, kas apmierināja stingrās ITU-R Rec. BS. 1115 kvalitātes prasības perceptuāliem platjoslas audio koderiem. Tam netika konstatēti tādi audio atskaņošanas veidi (testa signāli, skaņas fragmenti), kuriem vērtējums būtu sliktāks par –1,00. Ne par velti amerikāņi to izvēlējušies par skaņas pavadījuma sistēmu HDTV vajadzībām papildus Dolby AC-3!

 

Kas ir labākais?

Atskaņojuma hierarhijas rinda, sākot ar labāko un beidzot ar sliktāko, ir šāda:

 

·  MPEG-2 AAC

·  PAC

·  MPEG-1 III                   ­  kvalitāte

·  Dolby AC-3

·  MPEG-1 II

 

Trešās kvalitātes grupas rezultātus var interpretēt sekojoši (sk. 1. zīm.). Lai sasniegtu MPEG-2 AAC līdzīgu atskaņojuma kvalitāti (pie 96 kbps parastai stereo pārraidei) bitu plūsmas ātrumu PAC, Dolby AC-3 un MPEG-1 II slāņa koderiem jāpalielina atbilstoši par 32, 64 un 96 kbps uz parastā stereo pāri.

Taču rezultāti jāuzskata galvenokārt kā bitu plūsmas ātruma iespaida vērtējumi uz kodeka galveno izejas lielumu – atskaņojuma kvalitāti, bet nevis kā attiecīgā kodeka vispusīgs novērtējums. Netika, piemēram, MPEG-1 II slāņa kodeks novērtēts pie 256 kbps (t. i., pie mazāka datu kompresijas faktora – 6:1), kur tam jāskan labāk. Tāpat netika novērtēti citi kodeki, piemēram, MPEG-2 BC u. c.

 

Daudzkanālu kodeku subjektīvais vērtējums

Perceptuālie daudzkanālu kodeki (sk. SP 2000/4, 32. lpp.), kurus pēdējā laikā aizvien plašāk izmanto multimedijiem un galvenokārt kino un t. s. mājas teātrim, diemžēl analizēti nepietiekami. Pieejami tikai EBU (European Broadcasting Union) sponsorētie pētījumi, kuros subjektīvi novērtētas Dolby AC-3 un MPEG-2 BC kodēšanas sistēmas bitu plūsmu ātrumu robežās no 384 līdz 640 kbps reālā laikā 5.1 kanāliem (sk. Tabulu 2).

 

Tabula 2

Daudzkanālu kodeku Dolby AC-3 un MPEG-2 BC subjektīvais vērtējums [6]

Grupa         Kodeks          Bitu plūsmas ātrums kbps     MSS dif. sk. balle

1             MPEG-2 BC                     640                            -0,51

2                 AC-3                         448                            -0,93

              MPEG-2 BC                     512                            -0,99

3                 AC-3                         384                            -1,17

              MPEG-2 BC                     384                         -1,73 (!)

 

Subjektīvie testi tika veikti, ievērojot ITU-R Rec. BS. 1116, bet pieckanālu noklausīšanās telpa tika ierīkota saskaņā ar ITU-R Rec. BS. 775. Tabulā dota vidējā MSS balle astoņiem dažādiem skaņas ierakstu veidiem un testa signāliem. Rezultāti apstiprina faktu, ka MPEG-2 BC sistēmas atskaņojuma kvalitāte krīt ļoti strauji, samazinot bitu plūsmas ātrumu. Svarīgi atzīmēt, ka neviena no astoņām testa signālu un skaņas ierakstu veidu konfigurācijām nespēja izpelnīties transparentai skaņai nepieciešamo ballu skaitu!

Šajos subjektīvajos vērtējumos Lucent PAC un MPEG-2 AAC kodeki neesot pārstāvēti tādēļ, ka atbilstošās sistēmas neesot bijušas pieejamas tirgū.

 

Arnolds VĪTOLS

speciāli SP

 

Informācijas avoti:

1. T. Ryden. Collected Papers on Dig. Audio Bit-Rate Reduction, 1996, 115-125 pp.

2. Ņåõķčźą źčķī č ŅĀ, 1997, ¹ 3, ń. 24-27.

3. Methods for subjective assessment of small impairments in audio systems including multichannel sound systems, ITU-R Rec. BS 1116, 1994.

4. Method for objective measurements of perceived audio quality, ITU-R Rec. BS 1387.

5. G. Soulodre et al. J. Aud. Eng. Soc. 1998, vol. 46, No. 3, 164-177 pp.

6. U. Wustenhagen et al. Proc. 105th Conv. Aud. Eng. Soc. 1998, Sept., preprint 4813.

 

 
Design and programming by Anton Alexandrov - 2001