Metódy digitálnej kompresie zvuku. Princíp kompresie zvuku

  • 21.07.2019

Formát kompresie zvuku MP3

MPEG-1 Audio Layer 3 Prípona súboru: .mp3 Typ MIME: audio / mpeg Typ formátu: Audio

MP3 (presnejšie anglicky MPEG-1/2 / 2.5 Layer 3 (ale nie MPEG-3) je tretí formát kódovania pre zvukovú stopu MPEG) je licencovaný formát súboru na ukladanie zvukových informácií.

V súčasnosti je MP3 najznámejším a najpopulárnejším z bežných formátov na digitálne kódovanie zvukových informácií so stratami. Je široko používaný v sieťach na zdieľanie súborov na vyhodnocovanie prenosu hudobných diel. Formát je možné prehrať v takmer akomkoľvek populárnom operačnom systéme, na takmer akomkoľvek prenosnom audio prehrávači a podporujú ho aj všetky moderné modely stereo a DVD prehrávačov.

MP3 používa stratový kompresný algoritmus navrhnutý tak, aby dramaticky zmenšil veľkosť údajov potrebných na reprodukciu nahrávky a zabezpečil, že kvalita prehrávania je veľmi blízka originálu (podľa názoru väčšiny poslucháčov), hoci audiofili uvádzajú hmatateľný rozdiel. Keď vytvoríte MP3 s priemernou bitovou rýchlosťou 128 kbps, výsledkom je súbor, ktorý má približne 1/10 veľkosti pôvodného súboru zvukového disku CD. Súbory MP3 je možné vytvárať s vysokou alebo nízkou bitovou rýchlosťou, čo ovplyvňuje kvalitu výsledného súboru. Princípom kompresie je zníženie presnosti niektorých častí zvukového prúdu, ktorý je pre väčšinu ľudí takmer nerozoznateľný. Táto metóda sa nazýva percepčné kódovanie. Súčasne sa v prvej fáze vytvorí zvukový diagram vo forme postupnosti krátkych časových úsekov, potom sa z neho vymažú informácie, ktoré ľudské ucho nerozozná a zostávajúce informácie sa uložia do kompaktná forma. Tento prístup je podobný metóde kompresie používanej pri kompresii obrázkov do formátu JPEG.

MP3 vyvinula pracovná skupina Fraunhofer-Institut für Integrierte Schaltungen pod vedením Karlheinza Brandenburga a Erlangen-Norimberg University v spolupráci s AT&T Bell Labs a Thomson (Johnson, Stoll, Deeri atď.).

Vývoj MP3 bol založený na experimentálnom kodeku ASPEC (Adaptive Spectral Perceptual Entropy Entropy Coding). Prvý MP3 kodér bol L3Enc, vydaný v lete 1994. O rok neskôr sa objavil prvý softvérový MP3 prehrávač Winplay3.

Pri vývoji algoritmu boli vykonané testy na veľmi špecifických populárnych kompozíciách. Hlavnou piesňou bola „Tom's Diner“ od Suzanne Vega. Preto ten vtip, že „MP3 bolo vytvorené výhradne pre pohodlie pri počúvaní vašej obľúbenej brandenburskej piesne“ a Vega sa začala nazývať „MP3 mama“.


Popis formátu

V tomto formáte sú zvuky frekvenčne zakódované (žiadne samostatné časti); existuje podpora pre stereo a v dvoch formátoch (podrobnosti - nižšie). MP3 je stratový kompresný formát, teda časť zvukovej informácie, ktorú (podľa psychoakustického modelu) ľudské ucho nedokáže vnímať alebo ju nevnímajú všetci ľudia, je zo záznamu nenávratne odstránená. Kompresný pomer sa môže meniť, a to aj v rámci toho istého súboru. Rozsah možných hodnôt bitrate je 8 - 320 kbps. Pre porovnanie, dátový tok z bežného CD vo formáte Audio-CD je 1411,2 kbps pri vzorkovacej frekvencii 44100 Hz.

MP3 a "Kvalita audio CD"

V minulosti sa všeobecne verilo, že nahrávanie rýchlosťou 128 kbps je vhodné pre hudbu, ktorú má počúvať väčšina ľudí, pričom poskytuje kvalitu zvuku na disku Audio-CD. V skutočnosti je všetko oveľa komplikovanejšie. Po prvé, kvalita výsledného MP3 závisí nielen od bitovej rýchlosti, ale aj od kódovacieho programu (kodeku) (norma nestanovuje kódovací algoritmus, popisuje len spôsob prezentácie). Po druhé, okrem prevládajúceho režimu CBR (Constant Bitrate) (v ktorom, inými slovami, každá sekunda zvuku je kódovaná rovnakým počtom bitov), ​​existujú režimy ABR (Average Bitrate) a VBR (Variable Bitrate). Po tretie, hranica 128 kbps je podmienená, keďže bola „vynájdená“ v ére vzniku formátu, keď bola kvalita prehrávania zvukových kariet a počítačových reproduktorov zvyčajne nižšia ako v súčasnosti.

V súčasnosti sú najčastejšie MP3 súbory s bitovou rýchlosťou 192 kbps, čo môže nepriamo naznačovať, že väčšina si myslí, že táto bitová rýchlosť je dostatočná. Skutočne vnímaná „kvalita“ závisí od pôvodného zvukového súboru, poslucháča a jeho audiosystému. Niektorí milovníci hudby uprednostňujú kompresiu hudby v „maximálnej kvalite“ – 320 kbps, alebo dokonca prechádzajú na iné formáty, napríklad FLAC, kde je priemerná bitová rýchlosť ~ 1000 kbps. Medzi milovníkmi hudby tiež existuje názor, že niektoré vzorky (fragmenty zvukových záznamov) nie sú vhodné na kvalitnú stratovú kompresiu: pri všetkých možných bitových rýchlostiach nie je ťažké rozlíšiť komprimovaný zvuk od originálu.

Režimy a možnosti kódovania

Existujú tri verzie formátu MP3 pre rôzne potreby: MPEG-1, MPEG-2 a MPEG-2.5. Líšia sa možnými rozsahmi bitovej rýchlosti a vzorkovacej frekvencie:

* 32-320 kbps pri vzorkovacích frekvenciách 32000 Hz, 44100 Hz a 48000 Hz pre MPEG-1 Layer 3;

* 16-160 kbps pri vzorkovacích frekvenciách 16000 Hz, 22050 Hz a 24000 Hz pre MPEG-2 Layer 3;

* 8-160 kbps pri vzorkovacej frekvencii 8000 Hz a 11025 Hz pre MPEG-2.5 Layer 3.

Režimy ovládania kódovania zvuku

Keďže formát MP3 podporuje dvojkanálové kódovanie (stereo), existujú 4 režimy:

* Stereo - dvojkanálové kódovanie, v ktorom sú kanály pôvodného stereo signálu kódované nezávisle na sebe, ale rozdelenie bitov medzi kanály v celkovej bitovej rýchlosti sa môže líšiť v závislosti od zložitosti signálu v každom kanáli.

* Mono - jednokanálové kódovanie. Ak zakódujete dvojkanálový materiál týmto spôsobom, rozdiely medzi kanálmi sa úplne vymažú, pretože dva kanály sa zmiešajú do jedného, ​​zakóduje sa a tiež sa reprodukuje v oboch kanáloch stereo systému. Jedinou výhodou tohto režimu je len výstupná kvalita oproti režimu Stereo s rovnakou bitovou rýchlosťou, keďže jeden kanál má dvakrát toľko bitov ako v režime Stereo.

* Dvojkanálový – dva nezávislé kanály, napríklad zvuková stopa v rôznych jazykoch. Bitová rýchlosť je rozdelená do dvoch kanálov. Napríklad, ak je špecifikovaná bitová rýchlosť 192 kbps, potom pre každý kanál bude rovná iba 96 kbps.

* Joint stereo (Joint Stereo) - najlepší spôsob dvojkanálového kódovania. Napríklad v jednom z kombinovaných stereo režimov sa ľavý a pravý kanál prevedie na ich súčet (L + R) a rozdiel (L-R). Pre väčšinu zvukových súborov je saturácia kanálov L-R oveľa nižšia ako súčet L + R. Taktiež tu zohráva úlohu vnímanie zvuku človekom, pre ktorého sú rozdiely v smere zvuku oveľa menej badateľné. Preto vám Combined Stereo umožňuje buď ušetriť na bitovej rýchlosti kanála (L-R), alebo zlepšiť kvalitu pri rovnakej bitovej rýchlosti, pretože väčšina bitovej rýchlosti je pridelená súčtu kanálu (L + R). Existuje názor, že tento režim nie je vhodný pre stereofónny zvukový materiál, v ktorom je subjektívne úplne odlišný materiál reprodukovaný v dvoch kanáloch, pretože stiera rozdiely medzi kanálmi. Ale moderné kodeky používajú rôzne schémy v rôznych snímkach (vrátane čistého stereo) v závislosti od pôvodného signálu.

CBR je skratka pre konštantnú bitovú rýchlosť, to znamená konštantnú bitovú rýchlosť, ktorá je nastavená používateľom a nemení sa, keď je kus zakódovaný. Každá sekunda časti teda zodpovedá rovnakému počtu kódovaných dátových bitov (aj keď je kódovanie ticho). CBR môže byť užitočné pre mediálne toky s obmedzeným kanálom; v tomto prípade kódovanie plne využíva dátový kanál. Pre ukladanie nie je tento režim kódovania optimálny, pretože nedokáže prideliť dostatok miesta pre zložité segmenty pôvodného diela, pričom plytvá priestorom na jednoduché segmenty. Vyššie bitové rýchlosti (nad 256 kbps) môžu tento problém vyriešiť alokáciou väčšieho priestoru pre dáta, no zároveň proporcionálne zväčšiť veľkosť súboru.

VBR je skratka pre Variable Bit Rate, čiže premenná bitová rýchlosť alebo premenná bitová rýchlosť, ktorá sa dynamicky mení programom kódovača počas kódovania v závislosti od saturácie zvukového materiálu, ktorý sa kóduje, a od kvality kódovania nastavenej používateľom (napr. , ticho je zakódované s minimálnou bitovou rýchlosťou). Tento spôsob kódovania MP3 je najprogresívnejší a stále sa vyvíja a zdokonaľuje, keďže zvukový materiál rôznej sýtosti je možné kódovať s určitou kvalitou, ktorá je zvyčajne vyššia ako pri nastavení priemernej hodnoty pri metóde CBR. Navyše je veľkosť súboru znížená vďaka fragmentom, ktoré nevyžadujú vysokú bitovú rýchlosť. Nevýhodou tohto spôsobu kódovania je obtiažnosť predpovedania veľkosti výstupného súboru. Táto nevýhoda kódovania VBR je však v porovnaní s jeho prednosťami zanedbateľná. Ďalšou nevýhodou je, že VBR považuje tichšie fragmenty za „bezvýznamné“ zvukové informácie, takže sa ukazuje, že ak budete počúvať veľmi nahlas, tieto fragmenty budú nekvalitné, zatiaľ čo CBR robí tiché aj hlasné fragmenty s rovnakou bitovou rýchlosťou. Formát VBR sa neustále zlepšuje vďaka neustálemu zdokonaľovaniu matematického modelu kodekov, najmä po vydaní aktualizovanej verzie bezplatného kodeku mp3 lame (verzia 3.98), kódovania s variabilným bitrate, podľa samotných vývojárov , je kvalitatívne lepšia ako CBR a ešte viac ABR.

ABR je skratka pre Average Bit Rate, čiže Priemerná bitová rýchlosť, čo je hybrid VBR a CBR: bitová rýchlosť v kbit/s je nastavená používateľom a program ju mení, pričom ju neustále upravuje na špecifikovanú bitovú rýchlosť. . Preto bude kódovač opatrný, aby použil maximálne a minimálne možné hodnoty bitovej rýchlosti, pretože riskuje, že sa nezmestí do bitovej rýchlosti určenej používateľom. Toto je jasná nevýhoda tejto metódy, pretože ovplyvňuje kvalitu výstupného súboru, ktorý bude o niečo lepší ako pri použití CBR, ale oveľa horší ako pri použití VBR. Na druhej strane táto metóda umožňuje najflexibilnejšie nastavenie bitovej rýchlosti (môže byť ľubovoľné číslo medzi 8 a 320 oproti iba násobkom 16 metódy CBR) a vypočítať veľkosť výstupného súboru.

Označenia v rámci hraníc súboru mp3 (na začiatku a/alebo na konci). Môžu obsahovať informácie o autorstve, albume, roku vydania a ďalšie informácie o skladbe. Neskoršie verzie značiek môžu uchovávať obal albumu a texty. Existujú rôzne verzie značiek.

nevýhody

Technické nevýhody. MP3 je lídrom v rozšírenosti, no nie je na tom najlepšie z hľadiska technických parametrov. Existujú formáty, ktoré umožňujú dosiahnuť lepšiu kvalitu pri rovnakej veľkosti súboru, ako napríklad Vorbis, AAC. MP3 tiež nemá bezstratový režim kódovania, ktorý je žiaduci pre profesionálne použitie. MP3 sa zároveň celkom hodí (z profesionálneho hľadiska) na distribúciu demo skladieb či iné spôsoby „distribúcie“ vašej hudby vzhľadom na všadeprítomnosť prehrávačov.

Zákonné obmedzenia. Existujú patentové obmedzenia pre voľné používanie formátu. Alcatel-Lucent vlastní práva na MP3 a dostáva licenčné poplatky od tých, ktorí tento formát využívajú – výrobcov prehrávačov a mobilných telefónov. Z tohto dôvodu je licenčná čistota formátu otázna. Najmä spoločnosť Alcatel-Lucent sa sťažovala spoločnosti Microsoft na skutočnosť, že podpora MP3 bola zabudovaná do systému Windows. Platnosť patentov na technológiu však vyprší v roku 2010, potom ju bude môcť ľubovoľná spoločnosť voľne používať.

Formáty - Formáty kompresie zvuku

FLAC (Free Lossless Audio Codec) je populárny bezplatný kodek na kompresiu zvuku. Na rozdiel od Ogg Vorbis a stratových kodekov MP3, FLAC neodstraňuje žiadne informácie zo zvukového toku a je vhodný ako na počúvanie hudby na vysokokvalitnom zariadení na reprodukciu zvuku, tak aj na archiváciu audio zbierky. Dnes je formát FLAC podporovaný mnohými audio aplikáciami.

Zvukový prúd

Hlavné časti streamu sú:

* Reťazec štyroch bajtov "fLaC"

* Blok metadát STREAMINFO

* Ďalšie voliteľné bloky metadát

* Zvukové rámy

Prvé štyri bajty identifikujú tok FLAC. Nasledujúce metadáta obsahujú informácie o streame, za ktorými nasledujú komprimované zvukové dáta.

Metadáta

FLAC definuje niekoľko typov blokov metadát (všetky sú uvedené na stránke formátu). Bloky metadát môžu byť ľubovoľnej veľkosti, nové bloky možno jednoducho pridávať. Dekodér má schopnosť preskočiť neznáme bloky metadát. Vyžaduje sa iba blok STREAMINFO. Obsahuje vzorkovaciu frekvenciu, počet kanálov atď., ako aj údaje, ktoré umožňujú dekodéru upravovať vyrovnávacie pamäte. Zaznamenáva sa tu aj podpis MD5 nekomprimovaných zvukových údajov. Je to užitočné na kontrolu celého streamu po jeho odoslaní.

Ďalšie bloky sú pre rezerváciu miesta, tabuľky bodov vyhľadávania, značky, zoznam značiek audio CD a údaje špecifické pre aplikáciu. Možnosti pridávania blokov PADDING alebo vyhľadávacích bodov sú uvedené nižšie. FLAC nepotrebuje vyhľadávacie body, ale môže výrazne zvýšiť rýchlosť prístupu a dá sa použiť aj na umiestnenie značiek do zvukových editorov.

Zvukové údaje

Po metadátach nasledujú komprimované zvukové údaje. Metadáta a zvukové údaje sa neprekladajú. Ako väčšina kodekov, FLAC rozdeľuje vstupný tok na bloky a kóduje ich nezávisle od seba. Blok je zabalený do rámca a pridaný do prúdu. Jadrový kódovač používa bloky konštantnej veľkosti pre celý tok, ale formát umožňuje v toku bloky rôznych dĺžok.

Rozdelenie na bloky

Veľkosť bloku je veľmi dôležitý parameter pre kódovanie. Ak je veľmi malý, v streame bude príliš veľa hlavičiek rámcov, čo zníži úroveň kompresie. Ak je veľkosť veľká, kodér nebude schopný nájsť efektívny model kompresie. Pochopenie procesu modelovania vám môže pomôcť zvýšiť úroveň kompresie pre niektoré typy vstupných údajov. Typicky, pri použití lineárnej predikcie na audio dátach so vzorkovacou frekvenciou 44,1 kHz je optimálna veľkosť bloku v rozsahu 2-6 tisíc vzoriek.

Medzikanálová dekorelácia

Ak stereo audio dáta prídu na vstup, môžu prejsť fázou medzikanálovej dekorelácie. Pravý a ľavý kanál sa konvertuje na priemer a rozdiel podľa vzorcov: stredný = (ľavý + pravý) / 2, rozdiel = ľavý - pravý. Na rozdiel od spoločného sterea v tomto procese nedochádza k žiadnym stratám. Pre údaje na audio CD to zvyčajne vedie k výraznému zvýšeniu kompresného pomeru.

Modelovanie

V ďalšej fáze sa kódovač pokúsi aproximovať signál takou funkciou, aby výsledok získaný po jeho odčítaní od originálu (nazývaný rozdiel, zvyšok, chyba) mohol byť zakódovaný s minimálnym počtom bitov. Parametre funkcií by mali byť tiež zapísané, takže by nemali zaberať veľa miesta. FLAC používa dve metódy na generovanie aproximácií:

* prispôsobenie jednoduchého polynómu signálu

* všeobecné kódovanie s lineárnymi prediktormi (LPC).

Po prvé, predikcia konštantného polynómu (-l 0) je výrazne rýchlejšia, ale menej presná ako LPC. Čím vyššie poradie LPC, tým pomalší, ale lepší model bude. S rastúcou objednávkou však bude zisk stále menej významný. V určitom bode (zvyčajne okolo 9) sa rutina kódovača na určenie najlepšieho poradia začne mýliť a veľkosť výsledných snímok sa zväčší. Na prekonanie tohto je možné použiť hrubú silu, ktorá povedie k výraznému zvýšeniu času kódovania.

Po druhé, parametre konštantných prediktorov možno opísať tromi bitmi a parametre pre model LPC závisia od počtu bitov na vzorku a poradia LPC. To znamená, že veľkosť hlavičky rámca závisí od zvolenej metódy a poradia a môže ovplyvniť optimálnu veľkosť bloku.

Zvyškové kódovanie

Keď je model osadený, kodér odpočíta aproximáciu od originálu, aby získal zvyškový (chybový) signál, ktorý je potom bezstratovo zakódovaný. Na tento účel sa využíva fakt, že rozdielový signál má zvyčajne Laplaceovu distribúciu a existuje sada špeciálnych Huffmanových kódov, nazývaných Riceove kódy, ktoré umožňujú efektívne a rýchle kódovanie týchto signálov bez použitia slovníka.

Kódovanie ryže pozostáva z nájdenia jedného parametra, ktorý zodpovedá distribúcii signálu, a jeho následného použitia na zostavenie kódov. Pri zmene rozdelenia sa mení aj optimálny parameter, preto existuje metóda, ktorá vám ho umožní prepočítať podľa potreby. Zvyšok možno rozdeliť do kontextov alebo sekcií, pričom každá má svoj vlastný parameter Rice. FLAC vám umožňuje určiť, ako sa má rozdelenie vykonať. Zvyšok je možné rozdeliť na 2n oddielov.

Rámy

Audiorámčeku predchádza hlavička, ktorá začína synchronizačným kódom a obsahuje minimum informácií, ktoré dekodér potrebuje na prehrávanie prúdu. Tu sa tiež zaznamenáva číslo bloku alebo vzorky a osembitový kontrolný súčet samotnej hlavičky. Synchronizačný kód, hlavička rámca CRC a číslo bloku / vzorky umožňujú opätovnú synchronizáciu a vyhľadávanie aj pri absencii hľadaných bodov. Na konci rámca sa zapíše jeho šestnásťbitový kontrolný súčet. Ak základný dekodér zistí chybu, vygeneruje sa tichý blok.

Na podporu základných typov metadát je základný dekodér schopný preskočiť značky ID3v1 a ID3v2, takže ich možno voľne pridávať. Značky ID3v2 sa musia nachádzať pred značkou „fLaC“ a značky ID3v1 sa musia nachádzať na konci súboru.

Existujú úpravy kódovača FLAC: Vylepšený kódovač FLAC a Flake.

29. januára 2003 Xiphophorus (teraz nazývaný Xiph.Org Foundation) oznámil zahrnutie FLAC do svojho produktového radu, ako je Ogg Vorbis

Na kompresiu zvukových súborov bez straty je možné použiť dobre zavedené techniky kompresie údajov, ako je RLE, štatistické metódy a metódy slovnej zásoby, ale výsledok je veľmi závislý od konkrétnych zvukových údajov. Niektoré zvuky budú komprimované dobre pomocou RLE, ale zle so štatistickými algoritmami. Pre iné zvuky je vhodnejšia štatistická kompresia, no pri slovníkovom prístupe môže naopak dôjsť k expanzii. Tu je stručný popis účinnosti týchto troch metód kompresie zvukových súborov.

RLE funguje dobre so zvukmi, ktoré obsahujú dlhé série opakujúcich sa zvukových kúskov - vzoriek. Pri 8-bitovom vzorkovaní sa to môže stať pomerne často. Pripomeňme, že rozdiel napätia medzi dvoma 8-bitovými vzorkami je asi 4 mV. Niekoľko sekúnd homogénnej hudby, pri ktorej sa zvuková vlna zmení o menej ako 4 mV, vygeneruje sekvenciu tisícok rovnakých vzoriek. Pri 16-bitovom vzorkovaní sú samozrejme dlhé opakovania menej bežné, a preto bude algoritmus RLE menej efektívny.

Štatistické metódy priraďujú zvukovým vzorkám kódy s premenlivou dĺžkou podľa ich frekvencie. Pri 8-bitovom vzorkovaní existuje iba 256 rôznych vzoriek, takže vzorky môžu byť rovnomerne rozdelené do veľkého zvukového súboru. Takýto súbor nie je možné dobre skomprimovať pomocou Huffmanovej metódy. Pri 16-bitovom vzorkovaní je povolených viac ako 65 000 zvukových záberov. V tomto prípade je možné, že niektoré vzorky budú bežnejšie a iné menej bežné. So silnou asymetriou pravdepodobností je možné dosiahnuť dobré výsledky pomocou aritmetického kódovania.

Metódy založené na slovníku predpokladajú, že určité frázy sa budú v súbore často objavovať. Deje sa tak v textovom súbore, v ktorom sa jednotlivé slová alebo sekvencie slov mnohokrát opakujú. Zvuk je však analógový signál a hodnoty špecifických generovaných vzoriek sú vysoko závislé od činnosti ADC. Napríklad pri 8-bitovom vzorkovaní sa vlna 8 mV stane číselnou vzorkou 2, ale blízka vlna, povedzme 7,6 mV alebo 8,5 mV, sa môže stať iným číslom. Z tohto dôvodu sa fragmenty reči obsahujúce rovnaké frázy, ktoré nám znejú rovnako, môžu pri digitalizácii mierne líšiť. Potom skončia v slovníku v podobe rôznych fráz, ktoré neprinesú očakávanú kompresiu. Slovníkové metódy teda nie sú príliš vhodné na kompresiu zvuku.

Lepšie výsledky pri stratovej kompresii zvuku môžete dosiahnuť vyvinutím techník kompresie, ktoré zohľadňujú vnímanie zvuku. Vymažú časť údajov, ktorá zostáva pre sluchové orgány nepočuteľná. Je to ako stláčanie obrázkov, vyhadzovanie informácií, ktoré sú pre oko neviditeľné. V oboch prípadoch vychádzame zo skutočnosti, že pôvodná informácia (obraz alebo zvuk) je analógová, to znamená, že časť informácií sa už stratila počas kvantovania a digitalizácie. Ak to urobíte opatrnejšie, neovplyvní to kvalitu prehrávania nekomprimovaného zvuku, ktorý sa nebude príliš líšiť od originálu. Stručne popíšeme dva prístupy nazývané potlačenie ticha a zhutnenie.

Myšlienkou potlačenia ticha je zaobchádzať s malými vzorkami, ako keby tam neboli (to znamená, že sú nulové). Toto nulovanie vygeneruje sériu núl, takže metóda potlačenia ticha je vlastne variantom RLE prispôsobeným na kompresiu zvuku. Táto metóda je založená na zvláštnosti vnímania zvuku, ktorá spočíva v tolerancii ľudského ucha k odmietaniu sotva počuteľných zvukov. Zvukové súbory obsahujúce dlhé úseky tichého zvuku budú lepšie komprimované pomocou metódy potlačenia ticha ako súbory plné hlasných zvukov. Táto metóda vyžaduje účasť používateľa, ktorý bude kontrolovať parametre, ktoré nastavujú prah hlasitosti pre vzorky. V tomto prípade sú potrebné ďalšie dva parametre, ktoré nie sú nevyhnutne kontrolované používateľom. Jeden parameter sa používa na určenie najkratších sekvencií tichých vzoriek, zvyčajne 2 alebo 3. A druhý nastavuje najmenší počet po sebe nasledujúcich hlasných vzoriek, pri ktorých sa ticho alebo pauza zastaví. Napríklad po 15 tichých vzorkách môžu nasledovať 2 hlasné a potom 13 tichých, ktoré budú definované ako jedna dlhá pauza s dĺžkou 30 a podobná sekvencia 15, 3 a 12 vzoriek sa stanú dvomi pauzami s krátkym zvuk medzi tým.

Konsolidácia je založená na vlastnosti, že ucho lepšie rozlišuje zmeny amplitúdy tichých zvukov ako hlasných. Typické ADC pre počítačové zvukové karty používajú lineárne prevody na prevod napätia na čísla. Ak bola amplitúda prevedená na číslo, potom sa amplitúda prevedie na číslo. Kompresia založená na kompresii najskôr analyzuje každú vzorku zvukového súboru a aplikuje na ňu nelineárnu funkciu, aby sa znížil počet bitov priradených danej vzorke. Napríklad pri 16-bitových vzorkách môže komprimovaný kódovač použiť nasledujúci jednoduchý vzorec

(6.1)

na skrátenie každej vzorky. Tento vzorec mapuje 16-bitové vzorky nelineárne na čísla 15-bitových intervalov, pričom malé (tiché) vzorky podliehajú menšiemu skresleniu ako veľké (hlasné). Tab. 6.7 ilustruje nelinearitu tejto funkcie. Zobrazuje 8 párov vzoriek a v každom páre je rozdiel medzi vzorkami 100. Pre prvý pár je rozdiel medzi ich obrázkami 34 a rozdiel medzi obrázkami posledného (hlasného) páru je 65. 15-bitové čísla možno redukovať na pôvodné 16-bitové vzorky pomocou inverzného vzorca

. (6.2)

Rozdiel

Rozdiel

Tab. 6.7. Mapovanie 16-bitových vzoriek na 15-bitové čísla.

Zníženie 16-bitových vzoriek na 15-bitové čísla výrazne nekomprimuje. Najlepšia kompresia sa dosiahne, ak vo vzorcoch (6.1) a (6.2) nahradíme číslo 32767 menším. Napríklad, ak vezmete číslo 127, potom 16-bitové vzorky budú reprezentované 8-bitovými číslami, to znamená, že kompresný pomer bude 0,5. Dekódovanie však bude menej presné. Vzorka 60100 bude namapovaná na číslo 113 a dekódovaním podľa vzorca (6.2) bude výsledkom vzorka 60172. Malá 16-bitová vzorka 1000 bude namapovaná na 1,35, čo po zaokrúhlení poskytne 1. Výsledkom dekódovania čísla 1 bude 742, ktorý sa veľmi líši od pôvodnej vzorky. Tu môže byť kompresný pomer parametrom priamo nastaveným používateľom. Toto je zaujímavý príklad kompresnej techniky, kde je kompresný pomer vopred známy.

V praxi nie je potrebné odvolávať sa na rovnice (6.1) a (6.2), keďže výsledok mapovania je možné pripraviť vopred vo forme tabuľky. Potom sa kódovanie aj dekódovanie vykoná rýchlo.

Tesnenie nie je obmedzené na rovnice (6.1) a (6.2). Sofistikovanejšie techniky, ako napríklad -pravidlo a -pravidlo, sú v praxi široko používané a sú zahrnuté v mnohých medzinárodných kompresných štandardoch.

Najznámejšie sú Audio MPEG, PASC a ATRAC. Všetky využívajú takzvané „kódovanie vnímania“ (percepčné kódovanie), pri ktorom sa zo zvukového signálu odstraňujú pre sluch sotva postrehnuteľné informácie. Vďaka tomu sa napriek zmene tvaru a spektra signálu prakticky nemení jeho sluchové vnímanie a kompresný pomer odôvodňuje mierny pokles kvality. Takéto kódovanie sa týka stratových kompresných metód, kedy už nie je možné presne rekonštruovať pôvodný tvar vlny z komprimovaného signálu. Techniky odstránenia časti informácie sú založené na vlastnostiach ľudského sluchu, nazývaných maskovanie: ak sú v spektre zvuku výrazné vrcholy (prevládajúce harmonické), slabšie frekvenčné zložky v ich bezprostrednej blízkosti sluch prakticky nevníma (maskované ). Počas kódovania sa celý zvukový tok rozdelí na malé snímky, z ktorých každý sa prevedie na spektrálnu reprezentáciu a rozdelí sa do niekoľkých frekvenčných pásiem. V rámci pásiem sa detegujú a odstraňujú maskované zvuky, po čom je každý rámec podrobený adaptívnemu kódovaniu priamo v spektrálnej forme. Všetky tieto operácie dokážu výrazne (niekoľkokrát) znížiť objem dát pri zachovaní kvality prijateľnej pre väčšinu poslucháčov. Každý z opísaných spôsobov kódovania je charakterizovaný bitovou rýchlosťou, pri ktorej musí komprimovaná informácia vstúpiť do dekodéra, keď je audio signál obnovený. Dekodér prevádza sériu komprimovaných spektier okamžitého signálu na konvenčný digitálny tvar vlny.

Audio MPEG- skupina metód kompresie zvuku štandardizovaná MPEG (Moving Pictures Experts Group). Zvukové metódy MPEG existujú v niekoľkých typoch - MPEG-1, MPEG-2 atď.; v súčasnosti je najbežnejším typom MPEG-1. Pre kompresiu stereo signálov existujú tri vrstvy (vrstvy) Audio MPEG-1: 1 - kompresný pomer 1:4 s dátovým tokom 384 kbps; 2 - 1: 6..1: 8 pri 256..192 kbps; 3 - 1: 10..1: 12 pri 128..112 kbps. Minimálna rýchlosť prenosu dát v každej vrstve je definovaná ako 32 kbps; špecifikované bitové rýchlosti udržujú kvalitu signálu blízkou kvalite CD. Všetky tri vrstvy využívajú split-frame vstupnú spektrálnu transformáciu do 32 frekvenčných pásiem. Najoptimálnejšia úroveň z hľadiska objemu dát a kvality zvuku je uznávaná ako úroveň 3 s bitovou rýchlosťou 128 kbps a hustotou dát približne 1 Mb/min. Pri kompresii pri nižších rýchlostiach začína nútené obmedzenie frekvenčného pásma na 15-16 kHz a objavujú sa aj fázové skreslenia kanálov (efekt ako phaser alebo flanger). Audio MPEG sa používa v počítačových zvukových systémoch, diskoch CD-i / DVD, "audio" CD-ROM, digitálnych rádiách / televíziách a iných systémoch hromadného prenosu zvuku. súprava MPEG-1 je určená na kódovanie signálov digitalizovaných so vzorkovacou frekvenciou 32, 44,1 a 48 kHz. Ako je uvedené vyššie, sada MPEG-1 má tri vrstvy (vrstva I, II a III). Tieto úrovne sa líšia poskytnutým kompresným pomerom a kvalitou zvuku výsledných tokov. Vrstva I umožňuje ukladanie signálov 44,1 kHz / 16 bit bez výraznej straty kvality pri rýchlosti toku 384 kbps, čo je 4-násobný zisk v obsadenom priestore; Vrstva II poskytuje rovnakú kvalitu pri 194 kbps a vrstva III pri 128 (alebo 112). Zisk vrstvy III je zrejmý, ale rýchlosť kompresie pri jej používaní je najnižšia (treba podotknúť, že pri rýchlostiach moderných procesorov už toto obmedzenie nie je badateľné). Vrstva III vám v skutočnosti umožňuje komprimovať informácie faktorom 10-12 bez výraznej straty kvality.- Štandard MPEG-2 bol špeciálne vyvinutý na kódovanie vysielaných TV signálov. V apríli 1997 sa táto zostava dočkala „pokračovania“ v podobe algoritmu MPEG-2 AAC (MPEG-2 Advanced Audio Coding).

Špeciálnym článkom je štandard MPEG-4. MPEG-4 nie je len algoritmus na kompresiu, ukladanie a prenos obrazových alebo zvukových informácií. MPEG-4 je nový spôsob prezentácie informácií, ide o objektovo orientovanú reprezentáciu multimediálnych údajov. Štandard operuje s objektmi, organizuje z nich hierarchie, triedy atď., stavia scény a riadi ich prenos. Objektmi môžu byť buď bežné audio alebo video streamy, ako aj syntetizované audio a grafické dáta (reč, text, efekty, zvuky...). Takéto scény sú opísané špeciálnym jazykom.

Štandard MPEG-7 sa zásadne líši od všetkých ostatných štandardov MPEG. Norma sa nevyvíja na vytvorenie rámca na prenos údajov alebo písanie a popis údajov akéhokoľvek konkrétneho druhu. Norma má byť popisná, určená na reguláciu charakteristík akéhokoľvek typu dát, až po analógové. Použitie MPEG-7 má úzko súvisieť s MPEG-4.

Pre pohodlie manipulácie s komprimovanými tokmi sú všetky algoritmy MPEG navrhnuté tak, aby umožňovali dekompresiu (obnovu) a prehrávanie toku súčasne s jeho prijatím (stiahnutím) - dekompresiu prehrávania toku. Táto možnosť je veľmi široko využívaná na internete, kde je rýchlosť prenosu informácií obmedzená a s použitím takýchto algoritmov je možné spracovať informácie priamo v čase ich prijatia bez čakania na koniec prenosu.

PASC presné adaptívne kódovanie podpásiem- presné adaptívne vnútropásmové kódovanie) - špeciálny prípad Audio MPEG-1 Layer 1 s bitovou rýchlosťou 384 kbps (kompresia 1:4). Používa sa v systéme DCC.

Adaptívne akustické kódovanie transformácie ATRAC- Akustické kódovanie adaptívnou transformáciou) je založené na stereofónnom audio formáte so 16-bitovou kvantizáciou a vzorkovacou frekvenciou 44,1 kHz. ATRAC (Adaptive TRansform Acoustic Coding) rozdeľuje 16-bitový 44,1 kHz digitálny zvuk do 52 frekvenčných pásiem (po rýchlej Fourierovej transformácii). Nízkofrekvenčné pásma sú presnejšie ako vysokofrekvenčné pásma. Algoritmus využíva psychoakustické kódovanie, kde sa uplatňuje maskovací efekt a prah počuteľnosti, v dôsledku čoho môže byť časť informácie vyradená a odchádzajúci dátový tok má 1/5 pôvodnej veľkosti. Každý kanál je spracovaný nezávisle (prenosná MD jednotka Sony MZ-1 používa jeden čip kódovača/dekodéra ATRAC na kanál). Ďalší kódovací algoritmus, PASC (Precision Adaptive Sub-band Coding - teraz používaný spoločnosťou Philips v DCC), rozdeľuje digitálny signál na rovnaké intervaly a odstraňuje niektoré informácie (redukuje tok na 1/4 pôvodného). PASC je algoritmus MPEG Layer 1 (môže byť dekomprimovaný prehrávačmi MPEG Layer 1 po malej predbežnej korekcii).
Obidva algoritmy vykonávajú kompresiu údajov a poskytujú ukladanie 16-bitového zvukového toku. Účelom algoritmu je komprimovať tok, aby sa zmenšil priestor na disku, ktorý zaberá. Existuje veľké množstvo kompresných algoritmov. Niektoré algoritmy komprimujú dáta bez straty (používajú sa napr. v archivátoroch), pričom informácie po dekompresii sa nelíšia od originálu. PASC a ATRAC sú stratové algoritmy, nesnažia sa uložiť každý bit prichádzajúcich dát, len sa snažia extrahovať a uložiť akusticky „dôležité“ bity. Preto je dôležité nájsť zvuky, ktoré budú maskované ľudským sluchovým ústrojenstvom, ktoré človek ani pri hraní nepočuje. Oba algoritmy kompresie zvuku to robia vynikajúco. Aký zvukový tok sa zaznamená na minidisk po kompresii ATRAC? Pre stereo signál - 292162,5 bps. ATRAC komprimuje 512 prichádzajúcich 16-bitových vzoriek (1024 bajtov) do zvukových skupín ATRAC (212 bajtov), ​​výsledkom čoho je kompresný pomer 4,83:1. - 44100 vzoriek / s (prichádzajúci tok jedného kanálu) - 512 vzoriek na zvukovú skupinu (dostaneme 86 133 zvukových skupín / s / kanál) - 2 kanály (dostaneme 172 266 zvukových skupín / s)
- 212 bajtov / zvuková skupina (dostaneme 36,5 kbps v stereu) - 8 bitov / bajt (dostaneme kbps) - 292162,5 bps ATRAC (používa sa v MDLP) pracuje pri 132 kbps (LP2) a 66 kbps (LP4).

Dnes množstvo informácií, ktoré spotrebúvame na sieti, vzrástlo tisíckrát v porovnaní so začiatkom 21. storočia. A nie je sa čomu čudovať, pretože predtým okrem oveľa menej rozšíreného pokrytia internetom vyzerali stránky a služby, na ktoré sme zvyknutí, úplne inak.

Každý deň čítame články a správy o tom, že konkrétna spoločnosť vyvinula nový štandard pripojenia, ktorý v rýchlosti prenosu dát prekonáva súčasné analógy. Za takmer dve desaťročia urobili poskytovatelia a výrobcovia mnohých zariadení obrovský krok smerom k vysokorýchlostnému prístupu na internet. Ale náš okamžitý prístup k stránkam nie je jediný, ktorý má len rýchlosť.


Vývoj algoritmov na kompresiu obrázkov, audio a video súborov zohral obrovskú úlohu pri šetrení nášho času. Pri prechádzke po rozľahlosti siete často ani neuvažujeme o tom, ako a čo je usporiadané, koľko úsilia bolo vynaložené na vývoj konkrétnej technológie. V novej sérii článkov sa budeme venovať technikám kompresie populárnych formátov, ako sú MP3 a JPEG, a základný pohľad na proces kódovania videa.

Operácia algoritmu

Prvým z novej série článkov bude najobľúbenejší kompresný formát pre zvukové súbory * .mp3. Objavil sa v roku 1993 vďaka pracovnej skupine Fraunhoferovho inštitútu a je štandardizovaný odborom MPEG. Podľa Wikipédie asociáciu vytvorila medzinárodná organizácia ISO na vývoj štandardov pre kompresiu audio a video súborov. Stanovili tiež tieto normy:

  • MPEG – 1: Určené na kompresiu video a audio súborov, neskôr sa stalo zavedeným štandardom pre VCD (Video CD).
  • MPEG – 2: Už zameraná na prenos vysielaného televízneho signálu rodín ATSC, ISDB a DVB a v iných satelitných TV vysielaniach. Ako je napríklad Dish Network.
  • MPEG – 3: Štandard vyvinutý pre vysielanie HDTV, ale nebol prijatý, pretože MPEG-2 s malými úpravami na takéto účely úplne postačoval. A nie, toto nie je ten istý mp3, o ktorom by ste teraz mohli premýšľať. V skutočnosti je mp3 rozvetvením štandardu MPEG – 1, Layer 3.
  • MPEG-4: Ide o vysoko pokročilý MPEG – 1 s podporou dekódovania 3D obsahu a kompresiou s nízkou bitovou rýchlosťou. Integroval aj systém ochrany autorských práv softvéru – DRM. Medzi nové video formáty zavedené do štandardu možno zaznamenať ASP a H.264.
Každopádne, vráťme sa k mp3. Hlavnou úlohou formátu bolo a je zmenšiť veľkosť súborov odstránením určitých častí zvukového spektra, ktoré nie sú na neprofesionálnych audio zariadeniach cítiť, v súlade s psychoakustickým modelom vnímania zvuku človekom.

V tomto štádiu sa pomocou algoritmu Fourierovej transformácie zvuková vlna rozloží na spektrá rôznych frekvencií. Všetky tie frekvencie, ktoré sú ťažko rozlíšiteľné našim sluchom, sú jednoducho odstránené. V podstate ide o celé spektrum zvuku nad 16 000 Hz. Mimochodom, na tomto princípe fungujú služby detekcie hudby ako SoundHound a Shazam. Algoritmus zabudovaný do ich práce rozdeľuje počuteľnú zvukovú vlnu na niekoľko, extrahuje rytmus, základné tóny a porovnáva ich so svojou databázou.

Napriek tomu sa však celkový obraz zvuku, napríklad súboru mp3 s bitovou rýchlosťou 320 kbps, líši len málo od nekomprimovaného súboru, pričom jeho veľkosť môže byť 1/10 pôvodnej.

Už v tejto fáze môže byť veľkosť súboru výrazne znížená, ale najväčšie percento kompresie nastáva v nasledujúcich fázach maskovania. Úlohou prvého z nich je odstrániť viaceré zvukové frekvencie v hlasitých momentoch v piesni, to znamená, že ak zaznie hlasný bubon, potom všetky ostatné signály prichádzajúce z nástrojov zahrnutých v aranžmáne môžu byť jednoducho odstránené a nikto nebude upozorniť.

A v niektorých prípadoch, v súlade s rovnakým psychoakustickým modelom, je možné odstrániť laloky pred a po zvuku hlasných zvukov, pretože počas tohto obdobia všetci ľudia pociťujú krátkodobú (doslova niekoľko stotín sekundy) hluchotu.

Potom je tu distribúcia zvukov cez kanály. Nedeje sa to bez straty detailov, pomocou špeciálnych vzorcov, ktoré môžete vidieť na obrázku (zjednodušene). Rozdiel vo zvuku každého z kanálov sa zníži takmer na nulu, aby sa ušetrilo ďalších sto alebo dve bajty.

Na konci sa každý z komprimovaných rámcov zvukového záznamu zakódovaný rovnakými znakmi (napr. nulami) zmenší na svoju minimálnu veľkosť pomocou metódy Huffmanovho kódu. Pri jeho práci sa nestratia ďalšie informácie, len je ku každej hodnote rámca priradený kód v závislosti od toho, koľkokrát sa v ňom to alebo ono číslo vyskytuje. Ďalej sú všetky zostávajúce časti našej zvukovej nahrávky zlepené a na výstupe tvoria známy zvukový súbor.

Ďakujeme, že ste dočítali až do konca, teraz sme prišli na to, ako funguje jeden z najbežnejších zvukových formátov. V ďalšom článku sa pozrieme na proces kompresie videa.

Všeobecné informácie

Keď sa používa primárne kódovanie v štúdiovej ceste

zvyčajne jednotné kvantovanie vzoriek zvukového signálu (SZ) s

rozlíšenie ∆А = 16-24 bitov / vzorka pri vzorkovacej frekvencii f = 44,1-96

kHz. V kanáloch štúdiovej kvality, typicky ∆A = 16 bitov/vzorka, f = 48 kHz,

frekvenčné pásmo kódovaného audio signálu je ∆F = 20–20 000 Hz.

Dynamický rozsah takéhoto digitálneho kanála je asi 54 dB.

Ak f = 48 kHz a ∆А = 16 bitov/vzorka, potom bitová rýchlosť pri

prenos jedného takéhoto signálu sa rovná V = 48x16 = 768 kbit/s. Vyžaduje to

celková šírka pásma komunikačného kanála pri prenose zvuku

formáty signálu 5.1 (Dolby Digital) alebo 3/2 plus ultranízky kanál

frekvencie (Dolby Surround, Dolby-Pro-Logic, Dolby THX) viac ako 3 840 Mbps.

Ale človek je schopný vedome spracovávať svojimi zmyslami

len asi 100 bit/s informácií. Preto môžeme hovoriť o inherentnom

primárne digitálne audio signály s výraznou redundanciou.

Štatistická redundancia je spôsobená prítomnosťou

korelačný vzťah medzi susednými vzorkami časovej funkcie zvukového signálu pri jeho vzorkovaní. Na jeho zníženie sa používajú pomerne zložité algoritmy spracovania. Pri ich použití nedochádza k strate informácie, pôvodný signál je však prezentovaný v kompaktnejšej forme, ktorá si vyžaduje menej bitov na jeho zakódovanie. Je dôležité, aby všetky tieto algoritmy umožnili spätnú konverziu na obnovenie pôvodných signálov bez skreslenia.

Avšak aj pri použití pomerne zložitých procesov spracovania, odstránenie štatistickej redundancie zvukových signálov v konečnom dôsledku umožňuje znížiť požadovanú šírku pásma komunikačného kanála len o 15–25% v porovnaní s jeho počiatočnou hodnotou, čo nemožno považovať za revolučný úspech.

Po odstránení štatistickej redundancie sa rýchlosť digitálneho toku pri prenose kvalitných ES a ľudské schopnosti na ich spracovanie líšia minimálne o niekoľko rádov. To tiež naznačuje významnú psychoakustickú redundanciu primárneho digitálneho ES, a teda možnosť jeho redukcie. Najsľubnejšie sa z tohto pohľadu ukázali metódy, ktoré zohľadňujú také vlastnosti sluchu ako maskovanie, predmaskovanie a pomaskovanie. Ak je známe, ktoré časti (časti) zvukového signálu ucho vníma a ktoré nie vďaka maskovaniu, je možné izolovať a následne prenášať cez komunikačný kanál len tie časti signálu,



ktoré je ucho schopné vnímať a nepočuteľné laloky (zložky pôvodného signálu) môžu byť vyradené (nie sú prenášané cez komunikačný kanál).

Okrem toho môžu byť signály kvantované s najnižším možným úrovňovým rozlíšením, takže kvantizačné skreslenia, meniace sa veľkosť so zmenou samotnej úrovne signálu, by stále zostali nepočuteľné, t.j. by boli maskované pôvodným signálom. Po odstránení psychoakustickej redundancie však už nie je možné presné obnovenie formy časovej funkcie ES počas dekódovania.

K dnešnému dňu niekoľko ďalších štandardov MPEG, ako napríklad MPEG-2 ISO / IEC 13818-3, 13818-7 a MPEG-4 ISO / IEC 14496-3, tiež získalo široké uplatnenie vo vysielaní. Na rozdiel od toho USA vyvinuli štandard Dolby AC-3 (A / 52) ako alternatívu k štandardom MPEG. Napriek značnému množstvu algoritmov kompresie digitálnych audio dát môže byť štruktúra kódovača, ktorý implementuje takýto algoritmus spracovania signálu, reprezentovaná vo forme zovšeobecneného diagramu znázorneného na obr. 5.1.

Rodina štandardov MPEG

MPEG je skratka pre Moving Picture Coding Experts Group, doslova - Moving Picture Coding Experts Group. MPEG sa datuje od januára 1988. Počnúc prvým stretnutím v máji 1988 sa skupina začala rozrastať a rozrástla sa na veľmi veľký tím špecialistov. Zvyčajne v zbierke MPEG

zúčastňuje sa okolo 350 odborníkov z viac ako 200 spoločností.

Väčšina účastníkov MPEG sú špecialisti zaoberajúci sa rôznymi

iné vedecké a akademické inštitúcie.

štandard MPEG-1

Štandard MPEG-1 (ISO / IEC 11172-3) zahŕňa tri algoritmy rôznych úrovní zložitosti: Vrstva I, Vrstva II a Vrstva III. Všeobecná štruktúra procesu kódovania je rovnaká pre všetky úrovne. Napriek podobnosti úrovní vo všeobecnom prístupe ku kódovaniu sa však úrovne líšia v zamýšľanom použití a vnútorných mechanizmoch. Každá vrstva má svoj vlastný digitálny tok (celkovú šírku toku) a svoj vlastný dekódovací algoritmus.

MPEG-1 je určený na kódovanie signálov digitalizovaných so vzorkovacou frekvenciou 32, 44,1 a 48 kHz. Ako je uvedené vyššie, MPEG-1 má tri vrstvy (vrstvu I, II a III). Tieto úrovne sa líšia poskytnutým kompresným pomerom a kvalitou zvuku výsledných tokov.

MPEG-1 normalizuje nasledujúce nominálne bitové rýchlosti pre všetky tri úrovne: 32, 48, 56, 64, 96, 112, 192, 256, 384 a 448 kbps, počet úrovní kvantizácie vstupného signálu je od 16 do 24. Štandardný vstup signál pre kódovač MPEG-1 je digitálny signál AES / EBU (dvojkanálový digitálny audio signál s kvantizačnou bitovou rýchlosťou 20-24 bitov na vzorku). K dispozícii sú nasledujúce režimy činnosti kódovača zvuku:

- jeden kanál (mono);

- duálny kanál (stereo alebo dva mono kanály);

- spoločné stereo (signál s čiastočným oddelením pravého a ľavého kanálu).

Najdôležitejšou vlastnosťou MPEG-1 je plná spätná kompatibilita všetkých troch úrovní. To znamená, že každý dekodér dokáže dekódovať signály nielen svoje, ale aj signály nižších úrovní. MPEG-1 sa ukázal byť prvým medzinárodným štandardom pre digitálnu kompresiu zvuku, čo viedlo k jeho širokému použitiu v mnohých oblastiach: vysielanie, nahrávanie zvuku, komunikácie a multimediálne aplikácie. Najpoužívanejší Level II sa stal neoddeliteľnou súčasťou európskych štandardov pre satelitné, káblové a pozemné digitálne TV vysielanie, štandardov pre zvukové vysielanie, záznam na DVD, ITU Recommendations BS.1115 a J.52. Vrstva III (tiež nazývaná MP3) je široko používaná v digitálnych sieťach integrovaných služieb (ISDN) a na internete. Prevažná väčšina hudobných súborov v sieti je nahraná v tomto štandarde.

štandard MPEG-2

MPEG-2 je rozšírením MPEG-1 smerom k viackanálovému zvuku. Dôsledkom kompatibility MPEG-2 s MPEG-1 z hľadiska kódovania zvuku bolo plné využitie trojúrovňového systému vyvinutého v MPEG-1 na spracovanie zvukových údajov kódovačmi MPEG-2. Rozdiely medzi štandardmi začínajú prechodom z dvojkanálového zvuku, ktorý je základom v MPEG-1, na viackanálový zvuk, ktorý je podporovaný v MPEG-2.

MPEG-2 špecifikuje rozdiely v režime prenosu viackanálového zvuku vrátane päťkanálového formátu, sedemkanálového zvuku s dvoma dodatočnými reproduktormi používanými v kinách s veľmi širokouhlými obrazovkami a rozšírenia týchto formátov o nízkofrekvenčný kanál. Zodpovedajúce usporiadanie reproduktorov je uvedené v tabuľke 4. 1. V tomto prípade čitateľ zlomku udáva počet predných kanálov, menovateľ udáva počet kanálov vyžarovaných zozadu.

Jednou z odrôd viackanálového zvuku je viacjazyčná zvuková stopa. Môže sa to uskutočniť buď prenosom samostatného digitálneho toku pre každý jazyk, alebo

pridanie viacerých (až 7) jazykových kanálov s rýchlosťou 64 kbps do viackanálového toku s rýchlosťou 384 kbps. Prevod možný

dodatočné zvukové kanály pre ľudí so zhoršeným zrakom a sluchom.

Pokročilý systém kódovania zvuku AAC. Jeden z najlepších

moderné systémy kompresie zvuku, uznáva sa systém AAC (Advanced Audio Coding),

špecifikované v siedmej časti normy ISO / IEC 13818. Na rozdiel od iných metód kompresie audio dát prijatých v MPEG-2 nie je spätne kompatibilný - dekodéry MPEG-1 nedokážu dekódovať signál AAC.

V súčasnosti existuje päť druhov formátu AAC:

2. AT&T a2b AAC;

3. LiquiifierPROAAC;

4. Astrid / Quartex AAC;

Všetky tieto modifikácie sú navzájom nekompatibilné, majú svoje vlastné kodéry / dekodéry a nie sú rovnaké v kvalite.


štandard MPEG-4

Ako prostriedok kompresie zvuku v MPEG-4 (ISO / IEC 14496-3) sa používa súbor niekoľkých štandardov kódovania zvuku: vylepšený algoritmus MPEG-2 AAC, algoritmus TwinVQ, ako aj kódovanie reči HVXC a CELP. algoritmy. Okrem toho MPEG-4 poskytuje rôzne škálovateľné a prediktívne mechanizmy. Vo všeobecnosti je však štandard MPEG-4 AAC, ktorý poskytuje pravidlá a algoritmy pre kódovanie zvuku, vo všeobecnosti pokračovaním MPEG-2 AAC.

MPEG-4 Audio ponúka širokú škálu aplikácií, ktoré

pokrýva oblasť od jednoduchej reči po vysokokvalitný viackanálový zvuk a od prirodzených zvukov po syntetické zvuky.

Metóda kódovania MPEG-4 CELP. Metóda kódovania MPEG-4

CELP je určený na spracovanie rečových signálov. Na praxi

používajú sa hlavne tri hlavné triedy kódovačov: kódovače formulárov,

vokodéry a hybridné kodéry.

Kódovače formulárov sa vyznačujú schopnosťou udržiavať zákl

tvar rečového signálu. Tvarové kódovače zahŕňajú pulzné kódovače

kódová modulácia (PCM), diferenciálne kódovače PCM (DPCM),

adaptívny diferenciál PCM (ADIKM) atď. Prevodové systémy s

tento typ kódovačov poskytuje dobrú kvalitu reprodukcie rečových signálov (ktorých štandardné frekvenčné pásmo je 300–3400 Hz) a širších zvukových signálov. Tieto kódovače sú však neúčinné z hľadiska zníženia rýchlosti digitálneho signálu.

Vokodéry (z anglických slov "voice" - hlas a "coder" - kodér) poskytujú výrazne väčšie zníženie rýchlosti prenosu rečových signálov. Kompresia na vysielacej strane sa vykonáva v analyzátore, ktorý z rečového signálu extrahuje pomaly sa meniace zložky, ktoré sa prenášajú cez komunikačný kanál vo forme kombinácií kódov. Na prijímacej strane je rečový signál syntetizovaný pomocou lokálnych zdrojov signálu riadených pomocou prijatých informácií.

štandard MPEG-7

Audio MPEG-7 FCD má päť technológií: štruktúru zvukového popisu, ktorá zahŕňa škálovateľné sekvencie, nízkoúrovňové deskriptory a jednotné segmenty ticha; prostriedky na opis farby hudobného nástroja; prostriedky na rozpoznávanie zvuku; prostriedky na opis hlasového materiálu a prostriedky na opis melódie.

Popis audio systému MPEG-7. Zvuková štruktúra obsahuje

nízkoúrovňové prostriedky, ktoré poskytujú rámec na generovanie audio aplikácií na vysokej úrovni. Poskytnutím spoločného rámca pre štruktúru popisov MPEG-7 Audio vytvára základ pre kompatibilitu všetkých aplikácií, ktoré môžu byť vytvorené v rámci daného systému.

Metóda kompresie zvuku Ogg Vorbis

Ihneď po svojom objavení sa formát MP3 získal obrovský

popularita medzi používateľmi osobných počítačov, na audio CD

veľkosť 650 MB pojme 10-krát viac zvukových informácií pri zachovaní prijateľnej kvality. Takto vytvorené súbory možno jednoducho odosielať cez internet, používať v prenosných zariadeniach a zbierať hudobné zbierky.

OggVorbis patrí k rovnakému typu formátov kompresie zvuku ako MP3, AAC, VQF, PAC, QDesign AIFF a WMA, t.j. na stratové kompresné formáty. Psychoakustický model použitý v OggVorbis od

princípy fungovania sú blízke MP3 a im podobným, ale len - matematické spracovanie a praktická implementácia tohto modelu v koreni

nezávislý od všetkých predchodcov.

Hlavnou nepopierateľnou výhodou formátu OggVorbis je jeho

úplne otvorene a bezplatne. WMA a Astrid / Quartex sú tiež zadarmo, ale autori týchto formátov nezverejnili zdrojové kódy svojich návrhov a Xiphophorus to urobil. OggVorbis je vytvorený projektom GNU a plne podlieha GNU GPL (General Public License). To znamená, že formát je úplne otvorený pre komerčné aj nekomerčné použitie, jeho kódy je možné upravovať bez akýchkoľvek obmedzení, vývojová skupina si vyhradzuje jediné právo schvaľovať nové špecifikácie formátu.

OggVorbis používa matematický psychoakustický model odlišný od MP3, čo ovplyvňuje zvuk. MP3 a OggVorbis sa ťažko porovnávajú, ale celkovo znie OggVorbis oveľa lepšie.

Pri kódovaní používajú kodeky OggVorbis VBR (variabilný bitrate), podobne ako niektoré kodeky MP3, čo vám umožňuje výrazne zmenšiť veľkosť kompozície s miernou stratou kvality.

Pokiaľ ide o rýchlosť kódovania, zatiaľ neexistujú žiadne vynikajúce výsledky. Rýchlosť kodeku OggVorbis nie je vyššia ako rýchlosť kodeku MP3. Vývojári priznávajú, že kodek nie je vôbec optimalizovaný, keďže tento program bol vydaný čo najskôr, aby sa predviedla špecifikácia, aby nebol neopodstatnený. To znamená, že v budúcnosti môžete očakávať výrazné zlepšenie rýchlostných charakteristík, najmä ak sú pripojení výrobcovia tretích strán.

OggVorbis, podobne ako MP3, bol pôvodne vyvinutý ako sieť

streamovací formát. Táto vlastnosť je veľmi dôležitá, najmä vzhľadom na multiplatformovú orientáciu formátu OggVorbis. Internetová rozhlasová stanica využívajúca nízkorýchlostné verzie OggVorbis bude môcť vysielať na všetkých platformách naraz, pričom rovnaká rozhlasová stanica využívajúca na prenos WMA (vo forme ASF) bude obmedzená len na používateľov Windows.