Samohlásky v kompresnom algoritme mp3. Metódy používané na kompresiu digitálneho zvuku: Audio MPEG, PASC, ATRAC. Štátna agrárna univerzita Stavropol

  • 16.05.2019

3.2. Mp3 - technológia kompresie zvukových informácií

Samotný názov MP3 sa objavil v dôsledku redukcie skratky MPEG-1 Layer3.

MPEG (Motion Pictures Expert Group) je skupina pod Medzinárodnou organizáciou pre normalizáciu a Medzinárodným elektrickým výborom, ktorá vyvíja štandardy pre digitálna kompresia obrazové a zvukové informácie. Prečo komprimovať tieto informácie? Po prvé pre úsporu ekonomických a materiálnych zdrojov pri prenose informácií na diaľku prostredníctvom komunikačných kanálov (vrátane satelitných) a po druhé pre ich uloženie.

Štandard MPEG-1 dostal oficiálne schválenie v roku 1992, no až donedávna nebol tento objav úplne žiadaný. Až s príchodom dostatočne výkonného Procesory Pentium(s taktovacími frekvenciami od 300 MHz a vyššími, čo môže výrazne skrátiť čas na kódovanie / dekódovanie signálu) a vysokorýchlostnými modemami je štandard široko akceptovaný.

Štandard MPEG-1 je formát streamovania a pozostáva zo zvuku, videa a časti systému. Posledná časť obsahuje informácie o kombinácii a synchronizácii prvých dvoch.

Prenos údajov prebieha ako prúd nezávislých oddelených dátových blokov – rámcov získaných „rozrezaním“ na segmenty s rovnakou dobou trvania, ktoré sú zakódované nezávisle na sebe.

Celkovo v súčasnosti existuje päť typov (čísel) štandardov MPEG:

1) MPEG1 - kompresia zvuku a videa s celkovou rýchlosťou až 150 Kb / s (audio 38, 44,1, 48 kHz);

2) MPEG2 - kompresia zvuku a videa s celkovou rýchlosťou až 300 Kbps (audio 38, 44,1, 48 kHz), kompresia zvuku je IDENTICKÁ ako MPEG1;

3) MPEG2.5 - kompresia zvuku so zníženým rozlíšením (zvuk 16.22.05.24 kilohertz). Je zaujímavé poznamenať, že štandard MPEG2.5 (známy aj ako MPEG2 LSF - LOW SAMPLE FREQUENCY - nízka frekvencia skenovania zvuku) zaviedol IIS Fraunhofer (Fraunhoferov inštitút pre informačné technológie z Nemecka). Tento štandard je rozšírením „čistého“ zvuku MPEG2 (t. j. MPEG1!) pre rýchlosť skenovania zvuku, ktorá je polovičná oproti bežnej rýchlosti;

4) MPEG3 - viackanálový MPEG1+MPEG2. Táto norma sa prakticky nepoužíva;

5) MPEG4 je v zahraničí nový štandard. Jeho vlastnosť: môže obsahovať až 8 kanálov zvuku (to znamená, že AC-3 je digitálne rozšírenie systému Surround.

Čím vyšší je index úrovne, tým vyššia je zložitosť a výkon kódovacieho algoritmu, a preto sa zvyšujú požiadavky na systémové zdroje.

Pojem „kódovanie“ sa tu vzťahuje na proces, ktorý vám umožňuje získať súbor v komprimovanej forme, ktorá zaberá menej miesta na disku, a preto sa rýchlejšie prenáša cez komunikačné kanály. Súbor nie je možné použiť v komprimovanej forme, preto ho treba pred použitím dekódovať. Kompresia súborov nie je vždy úspešná. Výsledok priamo závisí od spôsobu kompresie a od obsahu samotného súboru.

Princíp kódovania signálu v MPEG Audio je založený na použití psychoakustického modelu (Psychoacoustics), ktorého podstata je nasledovná.

Existuje množstvo audio frekvencie ktoré ľudské ucho nevníma. Dochádza k maskovaniu niektorých zvukov inými, a to ako s väčšou amplitúdou, tak aj s blízkou frekvenciou. Napríklad, ak je vydaný silný zvuk s frekvenciou 1000 Hz (maskovaný), potom slabší zvuk s frekvenciou 1100 Hz (maskovaný) ľudské ucho nezaznamená kvôli vlastnostiam prahu sluchu. ľudského ucha. Prah sluchu na okrajoch frekvenčného rozsahu (16-20 Hz a 16-20 kHz) sa výrazne zvyšuje, pretože. pri týchto frekvenciách má sluch výrazne nižšiu citlivosť v porovnaní s oblasťou najväčšej citlivosti sluchu (rozsah 1-5 kHz). Je tiež známe, že čas obnovenia citlivosti sluchu po hlasnom signáli je asi 100 ms a čas oneskorenia vnímania toho istého signálu je asi 5 ms.

Vysiela sa teda len taká zvuková informácia, ktorú dokáže adekvátne vnímať veľká väčšina poslucháčov, a zvyšok je, žiaľ, nenávratne stratený.

Ako už bolo spomenuté, všetky úrovne majú rovnakú základnú štruktúru, v ktorej kodér analyzuje pôvodný signál, vypočíta preň banku filtrov (32 pásiem) a aplikuje psychoakustický model. S vopred zvolenou kvantizačnou rýchlosťou, bitovou rýchlosťou a skrytím kódovač kvantuje a kóduje signál.

Porovnávacie charakteristiky metód kódovania pre jeden kanál pri kvantizačnej frekvencii 32 kHz sú uvedené v tabuľke 2.

Tabuľka 2

Spôsob kódovania Prenosová rýchlosť (kbps) Pomer kompresie
Vrstva 1 192 1:4
Vrstva 2 128-96 1:6...8
Vrstva 3 64-56 1:10...12

Pred zakódovaním sa zdrojový signál rozdelí na rámce, z ktorých každý sa zakóduje samostatne s inými parametrami a umiestni sa do výsledného súboru nezávisle od ostatných. Poradie prehrávania je určené poradím snímok. Všetky informácie o rámci sú obsiahnuté v jeho hlavičke a informácie o rámcoch sú obsiahnuté v hlavičke súboru. Pre informácie o interpretovi, albume, názve skladby, žánri atď. je k dispozícii ID3/ID2 tag – názov. Prevažná väčšina existujúcich prehrávačov používa tento titul na prezeranie týchto informácií počas prehrávania hudby.

Medzi snímkami môžu byť obsiahnuté ľubovoľné informácie, napríklad autorské práva, umiestnené v rovnomernej vrstve v celom súbore. Hlavnou požiadavkou pre po sebe idúce snímky je, aby neexistovali žiadne zhody s podpisom začiatku snímky.

Snímková frekvencia sa nazýva bitová rýchlosť (BIT RATE je bitová rýchlosť, čím je vyššia, tým sa konečný výsledok približuje originálu).

Každá bitová rýchlosť má svoj vlastný rozsah. Na vytvorenie kópie vysokej kvality, ktorá zodpovedá kvalite originálu, sa používajú iba vysoké bitové rýchlosti rádovo 256 kbps. Pri bitovej rýchlosti 128 kbps sa kvalita konečného produktu javí ako celkom normálna, no veľa ľudí si už dokáže všimnúť rozdiel medzi kópiou a originálom. Internet najčastejšie obsahuje práve MP3 súbory kódované bitovou rýchlosťou 128 kbps. Na vytvorenie skutočne kvalitnej kópie je však potrebné použiť rýchlosť kódovania 320 kbps, hoci výsledný súbor je len 4,3-krát menší v porovnaní s 10,8-krát pri 128 kbps a 5,4-krát pri 256 kbps. Preto si musíte zvoliť bitovú rýchlosť sami, na základe vašich potrieb.

Po označení rámca sa pôvodný signál pomocou hrebeňových filtrov rozdelí na zložky, ktoré predstavujú samostatné frekvenčné rozsahy, ktoré v súčte dávajú spracovaný signál. Pre každý takýto rozsah je určený jeho vlastný psychoakustický model a sekcie rámca, ktoré „vypadnú“ z procesu kódovania. Pre zvyšné dáta je určená maximálna povolená kvantizačná frekvencia, ktorá by mala zabezpečiť straty pod hodnotou maskovacieho efektu.

Po spracovaní všetkých snímok sa vytvorí finálny stream, ktorý sa dodatočne zakóduje pomocou Huffmanovej metódy. Tento algoritmus sa používa aj v archivátore ARJ, len s dynamickou, neustále sa meniacou Huffmanovou tabuľkou, ktorá vyžaduje dva prechody cez dáta; s pevnou tabuľkou 3. vrstvy dochádza ku kompresii v jednom prechode. Táto metóda umožňuje „stlačiť“ až 20 percent celkového objemu. Výsledkom je konečný zakódovaný zvukový dátový tok.


So mnou" s jednoduchou bezumelou melódiou Glinky, počutou od Griboedova, a zložitejším dramatickým riešením v romantike - orientálna báseň od Rachmaninova, plná elegickej túžby a osamelosti. Veľmi rozsiahly a zaujímavý je aj muzikál Pushkiniana 20. Medzi najvýznamnejšie diela patria balety „Medený jazdec“ Gliera, ktorých jedna z hlavných tém sa skutočne stala „chvalom veľkého ...

Piesne, vtipy, počítanie riekaniek na hudobné nástroje; na noriolizáciu prozodickej stránky reči pri improvizácii melodických a rytmických refrénov. Pri práci so žiakmi základných škôl v nápravnom a rozvojovom vzdelávaní možno využiť len tie najjednoduchšie nástroje. Ide o hudobné nástroje skupiny bicích nástrojov ako čisto rytmické, bez určitej výšky...

Morálne vlastnosti osobnosti dieťaťa tvoria počiatočné základy všeobecnej kultúry budúceho človeka. II. Pedagogické podmienky realizácia aktivít detí v materská škola 2.1 Metódy hudobnej výchovy v materskej škole Hlavným druhom hudobnej činnosti, ktorá zohráva vedúcu úlohu pri realizácii kognitívnej a komunikačnej funkcie hudby, je jej vnímanie ...

Práca na hudobnom diele, úroveň emočných porúch a porúch správania. 2. Špecifiká hudobnej práce v detskom domove pre mentálne retardované siroty a deti zbavené rodičovskej starostlivosti Využívanie rôznych foriem organizovania hudobnej činnosti, z ktorých každá má určité schopnosti (pozri schému), pomáha riešiť problémy hudobnej výchovy. ...

Dnes sa väčšina z nás zaoberá predovšetkým digitálnymi systémami reprodukcie zvuku. V týchto systémoch je zvuk uložený digitálne – teda vo forme sekvencií núl a jednotiek, ktoré sa po ich dekódovaní pomocou špeciálneho softvéru a hardvéru premenia na zvuk. Vo svete digitálna hudba je tu boj na jednej strane o kvalitu prehrávania a na druhej strane o množstvo uložených dát. Ide o dva protichodné koncepty – čím kvalitnejší zvuk, tým viac miesta zvyčajne zaberie jeho uloženie. Aby sa zachoval digitálny zvuk v najvyššej možnej kvalite s čo najmenším množstvom informácií, boli vyvinuté algoritmy kompresie zvuku.

Existujú dva rôzne prístupy ku kompresii zvukových informácií. Prvá sa nazýva bezstratová kompresia (bezstratová) - pri takejto kompresii sa zvuk zaznamenaný v digitálnej podobe zachová úplne, bez strát. Ďalší prístup ku kompresii zvukových údajov sa nazýva stratová kompresia (stratová) - zvuk je spracovaný špeciálnym spôsobom, všetko je z neho odstránené, podľa záverov kompresného algoritmu je zbytočné a to, čo zostane, je komprimované. Takáto kompresia v porovnaní s bezstratovou kompresiou umožňuje dosiahnuť oveľa vyššiu úroveň kompresie, teda zmenšiť veľkosť zvukových súborov, pričom kvalita zvuku, ak sa nesnažíte súbor príliš komprimovať, príliš neutrpí.

Hudobné nahrávky je možné komprimovať aj bežnými archivátormi, tie však nedokážu pracovať v reálnom čase, navyše úroveň kompresie nekomprimovaných hudobné nahrávky zriedka presahuje 50 %. Ďalšou v praxi využívanou metódou kompresie zvukových informácií je použitie špeciálnych programov – takzvaných kodekov, pomocou ktorých môžete komprimované kompozície komprimovať, dekódovať a prehrávať za chodu.

Keď už hovoríme o kodekoch na kompresiu zvukových informácií, mali by sme rozlišovať medzi pojmami kodek a mediálny dátový kontajner. Kontajner je, zjednodušene povedané, druh štandardného shellu, ktorý ukladá audio dáta komprimované jedným alebo druhým kodekom. Napríklad kontajner MP4 môže uchovávať údaje komprimované rôznymi kodekmi - najmä kodek stratovej kompresie AAC, kodek bezstratovej kompresie ALAC a ďalšie. Zvyčajne pre rôzne druhy dáta, ktoré sú uložené v kontajneri MP4, sa používajú rôzne prípony súborov. Podobne môže súbor WAV ukladať rôzne údaje – komprimované napríklad v populárnom formáte MP3 alebo nekomprimované vo formáte PCM – v prípade súborov WAV. prípona názvu súboru zostáva nezmenený (.wav) a tieto súbory sa líšia iba vo svojom vnútorná štruktúra.

Zoznam programov

V tabuľke. 3.1. sú uvedené programy opísané v tejto téme. Ide v podstate o univerzálne programy, na kódovanie určitých súborov si môžete vybrať ktorýkoľvek z nich. Predvolený formát vstupného súboru je WAV, avšak takmer všetky programy dokážu kódovať hudbu medzi formátmi a „dekomprimovať“ zdrojové súbory na štandardný WAV.

Tabuľka 3.1. Programy a formáty súborov
Programy a formáty MP3 OGG WMA AAC VQF FLAC WAV BALÍK APE ALAC
Chromý +
winlame + + +
RazorLame +
Windows Media Encoder +
aoTuV +
iTunes +
ImToo WMA MP3 konvertor* + +
MP4 prevodník**
ImToo Audio Encoder + + + + + + +
Flac Frontend +
Rozdeľovač tág***
frontend wavpack +
Opičí zvuk +
dB poweramp + + + + + + + +

* Podporuje ImToo WMA MP3 Converter veľké množstvo vstupné formáty súborov, výstup môže byť len MP3 a WMA.

** Program MP4 Converter konvertuje video súbory rôznych formátov do formátu zrozumiteľného pre hráčov Apple iPod.

*** Program na rozdelenie veľkých zvukových súborov podľa indexových kariet.

Stratová kompresia

Medzi existujúce formáty stratovú kompresiu zvuku možno zaznamenať ako "veľkú štvorku" - MP3, WMA, Ogg Vorbis a AAC. Je takmer 100% pravdepodobné, že váš prehrávač MP3 bude podporovať jeden z týchto formátov a s najväčšou pravdepodobnosťou niekoľko. Poznatky o niektorých vlastnostiach formátov budú užitočné najmä pri práci so zvukovými informáciami v praxi. Napríklad v nasledujúcich prednáškach sa pozrieme na audio softvér, konkrétne sa zastavíme pri prevode zvuku z jedného formátu do druhého a ak viete o formáte kompresie dát trochu viac ako jeho názov, môže vám to pomôcť ty veľa. Začnime teda najpopulárnejším formátom.

MP3

Úplný názov MP3 je MPEG 1 Audio Layer 3. MP3 je stratový formát kompresie zvukových dát, ktorý si získal neuveriteľnú popularitu po celom svete. V súčasnosti existujú varianty štandardu - MPEG-2 Layer 3 a MPEG-2 .5 Layer 3.

História MP3 sa začína koncom 80. rokov, keď pracovná skupina inžinierov z Fraunhofer Institute (Fraunhofer Society) začala pracovať na projekte DAB (Digital Audio Broadcast). Projekt bol súčasťou výskumného programu EUREKA av rámci neho bol známy ako EU-147. MP3 bol výsledkom revízie štandardov kompresie zvuku Musicam a ASPEC, pričom k myšlienkam použitým v týchto štandardoch pridali nové originálne koncepty. Thomson tiež priamo súvisí so štandardom.

Štandard sa vyvinul začiatkom 90. rokov, v roku 1995 bola zverejnená finálna verzia štandardu, no už v roku 1994 vznikol prvý softvérový MP3 kodér, ktorý sa volal l3enc. Potom sa vybralo rozšírenie. mp3 pre súbory kódované v tomto formáte a v roku 1995 bol širokej verejnosti sprístupnený prvý softvérový MP3 prehrávač Winplay3. Vzhľadom na vysokú kvalitu hudby s č veľká veľkosť súborov, ako aj vzhľadom na jednoduchý a kvalitný vzhľad softvér na prehrávanie a vytváranie MP3 súborov (napríklad známy a dnes už žijúci WinAmp, ktorý sa objavil už v polovici 90. rokov), si štandard získal obrovskú popularitu a používa sa dodnes.

Funkcie MP3

Keď už hovoríme o možnostiach formátu MP3, možno by sme mali začať formátom, v ktorom je hudba uložená na bežných hudobných CD, takzvaných Audio CD. Zvuk zaznamenaný na takýchto diskoch má celkom jednoznačné vlastnosti, konkrétne ide o 44,1 kHz 16-bitové stereo (44,1 kHz, 16-bitový stereo zvuk). Preložené do bežnej ľudskej reči to znamená, že každá sekunda zvuku pozostáva zo 44 100 vzoriek (tento parameter sa nazýva vzorkovacia frekvencia), z ktorých každá má veľkosť 16 bitov (teda dva bajty), navyše sa zaznamenáva informácia pre dva kanály - pre pravý a pre ľavý. Výsledkom je, že na uloženie jednej sekundy hudby vo formáte Audio CD bude potrebných 44100 * 16 * 2 = 1411200 bitov alebo 176400 bajtov alebo 172,2 KB. Päťminútové zloženie teda zaberie 176400*5*60=52920000 bajtov, teda takmer 50 megabajtov miesta na disku. Aj dnes, vzhľadom na desiatky a častejšie stovky gigabajtov pevné disky, ktoré majú k dispozícii bežní používatelia, je pomerne ťažké si predstaviť hudobná zbierka pozostávajúce výlučne zo zvuku zaznamenaného v takomto nehospodárnom formáte. Netreba hovoriť o pevných diskoch za pár gigabajtov, ktoré boli pred mnohými rokmi vrcholným snom.

Súbory komprimované v MP3 takmer bez straty pôvodnej kvality zaberajú 6-10 krát menej miesta ako originál. To znamená, že obrovský 50-megabajtový súbor sa ukazuje ako celkom slušný 5-megabajtový. Navyše, ak komprimujete takýto súbor pomocou konvenčných kompresných algoritmov (napríklad RAR alebo ZIP), ktoré sa používajú na jednoduché súbory, získame prinajlepšom 50% zisk (teda súbor s veľkosťou cca 25 MB). Čo sa deje? Prečo je MP3 schopný komprimovať súbory do takej miery bez zníženia ich kvality? Odpoveď na otázku tu spočíva v slove „prakticky“. Konvenčná kompresia totiž nemení kvalitu kompozícií, úplne ju zachováva, pričom MP3 vykonáva určité manipulácie so súborom, čo môže ovplyvniť jeho kvalitu.

Ako funguje MP3

MP3 je založený na mnohých kompresných mechanizmoch, najmä na takzvanom adaptívnom kódovaní založenom na psychoakustických modeloch, ktoré berú do úvahy zvláštnosti ľudského vnímania zvuku a odstraňujú z neho všetko „nadbytočné“ - všetko, čo priemerný človek nepočuje. pri počúvaní skladieb. Ako sme už povedali, ak sa nepokúsite komprimovať kompozíciu príliš s použitím najkvalitnejšej verzie kódovania MP3, jej veľkosť bude asi 6-10 krát menšia ako originál s kvalitou CD a kvalita týchto dve nahrávky budú identické – sotva ich rozozná ani profesionál. Pri vyšších úrovniach kompresie je strata (nazývaná aj artefakty kompresie) oveľa počuteľnejšia, ale tí, ktorí používajú vysoko komprimovanú hudbu vo formáte MP3, tento krok robia zámerne. Napríklad medzi mobilnými telefónmi sú mimoriadne obľúbené MP3 s vysokou kompresiou - často vstavaná pamäť zariadenia nestačí na stiahnutie dostatočného množstva kvalitných MP3 do nej, výsledkom čoho je, že majiteľ obetuje kvalitu nahrávky. kvôli kvantite. Vráťme sa však k popisu princípov fungovania MP3, konkrétne k psychoakustickým modelom.

Adaptívne kódovanie založené na psychoakustických modeloch využíva rôzne poznatky o vlastnostiach ľudského vnímania zvukov. Ak sa teda súčasne prehrávajú dva zvukové signály, z ktorých jeden je slabší, potom viac slabý signál je prehlušený (alebo, ako sa hovorí, maskovaný) silnejším signálom. Výsledkom je, že človek počuje silnejší zvuk, ale slabší nie. V takom prípade je informácia o slabšom zvuku jednoducho zahodená. To isté sa stane, ak hneď po hlasnom zvuk prichádza tichý - hlasný zvuk spôsobuje dočasné zníženie sluchovej citlivosti, v dôsledku toho - tichý zvuk je nepočuteľný - informácie o ňom môžu byť tiež odstránené. Pri spracovaní hudobných skladieb sa tiež berie do úvahy, že väčšina ľudí nedokáže rozlíšiť signály, ktorých sila je pod určitou úrovňou pre rôzne frekvenčné pásma.

Bitová rýchlosť

Pri kódovaní MP3 je obzvlášť dôležitá takzvaná bitová rýchlosť (bitrate alebo šírka toku), ktorá sa nastavuje pri kódovaní. Kódovať možno napríklad už popísané Audio CD maximálna bitová rýchlosť 320 kbps (kilobitov za sekundu - toto číslo sa tiež označuje ako kbps, kbs, kb / s) až do 128 a menej. V praxi pri bitovej rýchlosti pod 128 Kbps kvalita zvuku natoľko klesne, že kódovať s takouto bitovou rýchlosťou má zmysel až vtedy, keď jednoducho neexistuje iná alternatíva.

Rôzne zdrojové materiály môžu byť kódované s rovnakou bitovou rýchlosťou, napríklad zvuk nemusí byť stereo, ale mono, vzorkovacia frekvencia alebo veľkosť vzorky môžu byť rôzne, ale bitová rýchlosť je veľmi dôležitým integrálnym ukazovateľom kvality súboru MP3. . IN všeobecný prípadčím je väčšia, tým je lepšia. Veľmi často pri kódovaní nahrávok MP3 v kvalite Audio CD nájdete bitovú rýchlosť 192 Kbps - na tieto účely je to celkom vhodné, ale pri počúvaní takýchto nahrávok na vysokokvalitnom zvukovom zariadení (najmä v porovnaní s pôvodným zvukom CD), sú viditeľné kompresné artefakty.

Nedá sa však jednoznačne tvrdiť, že akýkoľvek hudobná kompozícia povedzme, nahratá rýchlosťou 192 Kbps je lepšia ako skladba nahraná rýchlosťou 128 Kbps. Veľa závisí od samotnej hudby, od kodéra, od pôvodnej kvality nahrávky, ako aj od toho, aký typ bitovej rýchlosti sa pri nahrávaní kompozície použije.

Najjednoduchším typom bitovej rýchlosti je teda konštantná bitová rýchlosť - alebo CBR (Konštantná Bitová rýchlosť). Tento bitrate sa nemení počas kódovania celej kompozície, to znamená, že každá sekunda zvuku, bez ohľadu na jeho obsah, je zakódovaná rovnakým počtom bitov.

Bit Rate) - možno to nazvať kombináciou VBR a CBR. Používateľ teda pred spustením kódovania nastaví priemernú bitovú rýchlosť a pri kódovaní sa program pomocou variabilnej bitovej rýchlosti uistí, že bitová rýchlosť sa nakoniec zmestí do limitu nastaveného používateľom. Kvalita výstupného súboru je teda horšia ako pri použití VBR (ale o niečo lepšia ako pri použití rovnakého CBR), ale veľkosť súboru je flexibilná a vyladená.

Počas kódovania sa pôvodný zvukový signál rozdelí na časti nazývané snímky. Každý rámec je kódovaný samostatne a pri dekódovaní zvukový signál zrekonštruované z dekódovaných rámcov. Pri kódovaní MP3 je obzvlášť zaujímavý spôsob spracovania stereo signálu - poďme sa venovať tejto problematike podrobnejšie.

Formát kompresie zvuku MP3

MPEG-1 Audio Layer 3 Prípona súboru: .mp3 Typ MIME: audio/mpeg Typ formátu: Audio

MP3 (presnejšie anglicky MPEG-1/2/2.5 Layer 3 (ale nie MPEG-3) – tretí formát na kódovanie zvukovej stopy MPEG) je licencovaný formát súboru na ukladanie zvukových informácií.

Na tento moment MP3 je najznámejší a najpopulárnejší stratový digitálny formát kódovania zvuku. Je široko používaný v sieťach na zdieľanie súborov na odhadovaný prenos hudobných diel. Formát je možné prehrať na takmer akomkoľvek populárnom operačnom systéme, na takmer akomkoľvek prenosnom audio prehrávači a je tiež podporovaný všetkými moderné modely hudobné centrá a DVD prehrávače.

Formát MP3 používa stratový kompresný algoritmus navrhnutý tak, aby výrazne znížil množstvo údajov potrebných na prehrávanie nahrávky a poskytol kvalitu prehrávania veľmi blízku originálu (podľa väčšiny poslucháčov), hoci milovníci hudby hlásia výrazný rozdiel. Keď sa MP3 vytvorí s priemernou bitovou rýchlosťou 128 kbps, výsledkom je súbor, ktorý má približne 1/10 veľkosti pôvodného súboru zvukového disku CD. Súbory MP3 je možné vytvárať s vysokou alebo nízkou bitovou rýchlosťou, čo ovplyvňuje kvalitu výsledného súboru. Princípom kompresie je zníženie presnosti niektorých častí zvukového toku, ktorý je pre väčšinu ľudí takmer nerozoznateľný. Táto metóda nazývané percepčné kódovanie. Súčasne sa v prvej fáze vytvorí zvukový diagram vo forme sledu krátkych časových úsekov, potom sa z neho odstránia informácie nerozlíšiteľné ľudským uchom a zvyšné sa uložia do kompaktná forma. Tento prístup je podobný metóde kompresie používanej pri kompresii obrázkov do formátu JPEG.

MP3 vyvinula pracovná skupina Fraunhoferovho inštitútu (nem. Fraunhofer-Institut f?r Integrierte Schaltungen) pod vedením Karlheinza Brandenburg a University of Erlangen-Norimberg v spolupráci s AT & T Bell Labs a Thomson (Johnson, Stoll , Deeri atď.).

Vývoj MP3 bol založený na experimentálnom kodeku ASPEC (Adaptive Spectral Perceptual Entropy Coding). Prvý MP3 kodér bol L3Enc, vydaný v lete 1994. O rok neskôr sa objavil prvý softvérový MP3 prehrávač – Winplay3.

Pri vývoji algoritmu boli vykonané testy na celkom špecifických populárnych kompozíciách. Hlavnou piesňou bola "Tom" s Diner od Susanny Vega." Preto ten vtip, že "MP3 bolo vytvorené výlučne na pohodlné počúvanie obľúbenej piesne Brandenburgu," a Vega sa začala nazývať "matkou MP3."


Popis formátu

V tomto formáte sú zvuky kódované frekvenčným spôsobom (žiadne samostatné časti); existuje podpora stereo a v dvoch formátoch (podrobnosti - nižšie). MP3 je stratový kompresný formát, teda časť zvukovej informácie, ktorú (podľa psychoakustického modelu) ľudské ucho nedokáže vnímať alebo ju vnímajú nie všetci ľudia, je natrvalo vymazaná zo záznamu. Stupeň kompresie sa môže meniť, a to aj v rámci jedného súboru. Rozsah možných hodnôt bitrate je 8 - 320 kbps. Pre porovnanie, dátový tok z bežného Audio-CD je 1411,2 kbps pri vzorkovacej frekvencii 44100 Hz.

MP3 a "Kvalita audio CD"

V minulosti sa všeobecne verilo, že záznam s rýchlosťou 128 kbps je vhodný pre hudbu určenú na počúvanie väčšiny ľudí a poskytuje kvalitu zvuku Audio-CD. V skutočnosti je všetko oveľa komplikovanejšie. Po prvé, kvalita výsledného MP3 nezávisí len od bitovej rýchlosti, ale aj od kódovacieho programu (kodeku) (norma nestanovuje kódovací algoritmus, popisuje len spôsob prezentácie). Po druhé, okrem prevládajúceho režimu CBR (Constant Bitrate) (v ktorom je, inými slovami, každá sekunda zvuku zakódovaná rovnakým počtom bitov), ​​existujú režimy ABR (Average Bitrate) a VBR (Variable Bitrate). Po tretie, hranica 128 kbit / s je podmienená, pretože bola „vynájdená“ v ére formovania formátu, keď bola kvalita prehrávania zvukových kariet a počítačových reproduktorov zvyčajne nižšia ako v súčasnosti.

V súčasnosti sú najrozšírenejšie MP3 súbory s bitovou rýchlosťou 192 kbps, čo môže nepriamo naznačovať, že väčšina považuje tento bitrate za dostatočný. Skutočná vnímaná „kvalita“ závisí od zdrojového zvukového súboru, poslucháča a jeho audio systému. Niektorí milovníci hudby uprednostňujú kompresiu hudby s „maximálnou kvalitou“ – 320 kbps, alebo dokonca prechádzajú na iné formáty, ako je FLAC, kde je priemerná bitová rýchlosť ~ 1000 kbps. Medzi milovníkmi hudby tiež existuje názor, že niektoré vzorky (fragmenty zvukového záznamu) nie sú prístupné pre vysokokvalitnú stratovú kompresiu: pri všetkých možných bitových rýchlostiach nie je ťažké rozlíšiť komprimovaný zvuk od originálu.

Režimy a možnosti kódovania

Existujú tri verzie formátu MP3 pre rôzne potreby: MPEG-1, MPEG-2 a MPEG-2.5. Líšia sa možnými rozsahmi bitovej rýchlosti a vzorkovacej frekvencie:

* 32-320 kbps pri vzorkovacích frekvenciách 32000 Hz, 44100 Hz a 48000 Hz pre MPEG-1 Layer 3;

* 16-160 kbps pri vzorkovacích frekvenciách 16000 Hz, 22050 Hz a 24000 Hz pre MPEG-2 Layer 3;

* 8-160 kbps pri 8000 Hz a 11025 Hz vzorkovacích frekvenciách pre MPEG-2.5 Layer 3.

Režimy ovládania kódovania audio kanálov

Keďže formát MP3 podporuje dvojkanálové (stereo) kódovanie, existujú 4 režimy:

* Stereo - dvojkanálové kódovanie, v ktorom sú kanály pôvodného stereo signálu kódované nezávisle na sebe, ale rozdelenie bitov medzi kanály v celkovej bitovej rýchlosti sa môže líšiť v závislosti od zložitosti signálu v každom kanáli.

* Mono - jednokanálové kódovanie. Ak zakódujete dvojkanálový materiál týmto spôsobom, rozdiely medzi kanálmi sa úplne vymažú, pretože dva kanály sú zmiešané do jedného, ​​je zakódovaný a prehrávaný v oboch kanáloch stereo systému. Jedinou výhodou tohto režimu môže byť iba výstupná kvalita v porovnaní s režimom Stereo pri rovnakej bitovej rýchlosti, pretože na kanál je dvakrát toľko bitov ako v režime Stereo.

* Dvojkanálový – dva nezávislé kanály, napríklad zvuk v rôznych jazykoch. Bitová rýchlosť je rozdelená do dvoch kanálov. Napríklad, ak je špecifikovaná bitová rýchlosť 192 kbps, potom pre každý kanál bude rovná iba 96 kbps.

* Kombinované stereo (Joint Stereo) - najlepší spôsob dvojkanálového kódovania. Napríklad v jednom z kombinovaných stereo režimov sa ľavý a pravý kanál konvertuje na ich súčet (L+R) a rozdiel (L-R). Pre väčšinu zvukových súborov je saturácia rozdielového (L-R) kanála oveľa nižšia ako súčet (L+R) kanála. Svoju úlohu tu zohráva aj ľudské vnímanie zvuku, pre ktorého sú rozdiely v smerovaní zvuku oveľa menej nápadné. Preto vám Combined Stereo umožňuje buď ušetriť na bitovej rýchlosti kanála (L-R), alebo zlepšiť kvalitu pri rovnakej bitovej rýchlosti, pretože väčšina bitovej rýchlosti je pridelená súčtu kanálu (L+R). Existuje názor, že tento režim nie je vhodný pre stereo audio materiál, v ktorom je subjektívne úplne odlišný materiál reprodukovaný v dvoch kanáloch, pretože stiera rozdiely medzi kanálmi. Ale moderné kodeky používajú rôzne schémy v rôznych snímkach (vrátane čistého sterea) v závislosti od zdrojového signálu.

CBR je skratka pre Constant Bit Rate, čiže konštantná bitová rýchlosť, ktorá je nastavená používateľom a nemení sa pri kódovaní diela. Každá sekunda práce teda zodpovedá rovnakému počtu kódovaných dátových bitov (aj pri kódovaní ticha). CBR môže byť užitočné pre mediálne toky s obmedzeným kanálom; v takom prípade kódovanie využíva všetky možnosti dátového kanála. Pre ukladanie nie je tento režim kódovania optimálny, pretože nedokáže prideliť dostatok miesta pre zložité segmenty pôvodného diela, pričom plytvá priestorom na jednoduché segmenty. Vyššie bitové rýchlosti (nad 256 kbps) môžu vyriešiť tento problém, čím sa pridelí viac miesta pre dáta, ale úmerne sa zväčší veľkosť súboru.

VBR je skratka pre Variable Bit Rate, teda premenlivý bitový tok alebo premenlivý bitový tok, ktorý sa dynamicky mení programom kódovača počas kódovania v závislosti od saturácie kódovaného zvukového materiálu a nastavené používateľom kvalitu kódovania (napríklad ticho bude zakódované s minimálnou bitovou rýchlosťou). Táto metóda kódovania MP3 je najpokročilejšia a stále sa vyvíja a zdokonaľuje, pretože zvukový materiál rôznej sýtosti možno kódovať s určitou kvalitou, ktorá je zvyčajne vyššia, ako keď je priemerná hodnota nastavená v metóde CBR. Navyše je veľkosť súboru znížená vďaka fragmentom, ktoré nevyžadujú vysokú bitovú rýchlosť. Nevýhodou tohto spôsobu kódovania je obtiažnosť predpovedania veľkosti výstupného súboru. Táto nevýhoda kódovania VBR je však v porovnaní s jeho výhodami zanedbateľná. Ďalšou nevýhodou je, že VBR považuje tichšie fragmenty za „bezvýznamné“ zvukové informácie, takže sa ukazuje, že ak budete počúvať veľmi nahlas, tieto fragmenty budú zlej kvality, zatiaľ čo CBR vytvára tiché a hlasné fragmenty s rovnakou bitovou rýchlosťou. Formát VBR sa neustále zlepšuje vďaka neustálemu zlepšovaniu matematického modelu kodekov, najmä po vydaní aktualizovaná verzia free mp3-codec lame (verzia 3.98), kódovanie s variabilným bitrate je podľa samotných vývojárov kvalitatívne lepšie ako CBR a ešte viac ABR.

ABR je skratka pre Average Bit Rate, čiže Priemerná bitová rýchlosť, čo je hybrid VBR a CBR: bitovú rýchlosť v kbps nastavuje používateľ a program ju mení, pričom ju neustále upravuje na zadanú bitovú rýchlosť. Kodér teda bude dávať pozor, aby použil maximálne a minimálne možné hodnoty bitovej rýchlosti, pretože riskuje, že sa nezmestí do bitovej rýchlosti určenej používateľom. Toto je jasná nevýhoda tejto metódy, pretože ovplyvňuje kvalitu výstupného súboru, ktorá bude o niečo lepšia ako pri použití CBR, ale oveľa horšia ako pri použití VBR. Na druhej strane táto metóda umožňuje najflexibilnejšie nastavenie bitovej rýchlosti (môže to byť ľubovoľné číslo medzi 8 a 320, iba v násobkoch 16 v metóde CBR) a výpočet veľkosti výstupného súboru.

Značky v rámci hraníc súboru mp3 (na začiatku a/alebo na konci). Môžu obsahovať informácie o autorstve, albume, roku vydania a ďalšie informácie o skladbe. V neskorších verziách značiek je možné uložiť obal albumu a text. Existovať rôzne verzie značky.

nevýhody

Technické nedostatky. MP3 je lídrom v prevalencii, ale nie je najlepší z hľadiska Technické parametre. Existujú formáty, ktoré umožňujú dosiahnuť lepšiu kvalitu pri rovnakej veľkosti súboru, ako napríklad Vorbis, AAC. Vo formáte MP3 tiež chýba režim bezstratového kódovania, ktorý je žiaduci pre profesionálne použitie. MP3 je zároveň celkom vhodné (z profesionálneho hľadiska) na distribúciu demo skladieb alebo iné spôsoby „distribúcie“ vašej hudby vzhľadom na všadeprítomnosť prehrávačov.

Zákonné obmedzenia. Existujú patentové obmedzenia pre voľné používanie formátu. Alcatel-Lucent vlastní práva na MP3 a dostáva licenčné poplatky od tých, ktorí tento formát používajú – výrobcov prehrávačov a mobilných telefónov. Z tohto dôvodu je otázna licenčná čistota formátu. Nároky podala najmä spoločnosť Alcatel-Lucent Microsoft za to, že podpora MP3 je zabudovaná do systému Windows. Patenty tejto technológie však vypršia v roku 2010, potom ju bude môcť ľubovoľná spoločnosť voľne používať.

Formáty - Formáty kompresie zvuku

FLAC (anglicky Free Lossless Audio Codec – bezplatný bezstratový zvukový kodek) je populárny bezplatný kodek na kompresiu zvuku. Na rozdiel od stratových kodekov Ogg Vorbis, MP3, FLAC neodstraňuje z audio streamu žiadne informácie a je vhodný ako na počúvanie hudby na vysokokvalitnom zariadení na reprodukciu zvuku, tak aj na archiváciu audio zbierky. Dnes je formát FLAC podporovaný mnohými audio aplikáciami.

Zvukový prúd

Hlavné časti toku sú:

* Reťazec štyroch bajtov "fLaC"

* Blok metadát STREAMINFO

* Ďalšie voliteľné bloky metadát

* Zvukové rámy

Prvé štyri bajty identifikujú tok FLAC. Metadáta, ktoré nasledujú, obsahujú informácie o streame, za ktorým nasledujú komprimované zvukové údaje.

metaúdaje

FLAC definuje niekoľko typov blokov metadát (všetky sú uvedené na stránke formátu). Bloky metadát môžu byť ľubovoľnej veľkosti, nové bloky možno jednoducho pridávať. Dekodér má schopnosť preskakovať bloky metadát, ktoré nepozná. Vyžaduje sa iba blok STREAMINFO. Obsahuje vzorkovaciu frekvenciu, počet kanálov atď., ako aj údaje, ktoré umožňujú dekodéru nastaviť vyrovnávacie pamäte. Je tu tiež zapísaný podpis MD5 nekomprimovaných zvukových údajov. Je to užitočné na kontrolu celého streamu po jeho odoslaní.

Ďalšie bloky sú určené na rezerváciu miesta, ukladanie tabuliek bodov vyhľadávania, tagov, zoznamu rozložení zvukových CD, ako aj údajov pre špecifické aplikácie. Možnosti pridávania blokov PADDING alebo vyhľadávacích bodov sú uvedené nižšie. FLAC nepotrebuje vyhľadávacie body, ale môže výrazne zvýšiť rýchlosť prístupu a dá sa použiť aj na označovanie v zvukových editoroch.

Zvukové údaje

Po metadátach nasledujú komprimované zvukové údaje. Metadáta a zvukové údaje sa neprekladajú. Ako väčšina kodekov, aj FLAC sa delí vstupný prúd do blokov a zakóduje ich nezávisle od seba. Blok je zarámovaný a pridaný do prúdu. Základný kódovač používa bloky konštantnej veľkosti pre celý tok, ale formát umožňuje v toku bloky rôznych dĺžok.

Blokovanie

Veľkosť bloku je veľmi dôležitý parameter pre kódovanie. Ak je veľmi malý, v toku bude príliš veľa hlavičiek rámcov, čo zníži úroveň kompresie. Ak je veľkosť veľká, kódovač nebude schopný nájsť efektívny model kompresie. Pochopenie procesu modelovania vám pomôže zvýšiť úroveň kompresie pre niektoré typy vstupov. Zvyčajne pri použití lineárne predpovedanie o zvukových údajoch so vzorkovacou frekvenciou 44,1 kHz optimálna veľkosť blok leží v rozmedzí 2-6 tisíc vzoriek.

Medzikanálová dekorelácia

Ak sú na vstupe stereo audio dáta, môžu prejsť fázou medzikanálovej dekorelácie. Pravý a ľavý kanál sa prepočítajú na priemer a rozdiel podľa vzorcov: priemer = (ľavý + pravý)/2, rozdiel = ľavý - pravý. Na rozdiel od spoločného sterea tento proces nespôsobuje žiadne straty. Pre údaje na audio CD to zvyčajne vedie k výraznému zvýšeniu úrovne kompresie.

Modelovanie

V ďalšej fáze sa kodér pokúša aproximovať signál takou funkciou, aby výsledok získaný po jeho odčítaní od originálu (nazývaný rozdiel, zostatok, chyba) mohol byť zakódovaný s minimálnym počtom bitov. Zaznamenané by mali byť aj parametre funkcií, takže by nemali zaberať veľa miesta. FLAC používa dve metódy na generovanie aproximácií:

* prispôsobenie jednoduchého polynómu signálu

* všeobecné kódovanie s lineárnymi prediktormi (LPC).

Po prvé, predikcia konštantného polynómu (-l 0) je výrazne rýchlejšia, ale menej presná ako LPC. Čím vyššie poradie LPC, tým pomalší, ale lepší model bude. S rastúcou objednávkou však bude zisk stále menej významný. V určitom momente (zvyčajne okolo 9) procedúra kódovača na určenie najlepšieho poradia začne zlyhávať a veľkosť prijatých snímok sa zväčší. Na prekonanie tohto problému je možné použiť vyčerpávajúce vyhľadávanie, ktoré povedie k výraznému zvýšeniu času kódovania.

Po druhé, parametre pre konštantné prediktory môžu byť opísané tromi bitmi, zatiaľ čo parametre pre model LPC závisia od počtu bitov na vzorku a poradia LPC. To znamená, že veľkosť hlavičky rámca závisí od zvolenej metódy a poradia a môže ovplyvniť optimálnu veľkosť bloku.

Zvyškové kódovanie

Keď je model osadený, kodér odpočíta aproximáciu od originálu, aby získal zvyškový (chybný) signál, ktorý je potom bezstratovo zakódovaný. Toto využíva skutočnosť, že rozdielový signál má zvyčajne Laplaceovu distribúciu a existuje sada špeciálnych Huffmanových kódov, nazývaných Riceove kódy, ktoré vám umožňujú efektívne a rýchlo kódovať tieto signály bez použitia slovníka.

Kódovanie ryže pozostáva z nájdenia jediného parametra zodpovedajúceho distribúcii signálu a jeho následného použitia na zostavenie kódov. Pri zmene rozdelenia sa mení aj optimálny parameter, preto existuje metóda, ktorá vám ho v prípade potreby umožní prepočítať. Zvyšok možno rozdeliť do kontextov alebo sekcií, pričom každá má svoj vlastný parameter Rice. FLAC vám umožňuje určiť, ako sa má rozdelenie vykonať. Zvyšok je možné rozdeliť na 2n sekcií.

Rámovanie

Audiorámčeku predchádza hlavička, ktorá začína synchronizačným kódom a obsahuje minimum informácií, ktoré dekodér potrebuje na prehrávanie prúdu. Obsahuje tiež číslo bloku alebo vzorky a osembitové číslo kontrolná suma samotný titul. Synchronizačný kód, hlavička rámca CRC a číslo bloku/vzorky umožňujú prečasovanie a vyhľadávanie aj bez hľadaných bodov. Na konci rámca sa zapíše jeho šestnásťbitový kontrolný súčet. Ak základný dekodér zistí chybu, vygeneruje sa tichý blok.

Na podporu základných typov metadát je hlavný dekodér schopný preskočiť značky ID3v1 a ID3v2, takže ich možno voľne pridávať. Značky ID3v2 musia byť umiestnené pred značkou „fLaC“ a značky ID3v1 musia byť umiestnené na konci súboru.

Existujú úpravy kódovača FLAC: Vylepšený kódovač FLAC a Flake.

29. januára 2003 spoločnosť Xiphophorus (teraz nazývaná nadácia Xiph.Org Foundation) oznámila zahrnutie formátu FLAC do svojho produktového radu, ako napríklad Ogg Vorbis

Formát kompresie zvuku MP3

Metódy kompresie zvuku

Kompresia zvukových dát

Kompresia zvukových údajov je proces znižovania bitovej rýchlosti znížením štatistickej a psychoakustickej redundancie digitálneho zvukového signálu.

Kompresia zvukových dát(kompresia zvuku) – typ kompresie údajov, kódovania, ktorý sa používa na zmenšenie veľkosti zvukových súborov alebo na zníženie šírky pásma pre streamovanie zvuku. Algoritmy kompresie zvukových súborov sú implementované v počítačových programoch nazývaných zvukové kodeky. Vynález špeciálnych algoritmov kompresie zvukových dát je motivovaný skutočnosťou, že všeobecné kompresné algoritmy sú neefektívne pre prácu so zvukom a znemožňujú prácu v reálnom čase.

Rovnako ako vo všeobecnom prípade sa rozlišuje bezstratová kompresia zvuku, čo robí možné zotavenie pôvodné dáta bez skreslenia a stratová kompresia, pri ktorej je takéto obnovenie nemožné. Stratové kompresné algoritmy poskytujú vysoký stupeň kompresie, napríklad audio CD pojme nie viac ako hodinu „nekomprimovanej“ hudby, pri bezstratovej kompresii sa na CD zmestí takmer 2 hodiny hudby a pri stratovej kompresii v priemere bitová rýchlosť - 7-10 hodín.

Bezstratová kompresia

Problém bezstratovej kompresie zvuku spočíva v tom, že zvukové nahrávky sú vo svojej štruktúre mimoriadne zložité. Jednou z metód kompresie je vyhľadávanie vzorov a ich opakovaní, ale táto metóda nie je efektívna pre chaotickejšie údaje, ako je digitalizovaný zvuk alebo fotografie. Je zaujímavé, že kým počítačom vygenerovaná grafika sa oveľa ľahšie komprimuje bez straty, syntetizovaný zvuk nemá v tomto smere žiadnu výhodu. Je to preto, že aj počítačom generovaný zvuk má zvyčajne veľmi zložitý tvar, čo predstavuje náročnú úlohu pre vynájdenie algoritmu.

Ďalšou komplikáciou je, že zvuk sa zvyčajne veľmi rýchlo mení, a to je aj dôvod, prečo sa sekvencie poradia bajtov objavujú len veľmi zriedka.

Najbežnejšie formáty bezstratovej kompresie sú:
Bezplatný bezstratový zvukový kodek (FLAC), Apple Lossless, MPEG-4 ALS, Monkey's Audio a TTA.

Stratová kompresia

Stratová kompresia má mimoriadne široké uplatnenie. Stratová kompresia sa okrem počítačových programov využíva aj pri streamovaní zvuku na DVD, digitálnej televízii a rádiu a pri streamovaní médií na internete.

Inováciou tejto kompresnej metódy bolo použitie psychoakustiky na detekciu zložiek zvuku, ktoré ľudské ucho nevníma. Príkladom sú buď vysoké frekvencie, ktoré sú vnímané len vtedy, keď sú dostatočne silné, alebo tiché zvuky, ktoré sa vyskytujú súčasne alebo bezprostredne po hlasitých zvukoch, a preto sú nimi maskované - takéto zvukové zložky sa môžu prenášať menej presne, prípadne sa neprenášajú vôbec.

Na implementáciu maskovania sa signál prevádza z časovej postupnosti odčítaní amplitúd na sekvenciu zvukových spektier, v ktorých je každá zložka spektra kódovaná samostatne. Na implementáciu takejto transformácie sa používa rýchla Fourierova transformácia, MDCT, kvadratúrne zrkadlové filtre alebo iné. Celkové množstvo informácií v tomto prekódovaní zostáva nezmenené. Kompresia v určitej frekvenčnej doméne môže byť taká, že maskované alebo nulové komponenty nie sú uložené vôbec alebo sú zakódované v nižšom rozlíšení. Napríklad frekvenčné zložky do 200 Hz a nad 14 kHz možno zakódovať 4 bitmi, zatiaľ čo zložky v strednom rozsahu 16 bitov. Výsledkom takejto operácie bude kódovanie s priemernou bitovou hĺbkou 8 bitov, ale výsledok bude oveľa lepší ako pri kódovaní celého frekvenčného rozsahu s 8 bitmi.

Je však jasné, že prekódované fragmenty spektra s nízkym rozlíšením sa už nedajú presne obnoviť, a preto sú nenávratne stratené.
Hlavným parametrom stratovej kompresie je bitrate, ktorý určuje stupeň kompresie súboru a podľa toho aj kvalitu. Existujú kompresie s konštantným bitrate (anglicky Constant BitRate - CBR), variabilným bitrate (anglicky Variable BitRate - VBR) a priemerným bitrate (anglicky Average BitRate - ABR).

Najbežnejšie formáty stratovej kompresie sú: AAC, ADPCM, ATRAC, Dolby AC-3, MP2, MP3, Musepack Ogg Vorbis, WMA a iné.

Formát kompresie zvuku MP3

MPEG-1 Audio Layer 3 Prípona súboru: .mp3 Typ MIME: audio/mpeg Typ formátu: Audio

MP3 (presnejšie anglicky MPEG-1/2/2.5 Layer 3 (ale nie MPEG-3) – tretí formát na kódovanie zvukovej stopy MPEG) je licencovaný formát súboru na ukladanie zvukových informácií.

V súčasnosti je MP3 najznámejším a najpopulárnejším stratovým digitálnym formátom kódovania zvuku. Je široko používaný v sieťach na zdieľanie súborov na odhadovaný prenos hudobných diel. Formát je možné prehrať na takmer akomkoľvek populárnom operačnom systéme, na takmer akomkoľvek prenosnom audio prehrávači a podporujú ho aj všetky moderné modely hudobných centier a DVD prehrávačov.

Formát MP3 používa stratový kompresný algoritmus navrhnutý tak, aby výrazne znížil množstvo údajov potrebných na prehrávanie nahrávky a poskytol kvalitu prehrávania veľmi blízku originálu (podľa väčšiny poslucháčov), hoci milovníci hudby hlásia výrazný rozdiel. Keď sa MP3 vytvorí s priemernou bitovou rýchlosťou 128 kbps, výsledkom je súbor, ktorý má približne 1/10 veľkosti pôvodného súboru zvukového disku CD. Súbory MP3 je možné vytvárať s vysokou alebo nízkou bitovou rýchlosťou, čo ovplyvňuje kvalitu výsledného súboru.

Princípom kompresie je zníženie presnosti niektorých častí zvukového toku, ktorý je pre väčšinu ľudí takmer nerozoznateľný. Táto metóda sa nazýva percepčné kódovanie. Súčasne sa v prvej fáze vytvorí zvukový diagram vo forme sledu krátkych časových úsekov, potom sa z neho odstránia informácie nerozlíšiteľné ľudským uchom a zvyšné sa uložia do kompaktná forma. Tento prístup je podobný metóde kompresie používanej pri kompresii obrázkov do formátu JPEG.

MP3 vyvinula pracovná skupina Fraunhoferovho inštitútu (nem. Fraunhofer-Institut f?r Integrierte Schaltungen) pod vedením Karlheinza Brandenburg a University of Erlangen-Norimberg v spolupráci s AT & T Bell Labs a Thomson (Johnson, Stoll , Deeri atď.).



Vývoj MP3 bol založený na experimentálnom kodeku ASPEC (Adaptive Spectral Perceptual Entropy Coding). Prvý MP3 kodér bol L3Enc, vydaný v lete 1994. O rok neskôr sa objavil prvý softvérový MP3 prehrávač – Winplay3.

Pri vývoji algoritmu boli vykonané testy na celkom špecifických populárnych kompozíciách. Hlavnou piesňou bola "Tom" s Diner od Susanny Vega." Preto ten vtip, že "MP3 bolo vytvorené výlučne na pohodlné počúvanie obľúbenej piesne Brandenburgu," a Vega sa začala nazývať "matkou MP3."

Popis formátu

V tomto formáte sú zvuky kódované frekvenčným spôsobom (žiadne samostatné časti); existuje podpora stereo a v dvoch formátoch (podrobnosti - nižšie). MP3 je stratový kompresný formát, teda časť zvukovej informácie, ktorú (podľa psychoakustického modelu) ľudské ucho nedokáže vnímať alebo ju vnímajú nie všetci ľudia, je natrvalo vymazaná zo záznamu. Stupeň kompresie sa môže meniť, a to aj v rámci jedného súboru. Rozsah možných hodnôt bitrate je 8 - 320 kbps. Pre porovnanie, dátový tok z bežného Audio-CD je 1411,2 kbps pri vzorkovacej frekvencii 44100 Hz.

MP3 a "Kvalita audio CD"

V minulosti sa všeobecne verilo, že záznam s rýchlosťou 128 kbps je vhodný pre hudbu určenú na počúvanie väčšiny ľudí a poskytuje kvalitu zvuku Audio-CD. V skutočnosti je všetko oveľa komplikovanejšie. Po prvé, kvalita výsledného MP3 nezávisí len od bitovej rýchlosti, ale aj od kódovacieho programu (kodeku) (norma nestanovuje kódovací algoritmus, popisuje len spôsob prezentácie). Po druhé, okrem prevládajúceho režimu CBR (Constant Bitrate) (v ktorom je, inými slovami, každá sekunda zvuku zakódovaná rovnakým počtom bitov), ​​existujú režimy ABR (Average Bitrate) a VBR (Variable Bitrate). Po tretie, hranica 128 kbit / s je podmienená, pretože bola „vynájdená“ v ére formovania formátu, keď bola kvalita prehrávania zvukových kariet a počítačových reproduktorov zvyčajne nižšia ako v súčasnosti.

Od redaktora

Uverejňujeme druhé vydanie tohto článku, doplnené a prepracované. Mnohým našim čitateľom sa tu prezentovaný materiál bude zdať príliš zrejmý, iným veľmi kontroverzný. Avšak pre ľudí, ktorí práve objavili existenciu magický svet MP3, tento článok by mal byť neoceniteľný a odpovedať na väčšinu otázok, ktoré vyvstali.

Od autora

Ako už názov napovedá, článok je venovaný popisu niektorých jemností, ktoré vznikajú pri použití štandardu kompresie zvukových dát MPEG I / II Layer 3 (mp3). Táto práca nepredstiera dokončený výskum, vrátane testovania kodérov alebo mp3 prehrávačov. Ide len o pokus autora štruktúrovať svoje poznatky, ako aj reflektovať jeho skúsenosti s vyššie uvedeným štandardom.

Spôsob prezentácie materiálu predpokladá, že čitateľ má základné znalosti mp3, ktoré sa však môžete kedykoľvek dozvedieť zo zdrojov uvedených v časti „Zoznam odkazov“.

Strategické otázky

Má zmysel používať stratovú kompresiu vôbec?

Skúsme definovať limity mp3 aplikácie. Všade tam, kde by kvalita zvuku nemala byť presne aby sa zhodoval s originálom a tam, kde v budúcnosti pravdepodobne nedôjde k veľkému spracovaniu uložených údajov, je použitie mp3 (alebo iného stratového kompresného formátu) úplne prijateľné. Nie každý chce každú hodinu vkladať do CD mechaniky nový hudobný disk, ak má pevný disk veľkosť desiatok gigabajtov. Je oveľa jednoduchšie napáliť hudbu do mp3 na pevný disk alebo CD-ROM a odtiaľ počúvať. Alebo použite prenosný mp3 prehrávač, mp3-CD prehrávač, autorádio s podporou mp3. Alebo si môžete jednoducho stiahnuť mp3 z internetu a vybrať si.

Táto a nasledujúca podkapitola budú popisovať prípady, kedy je stratová kompresia neprijateľná, a pokúsime sa tiež pochopiť prečo?

Nemá zmysel robiť archívy zvukových dát na ďalšie spracovanie (knižnice vzoriek, hudobné knižnice atď.) do formátu mp3. Platí to aj pre MiniDisk (tam sa používa aj stratová kompresia) a ďalšie formáty: veľa druhov digitálne spracovanie spôsobiť počuteľné skreslenie. Toto pravidlo nezávisí od použitej bitovej rýchlosti. Keď už hovoríme o ďalšom spracovaní zvuku, mám na mysli niečo vážnejšie než len mixovanie alebo fade in/out, ako je príruba, skreslenie, dynamická kompresia, dozvuk, filtrovanie šumu a dokonca aj použitie ekvalizéra ... Povedzme, že mp3 nemôže ukladať vzorky ( na ich uloženie použite špeciálne kompresné formáty žiadna strata, ako napríklad sfArk). Pretože v prípade stratového kódovania nie je možné obnoviť dáta stratené vo fáze kódovania v mp3 je žiaduce ukladať len finálne verzie zvukových záznamov.

Ďalší argument: viete ako napáliť audio CD skonvertované do mp3 späť na audio CD tak, aby medzi skladbami nevznikali zbytočné pauzy či klikania? Neviem? Prečítajte si, povedzme, www.r3mix.net. Problém je stále ... Ak chcete povedať: "Ale urobil som to - všetko je v poriadku!" - špecifikujeme úlohu: hudba by sa mala pohybovať bez prestávok zo skladby na skladbu a za prestávku sa považuje nielen interval 1-2 sekúnd, ale aj malé segmenty ticha v priebehu niekoľkých až desiatok milisekúnd. Teoreticky sa v tomto prípade dá všetko zvládnuť perfektne spolu, no môže sa ukázať, že „hra nebude stáť za sviečku“.

Aké sú spôsoby ukladania bezstratového zvuku?

Svoju hudobnú knižnicu ukladám do súborov wav (vo formáte PCM). Môžete tiež použiť CD-DA; vyznačuje sa väčšou kompatibilitou, no menej presným čítaním pri prehrávaní. Existujú aj ďalšie možnosti - pravidelná archivácia (ZIP, RAR) alebo špeciálne programy ako WavPack, Monkey's Audio, RK Audio, LPAC Archiver, Shorten Práca s takto komprimovanými súbormi je však plná nepríjemných prekvapení: wav (PCM) prehráva drvivá väčšina hráčov, ale exotickí ako RKA ... Je známe, že pod WinAmp existuje zásuvný modul pre RKA, ale s WinAmpom sa nezblížilo: sú ľudia, ktorí ho nepoužívajú. ešte nie je kompatibilný (v širšom zmysle A čo iné softvérové ​​prehrávače? A čo hardvérové ​​prehrávače? A čo prehrávače mp3-CD? Neviem ako vy, ale pre mňa je kompatibilita vo vyššie uvedenom zmysle veľmi dôležitá. A používať iba jeden pár kódovač/prehrávač výrazne obmedzuje slobodu, napríklad aby ste svojim priateľom umožnili počúvať súbor, musíte ich tiež presvedčiť o potrebe použiť nový prehrávač.

Aké úvahy by ste mali vziať do úvahy pri výbere možností kompresie?

Podľa môjho názoru možno rozlíšiť dva hlavné režimy kompresie: „zachovanie prijateľnej úrovne kvality pri dosiahnutí maximálnej kompresie“ (napríklad pre publikovanie na webe) a „úplné subjektívne zachovanie kvality zdrojového materiálu s nie najvyššou kompresia“ (na ukladanie a bežné počúvanie) . Stojí za zmienku, že prahové bitové rýchlosti pre oba režimy sú individuálne. Pre mňa sú to 128 a 256 kb / s. Samozrejme, existuje veľa prechodných možností: existuje prenosný mp3 prehrávač so slabými slúchadlami, ktorý stačí na 160 kb / s; auto ma radio s podporou mp3 a lepsou akustikou - tu treba povedzme 192 kb/s. Pri výbere parametrov kompresie si teda musíte v prvom rade určiť úlohy, pre ktoré sa mp3 súbory vytvárajú a na základe toho sa rozhodnúť, aký pomer medzi kvalitou zvuku a veľkosťou súboru vám bude vyhovovať. Treba tiež vziať do úvahy, že koncepcia kvalitu Zvuk sa môže veľmi líšiť od človeka k človeku.

Z hľadiska zdravého rozumu by ste sa nemali trápiť otázkami: „Aký bitrate stačí žiadny nepočuli ste rozdiel oproti CD-DA?" Koniec koncov, celá pointa je v tom, že psychoakustický model mp3 algoritmov bol vyvinutý pre priemerného človeka s jeho priemernými ušami. Hodnotové úsudky o nastolenom probléme môžu byť preto diametrálne odlišné. Pre niekoho kvalita [chránený e-mailom] kbps, vyrobený Xingom, nie je o nič horší ako Audio CD, dokonca aj na výbornom zariadení [chránený e-mailom] kbps z hudobného CD v akýchkoľvek slepých testoch. Odtiaľ stačí vyvodiť správne závery. V prvom prípade človek nemusí míňať veľa peňazí za kvalitnú audio techniku ​​a v druhom môže byť len rád za jej (jeho) jemný sluch. Na základe vlastných potrieb si teda budete musieť raz zaexperimentovať, aby ste zistili, ktoré parametre by ste mali v budúcnosti dodržiavať.

Ukladanie wav súborov umožní v prípade vynájdenia nejakého zásadne nového, vylepšeného algoritmu (nazvime ho mp2000) predbehnúť presné kópie originálov do kvalitnejšieho formátu, pričom samotné originály už nemusia byť na ruka ... Ak si pamätáte, podobná situácia nastala so začiatkom víťazného pochodu kompresného formátu videa MPEG4.

Aký je najlepší formát stratovej kompresie na použitie: mp3, LQT, WMA, MP+, ogg vorbis...

Treba podotknúť, že zatiaľ žiadna z alternatív formátu mp3 uvedených v nadpise sa mu ani kvalitou ani kompatibilitou nepriblížila. Existujú formáty, ktoré už dnes poskytujú kvalitu porovnateľnú alebo dokonca lepšiu ako mp3. Napríklad LQT AAC, ktorý sa často označuje ako mp4. Jeho bitrate je však obmedzený na 192 kb/s (čo sa nepáči znalcom mp3 @ 256/320 kbps) a požiadavky na vybavenie sú oveľa vážnejšie (to druhé však v dobe prudkého rozvoja počítačová veda je dočasný problém). Napriek tomu si myslím, že mi dáte za pravdu, že s kompatibilitou mp3 zatiaľ nemá kto porovnávať.

Ďalším skutočným konkurentom je ogg vorbis. Formát je momentálne v beta testovaní, ale hovoria, že má veľmi dobrý výkon, a teda aj veľký potenciál. O "výhodách" a "nevýhodách" používania ogg a mp3 sa už diskutuje na webe a porovnanie často nie je v prospech toho druhého.

Zdá sa, že mp3 bude vytlačený na dlhú dobu: pamätajte na CD-DA, o ktorom sa predpovedalo, že čoskoro zomrie po objavení sa mp3, MiniDisku atď. Mnohé poznámky o mp3 platia aj pre iné formáty so stratou kompresie.

prehrávanie MP3

Táto časť bude zaujímať aj tých, ktorí sa kompresiou zvukových dát nechystajú vôbec zaoberať. Povieme si o niektorých nezrejmých momentoch prehrávania hotových súborov.

Aký je najlepší mp3 prehrávač?

Medzi softvérovými prehrávačmi sa tradične za najlepšie považujú tie, ktoré sú vyrobené na Fraunhoferovom kóde: niektoré verzie WinAmp "a, WinPlay, AudioActive, Microsoft Media Player... Fraunhoferov kód sa používa v Verzie WinAmp 1,5, 1,6, 2,13, 2,20, 2,21, 2,22, 2,666, 2,7 a neskôr; ostatné verzie sú vybavené vlastným dekodérom NullSoft a Fraunhoferovým autorským právom je len súlad s licenčnými požiadavkami. Za zmienku stojí aj X-Audio a všetko, čo sa na tomto kóde robí ( , CoolPlay , MusicMatch Jukebox). Existuje tiež veľa prehrávačov, ktoré používajú kód ISO, najúspešnejšie sú MPG123, UltraPlayer a môj obľúbený Apollo (kvalita prehrávania, samozrejme, nie je ideálna, ale vo všeobecnosti je veľmi pohodlná). Existuje dokonca plugin pre WinAmp na dekódovanie mp3 na základe MPG123. Všeobecne známy prehrávač NAD je založený na kóde ISO. Jeho zvuk je považovaný za jeden z najlepších, no problémom je, že nerozumie VBR. Všetko, čo sa robí na kóde Xing (Xing player, FreeAmp), sa považuje za najhoršiu možnosť: títo hráči zosilnia vysoké frekvencie, čo sa zjavne robí na kompenzáciu zablokovania. vysoké frekvencie Kódovače Xing.

Čo sa týka hardvérových mp3 prehrávačov, o ich vnútornej štruktúre z hľadiska použitých algoritmov je známe veľmi málo. Je však isté, že algoritmy v nich použité sú rovnaké ako v softvérových prehrávačoch. Niektoré obsahujú hardvérovú implementáciu Fraunhoferovho algoritmu v samostatnom čipe. Iní hráči majú dokonca flash čipy na aktualizáciu svojich algoritmov dekódovania mp3. V každom prípade si treba pozrieť, na akom kóde je prehrávač založený. Verí sa, že Fraunhofer je vždy dobrý, ISO a X-Audio závisia od implementácie, Xing je určite zlý.

Má zmysel vyberať mp3 prehrávač v závislosti od použitého kodéra?

Áno. Ako bolo napísané vyššie, prehrávače založené na Xing zachytávajú vysoké frekvencie, pretože pri kompresii kódovače založené na Xing tieto frekvencie nehanebne režú. Spolu sa navzájom rušia: mp3 vytvorené Xingom znejú oveľa lepšie, keď ich hrá Xing MPEG Player ako Fraunhofer Autori LAME (pozri nasledujúcu časť) tiež odporúčajú používať LAME na dekódovanie svojich mp3.

Samozrejme, držať doma sadu prehrávačov alebo dokonca dekodérov (programy, ktoré dokážu konvertovať iba mp3 na PCM wav súbor) je nepohodlné. Preto odporúčam uchýliť sa k takýmto extrémnym opatreniam len v obzvlášť kritických prípadoch prevodu zvuku z mp3: nahrávanie na audio CD, mixovanie, prebaľovanie s iným kodérom atď.

Ako zistiť, ktorý kódovač vytvoril súbor mp3?

Keďže formát mp3 neobsahuje vo vygenerovanom súbore žiadne podpisy kodéra, je veľmi ťažké jednoznačne určiť, ktorý kodér bol použitý. Existuje niekoľko znakov, ktoré vám umožňujú hádať s väčšou alebo menšou mierou pravdepodobnosti: napríklad kódovače založené na Fraunhoferovi a ISO napĺňajú ticho rôznymi hodnotami (akusticky ticho nie je prerušené). Enkodéry Xing ako prvé používali technológiu VBR.Do takýchto súborov vložili svoj podpis.Neskôr LAME začal robiť rovnaký podpis (pozri nasledujúcu časť), čo samozrejme sťažilo určenie použitého kodéra.Dnes , LAME už dáva svoj vlastný podpis.

Existujú programy, ktoré sa na základe známych znakov snažia zistiť, ktorý kódovač bol použitý pri vytváraní mp3. Jedným z takýchto programov je RenaTager. Pri jeho používaní môžu nastať problémy: program sa už neupravuje, a preto nesprávne určuje nové verzie kódovačov. Snáď sa takáto funkcia čoskoro dostane aj do alternatívneho pluginu pre WinAmp na prehrávanie mp3 MAD . Počul som aj o programe mp3GuessEnc, ktorý má rozhranie príkazový riadok a EncSpot, podobný program s pohodlným rozhraním okna. Ale so 100% pravdepodobnosťou, ktorý kódovač bol súbor prijatý, je nemožné. Tieto programy často ukazujú, že jedna alebo dve stopy z CD boli vytvorené iným kódovačom, hoci disk bol komprimovaný jedným kódovačom s rovnakými parametrami.

Mimochodom, štandard id3v2 poskytuje pole, ktoré označuje názov kódovača.

Venované Lamersovi…

Aby čitateľ lepšie pochopil čo sa bude diskutovať, dovoľte mi citovať z anglicko-ruského slovníka:

Chromý - - adj. 1) chromý, zmrzačený; 2) neúspešné, nesprávne; 3) rozvinúť jednoduchý, retardovaný

čo je chromý?

LAME (vyslovuje sa "lame") je projekt softvérového kódovača mp3 založený na princípoch open source. Názov projektu znamená „Lame Ain“ t a Mpeg Encoder, čo znamená „lame nie je kódovač MPEG“.

Celý jeho kód je napísaný skupinou nadšených programátorov. Ako základ bol vzatý demo kód z ISO voľne distribuovaný ako aplikácia pre štandard MPEG. Programátor sa dynamicky zlepšuje: takmer každý deň vychádzajú nové verzie.

Podľa mňa si Leim zaslúži viac uznania. Ide o skvelý kódovač, ktorý má obrovské množstvo nastavení, ktoré vám umožňujú kódovať pre každý vkus. Lame podporuje VBR, kódovanie pri prenosových rýchlostiach až 320 kb/s vrátane, výber režimu stereo kódovania, výber medzných frekvencií pre horné a dolné priepusty a mnoho ďalšieho. Kvalitu kódovania pri vysokých bitových rýchlostiach všetci uznávajú ako najlepšiu.

Aby sa obišli licenčné obmedzenia autora štandardu MPEG Layer 3 a vlastníka patentov Fraunhofer IIS, označenie je oficiálne distribuované len ako záplata (oprava alebo výmena viacerých súborov) pre pôvodný kód mp3 kodér z ISO. Podľa týchto obmedzení musí autor alebo distribútor mp3 softvéru zaplatiť licenčný poplatok bez ohľadu na to, či sa softvér predáva alebo šíri voľne. Spoločnosť Fraunhofer, ktorá tvrdí porušenie svojich práv, dosiahla zatvorenie niekoľkých zaujímavé projekty v oblasti mp3, napr. prehrávač NAD, kodér mpegEnc.

Takmer celý zdrojový kód ISO prešiel revíziou, takže jeho zdrojové texty stačia na zostavenie a zostavenie pracovnej verzie lame. Upozorňujeme, že na oficiálnej stránke nie sú žiadne hotové programy (takže Fraunhofer nemohol nájsť chybu). O tom, kde ich nájdete, sa dozviete v jednej z nasledujúcich podsekcií.

Leim nemá grafický shell a ovláda sa z príkazového riadku. Kde nájsť grafické škrupiny vytvorené špeciálne pre tento program, bude popísané nižšie. Niektoré programy (napríklad na kopírovanie hudby z audio CD) majú možnosť pripojiť externý mp3 kodér, najmä LAME. Zoznam takýchto programov je uvedený na.

Aké verzie limetky existujú? Ktorá verzia je novšia, ktorá je spoľahlivejšia?

Najviac Najnovšia verzia má názov typu alfa. Nikto, vrátane autorov kodéra, nemôže zaručiť absenciu chýb v ňom. Keďže aktualizácie sú veľmi časté, na jedinečnú identifikáciu verzie kódovača je potrebné zadať číslo verzie alfa a dátum poslednej úpravy zdrojového kódu. Alfa verzie sa odporúča používať iba na testovanie nových funkcií lame.

Keď aktuálna verzia prejde fázou alfa testovania a opravy chýb, objaví sa beta verzia. Niekedy sa v ňom vyskytujú vážne nedostatky (napríklad - 3.67, ak neklame pamäť), a potom je vydaná nová, vylepšená beta verzia. Beta verzie spravidla fungujú oveľa lepšie a sú spoľahlivejšie ako alfa verzie. Osobne radšej chvíľu počkám (2 - 3 mesiace), kým začnem používať túto beta verziu.

V roku 1999 sa koordinátor projektu Leim rozhodol pravidelne vydávať stabilné (odladené) verzie, ktoré sa od súčasných líšia tým, že dlhodobo nepodliehajú zásadným aktualizáciám (aby sa predišlo novým chybám, hoci oprava starých je len vitajte). Aktuálna stabilná hodnota je 3,70 (apríl 2000). Od používania ma to odrádzalo, pretože v 3,8x pridali ABR, vylepšenú kvalitu (neustála dilema medzi spoľahlivosťou a novými funkciami).

Podotýkam, že posledná beta verzia - 3.87 - beží od septembra 2000. To znamená, že počas celého tohto obdobia neboli zaznamenané žiadne vážne prehliadky. A pre mňa osobne to stačí na to, aby som sa rozhodol v prospech 3,87.

Leim je kód ISO alebo nie?

Spočiatku bol štítok vyrobený ako náplasť špeciálne pre kód ISO. Pri modernizácii kódovača sa kládol dôraz na opravu chýb a zlepšenie algoritmu. Zdá sa však, že už v roku 2000, vo verzii 3.6, bolo zaznamenané, že všetok kód ISO bol zmenený a lame sa kompiluje voľne bez pôvodných zdrojov ISO. Takže dnes sa štítok môže nazývať ISO-kóder iba v historickom zmysle, ale jeho štruktúra sa natoľko zmenila, že je jednoduchšie považovať štítok za samostatný vývoj. Navyše, vývoj vysoko kvalitných a sľubných: teraz leym s istotou konkuruje rýchlosti a kvalite podobné programy na základe kódu od Fraunhofera.

Čo je lepšie: kódovače založené na LAME alebo Fraunhofer?

Niekto má rád popadya, iný má rád bravčovú chrupavku. Táto diskusia je podobná hádke o tom, na ktorú stranu vajca treba prasknúť. V auguste 1999 som ako výsledok testovania zistil, že kódovače založené na Fraunhoferovi majú výhodu oproti lame pri bitových rýchlostiach 160 kb/sa nižších. Lame je na tom lepšie pri rýchlosti 192 kb/sa vyššej. Zmenilo sa odvtedy niečo? Všadeprítomný trend k vysokým bitrate (160 a viac) a VBR by mohli dať LAME skvelú budúcnosť.

Kódovače založené na ISO a ešte viac kódovače založené na Xing dnes nemá zmysel používať. Leim absorboval všetko najlepšie z ISO a ponáhľal sa dohnať Fraunhofera. Niektorí ľudia si myslia, že už majú. A niekto verí, že je lepšie neponáhľať sa so závermi a použiť starého dobrého Fraunhofera. Pamätajú si, že vo všetkých testoch pri nízkych bitrate (128 a menej) bol Fraunhofer lídrom a suverénne prekonal lam, ale zabúdajú, že situácia sa odvtedy mohla zmeniť.

Hovorí sa, že verzie lame sa objavujú takmer každý deň, pretože v starých sa nachádzajú chyby. Áno, to je správne. Fraunhofer je tiež nájdený, ale roky neopravený - je to lepšie?

Minimálne VBR v lame je lepšie ako vo Fraunhoferovi, aj keď ani tu má k ideálu ďaleko.

Kde môžem získať LAME skompilovaný pre Windows?

Na väčšine stránok nájdete stabilné verzie aj najnovšiu beta verziu a niekedy aj alfa.

Existujú pod Windows shelly pre LAME?

Príprava materiálu pred lisovaním

Táto časť obsahuje tipy na prípravu digitálneho zvukového materiálu na proces kompresie. Ako získate tento materiál - v tomto článku nebudem uvažovať.

DC

V niektorých prípadoch (takmer nikdy na CD a v skutočnosti vždy pri nahrávaní z linkového alebo mikrofónového vstupu) má signál takzvanú konštantnú zložku: úroveň signálu nekolíše vzhľadom na podmienenú nulu (stred rozsahu úrovne signálu). ), ale vo vzťahu k inej úrovni. Dôrazne sa odporúča odstrániť tento komponent pred kódovaním, pretože to dokáže takmer každý zvukový editor (odstrániť DC offset). Niektoré kódovače (napríklad chromé) pri kódovaní takýchto súborov značne skresľujú zvuk, pretože ich psychoakustický model je navrhnutý pre pôvodný signál bez konštantnej zložky.

Mám súbor downgradovať?

Áno, je to potrebné, ak je špičková úroveň pôvodného signálu asi 0 dB, inak môže dôjsť pri kódovaní k skresleniu signálu. Použitie stratovej kompresie znamená, že pôvodný signál nebude obnovený presne, ale približne. Z tohto dôvodu máte v oblasti so špičkovou amplitúdou šancu získať prekročenie maximálnej úrovne signálu (0 dB), čo povedie k skresleniu. Veľkosť takéhoto skreslenia závisí od kódovača a bitovej rýchlosti (čím vyššia bitová rýchlosť, tým menšie skreslenie). Vo všeobecnosti iba úroveň pôvodného signálu, ktorá je pred kompresiou znížená, zaručuje (do určitej miery) ochranu pred skreslením.

O koľko znížiť? Otázka je sporná. Majte na pamäti, že prevzorkovanie a prevzorkovanie spôsobí aj skreslenie pôvodného signálu. Prirodzene, skreslenie bude menšie, keď bude úroveň presne 2-krát nižšia, ale ide o pomerne veľký pokles hlasitosti. Môžete skúsiť vybrať niečo viacnásobné z tohto „dvakrát“. Povedzme znížiť úroveň o 25 %. A niekto možno uprednostní celé čísla v decibeloch, povedzme - 3,00 dB.

Keďže prítomnosť skreslenia z prekročenia špičkovej úrovne signálu závisí od bitovej rýchlosti a kódovača, uvediem tu postrehy jedného z mojich priateľov: „pri 320 + lame je to normálne - 98% a pri 128 - 85- 88% maximálnej úrovne (100% = 0dB)" . Sám som neexperimentoval so súbormi, ktorých úroveň signálu sa blížila k 0 dB.

Mám použiť normalizáciu?

Spravidla nie. Do práce interpreta a zvukára platí zásada nezasahovania. Ak niečo znie tichšie, tak to tak má byť. Je to ako keď čítate knihu s brunetkou, ale predstavujete si ju ako blondínku, pretože sa vám to páči. Už to nebude zámer autora, ale vaše bezplatné spracovanie.

O to viac nerozumná je normalizácia pod veľmi vysoký stupeň(často 98 % alebo dokonca 100 %) – pozri predchádzajúcu podkapitolu.

Pri práci s materiálom získaným z audio CD teda normalizácia prakticky nie je potrebná a pri práci s inými nahrávkami - iba v prípade veľmi nízkej úrovne signálu a len pre celý album.

Poznámky o zvyšovaní úrovne o celé číslo sú v tomto prípade tiež platné, pretože normalizácia je prevzorkovanie s novou úrovňou signálu.

Jemnosť procesu kompresie

Táto časť popisuje niektoré funkcie procesu kompresie, ako napríklad: výber parametrov kódovača, bitovú rýchlosť a iné.

Je potrebné (v lame) vypnúť psychoakustiku?

Myslím, že nie. Leim sa vyvíja veľmi rýchlo. V auguste 1999 som testoval verziu 3.24, aktuálna verzia je 3.87. V tej starej verzii som naozaj počul rozdiel vo zvuku medzi súbormi vytvorenými s a bez psychoakustiky. Posledná možnosť Páčilo sa mi viac. Ale z hľadiska teórie kódovania mp3 to nie je pravda. Psychoakustika je integrálnou a dosť dôležitou súčasťou kompresného algoritmu. Takže zle implementované psychoakustické algoritmy boli chybou starých verzií Leim. A mimochodom, opravili to. Skúste sa porovnať.

Je tu však jedno „ale“.

Jemné doladenie psychoakustiky počas kompresie

Ako som uviedol vyššie, psychoakustika je určená pre bežného človeka a zodpovedá „predvoleným“ nastaveniam pre hráča. Z tohto dôvodu, zvýšením vysokých frekvencií v ekvalizéri, môžeme počuť skreslenie ideálneho, na prvý pohľad, zvuku súboru mp3. Tu je to, čo o tom hovoria na fóre MP3 "e:

Ľudia! Myslím, že som písal asi 20-krát o jednej jednoduchej úvahe. ešte raz sa zopakujem.

Občas treba vypnúť niektoré momenty psychoakustiky. Tu je napríklad v označení možnosť znížiť ATH (Absolútny prah sluchu), t.j. absolútny prah sluchu. Hovoríte, prečo kódovať zvuky, ktoré nepočujeme? Ale prečo. Ak človek počúva túto hudbu cez ekvalizér, tak tieto parametre (parametre psychoakustického modelu so štandardným ATH - AH) možno považovať za nepoužiteľné. Tie. oplatí sa trochu zvýšiť vysoké frekvencie, všetky nedostatky mp3 sú na očiach.

Prečo o tom ešte nikto nenapísal?

Len tu sa pokles ATH príliš „bolestne“ prejavuje na bitrate v podobe jeho silného nárastu.

Ktorý režim stereo kódovania je lepší: stereo, spoločné stereo alebo duálny kanál?

Výber režimu stereo kódovania závisí od konkrétnej situácie. Na jednej strane, pri použití spoločného sterea, viac ako polovica bitovej rýchlosti pripadá na kódovanie stredného kanálu s takmer identickými pravými a ľavými kanálmi, na druhej strane môže kodér ponechať príliš málo miesta na kódovanie rozdielu kanálov a rozmazanie sterea. účinky. V tomto prípade by sa zdalo, že preferovaný je stereo režim, keď kodér kóduje kanály oddelene, ale pomer, v ktorom rozdeľuje bitovú rýchlosť pre pravý a ľavý kanál, sa môže zmeniť. A ak v niektorom kritickom segmente kodér zníži prúd v jednom z kanálov? Každá metóda má skrátka výhody aj nevýhody – optimálny výber bude závisieť od typu záznamu.

Je potrebné poznamenať, že niektoré nahrávky obsahujú fázový posun medzi kanálmi, čo prakticky vylučuje možnosť použitia spoločného sterea. Je pravda, že existuje špeciálny softvér, ktorý nájde a opraví takýto posun, ale použitie iného programu počas procesu kompresie tento proces veľmi neuľahčí. Kde získať takýto program, je uvedené v časti "Zoznam odkazov".

Leim automaticky vyberie pre každý snímok stereo alebo spoločné stereo(ak chcete, môžete tomu zabrániť: "-m s" - iba stereo, "-m f" - iba spoločné stereo). Používam režim automatického výberu "-m j".

Existuje názor, že kodér musí zakázať prerozdelenie toku medzi stereo nahrávacie kanály, aby v niektorých kritických segmentoch kodér nezmenšil tok v jednom z kanálov. Režim, v ktorom je každému kanálu pridelená presne polovica bitového toku, sa nazýva duálny kanál. V označení sa tento režim aktivuje klávesom "-m d". Tento režim odporúčam používať iba vtedy, ak je veľkosť streamu zjavne veľká – bitová rýchlosť 256 kb/s alebo viac.

Mám použiť variabilnú bitovú rýchlosť (VBR)?

Problém je v tom, že pod VBR (Variable BitRate - variabilný bitrate) potrebujete vlastný psychoakustický model, ktorý bude riadiť zmenu bitrate. Predtým kodéry používali CBR (Constant BitRate – konštantný bitrate) a princíp „poskytovať maximálna kvalita, zbalenie dát do toku vopred určenej šírky." Variabilná bitová rýchlosť si vyžaduje úplne iný prístup: "poskytnúť cieľová úroveň kvalitu, využívajúc tok s minimálnou šírkou", takže kompresné algoritmy pre VBR je potrebné vytvárať prakticky od nuly. Len label ako najrýchlejšie sa vyvíjajúci kodér má viac-menej prijateľný prototyp takéhoto algoritmu. Xing ani Fraunhofer nemajú Napriek tomu predstavuje vysokokvalitný vývoj VBR. Ich algoritmy sa líšia, priemerný bitový tok sa pohybuje v rozmedzí 10-15% od hlavného, ​​čo je zjavne výsledkom pokusu o prispôsobenie algoritmov CBR pre použitie s VBR (a vlastne v v starých algoritmoch neexistoval spôsob, ako vôbec zmeniť bitovú rýchlosť).

Problémom je aj to, že dodnes neexistuje presný matematický model ľudského sluchu. Preto sa vývoj psychoakustických algoritmov uskutočňuje empiricky - pokusom a omylom. Zložitosť konštrukcie algoritmu, ktorý dostáva určitú „úroveň kvality“ ako vstup, spočíva v tom, že nie je úplne jasné, ako táto úroveň kvality súvisí s inými parametrami algoritmu, najmä s bitovou rýchlosťou. Aj keď pre človeka, ktorý má k tejto technológii ďaleko, je oveľa jednoduchšie pracovať s parametrom, ktorý priamo nastavuje úroveň kvality kompresie, ako s nejakými vnútornými parametrami algoritmu.

Na tomto pozadí vyzerá celkom logicky vznik kompromisnej možnosti - ABR (Average BitRate - priemerná bitová rýchlosť), implementovaná v LAME. V skutočnosti ide o VBR s prvkami modifikovaného starého kódovacieho algoritmu CBR. Keď kvalita klesne pod určitú hranicu, bitová rýchlosť sa zvýši, ak je kódovaný signál dostatočne jednoduchý, bitová rýchlosť sa zníži. Vo výsledku dostaneme bežný súbor s VBR streamom, kde parametrom nie je nejaká abstraktná kvalitatívna úroveň, ale daný bitrate.

Treba poznamenať, že niektorí hráči nedokážu správne hrať VBR. Napríklad veľmi kvalitný NAD prehrávač skresľuje zvuk takýchto súborov najsilnejším spôsobom. Vysvetľuje to skutočnosť, že keď bol tento prehrávač vytvorený, žiadny z kódovačov nepoužíval VBR. S podobným problémom sa možno stretnúť aj pri používaní niektorých hardvérových mp3 prehrávačov.

A predsa budúcnosť spočíva v princípe VBR. Zostáva len čakať na slušnú softvérovú implementáciu algoritmov, ktoré vytvárajú súbory VBR.

Podrobnejšie by sme sa mali pozastaviť nad nasledovnou situáciou: pri prepínaní bitovej rýchlosti medzi snímkami môže byť jeden fragment zložitého úseku zakódovaný vysokým bitrate, druhý nižším, výsledný skok je počuteľná zvuková vada. Prípad je v mnohých ohľadoch podobný tomu, o ktorom sme hovorili vyššie pri stereo režime – preto milovníci dvoch kanálov vždy používajú CBR.

Zoznam odkazov

Táto sekcia obsahuje zoznam odkazov na zdroje súvisiace s mp3 na internete, ktoré si podľa môjho názoru zaslúžia väčšiu pozornosť ako iné. Niektoré z nich obsahujú bohaté zoznamy odkazov, ktoré nemá zmysel duplikovať.

Už sa stal klasikou a používa sa ako FAK na echo konferencii FIDO RU.MPEG „MP3 Review“ (v dvoch častiach: časť 1, časť 2). Recenzia obsahuje veľa odkazov na rôzne stránky súvisiace s mp3. Vrelo odporúčam pre začiatočníkov.

Technická dokumentácia štandardu kompresie mp3 je www.mp3-tech.org.

Oficiálna stránka projektu LAME je .

Plánuje sa nové testovanie?

Aby som bol úprimný, nemyslím si, že je to momentálne potrebné. Teraz nie som tester, ale skôr analytik: zhromažďujem informácie o testoch iných ľudí, analyzujem a vyvodzujem závery.

Ako si sám kóduješ hudbu?

S pomocou lame, verzia 3.87. Na 128 CBR je zapnutá psychoakustika s cieľom ukázať priateľom a kamarátom. To znamená, že ide o režim „zachovania prijateľnej úrovne kvality pri dosiahnutí maximálnej kompresie“. S VBR -V2 je psychoakustika povolená na dočasné ukladanie kvalitných mp3 nahrávok. Všetok materiál hodný dlhodobého uchovávania v mojej hudobnej knižnici je zaznamenaný vo formáte wav.

Ako ma kontaktovať?

Môj email: [chránený e-mailom]. Ak máte otázky, pokojne sa pýtajte. Odpovedám na všetky emaily. Ak sa zapojíte do diskusie k tomuto článku na akomkoľvek fóre, dajte mi o tom vedieť.

Namiesto záveru

Som vďačný každému, kto poslal kritické pripomienky, návrhy, priania. Osobitne by som chcel vyzdvihnúť stálych členov MP3 fóra a autora tohto projektu Michaila Fedotova..com), za účasti ktorých bol tento materiál pripravený.

Ďakujem za pozornosť. Dúfam, že aspoň niektoré z vyššie uvedených informácií sú užitočné.

V kontakte s

spolužiakov