mp3 ve FLAC örneğinde ses bilgilerinin sıkıştırma biçimleri. Dijital ses sıkıştırma yöntemleri

  • 29.07.2019

En azından biraz bilgisayar kullanmış olan herkes "arşivleyici" kelimesini bilir. Bilmeyenler için, arşivleyicinin dosyaları sıkıştırmak / açmak için tasarlanmış bir program olduğunu açıklayalım. En iyi bilinenler arasında WinZip ve WinRar vardır. Dosyaları bir durumda yüzde birkaç oranında, diğerinde - bazen sıkıştırırlar. Her şey dosyanın türüne bağlıdır. Yürütülebilir dosyalar önemsiz bir miktarda azalır, ancak metin dosyaları aynı anda birkaç kez "ağırlığını" kaybeder. Ancak, bu tür sıkıştırma yöntemleri, çeşitli nedenlerle ses dosyaları için uygun değildir. Böyle bir dosyayı ancak paketini açtıktan sonra dinleyebilirsiniz. Ama sonra tüm sıkıştırma noktası kaybolur. Ve ev oyuncularında bu imkansız hale geliyor. Doğru, hala RAM kullanma olasılığı var, ancak o kadar pahalı ki "oyun zahmete değmez". İkinci sebep ise, ses dosyasını sıkıştırdıktan sonra bile boşalan alanda fazla bir kazanç olmayacağı gerçeğinde yatmaktadır. 44 MB'lık bir WAV dosyası alırsanız, WinZip arşivleyicisini kullanarak paketledikten sonra 34 MB'lık bir dosya alırsınız. Gördüğünüz gibi, 10 MB "bonus" etkileyici değil. Ayrıca, hiçbir yerde açma sorunları olmadan.
Bu nedenle, ses dosyaları için biraz farklı sıkıştırma yöntemleri kullanılır, bunlardan biri (muhtemelen en yaygın olanı) Kayıp sıkıştırmadır. İlkesi, belirli bir ortamın (ses, görüntü) insan algısının özelliklerine dayanır. Bu, dijital fotoğrafçılık örneğiyle çok net bir şekilde açıklanmaktadır. Herkes bunun birçok noktadan oluştuğunu bilir. Her noktanın kendine özgü bir rengi vardır. ^ 0 Fizyolojik olarak insan gözü tüm bu renkleri algılayamaz, size her noktayı ayrı ayrı gösteremez (birkaç kez büyüterek bile), çoğunu hiç göremezsiniz. Renk körlüğünün bununla hiçbir ilgisi yoktur. Sıradan sağlıklı bir insanın vizyonu alınır. Bu nedenle, tüm bu görünmez noktaları fotoğraftan kaldırırsanız, sayıları gözle görülür şekilde azalacaktır. Buna göre anladığınız üzere fotoğrafın boyutu da küçülecektir. Bu ilke, kodlama ve video dosyaları için kullanılır.
Yani bizim işitme ile. Tüm sesleri duyamıyoruz, yine de dosyaya kayıtlılar. Disk alanını boşa harcadıkları ortaya çıktı. Bu "kör" yerleri çıkardıktan sonra, dosya önemli ölçüde "kilo verir". Örneğin, seste aynı anda çok güçlü bir sinyal varsa (silahların kükremesi) ve hemen daha sessiz bir yer bulursa (susturuculu bir tabancadan atış), buna göre, yine de duyulmaz ve genel resmi değiştirmeden güvenle kaldırılabilir.
Ayrıca, yüksek bir sesten hemen sonra insan kulağı, sessiz sese duyarlılığını keskin bir şekilde azaltır. Örneğin, kulağınızın altına kraker veya benzeri bir şey patlatıldıktan sonra herkes kulaklarında çınlama yaşamıştır. Sonuçta, ondan sonra sana ne dediklerini duymadın bile? Çoğu insanın belirli bir frekans aralığındaki seslere karşı bağışıklığı da dikkate alınır.
Genellikle bir kişi 20 ila 2000 Hz aralığında duyar. Bunların hepsi uyarlamalı kodlama ile ilgilidir. Bu sayede dosya boyutunda on kata kadar azalma sağlanır.

Ses verilerini sıkıştırma (ses sıkıştırma) - ses dosyalarının boyutunu küçültmek veya ses akışı için bant genişliğini azaltmak için kullanılan bir veri sıkıştırma türü. Ses dosyalarını sıkıştırma algoritmaları, ses kodekleri adı verilen bilgisayar programlarında uygulanır. Ses verilerini sıkıştırmak için özel algoritmaların icadı, genel sıkıştırma algoritmalarının sesle çalışmak için etkisiz olması ve gerçek zamanlı çalışmayı imkansız hale getirmesi gerçeğinden kaynaklanmaktadır.

Genel durumda olduğu gibi, orijinal verileri bozulma olmadan kurtarmayı mümkün kılan kayıpsız ses sıkıştırması ile bu tür bir kurtarmanın imkansız olduğu kayıplı sıkıştırma arasında bir ayrım yapılır. Kayıplı sıkıştırma algoritmaları yüksek derecede sıkıştırma sağlar, örneğin bir ses CD'si kayıpsız sıkıştırma ile bir saatten fazla "sıkıştırılmamış" müziği tutamaz, bir CD neredeyse 2 saat müzik tutar ve ortalama bir bit kayıplı sıkıştırma ile oran - 7-10 saat.

Kayıpsız sıkıştırma

Kayıpsız ses sıkıştırmanın zorluğu, ses kayıtlarının yapı olarak son derece karmaşık olmasıdır. Sıkıştırma yöntemlerinden biri, örnekleri ve tekrarlarını aramaktır, ancak bu yöntem sayısallaştırılmış ses veya fotoğraf gibi daha kaotik veriler için etkili değildir. İlginç bir şekilde, bilgisayar tarafından oluşturulan grafiklerin kayıpsız sıkıştırılması çok daha kolayken, sentezlenmiş sesin bu konuda hiçbir avantajı yoktur. Bunun nedeni, bilgisayar tarafından üretilen bir sesin bile genellikle çok karmaşık bir şekle sahip olmasıdır; bu, bir algoritmanın icat etmesi zor bir görevdir.

Başka bir komplikasyon, sesin genellikle çok hızlı değişmesidir ve bu aynı zamanda sıralı bayt dizilerinin çok nadiren görünmesinin nedenidir.

En yaygın kayıpsız sıkıştırma biçimleri şunlardır:
Ücretsiz Kayıpsız Ses Codec Bileşeni (FLAC), Apple Kayıpsız, MPEG-4 ALS, Monkey's Audio ve TTA.

Kayıplı sıkıştırma

Kayıplı sıkıştırma son derece geniş uygulamalara sahiptir. Bilgisayar programlarına ek olarak, DVD'ye ses akışında, dijital televizyonda ve radyoda ve İnternet'teki akış ortamında kayıplı sıkıştırma kullanılır.

Bu sıkıştırma yöntemindeki bir yenilik, insan kulağı tarafından algılanmayan ses bileşenlerini algılamak için psikoakustik kullanılmasıydı. Bir örnek, ya yalnızca yeterince güçlü olduklarında algılanan yüksek frekanslar ya da aynı anda veya yüksek seslerden hemen sonra ortaya çıkan ve bu nedenle onlar tarafından maskelenen sessiz seslerdir - bu tür ses bileşenleri daha az doğru olarak yeniden üretilebilir veya hiç olmayabilir.

Maskeleme için, genlik örneklerinin zaman dizisinden gelen sinyal, her bir spektrum bileşeninin ayrı ayrı kodlandığı bir ses spektrumu dizisine dönüştürülür. Böyle bir dönüşümü uygulamak için hızlı Fourier dönüşümü, MDCT, kareleme ayna filtreleri veya diğerleri yöntemleri kullanılır. Bu tür kayıtlarla toplam bilgi miktarı değişmeden kalır. Belirli bir frekans alanındaki sıkıştırma, maskelenmiş veya sıfır bileşenlerin hiç depolanmadığı veya daha düşük bir çözünürlükte kodlandığı anlamına gelebilir. Örneğin, 200 Hz'e kadar ve 14 kHz'in üzerindeki frekans bileşenleri 4 bit olarak kodlanabilirken, orta aralıktakiler 16 bit olarak kodlanabilir. Böyle bir işlemin sonucu, ortalama 8 bitlik bir bit derinliği ile kodlama olacaktır, ancak sonuç, tüm frekans aralığının 8 bitlik bit derinliği ile kodlanmasından çok daha iyi olacaktır. Bununla birlikte, düşük bir çözünürlükle kodlanmış spektrumun parçalarının artık tam olarak yeniden yapılandırılamayacağı ve dolayısıyla geri dönüşü olmayan bir şekilde kaybolduğu açıktır.
Kayıplı sıkıştırmanın ana parametresi, dosyanın sıkıştırma derecesini ve buna bağlı olarak kaliteyi belirleyen bit hızıdır. Sabit bit hızı sıkıştırması (eng. Sabit bit hızı- CBR), değişken bit hızı (eng. Değişken bit hızı- VBR) ve ortalama bit hızı (eng. Ortalama Bit Hızı- ABR).

En yaygın kayıplı sıkıştırma biçimleri şunlardır: AAC, ADPCM, ATRAC, Dolby AC-3, MP2, MP3, Musepack Ogg Vorbis, WMA ve diğerleri.

TARIM BAKANLIĞI

MESLEK YÜKSEK EĞİTİM FEDERAL DEVLET EĞİTİM ENSTİTÜSÜ

STAVROPOL DEVLET TARIM ÜNİVERSİTESİ

Ekonomi Fakültesi

Uygulamalı Bilişim Bölümü

BAĞIMSIZ

KONTROLLÜ ÇALIŞMA

"Multimedya" disiplininde

Ses Sıkıştırma Teması

Tamamlanmış:

2PO grubunun öğrencisi

Kontrol:

PI Anabilim Dalı Doçenti,

Doktora, doçent

Stavropol, 2011

SES SIKIŞTIRMA

Genel bilgi

Stüdyo yolundaki birincil kodlama sırasında, f = 44.1 ... 96 kHz örnekleme frekansında ∆A = 16 ... 24 bit / örnek çözünürlükte ses sinyali örneklerinin (SS) tek tip nicelenmesi kullanılır. Stüdyo kalitesinde kanallarda, genellikle

∆А = 16 bit / örnek, f = 48 kHz, kodlanmış ses sinyalinin frekans bandı

∆F = 20 ... 20.000 Hz. Dijital kanalın dinamik aralığı yaklaşık 54 dB'dir. f = 48 kHz ve ∆А = 16 bit / örnek ise, bu tür bir sinyali iletirken bit hızı V = 48x16 = 768 kbps'dir. Bu, 5.1 (Dolby Digital) veya 3/2'lik bir ses sinyali artı 3.840 Mbps'den fazla ultra düşük frekanslı (Dolby Surround, Dolby-Pro-Logic, Dolby THX) bir ses sinyali iletirken iletişim kanalının toplam bant genişliğini gerektirir. Ancak bir kişi, duyularıyla yalnızca yaklaşık 100 bit / s'lik bilgiyi bilinçli olarak işleyebilir. Bu nedenle, birincil dijital ses sinyallerinde bulunan önemli fazlalık hakkında konuşabiliriz.

Birincil dijital sinyallerin istatistiksel ve psikoakustik fazlalığını ayırt edin. İstatistiksel fazlalığın azaltılması, ses sinyallerinin özelliklerinin dikkate alınmasına ve psikoakustik fazlalığın - işitsel algının özelliklerinin dikkate alınmasına dayanır.

İstatistiksel fazlalık, örnekleme sırasında ses sinyalinin zamansal fonksiyonunun bitişik örnekleri arasında bir korelasyonun varlığından kaynaklanmaktadır. Bunu azaltmak için oldukça karmaşık işleme algoritmaları kullanılır. Bunları kullanırken bilgi kaybı olmaz, ancak orijinal sinyal, kodlaması için daha az bit gerektiren daha kompakt bir biçimde sunulur. Tüm bu algoritmaların, orijinal sinyalleri bozulma olmadan kurtarmak için ters dönüştürmeye izin vermesi önemlidir. Ortogonal dönüşümler en çok bu amaç için kullanılır. Bu açıdan en uygun olanı Karunen - Loev dönüşümüdür. Ancak uygulanması önemli hesaplama maliyetleri gerektirir. Değiştirilmiş ayrık kosinüs dönüşümü (MDCT) biraz daha az verimlidir. MDCT'yi uygulamak için hızlı hesaplama algoritmalarının geliştirilmesi de önemlidir. Ek olarak, Fourier dönüşüm katsayıları (hepimizin alışık olduğu) ile MDCT katsayıları arasında basit bir ilişki vardır, bu da hesaplama sonuçlarını işitme mekanizmalarının işleyişiyle oldukça uyumlu bir biçimde sunmayı mümkün kılar. . Ek olarak, ses sinyallerinin istatistiklerini (örneğin, farklı büyüklükteki ses seviyelerinin ortaya çıkma olasılığı) hesaba katan kodlama yöntemleri de bit hızını düşürmeye izin verir. Bu tür muhasebeye bir örnek, en olası sinyal değerlerine daha kısa kod sözcükleri atandığı ve olasılığı küçük olan örnek değerlerin daha uzun kod sözcükleri ile kodlandığı Huffman kodlarıdır. Bu iki nedenden dolayı, dijital ses verilerini sıkıştırmaya yönelik en verimli algoritmalarda, kodlanan ST örneklerinin kendileri değil, MDCT katsayıları ve bunları kodlamak için Huffman kod tabloları kullanılır. Bu tür tabloların sayısının oldukça fazla olduğunu ve her birinin belirli bir türün ses sinyaline uyarlandığını unutmayın.

Bununla birlikte, oldukça karmaşık işleme prosedürlerinin kullanılmasıyla bile, ses sinyallerinin istatistiksel fazlalığının ortadan kaldırılması, sonuçta, iletişim kanalının gerekli bant genişliğini, ilk değerine kıyasla sadece %15 ... 25 oranında azaltmayı mümkün kılar; devrimci bir başarı olarak kabul edilmelidir.

İstatistiksel fazlalığın ortadan kaldırılmasından sonra, yüksek kaliteli ES iletirken dijitalin hızı ve bunların işlenmesi için insan yetenekleri en az birkaç büyüklük derecesinde farklılık gösterir. Bu aynı zamanda birincil dijital ES'nin önemli bir psikoakustik fazlalığına ve dolayısıyla onun indirgenme olasılığına işaret eder. Bu açıdan en umut verici olanı, maskeleme, maskeleme öncesi ve maskeleme sonrası gibi işitme özelliklerini dikkate alan yöntemler olduğu ortaya çıktı. Kulağın ses sinyalinin hangi loblarını (parçalarını) algıladığı ve hangilerinin maskelemeden kaynaklanmadığı biliniyorsa, sinyalin yalnızca kulağın algılayabildiği kısımlarını izole etmek ve daha sonra iletişim kanalı aracılığıyla iletmek mümkündür. , ve duyulamayan loblar (orijinal sinyalin bileşenleri) atılabilir (iletişim kanalı aracılığıyla iletilmez). Ek olarak, sinyaller mümkün olan en düşük seviye çözünürlüğü ile nicemlenebilir, böylece sinyal seviyesinin kendisinde bir değişiklik ile büyüklük olarak değişen nicemleme bozulmaları hala duyulamaz kalır, yani orijinal sinyal tarafından maskelenir. Bununla birlikte, psikoakustik fazlalığın ortadan kaldırılmasından sonra, kod çözme sırasında ES'nin zamansal işlevinin biçiminin tam olarak restorasyonu artık mümkün değildir.

Bu konuda uygulama için çok önemli iki özelliğe dikkat edilmelidir. Dijital ses verilerinin sıkıştırılması, program teslim edilirken iletişim kanalında daha önce kullanılmışsa, bunun tekrarlanan uygulaması, orijinal sinyal bize kulaktan önce iyi kalitede görünse de, genellikle önemli bozulmaların ortaya çıkmasına neden olur. -kodlama. Bu nedenle, dijital sinyalin "geçmişini" ve iletimi için hangi kodlama yöntemlerinin kullanıldığını bilmek çok önemlidir. Bu tür kodeklerin kalite parametrelerini geleneksel yöntemlerle (sıklıkla yapıldığı gibi) tonal sinyaller üzerinde ölçersek, o zaman onlar için ölçülen parametrelerin pratik olarak ideal değerlerini farklı, hatta bitin en küçük set değerlerinde elde edeceğiz. oran. Gerçek ses sinyalleri üzerinde gerçekleştirilen dinleme testlerinin sonuçları temelde farklı olacaktır, diğer bir deyişle, dijital ses verilerinin sıkıştırılmasıyla kodekler için geleneksel kalite değerlendirme yöntemleri uygun değildir.

Dijital ses verileri için sıkıştırma algoritmalarının kalitesini analiz etme ve bunların sonraki standardizasyonunu göz önünde bulundurarak etkinliğini değerlendirme çalışmaları, 1988'de uluslararası uzman grubu MPEG (Hareketli Resim Uzmanları Grubu) kurulduğunda başladı. Bu grubun ilk aşamadaki çalışmasının sonucu, Kasım 1992'de uluslararası MPEG 1 ISO / IEC 11172-3 standardının kabul edilmesiydi (bundan sonra, standardın numarasından sonraki 3 sayısı, bunun o kısmını ifade eder). ses sinyallerinin kodlanmasıyla ilgilenir).

Bugüne kadar MPEG-2 ISO/IEC 13818-3, 13818-7 ve MPEG-4 ISO/IEC 14496-3 gibi diğer birçok MPEG standardı da yayıncılıkta yaygın olarak kabul görmüştür.

Buna karşılık ABD, MPEG standartlarına alternatif olarak Dolby AC-3 (ad / 52) standardını geliştirdi. Biraz sonra, yayın ve televizyon için iki farklı dijital teknoloji platformu açıkça ortaya çıktı - bunlar DAB (Dijital Audi o Yayıncılık), DRM (Dijital Radyo Mondiale), DVB (karasal DVB-T, kablolu DVB-C, uydu DVB- S çeşitleri) ve ATSC (Dolby AC-3). Bunlardan ilki (DAB, DRM) Avrupa, ATSC - ABD tarafından desteklenmektedir. Bu platformlar, her şeyden önce, dijital ses verileri için seçilen sıkıştırma algoritmasında, dijital modülasyon tipinde ve ES'nin gürültüye karşı bağışık kodlama prosedüründe farklılık gösterir.

Sayısal ses verisi sıkıştırma algoritmalarının önemli bir çeşitliliğine rağmen, bu tür bir sinyal işleme algoritmasını uygulayan bir kodlayıcının yapısı, Şekil 2'de gösterilen genelleştirilmiş bir diyagram biçiminde temsil edilebilir. 4.1. Zaman ve frekans bölümleme bloğunda, orijinal ses sinyali alt bant bileşenlerine bölünür ve zaman içinde bölümlere ayrılır Kodlanmış örneğin uzunluğu, ses sinyalinin zamansal fonksiyonunun biçimine bağlıdır. Genlikte keskin tepe noktalarının yokluğunda, yüksek frekans çözünürlüğü sağlayan uzun örnek adı verilen bir örnek kullanılır. Sinyal genliğinde keskin değişiklikler olması durumunda, kodlanmış örneğin uzunluğu keskin bir şekilde azalır, bu da daha yüksek bir zaman çözünürlüğü sağlar. Kodlanmış örneğin uzunluğunu değiştirme kararı, sinyalin psikoakustik entropisinin değeri hesaplanarak psikoakustik analiz birimi tarafından alınır. Segmentasyondan sonra alt bant sinyalleri normalleştirilir, nicelenir ve kodlanır. En verimli sıkıştırma algoritmalarında, kodlanan SZ örnekleri değil, karşılık gelen MDCT katsayılarıdır.

Genellikle, dijital ses verilerini sıkıştırırken, aynı anda hem bir kişinin işitme özelliklerini hem de bir ses sinyalinin istatistiksel özelliklerini dikkate alan entropi kodlaması kullanılır. Bununla birlikte, buradaki ana rol, psikoakustik fazlalığı ortadan kaldırma prosedürleri tarafından oynanır. Psikoakustik analiz ünitesinde bir ses sinyalinin işitsel algı kalıplarının muhasebesi yapılır. Burada, özel bir prosedüre göre, her bir alt bant sinyali için, nicelemenin izin verilen maksimum bozulma seviyesi (gürültü) hesaplanır ve bu alt bandın faydalı sinyali tarafından hala maskelenirler. Her bir kodlama alt bandı için psikoakustik modelin gereksinimlerine uygun olarak bitlerin dinamik dağıtım bloğu, nicemlemenin neden olduğu bozulmaların seviyesinin psikoakustik model tarafından hesaplanan duyulabilirlik eşiğini aşmadığı mümkün olan minimum bir sayıyı seçer. Modern sıkıştırma algoritmalarında, yinelemeli döngüler biçiminde özel prosedürler de kullanılır; bu, kodlama için yetersiz sayıda bit bulunan alt bantlardaki niceleme bozulma enerjisi miktarını kontrol etmeyi mümkün kılar.

MPEG ses sıkıştırma algoritmaları, birinci bölümde açıklanan insan işitme cihazı tarafından ses sinyallerinin algılanmasının özelliklerine dayanmaktadır. Maskeleme efektini kullanmak, kabul edilebilir ses kalitesini korurken ses verilerinin miktarını önemli ölçüde azaltabilir. Buradaki ilke oldukça basittir: "Bir bileşen duyulmuyorsa, onu iletme izi yoktur." Pratikte bu, maskeleme bölgesinde, numune başına bit sayısını, nicemleme gürültüsünün hala maskeleme eşiğinin altında kalacağı bir dereceye kadar azaltmanın mümkün olduğu anlamına gelir. Bu nedenle, bir ses kodlayıcının çalışması için, etkileme sinyallerinin çeşitli kombinasyonları için maskeleme eşiklerini bilmek gereklidir. Psikoakustik işitme modelindeki (PAM) kodlayıcıdaki önemli bir düğüm, bu eşiklerin hesaplanmasıyla ilgilenir. Giriş sinyalini ardışık zaman aralıklarında analiz eder ve her numune bloğu için spektral bileşenleri ve bunlara karşılık gelen maskeleme bölgelerini belirler. Giriş sinyali frekans alanında analiz edilir; bunun için, zaman içinde alınan bir numune bloğu, ayrı bir Fourier dönüşümü kullanılarak sinyalin frekans spektrumunun bileşenleri için bir dizi katsayıya dönüştürülür. Sıkıştırma kodlayıcı geliştiricileri, modeli oluşturma konusunda önemli ölçüde özgürlüğe sahiptir, işleyişinin doğruluğu, gerekli sıkıştırma oranına bağlıdır.

Bant kodlama ve filtre bankası. Maskeleme etkisini hesaba katarak sesi kodlamak için en iyi yöntem bant geçişli kodlamadır. Özü aşağıdaki gibidir. Çerçeve adı verilen giriş ses sinyalinin bir grup örneği, kural olarak 32 bant geçiren filtre içeren bir filtre bankasına (BF) beslenir. Yukarıda bahsedilen kritik bantlar ve maskeleme tavası göz önüne alındığında, filtre bankasında mümkünse kritik bantlarla çakışan geçiş bantlarının olması iyi olacaktır. Bununla birlikte, eşit olmayan bantlara sahip bir dijital filtre bankasının pratik uygulaması oldukça karmaşıktır ve yalnızca en yüksek sınıftaki cihazlarda haklı çıkar.Genellikle, dörtlü aynaya dayalı bir filtre bankası (eşit bant genişliklerine sahip W. hendekleri, tüm duyulabilir frekans bandını kapsayan) küçük bir karşılıklı örtüşme ile) kullanılır (Şekil 4.2) Bu durumda, filtrenin bant genişliği π / 32T'ye eşittir ve bantların merkez frekansları (2k + 1) π / 64T'ye eşittir, burada T örnekleme periyodudur;

k = 0.1, ..., 31. 48 kHz örnekleme hızında filtre bölümünün geçiş bandı 750 Hz'dir.

Her filtrenin çıkışı, giriş sinyalinin bu filtrenin geçiş bandına düşen kısmıdır. Ayrıca, her bantta PAM yardımıyla, sinyalin spektral bileşimi analiz edilir ve sinyalin hangi kısmının indirgeme olmadan iletilmesi gerektiği ve hangisinin maskeleme eşiğinin altında kaldığı ve daha küçük bir değere yeniden nicelleştirilebileceği tahmin edilir. bit sayısı. Gerçek ses sinyallerinde, maksimum enerji genellikle birkaç frekans bandında yoğunlaştığından, diğer bantlardaki sinyallerin ayırt edilebilir sesler içermediği ve örneğin güçlü bir sinyalin varlığında hiç iletilmediği ortaya çıkabilir. bir bantta, birkaç üstteki bandın maskeleneceği ve daha az hurda bitiyle kodlanabileceği anlamına gelir.

Maksimum dinamik aralığı azaltmak için çerçevedeki maksimum örnek belirlenir ve bu örneği en yüksek niceleme seviyesine getiren bir ölçeklendirme faktörü hesaplanır. Bu işlem analog yayındaki sıkıştırmaya benzer. Diğer tüm örnekler aynı faktörle çarpılır. Ölçekleme faktörü, ikincisinin kazancını düzeltmek için kodlanmış verilerle birlikte kod çözücüye iletilir. Ölçeklemeden sonra, maskeleme eşiği tahmin edilir ve toplam bit sayısı tüm bantlar arasında yeniden dağıtılır.

Niceleme ve bit tahsisi. Yukarıdaki işlemlerin tümü, veri miktarını önemli ölçüde azaltmadı; bunlar, adeta sesin gerçek sıkıştırılması için bir hazırlık aşamasıydı. Dijital video sıkıştırmada olduğu gibi, sıkıştırmanın çoğu niceleyicide gerçekleşir. Numunelerin ayrı frekans bantlarında yeniden nicelenmesi hakkında PAM tarafından verilen kararlara dayanarak, nicemleyici nicemleme adımını, verilen bandın nicemleme gürültüsünü hesaplanan maskeleme eşiğine yaklaştıracak şekilde değiştirir. Bu durumda, bir örnek bunun yerine sadece 4 veya 5 bit'e ihtiyaç duyabilir.

Her bir frekans bandında iletilen sinyal bileşenleri hakkındaki karar diğerlerinden bağımsız olarak gerçekleşir ve 32 bant sinyalinin her birine ortak bit kaynağından bu sinyalin önemine karşılık gelen bir parça tahsis edecek belirli bir "gönderici" gereklidir. genel topluluk. Böyle bir göndericinin rolü, dinamik bir bit ayırıcı tarafından gerçekleştirilir.

Üç bit ayırma stratejileri mümkündür.

Doğrudan uyarlama sisteminde, kodlayıcı tüm hesaplamaları yapar ve sonuçları kod çözücüye gönderir. Bu yöntemin avantajı, bit tahsis algoritmasının, kod çözücünün çalışmasını etkilemeden güncellenebilmesi ve değiştirilebilmesidir. Ancak, kod çözücüye ek veri göndermek, toplam bit boşluğunun önemli bir bölümünü tüketir.

Geriye uyarlamalı sistem, hem kodlayıcıda hem de kod çözücüde aynı hesaplamaları gerçekleştirir, bu nedenle kod çözücüye ek veri göndermeye gerek yoktur. Bununla birlikte, kod çözücünün karmaşıklığı ve maliyeti önceki sürümden çok daha yüksektir ve algoritmadaki herhangi bir değişiklik, kod çözücünün güncellenmesini veya yeniden işlenmesini gerektirir.

İleri ve geri uyarlamalı bir uzlaşma sistemi, kodlayıcı ve kod çözücü arasındaki bit tahsisini hesaplama işlevlerini, kodlayıcı en karmaşık hesaplamaları gerçekleştirecek ve kod çözücüye yalnızca anahtar parametreleri gönderecek ve üzerinde nispeten az bit harcayacak şekilde ayırır. , kod çözücü yalnızca basit hesaplamalar yapar. Böyle bir sistemde kodlayıcı önemli ölçüde değiştirilemez, ancak bazı parametreler ayarlanabilir.

Doğrudan uyarlama ile açıklanan algoritmaya göre dijital sıkıştırma gerçekleştiren bir ses kodlayıcı ve kod çözücünün genelleştirilmiş bir diyagramı Şekil 4.3, a'da gösterilmektedir. Frekans bantlarının çıkışındaki sinyaller, bir çoklayıcı kullanılarak tek bir dijital akışta birleştirilir.

Kod çözücüde işlemler ters sırada gerçekleşir. Sinyal, bir ölçeklendirme faktörüne bölünerek çoğullanır, frekans bantlarındaki dijital örneklerin orijinal değerleri geri yüklenir ve çıkışta girişten girişe yeterli bir ses verisi akışı oluşturan birleştirici filtre bankasına beslenir. insan kulağı tarafından ses sinyalinin psikofizyolojik algısının bakış açısı.

MPEG standartlar ailesi

MPEG, kelimenin tam anlamıyla Hareketli Resim Kodlama Uzmanları Grubu anlamına gelir - Hareketli Resim Kodlama Uzmanları Grubu. MPEG'in geçmişi Ocak 1988'e kadar uzanıyor. Mayıs 1988'deki ilk toplantıdan başlayarak, grup büyümeye başladı ve çok geniş bir uzman ekibi haline geldi. Tipik olarak, bir MPEG toplantısına 200'den fazla şirketten yaklaşık 350 profesyonel katılır. MPEG katılımcılarının çoğu, çeşitli bilimsel ve akademik kurumlarda çalışan uzmanlardır.

MPEG-1 standardı

MPEG-1 standardı (ISO / IEC 11172-3), farklı karmaşıklık seviyelerinde üç algoritma içerir: Katman I, Katman II ve Katman III. Kodlama sürecinin genel yapısı tüm seviyeler için aynıdır. Bununla birlikte, genel kodlama yaklaşımında katmanların benzerliğine rağmen, katmanlar sol kullanımları ve iç mekanizmaları bakımından farklılık gösterir. Her seviye için, bir dijital akış (toplam bit genişliği) tanımlanır ve kendi MPEG-1 kod çözme algoritması, 32, 44.1 ve 48 KHz'lik bir örnekleme oranı ile sayısallaştırılmış sinyalleri kodlamak için tasarlanmıştır. Yukarıda bahsedildiği gibi, MPEG-1'in üç katmanı vardır (Katman I, II ve III). Bu seviyeler, sağlanan sıkıştırma oranı ve elde edilen akışların ses kalitesi açısından farklılık gösterir. MPEG-1, her üç seviye için aşağıdaki nominal bit hızlarını normalleştirir: 32, 48, 56, 64, 96, 112, 192, 256, 384 ve 448 kbps, giriş sinyali niceleme seviyelerinin sayısı 16 ila 24 arasındadır. Standart giriş ^ MPEG-1 kodlayıcı için AES / EBU dijital sinyali alınır (her rapor için bir bit niceleme biti olan iki kanallı dijital ses sinyali) Ses kodlayıcının aşağıdaki çalışma modları sağlanır:

■ tek kanal (mono);

■ çift kanal (stereo veya iki mono kanal);

■ ortak stereo (sağ ve sol kanalların kısmen ayrıldığı sinyal). MPEG-1'in en önemli özelliği, her üç seviyenin de tam geriye dönük uyumluluğudur. Bu, her kod çözücünün yalnızca kendi sinyallerini değil, aynı zamanda daha düşük seviyelerin sinyallerini de çözebileceği anlamına gelir.

Seviye I algoritması, Philips tarafından kompakt kasetlere kayıt için geliştirilen Dijital Kompakt Kaset (DCC) formatına dayanmaktadır. Katman 1 kodlaması, sıkıştırma derecesinin çok önemli olmadığı ve kodlayıcı ile kod çözücünün karmaşıklığı ve maliyetinin belirleyici faktörler olduğu durumlarda kullanılır. Katman I kodlayıcı, stereo program başına 384 kbps bit hızında yüksek kaliteli ses sunar.

Katman II, daha karmaşık bir kodlayıcı ve biraz daha karmaşık bir kod çözücü gerektirir, ancak daha iyi sıkıştırma sağlar - kanal şeffaflığı zaten 256 kbps'de elde edilir. Ses kalitesinde gözle görülür bir bozulma olmadan 8 adede kadar kodlamaya / kod çözmeye izin verir. Level P algoritması, Avrupa'daki popüler MUSICAM formatına dayanmaktadır.

En karmaşık Seviye III, tüm temel sıkıştırma araçlarını içerir: bant genişliği kodlaması, ek DCT, entropi kodlaması, gelişmiş PAM. Kodlayıcı ve kod çözücünün karmaşıklığı nedeniyle, yüksek derecede sıkıştırma sağlar - daha düşük hızlarda yüksek kaliteli iletimin mümkün olmasına rağmen, 128 kbps hızında "şeffaf" bir kanalın oluşturulduğu kabul edilir. Standart iki psikoakustik model önerir: daha basit Model 1 ve daha karmaşık, ancak aynı zamanda daha yüksek kaliteli Model 2. Örnek işleme algoritmasında farklılık gösterirler. Her iki model de her üç seviyede de kullanılabilir, ancak Model 2'nin Seviye III için özel bir modifikasyonu vardır.

MPEG-1 dijital ses sıkıştırma için ilk uluslararası standart oldu ve bu onun birçok alanda yaygın kullanımına yol açtı: yayıncılık, ses kaydı, iletişim ve multimedya uygulamaları. En yaygın olarak kullanılan Seviye II'dir, Avrupa uydu, kablo ve karasal dijital TV yayıncılığının, ses yayıncılığı standartlarının, DVD'ye kaydetmenin, ITU Tavsiyeleri BS.1115 ve J.52'nin ayrılmaz bir parçası haline gelmiştir. Seviye III (aynı zamanda MP-3 olarak da adlandırılır), Integrated Services Digital Networks (ISDN) ve İnternet'te yaygın olarak kullanılır.Ağdaki müzik dosyalarının büyük çoğunluğu bu standartta kaydedilir.

Birinci seviye kodlayıcı. Birinci seviye kodlayıcının çalışmasını daha ayrıntılı olarak ele alalım (Şekil 4.4). Filtre bankası (BF) aynı anda 384 adet ses verisini işler ve bunları uygun alt örnekleme ile 32 bantta, her bantta 12 örnek 48/32 = 1.5 kHz örnekleme oranıyla dağıtır. 48 kHz örnekleme hızında çerçeve süresi 8 ms'dir. Basitleştirilmiş bir psikoakustik model, her banttaki sinyal bileşenlerinin varlığından ve "anlık" seviyesinden yalnızca frekans maskelemeyi tahmin eder. Değerlendirme sonuçlarına dayanarak, her bant için, mümkün olan en kaba niceleme atanır, ancak nicemleme gürültüsü maskeleme eşiğini aşmayacak şekilde. Ölçeklendirme faktörleri 6 bit genişliğindedir ve 2 dB'lik adımlarla 120 dB'lik dinamik bir aralığı kapsar. Dijital akış ayrıca 32 bitlik ayırma kodları da taşır. 4 bit genişliğindedirler ve yeniden nicelemeden sonra belirli bir banttaki örnek kod kelimesinin uzunluğunu belirtirler.

Kod çözücüde, her frekans bandının örnekleri bir çoğullayıcı tarafından ayrılır ve orijinal dinamik aralıklarını geri yükleyen bir çoğaltıcıya beslenir. Bundan önce, örneklerin orijinal bit derinliği geri yüklenir - niceleyicide atılan en az anlamlı bitler sıfırlarla değiştirilir. Bit tahsis kodları, demultiplexer'ın farklı örneklere ait olan ve seri akışta değişken uzunluklu kod tarafından iletilen kod sözcüklerini ayırmasına yardımcı olur. 32 kanalın tamamından alınan numuneler daha sonra, numuneleri zamanında uygun şekilde ayarlayan ve orijinal dalga biçimini geri yükleyen bir sentezleyici BF'ye beslenir.

İkinci seviye kodlayıcı. İkinci seviye kodlayıcı, kritik işitme bantları ile gerçek BF bantları arasındaki uyumsuzlukla ilişkili temel bant kodlama modelinin ana dezavantajlarını ortadan kaldırır, bu nedenle maskeleme efekti aralığın düşük frekanslı kısımlarında pratik olarak kullanılmamıştır. Çerçeve boyutu üçe katlanır, 48 kHz örnekleme ile 24 ms'ye kadar, 1152 örnek aynı anda işlenir (her biri 384 örnekten oluşan 3 alt çerçeve). PAM için giriş sinyali olarak, BF çıkışından gelen bant geçiş sinyalleri değil, kodlayıcının giriş sinyalinin 512 noktalı Fourier dönüşümünün bir sonucu olarak elde edilen spektral katsayılar kullanılır. Hem çerçevenin zaman süresinin artması hem de spektral analizin doğruluğunun artması nedeniyle PAM işleminin verimi artmaktadır.

İkinci seviyede, daha karmaşık bir bit tahsis algoritması uygulanır. 0'dan 10'a kadar sayılara sahip şeritler dört basamaklı bir dağıtım koduyla işlenir (15 niceleme ölçeğinden herhangi birinin seçimi), 11'den 22'ye kadar sayılara sahip şeritler için seçim 3 bite düşürülür (7 ölçekten birinin seçimi) , 23'den 26'ya kadar sayılara sahip şeritler, 3 ölçekten (iki bit kod) birinin seçimini sağlar ve 27'den 31'e (20 kHz'in üzerinde) sayılara sahip bantlar iletilmez. Çerçevenin tüm blokları için seçilen niceleme ölçekleri aynıysa, ölçek numarası yalnızca bir kez iletilir.

İkinci seviye algoritmanın bir diğer önemli farkı, tüm ölçeklendirme faktörlerinin iletişim kanalı üzerinden iletilmemesidir. Ardışık üç alt çerçevenin çarpanlarındaki fark, zamanın %10'undan fazla olmamak üzere 2 dB'yi aşarsa, yalnızca bir çarpan seti iletilir ve bu, boşa harcanan bitlerden tasarruf sağlar. Belirli bir bantta ses seviyesinde hızlı değişiklikler meydana gelirse, ölçekleme faktörlerinin iki veya üçü birden iletilir. Buna göre, kod çözücü, seçilen nicelemelerin ve ölçekleme faktörlerinin numaralarını hatırlamalı ve gerekirse bunları sonraki alt çerçeveye uygulamalıdır. Üçüncü seviye kodlayıcı. Katman III kodlayıcı, gelişmiş bir tamamlayıcı DCT kodlama algoritması kullanır.

İkinci seviye kodlayıcıların ana dezavantajı - hızlı değişen geçişlerin ve ses seviyesindeki atlamaların etkisiz işlenmesi - iki tip DCT bloğunun - 18 örnekli "uzun" ve 6 örnekli "kısa" olması nedeniyle ortadan kaldırılmıştır. Mod seçimi, 32 frekans bandının her birinde pencere fonksiyonlarının değiştirilmesiyle uyarlanabilir bir şekilde gerçekleştirilir. Uzun bloklar, standart özelliklere sahip sinyalin daha iyi frekans çözünürlüğünü sağlarken, kısa bloklar hızlı geçişlerin işlenmesini iyileştirir. Bir çerçevede hem uzun hem de kısa bloklar olabilir, ancak DCT katsayılarının toplam sayısı değişmez, çünkü bir uzun yerine üç kısa blok iletilir. Kodlamayı iyileştirmek için aşağıdaki geliştirmeler de uygulanır.

■ Eşit olmayan nicemleme (kuantizör, sinyal-gürültü oranını iyileştirmek için nicelemeden önce örnekleri 3/4'ün gücüne yükseltir; buna göre kod çözücü onları geri doğrusallaştırma için 4/3'ün gücüne yükseltir).

■ Birinci ve ikinci seviye kodlayıcıların aksine, üçüncü seviyede ölçeklendirme faktörleri 32 BF frekans bandının her birine değil, ölçeklendirme bantlarına atanır - spektrumun bu bantlarla ilişkili olmayan ve yaklaşık olarak kritik bantlara karşılık gelen kısımları.

■ Huffman koduyla nicelenmiş katsayıların entropi kodlaması.

■ Bir "bit deposu"nun varlığı - sabit bir giriş sinyalinin periyotları sırasında kodlayıcının oluşturduğu marj.

Üçüncü seviye kodlayıcı, stereo sinyali birleşik stereo (MS Stereo) formatında daha eksiksiz olarak işler. Alt katmanların kodlayıcıları yalnızca yoğunluk kodlama modunda çalışıyorsa, 2 kHz'in üzerindeki bantlardaki sol ve sağ kanallar tek bir sinyal olarak kodlandığında (ancak bağımsız ölçekleme faktörleriyle), üçüncü katman kodlayıcı da toplam farkta çalışabilir. modu, diferansiyel kanalın daha yüksek sıkıştırma oranını sağlar. Stereo sinyal, kanallar ve fark arasındaki ortalamaya ayrıştırılır. Bu durumda, ikincisi daha düşük bir oranda kodlanır. Bu, kanallar fazdayken normal bir durumda kodlama kalitesini biraz artırmanıza olanak tanır. Ancak bu aynı zamanda, fazda faz dışı olan sinyaller kodlanırsa, özellikle, ses kasetlerinden sayısallaştırılan kayıtlarda neredeyse her zaman bir faz kayması bulunursa, keskin bir şekilde bozulmasına yol açar, ancak özellikle CD'nin kendisi ise, CD'de de meydana gelir. ses kasetinden bir kerede kaydedildi ...

Üçüncü seviye çerçevesinde, bir stereo sinyalin kodlanmasına üç farklı yöntemle daha izin verilir.

■ Ortak Stereo (MS / IS Stereo), özellikle düşük bit hızlarında kodlama kalitesini artıran başka bir stereo sinyal basitleştirme tekniği sunar. Bazı frekans aralıkları için, fark sinyalinin bile kalmadığı, sadece farklı kanallardaki sinyal güçlerinin oranı olduğu gerçeğinden oluşur. Bu bilgiyi kodlamak için daha da düşük bir oranın kullanıldığı açıktır. Diğerlerinin aksine, bu yöntem faz bilgisi kaybına neden olur, ancak çok düşük hızlar söz konusu olduğunda ortalama sinyal lehine alan tasarrufu daha yüksektir. Bu mod varsayılan olarak 96 kbps ve altındaki hızlarda yüksek frekanslar için kullanılır (bu mod pratikte diğer yüksek kaliteli kodlayıcılar tarafından kullanılmaz). Ancak daha önce de belirtildiği gibi bu mod uygulandığında faz bilgisi kaybolur. Ayrıca, herhangi bir faz dışı sinyal de kaybolur.

■ Çift Kanal - her kanal akışın tam olarak yarısını alır ve mono sinyal olarak ayrı olarak kodlanır. Yöntem, temel olarak farklı kanalların temelde farklı sinyaller, örneğin farklı dillerdeki metinler içerdiği durumlarda önerilir. Bu mod, bazı kodlayıcılarda isteğe bağlı olarak ayarlanır.

■ Stereo — Her kanal ayrı olarak kodlanmıştır, ancak kodlayıcı bir kanala diğerinden daha fazla alan vermeye karar verebilir. Bu, sinyalin duyulabilirlik eşiğinin altındaki veya tamamen maskelenmiş bir kısmı atıldıktan sonra, kodun belirli bir kanal için tahsis edilen hacmi tamamen doldurmadığı ve kodlayıcının bu yeri kullanabildiği durumlarda faydalı olabilir. başka bir kanalı kodlamak için Bu, örneğin, diğerinde bir sinyal olduğunda bir kanalda "sessizlik" kodlamasını önler. Bu mod, 192 kbps'nin üzerindeki hızlarda kullanılır. Aynı zamanda kbps mertebesinde daha düşük hızlarda da uygulanabilir.

Kullanılan ana Katman III kodlayıcılar, XingTech'ten kodlayıcılar, FhG IIS'den kodlayıcılar ve ISO kaynak koduna dayalı kodlayıcılardır.

XingTech'in kodlayıcıları çok yüksek kaliteli kodlama değildir, ancak elektronik müziği kodlamak için oldukça uygundurlar. Hızları onları yüksek kaliteli kodlama gerektirmeyen müzik için ideal kodlayıcılar yapar.

FhG IIS kodlayıcıları, bu hızlara en uygun psikoakustik model sayesinde, düşük ila orta bit hızlarında üstün kodlama kalitesiyle ünlüdür. Bu gruptaki konsol kodlayıcılardan en çok 13ps 2.61 tercih edilmektedir. Şimdiye kadar MP3PS 3.1 kodlayıcı da kullanılıyor, ancak ikincisi kimse tarafından ciddi şekilde test edilmedi. Audio Active veya MP3 Producer gibi diğer kodlayıcılar, özellikle sınırlı özelleştirme seçenekleri ve az gelişmiş bir arayüz nedeniyle önemli dezavantajlara sahiptir.

Kodlayıcıların geri kalanı ISO kaynak kodundan türetilmiştir. Geliştirmenin iki ana yönü vardır - hız için kodun optimizasyonu ve kalite için algoritmanın optimizasyonu. İlk yön, orijinal ISO modelini kullanan ancak birçok kod optimizasyonu yapan BladeEnc kodlayıcı tarafından en iyi şekilde temsil edildi ve ikinci model, mpegEnc ile temsil edildi.

MP3Pro kodlayıcı, Tomson Multimedia ve Fraunhofer Enstitüsü ile işbirliği içinde Coding Technologies tarafından Temmuz 2001'de duyuruldu. MP3Pro formatı bir Seviye III geliştirmedir (MP3). MP3Pro, MP3 geri (tam) ve ileri (kısmen) ile uyumludur, yani MP3Pro ile kodlanmış dosyalar geleneksel oynatıcılarda oynatılabilir. Bununla birlikte, ses kalitesi, özel bir oynatıcıda çalındığından belirgin şekilde daha kötü. Bunun nedeni, MP3Pro dosyalarının iki ses akışına sahip olması ve sıradan oynatıcıların içlerinde yalnızca bir akışı, yani normal MPEG-1 Katman 3'ü tanımasıdır.

MP3Pro yeni bir teknoloji kullanır - SBR (Spectral Band Replication). Üst frekans aralığını iletmek için tasarlanmıştır. Gerçek şu ki, psikoakustik modelleri kullanmak için önceki teknolojilerin ortak bir dezavantajı var: hepsi 128 kbps'lik bir hızdan başlayarak verimli çalışıyor. Daha düşük hızlarda, çeşitli sorunlar başlar: ya sesi iletmek için frekans aralığını kesmek gerekir ya da kodlama, çeşitli eserlerin ortaya çıkmasına neden olur. Yeni SBR teknolojisi, psikoakustik modellerin kullanımını tamamlar. Normalden biraz daha dar bir frekans aralığı iletilir (kodlanır) (yani, "yüksekler" kesilir) ve yüksek frekanslar, düşük frekans bileşenleri hakkındaki bilgilere dayanarak kod çözücünün kendisi tarafından yeniden oluşturulur (geri yüklenir). Bu nedenle, SBR teknolojisi aslında sıkıştırma aşamasında olduğu kadar kod çözme aşamasında da çok fazla kullanılmamaktadır. Yukarıda bahsedilen ikinci veri akışı, tam olarak yüksek frekansları geri yüklemek için çoğaltma sırasında kullanılan minimum gerekli bilgidir. Bu akımın hangi bilgiyi taşıdığı henüz tam olarak güvenilir bir şekilde bilinmemektedir, ancak çalışmalar bu bilginin üst aralığın birkaç frekans bandındaki ortalama güçle ilgili olduğunu göstermiştir.

Ses verilerini sıkıştırmanın bazı yöntemleri (2. Derse Ekleyin)

    kayıpsız kodlama sıkıştırılmış bir akıştan yüzde yüz veri kurtarmaya izin veren bir ses kodlama yöntemidir. Bu veri sıkıştırma yöntemi, orijinal veri kalitesinin korunmasının kritik olduğu durumlarda kullanılır. Örneğin, bir kayıt stüdyosunda ses miksajı yapıldıktan sonra, verilerin daha sonra kullanılmak üzere orijinal kalitesinde arşive kaydedilmesi gerekir. Günümüzde var olan kayıpsız kodlama algoritmaları (örneğin, Monkeys Audio) kullanılan veri hacmini %20-50 oranında azaltabilir, ancak aynı zamanda sıkıştırma sonrasında elde edilen verilerden orijinal verilerin yüzde yüz kurtarılmasını sağlayabilir. Bu tür kodlayıcılar, yalnızca ses sıkıştırma için tasarlanmış bir tür veri arşivleyicidir (ZIP, RAR ve diğerleri gibi).

    Kayıplı kodlama. Bu tür kodlamanın amacı, mümkün olan en az miktarda sıkıştırılmış veri ile herhangi bir yolla yeniden oluşturulan sinyalin sesinin orijinal ile benzerliğini elde etmektir. Bu, orijinal sinyali "basitleştiren" ("gereksiz" işitme güçlüğü ayrıntılarını dışarı atan) çeşitli algoritmalar kullanılarak elde edilir, bu da kodu çözülen sinyalin aslında orijinalle aynı olmayı bırakmasına, ancak yalnızca benzer ses çıkarmasına yol açar. .

Birçok sıkıştırma yöntemi olduğu gibi bu yöntemleri uygulayan programlar da bulunmaktadır. En ünlüleri MPEG-1 Layer I, II, III (ikincisi iyi bilinen MP3'tür), MPEG-2 AAC (gelişmiş ses kodlaması), Ogg Vorbis, Windows Media Audio (WMA), TwinVQ (VQF), MPEGPlus'tur. , TAC ve diğerleri.

Ortalama olarak, bu tür kodlayıcılar tarafından sağlanan sıkıştırma oranı 10-14 (kez) aralığındadır.

Bazı ses dosyası biçimleri :

AU biçimi ... Bu, Sun ve NeXT sistemlerinde basit ve yaygın bir biçimdir (ancak ikinci durumda dosya SND uzantısına sahip olacaktır). Dosya, kısa bir hizmet başlığından (en az 28 bayt) ve hemen ardından ses verisinden oluşur. Unix benzeri sistemlerde yaygın olarak kullanılır ve Java makinesi için temel görevi görür.

DALGA formatı (WAV). Windows'ta ses depolamak için standart bir dosya biçimi. Başka, daha genel Kaynak Değişim Dosyası Formatının (RIFF) özel bir türüdür; başka bir RIFF türü, AVI video dosyalarıdır. Bir RIFF dosyası, bazıları sırayla diğer iç içe blokları içerebilen bloklardan oluşur; her veri bloğundan önce dört karakterli bir tanımlayıcı ve uzunluk gelir. WAV ses dosyaları genellikle daha basittir ve yalnızca bir format bloğuna ve bir veri bloğuna sahiptir. İlki sayısallaştırılmış ses hakkında genel bilgileri (kanal sayısı, örnekleme frekansı, ses düzeyi bağımlılığının doğası vb.) içerir ve ikincisi sayısal verilerin kendisini içerir. Her örnek bir tam sayı bayt kaplar (örneğin, 12 bitlik sayılar söz konusu olduğunda 2 bayt, en önemli bitler sıfır içerir). Stereo kayıtta, sayılar sırasıyla sol ve sağ kanallar için çiftler halinde gruplanır, her bir çift tam bir blok oluşturur - örneğimiz için uzunluğu 4 bayt olacaktır. Bu görünüşte aşırı yapı, yazılımın oynatma sırasında veri aktarım sürecini optimize etmesine izin verir, ancak bu gibi durumlarda olduğu gibi zaman kazancı dosya boyutunda önemli bir artışa yol açar.

MP3 formatı (MPEG Layer3) ... Daha sonra sıkıştırılmış video standartlarının bir parçası olarak kabul edilen ses depolama formatlarından biridir. Bu formatı elde etmenin doğası, birçok açıdan, daha önce ele aldığımız JPEG teknolojisini kullanarak grafik verilerinin sıkıştırılmasına benzer. Rastgele ses verileri tersine çevrilebilir yöntemlerle yeterince sıkıştırılmadığından, geri döndürülemez yöntemlere geçilmelidir: başka bir deyişle, insan işitme özellikleri hakkındaki bilgilere dayanarak, ses bilgisi "düzeltilir", böylece ortaya çıkan bozulmalar görünmez olur. kulak, ancak elde edilen veriler geleneksel yöntemlerle daha iyi sıkıştırılır. Buna uyarlanabilir kodlama denir ve insan algısı açısından en önemsiz ses ayrıntılarından tasarruf etmenizi sağlar. MP3'te kullanılan tekniklerin anlaşılması kolay değildir ve oldukça karmaşık matematiğe dayanır, ancak ses bilgilerini sıkıştırmanın çok önemli bir etkisini sağlarlar. MP3 teknolojisindeki ilerlemeler, artık iPod'lar ve cep telefonları gibi birçok tüketici ses cihazında kullanılmasına yol açmıştır.

MIDI formatı. MIDI adı, Müzik Aleti Dijital Arayüzü'nün kısaltmasıdır, yani. müzik aletleri için dijital arayüz. Bu, çeşitli müzik ekipmanlarını (sentezleyiciler, davullar, aydınlatma) birleştiren oldukça eski (1983) bir standarttır. MIDI, her biri bir tuşa basma veya ses modu ayarı gibi bir olaya karşılık gelen veri paketlerine dayanır. Herhangi bir olay, her biri belirli bir ekipmanla ilgili olan birkaç kanalı aynı anda kontrol edebilir. Orijinal amacına rağmen, dosya formatı, isteğe bağlı olarak herhangi bir harici MIDI ekipmanı olmadan bir bilgisayarın ses kartı kullanılarak çalınabilen müzik verileri için standart haline geldi. MIDI dosyalarının ana avantajı, çok küçük boyutlarıdır, çünkü bunlar ayrıntılı ses kayıtları değil, aslında geleneksel müzik notalarının bazı gelişmiş elektronik eşdeğerleridir. Ancak bu özellik aynı zamanda bir dezavantajdır: ses ayrıntılı olmadığı için, farklı ekipmanlar onu farklı şekillerde yeniden üretecektir, bu da prensipte yazarın müzikal niyetini gözle görülür şekilde bozabilir.

MOD formatı. MIDI dosyalarının ideolojisinin daha da geliştirilmesidir. "Çalma modülleri" olarak bilinenler, yalnızca "elektronik notaları" değil, aynı zamanda bireysel notalar için şablon olarak kullanılan sayısallaştırılmış ses örneklerini de depolarlar. Bu şekilde, net ses üretimi sağlanır. Formatın dezavantajları arasında, aynı anda çalan notaların şablonlarını üst üste bindirmek için gereken büyük miktarda zaman vardır.

WT kartının bellek kapasitesi ne kadar büyük olursa, ses o kadar gerçekçi olur (çünkü bellekte daha fazla örnek depolanır, daha yüksek çözünürlükte kaydedilir). Standart Genel MİDİ 200'den fazla enstrümanı tanımlar, ses örneklerini (tabloları) saklamak için en az 8 MB bellek gerekir (her örnek için en az 20 KB).

Bilinen WF yöntemi ( Dalga Biçim) seslerin karmaşık matematiksel formüllere dönüştürülmesine ve bu formüllerin sesi yeniden üretmek için güçlü bir işlemciyi kontrol etmek için daha fazla uygulanmasına dayanan ses üretimi; WF-sentezinden daha da iyi (FM ve WT teknolojileriyle ilgili olarak) müzik enstrümanlarının sınırlı hacimlerde ses dosyalarıyla çalınmasını bekliyorlar.

IBM PC tabanlı bir ses kartına harici aygıtları bağlamak için tipik şema ( harita) Şekil 4.8'de gösterilmiştir.

Veri akışını azaltmak için, diğer ( harika PCM'den) analog sinyal kodlama yöntemleri. Örneğin, bir analog sinyalin bilinen özelliklerine dayanan bir kodlama tekniğinin, depolanan veri miktarını önemli ölçüde azalttığı bilinmektedir; sözde ile -kodlama analog sinyal, sinyal büyüklüğünün logaritması tarafından belirlenen (doğrusal dönüşümüyle değil) dijital bir koda dönüştürülür. Bu yöntemin dezavantajı, orijinal sinyalin özellikleri hakkında önceden bilgi sahibi olma ihtiyacıdır.

Orijinal sinyal hakkında a priori bilgi gerektirmeyen bilinen dönüştürme yöntemleri vardır. NS diferansiyel darbe kodu modülasyonu(DPCM , Diferansiyel Nabız kod Modülasyon) sadece mevcut ve önceki sinyal seviyeleri arasındaki fark korunur (fark, dijital gösterim için gereklidir). az tam genlik değerinden daha fazla bit). NS delta modülasyonu(DM , Delta Modülasyon) her biri örneklem orijinal sinyaldeki değişikliğin işaretini belirleyen yalnızca bir bitten oluşur (artış veya azalma); delta modülasyonu daha yüksek bir örnekleme hızı gerektirir. Diferansiyel PCM teknolojileri, zaman içinde hata birikmesini içerir, bu nedenle ADC'yi periyodik olarak kalibre etmek için özel önlemler alınır.

Ses kaydederken en yaygın olanı uyarlanabilir darbe kodu modülasyonu (ADPCM, Uyarlanabilir Nabız kod Modülasyon) sinyal farkı için 8- veya 4-bit kodlama kullanarak. Teknoloji ilk olarak şirket tarafından uygulandı. Yaratıcı Laboratuvarlar ve 4:1'e kadar veri sıkıştırma sağlar.

Bununla birlikte, ses bilgilerinin diğer (yazılım) sıkıştırma / açma yöntemleri sıklıkla kullanılır; aralarında son zamanlarda en popüler format MP3 enstitü tarafından geliştirilen Fraunhofer IIS (Fraunhofer Integrierte Enstitüsü Schaltungen, www.iis.fhg.de) ve THOMSON (MP3 formatının tüm özellikleri www.mp3tech.org adresinde yayınlanmıştır). MP3 standardının tam adı MPEG-Audio Layer-3 (burada MPEGöz Hareketli Resim Uzman Grubu, yüksek tanımlı televizyonda kullanılması amaçlanan MPEG-3 standardı ile karıştırılmamalıdır).

Verilerin MP3 kodlaması, bağımsız ayrı veri bloklarının - çerçevelerin tahsisi yoluyla gerçekleşir. Bunu yapmak için, kodlama sırasında orijinal sinyal, çerçeveler olarak adlandırılan ve ayrı olarak kodlanan eşit süreli bölümlere bölünür (veri miktarını daha da azaltmak için, sıkıştırma kullanılarak uygulanır. Huffman'ın algoritması); kod çözme sırasında, sinyal bir dizi kodu çözülmüş çerçeveden oluşturulur. Kodlama işlemi önemli miktarda zaman alır, kod çözme (oynatma sırasında) anında gerçekleştirilir.

MP3 formatı, en küçük dosya boyutuyla en iyi ses kalitesini sağlar. Bu, etki de dahil olmak üzere insan işitmesinin özellikleri dikkate alınarak elde edilir. maskeleme komşu bir aralıktan daha güçlü bir sinyalle (olduğu zaman) bir frekans aralığındaki zayıf bir sinyal veya önceki çerçeveden gelen güçlü bir sinyal, kulağın mevcut çerçevenin sinyaline duyarlılığında geçici bir azalmaya neden olur (başka bir deyişle, başka bir an - daha yüksek sesin varlığı / önceki anı nedeniyle insan kulağı tarafından duyulmayan küçük sesler çıkarılır). Aynı zamanda, çoğu insanın farklı frekans aralıkları için farklı olan belirli bir güç seviyesinin altındaki sinyalleri ayırt edememesini de hesaba katar. Bu süreç denir uyarlanabilir kodlama ve en az tasarruf etmenizi sağlar önemli sesin detaylarının insan algısı açısından. Sıkıştırma oranı (dolayısıyla kalite) MP3 formatı tarafından belirlenmez, ancak veri akışı genişliği kodlama yaparken

Bu teknoloji kullanılarak sıkıştırılan ses bilgileri, MP3 veya WAV-MP3 dosyalarında aktarılabilir veya saklanabilir. İkincisi ve birincisi arasındaki fark, WAV dosyasının ek bir başlığının varlığındadır; bu, standart Windows araçlarının bir MP3 codec bileşeni (karmaşık bir sürümde codec, kodlayıcı ve kod çözücü) varlığında böyle bir dosyayla çalışmasına izin verir. ) Sistemde. Bir dosyayı kodlarken sıkıştırma parametreleri geniş sınırlar içinde değiştirilebilir. Sıradan dinleyicilerin çoğunluğu tarafından CD kalitesinden ayırt edilemeyen kalite, bir bit hızında elde edilir ( bit hızı, bit hızı) saniyede 112128 KB; sıkıştırma, orijinal hacme göre yaklaşık 14: 1'dir. Uzmanlar genellikle 256320 Kb / s'lik bir aktarım hızı gerektirir (bu, bir CD çaların hızının yalnızca iki katına karşılık gelir, ancak çoğu yerel InterNet hattı için mevcut değildir).

MPEG kodlamanın (hem video hem de ses bilgisi) temel özelliği, kayıplı sıkıştırma... MP3 yöntemini kullanarak ses dosyasını paketleyip açtıktan sonra, sonuç orijinaliyle aynı değil`bit to bit." Aksine, paketleme önemsiz bileşenleri paketlenmiş sinyalden kasıtlı olarak hariç tutar, bu da sıkıştırma oranında aşırı bir artışa yol açar (telefon kanalının kalitesiyle 96:1'e kadar sıkıştırma).

MP3 için de birçok kullanıcı dostu yazılım yazılmıştır. Donanım (cep ve araba) MP3 çalarların üretimine başlandı (MP3, 5 kanala kadar destekler).

1998-1999 yılları arasında şirket XingTech(www.xingtech.com) teknolojiyi ilk kullanan değişken bit hızı(VBR, Değişken Isırmak Oran). VBR durumunda, maksimum izin verilebilir kayıp düzeyi ve kodlayıcı, görevi tamamlamak için yeterli olan minimum bit hızını seçer. Son akışta yan yana duran çerçeveler, farklı parametrelerle kodlanmış olabilir.

Uzmanların hesaplamalarına göre, MP3 önümüzdeki on yılda (AAG ve VQF formatlarının ve teşvik edilen MS formatının varlığına rağmen) alakalı kalacaktır. WMA). başkalarının varlığı kodlayıcılar(bir formattan diğerine bilgi dönüştürücüler) bkz. www.sulaco.org/mp3/free.html ve www.xiph.org.

MP3'ün (çok yakın olmayan) gelecekte olası bir rakibi, ses sahnelerine nesne yaklaşımına (dil) dayalı MPEG-4 formatı (daha doğrusu ses bileşeni olabilir) olabilir. BIFS Ses kaynaklarını sahnenin üç boyutlu alanına yerleştirmenize, özelliklerini kontrol etmenize ve birbirinden bağımsız olarak efektler uygulamanıza vb. olanak tanır, sonraki sürümlerde akustik parametrelerini ayarlama yeteneği eklemesi beklenir. Çevre).

MPEG-4, ses nesnelerini kodlamak için hem canlı hem de sentezlenmiş sesler için araç takımları sunar.MPEG-4, farklı sıkıştırma algoritmalarına izin veren araç takımları açısından bit akışı sözdizimini ve kod çözme işlemini belirtir.canlı sesler - 2 ila 128 Kbayt/sn ve daha yüksek Değişken bir akışla kodlama yaparken, minimum ortalama hız daha da düşük olabilir (yaklaşık 1,2 Kbyte/sn.) En yüksek kalitede ses için, 10 kattan daha küçük bir akışa sahip CD'den daha iyi kalite veren AAC algoritması kullanılır. Canlı ses için başka bir olası kodlama algoritması TwinVQ... Konuşmayı kodlamak için algoritmalar önerildi HVXC(Harmonik Vektör Uyarım Kodlaması) 24 Kbyte/sn bit hızları için ve CELP(Kod Heyecanlı Doğrusal Öngörülü) 424 Kbyte/sn hızlar için.

MPEG-4, konuşma sentez yeteneği olduğunu varsayar. Sentezleyici girişleri, konuşulan metni ve ayrıca sesin "renklendirilmesinin" çeşitli parametrelerini alır - vurgu, perdedeki değişiklik, fonemleri telaffuz etme hızı, vb. Ayrıca " için cinsiyet, yaş, aksan vb. ayarlayabilirsiniz. hangi sentezleyicinin, karşılık gelen fonemi telaffuz etmekle eşzamanlı olarak, sistemin diğer bileşenlerine parametreleri veya komutları aktaracağını tespit ettikten sonra (örneğin, sesle paralel olarak, yüz animasyonu için bir parametre akışı oluşturulabilir) . Her zaman olduğu gibi, MPEG-4 işin kurallarını, sentezleyici arayüzünü belirler, ancak iç yapısını değil.

'Ses' bileşeninin ilginç kısmı, keyfi seslerin ve müziğin sentezidir.MPEG-4, standart olarak birçok ileri teknolojinin beşiğinde geliştirilmiş bir yaklaşım sunar - MIT Medya Laboratuvarı... ve adlı SA ( Yapılandırılmış Ses, Yapılandırılmış Ses). Bu, belirli bir sentez yöntemi değil, mevcut yöntemlerden herhangi birinin (ve belirtildiği gibi, gelecekteki yöntemlerin) belirtilebileceği sentez yöntemlerini tanımlamak için bir formattır. Bunun için iki dil sunulmaktadır - SAOL (Yapılandırılmış Ses Orkestrası Dili) ve SASL (Yapılandırılmış Ses Puanı Dili). Birincisi orkestrayı, ikincisi orkestranın ne çalması gerektiğini belirtir. Orkestra enstrümanlardan oluşur, her enstrüman birlikte istenen sesi sentezleyen bir dijital sinyal işleme elemanları - sentezleyiciler, dijital filtreler ağı ile temsil edilir. SAOL ile, doğal veya yapay ses olmak üzere hemen hemen istediğiniz herhangi bir enstrümanı programlayabilirsiniz. İlk olarak, kod çözücüye bir dizi enstrüman yüklenir ve ardından SASL veri akışı sentez sürecini yöneterek bu orkestrayı çaldırır; bu, çok düşük giriş akışı ve yüksek kontrol hassasiyeti ile tüm kod çözücülerde aynı sesi sağlar. MPEG-4'ün ortaya çıkışıyla, ITV fikri ( etkileşimli TeleVision, Etkileşimli Televizyon), birkaç yıldır tartıştıkları ve herkesin kendi başına bir şeyler anladığı (basit "isteğe bağlı videodan" çok değişkenli arsa geliştirme ve izleyicinin katılımı ile dedektif hikayelerine kadar).

MPEG-4 verileri esas olarak medya verilerinin kaydı ve sentezindeki mevcut eğilimler hakkında bilgi için verilmiştir, ilgilenenler cselt.it/mpeg ve www.mpeg.org'a başvururlar. 2000 yılının sonunda, MPEG geliştirme grubu, MPEG-7 standardı (resmi olarak adlandırılan) üzerindeki çalışmaların tamamlandığını duyurmayı planladı. Multimedya İçeriği Tanım Arayüzü).