Ses girişi. Entegrasyon için açık API'lerle en iyi kapalı kaynaklı sesli konuşma tanıma sistemini bulma

19.04.2019

yıldız işareti

google API'si,

Yandex API'sı

Konuşma Tanıma için API Seçme

Sadece api seçeneğini düşündüm, kutulu çözümler gerekli değildi, çünkü kaynaklar gerektiriyorlardı, tanıma için veriler iş için kritik değil ve bunları kullanmak çok daha zor ve daha fazla adam-saat gerektiriyor.

Birincisi Yandex SpeechKit Cloud'du. Kullanım kolaylığı için hemen beğendim:

Curl -X POST -H "İçerik Türü: ses/x-wav" --data-binary "@speech.wav" "https://asr.yandex.net/asr_xml?uuid=<идентификатор пользователя>&anahtar= &konu=sorgular"
1000 istek için 400 ruble fiyatlandırma politikası. İlk ay ücretsizdir. Ancak bundan sonra, sadece hayal kırıklıkları izledi:

Büyük bir cümlenin iletilmesinde 2-3 kelimelik bir yanıt geldi.
- Bu kelimeler garip bir sırayla tanındı
- Konuyu değiştirme girişimleri olumlu sonuçlar getirmedi

Belki de bu, kaydın ortalama kalitesinden kaynaklanıyordu, her şeyi ses ağ geçitleri ve eski panasonic telefonlar aracılığıyla test ettik. Gelecekte bir IVR oluşturmak için kullanmayı planlıyorum.

Bir sonraki Google'dan bir hizmetti. İnternet, Chromium Developer API'nin kullanımını öneren makalelerle dolu. Artık bu API'nin anahtarlarını elde etmek artık o kadar kolay değil. Bu nedenle ticari bir platform kullanacağız.

Fiyatlandırma politikası - ayda 0-60 dakika ücretsiz. 15 saniyelik konuşma için ayrıca 0,006 ABD doları. Her istek 15'in katına yuvarlanır. İlk iki ay ücretsizdir, proje oluşturmak için kredi kartı gereklidir. Temel belgelerdeki API'nin kullanım durumları çeşitlidir. Bir Python betiği kullanacağız:

Belgelerden komut dosyası

"""Toplu işleme için REST API kullanan Google Cloud Speech API örnek uygulaması.""" argparse import base64 import json'u googleapiclient'ten import import discovery httplib2'yi oauth2client.client'ten import GoogleCredentials DISCOVERY_URL = ("https://(api. googleapis) .com/$discovery/rest?" "version=(apiVersion)") def get_speech_service(): kimlik bilgileri = GoogleCredentials.get_application_default().create_scoped(["https://www.googleapis.com/auth/cloud-platform " ]) http = httplib2.Http() kimlik bilgileri.authorize(http) return discovery.build("speech", "v1beta1", http=http, discoveryServiceUrl=DISCOVERY_URL) def main(speech_file): """Verilen ses dosyasını kopyalayın .Args: konuşma_dosyası: ses dosyasının adı. """ ile open(speech_file, "rb") konuşma olarak: konuşma_content = base64.b64encode(speech.read()) service = get_speech_service() service_request = service.speech ( ).syncrecognize(body=( "config": ("kodlama": "LINEAR16", # ham 16 bit işaretli LE örnekleri "sampleRate": 1) 6000, # 16 khz "languageCode": "en-US", # a BCP-47 dil etiketi ), "audio": ( "content": konuşma_content.decode("UTF-8") ) )) yanıt = service_request. execute() print(json.dumps(response)) if __name__ == "__main__": parser = argparse.ArgumentParser() parser.add_argument("speech_file", help="Tanınacak ses dosyasının tam yolu") args = parser.parse_args() ana(args.speech_file)

Google Cloud Speech API'yi kullanmaya hazırlanma

Projeyi kaydetmemiz ve yetkilendirme için bir hizmet hesabı anahtarı oluşturmamız gerekecek. İşte denemeyi almak için bağlantı, bir google hesabına ihtiyacınız var. Kayıttan sonra API'yi etkinleştirmeniz ve bir yetkilendirme anahtarı oluşturmanız gerekir. Ardından anahtarı sunucuya kopyalamanız gerekir.

Sunucunun kendisini kurmaya devam edelim, ihtiyacımız olacak:

piton
- piton-pip
- piton google API istemcisi

sudo apt-get install -y python python-pip pip kurulumu --upgrade google-api-python-client
Şimdi api ile başarılı bir şekilde çalışmak için iki ortam değişkenini dışa aktarmamız gerekiyor. Birincisi hizmet anahtarına giden yoldur, ikincisi projenizin adıdır.

GOOGLE_APPLICATION_CREDENTIALS=/path/to/service_account_file.json dışa aktarma GCLOUD_PROJECT=proje-kimliğiniz
Bir test ses dosyası indirin ve komut dosyasını çalıştırmayı deneyin:

wget https://cloud.google.com/speech/docs/samples/audio.raw python voice.py audio.raw("sonuçlar": [("alternatifler": [("güven": 0.98267895, "transkript": "Brooklyn Köprüsü kaç yaşında")]))))
İyi! İlk test başarılı. Şimdi komut dosyasındaki metin tanıma dilini değiştirelim ve onu tanımaya çalışalım:

Nano voice.py service_request = service.speech().syncrecognize(body=( "config": ("kodlama": "LINEAR16", # ham 16 bit işaretli LE örnekleri "sampleRate": 16000, # 16 khz "languageCode" : "ru-RU", # bir BCP-47 dil etiketi
Bir .raw ses dosyasına ihtiyacımız var. Bunun için sox kullanıyoruz

apt-get install -y sox sox test.wav -r 16000 -b 16 -c 1 test.raw python voice.py test.raw ("sonuçlar": [("alternatifler": [("güven": 0.96161985, " transkript": "\u0417\u0434\u0440\u0430\u0432\u0441\u0442\u0432\u0443\u0439\u0442\u0435 \u0412\u0430\u0441 \u043f\u0440\u0438\u0432\u0442\u0441 \u0432\u04 \u0435\u0442 \u043a\u043e\u043c\u043f\u0430\u043d\u0438\u044f")])])
Google bize cevabı unicode olarak verir. Ama normal harfleri görmek istiyoruz. Voice.py dosyamızı biraz değiştirelim:

Yazdır(json.dumps(yanıt))
Kullanacağız

S = simplejson.dumps(("var": yanıt), emin_ascii=Yanlış) print s
ekleyelim basit json'u içe aktar. Kesimin altındaki son senaryo:

ses.py

"""Toplu işleme için REST API'sini kullanan Google Cloud Speech API örnek uygulaması.""" argparse import base64 import json import googleapiclient'ten import discovery import httplib2 oauth2client.client'ten import GoogleCredentials DISCOVERY_URL = ("https://(api) ).googleapis.com/$discovery/rest?" "version=(apiVersion)") def get_speech_service(): kimlik bilgileri = GoogleCredentials.get_application_default().create_scoped(["https://www.googleapis.com/auth/cloud -platform"]) http = httplib2.Http() kimlik bilgileri.authorize(http) return discovery.build("speech", "v1beta1", http=http, discoveryServiceUrl=DISCOVERY_URL) def main(speech_file): """Şunu kopyalayın verilen ses dosyası.Args: konuşma_dosyası: ses dosyasının adı. """ ile open(speech_file, "rb") konuşma olarak: konuşma_content = base64.b64encode(speech.read()) service = get_speech_service() service_request = service .speech().syncrecognize(body=( "config": ("kodlama": "LINEAR16", # ham 16 bit imzalı LE örneği) s "sampleRate": 16000, # 16 khz "languageCode": "en-US", # a BCP-47 dil etiketi ), "audio": ( "content": konuşma_content.decode("UTF-8") ) ) ) yanıt = service_request.execute() s = simplejson.dumps(("var": yanıt), emin_ascii=Yanlış) s if __name__ == "__main__": parser = argparse.ArgumentParser() parser.add_argument("speech_file" , help="Tanınacak ses dosyasının tam yolu") args = parser.parse_args() main(args.speech_file)

Ancak çalıştırmadan önce bir ortam değişkeni daha dışa aktarmanız gerekecek. PYTHONIOENCODING=UTF-8'i dışa aktar. Onsuz, komut dosyalarında çağrıldığında stdout ile ilgili sorunlar yaşadım.

PYTHONIOENCODING=UTF-8 python voice.py test.raw ("var": ("sonuçlar": [("alternatifler": [("güven": 0.96161985, "transkript": "Merhaba, hoş geldiniz şirket")]) ]))
İyi. Şimdi bu betiği arama planında çağırabiliriz.

Yıldızlı arama planı örneği

Komut dosyasını çağırmak için basit bir arama planı kullanacağım:

Exten => 1234,1,Yanıt uzantısı => 1234,n,wait(1) exten => 1234,n,Playback(howtomaketicket) exten => 1234,n,Playback(bip) exten => 1234,n,Set( DOSYA=$(CALLERID(num))--$(EXTEN)--$(STRFTIME($(EPOCH),%d-%m-%Y--%H-%M-%S))).wav) exten => 1234,n,MixMonitor($(FILE),/opt/test/send.sh [e-posta korumalı]"$(CDR(src))" "$(CALLERID(name))" "$(DOSYA)") exten => 1234,n,wait(28) exten => 1234,n,Playback(bip) exten => 1234,n,Playback(Teşekkürler!) exten => 1234,n,Hangup()
Bitirdiğimde betiği kaydetmek ve çalıştırmak için mixmonitor kullanıyorum. Kaydı kullanabilirsiniz ve bu muhtemelen daha iyi olur. Gönderilecek bir örnek send.sh - zaten mutt'u yapılandırdığınızı varsayar:

#!/bin/bash # bildirim göndermek için komut dosyası # gerekli ortam değişkenlerini dışa aktar # google lisans dosyası dışa aktar GOOGLE_APPLICATION_CREDENTIALS=/opt/test/project.json # proje adı dışa aktar GCLOUD_PROJECT=proje kimliği # python kodlaması dışa aktar PYTHONIOENCODING=UTF-8 # girdi değişkenleri listesi EMAIL=$1 CALLERIDNUM=$2 CALLERIDNAME=$3 FILE=$4 # ses dosyasını google api'ye vermek için ham olarak yeniden kodlayın sox /var/spool/asterisk/monitor/$FILE -r 16000 -b 16 - c 1 /var/spool/asterisk/monitor/$FILE.raw # sesi metne dönüştürmek ve gereksiz olanları kesmek için yürütülen komut dosyasının değerini değişkene atamak TEXT=`python /opt/test/voice.py /var /spool/yıldız/monitör /$FILE.raw | sed -e "s/.*transkript"://" -e "s/)])]))//"` # e-posta gönder, tanınan metni dahil et echo "numaradan yeni bildirim: $CALLERIDNUM $CALLERIDNAME $ METİN " | mutt -s "Bu, postanın başlığıdır" -e "set [e-posta korumalı] realname="Uyarılar gönderiyorum"" -a "/var/spool/asterisk/monitor/$FILE" -- $EMAIL

Çözüm

Böylece sorunu çözmüş olduk. Umarım deneyimim birileri için yararlıdır. Yorum yapmaktan memnuniyet duyacağım (belki de sadece bunun uğruna ve Habr'ı okumaya değer!). Gelecekte, buna dayalı bir IVR'yi sesli kontrol öğeleriyle uygulamayı planlıyorum.

Google Konuşma API'sı- Google ses tanıma hizmeti.

Konuşma tanıma, tuşlu kontrolün uygulanamadığı durumlarda otomatik müşteri hizmetleri için sistemler oluşturmanıza olanak tanır. Örnek olarak, çok sayıda şehrin seçimini içeren uçak bileti rezervasyonu hizmetini düşünün. Böyle bir hizmette ton menüsü uygun değildir, bu nedenle ses kontrolü en verimlisi olacaktır. Sistem ve abone arasındaki diyalog şöyle görünebilir:

Sistem: Merhaba. Nereye uçmak istiyorsun? Abone: Kazan Sistemi: Nereden uçmak istiyorsunuz? Abone: Moskova Sistem: Kalkış tarihini belirtin Abone: 10 Nisan

Sesli navigasyon çok seviyeli menüler IVR ve otomatik bağlantı doğru çalışanla
Teslimat adresi tanıma
Telefonla veya İnternet üzerinden kişiselleştirilmiş veya gizli bilgi talep edildiğinde kullanıcıların otomatik sesli doğrulaması
Bilgi Hizmeti Yardım Sistemi
Müşteriler için kurumsal sesli self servis sistemi (bakiye sorgulama, kontrol kişisel hesap, bilet rezervasyonu)

Bir konuşma tanıma sistemi genellikle aşağıdaki bölümlerden oluşur:

Aboneden gelen mesajı kaydetme
Ses tanıma ve servisten metin verisi alma
Alınan bilgilerin analizi ve gerekli eylemlerin uygulanması

Kullanmak için Google Konuşma API'sı sisteminizde aşağıdakileri yapın:

Aşama 1. Komut dosyalarını indirin ve sisteminize aktarın Tamam söyle.

Komut dosyasını indirin:(sürümler için Tamam söyle 2.10'dan eski)

Arşiv iki komut dosyası içerir:

Google_Speech_API_main- sesli mesaj kaydetmek için bir komut dosyası, ana komut dosyasında tanıma hizmetinin doğru kullanımına bir örnektir.
Google_Speech_API- kaydı göndermek için komut dosyası Google hizmeti ve tanınan mesajın alınması.

Komut dosyalarını içe aktardıktan sonra Tamam söyle, onları kurtar " sunucu başına"

UYARI: Google Speech API ücretli bir üründür. Bir komut dosyasında (Web isteği bileşeni Google sesi) nedeniyle bloke edilebilir bir deneme anahtarı kullanılır belirli sayı istekler. testler sırasında en yüksek miktar istekleri bulunamadı. satın almak isterseniz Ücretli sürüm Google Speech API, Google desteğine başvurun.

Adım 2 Modülde " Yönetim" - "Dahili numaralar" Ekle uzatma numarası tipi ile" IVR Başlatma". Bir IVR senaryosu seçin Google_Speech_API_main.

Web Speech API, ses verilerini web uygulamalarına dahil etmenizi sağlar. Web Konuşma API'sinin iki bölümü vardır: SpeechSynthesis (Metin-Konuşma) ve SpeechRecognition (Eşzamansız Konuşma Tanıma.)

Web Konuşma Kavramları ve Kullanımı

Web Speech API, web uygulamalarının ses verilerini işleyebilmesini sağlar. Bu API'nin iki bileşeni vardır:

Konuşma tanımaya, bir ses girişinden ses içeriğini tanıma (normalde cihazın varsayılan konuşma tanıma hizmeti aracılığıyla) ve uygun şekilde yanıt verme yeteneği sağlayan SpeechRecognition arabirimi aracılığıyla erişilir.Genellikle yeni bir SpeechRecognition nesnesi oluşturmak için arabirimin yapıcısını kullanırsınız, aygıtın mikrofonu aracılığıyla konuşma girildiğini algılamak için bir dizi olay işleyiciye sahiptir. SpeechGrammar arabirimi, uygulamanızın tanıması gereken belirli bir dilbilgisi kümesi için bir kapsayıcıyı temsil eder. Dilbilgisi, JSpeech Dilbilgisi Biçimi kullanılarak tanımlanır ( JSGF.)
Konuşma sentezine, programların metin içeriklerini (normalde cihazın varsayılan konuşma sentezleyicisi aracılığıyla) okumasına izin veren bir metin-konuşma bileşeni olan SpeechSynthesis arabirimi aracılığıyla erişilir. Farklı ses türleri SpeechSynthesisVoice nesneleri tarafından temsil edilir ve metnin farklı bölümleri, Konuşmak istediğiniz SpeechSynthesisUtterance nesneleri tarafından temsil edilir.

Web Konuşma API Arayüzleri

Konuşma tanıma

SpeechRecognition Tanıma hizmeti için denetleyici arabirimi; bu aynı zamanda tanıma hizmetinden gönderilen SpeechRecognitionEvent'i de işler. SpeechRecognitionAlternative Konuşma tanıma hizmeti tarafından tanınan tek bir sözcüğü temsil eder. SpeechRecognitionError Tanıma hizmetinden gelen hata mesajlarını temsil eder. SpeechRecognitionEvent Sonuç ve eşleşmeyen olaylar için olay nesnesi ve şunları içerir: hepsi bir ara veya nihai konuşma tanıma sonucuyla ilişkili veriler. SpeechGrammar Tanıma hizmetinin tanımasını istediğimiz sözcükler veya sözcük kalıpları. SpeechGrammarList SpeechGrammar nesnelerinin bir listesini temsil eder. SpeechRecognitionResult Birden çok SpeechRecognitionAlternative nesnesi içerebilen tek bir tanıma eşleşmesini temsil eder. SpeechRecognitionResultList SpeechRecognitionResult nesnelerinin bir listesini veya sonuçlar sürekli modda yakalanıyorsa tek bir nesneyi temsil eder.

Konuşma sentezi

SpeechSynthesis Konuşma hizmeti için denetleyici arabirimi; bu, cihazda bulunan sentez sesleri hakkında bilgi almak, konuşmayı başlatmak ve duraklatmak ve bunun yanı sıra diğer komutlar için kullanılabilir. SpeechSynthesisErrorEvent Konuşma hizmetinde SpeechSynthesisUtterance nesneleri işlenirken oluşan hatalar hakkında bilgi içerir. SpeechSynthesisEvent SpeechSynthesisUtterance nesnelerinin geçerli durumu hakkında bilgi içerir. olmuştur konuşma hizmetinde işlenir. SpeechSynthesisUtterance Bir konuşma isteğini temsil eder. Konuşma servisinin okuması gereken içeriği ve nasıl okunacağına dair bilgileri içerir (ör. dil, perde ve ses seviyesi.) SpeechSynthesisVoice Sistemin desteklediği bir sesi temsil eder. Her SpeechSynthesisVoice'ın dil, ad ve URI hakkında bilgiler içeren kendi göreli konuşma hizmeti vardır. Window.speechSynthesis SpeechSynthesisGetter adlı bir arabirimin parçası olarak belirtilen ve Window nesnesi tarafından uygulanan konuşmaSynthesis özelliği, SpeechSynthesis denetleyicisine erişim ve dolayısıyla konuşma sentezi işlevine giriş noktası sağlar.

Örnekler

GitHub'daki Web Speech API deposu, konuşma tanıma ve sentezini gösteren demolar içerir.

Özellikler

Şartname	Durum	Yorum
Web Konuşma API'sı	Taslak	ilk tanım

Tarayıcı Uyumluluğu

Konuşma tanıma

https://github.com/mdn/browser-compat-data ve bize bir çekme isteği gönderin.

	masaüstü	mobil
	Krom	köşe	Firefox	Internet Explorer	Opera	safari	android web görünümü	Android için Chrome	Uç Mobil	Android için Firefox	Android için Opera	iOS'ta Safari	Samsung İnternet
Konuşma tanıma Deneysel	Chrome Tam destek 33 ön ekli notlar Tam destek 33 ön ekli notlar ön ekli	köşe?	Firefox Destek yok Hayır	IE Destek yok Hayır	Opera Destek yok Hayır	Safari Destek yok Hayır	web görünümü android?	Chrome Android Tam destek Evet ön ekli notlar Tam destekEvet ön ekli notlar ön ekli Satıcı öneki ile uygulandı: webkit Notes Tanıma işleminin çalışması için kodunuzu bir web sunucusu üzerinden sunmanız gerekir.	kenar mobil?	Firefox Android	Opera Android	Safari iOS Destek yok Hayır	Samsung İnternet Android?

masaüstü

mobil

Krom

köşe

Firefox

Internet Explorer

Opera

safari

android web görünümü

Android için Chrome

Uç Mobil

Android için Firefox

Android için Opera

iOS'ta Safari

Samsung İnternet

Konuşma tanıma

Deneysel

Chrome Tam destek 33

ön ekli notlar

Tam destek 33

ön ekli notlar

ön ekli

köşe?

Firefox Destek yok Hayır

IE Destek yok Hayır

Opera Destek yok Hayır

Safari Destek yok Hayır

web görünümü android?

Chrome Android Tam destek Evet

ön ekli notlar

Tam destekEvet

ön ekli notlar

ön ekli Satıcı öneki ile uygulandı: webkit Notes Tanıma işleminin çalışması için kodunuzu bir web sunucusu üzerinden sunmanız gerekir.

kenar mobil?

Firefox Android

Opera Android

Safari iOS Destek yok Hayır

Samsung İnternet Android?

Efsane

Tam destek Tam destek destek yok destek yok Uyumluluk bilinmiyor Uyumluluk bilinmiyor Deneysel. Davranışın gelecekte değişmesini bekleyin. Deneysel. Davranışın gelecekte değişmesini bekleyin. Uygulama notlarına bakın. Uygulama notlarına bakın. Kullanım için bir satıcı öneki veya farklı bir ad gerektirir.

Konuşma sentezi

Bu sayfadaki uyumluluk tablosu, yapılandırılmış verilerden oluşturulmuştur. Verilere katkıda bulunmak istiyorsanız, lütfen https://github.com/mdn/browser-compat-data adresini kontrol edin ve bize bir çekme talebi gönderin.

GitHub'da uyumluluk verilerini güncelleyin


	masaüstü						mobil
	Krom	köşe	Firefox	Internet Explorer	Opera	safari	android web görünümü	Android için Chrome	Uç Mobil	Android için Firefox	Android için Opera	iOS'ta Safari	Samsung İnternet

Artık bilgisayar olmadan yapmak imkansız modern dünya. Photoshop ustası olmanız veya profesyonel olarak video düzenlemeniz gerekmez (tabii ki işle ilgili değilse). Ancak bir miktar metin yazabilmek gerekli bir minimumdur.

2. Web Konuşma API'sı

Çevrimiçi Program Web Speech API, işlevsellik açısından öncekilerle tamamen aynıdır.

Bu hizmet de yukarıda sayılanlar gibi Google tarafından oluşturulmuştur.

Ana Sayfaöyle görünüyor:

İÇİNDE basit arayüz Kayda başlamak için bir dil seçmeniz ve ardından mikrofona tıklamanız gerektiği hemen açıktır.

Sağdaki ikona tıkladıktan sonra sistem erişim talebinde bulunacaktır.

"Devam et" dedikten sonra hemen işe başlayabilirsiniz. Metni sesle yazın, basılı versiyonu pencerede görünecektir.

Çalışmayı bitirdikten sonra, metin ihtiyacınız olan yere kopyalanabilir (yine, ctrl + C, ctrl + V).

Numara 3. konuşkan

Eşit derecede basit bir program Talktyper'dir.

Başlamak için siteye gidin: https://talktyper.com/ru/index.html.

Başlamak için sağdaki mikrofon simgesine tıklamanız yeterlidir.

Yukarıda açıklananlardan farklı olarak, bu daktilo herhangi bir tarayıcı kullanılarak açılabilir. Site ABD'de oluşturulmuş olmasına rağmen, uygulama en çok popüler diller Rusça dahil dünya.

Talktyper çok işlevlidir: yalnızca yazmakla kalmaz, noktalama işaretleri de koyar, hataları kendi başına düzeltir. Sistem okuduğunuz bir kelimeyi doğru olarak tanıyamazsa, kesinlikle vurgulanacaktır.

Ayrıca Talktyper, seslendirmenin yanı sıra bir çeviri işlevine de sahiptir.

Not! Sesle yazmayı bitirdikten sonra, yazılan belgenin başka bir alana aktarılması için oku tıkladığınızdan emin olun. Bundan sonra, gönderilebilir e-posta veya istediğiniz dosyaya kopyalayın.

Sesli arama programlarıyla çalışırken olası sorunlar

Bu programları kullanmaya başladığınızda, bilgisayarın sesimizi nasıl tanıdığını ve ardından onu canlı metne nasıl çevirdiğini kesinlikle düşüneceksiniz.

Cihazın konuşma tanıma şeması şöyle görünür:

Tüm süreç 3 ana adıma ayrılabilir:

Akustik tanıyıcı.

Açık ve yüksek sesle konuşmak önemlidir, mikrofon sesi kesintisiz iletmelidir.

dilsel işleme.

Programın sözlüğünde ne kadar çok kelime varsa, yazılan metin o kadar iyi olur. Yani, söylediğiniz her şey tanınacak ve metin formu bozulma olmadan.

Tanınan yazım metni.

Program otomatik olarak yazımı görüntüler grafik versiyonu duraklamalara, kelimelerin netliğine, sözlükte bulunan belirteçlere vb. dayalı dikte konuşma.

Bilgisayar dizgileriyle çalışırken, en sık 2 sorun ortaya çıkar:

Akustik tanıyıcı konuşmanızı aralıklı olarak "alır".
Sistemin kelime dağarcığında söylediğiniz her şeyi tanımaya yetecek kadar kelime yok.

İlk sorunu çözmek için açık ve yüksek sesle konuşmanız gerekir. Ancak ikinci sorun için pratikte hiçbir çözüm yok, en azından ücretsiz bir çözüm.

Serbestçe dağıtılan konuşma tanıma programlarının sürümleri çok sınırlı kelime dağarcığına sahiptir.

Geniş bir kelime dağarcığına sahip bir program sağlamak için geliştiricilerin çok para yatırması gerekiyor, pek çok tanıyıcı gösteriyor düşük seviye konuşmanın metne çevrilmesi.

Bu işin en ilerisi Google'ı geliştirdi çünkü. yatırım yapmak için yeterli fona sahiptir. Bu şirket, diğer şeylerin yanı sıra, sesi tanımaya ve onu grafik versiyonuna çevirmeye yardımcı olan en büyük çevrimiçi sözlüğü yarattı.

Ayrıntılı bir kılavuz için bu videoya bakın:

Bir konuşma yaptığınızda, oda sessiz olmalıdır. Doğanın sesleri, müzik, bir çocuğun ağlaması sistem tarafından gürültü olarak algılanır. Bu nedenle, metin ile yazılacak büyük hatalar.
Bir şey yiyorsanız konuşmayın. Bu sadece setin kalitesini etkilemekle kalmaz, aynı zamanda hayatı tehdit eder.

Çalışmaya başlamadan önce, sesiniz için doğru ses seviyesini seçmeniz ve mikrofonunuzun ne kadar hassas olduğunu anlamanız gerekir.

Bunu yapmak için, tanıdık bir tonda birkaç cümle yazmaya çalışın. Kayıtta kesintiler olursa mikrofon ayarlarına bakın.

Kelimeler arasında küçük duraklamalar yapın.
Uzun ifadelerden kaçının.

Biri bunu söyleyecek için program sesli arama - Bu, ellerini serbest bırakan ve genel olarak hayatı kolaylaştıran harika bir yardımcıdır. Diğerleri "oyunun muma değmeyeceğine" karar verecek. Bu nedenle, bunları kullanıp kullanmamak size kalmış.

Ve hangi hizmetleri seçeceğinizi zaten biliyorsunuz ...

O günden bu yana bağımsız geliştiriciler, Google ürünlerinin temel aldığı konuşma tanıma teknolojisi olan Cloud Speech API'ye erişim elde etti. Güncellemeyi alan ürün artık Google Cloud'da mevcut.

Cloud Speech'in açık beta sürümü geçen yaz yayınlandı. Bu teknoloji ile basit API geliştiricilerin sesi metne dönüştürmesine olanak tanır. Modeller sinir ağı 80'den fazla dili ve lehçeyi tanıyabilir ve metni telaffuz ettikten hemen sonra bitmiş transkripsiyon görünür.

API, konuşma tanıma işlevi sağlayan bir teknolojinin üzerine inşa edilmiştir. Google Asistan, Ara ve Şimdi, ancak teknolojiyi Bulut kullanıcılarının ihtiyaçlarına uyarlamak için yeni sürümde değişiklikler yapıldı.

Cloud Speech API'nin yeni sürümü nasıl farklı?

Geliştirici geri bildirimi sayesinde Google ekibi uzun ses kayıtlarının transkripsiyonunun doğruluğunu geliştirmeyi ve orijinal versiyona kıyasla verilerin işlenmesini 3 kat hızlandırmayı başardı. WAV, OPUS ve Speex dahil olmak üzere diğer ses formatları için destek de eklendi.

İstatistiksel olarak, bu API geçmişte en sık kullanılan uygulamaları ve cihazları yönetmek için kullanılıyordu. sesli arama, konuşma komutları ve ses menüsü. Ancak Cloud Speech, arabalar, TV'ler, hoparlörler ve tabii ki telefonlar ve PC'ler dahil olmak üzere çok çeşitli IoT cihazlarında kullanılabilir.

Teknolojinin sık kullanıldığı durumlar arasında çağrı merkezlerinin çalışmalarını analiz etmek, müşterilerle iletişimi takip etmek ve satışları artırmak için organizasyonlarda kullanılması dikkat çekiyor.

En son makaleler

Popüler Makaleler

Editörün Seçimi

2022-01-31 05:47:55

Güncelleştirmeler yüklendikten sonra Windows açılmıyor
Microsoft'un yeni Windows 10 işletim sistemi, dünya çapında milyonlarca PC kullanıcısı arasında şimdiden popülerlik kazandı. Ama tüm yeni ürünler gibi...
2022-01-31 05:47:55

Güncelleştirmeler yüklendikten sonra Windows açılmıyor
Windows 10'un neden başlamadığını anlamak için, sorunun hangi eylemlerden sonra ortaya çıktığını belirlemeniz gerekir: programları yeniden yükleme veya silme ...
2022-01-31 05:47:55

AVG Internet Security - ücretsiz lisans
AVG, bilgisayarınız, gizli verileriniz ve çevrimiçi etkinliğiniz için proaktif ve bulut tabanlı korumaya sahip, güvenilir ve hızlı kapsamlı bir virüsten koruma yazılımıdır. Daha fazla yazılım...
2022-01-31 05:47:55

AVG Internet Security - ücretsiz lisans
AVG Internet Security 2017 - yerleşik anti-spam, güvenlik duvarı ve etkili web ile kullanıcıya kapsamlı bir anti-virüs koruması sunar...
2022-01-31 05:47:55

Nokia Lumia akıllı telefonuma antivirüs yüklemem gerekiyor mu?
Japonya, II. Dünya Savaşı'nın sonucundan gözle görülür biçimde daha fazla etkilenmiştir. 1946'da hükümet, nüfusun tüm kişisel mevduatlarını dondurdu ve tanıttı ...