Ses girişi. Entegrasyon için açık API'lerle en iyi kapalı kaynaklı sesli konuşma tanıma sistemini bulma

  • 19.04.2019
  • yıldız işareti
  • google API'si,
  • Yandex API'sı
  • Konuşma Tanıma için API Seçme

    Sadece api seçeneğini düşündüm, kutulu çözümler gerekli değildi, çünkü kaynaklar gerektiriyorlardı, tanıma için veriler iş için kritik değil ve bunları kullanmak çok daha zor ve daha fazla adam-saat gerektiriyor.

    Birincisi Yandex SpeechKit Cloud'du. Kullanım kolaylığı için hemen beğendim:

    Curl -X POST -H "İçerik Türü: ses/x-wav" --data-binary "@speech.wav" "https://asr.yandex.net/asr_xml?uuid=<идентификатор пользователя>&anahtar= &konu=sorgular"
    1000 istek için 400 ruble fiyatlandırma politikası. İlk ay ücretsizdir. Ancak bundan sonra, sadece hayal kırıklıkları izledi:

    Büyük bir cümlenin iletilmesinde 2-3 kelimelik bir yanıt geldi.
    - Bu kelimeler garip bir sırayla tanındı
    - Konuyu değiştirme girişimleri olumlu sonuçlar getirmedi

    Belki de bu, kaydın ortalama kalitesinden kaynaklanıyordu, her şeyi ses ağ geçitleri ve eski panasonic telefonlar aracılığıyla test ettik. Gelecekte bir IVR oluşturmak için kullanmayı planlıyorum.

    Bir sonraki Google'dan bir hizmetti. İnternet, Chromium Developer API'nin kullanımını öneren makalelerle dolu. Artık bu API'nin anahtarlarını elde etmek artık o kadar kolay değil. Bu nedenle ticari bir platform kullanacağız.

    Fiyatlandırma politikası - ayda 0-60 dakika ücretsiz. 15 saniyelik konuşma için ayrıca 0,006 ABD doları. Her istek 15'in katına yuvarlanır. İlk iki ay ücretsizdir, proje oluşturmak için kredi kartı gereklidir. Temel belgelerdeki API'nin kullanım durumları çeşitlidir. Bir Python betiği kullanacağız:

    Belgelerden komut dosyası

    """Toplu işleme için REST API kullanan Google Cloud Speech API örnek uygulaması.""" argparse import base64 import json'u googleapiclient'ten import import discovery httplib2'yi oauth2client.client'ten import GoogleCredentials DISCOVERY_URL = ("https://(api. googleapis) .com/$discovery/rest?" "version=(apiVersion)") def get_speech_service(): kimlik bilgileri = GoogleCredentials.get_application_default().create_scoped(["https://www.googleapis.com/auth/cloud-platform " ]) http = httplib2.Http() kimlik bilgileri.authorize(http) return discovery.build("speech", "v1beta1", http=http, discoveryServiceUrl=DISCOVERY_URL) def main(speech_file): """Verilen ses dosyasını kopyalayın .Args: konuşma_dosyası: ses dosyasının adı. """ ile open(speech_file, "rb") konuşma olarak: konuşma_content = base64.b64encode(speech.read()) service = get_speech_service() service_request = service.speech ( ).syncrecognize(body=( "config": ("kodlama": "LINEAR16", # ham 16 bit işaretli LE örnekleri "sampleRate": 1) 6000, # 16 khz "languageCode": "en-US", # a BCP-47 dil etiketi ), "audio": ( "content": konuşma_content.decode("UTF-8") ) )) yanıt = service_request. execute() print(json.dumps(response)) if __name__ == "__main__": parser = argparse.ArgumentParser() parser.add_argument("speech_file", help="Tanınacak ses dosyasının tam yolu") args = parser.parse_args() ana(args.speech_file)

    Google Cloud Speech API'yi kullanmaya hazırlanma

    Projeyi kaydetmemiz ve yetkilendirme için bir hizmet hesabı anahtarı oluşturmamız gerekecek. İşte denemeyi almak için bağlantı, bir google hesabına ihtiyacınız var. Kayıttan sonra API'yi etkinleştirmeniz ve bir yetkilendirme anahtarı oluşturmanız gerekir. Ardından anahtarı sunucuya kopyalamanız gerekir.

    Sunucunun kendisini kurmaya devam edelim, ihtiyacımız olacak:

    piton
    - piton-pip
    - piton google API istemcisi

    sudo apt-get install -y python python-pip pip kurulumu --upgrade google-api-python-client
    Şimdi api ile başarılı bir şekilde çalışmak için iki ortam değişkenini dışa aktarmamız gerekiyor. Birincisi hizmet anahtarına giden yoldur, ikincisi projenizin adıdır.

    GOOGLE_APPLICATION_CREDENTIALS=/path/to/service_account_file.json dışa aktarma GCLOUD_PROJECT=proje-kimliğiniz
    Bir test ses dosyası indirin ve komut dosyasını çalıştırmayı deneyin:

    wget https://cloud.google.com/speech/docs/samples/audio.raw python voice.py audio.raw("sonuçlar": [("alternatifler": [("güven": 0.98267895, "transkript": "Brooklyn Köprüsü kaç yaşında")]))))
    İyi! İlk test başarılı. Şimdi komut dosyasındaki metin tanıma dilini değiştirelim ve onu tanımaya çalışalım:

    Nano voice.py service_request = service.speech().syncrecognize(body=( "config": ("kodlama": "LINEAR16", # ham 16 bit işaretli LE örnekleri "sampleRate": 16000, # 16 khz "languageCode" : "ru-RU", # bir BCP-47 dil etiketi
    Bir .raw ses dosyasına ihtiyacımız var. Bunun için sox kullanıyoruz

    apt-get install -y sox sox test.wav -r 16000 -b 16 -c 1 test.raw python voice.py test.raw ("sonuçlar": [("alternatifler": [("güven": 0.96161985, " transkript": "\u0417\u0434\u0440\u0430\u0432\u0441\u0442\u0432\u0443\u0439\u0442\u0435 \u0412\u0430\u0441 \u043f\u0440\u0438\u0432\u0442\u0441 \u0432\u04 \u0435\u0442 \u043a\u043e\u043c\u043f\u0430\u043d\u0438\u044f")])])
    Google bize cevabı unicode olarak verir. Ama normal harfleri görmek istiyoruz. Voice.py dosyamızı biraz değiştirelim:

    Yazdır(json.dumps(yanıt))
    Kullanacağız

    S = simplejson.dumps(("var": yanıt), emin_ascii=Yanlış) print s
    ekleyelim basit json'u içe aktar. Kesimin altındaki son senaryo:

    ses.py

    """Toplu işleme için REST API'sini kullanan Google Cloud Speech API örnek uygulaması.""" argparse import base64 import json import googleapiclient'ten import discovery import httplib2 oauth2client.client'ten import GoogleCredentials DISCOVERY_URL = ("https://(api) ).googleapis.com/$discovery/rest?" "version=(apiVersion)") def get_speech_service(): kimlik bilgileri = GoogleCredentials.get_application_default().create_scoped(["https://www.googleapis.com/auth/cloud -platform"]) http = httplib2.Http() kimlik bilgileri.authorize(http) return discovery.build("speech", "v1beta1", http=http, discoveryServiceUrl=DISCOVERY_URL) def main(speech_file): """Şunu kopyalayın verilen ses dosyası.Args: konuşma_dosyası: ses dosyasının adı. """ ile open(speech_file, "rb") konuşma olarak: konuşma_content = base64.b64encode(speech.read()) service = get_speech_service() service_request = service .speech().syncrecognize(body=( "config": ("kodlama": "LINEAR16", # ham 16 bit imzalı LE örneği) s "sampleRate": 16000, # 16 khz "languageCode": "en-US", # a BCP-47 dil etiketi ), "audio": ( "content": konuşma_content.decode("UTF-8") ) ) ) yanıt = service_request.execute() s = simplejson.dumps(("var": yanıt), emin_ascii=Yanlış) s if __name__ == "__main__": parser = argparse.ArgumentParser() parser.add_argument("speech_file" , help="Tanınacak ses dosyasının tam yolu") args = parser.parse_args() main(args.speech_file)


    Ancak çalıştırmadan önce bir ortam değişkeni daha dışa aktarmanız gerekecek. PYTHONIOENCODING=UTF-8'i dışa aktar. Onsuz, komut dosyalarında çağrıldığında stdout ile ilgili sorunlar yaşadım.

    PYTHONIOENCODING=UTF-8 python voice.py test.raw ("var": ("sonuçlar": [("alternatifler": [("güven": 0.96161985, "transkript": "Merhaba, hoş geldiniz şirket")]) ]))
    İyi. Şimdi bu betiği arama planında çağırabiliriz.

    Yıldızlı arama planı örneği

    Komut dosyasını çağırmak için basit bir arama planı kullanacağım:

    Exten => 1234,1,Yanıt uzantısı => 1234,n,wait(1) exten => 1234,n,Playback(howtomaketicket) exten => 1234,n,Playback(bip) exten => 1234,n,Set( DOSYA=$(CALLERID(num))--$(EXTEN)--$(STRFTIME($(EPOCH),%d-%m-%Y--%H-%M-%S))).wav) exten => 1234,n,MixMonitor($(FILE),/opt/test/send.sh [e-posta korumalı]"$(CDR(src))" "$(CALLERID(name))" "$(DOSYA)") exten => 1234,n,wait(28) exten => 1234,n,Playback(bip) exten => 1234,n,Playback(Teşekkürler!) exten => 1234,n,Hangup()
    Bitirdiğimde betiği kaydetmek ve çalıştırmak için mixmonitor kullanıyorum. Kaydı kullanabilirsiniz ve bu muhtemelen daha iyi olur. Gönderilecek bir örnek send.sh - zaten mutt'u yapılandırdığınızı varsayar:

    #!/bin/bash # bildirim göndermek için komut dosyası # gerekli ortam değişkenlerini dışa aktar # google lisans dosyası dışa aktar GOOGLE_APPLICATION_CREDENTIALS=/opt/test/project.json # proje adı dışa aktar GCLOUD_PROJECT=proje kimliği # python kodlaması dışa aktar PYTHONIOENCODING=UTF-8 # girdi değişkenleri listesi EMAIL=$1 CALLERIDNUM=$2 CALLERIDNAME=$3 FILE=$4 # ses dosyasını google api'ye vermek için ham olarak yeniden kodlayın sox /var/spool/asterisk/monitor/$FILE -r 16000 -b 16 - c 1 /var/spool/asterisk/monitor/$FILE.raw # sesi metne dönüştürmek ve gereksiz olanları kesmek için yürütülen komut dosyasının değerini değişkene atamak TEXT=`python /opt/test/voice.py /var /spool/yıldız/monitör /$FILE.raw | sed -e "s/.*transkript"://" -e "s/)])]))//"` # e-posta gönder, tanınan metni dahil et echo "numaradan yeni bildirim: $CALLERIDNUM $CALLERIDNAME $ METİN " | mutt -s "Bu, postanın başlığıdır" -e "set [e-posta korumalı] realname="Uyarılar gönderiyorum"" -a "/var/spool/asterisk/monitor/$FILE" -- $EMAIL

    Çözüm

    Böylece sorunu çözmüş olduk. Umarım deneyimim birileri için yararlıdır. Yorum yapmaktan memnuniyet duyacağım (belki de sadece bunun uğruna ve Habr'ı okumaya değer!). Gelecekte, buna dayalı bir IVR'yi sesli kontrol öğeleriyle uygulamayı planlıyorum.

    Google Konuşma API'sı- Google ses tanıma hizmeti.

    Konuşma tanıma, tuşlu kontrolün uygulanamadığı durumlarda otomatik müşteri hizmetleri için sistemler oluşturmanıza olanak tanır. Örnek olarak, çok sayıda şehrin seçimini içeren uçak bileti rezervasyonu hizmetini düşünün. Böyle bir hizmette ton menüsü uygun değildir, bu nedenle ses kontrolü en verimlisi olacaktır. Sistem ve abone arasındaki diyalog şöyle görünebilir:

    Sistem: Merhaba. Nereye uçmak istiyorsun? Abone: Kazan Sistemi: Nereden uçmak istiyorsunuz? Abone: Moskova Sistem: Kalkış tarihini belirtin Abone: 10 Nisan
    • Sesli navigasyon çok seviyeli menüler IVR ve otomatik bağlantı doğru çalışanla
    • Teslimat adresi tanıma
    • Telefonla veya İnternet üzerinden kişiselleştirilmiş veya gizli bilgi talep edildiğinde kullanıcıların otomatik sesli doğrulaması
    • Bilgi Hizmeti Yardım Sistemi
    • Müşteriler için kurumsal sesli self servis sistemi (bakiye sorgulama, kontrol kişisel hesap, bilet rezervasyonu)

    Bir konuşma tanıma sistemi genellikle aşağıdaki bölümlerden oluşur:

    • Aboneden gelen mesajı kaydetme
    • Ses tanıma ve servisten metin verisi alma
    • Alınan bilgilerin analizi ve gerekli eylemlerin uygulanması

    Kullanmak için Google Konuşma API'sı sisteminizde aşağıdakileri yapın:

    Aşama 1. Komut dosyalarını indirin ve sisteminize aktarın Tamam söyle.

    Komut dosyasını indirin:(sürümler için Tamam söyle 2.10'dan eski)

    Arşiv iki komut dosyası içerir:

    • Google_Speech_API_main- sesli mesaj kaydetmek için bir komut dosyası, ana komut dosyasında tanıma hizmetinin doğru kullanımına bir örnektir.
    • Google_Speech_API- kaydı göndermek için komut dosyası Google hizmeti ve tanınan mesajın alınması.

    Komut dosyalarını içe aktardıktan sonra Tamam söyle, onları kurtar " sunucu başına"

    UYARI: Google Speech API ücretli bir üründür. Bir komut dosyasında (Web isteği bileşeni Google sesi) nedeniyle bloke edilebilir bir deneme anahtarı kullanılır belirli sayı istekler. testler sırasında en yüksek miktar istekleri bulunamadı. satın almak isterseniz Ücretli sürüm Google Speech API, Google desteğine başvurun.

    Adım 2 Modülde " Yönetim" - "Dahili numaralar" Ekle uzatma numarası tipi ile" IVR Başlatma". Bir IVR senaryosu seçin Google_Speech_API_main.

    Web Speech API, ses verilerini web uygulamalarına dahil etmenizi sağlar. Web Konuşma API'sinin iki bölümü vardır: SpeechSynthesis (Metin-Konuşma) ve SpeechRecognition (Eşzamansız Konuşma Tanıma.)

    Web Konuşma Kavramları ve Kullanımı

    Web Speech API, web uygulamalarının ses verilerini işleyebilmesini sağlar. Bu API'nin iki bileşeni vardır:

    • Konuşma tanımaya, bir ses girişinden ses içeriğini tanıma (normalde cihazın varsayılan konuşma tanıma hizmeti aracılığıyla) ve uygun şekilde yanıt verme yeteneği sağlayan SpeechRecognition arabirimi aracılığıyla erişilir.Genellikle yeni bir SpeechRecognition nesnesi oluşturmak için arabirimin yapıcısını kullanırsınız, aygıtın mikrofonu aracılığıyla konuşma girildiğini algılamak için bir dizi olay işleyiciye sahiptir. SpeechGrammar arabirimi, uygulamanızın tanıması gereken belirli bir dilbilgisi kümesi için bir kapsayıcıyı temsil eder. Dilbilgisi, JSpeech Dilbilgisi Biçimi kullanılarak tanımlanır ( JSGF.)
    • Konuşma sentezine, programların metin içeriklerini (normalde cihazın varsayılan konuşma sentezleyicisi aracılığıyla) okumasına izin veren bir metin-konuşma bileşeni olan SpeechSynthesis arabirimi aracılığıyla erişilir. Farklı ses türleri SpeechSynthesisVoice nesneleri tarafından temsil edilir ve metnin farklı bölümleri, Konuşmak istediğiniz SpeechSynthesisUtterance nesneleri tarafından temsil edilir.

    Web Konuşma API Arayüzleri

    Konuşma tanıma

    SpeechRecognition Tanıma hizmeti için denetleyici arabirimi; bu aynı zamanda tanıma hizmetinden gönderilen SpeechRecognitionEvent'i de işler. SpeechRecognitionAlternative Konuşma tanıma hizmeti tarafından tanınan tek bir sözcüğü temsil eder. SpeechRecognitionError Tanıma hizmetinden gelen hata mesajlarını temsil eder. SpeechRecognitionEvent Sonuç ve eşleşmeyen olaylar için olay nesnesi ve şunları içerir: hepsi bir ara veya nihai konuşma tanıma sonucuyla ilişkili veriler. SpeechGrammar Tanıma hizmetinin tanımasını istediğimiz sözcükler veya sözcük kalıpları. SpeechGrammarList SpeechGrammar nesnelerinin bir listesini temsil eder. SpeechRecognitionResult Birden çok SpeechRecognitionAlternative nesnesi içerebilen tek bir tanıma eşleşmesini temsil eder. SpeechRecognitionResultList SpeechRecognitionResult nesnelerinin bir listesini veya sonuçlar sürekli modda yakalanıyorsa tek bir nesneyi temsil eder.

    Konuşma sentezi

    SpeechSynthesis Konuşma hizmeti için denetleyici arabirimi; bu, cihazda bulunan sentez sesleri hakkında bilgi almak, konuşmayı başlatmak ve duraklatmak ve bunun yanı sıra diğer komutlar için kullanılabilir. SpeechSynthesisErrorEvent Konuşma hizmetinde SpeechSynthesisUtterance nesneleri işlenirken oluşan hatalar hakkında bilgi içerir. SpeechSynthesisEvent SpeechSynthesisUtterance nesnelerinin geçerli durumu hakkında bilgi içerir. olmuştur konuşma hizmetinde işlenir. SpeechSynthesisUtterance Bir konuşma isteğini temsil eder. Konuşma servisinin okuması gereken içeriği ve nasıl okunacağına dair bilgileri içerir (ör. dil, perde ve ses seviyesi.) SpeechSynthesisVoice Sistemin desteklediği bir sesi temsil eder. Her SpeechSynthesisVoice'ın dil, ad ve URI hakkında bilgiler içeren kendi göreli konuşma hizmeti vardır. Window.speechSynthesis SpeechSynthesisGetter adlı bir arabirimin parçası olarak belirtilen ve Window nesnesi tarafından uygulanan konuşmaSynthesis özelliği, SpeechSynthesis denetleyicisine erişim ve dolayısıyla konuşma sentezi işlevine giriş noktası sağlar.

    Örnekler

    GitHub'daki Web Speech API deposu, konuşma tanıma ve sentezini gösteren demolar içerir.

    Özellikler

    Şartname Durum Yorum
    Web Konuşma API'sı Taslak ilk tanım

    Tarayıcı Uyumluluğu

    Konuşma tanıma

    https://github.com/mdn/browser-compat-data ve bize bir çekme isteği gönderin.

    masaüstümobil
    KromköşeFirefoxInternet ExplorerOperasafariandroid web görünümüAndroid için ChromeUç MobilAndroid için FirefoxAndroid için OperaiOS'ta SafariSamsung İnternet
    Konuşma tanıma

    Deneysel

    Chrome Tam destek 33

    ön ekli notlar

    Tam destek 33

    ön ekli notlar

    ön ekli
    köşe?Firefox Destek yok HayırIE Destek yok HayırOpera Destek yok HayırSafari Destek yok Hayırweb görünümü android?Chrome Android Tam destek Evet

    ön ekli notlar

    Tam destekEvet

    ön ekli notlar

    ön ekli Satıcı öneki ile uygulandı: webkit Notes Tanıma işleminin çalışması için kodunuzu bir web sunucusu üzerinden sunmanız gerekir.
    kenar mobil?Firefox AndroidOpera AndroidSafari iOS Destek yok HayırSamsung İnternet Android?

    Efsane

    Tam destek Tam destek destek yok destek yok Uyumluluk bilinmiyor Uyumluluk bilinmiyor Deneysel. Davranışın gelecekte değişmesini bekleyin. Deneysel. Davranışın gelecekte değişmesini bekleyin. Uygulama notlarına bakın. Uygulama notlarına bakın. Kullanım için bir satıcı öneki veya farklı bir ad gerektirir.

    Konuşma sentezi

    Bu sayfadaki uyumluluk tablosu, yapılandırılmış verilerden oluşturulmuştur. Verilere katkıda bulunmak istiyorsanız, lütfen https://github.com/mdn/browser-compat-data adresini kontrol edin ve bize bir çekme talebi gönderin.

    GitHub'da uyumluluk verilerini güncelleyin

    masaüstümobil
    KromköşeFirefoxInternet ExplorerOperasafariandroid web görünümüAndroid için ChromeUç MobilAndroid için FirefoxAndroid için OperaiOS'ta SafariSamsung İnternet

    Artık bilgisayar olmadan yapmak imkansız modern dünya. Photoshop ustası olmanız veya profesyonel olarak video düzenlemeniz gerekmez (tabii ki işle ilgili değilse). Ancak bir miktar metin yazabilmek gerekli bir minimumdur.

    2. Web Konuşma API'sı


    Çevrimiçi Program Web Speech API, işlevsellik açısından öncekilerle tamamen aynıdır.

    Bu hizmet de yukarıda sayılanlar gibi Google tarafından oluşturulmuştur.

    Ana Sayfaöyle görünüyor:


    İÇİNDE basit arayüz Kayda başlamak için bir dil seçmeniz ve ardından mikrofona tıklamanız gerektiği hemen açıktır.

    Sağdaki ikona tıkladıktan sonra sistem erişim talebinde bulunacaktır.


    "Devam et" dedikten sonra hemen işe başlayabilirsiniz. Metni sesle yazın, basılı versiyonu pencerede görünecektir.

    Çalışmayı bitirdikten sonra, metin ihtiyacınız olan yere kopyalanabilir (yine, ctrl + C, ctrl + V).

    Numara 3. konuşkan

    Eşit derecede basit bir program Talktyper'dir.

    Başlamak için siteye gidin: https://talktyper.com/ru/index.html.


    Başlamak için sağdaki mikrofon simgesine tıklamanız yeterlidir.

    Yukarıda açıklananlardan farklı olarak, bu daktilo herhangi bir tarayıcı kullanılarak açılabilir. Site ABD'de oluşturulmuş olmasına rağmen, uygulama en çok popüler diller Rusça dahil dünya.

    Talktyper çok işlevlidir: yalnızca yazmakla kalmaz, noktalama işaretleri de koyar, hataları kendi başına düzeltir. Sistem okuduğunuz bir kelimeyi doğru olarak tanıyamazsa, kesinlikle vurgulanacaktır.

    Ayrıca Talktyper, seslendirmenin yanı sıra bir çeviri işlevine de sahiptir.

    Not! Sesle yazmayı bitirdikten sonra, yazılan belgenin başka bir alana aktarılması için oku tıkladığınızdan emin olun. Bundan sonra, gönderilebilir e-posta veya istediğiniz dosyaya kopyalayın.

    Sesli arama programlarıyla çalışırken olası sorunlar

    Bu programları kullanmaya başladığınızda, bilgisayarın sesimizi nasıl tanıdığını ve ardından onu canlı metne nasıl çevirdiğini kesinlikle düşüneceksiniz.

    Cihazın konuşma tanıma şeması şöyle görünür:

    Tüm süreç 3 ana adıma ayrılabilir:

      Akustik tanıyıcı.

      Açık ve yüksek sesle konuşmak önemlidir, mikrofon sesi kesintisiz iletmelidir.

      dilsel işleme.

      Programın sözlüğünde ne kadar çok kelime varsa, yazılan metin o kadar iyi olur. Yani, söylediğiniz her şey tanınacak ve metin formu bozulma olmadan.

      Tanınan yazım metni.

      Program otomatik olarak yazımı görüntüler grafik versiyonu duraklamalara, kelimelerin netliğine, sözlükte bulunan belirteçlere vb. dayalı dikte konuşma.

    Bilgisayar dizgileriyle çalışırken, en sık 2 sorun ortaya çıkar:

    1. Akustik tanıyıcı konuşmanızı aralıklı olarak "alır".
    2. Sistemin kelime dağarcığında söylediğiniz her şeyi tanımaya yetecek kadar kelime yok.

    İlk sorunu çözmek için açık ve yüksek sesle konuşmanız gerekir. Ancak ikinci sorun için pratikte hiçbir çözüm yok, en azından ücretsiz bir çözüm.

    Serbestçe dağıtılan konuşma tanıma programlarının sürümleri çok sınırlı kelime dağarcığına sahiptir.

    Geniş bir kelime dağarcığına sahip bir program sağlamak için geliştiricilerin çok para yatırması gerekiyor, pek çok tanıyıcı gösteriyor düşük seviye konuşmanın metne çevrilmesi.

    Bu işin en ilerisi Google'ı geliştirdi çünkü. yatırım yapmak için yeterli fona sahiptir. Bu şirket, diğer şeylerin yanı sıra, sesi tanımaya ve onu grafik versiyonuna çevirmeye yardımcı olan en büyük çevrimiçi sözlüğü yarattı.

    Ayrıntılı bir kılavuz için bu videoya bakın:

    1. Bir konuşma yaptığınızda, oda sessiz olmalıdır. Doğanın sesleri, müzik, bir çocuğun ağlaması sistem tarafından gürültü olarak algılanır. Bu nedenle, metin ile yazılacak büyük hatalar.
    2. Bir şey yiyorsanız konuşmayın. Bu sadece setin kalitesini etkilemekle kalmaz, aynı zamanda hayatı tehdit eder.
    3. Çalışmaya başlamadan önce, sesiniz için doğru ses seviyesini seçmeniz ve mikrofonunuzun ne kadar hassas olduğunu anlamanız gerekir.

      Bunu yapmak için, tanıdık bir tonda birkaç cümle yazmaya çalışın. Kayıtta kesintiler olursa mikrofon ayarlarına bakın.

    4. Kelimeler arasında küçük duraklamalar yapın.
    5. Uzun ifadelerden kaçının.

    Biri bunu söyleyecek için program sesli arama - Bu, ellerini serbest bırakan ve genel olarak hayatı kolaylaştıran harika bir yardımcıdır. Diğerleri "oyunun muma değmeyeceğine" karar verecek. Bu nedenle, bunları kullanıp kullanmamak size kalmış.

    Ve hangi hizmetleri seçeceğinizi zaten biliyorsunuz ...

    O günden bu yana bağımsız geliştiriciler, Google ürünlerinin temel aldığı konuşma tanıma teknolojisi olan Cloud Speech API'ye erişim elde etti. Güncellemeyi alan ürün artık Google Cloud'da mevcut.

    Cloud Speech'in açık beta sürümü geçen yaz yayınlandı. Bu teknoloji ile basit API geliştiricilerin sesi metne dönüştürmesine olanak tanır. Modeller sinir ağı 80'den fazla dili ve lehçeyi tanıyabilir ve metni telaffuz ettikten hemen sonra bitmiş transkripsiyon görünür.

    API, konuşma tanıma işlevi sağlayan bir teknolojinin üzerine inşa edilmiştir. Google Asistan, Ara ve Şimdi, ancak teknolojiyi Bulut kullanıcılarının ihtiyaçlarına uyarlamak için yeni sürümde değişiklikler yapıldı.

    Cloud Speech API'nin yeni sürümü nasıl farklı?

    Geliştirici geri bildirimi sayesinde Google ekibi uzun ses kayıtlarının transkripsiyonunun doğruluğunu geliştirmeyi ve orijinal versiyona kıyasla verilerin işlenmesini 3 kat hızlandırmayı başardı. WAV, OPUS ve Speex dahil olmak üzere diğer ses formatları için destek de eklendi.

    İstatistiksel olarak, bu API geçmişte en sık kullanılan uygulamaları ve cihazları yönetmek için kullanılıyordu. sesli arama, konuşma komutları ve ses menüsü. Ancak Cloud Speech, arabalar, TV'ler, hoparlörler ve tabii ki telefonlar ve PC'ler dahil olmak üzere çok çeşitli IoT cihazlarında kullanılabilir.

    Teknolojinin sık kullanıldığı durumlar arasında çağrı merkezlerinin çalışmalarını analiz etmek, müşterilerle iletişimi takip etmek ve satışları artırmak için organizasyonlarda kullanılması dikkat çekiyor.