Gerçek bir araç olarak ses arayüzü. Sınırsız kelime ve gramer. Görsel arayüz ile iletişim

  • 26.04.2019

Sesli kullanıcı arayüzlerinin ortaya çıkmasıyla birlikte, grafiğin geleceği nedir? Hangi durumlarda ses ve grafik arayüzü kullanmak daha iyidir? Bu yazıda bu soruların cevaplarını alacaksınız.

Birincil sensörlerimiz

Beynimiz bir görüntü işleme makinesidir. Karmaşık bilgileri gördüğümüzde daha hızlı anlayabiliriz. Bilgilerin çoğunu gözlerimiz aracılığıyla özümseriz. Kısacası gözlerimiz birincil sensörlerimizdir.

Kulaklarımız ikinci en önemli sensördür. Ve bazı durumlarda sesli konuşma çok etkili kanal iletişim. Bir an için basit bir alışveriş deneyimi hayal edin. En sevdiğiniz pizzayı sipariş etmek, sitedeki tüm farklı teklifleri incelemek yerine sadece adını verip sipariş verirseniz çok daha kolay. Ama daha fazla zor durum sadece sözlü iletişime güvenmek yeterli değildir.Örneğin, bir elbiseyi ilk etapta görmeden satın alır mıydınız? Tabii ki değil. Kullanıcı arayüzleri, sensörlerimize giderek daha fazla uyum sağlayacak.

Gözlerimiz ve kulaklarımız ana giriş sensörleridir. Örüntü tanıma ve görüntü işleme konusunda çok bilgiliyiz. Bu, karmaşık bilgileri görsel olarak daha hızlı işleyebileceğimiz anlamına gelir. Öte yandan, sese tepki süresi daha hızlıdır, bu nedenle ses, uyarılar için iyi bir seçenektir.

Ağzımız en çok verimli cihaz para çekme. Çünkü çoğu insan yazdıklarından veya yazdıklarından daha hızlı konuşabilir.

Çünkü insanlar iyi birleşiyor farklı kanallar, bu bilgisayarların insan yeteneklerine uyum sağlamak için çok modlu arayüzler kullanın. Arayüzler, belirli bir durumdaki insanlar için en uygun ortam ve mesaj formatını kullanan insanlara uyum sağlayacaktır. Bazı örneklere bir göz atalım.

Sohbet botları

İçin temel iletişim sohbet, geleneksel kullanıcı arayüzlerinden daha verimlidir. Bununla satıcılar ve alıcılar birbirlerini bulabilir ve çeşitli anlaşmalar yapabilirler. Bu durumda, bire bir iletişim nedeniyle sohbet en uygunudur. Ancak daha karmaşık etkileşimler söz konusu olduğunda, örneğin karşılaştırma için Büyük bir sayı mallar, daha gelişmiş bir şeye ihtiyacımız var Kullanıcı arayüzü... Bu durumda, yetenek eklenir sesli iletişim yönetici ile: sohbette arayın.

Dijital asistanlar

Örneğin, mutfakta yemek pişirmek ve “Red Chili” demek, katalogda elinizle gezinmekten daha kolaydır. Sesli arayüz ile alışveriş listenize otomatik olarak bir şeyler ekleyebilirsiniz. Ürünler size gösteriliyor ve beğendiklerinizi sesinizle seçiyorsunuz.

Kullanıcı mutfaktayken ve elleri meşgulken ses kontrolünü kullanmak ekrana dokunmaktan daha uygundur. Ses arayüzü - harika işlev ve gelecekteki ürünlerde zorunlu olacaktır.

Çok modlu arayüzler için ses ve görsel çıktıları senkronize tutmak önemlidir. Aksi takdirde insanların kafası kolayca karışacaktır. Örneğin, birisiyle konuşurken, mesajımızı alıp almadığını görmek için yüzüne kolayca bakabiliriz. Çok modlu bir arayüz söz konusu olduğunda, bir ürünle konuşurken de aynısını yapmak isteyeceğiz. Karışık arayüzler geliştirilirken bu dikkate alınmalıdır.

Sağlık uygulaması

Örneğin, gözlük takan insanlar için öğrenciler arasındaki mesafeyi ölçmek için bir uygulama (PD Measure). o iyi örnek görsel ve sesli arayüzlerin birleştirilmesi.

Herhangi bir müşteri bilmeli verilen mesafe Online gözlük satın almak için. Bilmiyorlarsa, bir perakende mağazasına gidip orada ölçüm yapmaları gerekiyor. Herhangi bir kullanıcının erişebileceği ölçüm aracı açılır büyük pazarçevrimiçi optik.

Bu uygulama ile müşteri, telefonunu belirli bir konumda tutarak ve kesin talimatları izleyerek aynanın önünde durup kendi fotoğrafını çekebilecek. Uygulama daha sonra öğrenciler arasındaki mesafeyi otomatik olarak hesaplar. Bu, çevrimiçi sipariş vermek için yeterlidir.

***

Ne zaman sesli, ne zaman görsel bir kullanıcı arayüzü kullanacağımızı özetleyelim.

Görsel kullanıcı arabirimleri aşağıdaki durumlarda daha iyi performans gösterir:

  • ile listeler büyük miktar dersler (bütün konuları sesli okumanın çok uzun sürdüğü durumlarda);
  • karmaşık bilgi(birçok özelliğe sahip grafikler, çizelgeler ve veriler);
  • karşılaştırmanız gerekenler;
  • satın almadan önce görmek istediğiniz ürünler;
  • periyodik olarak kontrol etmek istediğiniz durum bilgileri (zaman, zamanlayıcı, hız vb.).
  • komutlar (yani tam olarak ne istediğinizi bildiğiniz herhangi bir durum. Böylece navigasyonu atlayabilir ve komutunuzu dikte edebilirsiniz);
  • kullanıcılara talimatlar. Çünkü insanlar takip etme eğilimindedir. sesli talimatlar yazılı talimatlardan daha iyi;
  • başarılı durumlar ve hata durumları için sesli geri bildirim, farklı sinyaller;
  • uyarılar ve bildirimler (çünkü sese yanıt süresi daha hızlıdır);
  • nispeten basit cevaplar gerektiren basit sorular.

Çok modlu arabirimlerle çalışmak için birkaç ipucu:

  • Ses ve görsel arayüzlerin senkronizasyonu. Her zaman görsel geri bildirim neler olduğu hakkında.
  • Cihaz bir yanıt dinlerken veya düşünürken görsel göstergeler gösterin.
  • içindeki sesli komutun sözcüklerini vurgulayın. grafik arayüzü.
  • Arayüzün yetenekleri için doğru kullanıcı beklentilerini belirleyin ve ürünün nasıl çalıştığını açıkladığından emin olun.
  • Ürün, konuşmanın bağlamından haberdar olmalı ve uygun şekilde yanıt vermelidir.
  • Güvenlik ve gizliliği göz ardı etmeyin. Kişilerin bileşenlerin (mikrofon gibi) sesini kapatmasına izin verin.
  • Uzun sesli monologları okumayın. Birkaç kelimeyle özetlenemiyorsa, ekranda görüntüleyin.
  • Her platformun özelliklerini anlamak için zaman ayırın ve doğru olanı seçin.

Çözüm

Gelecekte, ses arayüzü sıradan hale gelecek. Yeni arayüz GUI'lere başarıyla uyguladığımız her şeyi görmezden gelmemiz gerektiği anlamına gelmez. Kullanıcı ve bilgisayar arasında daha insani bir iletişim yolu olarak grafik ve ses arayüzlerinin birleşmesi olacaktır.

Bu multimodal evrim daha önce de oldu. Radyo ve sessiz filmler, 3D vb. ile daha da geliştirilmiş filmlerde birleştirildi. Bu süreç yakında interaktif dijital dünyada yerini alacaktır.

Birçok bilim kurgu filminde ve kitabında ana karakterlerden biri bilgisayardır. Genellikle sadece hesaplama yapmaktan daha fazlasını yapar - örneğin, bir rota çizer. uzay gemisi- ama aynı zamanda yaşayan bir muhatap olarak insan kahramanlarla iletişim kurar.

Bu tür bir iletişimin merkezinde ses arabirimi bulunur - bir zaman makinesinin ve diğer fantastik şeylerin aksine, zaten bir gerçeklik haline gelen bir kavram. Örneğin sesle, bir arama motoruna sorgular veya bir gezgine adresler girebilirsiniz - bu, elleriniz meşgulken kullanışlıdır.

Herhangi bir ses arabiriminin özü, konuşma tanıma teknolojisidir. Bununla birlikte, bir kişiyle tam teşekküllü bir "iletişim" için, bir makinenin yüksek sesle konuşulan kelimeleri doğru bir şekilde tanıması yeterli değildir. Canlı bir muhatap olmak için bilgisayar kendisine hitap edildiğini anlamalı, söylenenlerin özünü kavrayabilmeli ve cevapları seslendirebilmelidir.

Yandex'in sahip olduğu kendi sistemi Konuşma tanıma -. Hem Yandex hizmetlerinde - örneğin Navigator - hem de ürünlerde kullanılır. üçüncü taraf geliştiriciler... SpeechKit tarafından açılabilir ses komutu kelimelerin anlamını anlar ve ayrıca yalnızca kullanıcıyı dinlemekle kalmaz, aynı zamanda konuşma sentezi teknolojisini kullanarak ona cevap verir. Neredeyse gerçek bir arkadaş gibi.

Bir şey söylemek istediğinde Belirli kişi, ona adıyla hitap ediyorsun. Bu bir tür önceden ayarlanmış sinyaldir: “Hey! Şimdi söyleyeceklerim size ve sadece size yöneliktir." Yandex SpeechKit'te böyle bir sinyal bir sesli aktivasyon komutudur. Herhangi bir kelime veya kelime öbeği komut işlevi görebilir - hepsi geliştiricinin hayal gücüne bağlıdır.

Kullanıcı bir komut söylediğinde, bilgisayar tanıma moduna geçer - çünkü gelecekte söylenecek her şeyin onun için olduğunu anlar. Herhangi bir tuşa basmanıza gerek yok, sadece bir parola söyleyin.

Yandex SpeechKit'teki sesle etkinleştirme, aslında minyatür bir konuşma tanıma sistemidir. Sistem doğrudan cihaz üzerinde çalışır ve internet erişimi gerektirmez. Gelen ses akışının tamamını konuşma olup olmadığını analiz eder ve konuşma bulunursa içinde bir parola aramaya başlar. Bu yaklaşım, akıllı telefonunuzda veya tabletinizde pil gücünden tasarruf etmenizi sağlar.

Anlamsal nesnelerin seçimi

"Bugün Moskova'da hava yedi santigrat derece" ifadesini duyduğunuzu hayal edin. “Moskova”nın bir şehir olduğu, “bugün”ün 30 Ekim ve “yedi derece”nin hava sıcaklığı olduğu ek açıklamalar olmadan sizin için açıktır. Başka bir deyişle, kelimelerden nasıl anlam çıkaracağınızı biliyorsunuz.

Bu beceride kişi bilgisayarı çok geride bırakır ama yine de bir makineye bir şeyler öğretmek mümkündür. Yandex SpeechKit'e tanınan metindeki anlamsal nesnelerin vurgulanması için bir teknoloji ekledik. Bu tür nesneler tarih ve saat, ad ve soyadlar veya adresler olabilir.

Teknoloji, bilgisayarınızı veya akıllı telefonunuzu kontrol etmenizi sağlar basit ifadeler bilerek ezberlenmesi gerekmez. Örneğin, "Alarmınızı sabah yediye kurun" veya "Hadi Leo Tolstoy caddesi, ev 16'ya gidelim". İfade farklı gelebilir - sistem "İvan İvanoviç'in numarasını çevir" ve "İvan İvanoviç'i Ara"nın aynı olduğunu anlayacaktır. Yandex SpeechKit bağlamı analiz edebilir ve bu nedenle "Vladimir'i Ara" ifadesinin bir kişi ve "Vladimir'e gidelim" ifadesinin bir şehir anlamına geldiğini anlayacaktır.

Konuşma sentezi

İyi bir muhatap sadece nasıl dinleyeceğini değil, aynı zamanda nasıl cevap vereceğini de bilir. Bu nedenle, Yandex SpeechKit artık konuşma sentez teknolojisine sahiptir - bilgisayarın metni yüksek sesle söylemesini sağlar. Örneğin, kendisi hakkında şunları söyleyebilir:

Konuşma sentezi, konuşma tanımanın tam tersidir. Tanıma durumunda, sistem metne dönüştürülmesi gereken bir sesi, sentez durumunda ise seslendirilmesi gereken metni alır.

Konuşma sentezi için var Farklı yaklaşımlar... Bunlardan biri, konuşmanın daha sonra "birbirine yapıştırıldığı" ayrı parçaların (örneklerin) konuşmacı tarafından kaydedilmesini içerir. Bu yaklaşım zahmetlidir ve ayrıca bu şekilde sentezlenen konuşma doğal değildir: ani ve en beklenmedik yerlerde duraklamalarla.


Tanıtım
Bilgisayar dünyasında, konuşma teknolojileri, her şeyden önce insan konuşmasının sentezine ve tanınmasına ve ayrıca konuşma işleme sistemleri oluşturmanıza izin veren araçların geliştirilmesine izin veren bütün bir yazılım ve donanım grubu anlamına gelir. Şu anda bir konuşma arayüzünün oluşturulması ve geliştirilmesi, en zor ve tartışmalı görevlerden biridir. Bir yandan konu kesinlikle yeni değil, diğer yandan bu teknolojinin aktif olarak geliştirilmesi ve uygulanması yeni başlıyor. Bir yanda sabit kalıp yargılar ve önyargılar oluşmuş, diğer yanda yarım yüzyıla yakın ısrarlı çabalara rağmen konuşma girdisinin kurucularının halen karşı karşıya olduğu sorunlar çözülememiştir. Öyle de olsa herkese uygun bir arayüz arayışı devam edecek. Nitekim, insanlığın bir bilgisayarla iletişim kurmak için her zaman çaba gösterdiği şey tam olarak budur.
70'lerden beri, bir kullanıcının konuşma diyaloğu sorununu bilgisayar teknolojisi ile çözmeye büyük bir ilgi var. Bu, konuşma girişinin bir dizi özelliğinden kaynaklanmaktadır - bilgisayardaki bilgi çıkışı:
    iletişimin en büyük doğallığı ve bunun sonucunda yapılan işe odaklanma derecesinin artması
    bilgi girişinin hızını ve güvenilirliğini artırmak
    diğer işlemleri gerçekleştirmek için dokunsal ve görsel kanalları serbest bırakmak
    karanlık bir odada ve operatörün keyfi pozisyonu veya hareketi ile çalışma yeteneği
    cihazları kullanarak bilgisayarla iletişim sağlama (telefon)
Araştırmacılar son on yılda çok az ilerleme kaydettiler, bu da bazı uzmanları yakın gelecekte bir konuşma arayüzü uygulama olasılığı konusunda son derece şüpheci yapıyor. Diğerleri, görevin pratik olarak çözüldüğüne inanıyor. Bununla birlikte, hepsi bu sorunun çözümü olarak kabul edilmesi gereken şeye bağlıdır.
Yani bir anlamda pragmatizmin ideali olan Bill Gates, tarihsel olarak oluşturulmuş kalıplaşmış yargılardan özgür değildi. 95-96'da kendi gelişimimizle başlayan evrensel sistem konuşma tanıma, 97'de konuşma arayüzünün yaygın tanıtımının başka bir dönemini ilan etti. Konuşma girişi araçlarının, tamamen ofis işletim sistemi olan Windows NT'nin yeni sürümünün standart teslimatına dahil edilmesi planlandı. Yaptıkları işi değerlendirmek için, doğrudan Microsoft SAPI ile etkileşime giren herhangi bir ses "motorunu" sisteminize entegre etmeniz yeterlidir.
Konuşma teknolojilerinin gelişimi ile herhangi bir şekilde bağlantılı olan herkes aşağıdaki sorularla karşı karşıyadır: ilk - ve belki de asıl olan - uygulama alanıyla ilgilidir. Popüler inanışın aksine, konuşma tanımanın tüm avantajlarını gösterebileceği uygulamaların araştırılması, basit bir görev olmaktan uzaktır. Mevcut bilgisayar kullanımı uygulaması, konuşma arayüzünün yaygın olarak kullanılmasına hiçbir şekilde katkıda bulunmaz. Uzayda konumlandırma ile ilgili komutlar vermek için insan her zaman jestleri yani "el-göz" sistemini kullanmıştır ve kullanacaktır. Modern grafik arayüz bu prensip üzerine inşa edilmiştir. Klavye ve fareyi bir konuşma tanıma birimiyle değiştirme olasılığı tamamen söz konusu bile değil. Aynı zamanda, bazı yönetim işlevlerinin kendisine verilmesinden elde edilen kazanç o kadar küçüktür ki, bir deneme uygulaması için bile yeterli zemin sağlayamaz. ana bilgisayarlar otuz yılı aşkın süredir. Bu, ticari olarak uygulanabilir konuşma tanıma sistemlerinin varlığını değerlendirmek için zaman çerçevesidir.
Karşılaştırma için: spontan konuşma, saniyede ortalama 2,5 kelime hızında telaffuz edilir, profesyonel yazım - saniyede 2 kelime, profesyonel olmayan - 0,4. Bu nedenle, ilk bakışta, konuşma girişi önemli bir performans avantajına sahiptir. Bununla birlikte, gerçek koşullarda ortalama dikte hızının tahmini, konuşma girişi sırasında kelimeleri net bir şekilde telaffuz etme ihtiyacı ve düzeltilmesi gereken oldukça yüksek tanıma hataları yüzdesi nedeniyle saniyede 0,5-0,8 kelimeye düşürülür.
Konuşma arayüzü bir kişi için doğaldır ve yazarken ek kolaylık sağlar. Ancak, profesyonel bir spiker bile birkaç saat boyunca "belirsiz" bir bilgisayara dikte etme olasılığından memnun olmayabilir. Ek olarak, bu tür sistemleri çalıştırma konusundaki mevcut deneyim, bir bilgisayara dikte ederken kaçınılmaz olan konuşma monotonluğu ile ilişkili olan operatörlerin ses tellerinin yüksek bir hastalık olasılığını gösterir.
Çoğu zaman, konuşma metni girişinin avantajları arasında ön eğitim ihtiyacının olmaması yer alır. Ancak en çok biri zayıf noktalar modern sistemler konuşma tanıma - telaffuz netliğine duyarlılık - bu görünüşte bariz avantajı kaybeder. Operatör ortalama 1-2 ayda klavyede yazmayı öğrenir. Doğru telaffuzu elde etmek birkaç yıl alabilir.
Uygulanabilirliğin hoş olmayan başka bir sınırlaması daha vardır: bir bilgisayarla konuşma arayüzü aracılığıyla etkileşime giren bir operatör, ses yalıtımlı ayrı bir odada çalışmaya veya ses geçirmez bir kask kullanmaya zorlanır. Aksi takdirde, ofis komşularının çalışmasına müdahale edecek ve bu da ek bir arka plan gürültüsü yaratarak konuşma tanıyıcının çalışmasını önemli ölçüde zorlaştıracaktır. Bu nedenle, konuşma arayüzü, takım çalışmasına odaklanan işletmelerin modern organizasyon yapısı ile açıkça çelişmektedir. Uzak çalışma biçimlerinin gelişmesiyle durum bir şekilde hafifletildi, ancak uzun bir süre boyunca, kullanıcı arabiriminin en doğal üretken ve potansiyel olarak büyük biçimi, dar bir uygulama yelpazesine mahkum edildi.
En popüler geleneksel uygulamalar çerçevesinde konuşma tanıma sistemlerinin uygulanabilirliğinin sınırlamaları, bizi, geleneksel ofis alanı dışında bir konuşma arayüzünün uygulanması için potansiyel olarak umut vaat eden uygulamaları aramanın gerekli olduğu sonucuna varmaya zorluyor. son derece uzmanlaşmış konuşma sistemlerinin ticari başarısı. Bugüne kadarki en başarılı ticari konuşma tanıma projesi telefon ağı AT & T firması İstemci, herhangi bir kelimeyi kullanarak beş hizmet kategorisinden birini talep edebilir. Sözlerinde beş anahtar kelimeden biri ile karşılaşılıncaya kadar konuşur. Bu sistem şu anda yılda yaklaşık bir milyar çağrıyı yönetiyor.
Konuşma tanıma sistemlerinin uygulanması için en umut verici alanlardan birinin bilgisayar oyunları, engelliler için son derece uzmanlaşmış rehabilitasyon programları, telefon ve bilgi sistemleri alanı olabileceği gerçeğine rağmen, önde gelen konuşma tanıma geliştiricileri çabalarını artırıyor. prosedürü kısaltma pahasına bile evrenselleştirme elde edin ve kelime dağarcığının hacmini artırın.
Konuşma arayüzünün geleceği, modern araştırmacıların ve geliştiricilerin yalnızca konuşma girişi için teknolojik bir temel oluşturma değil, aynı zamanda teknolojik bulguları uyumlu bir şekilde tek bir mantıksal olarak eksiksiz insan-bilgisayar etkileşimi sisteminde birleştirme yeteneğine de bağlı değildir. Ana iş henüz gelmedi.

Bölüm 1

1.1 Konuşma arayüzünün genel konsepti

Ana terimle başlayalım. konuşma nedir? Konuşma hakkında konuşurken, "konuşma", "sesli konuşma", "ses sinyali", "mesaj", "metin" gibi kavramları ayırt etmeliyiz. Bizim durumumuzda, tanıma sorununa uygulandığında, "konuşma" ve "sesli konuşma" gibi kavramlar aynı anlama gelir - nesnel olarak kaydedilebilen, ölçülebilen, depolanabilen, işlenebilen ve insan tarafından üretilen belirli bir ses mesajı ve neyin ne olduğu. önemli, enstrümanlar ve algoritmalar kullanılarak çoğaltılmıştır. Yani konuşma, konuşmayı tersine çevirmek için kullanılabilen bir tür konuşma sinyali olarak temsil edilebilir. Yani, sesli konuşma ile konuşma sinyali biçimindeki temsili arasına bir denklik işareti koyabilirsiniz. . Bu durumda, "mesaj" kavramı altında alıcı için yararlı olan herhangi bir bilgi sadece metin değil, gizlenebilir. Örneğin, kelimelerle değil, tonlamalarla ilgileniyorsanız, mesaj konuşmanın prozodik nüansları olacaktır. Konuşma tanımaya gelince, bizim durumumuzda görev konuşmadan metin çıkarmaya indirgenmiştir.
Ancak burada bir çelişki ile karşı karşıyayız. Bildiğiniz gibi, metin harflerden, kelimelerden, cümlelerden oluşur - yani ayrıdır. Normal koşullar altında, konuşma sağlam geliyor. İnsan konuşması, metnin aksine, harflerden oluşmaz. Her bir harfin sesini bir kasete veya bir bilgisayar diskine kaydeder ve ardından bu seslerden konuşma oluşturmaya çalışırsak başarılı olamayız.
İnsanlar uzun zamandır konuşmayı oluşturan temel seslerin harflere eşdeğer olmadığını tahmin etmişlerdir. Bu nedenle, konuşmanın temel seslerini belirtmek için bir fonem kavramını buldular. Şimdiye kadar uzmanlar hiçbir şekilde karar veremiyorlar - kaç farklı fonem var. Böyle bir dilbilim dalı bile var - fonetik. Çoğu yazar, aynı dil lehçesi için bile farklı sayıda ses birimi verir. Rus dilinde, bazı verilere göre, diğerlerine göre 43 fonem var - üçüncüye göre 64 - yüzden fazla ... Ama öyle oldu ki, kavramın dokunulmazlığı hakkında bir efsane var. bir fonem. Ve konuşma sinyali, doğrudan her biri bir fonem olan sinyal parçalarından oluşur. Ne yazık ki, işler basit olmaktan uzak.
İlk başta, bilim adamları konuşma sinyalini zaman ekseninde birbiri ardına yerleştirilmiş bir dizi belirli evrenseller olarak gördüler ve bu evrenselleri fonemler olarak gördüler. Bununla birlikte, konuşma sinyallerinin daha ileri çalışmaları herhangi bir fonem ortaya çıkarmadı. Daha sonra bazı araştırmacılar, konuşma sinyallerinin üretimi sırasında, koartikülasyonun, yani komşu seslerin iç içe geçmesinin (yüz, dil ve çene kaslarının farklı ataleti vardır) gözlemlendiğine haklı olarak karar verdiler. Bu, konuşma sinyalinin fonemlerden değil, allofonlardan - "birbirine yapışmış" fonemlerin kombinasyonlarından oluşması gerektiği anlamına gelir.
Fizikçiler gibi diğer araştırmacılar, temel ses birimleri fikrine saldırdılar ve ses birimlerinin daha da kısa parçalara bölünmesi gerektiğini, hatta bu kavramı tamamen terk etmeleri ve konuşma sinyalini başka bir şekilde “parçalamaları” gerektiğini tartışmaya başladılar. Temel sesler için fonoidler ve bir dizi telif hakkı adı bu şekilde doğdu.

Herkes kendi konumundan konuşma sinyalini incelemeye başladı, başarıyı çok belirsiz bir şekilde rapor etti. İkincisi, büyük olasılıkla know-how'ı koruma arzusuyla açıklanabilir.

Fonemik yaklaşımın ana zorluğu, konuşma hızının büyük ölçüde, genellikle birkaç kez değişmesidir. Bu durumda, çeşitli konuşma sesleri orantısız olarak uzatılır veya sıkıştırılır. Örneğin, ünlüler yarı ünlülerden önemli ölçüde daha fazla değişir ve özellikle ünsüzleri durdurur. Sözde yarık sesleri için belirli kalıplar vardır. (Yarı ünlüler, sesli harflerde olduğu gibi ses tellerinin katılımının gerekli olduğu nesiller sırasındaki seslerdir, ancak kendileri günlük yaşamda ünsüz olarak kabul edilir. Örneğin, "m", "n", " l" ve "r" genellikle ses çıkarır. artikülasyon organlarının keskin bir şekilde kapanması ve açılmasıyla oluşur. Örneğin, "b", "l", "d", "t" Boşluk seslerinin oluşumu tıslama ile ilişkilidir. ve türbülansın artikülasyon organlarındaki diğer etkileri "S", ayrıca "w" ve diğer tıslama Bu özelliğe konuşma sinyali kalıplarının geçici olarak durağan olmaması denir. farklı zaman, çeşitli faktörlerin (ruh hali, sağlık, vb.) etkisi altında, gözle görülür şekilde farklı spektral-zamansal enerji dağılımları üretiriz. Bu, arka arkaya iki kez söylenen bir kelime için bile geçerlidir. Bu etki, farklı kişiler tarafından söylenen aynı cümlenin spektrogramlarını karşılaştırırken çok daha güçlüdür. Bu etki, yaygın olarak konuşma örneklerinin spektral durağan olmayan ağı olarak adlandırılır. Konuşma hızındaki ve telaffuzdaki netlikteki bir değişiklik, ortak artikülatör durağanlığın nedenidir; bu, komşu seslerin örnekten örneğe karşılıklı etkisinde bir değişiklik anlamına gelir. Sürekli konuşmanın kümelenmesi sorununu da vurgulamak gerekir. Herhangi bir konuşma birimini sürekli bir konuşma akışından izole etmek oldukça zordur. Birçok ses “birbirine yapışır” veya sınırları belirsizdir.

Dilbilimin çeşitli bölümleri ve dil bilimi, konuşma tanıma alanında çalışan bilim adamlarının büyük ilgisini çekmektedir. Belki de bu bilimlerin başarılarının başarılı bir sentezi ve konuşma sinyali işleme teorisi, tanıma sistemlerinin başarılı bir şekilde oluşturulmasına yol açacaktır.
Bir konuşma arayüzünün yapısı üç bileşene ayrılmıştır. İlk görev, bilgisayarın bir kişinin kendisine ne söylediğini "anlaması", yani bir kişinin konuşmasından yararlı bilgiler çıkarabilmesidir. Şimdiye kadar, mevcut aşamada, bu görev konuşmadan anlamsal kısmını, metni çıkarmakla ilgilidir (örneğin, tonlama gibi bileşenlerin anlaşılması henüz dikkate alınmamıştır). Yani, bu görev klavyeyi bir mikrofonla değiştirmekle ilgilidir.
İkinci görev, bilgisayarın söylenenlerin anlamını algılamasıdır. Bir konuşma mesajı, bir bilgisayar tarafından anlaşılabilen belirli bir standart komut dizisinden (örneğin, menü öğelerini çoğaltma) oluştuğu sürece, uygulanmasında karmaşık bir şey yoktur. Ancak, bu yaklaşımın klavyeden aynı komutları girmekten veya fareyi kullanmaktan daha uygun olması pek olası değildir. İdeal olarak, bilgisayar bir kişinin doğal konuşmasını açıkça "anlamalı" ve örneğin "Yeter!" Sözlerini anlamalıdır. ve "İşini bırak!" bir durumda farklı kavramlar ve başka bir durumda aynı şey anlamına gelir.
Üçüncü görev, bilgisayarın birlikte çalıştığı bilgiyi bir kişinin anlayabileceği bir konuşma mesajına dönüştürmesidir. Dolayısıyla, bu üç problemden sadece üçüncüsü için oldukça açık ve nihai bir çözüm var. Aslında, konuşma sentezi, artık oldukça iyi çözülmüş olan tamamen matematiksel bir problemdir. Iyi seviye... Ve yakın gelecekte, büyük olasılıkla, yalnızca teknik uygulaması iyileştirilecektir.
İlk sorunun nihai çözümünün önündeki bir engel, hiç kimsenin, anlam içeren bileşenleri ondan çıkarmak için konuşmamızı nasıl inceleyeceğini gerçekten bilmemesidir. Bir konuşma sırasında verdiğimiz ses akışında, tek tek harfleri veya heceleri ayırt etmek imkansızdır. Ancak buna rağmen, ön eğitimden sonra, modern konuşma tanıma sistemleri oldukça iyi çalışıyor ve on yıl önce basılı karakterler için optik tanıma sistemlerinden daha fazla hata yapmıyor.
İkinci sorun ise çoğu uzmanın görüşüne göre yapay zeka sistemlerinin yardımı olmadan çözülemez. İkincisi, bildiğiniz gibi, henüz yaratılmadı, ancak sözde kuantum AI'nın ortaya çıkmasına büyük umutlar bağlandı. Eğer benzer cihazlar görünürse, bu niteliksel bir devrim anlamına gelecektir. bilgi işlem teknolojisi ve sonra, kim bilir, belki de konuşma arayüzüne yönelik mevcut yaklaşımların çoğu gereksiz hale gelecektir.
Bu nedenle, şimdilik, konuşma arayüzünün çoğu, klavyeden veya fare kullanılarak girilebilen komutların sesli kopyasıdır. Ve burada avantajları oldukça sorgulanabilir. Ancak, birçokları için çok çekici olabilecek bir alan var. Bu, metinlerin bilgisayara konuşma girişidir. Aslında, klavyeye vurmak yerine, her şeyi bilgisayara dikte etmek çok daha uygundur, böylece duyduklarınızı bir metin dosyasına yazacaktır. Burada bilgisayarın duyduğunu "anlaması" hiç gerekli değildir ve konuşmayı metne çevirme görevi az çok çözülmüştür. Bugün piyasaya sürülen "konuşma arayüzü" programlarının çoğunun konuşma girişine odaklanması sebepsiz değildir.

1.2. Ses girişi

Geleneksel olarak, konuşma tanıma süreci birkaç aşamaya ayrılır. İlk aşamada, elektriksel forma dönüştürülen sürekli konuşma sinyali örneklenir. Tipik olarak, örnekleme hızı 10-11 kHz'dir, bit genişliği 8 bittir, bu küçük sözlüklerle (10-1000 kelime) çalışmak için en uygun olarak kabul edilir ve telefon kanalının ses iletim kalitesine (ZHz-3.4 kHz) karşılık gelir. . Aktif kelime dağarcığının hacmindeki bir artışın sayısallaştırma sıklığındaki bir artışın eşlik etmesi gerektiği açıktır ve bazı durumlarda - bit derinliğini yükseltmek.
İkinci aşamada, ayrık konuşma sinyali gürültüden arındırılır ve daha kompakt bir forma dönüştürülür. Sıkıştırma, bazı setlerde her 10 ms'de bir hesaplanarak gerçekleştirilir. sayısal parametreler(genellikle en fazla 16) belirli bir konuşma sinyalini tanımlayan minimum bilgi kaybıyla. Setin bileşimi, sistem uygulamasının özelliklerine bağlıdır. 70'lerden beri, özlü bir parametrik açıklama oluşturmak için en popüler yöntem (neredeyse bir standart), ses yolunun oldukça mükemmel bir doğrusal modeline dayanan doğrusal öngörücü kodlama (LPK) haline geldi. İkinci en popüler muhtemelen ayrık Fourier dönüşümü kullanılarak elde edilen spektral tanımdır.
Bununla birlikte, genellikle kırpma gibi hesaplama kaynaklarına daha az ihtiyaç duyan diğer yöntemler kullanılarak çok iyi sonuçlar elde edilebilir. Bu durumda, konuşma sinyalinin genliğinin işaretindeki değişikliklerin sayısı ve aralarındaki zaman aralıkları kaydedilir. Yöntemin görünür ilkelliğine rağmen, işaretin genlik tarafından korunma periyotlarının sürelerinin bir tahmini olan sonuçtaki değerler dizisi, telaffuz edilen sesler arasındaki farkları oldukça tam olarak temsil eder. Bu ön işleme yöntemi, özellikle 1980'lerin sonunda Bilimsel Araştırma Enstitüsü Hesaplamalı Mühendislikte (Moskova) geliştirilen konuşma tanıma sistemi için kullanılır.
Zaman (10 ms) hesaplama aralığı, otomatik konuşma tanıma teknolojisinin geliştirilmesinin başlangıcında deneysel olarak belirlendi ve doğrulandı. Bu aralıkta, ayrık rastgele süreç, sayısallaştırılmış konuşma sinyalini temsil eden sabit olarak kabul edilir, yani böyle bir zaman aralığında ses yolunun parametreleri önemli ölçüde değişmez.
Bir sonraki adım tanımadır. Bilgisayar belleğinde saklanan telaffuz standartları sırayla giriş konuşma sinyalini tanımlayan on milisaniyelik vektör dizisinin geçerli bölümü ile karşılaştırılır. Tesadüf derecesine bağlı olarak, en iyi seçenek seçilir ve ifadenin içeriği hakkında bir hipotez oluşturulur. Burada çok önemli bir sorunla karşı karşıyayız - sinyali zaman içinde normalleştirme ihtiyacı. Konuşma hızı, tek tek kelimelerin ve seslerin telaffuz süresi, bir konuşmacı için bile çok geniş bir aralıkta değişir. Bu nedenle, zaman uyumsuzlukları nedeniyle depolanan standardın bireysel bölümleri ile teorik olarak çakışan giriş sinyali arasında önemli farklılıklar mümkündür. Çözmek için yeterince etkili bu sorun 70'lerde geliştirilen dinamik programlama algoritmasına ve çeşitlerine (Viterbi algoritması) izin verir. Bu tür algoritmaların bir özelliği, standartla karşılaştırma sürecinde doğrudan zaman ekseni boyunca sinyalin dinamik olarak sıkıştırılması ve genişletilmesi olasılığıdır. 80'lerin başından bu yana, Markov modelleri, sinyal tanımına çok seviyeli bir olasılık yaklaşımı temelinde, zamansal normalleştirme ve sürekliliklerin tahmin edilmesini sağlayan, kalıpları numaralandırma sürecini hızlandıran ve daha fazla yaygın kullanım bulmuştur. tanıma güvenilirliğini artırır.

Herhangi bir konuşma giriş sisteminin çalışması, örüntü tanıma ilkesine dayanmaktadır. Sistem, gelen konuşma sinyalinden "açıklama"sını oluşturan bir dizi özellik çıkarır, ardından alınan açıklamayı giriş sisteminin belleğinde saklanan referans olanlarla karşılaştırır, yani. benzerlik ölçülerini hesaplar. Benzerlik ölçüsünün değeri belirli bir ayar seviyesini aşarsa, sistem sinyali “tanır” ve buna karşılık gelen standardın değerini atayacaktır. Konuşma sinyallerinin temel bileşenlerini tanımaya ek olarak, sistem konuşma mesajlarını, yani. karşılık gelen yazım metni dizilerini bulun, komutları yorumlayın ve yürütün, verileri ezberleyin ve saklayın, vb.
Konuşma mesajlarını tanıma ve yorumlama sistemlerinin çoğu için temel fonolojik unsur kelimedir; konuşulan kelime, yazım sunumlarına uygun olarak açık bir şekilde konabilir.
Bu bağlamda, tüm konuşma giriş sistemleri genellikle aşağıdaki kriterlere göre bölünür:

    sürekli konuşmayı veya ayrı ayrı konuşulan kelimeleri tanıma yeteneği;
    tanınan kelimeler sözlüğünün hacmi (mevcut sistemlerin sözlükleri 500'e kadar kelime içerir);
    bir konuşmacıya veya isteğe bağlı sayıda konuşmacıya yönlendirme.
Modern konuşma giriş sistemleri ve cihazlarının çoğu, kişisel ve kontrol mikrobilgisayarları için tasarlanmıştır, bu nedenle, bu tür giriş sistemleri için temel gereksinimlerden biri, sistem çalışırken ayrı ayrı konuşulan kelimelerin kelime dağarcığını sınırlandırarak ve işleme algoritmalarını basitleştirerek elde edilen düşük maliyetleridir. bir konuşmacıya yöneliktir.
Böyle bir konuşma giriş sisteminin genelleştirilmiş blok şeması:

Akustik bir konuşma sinyali bir mikrofon (M) tarafından algılanır ve bir analog elektrik sinyali biçiminde yüksek frekanslı bir filtreye (HPF ve ADC) iletilir. ADC çıkışından gelen dijital örnekler önişlemciye (PP) gönderilir. SP'nin görevi, tanıma için gerekli olan konuşma bilgisini korurken iletilen verilerin hacmini (ve dolayısıyla hızını) azaltmaktır. Sinyal tanımını oluşturan alınan özellik setine bağlı olarak, SP bir spektrum analizörü, format frekans dedektörü, LPK analizörü vb. olabilir. Ön işleme sonucunda elde edilen konuşma sinyalinin kısaltılmış açıklaması, özellik çıkarma işlemcisine (PVP) ve ardından bir sınıflandırıcı birim (BC), bir referans açıklama belleği (PEO) ve bir referans açıklama belleği (PEO) içeren karar verme sistemine iletilir. ayar ünitesi (BN). Karar verme sistemi iki modda çalışır - girdi ve öğrenme.
Giriş modunda, giriş konuşma sinyalinin açıklaması, ROM'da depolanan standartlarla bu açıklamanın benzerlik ölçülerini hesaplayan BC'ye beslenir. Tüm standartlar için benzerlik ölçülerinin hesaplanması sonucunda, maksimum ölçü bulunabilir ve giriş sinyalinin standartlardan birine uygunluğuna karar verilebilir. Giriş konuşma sinyaline bir ad atanır - bu standardın tanımlayıcısı. Daha sonra bulunan tanımlayıcı, ABD'nin arayüz birimi aracılığıyla uygulama programına veya merkezi bilgisayara aktarılır.
Öğrenme modunda, giriş konuşma sinyallerinin açıklamaları ayarlayıcıya sağlanır. Aynı blokta, genellikle Kl klavye kullanılarak bir ad girilir - konuşma sinyalinin tanımlayıcısı. BN, bir konuşmacı tarafından birkaç kez tekrarlanan kelimeler veya ifadeler için “ortalama” bir tanım bulur, ardından bu “ortalama” açıklamayı bir tanımlayıcıya atar, yani. bir standart oluşturur.
Tüm konuşma giriş sistemleri ve genel olarak görüntü tanıma sistemleri, genellikle doğru tanıma olasılığı, tanımayı reddetme olasılığı (sıklığı) ve tanıma sırasında hata olasılığı (sıklığı) ile karakterize edilir. Bu özelliklerin sayısal değerleri, kelime dağarcığının boyutuna ve kullanılan tanıma algoritmalarına bağlıdır. 200-300 kelime ve kelime öbeği hacmine sahip sözlükler için doğru tanınma olasılığı %95-98'dir.
Konuşma giriş sistemlerinde, güveni artırmak için genellikle görsel geri bildirim sağlanır. İncirde. 3 bu bağlantı, ekranda konuşulan kelimenin sembolik bir temsilinin görüntülendiği bir gösterge VE şeklinde gösterilir; bu gösterimin bilgisayara doğrudan girişi, yalnızca bir tuşa basılarak gerçekleştirilen tanımanın doğruluğunun onaylanmasından sonra gerçekleştirilir. Yanlış tanınırsa sözlü iptal komutu verilebilir ve kelime tekrarlanacaktır. Bu tür görsel geri bildirim, konuşma giriş sistemini birçok avantajdan yoksun bırakmasına rağmen, girişin yüksek doğruluğu, birçok alanda, özellikle veri hazırlamada kullanımını haklı çıkarmaktadır. Söz konusu sistem, klavye girişine kıyasla daha yüksek bir giriş hızı sağlar.
1.3. Tür çeşitliliği
Mevcut konuşma tanıma sistemleri çeşitli kriterlere göre sınıflandırılabilir.
Randevuyla:
    komuta sistemleri
    metin dikte sistemleri.
Tüketici niteliklerine göre:
    konuşmacı odaklı (belirli bir konuşmacı için eğitilmiş)
    konuşmacıdan bağımsız ("omnivois" terimini önerme riskini alıyorum)
    tek kelimeleri tanımak
    sürekli konuşmayı tanımak.
İşleyiş mekanizmaları ile:
    en basit (korelasyon) dedektörler
    ile uzman sistemler farklı yollarla bilgi tabanının oluşturulması ve işlenmesi
    sinir ağları da dahil olmak üzere karar vermenin olasılıksal ağ modelleri.
Bir konuşma tanıma sisteminin performansının uygun bir göstergesini seçmek oldukça zordur. Bu kalite göstergesi en basit şekilde komut sistemleri için sunulmuştur. Rastgele sırada test ederken, tüm olası komutlar oldukça fazla sayıda kez. Doğru tanınan komutların sayısı sayılır ve bölünür. toplam tutar sözlü komutlar Sonuç olarak, deney sırasında belirtilen akustik ortamda komutun doğru tanınma olasılığının bir tahmini elde edilir. Dikte sistemleri için, bazı test metinlerinin dikte edilmesi sırasında benzer bir kalite puanı hesaplanabilir. Açıkçası, bu her zaman uygun bir kalite göstergesi değildir. Gerçekte, çok çeşitli akustik ortamlarla karşı karşıyayız. Peki ya konuşmacıların değişmesi ve buna eşlik eden sistemin eğitimi?
Örnek olarak, en basit komut konuşma tanıma sisteminin bir türevini almama izin verin. Sistemin işleyişi, bireysel bir konuşmacı için komut kelimelerinin spektral-zamansal özelliklerinin çok az değiştiği hipotezine dayanmaktadır. Böyle bir sistemin akustik modeli, konuşma sinyallerinden bir zaman-spektral matris dönüştürücüdür ve buluşsal bir yaklaşımın tipik bir örneği olarak hizmet edebilir. En basit durumda, komut, konuşma sinyalindeki duraklamalarla zaman içinde lokalize edilir. Dil birimi, sınırlı sayıda komuta ek olarak bir tane daha algılayabilir, bu da diğerlerinin tümü anlamına gelir. sistem tarafından bilinmeyen sözler. Kural olarak, dilsel model, girdi örneğinden ve sistemin tüm "kelime dağarcığının" örneklerinden maksimum fonksiyoneli bulmak için bir algoritma olarak oluşturulur. Bu genellikle yaygın bir iki boyutlu bağdaştırıcıdır. Her ne kadar açıklama alanının boyutunun seçimi ve metrikleri geliştirici tarafından büyük ölçüde değişebilir.
Tarif edilen sistemin "tasarımından" yola çıkarak, kullanışlı bir araçtan çok bir oyuncak olduğu açıktır. Bugün piyasada çok daha büyük yeteneklere sahip birçok ticari konuşma tanıma sistemi bulunmaktadır:
        IBM'den Ses Tipi Dikte, Ses Pilotu, ViaVoice
        Teknolojiden Ses Yardımı Yaratıcısı
        Dinlemek pencereler için Verbex ve diğerlerinden.
Bazıları (örneğin, ViaVoice), geliştiricilerin iddia ettiği gibi, sürekli konuşma sunma yeteneğine sahiptir.
Modern sistemlerin dilsel blokları, karmaşık bir doğal dil modeli uygular. Bazen gizli Markov zincirlerinin matematiksel aparatına dayanır, bazen sinir ağı teknolojisindeki en son gelişmeleri veya diğer teknik bilgileri kullanır. Bu tür sistemlerin akustik birimlerinin düzenlenmesi kesinlikle gizli tutulur. Bazı göstergelere göre, bazı sistemlerin akustik ünitesinin doğal bir işitme cihazını taklit etmeye çalıştığı tahmin edilebilir.

1.3. Yazılım konuşma sentezleyicileri

Konuşma tanıma tek başına yeni bir şey değil. Radyoloji gibi belirli meslekler için dikte sistemleri uzun süredir var. Ama kendileri çok pahalıdır ve pahalı bilgisayarlar... Daha ucuz, daha genel amaçlı programlar, her kelimeden sonra duraklamalarla belirli konuşma kalıpları sunar.
Dragon Systems, NaturallySpeaking ile konuşma tanıma tarihinin temel taşını attı - bu, metni doğal olarak dikte eden ilk programdı. IBM kısa süre sonra ViaVoice'i sundu, benzer bir program bir rakipten yüzlerce dolar daha ucuza mal oluyor.
Konuşma tanıma programlarının gelişimini hızlandıran ana faktör bilgisayarların gelişmesi olmuştur.
Konuşma tanıma programları, karmaşık bir iş yaptıkları için oldukça güçlü bir ses kartı gerektirir. İlk olarak, konuştuğunuz kelimeler mikrofon tarafından yakalanır ve ses kartı tarafından işlenir.

vesaire.................

UX araştırmacısı ve Google'da eski konuşma arayüzü uzmanı olan Konstantin Samoilov'un mevcut sanal asistanların yeteneklerine ilişkin bir raporunun yeniden anlatımı.

yer imlerine

Konstantin Samoilov

Konuşma, 6 Temmuz 2017'de "Geleceğin Etkileşimi" UX maratonunda sunuldu. sesli asistan Henüz Yandex yoktu.

Nedir

Karışıklığı önlemek için, prensipte bir ses arayüzü (GI) ile ne kastedildiği üzerinde anlaşmak önemlidir. Ses tanıma görevi aktif olarak takip edilmektedir. Mükemmel olmayan koşullarda (vurgular ve tonlamalarla) İngilizce olmayanlar için bile kalitesi %95-98'dir. Modeli eğiterek kalite geliştirilebilir.

1. Doğal dil

Klavyede yazmak veya ekrana dokunmak yerine GI hakkında konuşursak, bunu uygulamak kolaydır - komut girişini sesle uygulamak yeterlidir.

Ancak komut dili insanlar için doğal olmadığı için bu işe yaramaz. Kullanıcıların anlamasında, sesli arayüzün avantajı, öğrenilmesine gerek olmamasıdır. Konuşabiliriz, birbirimizle etkileşimde uzmanız.

Artık herkesle etkileşim dili mevcut sistemler doğal değil. “Alexa, şöyle şöyle bir parçayı çalmaya başla” diyebilirsiniz ama bu, sistemin eğitildiği ve aslında kullanıcıdan gizlenen belirli bir gramerdir.

2. Diyalog

Bilgisayara sesli komut iletebilsek bile sistem yine çalışmayacaktır. Tüm verilerin en baştan girildiği varsayılmaktadır. Programlamada, bir geliştirici yanlış bir komut girerse, sistem tam olarak ne demek istediğini belirtmez. Genellikle çalışmıyor. Bir diyalog olmalı.

3. Sınırsız kelime bilgisi ve gramer

Aynı Alexa, küçük bir sorumluluk adasında çalışıyor. Yerleşik algoritmalara uygun olarak, kullanıcıdan belirli argümanlar almayı bekler. Sistem beklentileri, kullanıcının kullanabileceği dilbilgisini ve kelime dağarcığını sınırlar.

V Google geliştiricileri hangi dilbilgisi ve kelime türleri hakkında düşündüm ingilizce dili insanlar tarafından alarm kurmak veya hatırlatıcı oluşturmak gibi en yaygın görevler için kullanılabilir.

Testler dört yıl önce başladı. İlk testte kullanıcı, geliştiricilerin planlamadığı bir şey söyledi. Sistem çalışmadı, geliştiriciler "Kahretsin, bunu düşünmedik" dedi.

Üç yıl sonra, aynı sistemin geliştirilmiş bir versiyonunda, kullanıcı tekrar çalışmayan bir şey söyledi ve geliştiriciler, "Lanet olsun, bunu da düşünmedik" dediler. Zaman geçtikçe, bir karar ağacı ve dilbilgisi geliştirildi. Özel görev ve her biri yeni test geliştiricilerin hesaba katmadığı bir istisna yakalıyordu.

Doğal dil, diyalog ve dilbilgisi içeren kelime bilgisi, GI'nin gerçekten çalışması için ele alınması gereken temel sorulardır.

Türler

Ses ve konuşma arayüzleri hakkındaki tartışmalar genellikle bir dizi sistemi içerir. En basit soruları yanıtlayan ve rastgele şaka yapan botlarla başlayıp karmaşık sistemler endüstriyel düzeyde kullanılmaktadır. Örneğin, şaşırtıcı bir şekilde iyi sistemİngiltere'de vergi beyannamesi vermek.

Şu anki durum

Büyük oyuncular:

  • Amazon'dan Alexa.
  • Apple'dan Siri.
  • Tamam Google.
  • Microsoft'un Cortana'sı (birkaç kişinin kullandığı).

Samsung kendi yapar yeni sistem Vera'yı aradı. Alibaba, Çinli kullanıcılar için bir yardımcıdır. Piyasa patladı, herkes bu alanda çalışıyor.

Ancak paradoksal bir durum ortaya çıktı. Sektörde önemli bir adım atacak ve sektörde büyük bir fark yaratacak kaynak, bilgi ve beceriye sahip şirketler bu adımı atmakla ilgilenmiyor. GI ve sesli yardımcılar - mevcut durumu değiştiren yenilik (yıkıcı teknoloji).

Siri yeter iyi asistan hangi uyarır iPhone satışları... Görevlerini yerine getiriyor ve şirketin ekosistemi değiştirecek yeni bir şey yapması anlamsız. Uygulamalar Uygulaması Mağaza.

Mevcut insan-bilgisayar etkileşimi modeli bir araç kutusudur. Bir alet buluyoruz, çekmeceye koyuyoruz ve belirli bir an hedefe ulaşmak için kullanırız. Aletleri bulmaktan ve sahip olmaktan kendimiz sorumluyuz ve bunları ne zaman ve hangi sırayla kullanacağımızı kendimiz anlamalıyız.

GI'nin avantajı, arzumuzu doğal bir şekilde ifade etmemizdir. "Sevgilim, lütfen bana çay getir" demek doğaldır - istenen sonuçtan bahsediyoruz ve bunun için gerekli olan tüm adımlardan bahsetmiyoruz.

Etkileşim modelinde yapılacak köklü bir değişiklik, ayrı araçlara ihtiyaç kalmamasına yol açacaktır.

Tasarım

Kullanıcılar, arzularını doğal olarak ifade edebilmeyi umarlar ve sistem onları anlayacaktır. Sistem kişiye göre uyarlanmalı, tersi değil. Bu nedenle, bir GI tasarlamak daha çok insan özelliklerini anlamakla ilgilidir.

Kendinden emin

Bir kız üç kez teste katıldı. İkinci kez, sistem yeterince iyi çalıştığında, tepkisi "Aman tanrım, bu şey telefonumda yaşıyor, şimdi hayatım değişecek" oldu. Bir ay sonraki üçüncü testte ise sistemi hiç kullanmadığını ve kullanmayacağını söyledi.

Sistem çoğu durumda çalışmasına rağmen, kız ona güvenmedi. güven değil Teknik soru ama çözülmezse, geri kalan tüm işler boşuna yapılacaktır.

Güven, kontrolün tam tersidir. “Güven ama doğrula” sözü saçmadır. Eve gelip karının sana şöyle dediği hiç olmuyor: “Canım, sabah 12'de döndün. Toplantıda olduğunu söylemiştin. Bu yüzden tüm arkadaşlarınızı, şirketinizi ve şoförünüzü aradım ve gerçekten de toplantıdaydınız. Sana güveniyorum ama kontrol ediyorum." Bu olmaz.

İlk olarak, sistemin nasıl başa çıktığını öğreniyoruz ve ardından görevleri ona devretmeye başlıyoruz. Kara kutuya dönüşüyor - bunu nasıl yaptığını bilmiyoruz. Yaşayan bir asistanda olduğu gibi, kontrolü teslim edip yerine güvenle koyuyoruz.

Hatta Basit görev belirli bir bağlamda bir alarm ayarlamak gibi, kolayca devredilemez. Sadece öğlene kadar uyumamak için alarmı cumartesiye kurmak bir şeydir. Diğeri ise sabah 5'te havaalanına varmak ve ebeveynlerle buluşmak. İnsanlar sistemin ne kadar yanlış olabileceğini anlamadılar, bu yüzden hiç kullanmadılar.

Görünmez arayüz

Ses arayüzünün benzersizliği, görünmez olmasıdır. Grafik arayüzde kontrolleri görüyoruz: oradalar mı, nasıl görünüyorlar, tasarım modern mi, "Geri" ve "İleri" düğmeleri var mı, şu anda hangi adımdayız - orta veya son.

GI bunu görmene izin vermeyecek. Sistemin zihinsel bir modelini oluşturmaya çalışıyoruz ve “Şimdi 'Geri' dersem, diyaloğun başına geleceğim veya önceki devlet? Ve bu durum nedir?"

Zihinsel model, sistemin yetenekleri hakkındaki soruyu cevaplar. Üstelik bu model her zaman yanlıştır. Sadece "Bir şeye basın" sesli menüsü ile konuşursak, beklentiler hafife alınacaktır. Son zamanlarda "O" filmini izlemişsek, beklentiler abartılmış olacaktır.

GI'nin bir şekilde çalışması için, kullanıcının sistemin zihinsel modelini oluşturmasına ve ayarlamasına yardımcı olmak gerekir.

Zihinsel modeli düzeltmek

Sistem basit cevaplarla sorular sorabilir:

Evet veya Hayır).

Ya da belki ayrıntılı cevaplar önererek:

Başka bir şey yapmak istiyor musun?

Bu olayı yarım saat ileri alın.

Kullanıcı, sorunun biçiminden, ilk durumda sistemin oldukça aptal olduğu sonucuna varabilir. “Hayır, kaydetme” diyecek ve sonraki komutlar aynı ayrıntı düzeyiyle verilecektir: “Yeni etkinlik. Ne zaman yapmak istiyorsun? Saat 12.30 'da. Ne yapmak istiyorsun? Anne babanla tanış. Nereye? Havaalanında".

İkinci durumda, sistemin "akıllı" olduğuna ve ayrıntılı cevapları anladığına karar verebilir. Girilen bilgileri düzeltmek için "Bunun yerine yarın saat 12:30'da anne babamla havaalanında buluşmak için yeni bir etkinlik yapmak istiyorum" diyecektir.

İnsanlık

Bir kişi için doğal olan bir GI yapmak için, başka biriyle konuşmamızın neden doğal kabul edildiğini anlamanız gerekir. Hangi özelliklerden dolayı? Bunu bilmediğimizi anladık.

Orada Zeki insanlar kiminle iletişim kurmanın hoş olduğu ve kiminle olmadığı. Oldukça olgun tepkileri olan insanlar var: hatalarımıza ve sorularımıza farklı tepkiler veriyorlar. 50 yıl önce böyle bir şey yoktu. duygusal zeka... Elbette diğer insanlarla rahatça iletişim kurabildiğimiz diğer birçok özelliği bilmiyoruz.

Bu özellikleri bilmeden onları sisteme tanıtamaz ve sistemle iletişimi doğal hale getiremez. Olası çözümlerden biri, sistemin tamamlanmış olması gerekmemesidir. İnsanlardan geri bildirim alacak ve neyin doğru neyin yanlış olduğunu öğrenecek yarı bitmiş bir ürün yayınlayabilirsiniz.

Bu özelliklerin ne olması gerektiğini bilmesek de bir noktada sistem onları anlayacak ve destekleyecektir.

Kişilik

En iyilerinden biri popüler sorular- sesli asistanın kişiliğinin doğası. Günümüzde teknolojiler yalnızca samimiyeti, zekayı, mizah anlayışını vb. taklit etmeye izin veriyor. Bir kişinin özelliği, bunların çok yönlü özellikler olmasıdır. Şirketlerin yaklaşımları çeşitlilik gösterir ve kuruluş amacına bağlıdır. ses sistemi ve şirket felsefesi.

Siri, sihirli bir dünya yaratan bir şirketin projesidir. kullanıcı deneyimi... Her şey sadece çalışmalı. Ve kullanıcı dilbilgisi ve kelime bilgisi ile tahmin ederse, her şey yolunda demektir. Ancak tahminde bulunmazsanız, sistem neyin yanlış olduğuna ve bir dahaki sefere daha iyi çalışması için davranışın nasıl düzeltileceğine dair en ufak bir belirti olmadan çalışmayı durdurur.

Aynı zamanda, kişiliğe büyük önem verilir. Programcılar ses kalitesi ve insan etkileşimi üzerinde çalıştı: Siri şaka yapabilir, yaparken komik bir yorum ekleyebilir standart görev... Bazen doğal görünüyor, ancak tekinsiz vadiye hızla ulaşıyoruz.

Etkisi: ne daha fazla sistem bir insana benzer, ondan daha çok hoşlanır. Ancak çok benzer hale geldiğinde, beğeni çarpıcı biçimde azalır ve yalnızca tam bir taklit için geri yüklenir. Bu durgunluğa "uğursuz vadi" denir.

"Şeytan Vadisi"

Kişilikler söz konusu olduğunda hemen içine düşeriz: sistem başarılı bir şekilde şaka yapar, kişi rahatlar, farklı bir dizi kelime ve dilbilgisi kullanır ve sistem beklediğinden farklı tepkiler vermeye başlar. Kullanıcı, sistemin kendisine güldüğünü veya onu onaylamadığını düşünebilir. Bu onun aptal bir robot olduğunu düşünmesinden çok daha kötü.

Temel farklılıklardan biri Google Asistan bir adı bile yok (Tamam, Google). Siri (Apple) ve Alexa'nın (Amazon) isimleri var ve insan gibi davranmaya çalışıyorlar.

Google'da, en güvenli şeyin kişilikleri taklit etmemek ve kullanıcıya bunların herhangi bir insan etkileşimi olmayan teknolojiler olduğunu göstermek olduğu sonucuna vardık.

Sorularla ilgili cevaplar

Güvenlik

Alexa'nın ilginç çözümleri var: örneğin "akıllı" bir kilitle evdeki cihazlarla iletişim kurabilir. Kapıya gidip şöyle diyebilirsiniz: "Alexa, kapıyı aç, kod şöyle böyle."

Birçok nüans var. Sesimizi kullandığımızda çevredeki herkes bizi duyabilir - bu güvensiz ve bazen uygunsuzdur. İnsanlar bir olay yaratmak için arabalarında GI'yi kullanırlar, ancak çevrelerindekiler nerede, ne zaman ve kiminle olmayı planladıklarını duyacakları için bunu otobüste yapmazlar.

Güvenlik önemli olduğunda GI'leri kullanmamaya karar verdik. Bu durumda, sistem gereksinimleri daha yüksektir. Bir alarm kurarsak ve 100 üzerinden 99 kez çalarsa, sorun değil. Arabayı veya kasayı kapatırsak, 100'de 99 kez tetiklemek kabul edilemez.

Geri bildirim sorusu belirir. Alarmı kurarsak, kurulduğunu cevaplamamız yeterlidir. Sistem tarafından kaydedilen tüm parametreleri belirtmiyoruz. NS artan gereksinimler güvenlik için, mevcut durumda imkansız olan sisteme tamamen güvenmeliyiz.

Veya geri bildirim almaları gerekir: Böyle bir planın alarmı açılır, böyle bir ana kadar çalışır, bu kişi onu kapatabilir vb. Sistem sesli olarak söylerse, başka biri duyabilir. Ve eğer sistem rapor verirse kesin bilgi?

Bu nedenle çalışmalarımızda güvenlik ve mahremiyetin önemli olduğu durumlara girmemeye karar verdik.

Yakın gelecek

Büyük şirketler asistanın herhangi bir soruyu cevaplama yeteneğini simüle etmeye çalışacak ve yine de işe yaramayacak.

Kullanıcı beklentilerinin kelime dağarcığını ve etkileşim dinamiklerini sınırladığı dar alanlarda uygulama mümkün olacaktır. Örneğin, bir bilet makinesine yarın akşam için Moskova'dan Kaluga'ya bir bilete ihtiyacı olduğu söylenebilir. Kişi daha sonra Barack Obama'nın kaç yaşında olduğunu sorarsa, sistemin bu soruyu yanıtlamaması tamamen normaldir.

Gelecek, belirli bir kullanıcı durumuna odaklanmak, onunla ilişkili tüm dilbilgisini desteklemek ve bunun dışındaki her şeyi görmezden gelmektir.

Ödemelerde kullanın

Ses, ödemeleri onaylamak için kullanılır, ancak bu, tüm etkileşimin yalnızca bir parçasıdır. Tüm sürecin bir sesle yapılabileceğine dair hiçbir örnek yoktur. Bu kısmen yasal hususlar ve ters ibrazlardan kaynaklanmaktadır.

Avrupa'da, belirli bir süre boyunca (içinde) bir bekleme süresi vardır. Farklı ülkeler farklı) alıcı, her şey yolunda olsa bile ürünü iade edebilir. Kişi sebepsiz yere fikrini değiştirebilir ve bu kanunla desteklenir.

Ödeme sistemi Ayrıca kişinin satın aldığını bilerek ürünün parasını ödediğinin de garanti edilmesi gerekir ve bu bir hata değildir. Yanlış bir satın alma ise, geri ödemeler için tamamen farklı bir kural uygulanır. Çocuğun telefonu aldığı durumlar vardı ( Amazon Ateşi), bir şeyler söyledi ve satın alma sürecini başlattı. Bu durumda, kimin başlattığını kanıtlamak imkansızdır.

İhtiyaç duyulduğunda

Genel olarak kabul edilir ki yeni teknoloji sadece bir öncekinin yerini alacaktır, ancak bu her zaman böyle değildir. Şimdi uygulamaların sesi hakkında konuşuyorlar, ne zaman için mevcut uygulama ekran basitçe bir sesle değiştirilir. Açıkçası bu şekilde çalışmıyor. Esas olarak ses başka ortamlarda kullanıldığı için. Kişi telefonu tutabilir ve ekrana dokunabilirse, büyük olasılıkla sesini kullanmayacaktır. Dokunmatik ekran çoğu zaman GI'den daha uygundur.

Ses, telefonu kullanmanın zor olduğu durumlarda uygundur: Araba kullanırken, çantalarla yolda veya evde kanepede, telefon masanın üzerindeyken ve almak için çok tembel olduğunda. Müziği sesinizle açmak, düğmeye bassanız bile daha kolay - daha hızlı.

Telefonu kullanırken GI gerekli her zamanki gibi mümkün değil, örneğin bir arabada. Ancak bir şirket, bir ürünün araç kullanırken kullanılabileceğini söylüyorsa, sürüşle ilgili tüm yasal kısıtlamaların dikkate alındığını özel mercilere kanıtlaması gerekir.

GI, iki koşul karşılandığında kullanılmalıdır:

  1. Bir kişi çok görevli bir şey yapıyor ve tek bir cihaza konsantre olamıyor.
  2. GI ile yaptığı ana görev değil.

Görsel arayüz ile iletişim

Büyük bir avantaj Bu etkileşim seçeneklerinde görsel arayüzler görünür. GI ile bizim için neyin mevcut olduğunu bilmiyoruz.

Ekranlarla etkileşim çok iyi geliştirilmiş bir konudur. Sadece gözlerimiz olduğu için, GI iyi çalıştığında bile ekran kalacak. Görsel algı temeldir. Ses - yardımcı.

Ses, ikincil bir yapı olmaksızın ekrandaki veri gösterimi ile etkileşime girebilir. Örneğin, Alexa'da ana bileşen sestir. Sistem yanıtlarını ekranda görmek için uygulamayı koyabilirsiniz (bazı yanıtları duymak zordur). Doğru, konsept şimdi değişiyor - Amazon Echo'nun bir sonraki sürümünün kendi ekranı olacak.

Kritik süreçlerde uygulama

Cerrah, çoklu göreve iyi bir örnektir. Tek bir aktiviteye odaklanır, ancak ihtiyaç duyabilir ek bilgi... Burada GI zaten uygulanıyor.

IBM, Watson projesiyle farklı bir yol izledi. Şirket çalışmaya başladı yapay zeka... İlk başta insanlarla bir sınav kazandı ve dört yıl önce birkaç Amerikan kliniğinde uygulandı. Şimdi 1000 klinikte kanser teşhisi için kullanılıyor. Sistem kritik süreçler için kullanılır, ancak çok dar kullanım durumlarında. Aynı zamanda, personel özel eğitimden geçmektedir.

Başarılı çözüm örnekleri

Amazon, kökten farklı bir ürün piyasaya sürdü: ekran yok, bu fiziksel bir nesne, ses kalitesi çok daha yüksek (önceden kaydedilmiş örneklerle yerleşik veri depolaması nedeniyle).

İlginç Google Konuşma Etkileşimi. Takvime bir şeyler eklemek istediğimizi söylersek, oldukça esnek ve oldukça açık olan bir diyalog sistemi başlayacaktır. Olayla ilgili bilgileri netleştirir, verileri düzeltebilirsiniz vb.

Microsoft, Cortana'da özelleştirme sorununu iyi bir şekilde ele aldı. Kişinin sistem hakkında hiçbir şey bilmesine ve yapılandırmasına gerek olmaması beklenir. Bunu söylediğimde genellikle şunu kastediyorum: Bu kelimeleri diğer insanlardan farklı kullanıyorum vb. Teorik olarak, bu otomatik olarak çalışmalıdır, ancak çalışmaz, bu da bir akort sistemi olması gerektiği anlamına gelir.

Apple, ayarlar sorununu tamamen görmezden geliyor. Cortana için ilgi alanlarınızı vb. belirtebilirsiniz ve arayüz oldukça basittir.

Özet, arayüz tasarımcısı Anton Grigoriev tarafından hazırlanmıştır.

Bir bilgisayarla etkileşim kurmak için bir ses arayüzü uzun süredir yeni değil. Yıllardır oradaydı, örneğin, Windows dağıtımları... Ancak, birkaç meraklı araştırmacının deneyiminin gösterdiği gibi, onu kullanmak çok uygun değil.

Nasıl görme engelli ve kör olunur, kişisel yüksek teknolojili cihazların kendilerine sunmaya hazır olduğu fırsatlardan kimler yararlanmak ister? Ne de olsa piyasaya hakim olan işletim sistemlerinde ve uygulamalarda bulunan ses arabirimi nesnel olarak mükemmel olmaktan uzaktır. Bazen tek bir seçenek kalır: işin iyi yapılmasını istiyorsan kendin al.

Ti Wee Raman (TV onun baş harfleridir; aslen Hindistanlı olan bu bilgisayar mühendisi, Batı'da algılanması zor bir isim yerine onları kullanmayı tercih ediyor), 14 yaşında görme yeteneğini kaybetti. glokom. Bombay'a 160 km uzaklıkta bulunan Pune'da (ki Mumbai olarak birkaç yaşındadır) "üniversiteler şehri"nde doğup eğitim görmüş olması çocuk için büyük bir şanstı.

Akrabalarının ve öğretmenlerinin yardımıyla, Ti Vee sadece liseden mezun olmakla kalmayıp aynı zamanda yerel bir üniversiteye girmeyi başardı ve 1987'de matematik alanında lisans derecesi aldı. Ardından Bombay'da ve ardından ABD'de Cornell Üniversitesi'nde eğitimine devam etti.

Üstün yetenekli bir kör öğrenci, çalışma ile ilgili notları kullanma fırsatından mahrum, mükemmel gören diğer birçok öğrenciden daha yoksun. Ve sadece çalışmaları için değil: bir Rubik küpünü çözme konusundaki kişisel rekoru (elbette renkli işaretlerle değil, hareketli elemanlar üzerinde Braille harfleriyle) 23 saniyedir.

ABD'de T.V. üzerinde çalıştı farklı seçenekler 1991'den beri insan-bilgisayar ses etkileşimi organizasyonu. Önce Palo Alto'daki Xerox Araştırma Merkezi'nde, ardından Grubun bir parçası olarak Cambridge Dijital Ekipman Şirketi Merkezi'ndeki Intel laboratuvarında gelecek vaat eden teknolojiler Adobe Systems ve IBM Research. 2005 yılında Google'da çalışmaya başladı.

Bu zamana kadar, T.V.'nin hesabında, ciddi görme bozukluğu olan kişilerin (ve ilk etapta kendisinin) bir bilgisayarla aktif olarak etkileşime girmesine izin veren birkaç gelişme zaten vardı. Bunlar arasında - AsTeR, etkili "okuma" için bir ses arabirimi bilgisayar sistemi yüksek sesle zor matematiksel formüller; * NIX / Linux kullanıcıları arasında popüler olan metin editörü Emacs temelinde oluşturulmuş tam teşekküllü bir ses "Masaüstü"; web belgelerinin sesli sunumu için derinden geliştirilmiş teknik XHTML + Voice ve daha fazlası.

Google'da Ti Vee üzerinde çalıştı sesli versiyon arayüz arama motoru, ve şu anda, görme engellilerin ihtiyaçları için dokunmatik ekranlı bir iletişimci gibi süper popüler bir cihazın modifikasyonu ile meşgul.

Bu tür cihazların kontrol yüzeyinde açıkça hissedilen düğmelerin yokluğunun, bariz bir dezavantajdan bir değere kadar durdurulabileceği ortaya çıktı. Örneğin, basit bir yardımcı program, Communicator manuel arama moduna geçirilirse, ekrandaki ilk dokunuş bölgesini sanal tuşun "5" konumu olarak algılamasına izin verir. Sayısal tuş takımı... için standarda odaklanmak düğmeli telefonlar tuşların boyutu ve bunların standart düzeni, herhangi bir numarayı çevirmek kolaydır ve ardından sesli doğrulama, doğru olduğundan emin olacaktır.

ile sesli etkileşim teknolojileri dijital cihazlar serbest bırakıldı yeni seviye onların gelişimi, sadece körlere yardım edemeyecek. Özellikle, yol işaretlerinin aynı iletişimcisinin bir video kamerasıyla dikkatli bir şekilde izlenmesi ve bunların varlığı ve anlamı hakkında sesli bir uyarı, acemi sürücülere veya kendilerini tanıdık olmayan bir yolda ilk bulduklarında kendilerini güvensiz hissedenlere büyük ölçüde yardımcı olacaktır.