Hlasové rozhranie ako skutočný nástroj. Neobmedzená slovná zásoba a gramatika. Komunikácia s vizuálnym rozhraním

  • 26.04.2019

S príchodom hlasových používateľských rozhraní, aká je budúcnosť grafiky? V akých situáciách je lepšie použiť hlasové a grafické rozhranie? V tomto článku získate odpovede na tieto otázky.

Naše primárne senzory

Náš mozog je stroj na spracovanie obrazu. Zložitým informáciám môžeme rýchlejšie porozumieť, keď ich vidíme. Väčšinu informácií absorbujeme očami. Stručne povedané, naše oči sú naše primárne senzory.

Naše uši sú druhým najdôležitejším senzorom. A v niektorých situáciách je hlasová konverzácia veľmi efektívny kanál komunikácia. Predstavte si na chvíľu jednoduchý zážitok z nakupovania. Objednávanie vašej obľúbenej pizze je oveľa jednoduchšie, ak ju len pomenujete a objednáte namiesto toho, aby ste prechádzali všetkými rôznymi ponukami na stránke. Ale vo viac ťažká situácia nestačí sa spoliehať len na verbálnu komunikáciu. Kúpili by ste si napríklad šaty bez toho, aby ste ich najprv videli? Samozrejme, že nie. Používateľské rozhrania sa budú čoraz viac prispôsobovať našim senzorom.

Naše oči a uši sú hlavnými vstupnými senzormi. Sme veľmi dobrí v rozpoznávaní vzorov a spracovaní obrazu. To znamená, že komplexné informácie dokážeme vizuálne spracovať rýchlejšie. Na druhej strane, reakčný čas na zvuk je rýchlejší, takže hlas je dobrou voľbou pre varovania.

Naše ústa sú najviac efektívne zariadenie stiahnutie. Pretože väčšina ľudí dokáže rýchlejšie hovoriť ako písať alebo písať.

Pretože ľudia sa dobre kombinujú rôzne kanály, to spôsobí, že počítače budú používať multimodálne rozhrania na prispôsobenie sa ľudským schopnostiam. Rozhrania sa prispôsobia ľuďom, ktorí používajú prostredie a formát správ, ktorý je pre ľudí v danej situácii najvhodnejší. Poďme sa pozrieť na niekoľko príkladov.

Chatovací roboti

Pre základná komunikácia chat je efektívnejší ako tradičné používateľské rozhrania. S ním sa predávajúci a kupujúci môžu navzájom nájsť a dohodnúť rôzne obchody. V tomto prípade je chat optimálny kvôli individuálnej komunikácii. Ale keď príde na zložitejšie interakcie ako na porovnanie Vysoké číslo tovar, potrebujeme pokročilejší používateľské rozhranie... V tomto prípade sa pridáva schopnosť hlasová komunikácia s manažérom: zavolajte na chat.

Digitálni asistenti

Napríklad variť v kuchyni a povedať „Červené čili“ je jednoduchšie ako listovať v katalógu rukami. Pomocou hlasového rozhrania môžete automaticky niečo pridať do svojho nákupného zoznamu. Produkty sa vám ukážu a vy si hlasom vyberiete tie, ktoré sa vám páčia.

Keď je používateľ v kuchyni a jeho ruky sú zaneprázdnené, používanie hlasového ovládania je pohodlnejšie ako dotyk na obrazovku. Hlasové rozhranie - skvelá funkcia a budú povinné v budúcich produktoch.

Pre multimodálne rozhrania je dôležité, aby boli hlasové a vizuálne výstupy synchronizované. V opačnom prípade budú ľudia ľahko zmätení. Napríklad, keď sa s niekým rozprávame, môžeme sa mu jednoducho pozrieť do tváre a zistiť, či dostal našu správu. V prípade multimodálneho rozhrania budeme chcieť urobiť to isté pri rozhovore s produktom. Toto by sa malo vziať do úvahy pri vývoji zmiešaných rozhraní.

Aplikácia Zdravie

Napríklad aplikácia na meranie vzdialenosti medzi zreničkami pre ľudí, ktorí nosia okuliare (PD Measure). to dobrý príklad kombinujúci vizuálne a hlasové rozhranie.

Každý klient by mal vedieť daná vzdialenosť kúpiť okuliare online. Ak to nevedia, tak musia ísť do maloobchodu a tam sa premerať. Otvorí sa nástroj merania, ku ktorému má prístup každý používateľ obrovský trh online optika.

Pomocou takejto aplikácie sa klient bude môcť postaviť pred zrkadlo a odfotiť sa, držať telefón v určitej polohe a postupovať podľa presných pokynov. Aplikácia potom automaticky vypočíta vzdialenosť medzi zreničkami. To stačí na online objednávku.

***

Poďme si zhrnúť, kedy použiť hlas a kedy vizuálne používateľské rozhranie.

Vizuálne používateľské rozhrania fungujú lepšie v nasledujúcich situáciách:

  • zoznamy s veľké množstvo predmety (kde čítanie všetkých predmetov nahlas bude trvať príliš dlho);
  • komplexné informácie(grafy, tabuľky a dáta s mnohými atribútmi);
  • veci, ktoré by ste mali porovnávať;
  • produkty, ktoré by ste chceli vidieť pred nákupom;
  • informácie o stave, ktoré by ste chceli pravidelne kontrolovať (čas, časovač, rýchlosť atď.).
  • príkazy (teda každá situácia, v ktorej presne viete, čo chcete. Aby ste mohli preskočiť navigáciu a len diktovať svoj príkaz);
  • pokyny pre používateľov. Pretože ľudia majú tendenciu nasledovať hlasové pokyny lepšie ako písomné pokyny;
  • zvuková spätná väzba pre úspešné situácie a chybové situácie, s rôzne signály;
  • upozornenia a upozornenia (pretože doba odozvy na hlas je rýchlejšia);
  • jednoduché otázky, ktoré si vyžadujú pomerne jednoduché odpovede.

Niekoľko tipov na prácu s multimodálnymi rozhraniami:

  • Synchronizácia hlasového a vizuálneho rozhrania. Vždy majte vizuálny prehľad spätná väzba o tom, čo sa deje.
  • Zobrazte vizuálne indikátory, keď zariadenie počúva alebo premýšľa o odpovedi.
  • Zvýraznite slová hlasového príkazu v grafické rozhranie.
  • Nastavte správne očakávania pre používateľské rozhranie a uistite sa, že produkt vysvetľuje, ako funguje.
  • Produkt si musí byť vedomý kontextu rozhovoru a musí primerane reagovať.
  • Neignorujte bezpečnosť a súkromie. Umožnite ľuďom stlmiť komponenty (napríklad mikrofón).
  • Nečítajte dlhé audiomonológie. Ak sa to nedá zhrnúť do niekoľkých slov, zobrazte ho na obrazovke.
  • Nájdite si čas na pochopenie špecifík každej platformy a vyberte si tú správnu.

Záver

V budúcnosti sa hlasové rozhranie stane samozrejmosťou. Nové rozhranie neznamená, že by sme mali ignorovať všetko, čo sme úspešne aplikovali na GUI. Dôjde k zlúčeniu grafického a hlasového rozhrania ako ľudskejšieho spôsobu komunikácie medzi používateľom a počítačom.

Tento multimodálny vývoj už prebehol. Rozhlasové a nemé filmy sa spojili do filmov, ktoré sú ešte vylepšené 3D atď. Tento proces sa čoskoro uskutoční v interaktívnom digitálnom svete.

V mnohých sci-fi filmoch a knihách je jednou z hlavných postáv počítač. Zvyčajne robí viac, než len vykonáva výpočty – povedzme vykresľuje trasu vesmírna loď- ale komunikuje aj s ľudskými hrdinami ako živý partner.

Základom takejto komunikácie je hlasové rozhranie – koncept, ktorý sa na rozdiel od stroja času a iných fantastických vecí už stal realitou. Hlasom môžete napríklad zadávať dopyty do vyhľadávača alebo adresy do navigátora – to sa hodí, keď máte zaneprázdnené ruky.

Jadrom každého hlasového rozhrania je technológia rozpoznávania reči. Na plnohodnotnú „komunikáciu“ s človekom však nestačí, aby stroj dokázal správne rozpoznať nahlas vyslovené slová. Aby bol počítač ako živý partner, musí pochopiť, že je adresovaný, musí byť schopný pochopiť podstatu toho, čo sa hovorí, a vysloviť odpovede.

Yandex má vlastný systém rozpoznávanie reči -. Používa sa v službách Yandex - napríklad Navigator - a v produktoch vývojárov tretích strán... SpeechKit sa môže zapnúť pomocou hlasový príkaz rozumie významu slov a tiež nielen počúva používateľa, ale aj mu odpovedá - pomocou technológie syntézy reči. Takmer ako skutočný spoločník.

Keď chceš niečo povedať konkrétna osoba, voláte ho menom. Ide o akýsi vopred pripravený signál: „Hej! To, čo teraz poviem, je adresované vám a iba vám." V Yandex SpeechKit je takýto signál príkazom na aktiváciu hlasu. Akékoľvek slovo alebo fráza môže slúžiť ako príkaz - všetko závisí od fantázie vývojára.

Keď používateľ povie príkaz, počítač prejde do režimu rozpoznávania - pretože chápe, že všetko, čo bude v budúcnosti povedané, je určené pre neho. Nemusíte stláčať žiadne tlačidlo, stačí povedať prístupovú frázu.

Hlasová aktivácia v Yandex SpeechKit je v podstate miniatúrny systém rozpoznávania reči. Systém beží priamo na zariadení a nevyžaduje prístup na internet. Analyzuje celý prichádzajúci zvukový tok na prítomnosť reči a ak sa nájde reč, začne v nej hľadať kódovú frázu. Tento prístup vám umožňuje šetriť energiu batérie vášho smartfónu alebo tabletu.

Výber sémantických objektov

Predstavte si, že ste počuli frázu „V Moskve je dnes sedem stupňov Celzia“. Bez ďalších vysvetlení je vám jasné, že „Moskva“ je mesto, „dnes“ je 30. október a „sedem stupňov“ je teplota vzduchu. Inými slovami, viete, ako zo slov získať význam.

V tejto zručnosti človek necháva počítač ďaleko za sebou, ale aj tak je možné stroj niečo naučiť. Do Yandex SpeechKit sme pridali technológiu na zvýrazňovanie sémantických objektov v rozpoznanom texte. Takýmito objektmi môžu byť dátum a čas, mená a priezviská alebo adresy.

Technológia vám umožňuje ovládať počítač alebo smartfón jednoduché frázy ktoré sa netreba vedome učiť naspamäť. Napríklad: „Nastav si budík na siedmu ráno“ alebo „Poďme na ulicu Leva Tolstého 16.“ Fráza môže znieť inak – systém pochopí, že „Vytočte číslo Ivana Ivanoviča“ a „Zavolajte Ivanovi Ivanovičovi“ sú jedno a to isté. Yandex SpeechKit dokáže analyzovať kontext, a preto pochopí, že fráza „Zavolajte Vladimírovi“ znamená osobu a fráza „Poďme k Vladimírovi“ - mesto.

Syntéza reči

Dobrý partner vie nielen počúvať, ale aj reagovať. Preto má Yandex SpeechKit teraz technológiu syntézy reči – umožňuje počítaču vysloviť text nahlas. Napríklad môže o sebe povedať:

Syntéza reči je opakom rozpoznávania reči. V prípade rozpoznávania dostane systém zvuk, ktorý je potrebné previesť na text a v prípade syntézy text, ktorý je potrebné prečítať.

Existuje syntéza reči rôzne prístupy... Jedným z nich je nahrávanie samostatných fragmentov (vzoriek) hovorcom, z ktorých sa následne „zliepa“ reč. Tento prístup je časovo náročný a okrem toho, reč takto syntetizovaná znie neprirodzene: náhle a s prestávkami na tých najneočakávanejších miestach.


Úvod
V počítačovom svete rečové technológie znamenajú celý konglomerát softvéru a hardvéru, ktorý umožňuje predovšetkým syntézu a rozpoznávanie ľudskej reči, ako aj vývoj nástrojov, ktoré vám umožňujú vytvárať systémy na spracovanie reči. Vytvorenie a vývoj rečového rozhrania je v súčasnosti jednou z najťažších a najkontroverznejších úloh. Na jednej strane téma nie je absolútne nová, na druhej strane sa aktívny vývoj a aplikácia tejto technológie len začína. Na jednej strane sa vytvorili ustálené stereotypy a predsudky, na druhej strane sa napriek takmer polstoročnému vytrvalému úsiliu nepodarilo vyriešiť problémy, s ktorými sa zakladatelia rečových vstupov stále stretávali. Nech je to akokoľvek, hľadanie rozhrania, ktoré by vyhovovalo každému, bude pokračovať. V skutočnosti je to presne to, o čo sa ľudstvo vždy snažilo pri komunikácii s počítačom.
Od 70. rokov je veľký záujem riešiť problém rečového dialógu užívateľa výpočtovou technikou. Vysvetľuje to množstvo funkcií rečového vstupu - výstupu informácií v počítači:
    najväčšia prirodzenosť komunikácie a v dôsledku toho zvýšenie miery sústredenia sa na vykonávanú prácu
    zvýšenie rýchlosti a spoľahlivosti zadávania informácií
    uvoľnenie hmatových a vizuálnych kanálov na vykonávanie ďalších operácií
    schopnosť pracovať v zatemnenej miestnosti a s ľubovoľnou polohou operátora alebo jeho pohybom
    poskytovanie komunikácie s počítačom pomocou zariadení (telefónu)
Výskumníci za posledné desaťročia urobili malý pokrok, čo spôsobuje, že niektorí odborníci sú mimoriadne skeptickí voči samotnej možnosti implementácie rečového rozhrania v blízkej budúcnosti. Iní veria, že úloha je prakticky vyriešená. Všetko však závisí od toho, čo by sa malo považovať za riešenie tohto problému.
Bill Gates, ktorý je v istom zmysle ideálom pragmatizmu, teda nebol oslobodený od historických stereotypov. Počnúc 95-96 vývojom našich vlastných univerzálny systém rozpoznávanie reči, v roku 97 vyhlásil ďalšiu éru všadeprítomného zavádzania rečového rozhrania. Prostriedky hlasového vstupu sa plánovali začleniť do štandardnej dodávky novej verzie Windows NT – čisto kancelárskeho operačného systému. Na vyhodnotenie ich vykonanej práce stačí nainštalovať akýkoľvek zvukový „engine“ interagujúci priamo s Microsoft SAPI integrovaný do vášho systému.
Každý, kto je akýmkoľvek spôsobom spojený s vývojom rečových technológií, čelí nasledujúcim otázkam: prvá - a možno aj hlavná - sa týka oblasti použitia. Hľadanie aplikácií, kde by rozpoznávanie reči mohlo na rozdiel od všeobecného presvedčenia preukázať všetky svoje výhody, nie je ani zďaleka triviálna úloha. Súčasná prax používania počítačov vôbec neprispieva k plošnému zavedeniu rečového rozhrania. Na zadávanie príkazov súvisiacich s polohovaním v priestore človek vždy používal a bude používať gestá, teda systém „ruky-oči“. Na tomto princípe je postavené moderné grafické rozhranie. Vyhliadka na nahradenie klávesnice a myši jednotkou na rozpoznávanie reči je úplne mimo. Zisk z pridelenia niektorých riadiacich funkcií je zároveň taký malý, že by nemohol poskytnúť dostatočný základ ani na skúšobnú implementáciu v r. bežné počítače už vyše tridsať rokov. Toto je časový rámec na vyhodnotenie existencie komerčne použiteľných systémov rozpoznávania reči.
Pre porovnanie: spontánna reč sa vyslovuje priemernou rýchlosťou 2,5 slova za sekundu, profesionálne písanie - 2 slová za sekundu, neprofesionálne - 0,4. Rečový vstup má teda na prvý pohľad výraznú výkonnostnú výhodu. Odhad priemernej rýchlosti diktovania v reálnych podmienkach je však znížený na 0,5 – 0,8 slova za sekundu kvôli potrebe jasnej výslovnosti slov počas zadávania reči a pomerne vysokému percentu chýb v rozpoznávaní, ktoré je potrebné opraviť.
Rozhranie reči je pre človeka prirodzené a poskytuje ďalšie pohodlie pri písaní. Ani profesionálnemu hlásateľovi však nemusí vyhovovať vidina niekoľkohodinového diktovania do „obskúrneho“ počítača. Skúsenosti s prevádzkou takýchto systémov navyše naznačujú vysokú pravdepodobnosť ochorení hlasiviek operátorov, čo súvisí s monotónnosťou reči nevyhnutnou pri diktovaní do počítača.
Medzi výhody zadávania textu rečou často patrí absencia potreby predbežného školenia. Avšak, jeden z najviac slabé stránky moderné systémy rozpoznávanie reči – citlivosť na jasnosť výslovnosti – stráca túto zdanlivo samozrejmú výhodu. Operátor sa naučí písať na klávesnici v priemere 1-2 mesiace. Získanie správnej výslovnosti môže trvať niekoľko rokov.
Existuje ďalšie nepríjemné obmedzenie použiteľnosti: operátor interagujúci s počítačom cez rečové rozhranie je nútený pracovať vo zvukovo izolovanej oddelenej miestnosti alebo používať zvukotesnú prilbu. V opačnom prípade bude zasahovať do práce susedov v kancelárii, čo zase vytvára ďalší hluk na pozadí, čo výrazne skomplikuje prácu rozpoznávača reči. Rozhranie reči je teda jednoznačne v rozpore s modernou organizačnou štruktúrou podnikov zameraných na tímovú prácu. Situácia sa trochu zmierňuje s rozvojom vzdialených foriem pracovnej činnosti, ale už dlho je pre človeka najprirodzenejšia produktívna a potenciálne masívna forma používateľského rozhrania, ktorá je odsúdená na úzky rozsah aplikácií.
Obmedzenia aplikovateľnosti systémov rozpoznávania reči v rámci najpopulárnejších tradičných aplikácií nás nútia k záveru, že je potrebné hľadať aplikácie potenciálne perspektívne pre implementáciu rečového rozhrania mimo tradičnej kancelárskej sféry, čo potvrdzuje napr. komerčný úspech vysoko špecializovaných rečových systémov. Doposiaľ najúspešnejší komerčný projekt rozpoznávania reči je telefónna sieť firma AT & T. Klient môže ľubovoľnými slovami požiadať o jednu z piatich kategórií služieb. Hovorí, kým sa v jeho prejave nestretne jedno z piatich kľúčových slov. Tento systém v súčasnosti vybaví približne miliardu hovorov ročne.
Napriek tomu, že jednou z najperspektívnejších oblastí implementácie systémov rozpoznávania reči môže byť oblasť počítačových hier, vysoko špecializovaných rehabilitačných programov pre zdravotne postihnutých, telefónnych a informačných systémov, poprední vývojári rozpoznávania reči zvyšujú svoje úsilie dosiahnuť univerzalizáciu a zvýšiť objem slovnej zásoby aj na úkor skrátenia postupu.prednastavenie pre rečníka.
Budúcnosť rečového rozhrania nie je o nič menej závislá od schopnosti moderných výskumníkov a vývojárov nielen vytvárať technologickú základňu pre rečový vstup, ale aj harmonicky spájať technologické poznatky do jediného logicky uceleného systému interakcie človek-počítač. Hlavná práca ešte len príde.

Kapitola 1

1.1 Všeobecná koncepcia rečového rozhrania

Začnime hlavným pojmom. čo je reč? Keď už hovoríme o reči, musíme rozlišovať medzi pojmami ako „reč“, „zvuková reč“, „zvukový signál“, „správa“, „text“. V našom prípade, keď sa aplikujú na problém rozpoznávania, pojmy ako „reč“ a „zvuková reč“ znamenajú to isté – určitú zvukovú správu vygenerovanú človekom, ktorú možno objektívne zaznamenať, zmerať, uložiť, spracovať a čo dôležité, reprodukované pomocou nástrojov a algoritmov. To znamená, že reč môže byť reprezentovaná ako druh rečového signálu, ktorý sa dá použiť na zvrátenie reči. To znamená, že medzi zvukovú reč a jej reprezentáciu vo forme rečového signálu môžete vložiť znak ekvivalencie . V tomto prípade pod pojmom „správa“ môžu byť skryté akékoľvek informácie užitočné pre príjemcu, nielen text. Napríklad, ak vás nezaujímajú slová, ale intonácie, potom bude posolstvom prozodické nuansy reči. Čo sa týka rozpoznávania reči, v našom prípade je úloha zredukovaná na extrahovanie textu z reči.
Tu však narážame na jeden rozpor. Ako viete, text pozostáva z písmen, slov, viet - to znamená, že je diskrétny. Na druhej strane reč znie za normálnych podmienok solídne. Ľudská reč sa na rozdiel od textu vôbec neskladá z písmen. Ak nahráme zvuk každého jednotlivého písmena na pásku alebo na disk počítača a potom sa pokúsime z týchto zvukov poskladať reč, neuspejeme.
Ľudia už dlho uhádli, že elementárne zvuky, ktoré tvoria reč, nie sú ekvivalentné písmenám. Preto prišli s pojmom fonéma na označenie elementárnych zvukov reči. Aj keď doteraz odborníci nemôžu žiadnym spôsobom rozhodnúť - koľko rôznych foném existuje. Existuje dokonca aj také odvetvie lingvistiky - fonetika. Väčšina autorov, dokonca aj pre ten istý jazykový dialekt, uvádza rôzny počet foném. V ruskom jazyku je podľa niektorých údajov 43 foném, podľa iných - 64, podľa tretieho - viac ako sto ... Ale práve tak sa stalo, že existuje mýtus o nedotknuteľnosti konceptu fonéma. A že rečový signál pozostáva priamo z častí signálu, z ktorých každý je fonéma. Bohužiaľ, veci nie sú ani zďaleka jednoduché.
Najprv vedci považovali rečový signál za súbor určitých univerzálií umiestnených za sebou na časovej osi a považovali tieto univerzálie za fonémy. Ďalšie štúdie rečových signálov však neodhalili žiadne fonémy. Potom sa niektorí vedci správne rozhodli, že pri generovaní rečových signálov sa pozoruje koartikulácia, to znamená vzájomné prenikanie susedných zvukov (svaly tváre, jazyka a čeľuste majú rôznu zotrvačnosť). To znamená, že rečový signál by nemal pozostávať z foném, ale z alofónov – kombinácií foném „nalepených spolu“.
Iní výskumníci, podobne ako fyzici, napadli myšlienku elementárnych fonémov a začali tvrdiť, že fonémy by sa mali rozdeliť na ešte kratšie časti, alebo dokonca tento koncept úplne opustiť a „rozkúskovať“ rečový signál iným spôsobom. Takto sa zrodili fonoidy a množstvo ďalších autorských mien pre elementárne zvuky.

Každý začal skúmať rečový signál z vlastnej pozície, hlásiť úspech veľmi vágnym spôsobom. To posledné možno s najväčšou pravdepodobnosťou vysvetliť túžbou zachovať know-how.

Hlavným problémom fonematického prístupu je, že rýchlosť reči sa značne líši, často niekoľkokrát. V tomto prípade sú rôzne zvuky reči neprimerane natiahnuté alebo stlačené. Napríklad samohlásky sa menia podstatne viac ako polohlásky a najmä stopové spoluhlásky. Pre takzvané štrbinové zvuky existujú vzory. (Polosamohlásky sú zvuky, pri ktorých generovaní je potrebná účasť hlasiviek, rovnako ako u samohlások, ale samy osebe sa v každodennom živote považujú za spoluhlásky. Takto napríklad „m“, „n“, „ l" a "r" zvyčajne zvuk. sú tvorené ostrým zatváraním a otváraním orgánov artikulácie. Napríklad "b", "l", "d", "t" Tvorba medzierových zvukov je spojená so syčaním. a iné účinky turbulencie v orgánoch artikulácie. „S“, ako aj „w“ a iné syčanie. Táto vlastnosť sa nazýva dočasná nestacionárnosť vzorcov rečového signálu. Vyslovovanie rovnakého slova alebo frázy iný čas, vplyvom rôznych faktorov (nálada, zdravie atď.) generujeme výrazne odlišné spektrálno-časové rozloženie energie. To platí aj pre slovo vyslovené dvakrát za sebou. Tento efekt je oveľa silnejší pri porovnaní spektrogramov tej istej frázy vyslovenej rôznymi ľuďmi. Tento efekt sa bežne označuje ako spektrálna nestacionárna sieť vzoriek reči. Zmena rýchlosti reči a jasnosti výslovnosti je príčinou koartikulačnej nestacionárnosti, čo znamená zmenu vzájomného ovplyvňovania susedných zvukov od vzorky k vzorke. Je tiež potrebné zdôrazniť problém zhlukovania súvislej reči. Je dosť ťažké izolovať akékoľvek rečové jednotky od súvislého rečového prúdu. Mnohé zvuky „držia spolu“ alebo majú nejasné hranice.

Rôzne časti lingvistiky a vedy o jazykoch sú veľmi zaujímavé pre vedcov pracujúcich v oblasti rozpoznávania reči. Možno úspešná syntéza úspechov týchto vied a teórie spracovania rečových signálov povedie k úspešnému vytvoreniu rozpoznávacích systémov.
Konštrukcia rečového rozhrania je rozdelená do troch komponentov. Prvou úlohou je, aby počítač „rozumel“ tomu, čo mu človek hovorí, to znamená, že musí vedieť vytiahnuť z reči človeka užitočné informácie. V súčasnej fáze sa táto úloha zatiaľ obmedzuje na extrakciu z reči, jej sémantickú časť, text (zatiaľ sa neuvažuje o porozumení takých komponentov, ako je napríklad intonácia). To znamená, že táto úloha spočíva v nahradení klávesnice mikrofónom.
Druhou úlohou je, aby počítač pochopil význam toho, čo sa hovorí. Pokiaľ rečová správa pozostáva z určitej štandardnej sady príkazov zrozumiteľných pre počítač (povedzme duplikovanie položiek ponuky), nie je na jej implementácii nič zložité. Tento prístup však pravdepodobne nebude pohodlnejší ako zadávanie rovnakých príkazov z klávesnice alebo pomocou myši. V ideálnom prípade by mal počítač jasne "porozumieť" prirodzenej reči človeka a pochopiť, že napríklad slová "Dosť!" a "Ukončite prácu!" znamenajú rôzne pojmy v jednej situácii a to isté v inej.
Treťou úlohou je, aby počítač previedol informácie, s ktorými pracuje, na rečovú správu, ktorej rozumie človek. Takže z týchto troch problémov existuje celkom jasné a konečné riešenie iba pre tretí. Syntéza reči je v skutočnosti čisto matematický problém, ktorý je teraz celkom dobre vyriešený. dobrá úroveň... A v blízkej budúcnosti sa s najväčšou pravdepodobnosťou zlepší iba jeho technická implementácia.
Prekážkou ku konečnému riešeniu prvého problému je, že ešte nikto poriadne nevie, ako rozkúskovať našu reč, aby sme z nej extrahovali tie zložky, ktoré obsahujú význam. V prúde zvuku, ktorý vydávame počas rozhovoru, nie je možné rozlíšiť jednotlivé písmená ani slabiky. Ale napriek tomu, po predbežnom školení, moderné systémy rozpoznávania reči fungujú celkom znesiteľne a nerobia viac chýb ako systémy optického rozpoznávania znakov pred desiatimi rokmi.
Čo sa týka druhého problému, ten sa podľa názoru väčšiny odborníkov nedá vyriešiť bez pomoci systémov umelej inteligencie. Tie posledné, ako viete, ešte neboli vytvorené, hoci veľké nádeje sa vkladajú do vzniku takzvanej kvantovej AI. Ak podobné zariadenia objavia, bude to znamenať kvalitatívnu revolúciu v výpočtovej techniky a potom, ktovie, možno sa mnohé zo súčasných prístupov k rečovému rozhraniu ukážu ako zbytočné.
Preto je zatiaľ veľa rečového rozhrania len hlasové duplikovanie príkazov, ktoré je možné zadávať z klávesnice alebo pomocou myši. A tu sú jeho výhody veľmi otázne. Je tu však jedna oblasť, ktorá môže byť pre mnohých veľmi atraktívna. Ide o hlasový vstup textov do počítača. Skutočne, namiesto búchania do klávesnice je oveľa pohodlnejšie všetko nadiktovať počítaču, aby si to, čo počujete, zapísal do textového súboru. Tu sa vôbec nevyžaduje, aby počítač „rozumel“ tomu, čo počul, a úloha preložiť reč do textu je viac-menej vyriešená. Nie je bez dôvodu, že väčšina programov „rozhrania reči“, ktoré sú dnes vydané, je zameraná na hlasový vstup.

1.2. Hlasový vstup

Tradične je proces rozpoznávania reči rozdelený do niekoľkých etáp. V prvej fáze sa vzorkuje spojitý rečový signál prevedený na elektrickú formu. Vzorkovacia frekvencia je zvyčajne 10-11 kHz, bitová hĺbka je 8 bitov, čo sa považuje za optimálne pre prácu s malými slovníkmi (10-1000 slov) a zodpovedá kvalite prenosu hlasu telefónneho kanála (ZHz-3,4 kHz) . je zrejmé, že zvýšenie objemu aktívnej slovnej zásoby by malo byť sprevádzané zvýšením frekvencie digitalizácie av niektorých prípadoch - zvýšenie bitovej hĺbky.
V druhej fáze sa diskrétny rečový signál očistí od šumu a prevedie sa do kompaktnejšej podoby. Kompresia sa vykonáva tak, že každých 10 ms sa vypočíta nejaká množina číselné parametre(zvyčajne nie viac ako 16) s minimálnou stratou informácie popisujúcej daný rečový signál. Zloženie zostavy závisí od špecifík implementácie systému. Od 70. rokov sa najobľúbenejšou metódou (prakticky štandardom) na zostavenie výstižného parametrického popisu stalo lineárne predikatívne kódovanie (LPK), ktoré je založené na celkom dokonalom lineárnom modeli vokálneho traktu. Druhým najpopulárnejším je pravdepodobne spektrálny popis získaný pomocou diskrétnej Fourierovej transformácie.
Veľmi dobré výsledky je však možné dosiahnuť aj inými metódami, ktoré sú často menej náročné na výpočtové zdroje, ako je napríklad orezávanie. V tomto prípade sa zaznamenáva počet zmien znamienka amplitúdy rečového signálu a časové intervaly medzi nimi. Výsledná postupnosť hodnôt, ktorá je odhadom trvania periód zachovania znaku podľa amplitúdy, napriek zdanlivej primitívnosti metódy celkom plne reprezentuje rozdiely medzi vyslovenými zvukmi. Táto metóda predbežného spracovania sa používa najmä pre systém rozpoznávania reči vyvinutý koncom 80. rokov vo Vedeckom výskumnom ústave výpočtového inžinierstva (Moskva).
Časový (10 ms) interval výpočtu bol určený a zdôvodnený experimentálne na úsvite vývoja technológie automatického rozpoznávania reči. Na tomto intervale, diskrétne náhodný proces, predstavujúci digitalizovaný rečový signál sa považuje za stacionárny, to znamená, že v takomto časovom intervale sa parametre hlasovej cesty výrazne nemenia.
Ďalším krokom je uznanie. Štandardy výslovnosti uložené v pamäti počítača sa postupne porovnávajú s aktuálnou sekciou sekvencie desať milisekúndových vektorov popisujúcich vstupný rečový signál. V závislosti od miery zhody sa vyberie najlepšia možnosť a vytvorí sa hypotéza o obsahu výroku. Tu sa stretávame s veľmi významným problémom - potrebou normalizovať signál v priebehu času. Rýchlosť reči, dĺžka trvania výslovnosti jednotlivých slov a hlások aj u jedného hovoriaceho sa pohybuje vo veľmi širokom rozmedzí. V dôsledku ich časového nesúladu sú teda možné značné nezrovnalosti medzi jednotlivými úsekmi uloženého štandardu a teoreticky zhodným vstupným signálom. Dostatočne efektívne na vyriešenie tento problém umožňuje algoritmus dynamického programovania vyvinutý v 70. rokoch a jeho varianty (Viterbiho algoritmus). Vlastnosťou takýchto algoritmov je schopnosť dynamicky komprimovať a roztiahnuť signál pozdĺž časovej osi priamo v procese porovnávania so štandardom. Od začiatku 80. rokov nachádzajú čoraz širšie uplatnenie Markovove modely, ktoré umožňujú na základe viacúrovňového pravdepodobnostného prístupu k popisu signálov vykonávať časovú normalizáciu a predikciu pokračovaní, čo urýchľuje proces enumerácie vzorcov a zvyšuje spoľahlivosť rozpoznávania.

Fungovanie akéhokoľvek systému hlasového vstupu je založené na princípe rozpoznávania vzorov. Systém extrahuje z prichádzajúceho rečového signálu súbor niektorých vlastností, ktoré tvoria jeho „popis“, následne porovná prijatý popis s referenčnými uloženými v pamäti vstupného systému, t.j. vypočíta miery podobnosti. Ak hodnota miery podobnosti prekročí určitú nastavenú úroveň, systém „rozpozná“ signál a priradí mu hodnotu zodpovedajúceho štandardu. Okrem rozpoznávania elementárnych zložiek rečových signálov musí systém interpretovať rečové správy, t.j. nájsť zodpovedajúce sekvencie pravopisného textu, interpretovať a vykonávať príkazy, zapamätať si a uložiť údaje atď.
Základným fonologickým prvkom pre väčšinu systémov rozpoznávania a interpretácie rečových správ je slovo; hovorené slovo možno jednoznačne dať do súladu s ich pravopisným prejavom.
V tomto ohľade sú všetky systémy hlasového vstupu zvyčajne rozdelené podľa nasledujúcich kritérií:

    schopnosť rozpoznať súvislú reč alebo samostatne hovorené slová;
    objem slovníka rozpoznaných slov (slovníky existujúcich systémov obsahujú do 500 slov);
    orientácia na jedného reproduktora alebo na ľubovoľný počet reproduktorov.
Väčšina moderných rečových vstupných systémov a zariadení je navrhnutá pre osobné a riadiace mikropočítače, preto jednou z hlavných požiadaviek na takéto vstupné systémy je ich nízka cena, ktorá sa dosahuje obmedzením slovnej zásoby samostatne hovorených slov a zjednodušením algoritmov spracovania, keď je systém zapnutý. orientované na jedného rečníka.
Zovšeobecnená bloková schéma takéhoto systému hlasového vstupu:

Akustický rečový signál je vnímaný mikrofónom (M) a vo forme analógového elektrického signálu je prenášaný do vysokofrekvenčného filtra (HPF a ADC). Digitálne vzorky z výstupu ADC sa posielajú do preprocesora (PP). Úlohou SP je znížiť objem (a následne aj rýchlosť) prenášaných dát pri zachovaní rečovej informácie nevyhnutnej na rozpoznávanie. V závislosti od prijatého súboru funkcií, ktoré tvoria popis signálu, môže byť SP spektrálny analyzátor, formátový frekvenčný detektor, analyzátor LPK atď. Skrátený popis rečového signálu získaný ako výsledok predspracovania sa prenáša do procesora extrakcie znakov (PVP) a potom do rozhodovacieho systému, ktorý zahŕňa klasifikačnú jednotku (BC), pamäť referenčného popisu (PEO) a ladiaca jednotka (BN). Rozhodovací systém funguje v dvoch režimoch – vstup a učenie.
Vo vstupnom režime je popis vstupného rečového signálu privádzaný do BC, ktorá vypočítava miery podobnosti tohto popisu so štandardmi uloženými v ROM. V dôsledku výpočtu mier podobnosti pre celý súbor noriem sa dá nájsť maximálna miera a rozhodne sa o zhode vstupného signálu s jednou z noriem. Vstupnému rečovému signálu je priradený názov – identifikátor tohto štandardu. Potom sa nájdený identifikátor prenesie do aplikačného programu alebo do centrálneho počítača cez jednotku rozhrania USA.
V režime učenia sa popisy vstupných rečových signálov dodávajú tuneru. V tom istom bloku, zvyčajne pomocou klávesnice Kl, sa zadáva názov - identifikátor rečového signálu. BN nájde „spriemerovaný“ popis pre niekoľkokrát opakované slová alebo frázy jedným hovorcom, následne tento „spriemerovaný“ popis priradí k identifikátoru, t.j. tvorí štandard.
Všetky systémy rečového vstupu, ako aj systémy rozpoznávania obrázkov vo všeobecnosti, sa zvyčajne vyznačujú pravdepodobnosťou správneho rozpoznania, pravdepodobnosťou (frekvenciou) odmietnutí rozpoznania a pravdepodobnosťou (frekvenciou) chýb pri rozpoznávaní. Číselné hodnoty týchto charakteristík závisia od veľkosti slovnej zásoby a použitých rozpoznávacích algoritmov. Pri slovníkoch s objemom 200 – 300 slov a fráz je pravdepodobnosť správneho rozpoznania 95 – 98 %.
V systémoch hlasového vstupu sa zvyčajne poskytuje vizuálna spätná väzba na zvýšenie sebadôvery. Na obr. 3 je toto spojenie znázornené vo forme indikátora AND, na ktorého obrazovke je zobrazené symbolické znázornenie hovoreného slova; priame zadanie tejto reprezentácie do počítača sa vykoná až po potvrdení správnosti rozpoznania vykonanom stlačením klávesu. V prípade nesprávneho rozpoznania môže byť zadaný verbálny príkaz na zrušenie a slovo sa zopakuje. Napriek tomu, že takáto vizuálna spätná väzba zbavuje systém hlasového vstupu mnohých výhod, vysoká presnosť vstupu oprávňuje jeho použitie v mnohých oblastiach, najmä pri príprave údajov. Uvažovaný systém poskytuje vyššiu rýchlosť vstupu v porovnaní so vstupom z klávesnice.
1.3. Rozmanitosť druhov
Existujúce systémy rozpoznávania reči možno klasifikovať podľa rôznych kritérií.
Podľa dohody:
    príkazové systémy
    systémy diktovania textu.
Podľa spotrebiteľských vlastností:
    orientovaný na rečníka (vyškolený pre konkrétneho rečníka)
    nezávislý od rečníka (dovolil by som si navrhnúť výraz „všežobraz“)
    rozpoznávanie jednotlivých slov
    rozpoznávanie súvislej reči.
Podľa funkčných mechanizmov:
    najjednoduchšie (korelačné) detektory
    expertné systémy s rôznymi spôsobmi vytváranie a spracovanie vedomostnej základne
    pravdepodobnostné sieťové modely rozhodovania vrátane neurónových sietí.
Je dosť ťažké vybrať vhodný ukazovateľ výkonu systému rozpoznávania reči. Tento indikátor kvality sa najjednoduchšie zavádza pre systémy velenia. Pri testovaní v náhodnom poradí všetky možné príkazy pomerne veľký počet krát. Počet správne rozpoznaných príkazov sa spočíta a vydelí celková suma hovorené príkazy. V dôsledku toho sa získa odhad pravdepodobnosti správneho rozpoznania príkazu v akustickom prostredí špecifikovanom počas experimentu. Pri diktátových systémoch je možné vypočítať podobné skóre kvality pri diktovaní nejakého testovacieho textu. Je zrejmé, že to nie je vždy vhodný ukazovateľ kvality. V skutočnosti sa stretávame so širokou škálou akustických prostredí. Čo však výmena rečníkov a sprievodné školenie systému?
Ako príklad uvediem variant najjednoduchšieho systému rozpoznávania reči príkazov. Fungovanie systému je založené na hypotéze, že spektrálno-časové charakteristiky príkazových slov pre jednotlivého rečníka sa menia len málo. Akustický model takéhoto systému je časovo-spektrálny maticový prevodník z rečových signálov a môže slúžiť ako typický príklad invenčného prístupu. V najjednoduchšom prípade je príkaz lokalizovaný v čase prestávkami v rečovom signáli. Jazyková jednotka dokáže rozpoznať obmedzený počet príkazov plus jeden ďalší, čiže všetky ostatné systému neznámy slová. Lingvistický model je spravidla konštruovaný ako algoritmus na nájdenie maxima funkcionálu zo vstupnej vzorky a vzoriek celej „slovnej zásoby“ systému. Toto je často bežný dvojrozmerný korelátor. Hoci výber rozmeru priestoru popisu a jeho metrík sa môže vývojárom značne líšiť.
Už z „návrhu“ opísaného systému je zrejmé, že ide skôr o hračku ako o užitočnú pomôcku. V súčasnosti je na trhu mnoho komerčných systémov na rozpoznávanie reči s oveľa väčšími možnosťami:
        Diktovanie typu hlasu, Voice Pilot, ViaVoice od IBM
        Voice Assist Creative by Technology
        počúvaj pre Windows od Verbexu a mnohých ďalších.
Niektoré z nich (napríklad ViaVoice) sú schopné, ako tvrdia vývojári, zaviesť súvislú reč.
Lingvistické bloky moderných systémov implementujú komplexný model prirodzeného jazyka. Niekedy je založený na matematickom aparáte skrytých Markovových reťazcov, niekedy využíva najnovšie výdobytky technológie neurónových sietí alebo iné know-how. Usporiadanie akustických jednotiek takýchto systémov je prísne dôverné. Podľa niektorých indícií sa dá predpokladať, že akustická jednotka niektorých systémov sa snaží simulovať prirodzený načúvací prístroj.

1.3. Softvérové ​​syntetizátory reči

Samotné rozpoznávanie reči nie je žiadnou novinkou. Systémy diktovania pre špecifické profesie, ako je rádiológia, existujú už dlho. Ale oni sami sú veľmi drahé a vyžadujú drahé počítače... Lacnejšie, viacúčelové programy ponúkajú špecifické rečové vzory s pauzami po každom slove.
Dragon Systems položil základný kameň v histórii rozpoznávania reči pomocou NaturallySpeaking – bol to prvý softvér, ktorý prirodzene diktoval text. IBM čoskoro ponúkla ViaVoice, podobný program ktoré stoja o stovky dolárov menej ako konkurencia.
Hlavným faktorom, ktorý urýchlil vývoj programov na rozpoznávanie reči, bolo zlepšenie počítačov.
Softvér na rozpoznávanie reči vyžaduje pomerne výkonnú zvukovú kartu, pretože vykonáva zložitú prácu. Po prvé, slová, ktoré hovoríte, zachytí mikrofón a spracuje ich zvuková karta.

atď.................

Prerozprávanie správy Konstantina Samoilova, výskumníka UX a bývalého špecialistu na rečové rozhranie v spoločnosti Google, o možnostiach existujúcich virtuálnych asistentov.

Do záložiek

Konstantin Samojlov

Prednáška bola prezentovaná na UX-maratóne „Connecting the Future“ 6. júla 2017, kedy hlasový asistent Ešte neexistoval žiadny Yandex.

Čo je to

Aby sa predišlo nejasnostiam, je dôležité dohodnúť sa na tom, čo sa v zásade rozumie pod pojmom hlasové rozhranie (GI). Úloha rozpoznávania hlasu sa aktívne vykonáva. Jeho kvalita aj pre neangličtinu v nedokonalých podmienkach (s prízvukmi a intonáciami) je 95-98%. Trénovaním modelu je možné zlepšiť kvalitu.

1. Prirodzený jazyk

Ak hovoríme o GI ako o náhrade za písanie na klávesnici alebo dotyk na obrazovku, implementácia je jednoduchá - stačí implementovať zadávanie príkazov hlasom.

Ale to nebude fungovať, pretože príkazový jazyk nie je pre ľudí prirodzený. V ponímaní používateľov je výhodou hlasového rozhrania, že sa ho netreba učiť. Vieme sa rozprávať, sme experti na vzájomnú interakciu.

Teraz jazyk interakcie so všetkými existujúce systémy nie prirodzené. Môžete povedať „Alexa, začni hrať takú a takú skladbu“, ale toto je určitá gramatika, v ktorej je systém natrénovaný a ktorá je používateľovi v skutočnosti skrytá.

2. Dialóg

Aj keď dokážeme prenášať príkazy do počítača hlasom, systém stále nebude fungovať. Predpokladá sa, že všetky údaje sú zadané na samom začiatku. Pri programovaní, ak vývojár zadá nesprávny príkaz, systém nešpecifikuje, čo presne mal na mysli. Väčšinou to jednoducho nejde. Musí existovať dialóg.

3. Neobmedzená slovná zásoba a gramatika

Tá istá Alexa pracuje na malom ostrove zodpovednosti. V súlade so vstavanými algoritmami očakáva, že dostane od používateľa určité argumenty. Očakávania systému obmedzujú gramatiku a slovnú zásobu, ktorú môže používateľ používať.

V vývojárov Google premýšľal o gramatike a typoch slov anglický jazyk môžu ľudia používať na najbežnejšie úlohy – ako je nastavenie budíka alebo vytvorenie pripomienky.

Testovanie začalo pred štyrmi rokmi. Pri prvom teste používateľ povedal niečo, čo vývojári neplánovali. Systém nefungoval, vývojári povedali: "Sakra, o tom sme nepremýšľali."

O tri roky neskôr, vo vylepšenej verzii toho istého systému, používateľ opäť povedal niečo, čo nefungovalo, a vývojári povedali: "Dočerta, ani nás to nenapadlo." Postupom času sa vyvinul rozhodovací strom a gramatika konkrétnu úlohu a každý nový test chytil výnimku, ktorú vývojári nezohľadnili.

Prirodzený jazyk, dialóg a slovná zásoba s gramatikou sú základné otázky, ktoré je potrebné riešiť, aby GI skutočne fungovalo.

Typy

Diskusie o hlasových a konverzačných rozhraniach zvyčajne zahŕňajú celý rad systémov. Počnúc robotmi, ktorí odpovedajú na najjednoduchšie otázky a náhodne žartujú, a končiac komplexné systémy ktoré sa používajú na priemyselnej úrovni. Napríklad prekvapivo dobrý systém podanie daňového priznania v Anglicku.

Aktuálny stav

Hlavní hráči:

  • Alexa z Amazonu.
  • Siri od Apple.
  • OK Google.
  • Cortana od Microsoftu (ktorú používa málokto).

Samsung vyrába svoje nový systém volala Vera. Alibaba je pomocník pre čínskych používateľov. Trh explodoval, všetci pracujú v tejto oblasti.

No nastala paradoxná situácia. Spoločnosti, ktoré majú zdroje, znalosti a zručnosti na to, aby urobili významný krok vpred a urobili obrovský rozdiel v odvetví, nemajú záujem o tento krok. GI a hlasoví asistenti – inovácia, ktorá mení stav techniky (disruptívna technológia).

Siri stačí dobrý pomocník ktorý stimuluje Predaj iPhone... Plní si svoje úlohy a pre firmu nemá zmysel robiť niečo nové, čo zmení ekosystém. Apps App Obchod.

Súčasný model interakcie človek-počítač je súbor nástrojov. Nájdeme nástroj, vložíme ho do zásuvky a dovnútra určitý moment používame na dosiahnutie cieľa. My sami sme zodpovední za hľadanie a vlastníctvo nástrojov a my sami musíme pochopiť, kedy a v akom poradí ich použiť.

Výhodou GI je, že svoju túžbu vyjadrujeme prirodzeným spôsobom. Je prirodzené povedať „Miláčik, prosím, prines mi čaj“ – hovoríme o želanom výsledku, a nie o všetkých krokoch, ktoré sú na to potrebné.

Zásadná zmena v interakčnom modeli povedie k tomu, že nebudú potrebné samostatné nástroje.

Dizajn

Používatelia očakávajú, že môžu prirodzene prejaviť svoje túžby a systém im bude rozumieť. Systém by sa mal prispôsobiť človeku a nie naopak. Preto je navrhovanie GI skôr o pochopení ľudských vlastností.

Dôvera

Jedno dievča sa testovania zúčastnilo trikrát. Druhýkrát, keď už systém fungoval dostatočne dobre, jej reakcia bola: "Preboha, táto vec žije v mojom telefóne, teraz sa môj život zmení." Pri treťom teste o mesiac neskôr povedala, že systém nikdy nepoužila a ani sa nechystá.

Hoci systém vo väčšine prípadov fungoval, dievča jej jednoducho neverilo. Dôvera nie je technická otázka ale ak sa to nevyrieši, všetka ostatná práca bude vykonaná márne.

Dôvera je opakom kontroly. Príslovie „Dôveruj, ale preveruj“ je nezmysel. Nikdy sa nestane, že prídete domov a manželka vám povie: „Drahý, vrátil si sa o 12-tej ráno. Povedal si, že si bol na stretnutí. Tak som zavolal všetkých vašich priateľov, vašu spoločnosť a vášho vodiča a skutočne ste boli na stretnutí. Verím ti, ale preverujem." To sa nestáva.

Najprv zistíme, ako si systém poradí, a potom mu začneme delegovať úlohy. Stáva sa z nej čierna skrinka - nevieme, ako to robí. Rovnako ako v prípade živého asistenta sa vzdávame kontroly a nahrádzame ju dôverou.

Dokonca jednoduchá úloha ako nastavenie budíka v konkrétnom kontexte nemožno delegovať tak jednoducho. Jedna vec je nastaviť si budík na sobotu, aby ste nezaspali do poludnia. Ďalší je o 5:00, aby sme dorazili na letisko a stretli sa s rodičmi. Ľudia nechápali, ako môže byť systém chybný, a tak ho vôbec nepoužívali.

Neviditeľné rozhranie

Jedinečnosť hlasového rozhrania spočíva v tom, že je neviditeľné. V grafickom rozhraní vidíme ovládacie prvky: sú tam, ako vyzerajú, je moderný dizajn, sú tam tlačidlá „Späť“ a „Vpred“, v akom kroku sa práve nachádzame – stredný alebo konečný.

GI vám to nedovolí vidieť. Snažíme sa vytvoriť mentálny model systému a odpovedať na otázky typu: „Ak teraz poviem „Späť“, dostanem sa na začiatok dialógu resp. predchádzajúci stav? A aká je táto podmienka?"

Mentálny model odpovedá na otázku o schopnostiach systému. Navyše, tento model je vždy nesprávny. Ak sme práve hovorili s hlasovým menu „Stlačte jeden na niečo“, očakávania budú podhodnotené. Ak sme nedávno pozerali film „Ona“, očakávania budú prehnané.

Aby GI nejako fungovalo, je potrebné pomôcť používateľovi vytvoriť a upraviť mentálny model systému.

Oprava mentálneho modelu

Systém môže klásť otázky s jednoduchými odpoveďami:

Áno alebo nie).

Prípadne navrhnite podrobné odpovede:

Chcete robiť niečo iné?

Posuňte túto udalosť o pol hodiny dopredu.

Z formátu otázky môže používateľ usúdiť, že v prvom prípade je systém dosť hlúpy. Povie „Nie, neukladať“ a ďalšie príkazy vydá s rovnakou podrobnosťou: „Nová udalosť. Kedy to chcete urobiť? O 12:30 hod. Čo chceš robiť? Zoznámte sa so svojimi rodičmi. Kde? Na letisku“.

V druhom prípade sa môže rozhodnúť, že systém je „inteligentný“ a rozumie podrobným odpovediam. Na opravu zadaných údajov povie: „Namiesto toho chcem na zajtra o 12:30 urobiť novú udalosť, aby som sa stretol s rodičmi na letisku.“

ľudskosť

Ak chcete vytvoriť GI, ktoré je pre človeka prirodzené, musíte pochopiť, prečo sa náš rozhovor s inou osobou považuje za prirodzený. Kvôli akým vlastnostiam? Uvedomili sme si, že toto sme nevedeli.

existuje chytrí ľudia s kým je príjemné komunikovať a s kým nie. Sú ľudia s pomerne zrelými reakciami: reagujú inak na naše chyby a otázky. Pred 50 rokmi neexistovalo nič také ako emočnej inteligencie... Určite nepoznáme mnoho ďalších charakteristík, vďaka ktorým môžeme pohodlne komunikovať s inými ľuďmi.

Bez znalosti týchto charakteristík ich nemožno zaviesť do systému a urobiť komunikáciu so systémom prirodzenou. Jedným z možných riešení je, že systém nemusí byť kompletný. Môžete vydať polotovar, ktorý dostane spätnú väzbu od ľudí a zistí, čo urobil dobre a čo zle.

Napriek tomu, že nevieme, aké by tieto vlastnosti mali byť, v určitom bode ich systém zistí a podporí ich.

Osobnosť

Jeden z najviac obľúbené otázky- charakter osobnosti hlasového asistenta. V dnešnej dobe technológie umožňujú len napodobňovanie priateľskosti, inteligencie, zmyslu pre humor a pod. Zvláštnosťou človeka je, že ide o veľmi mnohostranné vlastnosti. Prístupy firiem sa líšia a závisia od účelu tvorby hlasový systém a filozofia spoločnosti.

Siri je projekt spoločnosti, ktorá vytvára kúzlo používateľskú skúsenosť... Všetko by malo fungovať. A ak používateľ správne uhádne gramatiku a slovnú zásobu, je všetko v poriadku. Ak ale neuhádnete, systém prestane fungovať bez najmenšieho náznaku toho, čo je zlé a ako napraviť správanie, aby nabudúce fungoval lepšie.

Zároveň sa veľká pozornosť venuje osobnosti. Programátori pracovali na kvalite hlasu a ľudskej interakcii: Siri môže vtipkovať, pridať vtipný komentár štandardná úloha... Niekedy to vyzerá prirodzene, ale rýchlo sa dostávame do tajomného údolia.

Účinok je: aký viac systému podobný človeku, tým viac sa mu páči. Ale keď sa to stane veľmi podobným, záľuba sa prudko zníži a obnoví sa iba pre úplnú imitáciu. Táto recesia sa nazýva „zlovestná dolina“.

"zlovestné údolie"

Rýchlo do toho spadneme s osobnosťou: systém úspešne vtipkuje, človek sa uvoľní, používa inú sadu slov a gramatiky a systém začne reagovať inak, ako očakáva. Používateľ si môže myslieť, že sa mu systém vysmieva alebo ho neschvaľuje. Je to oveľa horšie, ako keby si myslel, že je hlúpy robot.

Jeden z hlavných rozdielov asistent google je, že nemá ani názov (OK, Google). Siri (Apple) a Alexa (Amazon) majú mená a snažia sa správať ako človek.

V Google sme prišli na to, že najbezpečnejšie je nenapodobňovať osobnosti a ukázať používateľovi, že ide len o technológie bez akejkoľvek ľudskej interakcie.

Odpovede na otázky

Bezpečnosť

Alexa má zaujímavé riešenia: dokáže „inteligentným“ zámkom kontaktovať zariadenia, ktoré sú doma. Môžete ísť k dverám a povedať: "Alexa, otvor dvere, kód je taký a taký."

Existuje veľa nuancií. Keď používame svoj hlas, každý v okolí nás môže počuť – je to nebezpečné a niekedy nevhodné. Ľudia používajú GI vo svojom aute na vytvorenie udalosti, ale nerobia to v autobuse, pretože ich okolie bude počuť, kde, kedy a s kým plánujú byť.

Rozhodli sme sa nepoužívať GI, keď je dôležitá bezpečnosť. V tomto prípade sú systémové požiadavky vyššie. Ak nastavíme budík a spustí sa 99-krát zo 100, je to v poriadku. Ak zatvoríme auto alebo trezor, spustenie 99-krát zo 100 je neprijateľné.

Objaví sa otázka spätnej väzby. Ak nastavíme budík, stačí odpoveď, že je nastavený. Neuvádzame všetky parametre zaznamenané systémom. o zvýšené požiadavky do bezpečia, musíme systému úplne dôverovať, čo je v súčasnom stave nemožné.

Alebo by mali dostať spätnú väzbu: je zapnutý alarm takého a takého plánu, bude fungovať až do takej a tej chvíle, táto osoba to môže vypnúť atď. Ak to systém povie hlasom, môže to počuť aj niekto iný. A ak systém hlási dôverné informácie?

Preto sme sa pri našej práci rozhodli nezapájať do situácií, kde je dôležitá bezpečnosť a súkromie.

Blízka budúcnosť

Veľké spoločnosti sa pokúsi simulovať schopnosť asistenta odpovedať na akúkoľvek otázku a stále to nebude fungovať.

Aplikácia bude možná v úzkych oblastiach, kde očakávania používateľa obmedzujú jeho slovnú zásobu a dynamiku interakcie. Napríklad automatu na lístky sa dá povedať, že potrebuje lístok z Moskvy do Kalugy na zajtra večer. Ak sa potom osoba spýta, koľko rokov má Barack Obama, je úplne normálne, že systém na túto otázku neodpovedá.

Budúcnosť spočíva v zameraní sa na konkrétny prípad používateľa, podpore všetkej gramatiky s ním spojenej a ignorovaní všetkého mimo neho.

Použitie pri platbách

Hlas sa používa na potvrdzovanie platieb, ale to je len časť celej interakcie. Neexistujú žiadne príklady, keď sa celý proces dá urobiť hlasom. Čiastočne je to spôsobené právnymi úvahami a kompenzáciami.

V Európe nastáva obdobie ochladzovania, keď počas určitého času (v rozdielne krajiny je iný), kupujúci môže výrobok vrátiť aj v prípade, že je s ním všetko v poriadku. Človek si to môže rozmyslieť aj bez dôvodu a to má oporu v zákone.

Platobný systém treba zarucit aj to, ze clovek zaplatil za produkt s vedomim, ze kupuje a nie je to chyba. Ak ide o nesprávny nákup, pre vrátenie peňazí platí úplne iné pravidlo. Boli prípady, keď dieťa vzalo telefón ( Amazon Fire), niečo povedal a začal proces nákupu. V tomto prípade nie je možné dokázať, kto to inicioval.

Keď treba

Všeobecne sa uznáva, že Nová technológia jednoducho nahradí predchádzajúci, ale nie vždy to tak je. Teraz hovoria o hlase aplikácií, kedy pre existujúcej aplikácie obrazovka sa jednoducho nahradí hlasom. Takto to evidentne nefunguje. Hlavne preto, že hlas sa používa v iných prostrediach. Ak osoba môže držať telefón a klepnúť na obrazovku, s najväčšou pravdepodobnosťou nebude používať svoj hlas. Dotykový displej je najčastejšie pohodlnejší ako GI.

Hlas je vhodný, keď je ťažké používať telefón: počas šoférovania, na cestách s taškami alebo doma na gauči, keď je telefón na stole a je príliš lenivé vstať a zdvihnúť ho. Zapnutie hudby hlasom je jednoduchšie, aj keď stlačíte tlačidlo – rýchlejšie.

Pri používaní telefónu je potrebný GI obvyklým spôsobom nie je možné, napríklad v aute. Ak však spoločnosť tvrdí, že výrobok možno používať počas jazdy, musí špeciálnym orgánom preukázať, že boli zohľadnené všetky zákonné obmedzenia týkajúce sa vedenia vozidla.

GI sa musí použiť, ak sú splnené dve podmienky:

  1. Človek robí niečo multitasking a nemôže sa sústrediť na jedno zariadenie.
  2. To, čo robí s GI, nie je hlavnou úlohou.

Komunikácia s vizuálnym rozhraním

Obrovská výhoda vizuálne rozhrania, v ktorých sú viditeľné možnosti interakcie. S GI nevieme, čo máme k dispozícii.

Interakcia s obrazovkami je veľmi dobre rozvinutá téma. Obrazovka zostane, aj keď GI funguje dobre, už len preto, že máme oči. Základom je zrakové vnímanie. Hlas - pomocný.

Hlas môže interagovať s reprezentáciou údajov na obrazovke bez toho, aby bol podriadenou štruktúrou. Napríklad v Alexa je hlavnou zložkou hlas. Aplikáciu môžete umiestniť tak, aby sa na obrazovke zobrazovali reakcie systému (niektoré reakcie je ťažké počuť). Pravda, koncept sa teraz mení – ďalšia verzia Amazon Echo bude mať vlastnú obrazovku.

Aplikácia v kritických procesoch

Chirurg je dobrým príkladom multitaskingu. Zameriava sa na jednu činnosť, ale môže potrebovať Ďalšie informácie... Tu sa už uplatňuje GI.

IBM sa s projektom Watson vybralo inou cestou. Spoločnosť začala pracovať na umela inteligencia... Najprv vyhrala kvíz s ľuďmi a pred štyrmi rokmi ju zaviedli na viacerých amerických klinikách. Teraz sa používa na diagnostiku rakoviny na 1000 klinikách. Systém sa používa pre kritické procesy, ale vo veľmi úzkych prípadoch použitia. Zároveň personál prechádza špeciálnym školením.

Príklady úspešných riešení

Amazon uviedol na trh produkt, ktorý bol radikálne odlišný: nie je tam žiadna obrazovka, toto je fyzický objekt, kvalita hlasu je oveľa vyššia (vďaka vstavanému úložisku dát s vopred nahratými ukážkami).

Zaujímavá interakcia Google. Ak povieme, že chceme do kalendára niečo pridať, spustí sa dialógový systém, ktorý je pomerne flexibilný a celkom zrejmý. Tá objasňuje informácie o udalosti, môžete opraviť údaje a pod.

Microsoft dobre vyriešil problém prispôsobenia v Cortane. Očakáva sa, že osoba nemusí o systéme nič vedieť a nemusí ho konfigurovať. Keď to hovorím, zvyčajne mám na mysli nasledovné: Tieto slová používam inak ako ostatní ľudia atď. Teoreticky by to malo fungovať automaticky, ale nefunguje to, čo znamená, že musí existovať systém ladenia.

Apple úplne ignoruje otázku nastavení. Pre Cortanu môžete špecifikovať svoje záujmy a tak ďalej a rozhranie je celkom jednoduché.

Abstrakt pripravil dizajnér rozhrania Anton Grigoriev.

Hlasové rozhranie na interakciu s počítačom už dávno nie je novinkou. Už roky je prítomný napr Windows distribúcie... Ale nie je veľmi vhodné ho používať, ako ukazujú skúsenosti niekoľkých zvedavých výskumníkov.

Ako byť slabozraký a nevidomý, kto by chcel využiť príležitosti, ktoré sú mu pripravené poskytnúť osobné high-tech zariadenia? Koniec koncov, hlasové rozhranie dostupné v operačných systémoch a aplikáciách, ktoré dominujú trhu, má objektívne ďaleko od dokonalosti. Niekedy zostáva len jedna možnosť: ak chcete, aby bola práca vykonaná dobre, vezmite si ju sami.

Touto cestou sa vydal Ti Wee Raman (televízor sú jeho iniciály; tento počítačový inžinier pôvodom z Indie ich radšej používa namiesto na Západe ťažko vnímateľného mena), ktorý vo veku 14 rokov prišiel o zrak. glaukóm. Pre chlapca bolo veľkým šťastím, že sa narodil a študoval v Pune, ktorá sa nachádza 160 km od Bombaja (ktorý je už niekoľko rokov ako Bombaj) „mesto univerzít“.

S pomocou svojich príbuzných a učiteľov dokázal Ti Vee nielen vyštudovať strednú školu, ale aj vstúpiť na miestnu univerzitu a v roku 1987 získal bakalársky titul z matematiky. Potom pokračoval v štúdiu v Bombaji a potom na Cornell University v USA.

Nadaný nevidiaci študent zbavený možnosti používať poznámky súvisiace so štúdiom, čo mnohí jeho spolužiaci dokonale vidia. A nielen pre štúdium: jeho osobný rekord v riešení Rubikovej kocky (samozrejme nie s farebným označením, ale s Braillovým písmom na presunutých prvkoch) je 23 sekúnd.

V USA pracoval T.V rôzne možnosti organizácia hlasovej interakcie človeka s počítačom od roku 1991. Najprv vo výskumnom centre Xerox v Palo Alto, potom v laboratóriu Intel, v Cambridge Center for Digital Equipment Corporation, ako súčasť skupiny sľubné technológie Adobe Systems a IBM Research. V roku 2005 nastúpil do spoločnosti Google.

V tom čase už na účet T.V. došlo k niekoľkým vývojom, ktoré umožnili ľuďom s ťažkým zrakovým postihnutím (a v prvom rade jemu samému) aktívne komunikovať s počítačom. Medzi nimi - AsTeR, audio rozhranie pre efektívne "čítanie" počítačový systém nahlas ťažko matematické vzorce; plnohodnotný hlas "Desktop" postavený na báze textového editora Emacs, ktorý je obľúbený medzi používateľmi * NIX / Linux; hlboko vyvinutá metodika pre hlasovú prezentáciu webových dokumentov XHTML + Voice a ďalšie.

V Google pracoval Ti Vee hlasová verzia rozhranie vyhľadávač, a momentálne má plné ruky práce s úpravou dnes tak super obľúbeného zariadenia, ako komunikátora s dotykovou obrazovkou, pre potreby ľudí so zrakovým postihnutím.

Ukazuje sa, že absencia jasne hmatateľných tlačidiel na ovládacej ploche takýchto zariadení môže byť zrušená zo zjavnej nevýhody na výhodu. Jednoduchá utilita napríklad umožňuje, ak je komunikátor prepnutý do režimu manuálneho vytáčania, vnímať zónu prvého dotyku na obrazovke ako umiestnenie virtuálnej klávesy „5“, centrálnej zapnutej numerická klávesnica... Zameranie na štandard pre tlačidlové telefóny veľkosť kláves a ich štandardné usporiadanie, je jednoduché následne vytočiť ľubovoľné číslo a o správnosť sa presvedčí následná hlasová verifikácia.

Technológia hlasovej interakcie s digitálnych zariadení prepustený dňa nová úroveň ich rozvoj, budú môcť pomôcť nielen nevidiacim. Najmä starostlivé sledovanie toho istého komunikátora dopravných značiek videokamerou a zvukové upozornenie na ich prítomnosť a význam by výrazne pomohlo začínajúcim vodičom – alebo tým, ktorí sa cítia neisto, keď sa prvýkrát ocitnú na neznámej trati.