Rakenduste arv ja häälliideste tähtsus kasvab kiiresti

Sisu

suur nelik
Ameeriklased tahavad osta
Pese, küpseta, puhasta!
Vana kontseptsioon. Kas tema aeg on lõpuks kätte jõudnud?
tehniliselt keeruline küsimus
Hääl? Graafika? Või äkki mõlemad?
Ettevaatust ohutusega!

Üks Ameerika perekond Portlandis Oregonis sai hiljuti teada, et Alexi hääleassistent salvestas nende privaatvestlused ja saatis need sõbrale. Maja omanik, keda meedia nimetas Danielle'iks, ütles ajakirjanikele, et ta "ei ühenda seda seadet enam kunagi, sest teda ei saa usaldada".

Alexa, mida pakuvad Echo (1) kõlarid ja muud vidinad kümnetes miljonites USA kodudes, alustab salvestamist, kui kuuleb oma nime või "kutsumissõna", mida kasutaja ütleb. See tähendab, et isegi kui telereklaamis mainitakse sõna "Alexa", võib seade hakata salvestama. Täpselt nii juhtus ka antud juhul, ütleb riistvara turustaja Amazon.

"Ülejäänud vestlust tõlgendas hääleassistent kui käsku saata sõnum," seisis ettevõtte avalduses. "Mingil hetkel küsis Alexa valjult: "Kellele?" Puitpõrandateemalise perekondliku vestluse jätkumist oleks masin pidanud tajuma kliendi kontaktide loendis oleva üksusena. Vähemalt nii arvab Amazon. Seega taandub tõlge õnnetuste jadaks.

Ärevus jääb aga alles. Sest millegipärast peame majas, kus me end veel vabalt tundsime, sisenema mingisse "häälerežiimi", jälgima, mida me räägime, mida telekas edastab ja muidugi, mida see uus kõlar rinnal. sahtlid ütleb . meie.

Sellest hoolimata, Vaatamata tehnoloogilistele ebatäiuslikkusele ja privaatsusprobleemidele hakkavad inimesed selliste seadmete nagu Amazon Echo populaarsuse kasvuga harjuma mõttega suhelda arvutitega oma häält kasutades..

Nagu Amazoni tehnikadirektor Werner Vogels 2017. aasta lõpus oma AWS re:Invent seansi ajal märkis, on tehnoloogia seni piiranud meie võimet arvutitega suhelda. Märksõnad sisestame Google'isse klaviatuuri abil, kuna see on endiselt kõige levinum ja lihtsaim viis masinasse info sisestamiseks.

ütles Vogels. -

suur nelik

Telefonis Google’i otsingumootorit kasutades märkasime ilmselt juba ammu mikrofonisilt kõnega üleskutsega. See Google nüüd (2), mida saab kasutada otsingupäringu dikteerimiseks, sõnumi häälega sisestamiseks jne. Viimastel aastatel on Google, Apple ja Amazon oluliselt arenenud hääletuvastustehnoloogia. Hääleabilised, nagu Alexa, Siri ja Google Assistant, mitte ainult ei salvesta teie häält, vaid mõistavad ka seda, mida neile ütlete, ja vastavad küsimustele.

Google Now on kõigile Androidi kasutajatele tasuta saadaval. Rakendus võib näiteks seada äratuse, kontrollida ilmateadet ja kontrollida marsruuti Google mapsist. Google Now olekute vestluslaiend Google'i assistent () – virtuaalne abi seadme kasutajale. See on saadaval peamiselt mobiilsetes ja nutikate koduseadmetes. Erinevalt teenusest Google Now saab see osaleda kahesuunalises vahetuses. Assistent debüteeris 2016. aasta mais Google'i sõnumsiderakenduse Allo osana, samuti Google Home'i häälkõlaris (3).

3. Google Home

IOS-süsteemil on ka oma virtuaalne assistent, Siri, mis on Apple'i operatsioonisüsteemidega iOS, watchOS, tvOS homepod ja macOS kaasatud programm. Siri debüteeris iOS 5 ja iPhone 4s-ga 2011. aasta oktoobris konverentsil Let's Talk iPhone.

Tarkvara põhineb vestlusliidesel: tunneb ära kasutaja loomuliku kõne (iOS 11-ga on võimalik käske ka käsitsi sisestada), vastab küsimustele ja täidab ülesandeid. Tänu masinõppe kasutuselevõtule on aja jooksul abiline analüüsib isiklikke eelistusi kasutajal pakkuda asjakohasemaid tulemusi ja soovitusi. Siri nõuab pidevat internetiühendust – siin on peamised infoallikad Bing ja Wolfram Alpha. iOS 10 tutvustas kolmandate osapoolte laienduste tuge.

Veel üks neljast suurest Cortana. See on Microsofti loodud intelligentne isiklik assistent. Seda toetavad Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android ja iOS platvormid. Cortanat tutvustati esmakordselt Microsoft Build Developer Conference'il 2014. aasta aprillis San Franciscos. Programmi nimi tuleneb Halo mängusarja tegelase nimest. Cortana on saadaval inglise, itaalia, hispaania, prantsuse, saksa, hiina ja jaapani keeles.

Juba mainitud programmi kasutajad Alexa nad peavad arvestama ka keelepiirangutega – digiassistent räägib ainult inglise, saksa, prantsuse ja jaapani keelt.

Amazoni virtuaalset assistenti kasutati esmakordselt Amazon Lab126 välja töötatud nutikõlarites Amazon Echo ja Amazon Echo Dot. See võimaldab häälsuhtlust, muusika taasesitamist, ülesannete loendi koostamist, äratuse seadistust, taskuhäälingusaadete voogesitust, audioraamatu taasesitamist ja reaalajas ilmateavet, liiklust, sporditeavet ja muud uudisteavet, nagu uudised (4). Alexa saab juhtida mitut nutiseadet, et luua koduautomaatikasüsteem. Seda saab kasutada ka mugavaks ostlemiseks Amazoni poes.

4. Milleks kasutajad kaja kasutavad (uuringute kohaselt)

Kasutajad saavad Alexa kasutuskogemust täiustada, installides Alexa "oskused" (), kolmandate osapoolte välja töötatud lisafunktsioonid, mida muudes seadetes nimetatakse sagedamini rakendusteks, nagu ilmateade ja heliprogrammid. Enamik Alexa seadmeid võimaldab teil aktiveerida oma virtuaalse assistendi äratusparooliga, mida nimetatakse .

Tänapäeval domineerib nutikõlarite turul kindlasti Amazon (5). 2018. aasta märtsis uut teenust tutvustanud IBM üritab pääseda nelja parema hulka Watsoni assistent, mõeldud ettevõtetele, kes soovivad luua oma hääljuhtimisega virtuaalassistentide süsteeme. Mis on IBMi lahenduse eelis? Ettevõtete esindajate sõnul eelkõige palju suurematest isikupärastamise ja privaatsuse kaitse võimalustest.

Esiteks ei ole Watson Assistantil kaubamärki. Ettevõtted saavad sellel platvormil luua oma lahendusi ja märgistada need oma kaubamärgiga.

Teiseks saavad nad koolitada oma abisüsteeme, kasutades oma andmekogumeid, mis teeb IBMi sõnul sellesse süsteemi funktsioonide ja käskude lisamise lihtsamaks kui muud VUI (häälkasutajaliidese) tehnoloogiad.

Kolmandaks ei anna Watson Assistant IBM-ile teavet kasutajate tegevuse kohta – platvormil olevate lahenduste arendajad saavad väärtuslikke andmeid ainult enda teada hoida. Samal ajal peaksid kõik, kes ehitavad seadmeid, näiteks Alexaga, olema teadlikud, et nende väärtuslikud andmed jõuavad Amazoni.

Watsoni assistendil on juba mitu rakendust. Süsteemi kasutas näiteks Harman, kes lõi Maserati ideeautole hääleassistendi (6). Müncheni lennujaamas juhib IBMi assistent Pepperi robotit, et aidata reisijatel ringi liikuda. Kolmas näide on Chameleon Technologies, kus targa kodu arvestis kasutatakse häältehnoloogiat.

6. Watsoni assistent Maserati ideeautos

Tasub lisada, et ka selle aluseks olev tehnoloogia pole uus. Watson Assistant sisaldab olemasolevate IBM-i toodete, Watson Conversationi ja Watson Virtual Agenti krüpteerimisvõimalusi, samuti keeleanalüüsi ja vestluse API-sid.

Amazon pole mitte ainult nutika kõnetehnoloogia liider, vaid muudab selle otseseks äriks. Mõned ettevõtted on aga Echo integratsiooni katsetanud palju varem. BI- ja analüütikatööstuse ettevõte Sisense tutvustas Echo integratsiooni 2016. aasta juulis. Startup Roxy otsustas omakorda luua oma hääljuhitava tarkvara ja riistvara hotellindustööstuse jaoks. Selle aasta alguses tutvustas Synqq märkmete tegemise rakendust, mis kasutab hääl- ja loomuliku keele töötlust, et lisada märkmeid ja kalendrikirjeid ilma neid klaviatuurilt tippimata.

Kõigil neil väikeettevõtetel on suured ambitsioonid. Kõige enam aga said nad teada, et mitte iga kasutaja ei soovi oma andmeid edastada Amazonile, Google'ile, Apple'ile või Microsoftile, mis on kõnesideplatvormide ehitamisel kõige olulisemad tegijad.

Ameeriklased tahavad osta

2016. aastal moodustas häälotsing 20% kõigist Google'i mobiiliotsingutest. Inimesed, kes seda tehnoloogiat igapäevaselt kasutavad, nimetavad selle suurimate eeliste hulgas selle mugavust ja multitegumtöötlust. (näiteks otsingumootori kasutamise võimalus autoga sõites).

Visiongaini analüütikud hindavad nutikate digiassistentide praeguseks turuväärtuseks 1,138 miljardit dollarit.Selliseid mehhanisme on järjest rohkem. Gartneri sõnul juba 2018. aasta lõpuks 30% meie suhtlusest tehnoloogiaga läbi vestluste kõnesüsteemidega.

Briti uuringufirma IHS Markit prognoosib, et tehisintellektiga töötavate digiassistentide turg ulatub selle aasta lõpuks 4 miljardi seadmeni ning 2020. aastaks võib see arv tõusta 7 miljardini.

eMarketeri ja VoiceLabsi aruannete kohaselt kasutas 2017. aastal hääljuhtimist 35,6 miljonit ameeriklast vähemalt kord kuus. See tähendab ligi 130% kasvu võrreldes eelmise aastaga. Ainuüksi digiassistentide turg kasvab 2018. aastal 23%. See tähendab, et hakkate neid juba kasutama. 60,5 miljonit ameeriklast, mis toob nende tootjatele konkreetse raha. RBC Capital Marketsi hinnangul toodab Alexa liides Amazonile 2020. aastaks kuni 10 miljardit dollarit tulu.

Pese, küpseta, puhasta!

Häälliidesed sisenevad üha julgemalt kodumasinate ja olmeelektroonika turule. Seda oli näha juba eelmise aasta näitusel IFA 2017. Ameerika ettevõte Neato Robotics tutvustas näiteks robottolmuimejat, mis ühendub ühega mitmest nutikodu platvormist, sealhulgas Amazon Echo süsteemiga. Echo nutikõlariga vesteldes saate anda masinale käsu puhastada kogu teie maja teatud kellaaegadel päeval või öösel.

Näitusel esitleti ka teisi häälega aktiveeritavaid tooteid, alates Türgi ettevõtte Vestel Toshiba kaubamärgi all müüdavatest nutiteleritest kuni Saksa ettevõtte Beureri soojendusega tekkideni. Paljusid neist elektroonikaseadmetest saab ka kaugjuhtimisega nutitelefonide abil aktiveerida.

Boschi esindajate sõnul on aga veel vara öelda, milline koduabiliste valikutest saab domineerivaks. Saksa tehnikagrupp esitles messil IFA 2017 pesumasinaid (7), ahjusid ja kohvimasinaid, mis ühendatakse Echoga. Bosch soovib ka, et tema seadmed ühilduksid tulevikus Google'i ja Apple'i kõneplatvormidega.

7. Boschi pesumasin, mis ühendub Amazon Echoga

Sellised ettevõtted nagu Fujitsu, Sony ja Panasonic arendavad oma tehisintellektil põhinevaid hääleabilahendusi. Sharp lisab selle tehnoloogia turule tulevatele ahjudele ja väikestele robotitele. Nippon Telegraph & Telephone palkab riistvara- ja mänguasjatootjaid, et kohandada hääljuhitavat tehisintellekti süsteemi.

Vana kontseptsioon. Kas tema aeg on lõpuks kätte jõudnud?

Tegelikult on häälkasutajaliidese (VUI) kontseptsioon olnud kasutusel aastakümneid. Kõik, kes vaatasid aastaid tagasi Star Treki või 2001: Kosmoseodüsseiat, eeldasid ilmselt, et 2000. aasta paiku hakkame me kõik arvuteid oma häälega juhtima. Lisaks ei näinud seda tüüpi liidese potentsiaali ainult ulmekirjanikud. 1986. aastal küsisid Nielseni teadlased IT-spetsialistidelt, milline oleks nende arvates suurim muutus kasutajaliidestes aastaks 2000. Kõige sagedamini osutasid nad häälliideste arendamisele.

Sellist lahendust on põhjust loota. Verbaalne suhtlus on ju inimeste jaoks kõige loomulikum viis teadlikult mõtteid vahetada, seega tundub selle kasutamine inimese ja masina suhtluseks seni parima lahendusena.

Üks esimesi VUI-sid, nn kingakarp, lõi 60ndate alguses IBM. See oli tänapäeva hääletuvastussüsteemide eelkäija. VUI-seadmete arengut piirasid aga arvutusvõimsuse piirid. Inimkõne sõelumine ja tõlgendamine reaalajas nõuab palju pingutust ning kulus üle viiekümne aasta, et jõuda selleni, et see tegelikult võimalikuks sai.

Häälliidesega seadmed hakkasid masstootmisse ilmuma 90ndate keskel, kuid ei saavutanud populaarsust. Esimene hääljuhtimisega (valimisega) telefon oli Philips Sparkilmus 1996. aastal. Kuid see uuenduslik ja lihtsalt kasutatav seade ei olnud tehnoloogilistest piirangutest vaba.

Muud häälliidese vormidega varustatud telefonid (mille on loonud sellised ettevõtted nagu RIM, Samsung või Motorola) jõuavad regulaarselt turule, võimaldades kasutajatel häälvalimist või tekstisõnumeid saata. Kõik need nõudsid aga konkreetsete käskude päheõppimist ja hääldamist sunniviisilises kunstlikus vormis, kohandatuna tolleaegsete seadmete võimalustele. See tekitas suure hulga vigu, mis omakorda põhjustas kasutajate rahulolematust.

Nüüd oleme aga sisenemas uude andmetöötluse ajastusse, kus masinõppe ja tehisintellekti edusammud avavad vestluse potentsiaali uue tehnoloogiaga suhtlemise viisina (8). Häälsuhtlust toetavate seadmete arv on muutunud oluliseks teguriks, mis on VUI arengut palju mõjutanud. Tänapäeval omab peaaegu 1/3 maailma elanikkonnast juba nutitelefone, mida saab seda tüüpi käitumise jaoks kasutada. Näib, et enamik kasutajaid on lõpuks valmis oma häälliideseid kohandama.

8. Häälliidese arengu kaasaegne ajalugu

Enne kui saame aga vabalt arvutiga rääkida, nagu seda tegid A Space Odyssey kangelased, peame ületama mitmed probleemid. Keeleliste nüansside käsitlemisel masinad ikka väga hästi hakkama ei saa. Pealegi paljud inimesed tunnevad end endiselt ebamugavalt otsingumootorile häälkäskluste andmisel.

Statistika näitab, et hääleassistente kasutatakse eelkõige kodus või lähedaste sõprade keskel. Ükski küsitletutest ei tunnistanud avalikes kohtades häälotsingu kasutamist. Tõenäoliselt kaob see blokaad aga selle tehnoloogia levikuga.

tehniliselt keeruline küsimus

Süsteemide (ASR) probleemiks on kõnesignaalist kasulike andmete eraldamine ja nende seostamine teatud sõnaga, millel on inimese jaoks teatud tähendus. Tekkivad helid on iga kord erinevad.

Kõnesignaali muutlikkus on selle loomulik omadus, tänu millele tunneme ära näiteks aktsendi või intonatsiooni. Kõnetuvastussüsteemi igal elemendil on konkreetne ülesanne. Töödeldud signaali ja selle parameetrite põhjal koostatakse akustiline mudel, mis seostatakse keelemudeliga. Tuvastamissüsteem võib töötada väikese või suure arvu mustrite põhjal, mis määrab selle sõnavara suuruse, millega see töötab. Nad võivad olla väikesed sõnaraamatud üksikuid sõnu või käske ära tundvate süsteemide puhul, samuti suured andmebaasid sisaldades keelekomplekti ekvivalenti ja võttes arvesse keelemudelit (grammatikat).

Probleemid, millega eeskätt kokku puutuvad häälliidesed kõnest õigesti aru saama, milles jäetakse sageli välja näiteks terved grammatilised jadad, esineb keelelisi ja foneetilisi vigu, vigu, väljajätmisi, kõnevigu, homonüüme, põhjendamatuid kordusi jne Kõik need ACP süsteemid peavad töötama kiiresti ja usaldusväärselt. Vähemalt sellised ootused on.

Raskuste allikaks on ka muud akustilised signaalid peale äratuntava kõne, mis sisenevad tuvastussüsteemi sisendisse, s.t. igasuguseid häired ja müra. Lihtsamal juhul vajate neid väljafiltreerima. See ülesanne tundub rutiinne ja lihtne – ju filtreeritakse erinevaid signaale ja iga elektroonikainsener teab, mida sellises olukorras teha. Seda tuleb aga teha väga hoolikalt ja hoolikalt, kui kõnetuvastuse tulemus vastab meie ootustele.

Praegu kasutatav filtreerimine võimaldab koos kõnesignaaliga eemaldada ka mikrofoni poolt vastu võetud välismüra ja kõnesignaali enda sisemised omadused, mis raskendavad selle äratundmist. Märksa keerulisem tehniline probleem tekib aga siis, kui analüüsitava kõnesignaali häire on ... mõni muu kõnesignaal ehk siis näiteks valjuhäälsed arutelud ümberringi. Seda küsimust tuntakse kirjanduses nn. See eeldab juba keerukate meetodite kasutamist nn. dekonvolutsioon (lahti harutades) signaali.

Kõnetuvastusega seotud probleemid ei lõpe sellega. Tasub mõista, et kõne kannab palju erinevat tüüpi teavet. Inimhääl viitab omaniku soole, vanusele, erinevatele iseloomudele või tema tervislikule seisundile. Seal on ulatuslik biomeditsiinitehnika osakond, mis tegeleb kõnesignaalis leiduvate iseloomulike akustiliste nähtuste põhjal erinevate haiguste diagnoosimisega.

On ka rakendusi, kus kõnesignaali akustilise analüüsi põhieesmärk on tuvastada rääkija või kontrollida, kas ta on see, kes ta väidab end olevat (võtme, parooli või PUK-koodi asemel hääl). See võib olla oluline, eriti nutikate ehitustehnoloogiate puhul.

Kõnetuvastussüsteemi esimene komponent on mikrofon. Mikrofoni poolt võetud signaalist jääb aga tavaliselt vähe kasu. Uuringud näitavad, et helilaine kuju ja kulg varieerub suuresti olenevalt inimesest, kõne kiirusest ja osaliselt ka vestluskaaslase meeleolust – samas peegeldavad need vähesel määral ka kõnekäskude sisu.

Seetõttu tuleb signaali õigesti töödelda. Kaasaegne akustika, foneetika ja arvutiteadus annavad koos rikkaliku tööriistakomplekti, mida saab kasutada kõnesignaali töötlemiseks, analüüsimiseks, äratundmiseks ja mõistmiseks. Signaali dünaamiline spekter, nn dünaamilised spektrogrammid. Neid on üsna lihtne hankida ja dünaamilise spektrogrammi kujul esitatud kõnet on suhteliselt lihtne ära tunda, kasutades pildituvastuses kasutatavatele tehnikatele sarnaseid meetodeid.

Lihtsad kõneelemendid (näiteks käsud) tunneb ära tervete spektrogrammide lihtsa sarnasuse järgi. Näiteks häälkäsklusega mobiiltelefoni sõnastik sisaldab vaid mõnikümmend kuni paarsada sõna ja fraasi, mis on tavaliselt eelnevalt virnastatud, et neid oleks lihtne ja tõhusalt tuvastada. Sellest piisab lihtsate juhtimisülesannete jaoks, kuid see piirab oluliselt üldist rakendust. Skeemi järgi ehitatud süsteemid toetavad reeglina ainult konkreetseid kõlareid, mille jaoks hääled on spetsiaalselt koolitatud. Nii et kui on keegi uus, kes soovib oma häält süsteemi juhtimiseks kasutada, siis teda suure tõenäosusega ei aktsepteerita.

Selle toimingu tulemust nimetatakse spektrogramm 2-Wst kahemõõtmeline spekter. Selles plokis on veel üks tegevus, millele tasub tähelepanu pöörata - segmenteerimine. Üldiselt räägime pideva kõnesignaali jagamisest osadeks, mida saab eraldi ära tunda. Alles nendest üksikdiagnoosidest lähtub terviku äratundmine. See protseduur on vajalik, kuna pikka ja keerulist kõnet pole võimalik ühe hooga tuvastada. Sellest, milliseid segmente kõnesignaalis eristada, on juba terveid köiteid kirjutatud, nii et me ei otsusta praegu, kas eristatavad segmendid peaksid olema foneemid (heliekvivalendid), silbid või võib-olla allofoonid.

Automaattuvastusprotsess viitab alati objektide teatud omadustele. Kõnesignaali jaoks on testitud sadu erinevate parameetrite komplekte.Kõnesignaalil on jagatud tunnustatud raamidesse ja millel on valitud funktsioonidmille abil neid kaadreid tuvastusprotsessis esitatakse, saame teostada (iga kaadri jaoks eraldi) liigitamine, st. raamile identifikaatori määramine, mis seda tulevikus esindab.

Järgmine etapp raamide kokkupanek eraldi sõnadeks - enamasti lähtub nn. kaudsete Markovi mudelite mudel (HMM-). Siis tuleb sõnade montaaž täislauseid.

Nüüd saame hetkeks naasta Alexa süsteemi juurde. Tema näide näitab inimese masinliku "mõistmise" mitmeastmelist protsessi – täpsemalt: tema antud käsklust või küsitud küsimust.

Sõnadest arusaamine, tähenduse mõistmine ja kasutaja kavatsuste mõistmine on täiesti erinevad asjad.

Seetõttu on järgmiseks sammuks NLP mooduli töö (), mille ülesanne on kasutaja kavatsuste tuvastamine, st. käsu/küsimuse tähendus kontekstis, milles see lausuti. Kui kavatsus on tuvastatud, siis nn oskuste ja võimete määraminest spetsiaalne funktsioon, mida nutiassistent toetab. Ilma puudutava küsimuse korral kutsutakse välja ilmaandmete allikad, mis jäävad kõneks töötlemist (TTS - mehhanism). Selle tulemusena kuuleb kasutaja vastust esitatud küsimusele.

Hääl? Graafika? Või äkki mõlemad?

Enamik tuntud kaasaegseid interaktsioonisüsteeme põhinevad vahendajal, mida nimetatakse graafiline kasutajaliides (graafiline liides). Kahjuks ei ole GUI kõige ilmsem viis digitaalse tootega suhtlemiseks. See eeldab, et kasutajad õpivad kõigepealt liidest kasutama ja jätavad selle teabe iga järgneva suhtluse käigus meelde. Paljudes olukordades on hääl palju mugavam, kuna saate VUI-ga suhelda lihtsalt seadmega rääkides. Liides, mis ei sunni kasutajaid teatud käske või interaktsioonimeetodeid meelde jätma, põhjustab vähem probleeme.

Muidugi ei tähenda VUI laienemine traditsioonilisematest liidestest loobumist – pigem tulevad müügile hübriidliidesed, mis ühendavad endas mitmeid suhtlemisviise.

Häälliides ei sobi kõigi mobiilikonteksti ülesannete jaoks. Sellega helistame autoga sõitvale sõbrale ja saadame talle isegi SMS-i, kuid viimaste ülekannete kontrollimine võib osutuda liiga keeruliseks - süsteemi edastatud () ja süsteemi (süsteemi) genereeritud teabe hulga tõttu. Nagu Rachel Hinman oma raamatus Mobile Frontier soovitab, muutub VUI kasutamine kõige tõhusamaks ülesannete täitmisel, kus sisend- ja väljundteabe hulk on väike.

Internetti ühendatud nutitelefon on mugav, kuid samas ka ebamugav (9). Iga kord, kui kasutaja soovib midagi osta või uut teenust kasutada, peab ta alla laadima uue rakenduse ja looma uue konto. Siin on loodud kõneliideste kasutamise ja arendamise valdkond. Selle asemel, et sundida kasutajaid installima palju erinevaid rakendusi või looma iga teenuse jaoks eraldi kontosid, väidavad eksperdid, et VUI nihutab nende kohmakate ülesannete koormuse AI-toega häälassistendile. Tal on mugav teha pingelisi tegevusi. Anname talle ainult korraldusi.

9. Häälliides nutitelefoni kaudu

Tänapäeval on internetti ühendatud rohkem kui lihtsalt telefon ja arvuti. Võrku on ühendatud ka nutikad termostaadid, valgustid, veekeetjad ja paljud teised IoT-ga integreeritud seadmed (10). Seega on kõikjal meie ümber juhtmevabad seadmed, mis täidavad meie elu, kuid mitte kõik neist ei mahu loomulikult graafilisse kasutajaliidesesse. VUI kasutamine aitab teil need hõlpsalt meie keskkonda integreerida.

10. Häälliides asjade Internetiga

Häälkasutajaliidese loomine muutub peagi oluliseks kujundaja oskuseks. See on tõeline probleem – kõnesüsteemide juurutamise vajadus julgustab teid rohkem keskenduma proaktiivsele disainile, st püüdma mõista kasutaja esialgseid kavatsusi, ennetades tema vajadusi ja ootusi vestluse igas etapis.

Hääl on tõhus viis andmete sisestamiseks – see võimaldab kasutajatel kiiresti oma tingimustel süsteemile käske anda. Teisest küljest on ekraan tõhus viis teabe kuvamiseks: see võimaldab süsteemidel kuvada korraga suurt hulka teavet, vähendades kasutajate mälukoormust. On loogiline, et nende ühendamine üheks süsteemiks kõlab julgustavalt.

Nutikad kõlarid, nagu Amazon Echo ja Google Home, ei paku üldse visuaalset ekraani. Parandades märkimisväärselt hääletuvastuse täpsust mõõdukatel vahemaadel, võimaldavad need käed-vabad tööd, mis omakorda suurendab nende paindlikkust ja efektiivsust – need on soovitavad ka kasutajatele, kellel on juba hääljuhtimisega nutitelefonid. Suur piirang on aga ekraani puudumine.

Ainult piiksudega saab kasutajaid võimalikest käskudest teavitada ja väljundi ettelugemine muutub tüütuks, välja arvatud kõige elementaarsemate ülesannete puhul. Taimeri seadistamine häälkäsklusega toiduvalmistamise ajal on suurepärane, kuid pole vaja küsida, kui palju aega on jäänud. Regulaarse ilmateate saamine muutub kasutaja mäluprooviks, kes peab terve nädala jooksul kuulama ja neelama mitmeid fakte, selle asemel, et neid ühe pilguga ekraanilt üles korjata.

Disainerid on seda juba teinud hübriidlahendus, Echo Show (11), mis lisas tavalisele Echo nutikõlarile kuvari. See laiendab oluliselt seadme funktsionaalsust. Kuid Echo Show on endiselt palju vähem võimeline täitma põhifunktsioone, mis on nutitelefonides ja tahvelarvutites juba ammu saadaval olnud. See ei saa (veel) surfata veebis, kuvada arvustusi ega kuvada näiteks Amazoni ostukorvi sisu.

Visuaalne ekraan on oma olemuselt tõhusam viis pakkuda inimestele palju teavet kui lihtsalt heli. Hääleprioriteediga kujundamine võib häälsuhtlust oluliselt parandada, kuid pikemas perspektiivis on visuaalse menüü suvaline mittekasutamine suhtluse huvides nagu võitlemine ühe käega selja taha seotud. Arvestades ots otsani intelligentsete kõne- ja kuvaliideste keerukust, peaksid arendajad tõsiselt kaaluma liideste hübriidset lähenemist.

Kõne genereerimise ja tuvastamise süsteemide tõhususe ja kiiruse suurendamine on võimaldanud neid kasutada sellistes rakendustes ja valdkondades nagu näiteks:

• sõjavägi (häälkäsklused lennukites või helikopterites, nt F16 VISTA),

• automaatne teksti transkriptsioon (kõnest tekstiks),

• interaktiivsed infosüsteemid (Prime Speech, kõneportaalid),

• mobiilseadmed (telefonid, nutitelefonid, tahvelarvutid),

• robootika (Cleverbot – ASR süsteemid kombineerituna tehisintellektiga),

• autotööstus (autokomponentide, nt Blue & Me, käed-vabad juhtimine),

• kodurakendused (targa kodu süsteemid).

Ettevaatust ohutusega!

Autod, kodumasinad, kütte-/jahutus- ja koduturvasüsteemid ning paljud kodumasinad hakkavad kasutama sageli tehisintellektil põhinevaid häälliideseid. Selles etapis saadetakse miljonite masinatega peetud vestluste käigus saadud andmed arvutuspilved. On selge, et turundajad tunnevad nende vastu huvi. Ja mitte ainult nemad.

Symanteci turvaekspertide hiljutises raportis soovitatakse häälkäskluste kasutajatel mitte kontrollida turvafunktsioone, nagu ukselukke, rääkimata kodu turvasüsteemidest. Sama kehtib ka paroolide või konfidentsiaalse teabe salvestamise kohta. Tehisintellekti ja nutikate toodete turvalisust pole veel piisavalt uuritud.

Kui seadmed kogu kodus kuulavad iga sõna, muutub süsteemi häkkimise ja väärkasutuse oht suureks probleemiks. Kui ründaja saab juurdepääsu kohalikule võrgule või sellega seotud e-posti aadressidele, saab nutiseadme seadeid muuta või lähtestada tehaseseadetele, mis toob kaasa väärtusliku teabe kadumise ja kasutajaajaloo kustutamise.

Teisisõnu kardavad turvaspetsialistid, et hääljuhitav tehisintellekt ja VUI ei ole veel piisavalt targad, et kaitsta meid võimalike ohtude eest ja hoida suu kinni, kui võõras midagi küsib.