Oglas

Sada možemo razgovarati s gotovo svim našim uređajima, ali točno kako to funkcionira? Na pitanje "Koja je ovo pjesma?" ili recite "Zovi mama", događa se čudo moderne tehnologije. I dok se čini kao da je na vrhu, ova ideja razgovora s uređajima seže desetljećima - gotovo što se tiče jetpacks znanstvene fantastike!

Danas se najveći dio pozornosti koja se pridaje glasovno-računalnom računanju posvećen pametnim telefonima. Apple, Amazon, Microsoft i Google nalaze se na vrhu lanca od kojih svaki nudi svoj način razgovora s elektronikom. Znate tko su: Siri, Alexa, Cortana i bezimeno "Ok, Google". Što postavlja veliko pitanje ...

Kako uređaj uzima izgovorene riječi i pretvara ih u naredbe koje može razumjeti? U osnovi se svodi na usklađivanje obrazaca i predviđanja na temelju tih obrazaca. Preciznije, prepoznavanje glasa je složen zadatak koji dolazi Akustično modeliranje i Jezično modeliranje.

Akustično modeliranje: valni oblici i telefoni

valni oblik

Akustičko modeliranje je postupak uzimanja valnog oblika govora i njegove analize koristeći statističke modele. Najčešća metoda za to je

instagram viewer
Skriveno Markovljevo modeliranje, što se koristi u tzv izgovorno modeliranje razbiti govor na sastavne dijelove koji se nazivaju telefoni (da se ne brkaju s stvarnim telefonskim uređajima). Microsoft je dugi niz godina vodeći istraživač na ovom polju.

Skriveno Markovljevo modeliranje: Vjerojatna stanja

Skriveno Markov modeliranje je matematički prediktivni model gdje se trenutno stanje utvrđuje analizom izlaza. Wikipedia ima sjajan primjer korištenja dva prijatelja.

Zamislite dva prijatelja - lokalnog prijatelja i udaljenog prijatelja - koji žive u različitim gradovima. Lokalni prijatelj želi shvatiti kakvo je vrijeme u kojem živi udaljeni prijatelj, ali udaljeni prijatelj želi razgovarati samo o onome što je učinio taj dan: šetati, kupovati ili čistiti. Vjerojatnost svake aktivnosti, ovisno o vremenskom vremenu.

Skriveno Markovljevo modeliranje

Pretvarajte se da su to jedine dostupne informacije. Uz to, Local Friend može pronaći trendove u tome kako se vrijeme mijenjalo iz dana u dan, i koristeći te trendove, ona mogu početi upućivati ​​nagađanja o današnjem vremenu na osnovu jučerašnjih aktivnosti njezine prijateljice. (Dijagram sustava možete vidjeti gore.)

Ako želite složeniji primjer, pogledajte ovaj primjer na Matlabu. U prepoznavanju glasa, ovaj model u osnovi uspoređuje svaki dio valnog oblika s onim što slijedi i što slijedi i sa rječnikom valnih oblika kako bi se utvrdilo što se kaže.

U osnovi, ako napravite "th" zvuk, provjerit ćete zvuk protiv najvjerojatnijih zvukova koji obično dolaze prije i nakon njega. Možda to znači provjeru zvuka "e", zvuka "at", i tako dalje. Kad se obrazac ispravno poklapa, tada imate cijelu riječ. Ovo je pretjerano pojednostavljenje, ali možete vidjeti Microsoftovo cjelovito objašnjenje ovdje.

Jezično modeliranje: više od zvuka

Akustično modeliranje pomaže vašem računalu da vas razumije, ali što je s homonimima i regionalnim varijacijama u izgovoru? Tu se pojavljuje jezično modeliranje. Google je pokrenuo mnoštvo istraživanja u ovom području, uglavnom korištenjem N-gram modeliranje.

Kad Google pokušava razumjeti vaš govor, to čini na temelju modela izvedenih iz njegove goleme banke glasovne pretrage i YouTube prijepisa. Svi ti urnebesno pogrešni videozapisi zapravo su pomogli Googleu da razvije svoje rječnike. Također, koristili su odstupljene GOOG-411 za prikupljanje podataka o tome kako ljudi govore.

shutterstock_70757203

Sva ova zbirka jezika stvorila je veliku paletu izgovora i dijalekata, što je stvorilo robustan rječnik riječi i način na koji oni zvuče. To omogućava utakmice sa znatno smanjenom stopom pogreške od podudaranja grube sile na temelju sirovih vjerojatnosti. Možete pročitati kratki rad opisujući njihove metode ovdje.

Iako je Google lider na ovom polju, postoje i drugi matematički modeli koji uključuju kontinuirani prostor modeli i modeli položaja jezika, što su naprednije tehnike rođene istraživanjima umjetne inteligencije. Te se metode temelje na ponavljanju nazora koji ljudi rade kada slušaju jedni druge. Oni su mnogo napredniji kako u pogledu tehnologije koja stoji iza njih, ali i matematike i programiranja potrebnih za mapiranje ovih modela.

N-Gram modeliranje: Vjerojatnost zadovoljava memoriju

N-gram modeliranje djeluje na temelju vjerojatnosti, ali koristi postojeći rječnik riječi za stvaranje razgranatog stabla mogućnosti, koje se zatim izglađuje radi učinkovitosti. Na neki način to znači da N-gram modeliranje uklanja mnogo neizvjesnosti u gore spomenutom Skrivenom Markovom modeliranju.

Kao što je gore spomenuto, snaga ove metode proizlazi iz velikog rječnika riječi i upotreba, ne samo primitivno zvukovi. To programu pruža mogućnost prepoznavanja razlike između homofona, poput "batina" i "repe". To je kontekstualno, što znači da, kada govorite o sinoćnjim rezultatima, program ne povlači riječi o borschtu.

Ali ovi modeli zapravo nisu najbolji za jezik, uglavnom zbog problema s vjerojatnošću riječi u dužim frazama. Dok dodate više riječi u rečenicu, ovaj se model malo odupire jer vaše rane riječi vjerojatno neće napuniti sve što je potrebno za vašu kompletnu misao.

Međutim, to je jednostavno i lako implementirati, što ga čini izvrsnom podudarnošću za tvrtku poput Googlea koja uživa u bacanju poslužitelja na računske probleme. Možete pročitati više o N-gram Modelieng-u na University of Washingtonili možete gledati predavanje na Coursera.

Vikanje u oblacima: Aplikacije i uređaji

Svatko tko koristi Siri zna frustraciju sporog povezivanja u mrežu. To je zato što se vaše naredbe za Siri šalju putem mreže da bi ih Apple dešifrirao. Cortana za Windows telefon zahtijeva i mrežnu vezu kako bi ispravno funkcionirala. Nasuprot tome, Amazonov Echo samo je Bluetooth zvučnik bez ikakvog interneta.

Zašto razlika? Budući da su Siri i Cortana potrebni debeli serveri za dekodiranje vašeg govora. Može li se to učiniti na vašem telefonu ili tabletu? Svakako, ali ubit ćete performanse i trajanje baterije u tom procesu. Samo ima smisla prebacivati ​​obradu na namjenske strojeve.

SIGCHI_Conference_Paper_Format _-_ KumarSpeechRecognitionForMobileApps_pdf

Razmislite na ovaj način: vaša naredba je automobil zaglavljen u blatu. Vjerojatno biste ga sami mogli izbaciti s dovoljno vremena i truda, ali proći će sati i ostaviti vas iscrpljeno. Umjesto toga, nazovite pomoć na cesti i oni će izvući vaš automobil za samo nekoliko minuta. Loša strana je što morate nazvati i čekati ih, ali to je i dalje brže i manje oporezivati.

Desktop modeli poput Nuancea imaju tendenciju da koriste lokalne resurse zbog moćnijeg hardvera. Uostalom, po riječima Stevea Jobsa, vaš desktop je kamion. (Što ga čini pomalo blesavim što koristi OS X poslužitelji za njegovu obradu.) Dakle, kada trebate obraditi jezik i glas, on je već dovoljno dobro opremljen da ga možete samostalno obraditi.

S druge strane, Android omogućava programerima da u svoje aplikacije uključe izvanmrežno prepoznavanje govora. Google voli napredovati u tehnologiji, a možete se kladiti da će druge platforme steći tu sposobnost jer njihov hardver postaje snažniji. Nitko ga ne voli kada loša pokrivenost ili loš prijem lobotomizira njihov uređaj.

Počnite upotrebljavati glasovne naredbe odmah

Sada kada znate temeljne koncepte, trebali biste se igrati s različitim uređajima. Isprobajte novo glasovno tipkanje u Google dokumentima Kako je tipkanje glasom nova najbolja značajka Google dokumenataPrepoznavanje glasa poboljšalo se skokovima i granicama posljednjih godina. Početkom ovog tjedna Google je konačno uveo glasovno tipkanje u Google Dokumente. Ali je li to dobro? Hajde da vidimo! Čitaj više . Kao da paket web ureda nije već dovoljno moćan, glasovna kontrola omogućuje vam u potpunosti diktiranje i oblikovanje dokumenata. To se proširuje na snažnoj tehnologiji koju su već dizajnirali za Chrome i Android.

Ostale ideje uključuju postavljanje vašeg Mac za upotrebu glasovnih naredbi Kako koristiti govorne naredbe na Mac računalu Čitaj više i postavljanje svog Amazon Echo s automatiziranom naplatom Kako Amazon Echo može učiniti vaš dom pametnim domomPametni kućni tehničar još je uvijek u prvim danima, ali novi proizvod Amazona pod nazivom "Echo" možda će mu pomoći da se on uvede u glavni tok. Čitaj više . Uživajte u budućnosti i zagrlite razgovarajući sa svojim uređajima - čak i ako samo naručujete više papirnatih ručnika. Ako ste ovisnik o pametnim telefonima, dobili smo i tutorijale za Siri 8 stvari koje vjerojatno niste shvatili da bi Siri mogao učinitiSiri je postala jedna od najvažnijih značajki iPhone-a, ali za mnoge ljude to nije uvijek najkorisnije. Iako su neki od toga zbog ograničenja prepoznavanja glasa, neobičnosti korištenja ... Čitaj više , Cortana 6 zgodnih stvari koje možete kontrolirati s Cortanom u sustavu Windows 10Cortana vam može pomoći da preuzmete handsfree na Windows 10. Možete joj dopustiti da pretražuje vaše datoteke i web, izračunava ili povuče vremensku prognozu. Ovdje ćemo pokriti neke od njezinih vještina hladnjaka. Čitaj više , i Android U redu, Google: 20 korisnih stvari koje možete reći na svom Android telefonuGoogle Assistant vam može pomoći da učinite puno na svom telefonu. Ovdje je hrpa osnovnih, ali korisnih OK Google naredbi koje treba isprobati. Čitaj više .

Koja je vaša omiljena uporaba kontrole glasa? Javite nam se u komentarima.

Slikovni krediti: T-flex preko Shutterstocka, Terencehonles putem Wikimedia Foundation, Država Arizona, Cienpies dizajn preko Shutterstocka

Michael nije koristio Mac kada su bili osuđeni, ali može se kodirati u Applescript. Diplomirao je informatiku i engleski jezik; već neko vrijeme piše o Macu, iOS-u i video igrama; i bio je svakodnevni IT majmun više od desetljeća, specijalizirao se za scenarije i virtualizaciju.