Otkrivanje izraza samo je dio procesa.
Vikanje "Ok Google" s druge strane sobe za promjenu glazbe ili gašenje svjetla u sobi sigurno je nevjerojatno, ali ovaj naizgled jednostavan proces pokreće komplicirana mreža tehnologija koje rade iza scene.
Otprilike svaki veći virtualni asistent na tržištu ima pozivnu frazu koju koristite za buđenje pomoćnika i razgovor. Ali kako glasovni pomoćnici znaju kada razgovarate s njima?
Kako funkcionira otkrivanje fraza?
Kao što je gore spomenuto, svaki glasovni asistent ima "frazu okidača" ili riječ za buđenje koju koristite da probudite pomoćnika i date daljnje naredbe. Proces otkrivanja ove fraze je više-manje isti sa svakim pomoćnikom, osim malih nijansi. Ipak, ove nijanse mogu značiti razliku između ležernog izgovaranja naredbe za buđenje i višestrukog uzvikivanja samo nekoliko puta kako bi pomoćnik nastavio spavati, nešto što ponekad može biti jako neugodno, pogotovo ako ste vi korištenje glasovnog asistenta za smirivanje.
Općenito, većina "pametnih" zvučnika ima mali krug čiji je jedini zadatak otkriti naredbu za buđenje i zatim pokrenuti ostatak hardvera. Većina obrade obavlja se u oblaku, ali detekcija izraza je na uređaju zbog očitih razloga privatnosti. Detekcija fraza na telefonima radi manje-više na isti način.
Pojedinosti su uglavnom tajne, ali ovi sustavi detekcije koriste strojno učenje i duboke neuronske mreže (DNN) za treniranje AI modela da detektuju vaš glas i formiraju ključ. Ovaj ključ se zatim koristi za provjeru kada ste izgovorili određenu frazu, a sve ostalo se šalje u oblak na daljnju obradu.
Google pomoćnik
Telefoni koji podržavaju otkrivanje "OK Google" obično dolaze sa sustavom za uočavanje ključnih riječi (KWS) koji otkriva frazu i zatim krpa ostatak vašeg upita u oblak. Budući da mobilni uređaji imaju ograničenu računalnu snagu, kao i ograničenja trajanja baterije, ti sustavi obično nisu tako dobri kao oni koje biste pronašli na zvučnicima Google Nest.
Ovaj KWS sustav na uređaju kontinuirano hvata zvuk s mikrofona uređaja i pokreće vezu s poslužiteljem kada otkrije frazu okidača. Google također koristi kontekstualno automatsko prepoznavanje govora (ASR) na strani poslužitelja kako bi poboljšao ukupnu točnost svog KWS sustava. Više o tome možete pročitati u Googleov istraživački rad [PDF].
Siri
Siri radi isto kao Google Assistant u pogledu otkrivanja "Hey Siri". Apple je bio iznenađujuće otvoren o tome kako sustav funkcionira, što uključuje "vrlo mali" prepoznavanje govora koji radi u pozadini i sluša samo te dvije riječi. Ovaj detektor koristi DNN za pretvaranje akustičnog uzorka vašeg glasa snimljenog u svakoj instanci u distribuciju vjerojatnosti zvukova govora, u biti generirajući ocjenu pouzdanosti.
Vaš iPhone ili Apple Watch to čini mijenjajući vaš glas u niz uzoraka valnog oblika brzinom od 16 000 u sekundi. To se zatim skraćuje na niz okvira koji pokrivaju zvučni spektar od oko 0,01 sekunde. Zatim se ukupno 20 ovih okvira unosi u model detekcije, koji te uzorke pretvara u vjerojatnost.
Ako sustav s dovoljno pouzdanja utvrdi da ste rekli "Hej Siri", Siri se budi i šalje ostatak upita u oblak, gdje se odvija daljnja analiza i izvršava se radnja koju ste zatražili izvedena.
Tu su, naravno, dodane dodatne mjere kako bi se osigurala učinkovitost memorije i baterije. Procesor Always On (AOP) vašeg iPhonea ima pristup mikrofonima uređaja (na iPhoneu 6S i novijim) upravo iz tog razloga, a mali dio njegove procesorske snage rezerviran je za pokretanje DNN-a. Apple duboko zaranja u cijeli sustav na svojoj web stranici strojnog učenja, strojno učenje.jabuka.
Alexa
Slično kao Google Assistant i Siri, Alexa također ne drži većinu svoje procesorske snage ni na jednom od Echo zvučnika koje možete kupiti. Umjesto toga, zvučnici koriste ono što Amazon naziva Automatic Speech Recognition (ASR) koje u biti pretvara izgovorene riječi u tekst, dopuštajući temeljnom sustavu da ih interpretira i djeluje u skladu s tim.
ASR čini osnovni temelj rada Alexe. Još jednom, postoji ugrađeni sustav koji osluškuje riječi za buđenje, u ovom slučaju "Alexa", "Amazon," "Echo" ili "Računalo" i pokreće ostatak sustava kada je riječ za buđenje koju je unaprijed odredio korisnik otkriveno. Možete čak probudite svoj Alexa uređaj koristeći "Hey Disney" ako želiš.
Kao i Google Assistant, možete uvježbati Alexin temeljni AI model da bolje detektira vaš glas. Ovaj proces uključuje stvaranje osnovnog "ključa" s kojim se uspoređuje izgovorena riječ za buđenje, a kada se pronađe podudaranje, uređaj reagira u skladu s tim.
Slušaju li glasovni pomoćnici uvijek?
Kao što vjerojatno već možete pogoditi, da, jesu. Nema šanse da bi inače mogli otkriti riječi za buđenje. Međutim, još ne morate izbaciti sve svoje pametne zvučnike zbog brige o privatnosti.
Slušanje svega što korisnici kažu, slanje natrag na udaljeni poslužitelj i analiziranje (ili pohranjivanje) zahtijeva goleme hardverske i financijske resurse do te mjere da praktično nema smisla perspektiva. Dodajte ovome veliku brigu o privatnosti s kojom se tvrtke poput Googlea, Applea i Amazona već suočavaju, a ideja nema smisla.
Ovo također snažno utječe na performanse telefona i trajanje baterije sa značajkama detekcije riječi za buđenje, ponajviše Google Pixels i iPhone. Ako vaš telefon neprekidno sluša ono što govorite i šalje taj zvuk natrag na udaljeni poslužitelj, to će isprazniti vašu bateriju i smanjiti performanse uređaja.
Tko ima najučinkovitije otkrivanje fraza i zašto?
Nije lako objektivno usporediti koji virtualni pomoćnik ima najbolju objektivnu detekciju izraza budući da svi koriste malo različite implementacije istog općeg koncepta. Međutim, čini se da Google ima dosljedniju detekciju fraza zahvaljujući Google Assistantu koji ima prednost u usporedbi sa Siri i Alexa.
Unatoč tome što aplikacije koje koriste velike jezične modele (LLM-ove) kao što su ChatGPT i Bing Chat postaju glavne tokove, Google Assistant zadržava svoju poziciju jednog od najvažnijih popularni virtualni pomoćnici jednostavno zato što je dostupan jednim dodirom na svakom Android uređaju, od pametnih televizora do stereo sustava u automobilu i, naravno, pametnih telefona.
Siri i Alexa moraju nešto nadoknaditi u tom odjelu, ali što se tiče otkrivanja fraza, nisu tako daleko. Ipak, imat ćete veće šanse probuditi Google asistenta na svom Pixelu s druge strane sobe nego što biste imali sa Siri na svom iPhoneu, iako možete pojačajte mogućnosti Siri sa Super Siri načinom rada. Budući da se Alexa najviše koristi na Amazonovoj Echo liniji zvučnika, tu je u maloj prednosti s obzirom na to da su ovi zvučnici dizajnirani da mogu pokupiti glas korisnika.
AI je jednako sablasna koliko i praktična
Pozivanje vašeg AI pomoćnika samo vašim glasom može biti vrlo zgodno. Što se tiče značajke koja se neprimjetno integrira u naše živote, mnogo toga se događa iza kulisa o čemu većina nas često ne razmišlja.
Ipak, ova pogodnost sa sobom donosi i nelagodu zbog toga što vaš uređaj uvijek sluša što govorite. Do sada, uređaji za prepoznavanje govora i riječi za buđenje stoje između onoga što vaš virtualni pomoćnik čuje i onoga što kažete.