Tehnologija prepoznavanja glasa ima bogatu povijest razvoja koja ju je dovela do onoga što je danas. To je srž modernog života i daje nam mogućnost obavljanja zadataka samo razgovorom s uređajem. Dakle, kako se ova zapanjujuća tehnologija razvila tijekom godina? Pogledajmo.
1952: Sustav Audrey
Prvi korak u prepoznavanju glasa učinjen je početkom 1950 -ih. Bell Laboratories razvili su prvi stroj koji je mogao razumjeti ljudski glas 1952. godine, a nazvan je Audrey System. Ime Audrey bilo je svojevrsna kontrakcija izraza Automatsko prepoznavanje znamenki. Iako je to bila velika inovacija, imala je neka velika ograničenja.
Najvažnije, Audrey je mogla prepoznati samo brojčane znamenke 0-9, bez riječi. Audrey bi dala povratnu informaciju kada bi govornik izgovorio broj paljenjem 1 od 10 žarulja, od kojih svaka odgovara znamenki.
Iako je mogla razumjeti brojeve s 90% točnosti, Audrey je bila ograničena na određeni tip glasa. Zbog toga je jedina osoba koja bi ga zaista koristila bio HK Davis, jedan od programera. Kad se izgovorio broj, govornik bi trebao pričekati najmanje 300 milisekundi prije nego što izgovori sljedeći.
Ne samo da je bio ograničen u funkcionalnosti, već je bio ograničen i u korisnosti. Nije bilo velike koristi od stroja koji je mogao razumjeti samo brojeve. Jedna od mogućih upotreba bilo je biranje telefonskih brojeva, no bilo je mnogo brže i lakše biranje brojeva ručno. Iako Audrey nije imala graciozno postojanje, ona i dalje stoji kao velika prekretnica u ljudskim postignućima.
Povezano: Kako koristiti glasovno pisanje u programu Microsoft Word
1962: IBM -ova kutija za cipele
Desetljeće nakon Audreyja, IBM se okušao u razvoju sustava za prepoznavanje glasa. Na Svjetskom sajmu 1962. IBM je pokazao sustav za prepoznavanje glasa pod nazivom Showbox. Poput Audrey, njegov glavni posao bilo je razumijevanje znamenki 0-9, ali je moglo razumjeti i šest riječi: plus, minus, lažno, ukupno, međuzbroj i isključeno.
Shoebox je bio matematički stroj koji je mogao rješavati jednostavne aritmetičke probleme. Što se tiče povratnih informacija, umjesto svjetla, Shoebox je uspio ispisati rezultate na papir. To ga je učinilo korisnim kao kalkulator, iako bi zvučnik ipak trebao napraviti stanku između svakog broja/riječi.
1971: IBM -ova automatska identifikacija poziva
Nakon Audrey i Shoeboxa, drugi laboratoriji diljem svijeta razvili su tehnologiju prepoznavanja glasa. Međutim, to je počelo tek 1970-ih, kada je 1971. godine IBM donio na tržište prvi izum svoje vrste. Nazvan je sustavom automatske identifikacije poziva. Bio je to prvi sustav prepoznavanja glasa koji se koristio preko telefonskog sustava.
Inženjeri bi zvali i bili povezani s računalom u Raleighu u Sjevernoj Karolini. Pozivatelj bi tada izgovorio jednu od 5000 riječi u svom rječniku i dobio "govorni" odgovor kao odgovor.
Povezano: Kako koristiti glasovni diktat na Mac računalima
1976: Harpija
Početkom 1970 -ih, Ministarstvo obrane SAD -a zainteresiralo se za prepoznavanje glasa. DARPA (Agencija za napredne obrambene istraživačke projekte) razvila je program Speech Understanding Research (SUR) 1971. godine. Ovaj je program financirao nekoliko tvrtki i sveučilišta za pomoć u istraživanju i razvoju za prepoznavanje glasa.
1976. godine, zbog SUR -a, Sveučilište Carnegie Mellon razvilo je Harpy sustav. Ovo je bio veliki skok u tehnologiji prepoznavanja glasa. Sustavi su do tog trenutka mogli razumjeti riječi i brojeve, ali Harpy je bio jedinstven po tome što je mogao razumjeti cijele rečenice.
Imao je rječnik od samo 1.011 riječi, što je, prema jednoj publikaciji B. Lowerre i R. Reddy, izjednačeno s više od trilijun različitih mogućih rečenica. U publikaciji se zatim navodi da je Harpy mogao razumjeti riječi s 93,77% točnosti.
Osamdesete su bile ključno vrijeme za tehnologiju prepoznavanja glasa, jer je ovo desetljeće u kojem je glas tehnologiju prepoznavanja, budući da je ovo desetljeće kada smo se upoznali sa Skrivenom Markovljevom metodom (HMM). Glavna pokretačka snaga iza HMM -a je vjerojatnost.
Kad god sustav registrira fonem (najmanji element govora), postoji izvjesna vjerojatnost što će biti sljedeći. HMM koristi te vjerojatnosti kako bi odredio koji će fonem najvjerojatnije doći sljedeći i oblikovati najvjerojatnije riječi. Većina današnjih sustava za prepoznavanje glasa i dalje koristi HMM za razumijevanje govora.
Devedesete godine: Prepoznavanje glasa doseže potrošačko tržište
Od začeća tehnologije prepoznavanja glasa, bilo je na putu pronaći mjesto na potrošačkom tržištu. Osamdesetih godina prošlog stoljeća IBM je predstavio prototip računala koje može diktirati govor u tekst. Međutim, tek početkom 1990 -ih ljudi su počeli vidjeti ovakve aplikacije u svojim domovima.
Godine 1990. Dragon Systems predstavio je prvi softver za diktiranje govora u tekst. Zvao se Dragon Dictate, a izvorno je objavljen za Windows. Ovaj program od 9.000 dolara bio je revolucionaran u donošenju tehnologije prepoznavanja glasa u mase, ali postojala je jedna mana. Korišteni softver diskretni diktat, što znači da korisnik mora napraviti stanku između svake riječi kako bi ih program pokupio.
Godine 1996. IBM je ponovno doprinio industriji Medspeakom. Ovo je također bio program za diktiranje govora u tekst, ali nije trpio diskretnu dikaciju kao Dragon Dictate. Umjesto toga, ovaj bi program mogao diktirati kontinuirani govor, što ga je učinilo uvjerljivijim proizvodom.
Povezano: Kako koristiti Google pomoćnik sa slušalicama
2010: Djevojka po imenu Siri
Tijekom 2000 -ih tehnologija prepoznavanja glasa eksplodirala je na popularnosti. Implementiran je u više softvera i hardvera nego ikad prije, a jedan ključni korak u evoluciji prepoznavanja glasa bila je Siri, digitalna pomoćnica. 2010. tvrtka pod imenom Siri predstavila je virtualnog asistenta kao iOS aplikaciju.
U to je vrijeme Siri bio impresivan softver koji je mogao diktirati ono što je govornik rekao i dati obrazovan i duhovit odgovor. Ovaj je program bio toliko impresivan da je Apple iste godine kupio tvrtku i Siri pomalo popravio, gurajući je prema digitalnom asistentu koji poznajemo danas.
Preko Applea Siri je dobila svoj kultni glas (glas Susan Benett) i mnoštvo novih značajki. Koristi obrada prirodnog jezika za kontrolu većine funkcija sustava.
2010 -ih: Velika 4 digitalna pomoćnika
Kako sada stoji, četiri velika digitalna pomoćnika dominiraju prepoznavanjem glasa i dodatnim softverom.
- Siri prisutna je u gotovo svim Appleovim proizvodima: iPhone, iPod, iPad i Mac računala.
- Google pomoćnik prisutna je na većini od 3 milijarde + Android uređaja na tržištu. Osim toga, korisnici mogu koristiti naredbe na mnogim Googleovim uslugamapoput Google Homea.
- Amazon Alexa nema mnogo namjenske platforme na kojoj živi, ali je ipak istaknuti asistent. Dostupan je za preuzimanje i upotrebu na Android uređajima, Apple uređajima. pa čak i odabrati prijenosna računala Lenovo
- Bixby je najnoviji unos na popis digitalnih asistenata. To je Samsungov domaći digitalni pomoćnik i prisutan je među telefonima i tabletima ove tvrtke.
Izgovorena povijest
Prepoznavanje glasa prošlo je dug put od Audreyjevih dana. Ostvario je velike uspjehe na više polja; na primjer, prema Clear Bridge Mobile, medicinsko područje imalo je koristi od glasovnih chatbotova tijekom pandemije 2020. Od samo sposobnosti razumijevanja brojeva do razumijevanja različitih varijacija cijelih rečenica, prepoznavanje glasa pokazalo se jednom od najkorisnijih tehnologija našeg modernog doba.
Stalno koristimo prepoznavanje glasa, ali kako to funkcionira?
Pročitajte Dalje
- Objašnjena tehnologija
- Siri
- Google pomoćnik
- Alexa
- Bixby
- Glasovne naredbe

Arthur je tehnološki novinar i glazbenik koji živi u Americi. U industriji je gotovo desetljeće, pisao je za internetske publikacije poput Android Headlines. Ima duboko poznavanje Androida i ChromeOS -a. Uz pisanje informativnih članaka, vješt je i u izvješćivanju o tehnološkim vijestima.
Pretplatite se na naše obavijesti
Pridružite se našem biltenu za tehničke savjete, recenzije, besplatne e -knjige i ekskluzivne ponude!
Kliknite ovdje za pretplatu