Tvorci ChatGPT-a imaju još jedan alat koji nastoji rasteretiti vaše prste.

Isti ljudi koji stoje iza ChatGPT-a stvorili su još jedan alat temeljen na umjetnoj inteligenciji koji danas možete koristiti za povećanje svoje produktivnosti. Mislimo na Whisper, rješenje za pretvaranje glasa u tekst koje je zasjenilo sva slična rješenja koja su postojala prije njega.

Možete koristiti Whisper u svojim programima ili u naredbenom retku. Pa ipak, to poništava samu njegovu svrhu: tipkanje bez tipkovnice. Ako trebate tipkati da biste ga koristili, zašto ga koristiti da biste izbjegli tipkanje? Srećom, sada možete koristiti Whisper putem grafičkog korisničkog sučelja. Još bolje, može i transkribirati vaš glas gotovo u stvarnom vremenu. Pogledajmo kako možete tipkati glasom koristeći Whisper Desktop.

Što je OpenAI's Whisper?

OpenAI-jev Whisper je sustav za automatsko prepoznavanje govora (skraćeno ASR) ili, pojednostavljeno rečeno, rješenje za pretvaranje govornog jezika u tekst.

Međutim, za razliku od starijih sustava za diktiranje i transkripciju, Whisper je AI rješenje obučeno na više od 680 000 sati govora na različitim jezicima. Whisper nudi neusporedivu točnost i, prilično impresivno, ne samo da je višejezičan, već također može prevoditi s jednog jezika na drugi.

instagram viewer

Što je još važnije, besplatan je i dostupan kao otvoreni kod. Zahvaljujući tome, mnogi su programeri ugradili njegov kod u vlastite projekte ili stvorili aplikacije koje se oslanjaju na njega, poput Whisper Desktop.

Ako biste radije "vanili" verziju Whispera i svestranost terminala umjesto nezgrapnih GUI-ja, pogledajte naš članak o kako svoj glas pretvoriti u tekst s OpenAI-jevim Whisperom za Windows.

Jesu li Whisper i Whisper Desktop isto?

Unatoč službenom nazivu koji zvuči, Whisper Desktop je GUI treće strane za Whisper, napravljen za sve koji bi radije klikali gumbe umjesto da upisuju naredbe.

Whisper Desktop je samostalno rješenje koje se ne oslanja na postojeću Whisper instalaciju. Kao bonus, koristi alternativnu, optimiziranu verziju Whispera, tako da bi trebao raditi bolje od samostalne verzije.

Nalazite se na drugom kraju spektra i umjesto da tražite lakši način korištenja Whispera od terminala, tražite načine da ga implementirate u vlastita rješenja? Radujte se, jer OpenAI je otvorio pristup ChatGPT i Whisper API-jima.

Preuzmite i instalirajte Whisper Desktop

Iako je Whisper Desktop lakši za korištenje od samostalnog Whispera, njegova je instalacija zamršenija od opetovanog klikanja Dalje u čarobnjaku.

  1. Posjetiti Službena Github stranica Whisper Desktop. Pogledajte s desne strane i ispod kliknite najnoviju verziju Izdanja.
  2. Pod, ispod Imovina, kliknite WhisperDesktop.zip i preuzmite ga na svoje računalo.
  3. Raspakirajte preuzetu arhivu u mapu i upotrijebite upravitelj datoteka da je posjetite. Unutra ćete pronaći aplikaciju Whisper Desktop. Dvaput kliknite na njega da biste ga pokrenuli.
  4. Također vam je potreban jezični model Whisper GCML binarni format. Whisper Desktop će vam pružiti dvije veze za nabavu jedne. Preskočite drugu vezu za generiranje vlastitog modela jer je to kompliciraniji proces. Kliknite na Lice koje grli da otvorite tu stranicu u svom zadanom pregledniku, odakle možete preuzeti datoteku spremnu za korištenje.
  5. Verzija Whisper Desktopa koju smo koristili dok smo pisali ovaj članak pružala je poveznicu na zastarjelo spremište na Hugging Face. Ako naiđete na isti problem, primijetite poveznicu na a nova lokacija. Kliknite na njega da biste posjetili novo spremište.
  6. Kliknite na poveznicu koja će vas odvesti do dostupnih modeli.
  7. Na tom popisu kliknite bilo na ggml-medij.bin ili ggml-medij.en.bin, ovisno o tome želite li višejezičnu ili samo englesku podršku u Whisperu.
  8. Konačno, trebali ste stići na odredište. Obratite pozornost na redak koji navodi da je ova datoteka pohranjena s Git LFS-om i da je prevelika za prikaz, ali je ipak možete preuzeti. Kliknite na preuzimanje datoteka učiniti upravo to.
  9. Kada datoteka završi s preuzimanjem, upotrijebite svoj omiljeni upravitelj datoteka (File Explorer će poslužiti) da premjestite preuzetu datoteku jezičnog modela u istu mapu u kojoj se nalazi Whisper Desktop.

Transkripcija s Whisper Desktop

Transkripcija s Whisper Desktop je jednostavna, ali možda će vam ipak trebati jedan ili dva klika za korištenje aplikacije.

Ponovno pokrenite Whisper Desktop. Nedostaje li (i dalje) ispravan put do vašeg preuzetog jezičnog modela? Klikni na gumb s tri točke s desne strane polja i ručno odaberite datoteku koju ste preuzeli s Hugging Face.

S ovog mjesta također možete koristiti padajući izbornik pored Implementacija modela kako biste odabrali želite li pokrenuti Whisper na vašem GPU-u (GPU), na CPU i GPU (Hibrid), ili samo na CPU (Referenca).

The Napredna vodi do više opcija koje utječu na to kako će Whisper raditi na vašem hardveru. Međutim, budući da gumb jasno kaže da su napredni, predlažemo da ih prilagodite samo ako rješavate probleme ili znate što radite. Postavljanje pogrešnih vrijednosti opcija ovdje može dovesti do smanjenja performansi ili učiniti aplikaciju neupotrebljivom.

Kliknite OK za prelazak na glavno sučelje aplikacije.

Ako već imate snimku svog glasa koju želite pretvoriti u pisani tekst, kliknite na Prijepis datoteke i odaberite ga. Ipak, koristit ćemo Whisper Desktop za transkripciju uživo za ovaj članak.

Ponuđene opcije su jednostavne. Možete odabrati Jezik Whisper će koristiti, odaberite ako želite Prevedi između jezika i omogućite aplikaciju Konzola za otklanjanje pogrešaka.

Većina korisnika koji govore engleski mogu sigurno preskočiti te opcije i samo osigurati da je ispravan audio ulaz odabran iz padajućeg izbornika pored Uređaj za snimanje.

Budi siguran Spremi u tekstualnu datoteku i Dodajte toj datoteci omogućeno je da Whisper Desktop sprema svoj izlaz u datoteku bez prepisivanja njezinog sadržaja. Koristiti gumb s tri točke s desne strane polja putanje datoteke za definiranje navedene tekstualne datoteke.

Kliknite na Uhvatiti za početak transkripcije vašeg govora u tekst.

Whisper Desktop će vam pokazati tri indikatora kada detektira glasovnu aktivnost, kada aktivno transkribira i kada je proces zaustavljen.

Možete nastaviti pričati koliko god želite, a povremeno biste trebali vidjeti prva dva indikatora koja trepću dok aplikacija pretvara vaš glas u tekst. Klik Stop kada je gotovo.

Tekstna datoteka koju ste odabrali trebala bi se otvoriti u vašem zadanom uređivaču teksta, sadržavajući u pisanom obliku sve što ste rekli dok niste kliknuli Stop.

Trebamo napomenuti da možete učiniti i suprotno od onoga što smo vidjeli ovdje: pretvoriti bilo koji tekst u govor. Na ovaj način možete slušati bilo što kao da je podcast umjesto da umarate oči škiljeći u zaslone. Za više informacija o tome pogledajte naš članak o neki od najboljih besplatnih mrežnih alata za preuzimanje teksta u govor kao MP3 zvuka.

Savjeti za pisanje glasom na radnoj površini Whisper

Iako Whisper Desktop može biti spas jer vam omogućuje pisanje glasom mnogo brže nego što možete tipkati, daleko je od savršenog.

Tijekom našeg testiranja otkrili smo da povremeno može zastajkivati, preskakati neke riječi, ne uspijevati transkribirati dok ne ručno zaustaviti i ponovno pokrenuti proces ili zapeti u petlji i nastaviti ponovno transkribirati istu frazu više puta.

Vjerujemo da su to privremeni problemi koji će se popraviti jer samostalni Whisper ne pokazuje iste probleme.

Osim tih manjih neravnina, pretvaranje vašeg glasa u tekst trebalo bi biti jednostavno uz Whisper Desktop. Ipak, tijekom naših testova otkrili smo da može raditi još bolje ako...

  1. Umjesto da izgovorite samo dvije ili tri riječi i zatim zastanete, Whisper vas može bolje razumjeti ako nastavite duže. Pokušajte dati barem cijelu rečenicu odjednom.
  2. Iz istog razloga izbjegavajte opetovano pokretanje i zaustavljanje procesa transkripcije.
  3. Kad god shvatite da ste pogriješili, zanemarite to i nastavite. Čini se da je učitavanje i istovar jezičnog modela dio procesa koji oduzima najviše vremena s trenutnim stanjem Whispera i našeg dostupnog hardvera. Dakle, brže je nastaviti pričati i kasnije ispraviti svoje pogreške.
  4. Kao i kod samostalne verzije Whispera, najbolje je koristiti optimalni jezični model za vaš dostupni hardver. Možete koristiti do srednji model ako vaš GPU ima 8 GB VRAM-a. Za manje VRAM-a, odlučite se za manje modele. Samo birajte malo točnije, ali i puno zahtjevnije velika model ako koristite GPU sa 16 GB VRAM-a ili više.
  5. Imajte na umu da što je veći jezični model, to je proces transkripcije sporiji. Nemojte se odlučiti za model veći od potrebnog. Vjerojatno ćete otkriti da vas Whisper Desktop već može "razumjeti" većinu vremena sa srednjim ili manjim modelima, sa samo jednom ili dvije pogreške po odlomku.

Još uvijek tipkate? Koristite svoj glas uz šapat

Unatoč tome što zahtijeva neko vrijeme za postavljanje, kao što ćete vidjeti kada ga isprobate, Whisper Desktop radi mnogo bolje od većine alternativa, s mnogo većom preciznošću i većom brzinom.

Nakon što je počnete koristiti za tipkanje glasom, vaša tipkovnica može izgledati kao relikt iz davno prošlih vremena.