Čitatelji poput vas podržavaju MUO. Kada kupite putem poveznica na našoj stranici, možemo zaraditi partnersku proviziju. Čitaj više.

OpenAI's Whisper je novo rješenje koje pokreće AI koje može pretvoriti vaš glas u tekst. Najbolje od svega, dolazi bez troškova.

Međutim, postoji jedna caka: zahtjevnije ga je instalirati i koristiti od prosječnog uslužnog programa za Windows. Pogotovo ako želite koristiti Nvidia GPU Tensor Cores kako biste ga lijepo pojačali.

Ipak, nemojte se uzrujavati. Zato smo ovdje! Čitajte dalje kako biste saznali kako ga instalirati i koristiti, ali također, ako ga posjedujete, kako bi Whisper mogao iskoristiti prednosti vašeg Nvidia GPU-a.

Što je OpenAI's Whisper?

ChatGPT je danas u modi, a već smo vidjeli kako možete koristiti ChatGPT by OpenAI. Pa ipak, to nije jedini zanimljiv projekt OpenAI-ja.

Pokretan dubokim učenjem i neuronskim mrežama, Whisper je sustav za obradu prirodnog jezika koji može "razumjeti" govor i prepisati ga u tekst. Ali to je i posebna stvar, nalazi se na mjestu među svim sličnim rješenjima:

instagram viewer
  • Whisper je AI rješenje "uvježbano" na prirodnom jeziku. Dakle, bolji je u razumijevanju "normalnog" ljudskog govora od starijih rješenja.
  • Whisper ne dolazi sa sučeljem, niti može snimati zvuk. Može uzeti samo postojeće audio datoteke i izlazne tekstualne datoteke.
  • Budući da je dobar u "davanju smisla jeziku", Whisper također ima supermoć automatskog prevođenja u jednom koraku.
  • Whisper nije mrežna usluga i može raditi u potpunosti izvan mreže.
  • Ako imate relativno moderan Nvidia GPU (GTX970 ili noviji), Whisper može raditi u "hardverski ubrzanom načinu" kako bi povećao svoju brzinu.
  • Nema zahtjeva za registraciju, kupnju licence ili kupnju pretplate.

Zašto AMD GPU-i nisu podržani?

Da bi GPU bili korisni za više od grafike, morali bi djelovati kao potpuno programabilni procesori. Zato je Nvidia stvorila CUDA, službeno nazvana "paralelna računalna platforma i model programiranja". Kako biste saznali više o CUDA-i i povezanom hardveru ("CUDA jezgre"), pročitajte naš članak o što su CUDA jezgre i kako poboljšavaju PC igranje.

CUDA je Nvidia vlasnička tehnologija, kompatibilna samo s Nvidia GPU-ima. Najbliže alternative za AMD-ov hardver su OpenCL i Radeon Compute Platform. Kako biste saznali više o usporedbi rješenja svake tvrtke, pogledajte naš članak o AMD računalne jedinice vs. Nvidia CUDA jezgre.

U usporedbi s alternativama, CUDA se smatra zrelijom, učinkovitijom i lakšom za korištenje. Stoga većina programera cilja samo na CUDA-u, što zauzvrat znači da njihov softver iskorištava samo prednosti hardverskih značajki Nvidia GPU-a. A to uključuje i Whisper.

Kako preuzeti i instalirati Whisper

Nažalost, Whisper nije samostalna aplikacija koju možete preuzeti, instalirati i pokrenuti. Oslanja se na drugi softver, koji također mora biti instaliran.

Za Windows, kako bi ovaj vodič bio jednostavan, uvelike ćemo koristiti Chocolatey za instaliranje većine potrebnih softverskih dijelova. Provjerite naš vodič najbrži način instaliranja Windows softvera za više informacija o Chocolatey.

Za Linux i Mac računala, proces instalacije (isključujući Windows varijablu staze i paketne datoteke jednostavne za korištenje koje ćemo izraditi) trebao bi biti sličan.

  1. Da biste instalirali i koristili Whisper, morate imati Piton I je PIP alat instaliran i dodan Windows varijabli "Path". Za informacije o tome pogledajte naš članak o kako instalirati Python PIP na Windows, Mac i Linux.
  2. Instalirati FFMPEG kroz Chocolatey ovom naredbom:
    čoko instalirati ffmpeg
    Također, instalirajte njegovu Python verziju s:
    pip3 instalirati python-ffmpeg
  3. Na kraju, instalirajte Whisper s njegove Github stranice s:
    pip3 instalacija git+https://github.com/openai/whisper.git

Dobivanje Whisperove verzije s omogućenom CUDA tehnologijom

Iako Whisper ne koristi Nvidia GPU, baklja paket na koji se oslanja nudi CUDA-ubrzanu verziju. Korištenje ove umjesto "obične" verzije može pomoći Whisperu da puno brže dovrši svoje transkripcije uz pomoć vašeg Nvidia GPU-a.

Kako bi Whisper koristio CUDA jezgre vašeg Nvidia GPU-a:

  1. Ako već imate instaliranu "vanilla" verziju baklje, deinstalirajte je i očistite ostatke s:
    pip3 deinstalirati baklja
    Nakon što je gotovo, nastavite s:
    pip predmemorijačistiti
  2. Instalirajte torch-ovu verziju omogućenu za CUDA s:
    pip3 instalirati baklja torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
  3. Da provjerite može li Whisper koristiti vaš Nvidia GPU, upotrijebite:
    šapat --pomoć | pronaćistr -i pytorch
    Trebao bi vidjeti (zadano: cuda) umjesto (zadano: procesor).

Što učiniti ako se Torch ne uspije instalirati

Ako tijekom instaliranja torcha naiđete na pogrešku "no version found", možda ćete morati instalirati stariju verziju Pythona paralelno s vašom trenutnom.

Za to koristite ovu naredbu:

čoko instalirati piton --verzija STARIJA_VERZIJA --jedan pored drugog

Zamijenite "OLDER_VERSION" verzijom, poput 3.10.

Zatim upotrijebite putanju sekundarne verzije za sve "generičke" Whisper naredbe (npr. "c:\Python310\Scripts\pip.exe" umjesto samo "pip").

Kako snimiti svoj glas

Možete koristiti bilo koju aplikaciju za snimanje zvuka da svoj glas pretvorite u WAV ili MP3 datoteku. Windows uključuje takvu aplikaciju—za više informacija o tome pogledajte kako koristiti Windows 10 aplikaciju Snimač glasa.

Za opciju s više značajki, pokušajte Smjelost. Naučite kako to učiniti pomoću našeg vodiča na kako koristiti Audacity za snimanje zvuka na Windows i Mac.

Kako započeti transkribiranje s Whisperom

Iako Whisper ne dolazi s korisničkim korisničkim sučeljem, njegova je uporaba iznimno jednostavna.

Recimo da imamo datoteku LatestNote.mp3 koji sadrži govor na grčkom, u fasciklu c:\MyAudioFiles, i želite ga prevesti na engleski i prepisati u tekstualnu datoteku.

  1. Počinjemo trčanjem Naredbeni redak ili PowerShell.
  2. Ovom naredbom "mijenjamo direktorij" u kojem je pohranjena audio datoteka:
    CD C:\MyAudioFiles
  3. Oslobađamo Whisper na datoteci pomoću:
    šapat--modelbaza--Jezikgr--zadatakPrevediLatestNote.mp3

Nakon obrade, tekstualna datoteka (nazvana "LatestNote.mp3.txt") pojavit će se u istoj mapi. Otvorite ga u uređivaču teksta poput Bilježnica za pregled prevedenog teksta.

Koristili smo primjer prijevoda jer je engleska transkripcija još jednostavnija: morate samo "izgubiti" zastavice "--language" i "-task". Dakle, za običnu transkripciju, gornja naredba bi bila:

šapat--modelbazaLatestNote.mp3

Oznaka "model" je potrebna jer Whisper koristi jednu od raznih opcija. Proširimo ih kako bismo vam pomogli da odaberete najbolje za svoje potrebe.

Koji model odabrati?

Whisper nudi različite jezične modele. Što je veći model, to je veća njegova točnost, ali i veći hardverski zahtjevi. Oni su:

  1. Sitan.
  2. Baza.
  3. Mali.
  4. Srednji.
  5. velika.

Većina govornika engleskog jezika trebala bi se dobro snalaziti sitan ili baza modeli. Govornici engleskog jezika kojima engleski nije izvorni mogu postići bolje rezultate s većim modelima, npr mali i srednji.

Imajte na umu da srednji i veliki modeli zahtijevaju više od 8 GB VRAM-a (to jest, "memorija vašeg GPU-a").

Da biste odabrali jedan od njih, navedite model nakon prekidača "--model" u naredbi:

šapat --model mali/mali/srednji/veliki [datoteka]

Na primjer:

šapat--modelmaliMoja_glasovna_bilješka.mp3

Kako pojednostaviti svoju transkripciju

Morate utipkati cijelu naredbu Whisper svaki put kada želite transkribirati audio zapis, što vam brzo može dosaditi. Napravimo globalno dostupnu batch datoteku kako bismo pojednostavili proces.

  1. Trčanje Windows Explorer i posjetite svoj pogon C:.
  2. Napravite mapu za svoje skripte i kopirajte njezinu putanju u međuspremnik.
  3. U izborniku Start sustava Windows potražite "put" i odaberite Uredite varijable okoline sustava.
  4. Naći Staza varijabla pod Korisničke varijable za YOUR_USERNAME. Dvaput kliknite na njega da biste ga uredili. Kliknite na Novii zalijepite put do svoje mape skripti. Kliknite na u redu prihvatiti promjene.
  5. Vratite se u svoju mapu skripti u Windows Exploreru. Tamo stvorite novu batch datoteku pod nazivom "wht.bat". "Unutar" njega postavite ovu naredbu:
    šapat --model tiny --language hr %1
  6. Napravite još dvije skupne datoteke, "whs" i "whm".
  7. Stavite ovo unutar prve skripte:
    šapat --model small --language hr %1
  8. Stavite ovo unutar drugog:
    šapat --model medium --language hr %1

Čestitamo, sada imate tri skripte za jednostavno korištenje Whisperovih malih, malih i srednjih modela sa svojim audio datotekama! Za transkripciju bilo koje audio datoteke u tekst:

  1. Pronađite datoteku s Windows File Explorer.
  2. Desni klik na prazno mjesto i izaberite Otvorite u terminalu.
  3. Upišite ovu naredbu, zamjenjujući "wht" s "whs" ili "whm" za korištenje malih ili srednjih jezičnih modela:
    štoVAŠA_AUDIO_DATOTEKA.mp3

Tipkanje brzinom zvuka uz šapat

Čak ni najbrži tipkači na dodir ne mogu se mjeriti s brzinom kojom govorimo. Međutim, donedavno razgovor umjesto tipkanja nije bio optimalan za izradu dokumenata.

Većina rješenja za pretvaranje glasa u tekst dala je osrednje rezultate. Mogli ste pronaći nekoliko rješenja koja vrijedi isprobati, ali bila su komplicirana za korištenje ili skupa. Srećom, Whisper je sve to promijenio.

Nakon gornjih koraka, trebali biste biti spremni transkribirati ili prevesti svoj glas s visokom točnošću, koristeći samo jednu naredbu.