Ako ste student ili vaš posao uključuje rad s puno slika i PDF-ova, u nekom biste trenutku osjetili potrebu izdvojiti tekst iz slike ili dokumenta.

Srećom, izdvajanje teksta to omogućuje. Postoji nekoliko alata koje možete koristiti za to. gImageReader jedan je od mnogih alata. Besplatan je za korištenje i radi sa slikovnim datotekama i PDF dokumentima.

Uronimo u gImageReader kako bismo detaljno provjerili i vidjeli kako ga možete koristiti za izdvajanje teksta iz slika i PDF-ova.

Što je gImageReader?

gImageReader je aplikacija koja vam omogućuje izdvajanje teksta iz slika i PDF-ova na Linuxu. To je u biti GUI ili front-end za Tesseract OCR mehanizam, an otvoreni izvor motor koji je razvio Hewlett-Packard i koji se smatra jednim od najboljih dostupnih OCR motora.

Pomoću gImageReadera možete jednostavno i vrlo precizno izdvojiti tekst iz slika ili PDF dokumenata uz nekoliko jednostavnih klikova. Zatim možete izvesti izdvojeni tekst u tekstualnu ili PDF datoteku za daljnju upotrebu.

Značajke programa gImageReader

instagram viewer

gImageReader sadrži sljedeće značajke:

  • Uvoz PDF dokumenata i slika iz različitih izvora (disk, uređaji za skeniranje, međuspremnik i snimka zaslona)
  • Skupna obrada slika ili dokumenata, tj. izdvajanje teksta iz više slika ili dokumenata odjednom
  • Prepoznajte tekstualne isječke kao običan tekst ili hOCR dokumente
  • Ugrađena provjera pravopisa
  • Automatsko otkrivanje područja teksta
  • Osnovno uređivanje slika/dokumenata
  • Spremi izlaz kao tekstualnu datoteku

Kako instalirati gImageReader na Linux

gImageReader dostupan je na većina glavnih distribucija Linuxa. Ali prije nego što nastavite s njegovom instalacijom, trebate instalirati Tesseract OCR mehanizam na svoj sustav.

Da biste to učinili, otvorite Upravitelj softvera na vašem sustavu i potražite teserakt. Kada vrati popis rezultata, instalirajte teserakt-okr i tesseract-ocr-eng paketi. Također možete koristiti upravitelje paketa naredbenog retka za instaliranje paketa ako vam više odgovara terminal.

Nakon toga pogledajte upute za instalaciju u sljedećim odjeljcima da biste instalirali gImageReader na svoje računalo.

Ako ste na Debianu ili Ubuntuu, otvorite terminal i pokrenite donje naredbe da instalirate gImageReader:

sudo add-apt-repository ppa: sandromani/gimagereader
sudo apt-dobiti Ažuriraj
sudo apt instalirati gimagereader

Na Fedora, CentOS ili Red Hat Enterprise Linux (RHEL):

sudo dnf instalirati gimagereader-qt 

Na Arch Linux ili Manjaro:

sudo pacman -S gimagereader

openSUSE korisnici mogu instalirati gImageReader koristeći:

sudo zypper instalirati gimagereader

U slučaju da koristite bilo koju drugu distribuciju Linuxa, gImageReader možete izgraditi iz izvora slijedeći upute na gImageReaderov GitHub.

Kako koristiti gImageReader na Linuxu

gImageReader je prilično jednostavan za korištenje i radi sa svim vrstama slikovnih datoteka kao i PDF dokumenata. Slijedite donje upute za izdvajanje teksta iz slika ili PDF-ova na Linuxu.

Otvorite izbornik aplikacija, potražite gImageReader, i pokrenite aplikaciju. Udari Maksimiziraj u prozoru gImageReader da biste ga otvorili u prikazu preko cijelog zaslona.

Sada kliknite na Dodajte slike na lijevom oknu ispod alatne trake i upotrijebite preglednik datoteka da odaberete sliku(e) ili PDF(ove) iz kojih želite izdvojiti tekst.

Klik U redu za uvoz slike(a) ili PDF(ova) u gImageReader. Ili, ako želite izvući tekst iz onoga što je prikazano na zaslonu, kliknite na padajući izbornik pored Dodajte slike gumb i odaberite Slikaj zaslon. gImageReader će napraviti snimku zaslona sadržaja zaslona.

Nakon što dodate sliku u gImageReader, kliknite Uključi/isključi izlazno okno gumb (jedan s ikonom bilježnice) za prikaz izlaznog okna. Ovdje se pojavljuje tekst koji izdvajate iz slika ili PDF-ova.

Ovisno o tome kako želite nastaviti, sada imate opciju da identificirate tekst na slici ili PDF-u automatski ili ručno. Da biste to učinili automatski, kliknite na Automatsko otkrivanje izgleda i označit će sve tekstualne blokove u odabranoj slici ili PDF dokumentu.

Nakon ovoga dodirnite Prepoznaj odabir > Trenutna stranica za početak procesa izdvajanja teksta.

Alternativno, da biste ručno odabrali tekst, zadržite pokazivač iznad teksta koji želite izdvojiti i koristeći križić nacrtajte okvir oko područja iz kojeg želite izdvojiti tekst. Zatim pritisnite Prepoznajte odabir gumb za nastavak.

Ako se radi o PDF dokumentu i želite izdvojiti tekst s različitih stranica, dodirnite Plus (+) za okretanje stranica.

Za povratak pritisnite Minus (-) dugme. Zatim odaberite tekst koji želite izdvojiti i pritisnite Prepoznajte odabir gumb za izdvajanje.

Iako rijetko, gImageReader može vratiti izdvojeni tekst na jeziku koji nije engleski. Kada se to dogodi, jednostavno dodirnite padajući gumb pokraj Prepoznajte odabir i odaberite jednu od engleskih opcija.

Na kraju, da biste spremili izdvojeni tekst, kliknite na Spremi izlaz dugme. Ovo će dovesti do prozora Spremi. Evo, dajte ime datoteci i pritisnite U redu.

Što još možete učiniti s gImageReaderom?

Kao što je ranije spomenuto, gImageReader vam također daje mogućnost izmjene određenih aspekata uvezenih slika ili dokumenata, poput njihove svjetline, kontrasta i rezolucije. Osim toga, možete također obrnuti boje ili rotirati slike ili dokumente, ako je potrebno.

Većina ovih opcija može se pokazati korisnom kada tekst na slici ili dokumentu nije čitljiv gImageReaderu i stoga sprječava alat da prepozna tekst.

Za pristup bilo kojoj od ovih opcija uređivanja, kliknite Kontrole slike i otkrit će mini alatnu traku ispod glavne alatne trake. Odavde odaberite odgovarajuće gumbe za izvođenje željene operacije uređivanja slike ili dokumenta.

Izdvajanje teksta na Linuxu postalo je jednostavno uz gImageReader

Ekstrakcija teksta često zahtijeva pravi alat: onaj koji koristi pouzdan i točan OCR mehanizam koji omogućuje učinkovito prepoznavanje teksta na slici ili dokumentu, tako da ga možete učinkovito izdvojiti bez ikakvog svađa.

gImageReader to lijepo postiže, zahvaljujući Tesseract OCR mehanizmu koji koristi u pozadini. S obzirom na jednostavnost upotrebe, gImageReader je nedvojbeno jedan od najboljih alata za izdvajanje teksta dostupnih za Linux.

Alternativno, ako tražite jednostavnije rješenje, možete provjeriti TextSnatcher, koji je brz i prilično jednostavan za korištenje.