Kétrétegű PDF készítése szkenneléssel és karakterfelismeréssel

Mire használható a FineReader? Ezzel a szövegfelismerő szoftverrel egy szkenner segítségével bármilyen papír alapú dokumentumot könnyen bevihetünk a számítógépbe. A dokumentum elrendezése, formája megmarad de a szkenner által létrehozott egyszerű kép helyett egy továbbszerkeszthető anyagot kapunk, amit számtalan tetszőleges fájlformátumba menthetünk. A bevitelhez alkalmazhatunk a szkenneren kívül digitális fényképezőgépet vagy akár mobiltelefont is.

A FineReader program egy olyan soknyelvű szövegfelismerő szoftver és PDF fájlkezelő, mely mintegy 186 nyelven képes dokumentumokat elemezni és digitális formába alakítani. A kezelői felületet (a menüket és súgót) 20 különféle nyelvre állíthatjuk be, természetesen magyarra is. Összesen 39 nyelvhez tartozik szótár és helyesírás-ellenőrző is, ami jelentősen javítja a nyelvi pontosságot.

Programindítás, alapvető beállítások

Indítsuk el a programot és kezdjük meg a kiválasztott könyv oldalainak beolvasását. Előtte azonban a sikeres karakterfelismerés eléréséhez szükségünk van néhány alapbeállítás elvégzésére. Szkenneléskor többféle felbontást is beállíthatunk, de a normál karakterfelismeréshez mindenképpen a 300 dpi-t válasszunk. Ezután a színmódot állítsuk be. Optimális esetben a szürkeárnyalatos mód a legmegfelelőbb választás. Ha színes oldalt vagy címlapot is szkennelünk, akkor azt színesben is megtehetjük. A fényerőt beállíthatjuk automatikusra is és kézi beállításra is. A papírméret beállításánál válasszunk olyan méretet, amellyel szkennerünk biztosan elboldogul.

Amennyiben több oldalt is szeretnénk szkennelni, lehetőségünk van arra is, hogy beállítsuk, hogy a program hány másodpercig várakozzon mielőtt újra szkennelni kezd, ezt célszerű úgy beállítanunk, hogy kényelmesen maradjon idő a kézi lapozásra. Ezt a funkciót akkor érdemes használni, ha nagyon sok oldalt szeretnénk beolvastatni és nem akarjuk folyamatosan kézzel indítani az ismétlődő lapolvasást. Amennyiben nem kívánunk élni ezzel a lehetőséggel, akkor vegyük ki a pipát a boxból.

Kezdjük meg a munkát!

A megfelelő beállítások után elkezdhetjük a szkennelést. Szkennerünk és számítógépünk gyorsaságától függően, rövidebb vagy hosszabb ideig is eltarthat ez a folyamat. Amint az első oldal beolvasása megtörtént, az oldalkép megjelenik a program balra eső részén. Ekkor máris folytathatjuk a következő oldal beolvasását. Amennyiben a színes címlap utáni következő oldalak már nem színesek, állítsuk át a színmódot szürkeárnyalatos, vagy fekete-fehér módba, majd csak ezután kezdjük meg a többi oldal szkennelését!

Amikor a baloldali oldalsávon megjelenik az újabb lap schematikus képe, akkor folytathatjuk a következő képoldal beolvasását. Ezt a műveletsort addig kell folytatnunk, amíg a szkennelésre szánt összes oldal beolvasása megtörténik. Ha több oldalt, szkennelünk akkor előfordulhat, hogy a lapoldalak kicsiny képei kifutnak a képernyőnkön, ekkor érdemes nézetet váltanunk. Egerünk jobb gombjával klikkeljünk a kis képre, majd a „Dokumentum ablak nézete” opciónál a „Miniatűrök” nézetet váltsuk át „Részletek”-nézetre! Ekkor a lapoldalak kicsinyített képei számokká változnak, így jobban áttekinthetőek lesznek a beszkennelt dokumentum oldalai. Amennyiben szükséges, így folytassuk az újabb oldalak beolvastatását!

Amikor szertnénk befejezni a szkennelést akkor nyomjuk le a „Beolvasás leállítása” gombot, majd a „Bezárás” gombot. Ekkor a vezérlőablak bezárul és a program befejezi a beolvasást. Ezzel a dokumentum szkennelése befejeződött. Most már a lapoldalak digitálisan rendelkezésünkre állnak. A papírdokumentumot a szkennergépből akár ki is vehetjük.

Képszerkesztés

Láthatjuk, hogy a dokumentum mérete a beállított A/4-es lapméretnél kisebb, ezért a szkenner üvegfelülete is beolvasásra került. Szkennelés előtt ezt a mértet is beállíthatjuk, azonban akkor nagyon ügyelnünk kell arra, hogy a lapozás után pontosan ugyanarra a területre tegyük a könyvet. Ha gyorsabban akarunk haladni, akkor célszerű szkennelés után képszerkesztéssel/vágással korrigálni a beolvasott dokumentum képét.

Nyomjuk meg a képszerkesztés ikonját, majd, nagyítsuk ki képernyő méretre az oldalképet. Ezután megkezdhetjük a körülvágási műveletet. Jelöljük ki a „hasznos” képterületet, azaz azt a részt, amit a képoldalból szeretnénk meghagyni. Pár oldalt előre lapozva, megnézhetjük, hogy melyik méret az, ami a legmegfelelőbb a körülvágáshoz.

Fontos, hogy ne alkalmazzuk az automatikus körülvágást az összes képre, mert a program a kijelölt területet vágja ki, és amennyiben az oldallapok nem azonos területen vannak, akkor hasznos részek leeshetnek. Kezdjük meg a körülvágást egyesével, majd a következő képre lépve igazítsuk meg a vágási sablont, hogy arányos legyen a megmaradó képoldal. A munkafolyamat gyorsításához beállíthatjuk a programban, hogy a képvágás után automatikusan betöltse a rendszer a következő megvágandó képoldalt. Ezután már elegendő a vágási sablonra kétszer ráklikkelnünk, és megtörténik a vágás, majd betölt az újabb oldal, amire újra kétszer klikkelünk… és így tovább, amíg a vágandó dokumentum utolsó oldalával is végzünk.

Karakterfelismerés (OCR)

Amennyiben egy kétrétegű dokumentumot szeretnénk létrehozni, azaz példánkban egy olyan PDF fájlt, ami a szkennelt dokumentum képoldalait és a képek alatt a kereshető szöveget is tartalmazza, akkor a felismerendő oldalakat egymás után jelöljük ki a képi felismerést jelölő piros színű kerettel. Mivel előzőleg a képoldalakat azonos méretben vágtuk meg, így a teljes képoldalt kell kijelölnünk.

Amikor az összes képoldalra ráhúztuk a piros képsablont, akkor visszatérhetünk az első képhez, és megkezdhetjük a felismerendő szövegrészek zöld színű boxonkénti kijelölését. Ha ezzel is végeztünk, akkor „A dokumentum értelmezése” nyomógombot megnyomva választhatunk az aktuális „Oldal értelmezése” és a teljes „Dokumentum értelmezése” funkció közül. A „Beállítások” menü alatt megjelenő „füleken” finomíthatunk az egyes opciók beállítási paraméterein.

Ezután már elkezdhetjük a dokumentum képoldalainak értelmezését. Ekkor a program megkezdi a karakterfelismerést, ami a számítógépünk processzorának sebességétől függően gyorsan vagy lassabban hajtódik végre. A képernyő bal oldali sávjában a felismert oldalak statisztikái jelennek meg. Százalékban láthatjuk a program által feltételezett betűhibákat, valamint az oldalon bizonytalanul felismert karakterek számát, mellette az oldalon lévő valós karakterszámot.

A karakterfelismerés hibajavítása

Ha az első oldalra kattintunk, akkor a bal oldalon megjelenik a szkennelt képoldal. A jobb oldalon pedig a karakterfelismert oldalt láthatjuk. A hibajavításhoz érdemes átméreteznünk a képablakokat. A program által jelzett hibák vagy bizonytalanságok színes kijelöléssel szerepelnek az oldalon. Ez megkönnyíti a hibajavítást, és gyorsabbá is teszi azáltal, hogy nem kell keresgélnünk a dokumentumban a hibás vagy a hibásnak feltételezett karaktereket. Most már nincs más dolgunk, mint a lapoldalakat egymás után végignéznünk és a hibákat javítanunk. Lehetőségünk van a képablakok további átrendezésére is. Lényeges, hogy munkánk során kényelmesen tudjuk a szkennelt és a karakterfelismert oldalak tartalmát összehasonlítani és áttekinteni.

Amennyiben a javítás során a képernyő bal oldali függőleges oszlopában lévő hibás karakterek száma elfogy, valamint a százalékos kimutatás is nullára (0%) csökken, az azt jelenti, hogy azt az oldalt teljesen kijavítottuk.

A karakterfelismert dokumentum mentése

Amikor végeztünk a hibajavítással, akkor nincs már más dolgunk, mint a fájl mentéséhez szükséges beállításokat elvégezni. Többféle kimeneti formátumot is választhatunk. Amennyiben kétrétegű kereshető PDF-et szeretnénk generálni, akkor válasszuk a PDF fülecskét. Ezen belül tartsuk meg az eredeti képméretet, hiszen fontos, hogy a célközönség eredeti méretben olvashassa a dokumentumot. A „Mentési mód”-nál állíthatjuk be, hogy a képoldal nézetének megtartása mellett hogyan kívánjuk a dokumentumban való keresést szolgáló szöveget letárolni. Célszerű a „Szöveg az oldalkép alatt” lehetőséget választani, mert ekkor fog a digitális dokumentum a legjobban hasonlítani az eredeti papírformájúhoz.

Amennyiben jó nyomtatási képet is szeretnénk biztosítani a felhasználóknak, akkor válasszuk ki ezt a lehetőséget. Igaz így a fájlméret a sokszorosára növekedhet, de a jó minőségű nyomtatás kárpótolhat ezért.

A beállítások végeztével jelöljük ki az összes oldalt, majd küldjük a dokumentumot PDF formátumba. Amennyiben beállítottuk, hogy mentés után a lementett fájlt a PDF-olvasónk megnyissa, akkor a munka befejeztével, azonnal ellenőrizhetjük is az eredményt.

Láthatjuk, hogy a dokumentum képe megtartotta az eredeti papírdokumentum formázását. Írjunk be egy kereső kifejezést, és ha sikeres találatot kapunk, akkor jól végeztük el a munkát.
Amennyiben elégedettek vagyunk, mentsük el a dokumentumot egy általunk kiválasztott tetszőleges tárhelyre.


Digitális tartalmak (LSP_DA101G4)
Oktató: Komló Csaba
Készítő: Ambrus Attila József EKTF Digitálisarchívum fejlesztő szak
Dátum: 1. félév (2015. április 27.)

Digitális állampolgári ismeretek (LSP_DA100K3)
Oktató: Kis-Tóth Lajos
Készítő: Ambrus Attila József EKTF Digitálisarchívum fejlesztő szak
Dátum: 1. félév (2015. április 27.)

Advertisements

ambrusa névjegye

Karakterszerzetes vagyok!
Kategória: weboktatás
Címke: , , , ,
Közvetlen link a könyvjelzőhöz.

Vélemény, hozzászólás?

Adatok megadása vagy bejelentkezés valamelyik ikonnal:

WordPress.com Logo

Hozzászólhat a WordPress.com felhasználói fiók használatával. Kilépés / Módosítás )

Twitter kép

Hozzászólhat a Twitter felhasználói fiók használatával. Kilépés / Módosítás )

Facebook kép

Hozzászólhat a Facebook felhasználói fiók használatával. Kilépés / Módosítás )

Google+ kép

Hozzászólhat a Google+ felhasználói fiók használatával. Kilépés / Módosítás )

Kapcsolódás: %s