Kétrétegű PDF készítése szerkesztéssel és karakterfelismeréssel

Olvasási idő: 5 perc

Utoljára frissítve: 2023. 11. 23.

A PTE Egyetemi Könyvtár és Tudásközpont DIGITÁLIA elnevezésű elektronikus univerzuma jelenleg már több ezer dokumentummal, több, mint félmillió lapoldallal szolgálja ki a kutatókat, oktatókat, hallgatókat és az érdeklődő felhasználókat. Tudnunk kell azonban, hogy ezek a dokumentumok nem maguktól állnak elő a rendszerben. Minden, a felületre feltett folyóiratszám vagy könyv mögött emberek: könyvtárosok, esetleg önkéntesek munkája található. A szkennelés monoton feladata, a szkennelt képoldalak méretezése, tisztítása, egyenesítése, vágása mellett célunk a kereshető szöveg kinyerése is. Maga a felület programfejlesztése is folyamatosan halad, köszönhetően a programozó informatikus kollégának. Ha minden zökkenőmentesen működik, akkor az a felhasználóknak általában természetes dolog, viszont nem minden felhasználó van tisztában azzal, hogy hogyan is zajlik egy digitalizálási folyamat, mi is történik, amíg a papírból elektronikusan olvasható dokumentum születik. Blogbejegyzésünkben nekik szeretnénk bemutatni a szkennelést követő folyamatot.

Iratkozz fel a youtube csatornára: https://goo.gl/2VeV1z

A videóban elhangzó narrációs szöveg leirata

Ebben a rövid videóban azt mutatjuk be, hogy az Abbyy FineReader 12. program segítségével hogyan tudjuk a dupla oldalasan szkennelt könyvoldalakat szétvágni, kiegyenesíteni, azonos méretre hozni, karakterfelismertetni, majd kétrétegű, kereshető PDF-be menteni. A videóban nem célunk a program használatának teljeskörű bemutatása. Azért sem térünk ki erre, hiszen a gyártó folyamatosan fejleszti szoftverét, ami jelenleg már a 15-ös verziónál tart. Nekünk hivatalosan csak a 12-es verzió van a gépünkön, ezért ezzel készítettük el ezt a videót. Alapvető tájékoztatási célunknak viszont ez is tökéletesen megfelel.

Elsőként nyissuk meg az átalakítandó képoldalakat, tallózzuk be a programmal. A képoldalak láttán sejthető, hogy a duplaoldalas szkennelés vagy egy asztali lapszkennerrel vagy egy szkennelési funkcióval ellátott fénymásolóval történt.

A szerkesztési munka elkezdéséhez lépjünk a szerkesztőfelületre a „Képszerkesztés” nevű linkre való kattintással! Ekkor megjelenik egy baloldali függőleges funkciósor a képernyőnkön. Látható, hogy sok szerkesztési funkció áll rendelkezésre a programban. Nekünk viszont a mostani munkánkhoz csak a „Kiegyenesítés”, a „Felosztás”, a „Körülvágás”, a „Fényerő és kontraszt”, a „Szintek” és esetleg a „Radír” funkcióra lesz szükségünk.

Elsőként a „Felosztás”-sal célszerű kezdeni az érdemi munkát. Válasszuk ki ezt a funkciót! Jelöljük ki egerünkkel és a kék színű vonallal, hogy hol szeretnénk a szkennelt képoldalt kettévágni! A program be is sorszámozza a képoldalon számunkra, hogy a felosztás után melyik lesz az egyik képoldal és melyik lesz a másik képoldal. Ha a kijelölésnél beállítottuk, hogy a végrehajtás csak a jelenlegi képoldalra legyen érvényes, akkor kattintsunk a „Soronkénti felosztás” nyomógombra! Ekkor a szerkesztési parancs végrehajtódik, és az eredetileg beolvasott két képoldal helyett máris látható, hogy egy újabb is keletkezett. Ismételjük meg a felosztást a következő dupla oldalas képoldalon is! Ha végeztünk az összes dupla oldalas képoldal felosztásával, akkor az eredetileg megnyitott oldalak duplája található már a jobb oldali függőleges sávban. Ezzel be is fejeztük a képoldalak szétvágását. Most már minden képoldal különálló oldalként jelenik meg a szerkesztőben.

A jobb oldali sávban valamelyik képoldalra a jobb egérgombbal való kattintáskor megjelenik egy újabb box, amiben további lehetőségek is rendelkezésre állnak. Itt többek között elforgathatjuk az adott képoldalt, törölhetjük azt, vagy átrendezhetjük, azaz a képoldal sorszámát megváltoztatva a dokumentumban elmozgathatjuk, kicserélhetjük az adott képoldal sorrendjét.

További, ajánlott videó: Szkennelés irodai környezetben

A duplaoldalas szkennelésnél – főleg, ha a szkennelő üveglapra nem megfelelően nyomták rá a könyvoldalakat –, gyakran előfordul, hogy ferdék lesznek az egyes képoldalak. Ezeket mindig a képoldalak felosztása után tudjuk kiegyenesíteni a „Kiegyenesítés” funkcióval. Példánkban az összes oldalt szeretnénk automatikusan kiegyenesíteni, ezért a kijelölési tartományt állítsuk át a „Jelenlegi oldal”-ról a „Minden oldal”-ra, így minden oldalra egyetlen gombnyomással ráküldhetjük a kiegyenesítési parancsot. Amikor végzett a program a kiegyenesítéssel, látható, hogy a képoldalon a program a könyvoldal betűsorait vette alapul, és a betűsorok kiegyenesedtek. A képoldal azonban a kiegyenesítés során természetesen elfordult, ezért a képoldal szélein egy szürke sáv jelent meg.

Ennek a szürke sávnak az eltüntetésére két lehetőségünk van. Az első esetben a „Radír” funkcióval próbálkozhatunk. Ekkor az egerünkkel jelöljük ki azt a területet, amit szeretnénk színkorrekcióval átfesteni. Ez esetben a program megpróbálja a kijelölt részen a képoldalon található színnel kitölteni a szürke zónát. Ez általában nem hoz tökéletes eredményt.

A másik, hatékonyabb lehetőség a képoldal körülvágása. Ezzel nemcsak a kiegyenesítésből adódó szürke zónát tudjuk eltávolítani, hanem magának a képoldalnak a méretét is tudjuk csökkenteni, ráadásul az azonos pixelméretű keretek segítségével a teljes dokumentum összes képoldalát azonos méretűre tudjuk hozni. A hasznos képoldal méretének csökkentése a végeredmény szempontjából is fontos, ugyanis a szükségtelenül nagy margók levágásával a végső PDF mérete is csökken, ráadásul a képoldalak azonos mérete okán a PDF olvasásakor, lapozásakor a képoldalak nem fognak ugrálni, csúszkálni az olvasó szeme előtt, ami az olvasás konfortérzetét is növeli.

A szkenneléskor valószínűleg a könyv lapjai nem érintkeztek elég nagy nyomással az üvegfelülettel, ezért sötét foltok keletkeztek a képoldalon, de az is elképzelhető, hogy maga a papír volt eredetileg elszíneződve. Ezen is korrigálhatunk némileg, hogy a későbbi olvasást segítsük ezzel. Erre igénybe vehetjük a „Fényerő és kontraszt” funkció csúszkáit, ahol ízlésünknek megfelelően állíthatjuk a paramétereket. Érdemes próbálkoznunk a beállítások kombinálásával. Jó segítséget jelenthet a „Szintek” funkció is, amivel általában a homályosabb részleteket tudjuk felerősíteni. A túlzott használata viszont kerülendő, mert a papírlapon a betűk erős beégéséhez, pixelesedéséhez is vezethet, ami később az olvasást nagyon megnehezíti, fárasztja a szemet.

Amikor végeztünk a képoldalak megszerkesztésével, akkor az utolsó előtti lépés az optikai szövegfelismerés, más néven OCR-ezés (Optical Character Recognition). Ez teszi lehetővé a képek, a szkennelt vagy digitálisan fotózott dokumentumok és a PDF fájlok szerkeszthető és szövegesen kereshető formába átalakítását. Az így kapott dokumentum szerkeszthető, kivágható, kereshető és archiválható a későbbiekben.

Ehhez válasszuk ki a felismertetendő szöveg nyelvét, ami a példánkban egy magyar nyelvű szöveget jelent. Ezután nyomjuk meg egerünkkel az „Értelmezés” nyomógombot! Ekkor lefut a képoldalakon a felismertetési parancs, majd az eredmény hamarosan meg is jelenik a baloldali sávban. Nagy tömegű szkennelés során általában nincs arra erőforrás, hogy a szövegben elvétett hibákat kézzel javítsuk, de ha van erre energiánk, akkor érdemes a javítást elvégezni, hiszen a szöveg tisztításával a későbbiekben a dokumentumban való szavak keresése sokkal pontosabbá válik.

További, ajánlott videó: Kétrétegű PDF készítése szkenneléssel és karakterfelismeréssel

A felismert szöveget összehasonlítva a képoldalon található szöveggel, láthatjuk, hogy a program a bizonytalan, de jó felismeréseket is hibásnak jelöli. Ha ezeket figyelembe vesszük, akkor egy modern kiadású, szépen, gondosan szkennelt képoldalon a hibák száma szinte elenyésző. Ráadásul a fejlesztők minden további programkiadásnál már egyre jobb paraméterekkel rendelkező szoftvert adnak a kezünkbe, ez is oka annak, hogy a legtöbb szkennelő műhelyben eltekintenek a felismert szöveg kézi javításától.

A legutolsó, de fontos lépés a dokumentum mentése. A „Mentés” nyomógomb megnyomása után a legördülő menüben több mentési formátumot is beállíthatunk. A TXT kiválasztásakor végeredményként magát a szöveget tudjuk menteni. Erre akkor lehet szükség, ha a dokumentumból csak a szövegre van szükségünk, amit később szövegszerkesztőben tudunk továbbszerkeszteni, vagy e-könyves formátumot szeretnénk a szövegből készíteni.

Az online térben az egyik leggyakoribb formátum a kétrétegű PDF. Ez azért kedvelt formátum, mert az ilyen dokumentumok az eredeti kiadvány tördelési és képillusztrációs formáját is hűen visszaadják, ráadásul a dokumentum szövege kereshető.

A munkánk mentésekor beállíthatjuk, hogy a lementendő dokumentum egy PDF-be mentődjön, vagy oldalankénti PDF-be. A dokumentum egyben tartása miatt célszerű az „Egyetlen fájl létrehozása az összes oldalhoz” opciót kiválasztanunk. A végeredmény optimalizálásához szükségünk lehet a „Formázási beállítások”-ra is. Itt tudjuk finomhangolni a lementésre kerülő PDF formáját. A kétrétegű PDF-hez a mentési módnál a „Szöveg az oldalkép alatt” opciót válasszuk ki! Amennyiben kisebb fájlméretet szeretnénk kapni végeredményül, akkor használhatjuk a képtömörítés funkciót is, ekkor a program a mentéskor megpróbálja a képoldalakat tömöríteni. Ez jelentős méretcsökkenéshez vezet, de ne felejtsük el, hogy a méretcsökkenés csak úgy érhető el, hogy romlik a minőség is, ezért fontos az olvasó fejével, szemével gondolkoznunk, hiszen nem biztos, hogy érdemes a méretcsökkentést választanunk az olvashatóság rovására.

Videónk lezárásaként nézzük meg a kapott végeredményt! A lementett PDF fájlt nyissuk meg egy PDF olvasóval! Ha végigpörgetjük az oldalakat, akkor láthatjuk, hogy a képoldalak azonos méretűek. Ha a margókat elég szűkre szabtuk, akkor nemcsak asztali számítógépen, hanem tableten is olvasható minőséget kaptunk. A kétrétegűség miatt, ha az egérrel a szövegbe kattintunk, akkor azt szabadon kijelölhetjük, másolhatjuk. A szövegben tetszőleges karaktersorra, szavakra is sikeresen rákereshetünk. Példánkban az „Olaszország” szóra rákeresve a PDF-olvasó program azonnal jelzi is, hogy a teljes dokumentumban ez a keresett kifejezés háromszor szerepel.

Reméljük, hogy ez a videónk azoknak a felhasználóknak bizonyult hasznosnak, akik napi szinten használnak, olvasnak kétrétegű PDF fájlokat, elektronikus kiadványokat, de eddig mélyebben nem ismerték azok előállítási folyamatát.