Skenování a zpracovní textů

11. 6. 2008

Skenování textů – profesionálně a po domacku

Skenovat a rozpoznávat texty zvládne každý – i nevidomý, buď nejjednodušeji v nějakém speciálním prostředí jako jsou (za názvem programu je uvedena dodávající – vývojářská – firma)

Asistent – FineScan apod. – ACE Design
ViewDio – Spektra – vhodné hlavně pro slabozraké, AFR 7
WinMenu – Galop – AFR 4
Cicero – Dolphin – Adaptech nebo Spektra

nebo je možné, aby s jistými omezeními nevidomý používal přímo Abbyy FineReader. Toto je složitější prostředí, má více možností a cena je přitom několikanásobně nižší ve srovnání se speciálními prostředími.

Jak se liší výsledek skenování nevidomými a profesionální digitalizace například ve vysokoškolských centrech podpory studia zrakově postižených

Nevidomý může naskenovat knihu při dodržení určitých pravidel, která zlepší výsledek, může ji zčásti opravit, takto pracují na textech nevidomí v rámci sdružení Integrace, ale pokud se jedná o odborné texty, je lépe svěřit naskenování a zvláště opravu chyb odborným pracovištím. Zvláště to je důležité u exaktnější literatury, jako je matematika, fyzika, informatika, ale mnohdy i jazyky – prostě u textů, kde záleží na každém písmenku. U těch upovídanějších humanitních oborů jako je dějepis, politologie nebo beletrie apod. je možné se spolehnout na své síly. Nicméně chcete-li mít spolehlivý materiál ke studiu, doporučuji i u těchto oborů využít služeb digitalizace.

V čem je problém:

především – nikdy není rozpoznání úplně bez chyb
v odborných textech se vyskytuje různý poznámkový a grafický materiál. poznámky pod čarou, vysvětlivky, odkazy na literaturu, obsah, rejstřík, z grafiky, kterou lze popsat to jsou obrázky, schématické obrázky, grafy, tabulky a tak dále a tak dále.
ne všechny tyto objekty umí Abbyy FineReader dobře rozpoznat při rozpoznávání rozlišuje zóny:
- text
- tabulka
- grafika
- čárový kód

Tyto zóny je někdy nutné upravit, zvolit správný typ zóny, znovu nechat rozpoznat.

Týká se to hlavně tabulek, které někdy nejsou buď vůbec nebo chybně detekovány, a textů v obrázcích, které nazónuje jako běžné texty a snaží se je rozpoznat.

V dalším textu Vás chci upozornjit na různá úskalí při digitalizaci textu. Až po té, co jsem text dopsal, jsem se setkal s kolegou z našeho sesterského centra Teiresias, který mi doporučil k přečtení jimi velmi pečlivě zpracovanou metodiku digitalizace zejméně odborné literatury (v pdf, případně v txt). Svůj původní text zde zatím ponechám, ale považujte ho za minimum oproti metodice zpracování textu podle Teiresias.

Záhlaví a zápatí – čísla stránek

Důležité je zkontrolovat a dát správné pořadí zónám na stránce. Je možné při tomto vynechávat časté záhlaví či zápatí stránek buď se stále se opakujícím názvem díla nebo kapitoly nebo i čísly stránek. Tyto informace totiž mohou nevidomého při plynulém čtení – studiu textu – rušit. Je to na domluvě a žádná norma zatím neexistuje.

Čísla stránek jsou však v odborném textu důležitá – pro citace. Je možné třeba zvolit způsob, že k číslu stránky je přidán vždy text končí strana x nebo začíná strana y. U některých knih jsou čísla stránek v záhlaví – v horním okraji, u jiných klasicky v dolním okraji neboli v zápatí. Na číslování stránek se také odvolává obsah, pokud nevytvoříme pomocí stylů nadpisů jednotlivých kapitol a podkapitol vlastní obsah, což je myslím vůbec nejlepší řešení – výsledný text pak může být buď ve Wordu nebo v html podobě. Ale příliš běžná praxe to vzhledem k pracnosti není. Většinou se dodávají elektronické knihy v txt podobě a na tu jsou také nevidomí zvyklí a často ji dávají přednost, protože se jim s ní nejlépe pracuje.

Poznámkový aparát

Důvodem oblíbenosti txt je i často to, že neznají práci s Wordem tak dokonale, aby mohli využít obsahu, poznámek pod čarou, vysvětlivek na konci kapitol apod. Na druhou stranu právě v těchto případech je navigace obtížnější. Tento doplňkový aparát (poznámky, vysvětlivky, citace) je možné přitom vydělit z vlastního dokumentu (i textového) a vložit ho do samostatného souboru, což si myslím, že je nejvhodnější. Zatím se to však příliš v praxi také neuplatňuje a to zčásti i z nezájmu studentů.

Obsah i rejstřík je možné velmi dobře vygenerovat ve Wordu, pokud nadpisům nastavíme příslušné styly a dáme si práci s vyhledáním klíčových slov, na které odkazujev papírové knižní podobě rejstřík. Z názvů kapitol nebo hesel rejstříku se pak stanou odkazy, na které je možné běžně kliknout a to i speciálními softwary – screen readery.

Tabulky

Pro mnohé nevidomé poměrně zapeklitá věc pro orientaci a prohlížení a tedy studium.

Pokud to je možné, nahrazujme tabulky popisem nebo vykopírováním řádků tabulky do normálního textu. U složitějších tabulek to možné samozřejmě není.

Téměř navigačně nepřehledné jsou tabulky, respektive záhlaví tabulek (nadpisy sloupců, eventuelně řádků) v tabulkách, kde jsou některé buňky sloučeny, děleny …

Dobré je také před tabulkou upozornit, kolik tabulka obsahuje sloupců a řádek. Mnohé screen readery (JAWS) při zapnuté této funkci to mohou říkat za nás a tak to možná nevidomý uslyší i dvakrát – lépe dvakrát než ani jednou a potýkat se s navigací v tabulce.

Obrázky

U obrázků je situace složitější: je nutné zvážit, do jaké míry jsou informace v obrázku, v grafice relevantní k obsahu, jakou mají vypovídající hodnotu. Může totiž jít jen o ilustrační foto. Ale také může jít o důležité informace obsažené v grafu. Zde je popis hodnot relativně dost jednoduchý – prostě je opíšeme a obrázek grafu úplně vynecháme, pokud se nejedná o studenta, který by byl schopen grafickou informaci sice s obtížemi, ale přece jen zrakově vnímat.

Automatizovaný textový popis obrázku zpracovávají jako studentkou práci na FEL ČVUT.

Jak na PDF

Pokud se podaří získat digitální text od nakladatele, je často dodán ve formátu pdf. S pdf soubory se však běžně setkáváme i jinde ke stažení na internetu. U pdf velmi záleží na způsobu zpracování dokumentu a na přidělených právech tomto dokumentu.

Pokud je v zabezpečení povoleno Accessibility, mohou text číst i nevidomí screen readery.

Obrazek

Je možné uložit do textu - Soubor - Uložit jako text ... nebo Ctrl+C, Ctrl+V pokud je vykopírování dovoleno, ale čitelnost závisí i na použítém scriptu a vnitřních vlastnostech pdf – při exportu z novějších sazečských programů už nebývá problém.

Co však s takovými dokumenty, které tyto podmínky nesplňují:

pokud není pdf zaheslováno a je zabezpečení dovolí otevřít dokument pdf v OCR programu AbbyyFineReader, je možné ho dát rozpoznat jako obrázek – v FineReaderu: Soubor – Otevřít obraz nebo PDF (tato položka se v různých verzích FineReaderu může jmenovat různé). I v tomto dokumentu mohou být chyby a je třeba dávku opravit.
pokusit se text vytisknout (pokud není Tisk v pdf zakázán v Zabezpečení) do souboru – buď přes program FinePrint nebo jiné postscriptové programy

Nedávno jsem získal zkušenost s tím, že uložení pdf do textu sice možné bylo, ale místo českých znaků byly na jejich místě čtverečky. Použil jsem k opravě rozpoznávání v OCR Abbyy FineReaderu 7. Po rozpoznání a opravě Pravopisem (červené i modré chyby) jsem zjistil, že zdaleka nerozpoznal všechny chyby při záměně českých znaků za jiné znaky; některé tyto chyby však rozpoznal a některé ne. Druhým krokem bylo funkcí AFR Najít a nahradit tyto znaky. Několik znaků se našlo a nahradil jsem je. Po otevření výsledného textu ve Wordu a projití dokumentu pravopisem Wordu jsem zjistil, že ani to nebylo od AFR7 stoprocentně vyčištěno a tak teprve pomocí funkce Wordu Najít a nahradit se mi podařilo stoprocentně tyto znaky nahradit s tím, že se jednalo o takové zanky jako přehlasované samohlásky a tam bylo nutno procházet jednotlivé výskyty a u každého zvolit, zda se má nahradit a nebo ne, protože v textu se objevovala cizí jména, kde tyto přehlasované samohlásky měly svoje místo. Nahradit vše automaticky se dalo jen u některých "náhradních" znaků za české znaky. Proto příště použiji spíše přímé skenování z Wordu a nechám si chyby opravit přímo Wordem. Návod, jak na to, jsme si vyložili zde.

Některé pdf dokumenty po uložení do txt v sobě zanechávají informace o stránkách nebo jiné sazečské informace – je nutné je hromadně vymazat, např. "politologie2422 4.1.2005 10:20 Stránka 10 ".

V úvodu elektronické knihy by mělo by být řečeno, jak je řešeno číslování stran.

Navrhuji pokud je číslování v horním záhlaví, přidat před čísla stránek "začíná strana X".

Pokud je číslování stránek v dolním záhlaví, "končí strana X".

Pokud by čtení čísla stránky mělo přerušit větu, je lépe vhodně upravit text tak, aby věta skončila na předchozí stránce nebo začala až na další stránce.

I zde zvláště při uložení do txt je vhodné vydělit poznámky pod čarou a jiný informační aparát. Je potřeba skontrolovat při převodu do txt zvláště obsah, aby čísla stránek byly ihned u nadpisů kapitol a nikoli až za všemi názvy kapitol.

Velmi velká pdf je potřeba rozdělit do několika txt a pojmenovat je šikovně - v názvu číslo stránky. I s velkým txt se špatně pracuje, zvláště při pohybu po dokumentu a vyhledávání textových řetězcxů – tyto operace se velmi prodlužují. Ještě větší mírou to platí o textech ve formátu doc.

I v tomto případě po uložení do Wordu je dobré ostylovat nadpisy a případně vytvořit obsah a další operace, o kterých už byla řeč – popis schémat, grafů, obrázků.

Komentáře

Přehled komentářů

Zatím nebyl vložen žádný komentář

Online:	2
Celkem:	1001408
Měsíc:	6011
Den:	227

PCklavesnici