Jdi na obsah Jdi na menu
 


RKonvertor - hromadné opravy po skenování

19. 10. 2008

Program vyvinula před lety jako freeware firma Rosasoft (ing Sáček, Patrik Pospíšil)

Progrram slouží k odstraňování některých opakujících se chyb nebo textů například v naskenovaných textech pomocí OCR programů a nebo k přípravě textů pro převod do audio formátů (mp3, ogg), například příprava textu pro převod do audio hlasu RealSpeak Zuzana - autorem pravidel je Jiří Stejskal.

Možnost stažení Rkonverteru - stačí rozbalit.

Obrazek

Návod

RosaSOFT - Konvertor

(je obsažen též v balíčku).

použit manuál od Patrika Pospíšila po částečné jazykové úpravě a dotazy v konferencích

Tato aplikace je freeware a nabízí uživateli možnost definování libovolného konverzního předpisu pro zpracování souboru.

Konverze spočívá obecně v záměně kódu znaku za jiný kód znaku. Tento konvertor může pracovat s kódy 0-255.

Kódy znaků (znaky), které nelze napsat přímo z klávesnice se v předpisu definují jako trojciferné číslo vyjadřující kód znaku a to je uvozené na začátku a na konci středníkem.

Například:

kód 0 se zapíše: ;000;

Pokud chcete zapsat například písmeno (malé) "a", lze ho napsat přímo nebo zápisem: ;097;

Konverzní předpis je prostý text, tedy jej lze definovat například v aplikaci Poznámkový blok a zápis je velmi jednoduchý:

na lichý řádek zapíšete kód znaku nebo řetězec kódů znaků, které mají být nahrazovány a

na nový řádek zapíšete stejným způsobem, za které znaky nebo kódy mají být nahrazeny stejným způsobem zápisu jako na předchozím řádku.

Definic záměn může být libovolný počet a zjednodušeně platí, že na lichý řádek zapíšete co má být nahrazováno a na sudý řádek zapíšete za co nahradit.

Při definování za co nahradit, může nastat situace, kdy potřebujete znak (řetězec znaků) zaměnit za "nic", proto je zavedená hodnota:

;256;

Předpisy mají příponu "DCL", tedy napsaný text předpisu je potřeba uložit s touto příponou a do stejného umístění, ze kterého spouštíte aplikaci, tedy do stejné složky, kde je Rkovertor.exe. Je-li vše v pořádku, "DCL" soubory se zobrazí v seznamu konverzních předpisů v okně konvertoru.

Pro provedení konverze je potřeba ze seznamu konverzních předpisů vybrat požadovaný předpis, pak stiskem tlačítka "Vybrat soubor" se vyvolá standardní dialog "Otevřít", kde lze nalistovat soubor, který bude konvertován. Vybraný soubor se i s cestou zobrazí v kontrolním editačním poli okna konvertoru a následně již stačí stisk tlačítka "Start konverze".

Dokončení zpracování je oznámeno dialogem, ve kterém je rovněž údaj o počtu provedených záměn.

Program vyžaduje volnou paměť cca. 0,5 MB. Pokud je potřeba zpracovat velký soubor, je potřeba mít na harddisku (na jednotce, kde se soubor nachází), volné místo o velikosti minimálně té, kterou má zpracovávaný soubor.

Záměny kódů (řetězců) probíhají tak, že se provede první záměna definovaná v předpisu v celém souboru, pak druhá záměna opět v celém (již částečně změněném) souboru atd..

Celková délka řádku by neměla přesáhnout 255znaků.

Středníky se píší pouze tehdy, jestliže se vyjadřují znaky číselně - kódem. Tedy chci-li zaměnit "ahoj" za "čau", zapiši:

ahoj

čau

Protože záměna probíhá na úrovni "bajtů", není jedno, zda je zapsáno velký a nebo malý znak! a-A

Výše uvedený zápis lze provést také takto:

;097;;104;;111;;106;

to je vyjádřeno ahoj,

případně lze kombinovat:

a;104;;111;j

a je to totéž.

K zápisu je možné použít Microsoft Excel, který Vám ohlídat si liché a sudé řádky – čísla řádků. Pak uložte soubor do Unicode txt a potvrďte dialogy tlačítkem Ano.

Lze k záměně použit i znak pevného konec řádku?

Pokud ano, jaké má kódové číslo?

Tvrdé konce řádku jsou většinou kombinace kódů 13 a 10.

Jestliže například budeme za odstavec považovat text, který končí tečkou, dvojtečkou, vykřičníkem, otazníkem, případně uvozovkami a nasledné kody 013 (návrat vozíku - Carriage Return (CR)) a 010 (posuv o řádek - Line Feed (LF)) a tedy chceme-li tvrdé konce řádků nahradit za mezeru, lze to udělat takto:

.;013;;010;

.;032;

:;013;;010;

: .;032;

?;013;;010;

?;032;

!;013;;010;

! .;032;

";013;;010;

";032;

Příklady z dcl pro přípravu fonetické výslovnosti, konkrétně hlasu RealSpeak Zuzana:

 TIR

 tyr

;013;;010;

 ;013;;010;

Všimněte si mezery na začátku řádky!

Mezera na začátku nebo na konci řádku je u některých výrazů proto, aby se změna udělala jen přesně v tom výrazu jak je napsaný a ne v případě, že ten výraz by byl základem i dalších slov.

Příklady:

?"

?".

."

 ".

"

_"

 "

 "_

_"

 "

"_

"

" .

".

Záměny kolem uvozovek jsou tam proto, že v textu bývá často tečka za větou před uvozovkou a hlas Zuzana v takovém případě toto nebere jako konec věty a neudělá odmlku. Takže muselo být zaměněno pořadí teček až za uvozovku.

Příklady:

. a

. A

. á

. Á

. b

. B

. c

. C

. č

. Č

Během konverze se všechna velká písmena zamění za malá, to abychom nemuseli vpisovat i výrazy s velkými písmeny. No a proto je na konci definičního souboru zase záměna na začátku věty na velká. Jinak by Zuzana nebrala slovo za tečkou jako novou větu.

Tento znak × (0215 je čten jako promile), se objevuje před číslovkami proto, aby je Zuzana nekomolila, třeba jako letopočty.