Някои от шаблоните, които съм описал, включват диапазон от възможности, затова най-добре ще е да използвате редактор, който поддържа търсене по регулярни изрази (аз използвам UltraEdit, но и OpenOffice ги поддържа).
И така, ето списъка:
1. Прегледайте началото на книгата - много често сканировчиците прескачат посвещенията, а после забравят да ги добавят.
2. Потърсете странни символи - често се появяват "^" и "~" вместо тире, "|" поради наличие на гънка и т.н. Изобщо, потърсете за символи, които нямат място в текста - "@", "#" и т.н.
3. Потърсете дали имате текст на латиница. Ако програмата за разпознаване е настроена да разпознава смесен текст (например "Български+Английски"), понякога български букви се появяват на латиница - най-често "а", "е", "о"; "r" вместо "г" и т.н.
4. Почистване на интервалите.
Често срещани проблеми са два (и повече) последователни интервала, опашни интервали (<интервал><нов ред>) и водещи интервали (<нов ред><интервал>).
5. Замяна на многоточие
Заменете всички срещания на три точки "..." със символа за многоточие "…" (код 0x85). След това търсете следните некоректни комбинации:
<точка><точка>
<точка><интервал><точка>
<точка><запетая>
<запетая><точка>
6. Изравняване на тиретата
След сканиране и експорт можете да срещнете четири вида тирета в текста - дефис (код 0x2D), n-тире (ширина половин кегел, код 0x96), m-тире (ширина колкото кегела, код 0x97) и тире за пренос (код 0xAD). Прегледайте дали тирето за пренос наистина се появява в пренесени думи и го изтрийте. Преобразувайте всички останали в дефис (засега) - това ще облекчи по-късната обработка.
7. Липсващ интервал след отварящото тире в пряка реч.
Пример:
Код: Избиране на всичко
- Кога тръгваме?
-Веднага.
8. Неправилно разкъсване на параграф.
Повечето такива грешки се откриват чрез няколко последователни търсения.
<нов ред><малка буква>
Код: Избиране на всичко
…но сега
вече е ясно.
Код: Избиране на всичко
…заприижда-
ха хора.
Код: Избиране на всичко
- Колко? - попита
Херцогинята.
Код: Избиране на всичко
- Колко?
- попита Херцогинята.
Код: Избиране на всичко
…доколкото знам,
Боян не може…
Комбинациите <препинателен знак><нов ред> може да се разширят с отварящи скоби,
отварящи кавички и др. - всички символи, за които се сетите, че не може да се появяват в края на реда.
9. Неправилно форматирани препинателни знаци.
Сещам се за следните недопустими комбинации:
9.1. Препинателен знак с интервал пред него:
<интервал><запетая>
<интервал><точка>
<интервал><удивителна>
<интервал><въпросителна>
<интервал><дясна скоба>
<интервал><затваряща кавичка>
9.2. Отварящ елемент с интервал след него:
<лява скоба><интервал>
<отваряща кавичка><интервал>
9.3. Липсващ интервал:
<запетая><не-интервал>
<точка><не-(интервал или нов ред)>
9.4. Два препинателни знака:
Всички комбинации от залепени двойки, състоящи се от: точка, запетая, тире, удивителна, въпросителна. Отбележете, че комбинациите "!?", "?!" и "!!" понякога са допустими.
9.5. Препинателен знак, следван от буква:
<точка><буква>
<запетая><буква>
<удивителна><буква>
<въпросителна><буква>
Обърнете внимание, че с тези шаблони ще откриете напълно коректните "т.н.", "пр.н.е", "бел.ав." и т.н.
9.6. Фалшив препинателен знак:
Най-често се появява фалшива точка или запетая, причинени от петно в сканираната страница. Повечето ще откриете с комбинацията:
<точка><интервал><малка буква>
10. Други комбинации
10.1. Параграф, започващ с нещо различно от тире, главна буква, отварящи кавички или многоточие.
Обърнете внимание, че това търсене ще открие номерата на главите, ако са представени само с числа.
11. Нормализиране на тиретата
Извършете следните замени:
<нов ред><тире><интервал> -> <нов ред><дълго тире><интервал>
<интервал><тире><интервал> -> <интервал><дълго тире><интервал>
За символа <дълго тире> можете да използвате m-тире (код 0x97). След това потърсете следните комбинации:
<тире><интервал>
<интервал><тире>
С тях ще хванете всички тирета, които са неправилно залепени или разделени от едната си страна. Обърнете внимание, че с първата комбинация ще хванете и коректни ситуации като:
Код: Избиране на всичко
кино- и фотоапарати.
Често съюзът "и" се заменя с близки по вид символи, затова потърсете:
<интервал>н<интервал>
<интервал>п<интервал>
Други вариации на това търсене са:
<интервал>н<препинателен знак>
Друга често срещана замяна е <нула> вместо <главно О>, както и <ер малък> вместо <ер голям>. Добре е да ги потърсите всичките.
Трети шаблон за търсене може да е:
<малка буква><главна буква>
Тази грешка се среща при сканиране на специфични шрифтове, но съм я виждал и в "нормален" текст.
13. Пробно изчитане
Изберете си една част от сканирания текст и я прочетете. Има голяма вероятност да откриете проблем, характерен за конкретния текст (например грешно разпознато име на герой).
И последно, което едва ли някой ще си направи труда да направи - проверете новите редове. Това е лесно в онези части от книгата, където липсва пряка реч, но е много трудно да се "хване" като проблем от редактора. Сравнете визуално началните думи от параграфите в сканирания текст и оригинала - това много ще облекчи по-нататъшната работа на редактора.
В краен случай поне прелистете книгата и проверете дали са разпознати правилно местата, където има смяна на сюжета - там обикновено се оставят два празни реда или "* * *".
Ако някой предложи още разумни шаблони, ще ги включа в списъка.
Между другото, знае ли някой как може да се накара FineReader-а да не поставя символа за край на параграф в края на всяка сканирана страница? Ефектът го има и в 7-ма, и в 8-ма версия.