Ето кратко изложение и на моя дългогодишен и все още усъвършенстващ се опит по работата върху текстовете на сканираните книги.
0. Сканиране и разпознаване (или само разпознаване на сканиран текст) с ABBYY FineReader (накр. FR).
1. Корекция във FR: осветени позиции, спелвани думи, паразитни знаци, слети и разделени параграфи (в режим на визуализиране на непечатаемите знаци), слагане на разделителни празни редове, маркиране на акцентираните думи и изрази, обработка на бележките под линия (съотнасяне на номерацията им към съответния параграф). Винаги се прави повторен контролен преглед страница по страница. Конвертиране на съдържанието и генериране на txt-файл с utf-8 кодировка.
2. Отваряне на txt-файла с Notepad++: Прилагане на табулациите, SFB-структуриране и слагане на коректни разделителни тирета, многоточия и кавички, премахване на излишни интервали, слагане на средни скоби на обяснителните бележки. Файлът се записва в txt-формат с utf-8 кодировка.
3. Обработка на текста в текстовия редактор на Open Office (аналогичен на Word) чрез макроса на Mandor при изключен спелчекър - най-вече сливане на параграфите, разделени постранично в книжното издание, коригиране на осветени съмнителни позиции (невинаги е грешка!), организиране на обяснителните бележки към съответните параграфи, проверка на коректността на SFB-структурата. Файлът се записва в txt-формат с utf-8 кодировка.
4. Проверка на SFB с MyLibToFB2 и корекции на текста, отворен с Notepad++ - най-вече на проблеми с кавичките, бележките под линия и паразитни знаци, пропуснати модификатори за акцентирани думи и изрази, неточни SFB-маркери. Проверката продължава до пълно конвертиране и успешно генериране на fb2-файл. Временно заменяне на M> маркерите с по-старите S> и L>, за да се осъществи успешно конверсията. Файлът се записва като txt с utf-8 кодировка.
5. Преглеждане на текста на генерирания в резултат на конверсията fb2-файл, отворен с Cool Reader - самия текст, структурата на съдържанието (за пропуснато форматиране на заглавие на глава, сгрешена номерация на главите, объркана йерархия на секциите). Макар и невинаги да има пропуски във форматирането, някои немаркирани или погрешно маркирани позиции лесно се открояват. Корекциите се нанасят в txt-файла, отворен с Notepad++. Също така Cool Reader е добър инструмент, с който може да се огледат визуализирането и позиционирането на илюстрациите, ако има такива.
6. Правописна корекция на текста с Open Office с включен спелчекър. Предимство на този иначе несъвършен спелчекър е възможността да се игнорират често срещащите се характерни непознати думи, което позволява да се откроят погрешни техни варианти и съответно да се коригират. За всеки случай е активиран и макросът на Mandor - все някоя пропусната грешна позиция се забелязва. Файлът се записва в txt-формат с utf-8 кодировка.
7. Обстойна проверка и корекция с IDI-спелчекъра. С междинни опреснявания на текста. Ако текстът е пълен с грешки, проверката се повтаря още 1-2 пъти. Файлът се записва в txt-формат с utf-8 кодировка. (Спелчекърът е добър инструмент само за грамотни хора, с него трябва да се действа внимателно и с висока отговорност - с негова помощ се премахват много грешки, но също така може да се нанесат много вреди.)
8. Проверка и корекция с помощта на Проверителя на SFB. Корекциите се нанасят в txt-файла, отворен с Notepad++.
9. Проверка на txt-файла, отворен с Notepad++., за "невидими" ("скрити") грешни думи (рискови думи) с моя "речник" на рисковите думи.
10. Обстойно и пълноценно четене на текста с цел корекция (особено ако проверката в предишните етапи - най-вече тт. 7. и 9. - констатира проблемен в правописно отношение текст). Всяка забелязана проблемна позиция (освен несъмнените грешки) се сверява с реалното издание (съответно - скановете). Корекциите се нанасят в txt-файла, отворен с Notepad++. Четенето на текста от обработвания файл може да се извърши по избран от коректора начин. Аз лично чета текста от fb2-файл с таблет, маркирам проблемните позиции и после нанасям поправките в txt-файла, отворен на компютъра.
11. Последна контролна проверка на SBF-формата с MyLibToFB2 преди качване на файла в Ателието на Читанка за проверка.
12. Качвам в Ателието zip-архив на текстовия файл заедно с jpeg-файл с изображението на корицата и... moosehead и Epsilon да му мислят!
