„Одобрени“ са всички формати, които могат да се отворят от болшинството потребители, независимо от операционната система, която използват. За графичните файлове това са TIF, PNG, JPG (не особено подходящ избор, но това е друга тема) и т.н. За текстовите файлове това са TXT, ODT и RTF – както е указано в инструкциите, които се извеждат
на всяка страница при добавяне на ново произведение. Разбира се, българите сме горд народ – „той пък ще ми каже в какъв формат да качвам!“ – и в резултат на това се появяват DOC, DOCM, DOCX, PDF и т.н. изроди, които могат да се отворят от малко хора (аз не съм сред тях; в работилницата има два DOC-файла от Office2007 – нека си стоят там, докато изгният; няма с какво да ги отворя или конвертирам).
Въпросът защо се качват картинки е малко по-сложен. Да предположим, че аз ще сканирам, а ти ще редактираш. В какъв формат да ти изпратя разпознатия текст? Ако е TXT, ще се загубят форматираните елементи (наклонен текст и т.н.) и ти няма откъде да знаеш, че ги има. Дори да използваме файл с форматиране (RTF или ODT), какво ще правиш, когато срещнеш текст от вида (пример на
Скрит от друга тема):
— Заслушайте се, пичове — продължи той, — „I сПо111 ту \л/ау“…
Е, за
Скрит може да е ясно, че там пише „I know my way“, но за мен не е и няма начин да редактираш текста, ако не погледнеш сканираните страници. Затова е добра практика освен разпознатия текст да се качват и сканираните изображения.
В този момент обаче се появява още един проблем: различните начини за експортиране на текст след разпознаване. Например един иска да му се запазят номерата на страниците, за да може да поглежда в скановете или в книгата когато нещо е зле разпознато (вместо да сравнява непрекъснато, което ще осигури доста по-качествена редакция), за други номерата на страниците са пречка и причина за излишна работа по почистването на текста. Едни предпочитат да редактират всичко в текстообработващата си програма, а други – да извършват голяма част от почистването на лошо разпознатите части още във FineReader, като се възползват от функцията „Засветване на неуверено разпознатите символи“. Затова напоследък сканировчиците предоставят само сканираните изображения и оставят разпознаването на редактора – да го извърши според собствените си предпочитания.
Колкото до PDF-а, единственото обяснение за честото му появяване напоследък според мен са новите програми, предлагани в комплект със скенерите, които предоставят автоматично пакетиране на сканираните страници в PDF. И мързеливите (и/или не толкова разбиращи) сканировчици използват тази функция, вместо да пакетират графичните файлове в нещо по-приемливо, например ZIP или RAR-архив (дори без компресия!). Тъй като FineReader без проблем отваря за разпознаване PDF файлове, засега си затваряме очите за тази простотийка.