Форуми на Моята библиотека

Имам едно питане. При желание да се включа в редактиране на текстове се сблъсках с изходни файлове във всевъзможни формати - сканове във *.tif, *.jpg, *.doc, *rtf и дори
*.pdf. Та на въпроса - не може ли изходния текст да се публикува само в одобрени формати?
И как да редктирам pdf?

Като имаш предвид, че всички сме доброволци, работим когато намерим време, на собствените си компютри и със софтуер за който всеки си има собствени предпочитания и навици... няма как да стане стандартизиране.
А форматите, които избояваш, са познати на всички и не са невъзможни за работа. Ако имаш желание да помагаш, но се затрудняваш, виж тази тема http://www.chitanka.info/forum/viewtopic.php?t=92

„Одобрени“ са всички формати, които могат да се отворят от болшинството потребители, независимо от операционната система, която използват. За графичните файлове това са TIF, PNG, JPG (не особено подходящ избор, но това е друга тема) и т.н. За текстовите файлове това са TXT, ODT и RTF – както е указано в инструкциите, които се извеждат на всяка страница при добавяне на ново произведение. Разбира се, българите сме горд народ – „той пък ще ми каже в какъв формат да качвам!“ – и в резултат на това се появяват DOC, DOCM, DOCX, PDF и т.н. изроди, които могат да се отворят от малко хора (аз не съм сред тях; в работилницата има два DOC-файла от Office2007 – нека си стоят там, докато изгният; няма с какво да ги отворя или конвертирам).

Въпросът защо се качват картинки е малко по-сложен. Да предположим, че аз ще сканирам, а ти ще редактираш. В какъв формат да ти изпратя разпознатия текст? Ако е TXT, ще се загубят форматираните елементи (наклонен текст и т.н.) и ти няма откъде да знаеш, че ги има. Дори да използваме файл с форматиране (RTF или ODT), какво ще правиш, когато срещнеш текст от вида (пример на Скрит от друга тема):

— Заслушайте се, пичове — продължи той, — „I сПо111 ту \л/ау“…

Е, за Скрит може да е ясно, че там пише „I know my way“, но за мен не е и няма начин да редактираш текста, ако не погледнеш сканираните страници. Затова е добра практика освен разпознатия текст да се качват и сканираните изображения.

В този момент обаче се появява още един проблем: различните начини за експортиране на текст след разпознаване. Например един иска да му се запазят номерата на страниците, за да може да поглежда в скановете или в книгата когато нещо е зле разпознато (вместо да сравнява непрекъснато, което ще осигури доста по-качествена редакция), за други номерата на страниците са пречка и причина за излишна работа по почистването на текста. Едни предпочитат да редактират всичко в текстообработващата си програма, а други – да извършват голяма част от почистването на лошо разпознатите части още във FineReader, като се възползват от функцията „Засветване на неуверено разпознатите символи“. Затова напоследък сканировчиците предоставят само сканираните изображения и оставят разпознаването на редактора – да го извърши според собствените си предпочитания.

Колкото до PDF-а, единственото обяснение за честото му появяване напоследък според мен са новите програми, предлагани в комплект със скенерите, които предоставят автоматично пакетиране на сканираните страници в PDF. И мързеливите (и/или не толкова разбиращи) сканировчици използват тази функция, вместо да пакетират графичните файлове в нещо по-приемливо, например ZIP или RAR-архив (дори без компресия!). Тъй като FineReader без проблем отваря за разпознаване PDF файлове, засега си затваряме очите за тази простотийка.

Форуми на Моята библиотека

за изходните формати

за изходните формати