за изходните формати

За коригирането на текстове след сканиране

за изходните формати

Мнениеот гост » 01 декември 2009, 11:42

Имам едно питане. При желание да се включа в редактиране на текстове се сблъсках с изходни файлове във всевъзможни формати - сканове във *.tif, *.jpg, *.doc, *rtf и дори
*.pdf. Та на въпроса - не може ли изходния текст да се публикува само в одобрени формати?
И как да редктирам pdf?
гост
 

Мнениеот Гост » 01 декември 2009, 12:34

Като имаш предвид, че всички сме доброволци, работим когато намерим време, на собствените си компютри и със софтуер за който всеки си има собствени предпочитания и навици... няма как да стане стандартизиране.
А форматите, които избояваш, са познати на всички и не са невъзможни за работа. Ако имаш желание да помагаш, но се затрудняваш, виж тази тема http://www.chitanka.info/forum/viewtopic.php?t=92
Гост
 

Мнениеот Mandor » 01 декември 2009, 12:53

„Одобрени“ са всички формати, които могат да се отворят от болшинството потребители, независимо от операционната система, която използват. За графичните файлове това са TIF, PNG, JPG (не особено подходящ избор, но това е друга тема) и т.н. За текстовите файлове това са TXT, ODT и RTF – както е указано в инструкциите, които се извеждат на всяка страница при добавяне на ново произведение. Разбира се, българите сме горд народ – „той пък ще ми каже в какъв формат да качвам!“ – и в резултат на това се появяват DOC, DOCM, DOCX, PDF и т.н. изроди, които могат да се отворят от малко хора (аз не съм сред тях; в работилницата има два DOC-файла от Office2007 – нека си стоят там, докато изгният; няма с какво да ги отворя или конвертирам).

Въпросът защо се качват картинки е малко по-сложен. Да предположим, че аз ще сканирам, а ти ще редактираш. В какъв формат да ти изпратя разпознатия текст? Ако е TXT, ще се загубят форматираните елементи (наклонен текст и т.н.) и ти няма откъде да знаеш, че ги има. Дори да използваме файл с форматиране (RTF или ODT), какво ще правиш, когато срещнеш текст от вида (пример на Скрит от друга тема):
— Заслушайте се, пичове — продължи той, — „I сПо111 ту \л/ау“…
Е, за Скрит може да е ясно, че там пише „I know my way“, но за мен не е и няма начин да редактираш текста, ако не погледнеш сканираните страници. Затова е добра практика освен разпознатия текст да се качват и сканираните изображения.

В този момент обаче се появява още един проблем: различните начини за експортиране на текст след разпознаване. Например един иска да му се запазят номерата на страниците, за да може да поглежда в скановете или в книгата когато нещо е зле разпознато (вместо да сравнява непрекъснато, което ще осигури доста по-качествена редакция), за други номерата на страниците са пречка и причина за излишна работа по почистването на текста. Едни предпочитат да редактират всичко в текстообработващата си програма, а други – да извършват голяма част от почистването на лошо разпознатите части още във FineReader, като се възползват от функцията „Засветване на неуверено разпознатите символи“. Затова напоследък сканировчиците предоставят само сканираните изображения и оставят разпознаването на редактора – да го извърши според собствените си предпочитания.

Колкото до PDF-а, единственото обяснение за честото му появяване напоследък според мен са новите програми, предлагани в комплект със скенерите, които предоставят автоматично пакетиране на сканираните страници в PDF. И мързеливите (и/или не толкова разбиращи) сканировчици използват тази функция, вместо да пакетират графичните файлове в нещо по-приемливо, например ZIP или RAR-архив (дори без компресия!). Тъй като FineReader без проблем отваря за разпознаване PDF файлове, засега си затваряме очите за тази простотийка.
Аватар
Mandor
 
Мнения: 721
Регистрация: 19 август 2006, 10:56


Обратно към Корекция

Кой е на линия

Потребители, разглеждащи форума: Николко регистрирани потребители и 0 гости