Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Библиотеката има нужда от помощта ви.

Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнениеот petrovich » 11 август 2013, 17:06

Библиотеката има нужда от хора, които могат да отделят от свободното си време за обработка на сканирани страници, които да бъдат пакетирани в DjVu и/или PDF формат (става въпрос за произведения, които не могат да бъдат цифровизирани по друг начин).
Можете да се запознаете със статията „DjVu (информация за начинаещи)“, както и „Обработка на сканирани изображения чрез Scan Tailor“.

Нека всеки, който желае да помогне, да се включи в тази тема, за да направим няколко проби и да видим как се справя с обработката на вече сканирани страници.
petrovich
 
Мнения: 762
Регистрация: 31 юли 2008, 14:20

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнениеот aquariuz » 17 август 2013, 23:13

Мога да пробвам. За комикси ли става въпрос? :)
Аватар
aquariuz
 
Мнения: 4
Регистрация: 25 юни 2009, 16:18

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнениеот Mandor » 18 август 2013, 11:37

aquariuz написа:Мога да пробвам. За комикси ли става въпрос? :)
Не, предимно за „нормални“ книги.

Желаещите могат да „наминат“ през чата, за да обсъдим подробностите.
Mandor
 
Мнения: 733
Регистрация: 19 август 2006, 10:56

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнениеот old4x » 26 август 2013, 21:40

Хайде, давайте файловете! Нямам скенер, така че мога да помогна само с това. И с "поправка" на печатни грешки. Например в Списъка на книгите от "Ателието" мернах думата кОршум. Пише се куршум, колкото и да е обидно. [Сребърен коршум, Майкъл Конъли]
old4x
 
Мнения: 1
Регистрация: 25 април 2011, 21:15

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнениеот Nika » 27 август 2013, 09:07

Здравейте,
И аз бих искала да се включа. Как може да стане това?
Nika
 


Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнениеот Mandor » 28 август 2013, 07:52

90-95% от подготовката на една книга за пакетиране се заема от обработката с програми като ScanTailor или ScanKromsator; за начинаещи препоръчвам първата.
Останалото е елементарно.

Така че — разгледайте програмата, прочетете как се използва, поиграйте си с нея и ако все още имате желание, заповядайте в чата в почивните дни, за да го обсъдим.

П.П. И още нещо — ако възнамерявате да помагате, моля ви, поне се регистрирайте.
Mandor
 
Мнения: 733
Регистрация: 19 август 2006, 10:56

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнениеот elemagan » 28 август 2013, 19:34

Eто тук съм качил снимки на книги, които искам да сканирам за Djvu. Мандор, може ли ти или друг да ги видите и да кажете с какви настройки да ги сканирам? Или и аз да намина в чата? :wink:
Значи, интересува ме:
1. На колко dpi и в какъв формат трябва да се сканират?
2. Изрязването в Scan Tailor трябва да е точно по "контура" на страницата или по-скоро информативната част да се озове в центъра?
3. Какво правим с изображения, разположени и на двете страници? Заедно в едно изображение ли се запазват? Когато скенера не ги побира обикновено ги сливам с Фотошоп.
4. Трябва ли някаква допълнителна компресия да се прави, за да заемат по-малък размер?

Мога да пратя пробни сканове и на трите книги, но да уговорим първо как да сканирам "пробите".
elemagan
 
Мнения: 9
Регистрация: 05 септември 2011, 21:25

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнениеот Mandor » 29 август 2013, 08:01

elemag_an, длъжен съм да те предупредя, че си посочил почти най-тежките случаи за кодиране. Ще изискват доста инат и упоритост, за да се обработят. Но на въпросите:

1. Сканираш така, сякаш ще я разпознаваш. Т.е. — 300 dpi, цветните — в цветно, ч/б и сивите — в сиво. Формат — ако можеш да зададеш нивото на компресия, дори и JPG на 90% ще свърши работа. Ако не — TIF или PNG с произволна компресия.
2. Зависи на какво казваш „изрязване“. Ако е втория етап — „Разделяне на страници“ — само по сгъвката (ако изобщо ще я разделяш). Ако е „Определяне на полезната област“ — само участъка с информация; после с полетата възстановяваш оригиналният (или близо до него) размер на страницата.
3. Както реши обработчика. Ако иска, разделя на две страници, за да запази еднаквостта на всички страници; ако иска — слива двете страници, за да запази изображението. В DjVu всяка страница може да има различни размери.
4. Не разбрах въпроса.
Mandor
 
Мнения: 733
Регистрация: 19 август 2006, 10:56

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнениеот elemagan » 29 август 2013, 13:47

№ 4. Имах предвид компресирането на TIFF в CCITT G4, което аз все още не правя, но подразбирам (от 1.), че не е съществено „технологично“ изискване. Четох няколко пъти „DjVu (информация за начинаещи)“ и на теория схващам нещата, но програмите не са ми познати. Изтеглих някои, ще ги пробвам и като/ако се понауча ще пратя… „мостри“ по-нататък. Инат и упоритост не ми липсват — особено ако трудът си струва и улуча правилния метод. )
elemagan
 
Мнения: 9
Регистрация: 05 септември 2011, 21:25

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнениеот Mandor » 30 август 2013, 08:05

Точно CCITT G4 не е подходяща, защото работи само за ч/б изображения, а при сканиране е желателно да се използват сиви/цветни картинки. Но при TIF и PNG може да използваш произволна налична компресия — LZW, ZIP — каквото ти предоставя програмата.

За програмите — ако стигнеш до там, ще те инструктирам; както вече казах, най-времеотнемащата дейност е предварителната обработка на скановете, а самото пакетиране в DjVu е сравнително елементарно.
Mandor
 
Мнения: 733
Регистрация: 19 август 2006, 10:56

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнениеот elemagan » 31 август 2013, 00:26

Значи, Мандор, ето каква я свърших:
Тук се намират три пробни Djvu-та с извадки от трите книги.

Етапите накратко:
Сканиране — двойните страници ги снимах на три части и ги слях с фотошопа. В режим Fit Width изглеждат като редовни страници, само че в ландскейп. Ако се прикрие сгъвката, форзаци с панорами и гравюри стоят много добре.

Scan Tailor — всички сканове са относително подравнени, като за ниво проба, по-нататък ще сме по-прецизни. :wink: Изходните цветни TIFF-ове ги обърнах в JPG, сивите ги оставих така, всичко на 300 dpi.

За комбинирането ползвах Djvu Solo, защото с нея стана най-лесно. Другите програми — DjvuLibre нещо не успях да я инсталирам, а Minidjvu май иска Internet Explorer и там също ударих на камък.
Една подробност: И трите 'мостри' са резултат от обединяване (merge) на няколко еднотипни (само цветни или само сиви) Djvu-та, които направих предварително. Съединих ги накрая с DjVuToy. Реших един вид да улесня автоматичния сегментатор, но както и предположих резултатът не е с високо качество.

Явно, както казваш, най-важна е предварителната обработка, така че да се постигне или подготви „разделното сегментиране“. Е, нямам идея как се прави това, но по инструкциите ти (тук или на л.б.) се надявам да схвана метода. Подозирам, че за някакво селектиране на зони с разл. сегментация става дума, дано не е чак такава трудност, за каквато намекваш. ) :roll:
elemagan
 
Мнения: 9
Регистрация: 05 септември 2011, 21:25

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнениеот magika24 » 04 септември 2013, 11:44

Ако все още се нуждаете от помощ, мога да се пробвам. Може да ми дадете нещо да обработя или да ви пратя вече обработено.
Аватар
magika24
 
Мнения: 1
Регистрация: 03 април 2012, 22:23

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнениеот gegencho » 20 септември 2013, 14:54

Здравейте!

Аз имам богат опит в правенето на Djvu книги, занимавам се с този формат още от създаването му. Сканирането ми е проблем поради издъхването на скенера, обработвам със ScanKromsator, подравнявам буквите с CPC Tools, в редки случаи изправям страниците с Book Restorer, компресирам с Lizardtech DjVu Document Express Editor 6 в различни режими. Добавям OCR слой с FineReader по моя технология, получава се перфектно възможност за търсене и copy-paste от Djvu книгата. Получавам много добри резултати при черно-бели книги (с и без картинки), с цветните имам по-малък опит. Мога да покажа мостри.

За такава обща цел имам възможност да заделя време, така че давайте скановете и да почваме.
gegencho
 
Мнения: 2
Регистрация: 20 септември 2013, 14:34

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнениеот Mandor » 21 септември 2013, 10:56

gegencho написа:Добавям OCR слой с FineReader по моя технология…
Генчо – авторът на DjVuOCR? :D

Всъщност нещата са далеч по-прости – има доста сканирани книги, които никой не желае да разпознае и коригира и само пълнят ателието. Затова идеята е да се сглобят в прилично DjVu (не е нужно да е перфектно, но не е желателно да е сглобено набързо) и да се качат в този им вид; ако някой има желание, в последствие може да ги обработи до текст. 99% от тях са само текст, така че няма да има „играчка“ с картинки. OCR-а също е ненужен, имайки предвид целта на обработката – просто не си заслужава загубата на време. Ако искаш, пробвай „Открадването на огъня“, но пак повтарям – не гони съвършенство като краен DjVu, а просто го разглеждай като компактна основа за по-нататъшна обработка.

Разбира се, има и други случаи – албуми, енциклопедии, комикси и др.подобни, – за които с удоволствие ще се възползваме от експертния ти опит. Ако ти се занимава, може да нахвърляш и някоя статия по въпроса; ще я качим в уикито.
Mandor
 
Мнения: 733
Регистрация: 19 август 2006, 10:56

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнениеот gegencho » 21 септември 2013, 22:26

Спретнах едно DJVU, и го пуснах по формата която ми се отвори за да взема скановете. Нали не съм объркал нещо? Е, постарах се повечко, ама се чете прилично. Според мене повече не му и трябва :)

Не съм много по писането на статии, виж, ако ме огрее музата (случва се понякога) може. Ако има обаче конкретни практически въпроси, ще се радвам ако мога да помогна.

Какъв е планът нататък? Вие имате поглед над нещата, предлагайте. Ако не тука, пощата трябва да ми имате (при регистрацията).
gegencho
 
Мнения: 2
Регистрация: 20 септември 2013, 14:34

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнениеот zograf-ratnik » 29 септември 2013, 15:51

Здравейте на всички които сте любители на книгите!
Тази тема ме заинтересува защото професиално се занимавам и със сканиране и обработване на документи до PDF. Разполагам с необходимата техника за бързо сканиране в TIFF и PDF. Мога да помогна и само с обработването на документи от TIFF в PDF, което не е толкова сложно. А това става с една много проста програмка наречена PDF Creator, която работи като емулатор на принтер ( т.е. все едно принтирате, а в действителност получавате PDF документ).
Ако някой иска да се свърже с мен да ми пише на hristomezev {{при}} abv.bg
zograf-ratnik
 
Мнения: 1
Регистрация: 08 септември 2012, 23:41

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнениеот glarus63 » 07 ноември 2013, 08:37

Вече имам опит в това. Тук съм сканирал няколко книжки на Христо Фотев: http://dfiles.eu/files/rg3lxkx0f http://dfiles.eu/files/0jfc739wt http://dfiles.eu/files/yaya5f6fx

Същите съм обработил и в PDF формат.
Имам готовим - отсканирани и пакетирани с OCR слой и интерактивно съдържание основни книги на Хегел и Критика на чистия разум на Кант. Поради обема не аная как да ви ги изпратя.

Бих искал да се включа в проекта.
glasnaglarus@abv.bg
glarus63
 

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнениеот Mandor » 07 ноември 2013, 08:59

glarus63 написа:Тук съм сканирал няколко книжки на Христо Фотев:
Успях да изтегля само едната, след това ми се скараха, че много съм теглил (2 МБ) и трябвало да чакам; би ли ги качил на някой по-нормален сървър?
Изглежда почти отлично; не мога само да разбера защо всички обработчици толкова мразят белите полета на книгите, та ги отрязват почти „на живо“ при обработката? :D В първата книга вътрешните страници са с три сантиметра по-ниски от кориците.
И 600 dpi за корица ми изглежда малко множко, но… тъй като останалото си е идеално, може да се класифицира като „бели кахъри“.
Mandor
 
Мнения: 733
Регистрация: 19 август 2006, 10:56


Обратно към Помощ за сайта

 


  • Подобни теми
    отговори
    прегледи
    Последно мнение

Кой е на линия

Потребители, разглеждащи форума: Николко регистрирани потребители и един гост