Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Библиотеката има нужда от помощта ви.
Правила
Уважавайте другите участници и се отнасяйте с тях така, както бихте желали те да се отнасят с вас!
Отговор
petrovich
Мнения: 762
Регистрация: 31 юли 2008, 14:20

Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от petrovich »

Библиотеката има нужда от хора, които могат да отделят от свободното си време за обработка на сканирани страници, които да бъдат пакетирани в DjVu и/или PDF формат (става въпрос за произведения, които не могат да бъдат цифровизирани по друг начин).
Можете да се запознаете със статията „DjVu (информация за начинаещи)“, както и „Обработка на сканирани изображения чрез Scan Tailor“.

Нека всеки, който желае да помогне, да се включи в тази тема, за да направим няколко проби и да видим как се справя с обработката на вече сканирани страници.
Аватар
aquariuz
Мнения: 4
Регистрация: 25 юни 2009, 16:18

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от aquariuz »

Мога да пробвам. За комикси ли става въпрос? :)
Mandor
Мнения: 752
Регистрация: 19 август 2006, 10:56
Връзка:

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от Mandor »

aquariuz написа:Мога да пробвам. За комикси ли става въпрос? :)
Не, предимно за „нормални“ книги.

Желаещите могат да „наминат“ през чата, за да обсъдим подробностите.
old4x
Мнения: 1
Регистрация: 25 април 2011, 21:15

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от old4x »

Хайде, давайте файловете! Нямам скенер, така че мога да помогна само с това. И с "поправка" на печатни грешки. Например в Списъка на книгите от "Ателието" мернах думата кОршум. Пише се куршум, колкото и да е обидно. [Сребърен коршум, Майкъл Конъли]
Nika

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от Nika »

Здравейте,
И аз бих искала да се включа. Как може да стане това?
Mandor
Мнения: 752
Регистрация: 19 август 2006, 10:56
Връзка:

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от Mandor »

90-95% от подготовката на една книга за пакетиране се заема от обработката с програми като ScanTailor или ScanKromsator; за начинаещи препоръчвам първата.
Останалото е елементарно.

Така че — разгледайте програмата, прочетете как се използва, поиграйте си с нея и ако все още имате желание, заповядайте в чата в почивните дни, за да го обсъдим.

П.П. И още нещо — ако възнамерявате да помагате, моля ви, поне се регистрирайте.
elemagan
Мнения: 9
Регистрация: 05 септември 2011, 21:25

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от elemagan »

Eто тук съм качил снимки на книги, които искам да сканирам за Djvu. Мандор, може ли ти или друг да ги видите и да кажете с какви настройки да ги сканирам? Или и аз да намина в чата? :wink:
Значи, интересува ме:
1. На колко dpi и в какъв формат трябва да се сканират?
2. Изрязването в Scan Tailor трябва да е точно по "контура" на страницата или по-скоро информативната част да се озове в центъра?
3. Какво правим с изображения, разположени и на двете страници? Заедно в едно изображение ли се запазват? Когато скенера не ги побира обикновено ги сливам с Фотошоп.
4. Трябва ли някаква допълнителна компресия да се прави, за да заемат по-малък размер?

Мога да пратя пробни сканове и на трите книги, но да уговорим първо как да сканирам "пробите".
Mandor
Мнения: 752
Регистрация: 19 август 2006, 10:56
Връзка:

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от Mandor »

elemag_an, длъжен съм да те предупредя, че си посочил почти най-тежките случаи за кодиране. Ще изискват доста инат и упоритост, за да се обработят. Но на въпросите:

1. Сканираш така, сякаш ще я разпознаваш. Т.е. — 300 dpi, цветните — в цветно, ч/б и сивите — в сиво. Формат — ако можеш да зададеш нивото на компресия, дори и JPG на 90% ще свърши работа. Ако не — TIF или PNG с произволна компресия.
2. Зависи на какво казваш „изрязване“. Ако е втория етап — „Разделяне на страници“ — само по сгъвката (ако изобщо ще я разделяш). Ако е „Определяне на полезната област“ — само участъка с информация; после с полетата възстановяваш оригиналният (или близо до него) размер на страницата.
3. Както реши обработчика. Ако иска, разделя на две страници, за да запази еднаквостта на всички страници; ако иска — слива двете страници, за да запази изображението. В DjVu всяка страница може да има различни размери.
4. Не разбрах въпроса.
elemagan
Мнения: 9
Регистрация: 05 септември 2011, 21:25

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от elemagan »

№ 4. Имах предвид компресирането на TIFF в CCITT G4, което аз все още не правя, но подразбирам (от 1.), че не е съществено „технологично“ изискване. Четох няколко пъти „DjVu (информация за начинаещи)“ и на теория схващам нещата, но програмите не са ми познати. Изтеглих някои, ще ги пробвам и като/ако се понауча ще пратя… „мостри“ по-нататък. Инат и упоритост не ми липсват — особено ако трудът си струва и улуча правилния метод. )
Mandor
Мнения: 752
Регистрация: 19 август 2006, 10:56
Връзка:

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от Mandor »

Точно CCITT G4 не е подходяща, защото работи само за ч/б изображения, а при сканиране е желателно да се използват сиви/цветни картинки. Но при TIF и PNG може да използваш произволна налична компресия — LZW, ZIP — каквото ти предоставя програмата.

За програмите — ако стигнеш до там, ще те инструктирам; както вече казах, най-времеотнемащата дейност е предварителната обработка на скановете, а самото пакетиране в DjVu е сравнително елементарно.
elemagan
Мнения: 9
Регистрация: 05 септември 2011, 21:25

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от elemagan »

Значи, Мандор, ето каква я свърших:

Тук се намират три пробни Djvu-та с извадки от трите книги.


Етапите накратко:
Сканиране — двойните страници ги снимах на три части и ги слях с фотошопа. В режим Fit Width изглеждат като редовни страници, само че в ландскейп. Ако се прикрие сгъвката, форзаци с панорами и гравюри стоят много добре.

Scan Tailor — всички сканове са относително подравнени, като за ниво проба, по-нататък ще сме по-прецизни. :wink: Изходните цветни TIFF-ове ги обърнах в JPG, сивите ги оставих така, всичко на 300 dpi.

За комбинирането ползвах Djvu Solo, защото с нея стана най-лесно. Другите програми — DjvuLibre нещо не успях да я инсталирам, а Minidjvu май иска Internet Explorer и там също ударих на камък.

Една подробност: И трите 'мостри' са резултат от обединяване (merge) на няколко еднотипни (само цветни или само сиви) Djvu-та, които направих предварително. Съединих ги накрая с DjVuToy. Реших един вид да улесня автоматичния сегментатор, но както и предположих резултатът не е с високо качество.

Явно, както казваш, най-важна е предварителната обработка, така че да се постигне или подготви „разделното сегментиране“. Е, нямам идея как се прави това, но по инструкциите ти (тук или на л.б.) се надявам да схвана метода. Подозирам, че за някакво селектиране на зони с разл. сегментация става дума, дано не е чак такава трудност, за каквато намекваш. ) :roll:
Аватар
magika24
Мнения: 1
Регистрация: 03 април 2012, 22:23

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от magika24 »

Ако все още се нуждаете от помощ, мога да се пробвам. Може да ми дадете нещо да обработя или да ви пратя вече обработено.
gegencho
Мнения: 2
Регистрация: 20 септември 2013, 14:34

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от gegencho »

Здравейте!

Аз имам богат опит в правенето на Djvu книги, занимавам се с този формат още от създаването му. Сканирането ми е проблем поради издъхването на скенера, обработвам със ScanKromsator, подравнявам буквите с CPC Tools, в редки случаи изправям страниците с Book Restorer, компресирам с Lizardtech DjVu Document Express Editor 6 в различни режими. Добавям OCR слой с FineReader по моя технология, получава се перфектно възможност за търсене и copy-paste от Djvu книгата. Получавам много добри резултати при черно-бели книги (с и без картинки), с цветните имам по-малък опит. Мога да покажа мостри.

За такава обща цел имам възможност да заделя време, така че давайте скановете и да почваме.
Mandor
Мнения: 752
Регистрация: 19 август 2006, 10:56
Връзка:

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от Mandor »

gegencho написа:Добавям OCR слой с FineReader по моя технология…
Генчо – авторът на DjVuOCR? :D

Всъщност нещата са далеч по-прости – има доста сканирани книги, които никой не желае да разпознае и коригира и само пълнят ателието. Затова идеята е да се сглобят в прилично DjVu (не е нужно да е перфектно, но не е желателно да е сглобено набързо) и да се качат в този им вид; ако някой има желание, в последствие може да ги обработи до текст. 99% от тях са само текст, така че няма да има „играчка“ с картинки. OCR-а също е ненужен, имайки предвид целта на обработката – просто не си заслужава загубата на време. Ако искаш, пробвай „Открадването на огъня“, но пак повтарям – не гони съвършенство като краен DjVu, а просто го разглеждай като компактна основа за по-нататъшна обработка.

Разбира се, има и други случаи – албуми, енциклопедии, комикси и др.подобни, – за които с удоволствие ще се възползваме от експертния ти опит. Ако ти се занимава, може да нахвърляш и някоя статия по въпроса; ще я качим в уикито.
gegencho
Мнения: 2
Регистрация: 20 септември 2013, 14:34

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от gegencho »

Спретнах едно DJVU, и го пуснах по формата която ми се отвори за да взема скановете. Нали не съм объркал нещо? Е, постарах се повечко, ама се чете прилично. Според мене повече не му и трябва :)

Не съм много по писането на статии, виж, ако ме огрее музата (случва се понякога) може. Ако има обаче конкретни практически въпроси, ще се радвам ако мога да помогна.

Какъв е планът нататък? Вие имате поглед над нещата, предлагайте. Ако не тука, пощата трябва да ми имате (при регистрацията).
zograf-ratnik
Мнения: 1
Регистрация: 08 септември 2012, 23:41

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от zograf-ratnik »

Здравейте на всички които сте любители на книгите!
Тази тема ме заинтересува защото професиално се занимавам и със сканиране и обработване на документи до PDF. Разполагам с необходимата техника за бързо сканиране в TIFF и PDF. Мога да помогна и само с обработването на документи от TIFF в PDF, което не е толкова сложно. А това става с една много проста програмка наречена PDF Creator, която работи като емулатор на принтер ( т.е. все едно принтирате, а в действителност получавате PDF документ).
Ако някой иска да се свърже с мен да ми пише на hristomezev {{при}} abv.bg
glarus63

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от glarus63 »

Вече имам опит в това. Тук съм сканирал няколко книжки на Христо Фотев:
http://dfiles.eu/files/rg3lxkx0f
http://dfiles.eu/files/0jfc739wt
http://dfiles.eu/files/yaya5f6fx

Същите съм обработил и в PDF формат.
Имам готовим - отсканирани и пакетирани с OCR слой и интерактивно съдържание основни книги на Хегел и Критика на чистия разум на Кант. Поради обема не аная как да ви ги изпратя.

Бих искал да се включа в проекта.

[email protected]
Mandor
Мнения: 752
Регистрация: 19 август 2006, 10:56
Връзка:

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от Mandor »

glarus63 написа:Тук съм сканирал няколко книжки на Христо Фотев:
Успях да изтегля само едната, след това ми се скараха, че много съм теглил (2 МБ) и трябвало да чакам; би ли ги качил на някой по-нормален сървър?
Изглежда почти отлично; не мога само да разбера защо всички обработчици толкова мразят белите полета на книгите, та ги отрязват почти „на живо“ при обработката? :D В първата книга вътрешните страници са с три сантиметра по-ниски от кориците.
И 600 dpi за корица ми изглежда малко множко, но… тъй като останалото си е идеално, може да се класифицира като „бели кахъри“.
Отговор

Обратно към

Кой е на линия

Потребители, разглеждащи форума: 0 гости