Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Правила
Уважавайте другите участници и се отнасяйте с тях така, както бихте желали те да се отнасят с вас!

Отговор на темата


This question is a means of preventing automated form submissions by spambots.
Усмивки
:D :) :( :o :shock: :? 8) :lol: :x :P :oops: :cry: :evil: :twisted: :roll: :wink: :!: :?: :idea: :arrow: :| :mrgreen:
BBCode е включен
Кодът [img] е включен
Кодът [flash] е изключен
Кодът [url] е включен
Усмивките са включени
Преглед на темата
   

Разгъване Преглед на темата: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от Mandor » 07 ноември 2013, 08:59

glarus63 написа:Тук съм сканирал няколко книжки на Христо Фотев:
Успях да изтегля само едната, след това ми се скараха, че много съм теглил (2 МБ) и трябвало да чакам; би ли ги качил на някой по-нормален сървър?
Изглежда почти отлично; не мога само да разбера защо всички обработчици толкова мразят белите полета на книгите, та ги отрязват почти „на живо“ при обработката? :D В първата книга вътрешните страници са с три сантиметра по-ниски от кориците.
И 600 dpi за корица ми изглежда малко множко, но… тъй като останалото си е идеално, може да се класифицира като „бели кахъри“.

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от glarus63 » 07 ноември 2013, 08:37

Вече имам опит в това. Тук съм сканирал няколко книжки на Христо Фотев: http://dfiles.eu/files/rg3lxkx0f http://dfiles.eu/files/0jfc739wt http://dfiles.eu/files/yaya5f6fx

Същите съм обработил и в PDF формат.
Имам готовим - отсканирани и пакетирани с OCR слой и интерактивно съдържание основни книги на Хегел и Критика на чистия разум на Кант. Поради обема не аная как да ви ги изпратя.

Бих искал да се включа в проекта.
[email protected]

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от zograf-ratnik » 29 септември 2013, 15:51

Здравейте на всички които сте любители на книгите!
Тази тема ме заинтересува защото професиално се занимавам и със сканиране и обработване на документи до PDF. Разполагам с необходимата техника за бързо сканиране в TIFF и PDF. Мога да помогна и само с обработването на документи от TIFF в PDF, което не е толкова сложно. А това става с една много проста програмка наречена PDF Creator, която работи като емулатор на принтер ( т.е. все едно принтирате, а в действителност получавате PDF документ).
Ако някой иска да се свърже с мен да ми пише на hristomezev {{при}} abv.bg

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от gegencho » 21 септември 2013, 22:26

Спретнах едно DJVU, и го пуснах по формата която ми се отвори за да взема скановете. Нали не съм объркал нещо? Е, постарах се повечко, ама се чете прилично. Според мене повече не му и трябва :)

Не съм много по писането на статии, виж, ако ме огрее музата (случва се понякога) може. Ако има обаче конкретни практически въпроси, ще се радвам ако мога да помогна.

Какъв е планът нататък? Вие имате поглед над нещата, предлагайте. Ако не тука, пощата трябва да ми имате (при регистрацията).

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от Mandor » 21 септември 2013, 10:56

gegencho написа:Добавям OCR слой с FineReader по моя технология…
Генчо – авторът на DjVuOCR? :D

Всъщност нещата са далеч по-прости – има доста сканирани книги, които никой не желае да разпознае и коригира и само пълнят ателието. Затова идеята е да се сглобят в прилично DjVu (не е нужно да е перфектно, но не е желателно да е сглобено набързо) и да се качат в този им вид; ако някой има желание, в последствие може да ги обработи до текст. 99% от тях са само текст, така че няма да има „играчка“ с картинки. OCR-а също е ненужен, имайки предвид целта на обработката – просто не си заслужава загубата на време. Ако искаш, пробвай „Открадването на огъня“, но пак повтарям – не гони съвършенство като краен DjVu, а просто го разглеждай като компактна основа за по-нататъшна обработка.

Разбира се, има и други случаи – албуми, енциклопедии, комикси и др.подобни, – за които с удоволствие ще се възползваме от експертния ти опит. Ако ти се занимава, може да нахвърляш и някоя статия по въпроса; ще я качим в уикито.

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от gegencho » 20 септември 2013, 14:54

Здравейте!

Аз имам богат опит в правенето на Djvu книги, занимавам се с този формат още от създаването му. Сканирането ми е проблем поради издъхването на скенера, обработвам със ScanKromsator, подравнявам буквите с CPC Tools, в редки случаи изправям страниците с Book Restorer, компресирам с Lizardtech DjVu Document Express Editor 6 в различни режими. Добавям OCR слой с FineReader по моя технология, получава се перфектно възможност за търсене и copy-paste от Djvu книгата. Получавам много добри резултати при черно-бели книги (с и без картинки), с цветните имам по-малък опит. Мога да покажа мостри.

За такава обща цел имам възможност да заделя време, така че давайте скановете и да почваме.

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от magika24 » 04 септември 2013, 11:44

Ако все още се нуждаете от помощ, мога да се пробвам. Може да ми дадете нещо да обработя или да ви пратя вече обработено.

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от elemagan » 31 август 2013, 00:26

Значи, Мандор, ето каква я свърших:
Тук се намират три пробни Djvu-та с извадки от трите книги.

Етапите накратко:
Сканиране — двойните страници ги снимах на три части и ги слях с фотошопа. В режим Fit Width изглеждат като редовни страници, само че в ландскейп. Ако се прикрие сгъвката, форзаци с панорами и гравюри стоят много добре.

Scan Tailor — всички сканове са относително подравнени, като за ниво проба, по-нататък ще сме по-прецизни. :wink: Изходните цветни TIFF-ове ги обърнах в JPG, сивите ги оставих така, всичко на 300 dpi.

За комбинирането ползвах Djvu Solo, защото с нея стана най-лесно. Другите програми — DjvuLibre нещо не успях да я инсталирам, а Minidjvu май иска Internet Explorer и там също ударих на камък.
Една подробност: И трите 'мостри' са резултат от обединяване (merge) на няколко еднотипни (само цветни или само сиви) Djvu-та, които направих предварително. Съединих ги накрая с DjVuToy. Реших един вид да улесня автоматичния сегментатор, но както и предположих резултатът не е с високо качество.

Явно, както казваш, най-важна е предварителната обработка, така че да се постигне или подготви „разделното сегментиране“. Е, нямам идея как се прави това, но по инструкциите ти (тук или на л.б.) се надявам да схвана метода. Подозирам, че за някакво селектиране на зони с разл. сегментация става дума, дано не е чак такава трудност, за каквато намекваш. ) :roll:

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от Mandor » 30 август 2013, 08:05

Точно CCITT G4 не е подходяща, защото работи само за ч/б изображения, а при сканиране е желателно да се използват сиви/цветни картинки. Но при TIF и PNG може да използваш произволна налична компресия — LZW, ZIP — каквото ти предоставя програмата.

За програмите — ако стигнеш до там, ще те инструктирам; както вече казах, най-времеотнемащата дейност е предварителната обработка на скановете, а самото пакетиране в DjVu е сравнително елементарно.

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от elemagan » 29 август 2013, 13:47

№ 4. Имах предвид компресирането на TIFF в CCITT G4, което аз все още не правя, но подразбирам (от 1.), че не е съществено „технологично“ изискване. Четох няколко пъти „DjVu (информация за начинаещи)“ и на теория схващам нещата, но програмите не са ми познати. Изтеглих някои, ще ги пробвам и като/ако се понауча ще пратя… „мостри“ по-нататък. Инат и упоритост не ми липсват — особено ако трудът си струва и улуча правилния метод. )

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от Mandor » 29 август 2013, 08:01

elemag_an, длъжен съм да те предупредя, че си посочил почти най-тежките случаи за кодиране. Ще изискват доста инат и упоритост, за да се обработят. Но на въпросите:

1. Сканираш така, сякаш ще я разпознаваш. Т.е. — 300 dpi, цветните — в цветно, ч/б и сивите — в сиво. Формат — ако можеш да зададеш нивото на компресия, дори и JPG на 90% ще свърши работа. Ако не — TIF или PNG с произволна компресия.
2. Зависи на какво казваш „изрязване“. Ако е втория етап — „Разделяне на страници“ — само по сгъвката (ако изобщо ще я разделяш). Ако е „Определяне на полезната област“ — само участъка с информация; после с полетата възстановяваш оригиналният (или близо до него) размер на страницата.
3. Както реши обработчика. Ако иска, разделя на две страници, за да запази еднаквостта на всички страници; ако иска — слива двете страници, за да запази изображението. В DjVu всяка страница може да има различни размери.
4. Не разбрах въпроса.

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от elemagan » 28 август 2013, 19:34

Eто тук съм качил снимки на книги, които искам да сканирам за Djvu. Мандор, може ли ти или друг да ги видите и да кажете с какви настройки да ги сканирам? Или и аз да намина в чата? :wink:
Значи, интересува ме:
1. На колко dpi и в какъв формат трябва да се сканират?
2. Изрязването в Scan Tailor трябва да е точно по "контура" на страницата или по-скоро информативната част да се озове в центъра?
3. Какво правим с изображения, разположени и на двете страници? Заедно в едно изображение ли се запазват? Когато скенера не ги побира обикновено ги сливам с Фотошоп.
4. Трябва ли някаква допълнителна компресия да се прави, за да заемат по-малък размер?

Мога да пратя пробни сканове и на трите книги, но да уговорим първо как да сканирам "пробите".

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от Mandor » 28 август 2013, 07:52

90-95% от подготовката на една книга за пакетиране се заема от обработката с програми като ScanTailor или ScanKromsator; за начинаещи препоръчвам първата.
Останалото е елементарно.

Така че — разгледайте програмата, прочетете как се използва, поиграйте си с нея и ако все още имате желание, заповядайте в чата в почивните дни, за да го обсъдим.

П.П. И още нещо — ако възнамерявате да помагате, моля ви, поне се регистрирайте.

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от monimo » 27 август 2013, 09:11

Искам и аз да се включа.

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от Nika » 27 август 2013, 09:07

Здравейте,
И аз бих искала да се включа. Как може да стане това?

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от old4x » 26 август 2013, 21:40

Хайде, давайте файловете! Нямам скенер, така че мога да помогна само с това. И с "поправка" на печатни грешки. Например в Списъка на книгите от "Ателието" мернах думата кОршум. Пише се куршум, колкото и да е обидно. [Сребърен коршум, Майкъл Конъли]

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от Mandor » 18 август 2013, 11:37

aquariuz написа:Мога да пробвам. За комикси ли става въпрос? :)
Не, предимно за „нормални“ книги.

Желаещите могат да „наминат“ през чата, за да обсъдим подробностите.

Re: Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от aquariuz » 17 август 2013, 23:13

Мога да пробвам. За комикси ли става въпрос? :)

Обработка на сканирани страници за пакетиране в DjVu и/или PDF

Мнение от petrovich » 11 август 2013, 17:06

Библиотеката има нужда от хора, които могат да отделят от свободното си време за обработка на сканирани страници, които да бъдат пакетирани в DjVu и/или PDF формат (става въпрос за произведения, които не могат да бъдат цифровизирани по друг начин).
Можете да се запознаете със статията „DjVu (информация за начинаещи)“, както и „Обработка на сканирани изображения чрез Scan Tailor“.

Нека всеки, който желае да помогне, да се включи в тази тема, за да направим няколко проби и да видим как се справя с обработката на вече сканирани страници.

Към началото