Няколко въпроса за сканиране на книги

Един е питал, друг — отговарял…
Правила
Уважавайте другите участници и се отнасяйте с тях така, както бихте желали те да се отнасят с вас!
Отговор
Eternities
Мнения: 17
Регистрация: 25 януари 2009, 17:37

Няколко въпроса за сканиране на книги

Мнение от Eternities »

Здравейте :)

Искам да се включа в обогатяването на този хубав сайт.
Сканирала съм, ocr-вала и редактирала доста книги за един друг сайт, част от тях се намират вече и тук, но засега това, което предлагам, е само да сканирам книги и да ги предоставям за последваща обработка.

Прегледах това, което вече е писано във форума за сканирането, но не ми станаха ясни няколко неща, извинявам се, ако вече е обсъждано, а по няккава причина аз не съм го видяла.

Ето въпросите, които ме интересуват:
1) В какъв формат да сканирам книгата - в един или повече pdf-файла /според обема й/ - така съм процедирала досега, или в jpg.

2) След като архивирам файловете и ги кача на някой файлообменник, къде да поставя линка - в полето "коментари" или да го пратя с лична бележка на някого?

3) Сканираните "картинки" се получават обърнати на 180 градуса, понеже чисто технически ми е по-лесно така да разлиствам и поставям книгата, а не намирам къде да коригирам това в самия скенер, досега не е било проблем, понеже FineReader-а може да ги обърне, надявам се и занапред да е така.

Имам домашна библиотека от няколко хиляди книги, надявам се да споделя една част от тях с читателите на сайта :) Погледнах раздела "търси се", ще сканирам "Идиот" на Достоевски и "Сто години самота" на Маркес, а и др.
Но като за начало мисля да започна със "Степния вълк" на Херман Хесе.

:)
Аватар
нт
Мнения: 176
Регистрация: 04 февруари 2007, 01:53

Re: Няколко въпроса за сканиране на книги

Мнение от нт »

Eternities написа:Здравейте :)

...
Но като за начало мисля да започна със "Степния вълк" на Херман Хесе.
...
Здравей и добре дошла!

На техническите въпроси по организацията на 'работа в екип' ще отговорят други, по-опитни от мен.
Аз исках само да кажа, че добрият вкус винаги ме радва.

Поздрави и успех в начинанието.
нт
Eternities
Мнения: 17
Регистрация: 25 януари 2009, 17:37

Мнение от Eternities »

Добре заварили и благодаря :D

Докато чакам отговора на горните въпроси ми хрумна още един - има ли книги, които би трябвало да избягвам, било поради вида на шрифта /напр. Timok-a, който упорито саботира опитите да бъде безгрешно ocr-нат / или пък заради издателството или заради жанра?

Поздрави и хубав ден! :D
nlr
Мнения: 63
Регистрация: 29 декември 2006, 15:06
Местонахождение: Варна

Мнение от nlr »

Макар в последно време нищо да не сканирам и редактирам, все пак да си кажа :)

1 - Аз лично предпочитам jpg.
2 - Нищо не пречи да го пльоснеш в "Коментар".
3 - FR-а сам си ги обръща без проблем, но ако си ги сканирала в jpg - човек може и ръчно да си ги оправи. Някои предпочитат да правят и магии на файловете, че по-лесно да се разпознават.
4 - Заради издателство и жанр - не. Заради шрифт - преди да сканираш всичко, разпознай 1-2 страници и (щом няма ти да редактираш) прецени дали искаш да причиниш всичко това на някой друг. :lol:

Иначе - добре дошла и само напред. :lol:
MBB

Мнение от MBB »

Здрасти и от мен...
на въпросите ти първо:
PDF-а не се тачи тук. Предполагам досега директно си сканирала в ПДФ и затова.
Най-бързо във FR поне при мен зарежда TIFF. JPG също забозва при зареждане на много файлове. Също и резолюцията не нужно да е над 300dpi.
Шрифтовете винаги могат да се конвертнат от и към друг- има си програмки за това. С тимок не съм имал проблеми поне.
А и най-важното - избягвай да сканираш книги на които има повече от 3 цвята на корицата и фамилията на писателя е удебелена и подчертана метализирано и лъскаво... Вярвам че сама ще се досетиш че подобна украса е предназначена за да активира консуматорския дял от мозъка на читателите ... който в последно време е водещ при мисленето и избора даже и на книжки... Успех!
Eternities
Мнения: 17
Регистрация: 25 януари 2009, 17:37

Мнение от Eternities »

Благодаря за отговорите :)

Да, досега сканирах направо в пдф и не съм имала проблеми при разпознаването.
Ще поразровя моя скенер /който е една досано умна машина/, ако не намеря tif, ще опитам с jpg. Утре ще сканирам една книга и ще видим, как ще потръгне работата след мен. В процеса на работата ще дошлифоваме нещата :)

Извинявам се за многото въпроси, но ценя труда, който се влага, докато една книга премине от хартиен в електронен вид, затова гледам да намаля грешките до минимум.

/А Тимока прави проблеми само с някои версии на ФайнРийдъра, имам предвид това, че в него малките букви в, ж, к са високи колкото главните и при разпознаване в получения текст излизат главни, или пък ж се трансформира с две други букви./

Разбрах те МВВ, има достатъчно "световна класика", без лъскави букви и луксозни корици ;)

И още едно въпросче, да сканирам ли или да прескачам текстовете в края или началото на книгата, в които има представяне и коментар на книгата, обикновено от преводача?
Често там пише, особено в по-старите книги, как "романът е рязка критика и отрицание на буржоазния свят" или се обяснява "влиянието на четивото върху марксистко-ленинския мироглед на народните маси" :)
MBB

Мнение от MBB »

В никакъв случай не орязвай коментара или рецензията на книгата.
Той си е неотменна част от книжката и времето когато е издадена.
Все едно да разковеш дървената рамка на някоя картина от XVIIIв и да я замениш с алуминиева или пиринчена , щот е по-модерна и лъскава...
Аватар
piligrim
Мнения: 55
Регистрация: 18 април 2007, 22:32
Местонахождение: Русе

Мнение от piligrim »

Да! Например избягвай да сканираш ето това:

Изображение

Има повече от 3 цвята на корицата и фамилията на писателя е удебелена и подчертана метализирано и лъскаво...

:lol: :lol: :lol: Извинявай МВВ! Просто не можах да се сдържа... :wink:

Всъщност мисля, че МВВ има в предвид нещо като това:

Изображение

Е! Може би не само него... Но той си знае...

А с това:
В никакъв случай не орязвай коментара или рецензията на книгата.
Той си е неотменна част от книжката и времето когато е издадена.
Все едно да разковеш дървената рамка на някоя картина от XVIIIв и да я замениш с алуминиева или пиринчена , щот е по-модерна и лъскава...
съм напълно съгласен!!!
Eternities
Мнения: 17
Регистрация: 25 януари 2009, 17:37

Мнение от Eternities »

В никакъв случай не орязвай коментара или рецензията на книгата.
Той си е неотменна част от книжката и времето когато е издадена.
Това е вярно, но според мен само донякъде :)
Когато един автор е писал книга в началото на 20-ти век, едва ли му е хрумнало дори, че книгата му ще бъде преведена и издадена в някоя държава по времето на нейния зрял социализъм :) Така предговорът доста често не е неотменна част от книгата :) Само от времето, когато е издадена. В друго време при други обстоятелства и коменетарите биха били /и са/ различни :)

Цензурата в ония времена не е позволявала да се издаде книга, на всяка страница на която се споменава например думата "медитация", ако в предговора и/или заключението, не е било написано, че с техниките на йога и дао ще израсте здрава социалистическа младеж :)
Може би това е била "цената", която се е плащала, за да види бял свят книгата и у нас.

Аз си мисля, че един такъв предговор може да откаже съвременната несоциалистическа младеж, която и без това вече не чете книги, съвсем от четенето.
Макар че - сега ще се самоопровергая :) - всъщност съм убедена, ако една книга е за някого, то той си намира път до нея, или тя до него, все едно... :)

Ще сканирам всичко наред, от корица до корица :)

И имам още един въпрос.
Първата книга, която сканирах и качих тук, е "Степният вълк" на Херман Хесе. Сканирах я цялата като multiple pages и после я записах в tif, при което се получи един-единствен файл с размер 120 МБ, както се получава и при pdf-формата. Пък аз си мислех, че ще се получат много картинки - както е при jpg. Бъркам ли нещо някъде? Ако може някой да погледне и да ми каже, за да продължавам със сканирането.
Поздрави и усмихнат ден :)
nlr
Мнения: 63
Регистрация: 29 декември 2006, 15:06
Местонахождение: Варна

Мнение от nlr »

Няма проблем с текста. Е, в началото курсива малко се позапъва, ама не е болка за умиране.
Продължавай. :)
Eternities
Мнения: 17
Регистрация: 25 януари 2009, 17:37

Мнение от Eternities »

Добре :)
Само не разбрах, как да продължавам - в tif или jpg? :)
Аватар
Boman
Мнения: 89
Регистрация: 03 февруари 2007, 08:24

Мнение от Boman »

Eternities, не е от голямо значение дали записваш в jpg или tif. Но ако сканираш черно-бяло или сиво, е по-добре да записваш в tif или png, защото jpg може да записва само 32-битов цвят, така че файлът няма да е по-малък от компресиран tif, а и ще се обработва малко по-бавно при разпознаване. Колкото до въпроса за един голям tif, това би трябва да е някъде в настройките на програмата, която използваш за обработката и записването. Tif е контейнер (от рода на avi за видео), който може да съдържа различни формати на картинката, та дори и да съхрани jpg в себе си. Всичко зависи от настройката на програмата какъв вид tif да записва. Така че е въпрос на настойка дали ще го запишеш като multipage tif, който съдържа всички картинки или не.
Закон на Мърфи: ако мнението ми във форума може да бъде разбрано погрешно, то това ще стане!
Eternities
Мнения: 17
Регистрация: 25 януари 2009, 17:37

Мнение от Eternities »

Извинявам се, че толкова време ви занимавам, но не намирам в програмата на скенера настройка за определяне на вида на tif-а :oops:
Освен в този един голям тиф мога да записвам сканираното в pdf или jpg, това е.
Засега ще сканирам в jpg, надявам се, ако създавам неудобство, то да не е голямо.
Аватар
Boman
Мнения: 89
Регистрация: 03 февруари 2007, 08:24

Мнение от Boman »

Eternities, би ли ми казала кой е моделът на скенера, който използваш?
Закон на Мърфи: ако мнението ми във форума може да бъде разбрано погрешно, то това ще стане!
Eternities
Мнения: 17
Регистрация: 25 януари 2009, 17:37

Мнение от Eternities »

Имам Xerox DC3535 /копир, скенер и лазерен принтер в едно/, сканирания документ "изтеглям" от ксерокса на компютъра ми с помощта на софтуер Fiery Remote Scan.
Аватар
Boman
Мнения: 89
Регистрация: 03 февруари 2007, 08:24

Мнение от Boman »

В ръководството се казва само, че можеш да избереш pdf, jpg или tif. Предполагам, че ако избереш всички страници от менюто за записване (All pages), ти дава един голям tif с всички страници. Ако избереш страниците една по една, сигурно ще ги запише поотделно, но не си заслужава труда. Лесно можеш да извадиш всички страници наведнъж от големия tif с IrfanView например (View->Multiple Images->Extract all pages…). Сигурно и Xnview прави същото. Още нещо, видях, че можеш да избереш jpg само ако картинките са цветни. Затова предполагам, че сканираш цветно. Бих те посъветвал да експериментираш със сиво (Grayscale) или черно-бяло сканиране, като настройваш контраста за определната книга. По този начин би се улеснила последващата обработка и tif-овете ще са по-малки.
Закон на Мърфи: ако мнението ми във форума може да бъде разбрано погрешно, то това ще стане!
Аватар
нт
Мнения: 176
Регистрация: 04 февруари 2007, 01:53

Мнение от нт »

Извинявам се, че се включвам с голямо закъснение. Седмицата ми беше много напрегната и нямах време да погледна форума.

Съвсем кратко допълнение към казаното от Boman.

Ако драйверът за скенера е TWAIN compliant, каквито би трябвало да бъдат всички съвременни скенери, уеб камери и фотоапарати, той може да бъде извикан през всяка програма, която поддържа TWAIN стандарта.

В случая, като пропагандатор на XnView, ще препоръчам да се ползва XnView за инициация и файл-мениджмънт на сканирането.

Как?

1. Когато се стартира XnView би трябвало само да разпознае и има списък от системата на TWAIN устройствата. За да сме сигурни, проверяваме от менюто FILE > SELECT TWAIN SOURCE, където в отворилата се диалогова кутия избираме желаното устройство (в случая скенер, но може да бъде фотоапарат, уеб камера и т.н.). Тази процедура се извършва само веднъж.

Изображение

2. Програмата ни дава възможност да избираме между повече формати, в които файловете да бъдат записани, а също така автоматично номерира поредиците.
-- от FILE > ACQIRE INTO... извикваме следната диалогова кутия, където показваме къде да бъдат записани картинките, с какво име, колко знака в номерацията

Изображение

кликаме options и избираме настройки за текущия файлов формат
Настройките за TIFF са както следва:
Изображение
потвърждаваме настройките с ОК

3. Натискаме бутона SCAN, който извиква TWAIN driver интерфейса

4. Сканираме PREVIEW на една типична страница и правим настройки на резолюция (300dpi), цветност (срещал съм наименованията greyscale, 8bit-gray, 256 gray или Black and White Photo. всичките значат едно и също). Избираме останалите настройки, като Levels, Brightness & Contrast и подобни, така че изображението да бъде максимално контрастно и добре изглеждащо.

5. Без повече PREVIEW, сканираме поредици от страници с едни и същи настройки, като не затваряме кутията за сканиране, а просто натискаме бутона SCAN, SCAN, SCAN.

Резултатите могат да бъдат преглеждани през XnView между сканирането на отделните страници без да се затваря интерфейса на скенера.


Ако искаме да сканираме книгата на части, затваряме всичко, а на следващия път XnView ще ни предложи да започне номерацията от там където е спрял предишния.

За повече инфо е хубаво да се види и тази тема.

Поздрави и успех!
Аватар
Boman
Мнения: 89
Регистрация: 03 февруари 2007, 08:24

Мнение от Boman »

нт, чудесно ръководство. Може би си заслужава да се сложи при Важните теми. Само едно малко уточнение — в случая става въпрос за мрежова цветна копирна машина Ксерокс, която сканира от менюто на панела си и записва сканираното на свой хард драйв; има мрежов интефейс, който използва свой клиентски софтуер, за да прехвърли сканираното на компютър.
Закон на Мърфи: ако мнението ми във форума може да бъде разбрано погрешно, то това ще стане!
Аватар
нт
Мнения: 176
Регистрация: 04 февруари 2007, 01:53

Мнение от нт »

Boman написа:нт, чудесно ръководство. ...
Благодаря, Boman!
Дано сме били полезни.

Сега, когато ми обърна внимание върху спецификата на устройството, което аз бях пропуснал, мисля че постингът ми не е особено адекватен за случая. :( А възможността да се ескстрактнат единичните страници от multipage TIFF контейнера ти вече я беше споменал по-рано.

За съжаление нямам време да прегледам ръководството на цитирания модел и да прочета по форуми дали има писано по въпроса за сканиране поединично и записване във формат с lossless или никаква компресия (което, смятам, е напълно задължително за всяко едно устройство, а BMP е задължителен формат за всички Windows базирани приложения).

нт
Аватар
ivand58
Мнения: 55
Регистрация: 03 юли 2007, 21:53

Мнение от ivand58 »

здравейте

последвах инструкциите, свалих XnView, обаче се появи следния проблем. Понеже апарата(камерата) ми е Canon A630 и се оказа, че не може са се сканира респ. снима от компютъра, а само да се свалят вече заснетите снимки. Както и да е, настроих записа да става във въпросния ТИФФ формат, обаче се появи следното неудобство: отначало параметъра DPI беше 72х72, за размер 3264,2448. После като смалих размера на снимката DPI стана 671 х 671 за всички размери ?!
Ето и въпроса:
1. какъв размер на снимката да избера и
2. как да сложа DPI 300 х 300, както препоръчвате?
Предполагам, че след като DPI е точки на инч, трябва да измеря по-късата страна на книгата в инчове и за умножа по 300? Така ли се определя необходимата резолюция? Или да сложа максималната?
Аватар
Boman
Мнения: 89
Регистрация: 03 февруари 2007, 08:24

Мнение от Boman »

ivan58:
Остави изчисленията за ракиено време. :D
DPI няма нищо общо с броя (не размера на екран или принтер) на точките в картинката. Те са независими понятия. DPI казва на програмите или на принтера каква е плътността на картинката (Dots Per square Inch - точки на квадратен инч). Не смалявай снимката и си я остави на максималните 3264x2448 pixels (точки) за твоя модел. Dots=Pixels=Точки. Екраните използват понятието pixel за точките на екрана и им е достатъчна 72x72dpi, за да изглеждат добре. Принтерите използват понятието dot за изплютата капка на хартията и им трябват поне 150-200dpi (и повече), за да изглежда картинката добре. Това значи, че твоята картинка от 3264x2448 pixels (точки) ще бъде с размери 115.1x86.4cm (45.3"x34.0") при 72x72dpi и 27.6x20.7cm (10.9"x8.2") при 300x300dpi. Тези сметки се правят по ракиено време.:lol: На разпознаващата програма ѝ трябват поне 300 dpi за правилна работа. Затова само промени dpi на картинката на 300x300 и не забравяй да запишеш файла.
IrfanView: Image->Information…->Resolution->Change->OK
Xnview: Image->Set DPI…->OK
Закон на Мърфи: ако мнението ми във форума може да бъде разбрано погрешно, то това ще стане!
Гост

Мнение от Гост »

Boman написа: Xnview: Image->Set DPI…->OK
благодаря за обяснението. Само да питам "а това за какво е": Change EXIF DPI if exist ?(появява се в менюто за смяна на DPI)
Аватар
Boman
Мнения: 89
Регистрация: 03 февруари 2007, 08:24

Мнение от Boman »

Маркирай EXIF, за да съответсва. EXIF са стандартизирани данни под формата на мета-тагове в jpg, tif rev.6.0 файловете, които се записват от фотоапарата или обработващата програма, и дават информация относно различните настройки и статистика при съдаването и обработването на картинките, напр.: бленда (диафрагма), скорост, светлочувствителност на CCD матрицата, ориентация, резолюция, модел на фотоапарата, режим на снимане и много други такива.
Закон на Мърфи: ако мнението ми във форума може да бъде разбрано погрешно, то това ще стане!
Отговор

Обратно към

Кой е на линия

Потребители, разглеждащи форума: 0 гости