Страница 1 от 1

Няколко въпроса за сканиране на книги

Пуснато: 25 януари 2009, 17:58
от Eternities
Здравейте :)

Искам да се включа в обогатяването на този хубав сайт.
Сканирала съм, ocr-вала и редактирала доста книги за един друг сайт, част от тях се намират вече и тук, но засега това, което предлагам, е само да сканирам книги и да ги предоставям за последваща обработка.

Прегледах това, което вече е писано във форума за сканирането, но не ми станаха ясни няколко неща, извинявам се, ако вече е обсъждано, а по няккава причина аз не съм го видяла.

Ето въпросите, които ме интересуват:
1) В какъв формат да сканирам книгата - в един или повече pdf-файла /според обема й/ - така съм процедирала досега, или в jpg.

2) След като архивирам файловете и ги кача на някой файлообменник, къде да поставя линка - в полето "коментари" или да го пратя с лична бележка на някого?

3) Сканираните "картинки" се получават обърнати на 180 градуса, понеже чисто технически ми е по-лесно така да разлиствам и поставям книгата, а не намирам къде да коригирам това в самия скенер, досега не е било проблем, понеже FineReader-а може да ги обърне, надявам се и занапред да е така.

Имам домашна библиотека от няколко хиляди книги, надявам се да споделя една част от тях с читателите на сайта :) Погледнах раздела "търси се", ще сканирам "Идиот" на Достоевски и "Сто години самота" на Маркес, а и др.
Но като за начало мисля да започна със "Степния вълк" на Херман Хесе.

:)

Re: Няколко въпроса за сканиране на книги

Пуснато: 25 януари 2009, 23:47
от нт
Eternities написа:Здравейте :)

...
Но като за начало мисля да започна със "Степния вълк" на Херман Хесе.
...
Здравей и добре дошла!

На техническите въпроси по организацията на 'работа в екип' ще отговорят други, по-опитни от мен.
Аз исках само да кажа, че добрият вкус винаги ме радва.

Поздрави и успех в начинанието.
нт

Пуснато: 26 януари 2009, 10:59
от Eternities
Добре заварили и благодаря :D

Докато чакам отговора на горните въпроси ми хрумна още един - има ли книги, които би трябвало да избягвам, било поради вида на шрифта /напр. Timok-a, който упорито саботира опитите да бъде безгрешно ocr-нат / или пък заради издателството или заради жанра?

Поздрави и хубав ден! :D

Пуснато: 26 януари 2009, 13:23
от nlr
Макар в последно време нищо да не сканирам и редактирам, все пак да си кажа :)

1 - Аз лично предпочитам jpg.
2 - Нищо не пречи да го пльоснеш в "Коментар".
3 - FR-а сам си ги обръща без проблем, но ако си ги сканирала в jpg - човек може и ръчно да си ги оправи. Някои предпочитат да правят и магии на файловете, че по-лесно да се разпознават.
4 - Заради издателство и жанр - не. Заради шрифт - преди да сканираш всичко, разпознай 1-2 страници и (щом няма ти да редактираш) прецени дали искаш да причиниш всичко това на някой друг. :lol:

Иначе - добре дошла и само напред. :lol:

Пуснато: 26 януари 2009, 21:19
от MBB
Здрасти и от мен...
на въпросите ти първо:
PDF-а не се тачи тук. Предполагам досега директно си сканирала в ПДФ и затова.
Най-бързо във FR поне при мен зарежда TIFF. JPG също забозва при зареждане на много файлове. Също и резолюцията не нужно да е над 300dpi.
Шрифтовете винаги могат да се конвертнат от и към друг- има си програмки за това. С тимок не съм имал проблеми поне.
А и най-важното - избягвай да сканираш книги на които има повече от 3 цвята на корицата и фамилията на писателя е удебелена и подчертана метализирано и лъскаво... Вярвам че сама ще се досетиш че подобна украса е предназначена за да активира консуматорския дял от мозъка на читателите ... който в последно време е водещ при мисленето и избора даже и на книжки... Успех!

Пуснато: 26 януари 2009, 21:59
от Eternities
Благодаря за отговорите :)

Да, досега сканирах направо в пдф и не съм имала проблеми при разпознаването.
Ще поразровя моя скенер /който е една досано умна машина/, ако не намеря tif, ще опитам с jpg. Утре ще сканирам една книга и ще видим, как ще потръгне работата след мен. В процеса на работата ще дошлифоваме нещата :)

Извинявам се за многото въпроси, но ценя труда, който се влага, докато една книга премине от хартиен в електронен вид, затова гледам да намаля грешките до минимум.

/А Тимока прави проблеми само с някои версии на ФайнРийдъра, имам предвид това, че в него малките букви в, ж, к са високи колкото главните и при разпознаване в получения текст излизат главни, или пък ж се трансформира с две други букви./

Разбрах те МВВ, има достатъчно "световна класика", без лъскави букви и луксозни корици ;)

И още едно въпросче, да сканирам ли или да прескачам текстовете в края или началото на книгата, в които има представяне и коментар на книгата, обикновено от преводача?
Често там пише, особено в по-старите книги, как "романът е рязка критика и отрицание на буржоазния свят" или се обяснява "влиянието на четивото върху марксистко-ленинския мироглед на народните маси" :)

Пуснато: 26 януари 2009, 22:17
от MBB
В никакъв случай не орязвай коментара или рецензията на книгата.
Той си е неотменна част от книжката и времето когато е издадена.
Все едно да разковеш дървената рамка на някоя картина от XVIIIв и да я замениш с алуминиева или пиринчена , щот е по-модерна и лъскава...

Пуснато: 28 януари 2009, 10:23
от piligrim
Да! Например избягвай да сканираш ето това:

Изображение

Има повече от 3 цвята на корицата и фамилията на писателя е удебелена и подчертана метализирано и лъскаво...

:lol: :lol: :lol: Извинявай МВВ! Просто не можах да се сдържа... :wink:

Всъщност мисля, че МВВ има в предвид нещо като това:

Изображение

Е! Може би не само него... Но той си знае...

А с това:
В никакъв случай не орязвай коментара или рецензията на книгата.
Той си е неотменна част от книжката и времето когато е издадена.
Все едно да разковеш дървената рамка на някоя картина от XVIIIв и да я замениш с алуминиева или пиринчена , щот е по-модерна и лъскава...
съм напълно съгласен!!!

Пуснато: 28 януари 2009, 10:59
от Eternities
В никакъв случай не орязвай коментара или рецензията на книгата.
Той си е неотменна част от книжката и времето когато е издадена.
Това е вярно, но според мен само донякъде :)
Когато един автор е писал книга в началото на 20-ти век, едва ли му е хрумнало дори, че книгата му ще бъде преведена и издадена в някоя държава по времето на нейния зрял социализъм :) Така предговорът доста често не е неотменна част от книгата :) Само от времето, когато е издадена. В друго време при други обстоятелства и коменетарите биха били /и са/ различни :)

Цензурата в ония времена не е позволявала да се издаде книга, на всяка страница на която се споменава например думата "медитация", ако в предговора и/или заключението, не е било написано, че с техниките на йога и дао ще израсте здрава социалистическа младеж :)
Може би това е била "цената", която се е плащала, за да види бял свят книгата и у нас.

Аз си мисля, че един такъв предговор може да откаже съвременната несоциалистическа младеж, която и без това вече не чете книги, съвсем от четенето.
Макар че - сега ще се самоопровергая :) - всъщност съм убедена, ако една книга е за някого, то той си намира път до нея, или тя до него, все едно... :)

Ще сканирам всичко наред, от корица до корица :)

И имам още един въпрос.
Първата книга, която сканирах и качих тук, е "Степният вълк" на Херман Хесе. Сканирах я цялата като multiple pages и после я записах в tif, при което се получи един-единствен файл с размер 120 МБ, както се получава и при pdf-формата. Пък аз си мислех, че ще се получат много картинки - както е при jpg. Бъркам ли нещо някъде? Ако може някой да погледне и да ми каже, за да продължавам със сканирането.
Поздрави и усмихнат ден :)

Пуснато: 28 януари 2009, 14:43
от nlr
Няма проблем с текста. Е, в началото курсива малко се позапъва, ама не е болка за умиране.
Продължавай. :)

Пуснато: 28 януари 2009, 15:20
от Eternities
Добре :)
Само не разбрах, как да продължавам - в tif или jpg? :)

Пуснато: 28 януари 2009, 17:07
от Boman
Eternities, не е от голямо значение дали записваш в jpg или tif. Но ако сканираш черно-бяло или сиво, е по-добре да записваш в tif или png, защото jpg може да записва само 32-битов цвят, така че файлът няма да е по-малък от компресиран tif, а и ще се обработва малко по-бавно при разпознаване. Колкото до въпроса за един голям tif, това би трябва да е някъде в настройките на програмата, която използваш за обработката и записването. Tif е контейнер (от рода на avi за видео), който може да съдържа различни формати на картинката, та дори и да съхрани jpg в себе си. Всичко зависи от настройката на програмата какъв вид tif да записва. Така че е въпрос на настойка дали ще го запишеш като multipage tif, който съдържа всички картинки или не.

Пуснато: 28 януари 2009, 17:31
от Eternities
Извинявам се, че толкова време ви занимавам, но не намирам в програмата на скенера настройка за определяне на вида на tif-а :oops:
Освен в този един голям тиф мога да записвам сканираното в pdf или jpg, това е.
Засега ще сканирам в jpg, надявам се, ако създавам неудобство, то да не е голямо.

Пуснато: 28 януари 2009, 20:52
от Boman
Eternities, би ли ми казала кой е моделът на скенера, който използваш?

Пуснато: 30 януари 2009, 10:49
от Eternities
Имам Xerox DC3535 /копир, скенер и лазерен принтер в едно/, сканирания документ "изтеглям" от ксерокса на компютъра ми с помощта на софтуер Fiery Remote Scan.

Пуснато: 30 януари 2009, 18:36
от Boman
В ръководството се казва само, че можеш да избереш pdf, jpg или tif. Предполагам, че ако избереш всички страници от менюто за записване (All pages), ти дава един голям tif с всички страници. Ако избереш страниците една по една, сигурно ще ги запише поотделно, но не си заслужава труда. Лесно можеш да извадиш всички страници наведнъж от големия tif с IrfanView например (View->Multiple Images->Extract all pages…). Сигурно и Xnview прави същото. Още нещо, видях, че можеш да избереш jpg само ако картинките са цветни. Затова предполагам, че сканираш цветно. Бих те посъветвал да експериментираш със сиво (Grayscale) или черно-бяло сканиране, като настройваш контраста за определната книга. По този начин би се улеснила последващата обработка и tif-овете ще са по-малки.

Пуснато: 31 януари 2009, 00:26
от нт
Извинявам се, че се включвам с голямо закъснение. Седмицата ми беше много напрегната и нямах време да погледна форума.

Съвсем кратко допълнение към казаното от Boman.

Ако драйверът за скенера е TWAIN compliant, каквито би трябвало да бъдат всички съвременни скенери, уеб камери и фотоапарати, той може да бъде извикан през всяка програма, която поддържа TWAIN стандарта.

В случая, като пропагандатор на XnView, ще препоръчам да се ползва XnView за инициация и файл-мениджмънт на сканирането.

Как?

1. Когато се стартира XnView би трябвало само да разпознае и има списък от системата на TWAIN устройствата. За да сме сигурни, проверяваме от менюто FILE > SELECT TWAIN SOURCE, където в отворилата се диалогова кутия избираме желаното устройство (в случая скенер, но може да бъде фотоапарат, уеб камера и т.н.). Тази процедура се извършва само веднъж.

Изображение

2. Програмата ни дава възможност да избираме между повече формати, в които файловете да бъдат записани, а също така автоматично номерира поредиците.
-- от FILE > ACQIRE INTO... извикваме следната диалогова кутия, където показваме къде да бъдат записани картинките, с какво име, колко знака в номерацията

Изображение

кликаме options и избираме настройки за текущия файлов формат
Настройките за TIFF са както следва:
Изображение
потвърждаваме настройките с ОК

3. Натискаме бутона SCAN, който извиква TWAIN driver интерфейса

4. Сканираме PREVIEW на една типична страница и правим настройки на резолюция (300dpi), цветност (срещал съм наименованията greyscale, 8bit-gray, 256 gray или Black and White Photo. всичките значат едно и също). Избираме останалите настройки, като Levels, Brightness & Contrast и подобни, така че изображението да бъде максимално контрастно и добре изглеждащо.

5. Без повече PREVIEW, сканираме поредици от страници с едни и същи настройки, като не затваряме кутията за сканиране, а просто натискаме бутона SCAN, SCAN, SCAN.

Резултатите могат да бъдат преглеждани през XnView между сканирането на отделните страници без да се затваря интерфейса на скенера.


Ако искаме да сканираме книгата на части, затваряме всичко, а на следващия път XnView ще ни предложи да започне номерацията от там където е спрял предишния.

За повече инфо е хубаво да се види и тази тема.

Поздрави и успех!

Пуснато: 31 януари 2009, 01:12
от Boman
нт, чудесно ръководство. Може би си заслужава да се сложи при Важните теми. Само едно малко уточнение — в случая става въпрос за мрежова цветна копирна машина Ксерокс, която сканира от менюто на панела си и записва сканираното на свой хард драйв; има мрежов интефейс, който използва свой клиентски софтуер, за да прехвърли сканираното на компютър.

Пуснато: 31 януари 2009, 08:49
от нт
Boman написа:нт, чудесно ръководство. ...
Благодаря, Boman!
Дано сме били полезни.

Сега, когато ми обърна внимание върху спецификата на устройството, което аз бях пропуснал, мисля че постингът ми не е особено адекватен за случая. :( А възможността да се ескстрактнат единичните страници от multipage TIFF контейнера ти вече я беше споменал по-рано.

За съжаление нямам време да прегледам ръководството на цитирания модел и да прочета по форуми дали има писано по въпроса за сканиране поединично и записване във формат с lossless или никаква компресия (което, смятам, е напълно задължително за всяко едно устройство, а BMP е задължителен формат за всички Windows базирани приложения).

нт

Пуснато: 31 януари 2009, 18:14
от ivand58
здравейте

последвах инструкциите, свалих XnView, обаче се появи следния проблем. Понеже апарата(камерата) ми е Canon A630 и се оказа, че не може са се сканира респ. снима от компютъра, а само да се свалят вече заснетите снимки. Както и да е, настроих записа да става във въпросния ТИФФ формат, обаче се появи следното неудобство: отначало параметъра DPI беше 72х72, за размер 3264,2448. После като смалих размера на снимката DPI стана 671 х 671 за всички размери ?!
Ето и въпроса:
1. какъв размер на снимката да избера и
2. как да сложа DPI 300 х 300, както препоръчвате?
Предполагам, че след като DPI е точки на инч, трябва да измеря по-късата страна на книгата в инчове и за умножа по 300? Така ли се определя необходимата резолюция? Или да сложа максималната?

Пуснато: 31 януари 2009, 21:06
от Boman
ivan58:
Остави изчисленията за ракиено време. :D
DPI няма нищо общо с броя (не размера на екран или принтер) на точките в картинката. Те са независими понятия. DPI казва на програмите или на принтера каква е плътността на картинката (Dots Per square Inch - точки на квадратен инч). Не смалявай снимката и си я остави на максималните 3264x2448 pixels (точки) за твоя модел. Dots=Pixels=Точки. Екраните използват понятието pixel за точките на екрана и им е достатъчна 72x72dpi, за да изглеждат добре. Принтерите използват понятието dot за изплютата капка на хартията и им трябват поне 150-200dpi (и повече), за да изглежда картинката добре. Това значи, че твоята картинка от 3264x2448 pixels (точки) ще бъде с размери 115.1x86.4cm (45.3"x34.0") при 72x72dpi и 27.6x20.7cm (10.9"x8.2") при 300x300dpi. Тези сметки се правят по ракиено време.:lol: На разпознаващата програма ѝ трябват поне 300 dpi за правилна работа. Затова само промени dpi на картинката на 300x300 и не забравяй да запишеш файла.
IrfanView: Image->Information…->Resolution->Change->OK
Xnview: Image->Set DPI…->OK

Пуснато: 31 януари 2009, 23:17
от Гост
Boman написа: Xnview: Image->Set DPI…->OK
благодаря за обяснението. Само да питам "а това за какво е": Change EXIF DPI if exist ?(появява се в менюто за смяна на DPI)

Пуснато: 01 февруари 2009, 01:21
от Boman
Маркирай EXIF, за да съответсва. EXIF са стандартизирани данни под формата на мета-тагове в jpg, tif rev.6.0 файловете, които се записват от фотоапарата или обработващата програма, и дават информация относно различните настройки и статистика при съдаването и обработването на картинките, напр.: бленда (диафрагма), скорост, светлочувствителност на CCD матрицата, ориентация, резолюция, модел на фотоапарата, режим на снимане и много други такива.