Съвети за начална редакция след сканиране

lavrentii написа:
Същността на въпроса ми е, как мога да задавам търсенето на неинтервали, букви или малки букви ?

Зависи коя програма използваш за редактиране. Най-гъвкави са програмите като Open Office, които използват стандартните Regular Expressions. Възможностите за търсене са безгранични. Прекалено са много, затова ги виж в хелпа на Open Office. Аз лично препоръчвам Notepad2. Работи добре с всички кодировки, ползва Regular Expressions, безплатна е, бърза е и може да се настрои да изглежда както си пожелаеш. От друга страна, в MS Word възможностите не са толкова, но можеш да търсиш букви (^$), кой да е символ (^?), нов ред (^p), разните тирета и т.н. Отиди на Find или Replace, щракни на Special и ще видиш въможностите. Ако не виждаш Special, щракни на Мore, за да се появят.

lavrentii

ОК, мерси много, аз се пробвах с ultraedit , там също има поне някои от тея, но не знам дали всичките,ще се провери, а ще сваля програмата която ми препоръча

nlr

lavrentii, прегледай това: http://nalsur.hit.bg/RE.txt
Конструирал съм го по препоръките на Mandor и с него си проверявам книгите.

hammster

Аз лично ползвам тази програма http://hammster.data.bg/AtlantisWord.zip и съм много доволен от нея. Руска е, бърза е, и прави автокорекция на по-голямата част от описаните от вас проблеми само с натискането на един бутон. За главен недостатък смятам липсата и на правописна проверка на български език.
Ето снимка:

Доста почетох по форума за сканирание и редактиране.Хора с опит коментират с лекота неща, които(поне засега) ме карат да се чувствам глупава, че и некадърна.
Но, тъй като искам да се включа в работата на сайта реших да опитам и да питам.Така... започнах да сканирам "Печатът" на Р.Моналди и Ф.Сорти(май се поизсилих с тези 650 стр. като наначало).
Та първият ми въпрос е:След отваряне с Fine Reader следва запаметяване на файла.Има няколко различни възможности
и варианти към тях(Word, HTML, текстов документ и доста други, както и варианти- точно копие, редактируемо, форматиран текст).Кой от тях да се избере за запаметяване на страничките и изобщо това има ли някакво значение?

SecondShoe

Аз съм сканирал само три книги и не мога да кажа, че съм опитен, но тук има хора с десетки книги зад гърба си. Ще бъде супер ако някой от тях направи ръководство с картинки и инструкции как се сканира, редактира и подготвя за добавяне една книга. Според мен ако има такова ръководство рязко ще се вдигне броя на сканираните книги.

BHorse

Аз не сканирам - нямам скенер вкъщи, а и компютърът ми се е на удобно място за поставяне на скенер. Затова пък от време на време разпознавам сканирани книги и се занимавам с редакция. На SecondShoe и ultimat мога да препоръчам само едно - разгледайте темата, разгледайте програмите, които се цитират в нея и си изберете най-удобните за вас. Съмнявам се някой да направи инструкция с картинки, но дори и да има такава, тя едва ли би била най-удачна за всеки, тъй като всеки от нас работи на различен компютър и, има различни навици за работа. Лично аз използвам следния начин на работа:
1. Зареждам всички страници във Fine Reader и го пускам да разпознава.
2. Готовия текст прехвърлям в WORD (колкото и да не харесва Борислав тази програма

)
3. Чета текста и поправям всяка забелязана грешка.
4. Записвам текста в UTF-8.

И една малка добавка към първия пост на Mandor - много често в текстовете се среща сливане на пряка реч с последващия я абзац - частен случай на неправилно разпознати абзаци. За съжаление няма начин това да бъде проверено от каквато и да било програма, може да се забележи само при четене.

BHorse
Да, точно заради такива сливания препоръчвам да се сравнят визуално началата на параграфите, но кой ще си дава този труд...

ultimat
Изобщо да не се обезкуражаваш! Всички сме минали през този етап. За съжаление, BHorse е прав - колкото хора, толкова методи.
Аз, например, експортирам в HTML (форматиран текст; съвместимо със стари браузери), след което с макрос в текстообработващата ми програма премахвам маркерите за шрифт, размер и т.н. и оставям само <i> и <b>. После редактирам получения текстов файл. Под "редактиране" разбирам пълно изчитане и корекция на забелязаните грешки, като текстовият редактор ми заема дясната половина от екрана, а в лявата гледам сканираните страници от FR за визуална проверка на съмнителните места. По време на изчитането вмъквам SFB-маркери за форматиране; най-накрая прекарвам текста през макрос за маркиране на съмнителните места (почти всички са описани в първия пост на тази тема) и отново прехвърлям текста, като спирам на маркираните думи - както от макроса, така и от модула за проверка на правописа. Най-накрая прекарвам получения текст през SFB-конвертора, за да проверя дали не се е промъкнала грешка при форматирането. Това е.

Нямам намерение да се отчайвам. Убедена съм, че ако се справя един път нещата след това ще налекнат значително и ще досаждам по малко с елемнтарни въпроси. Благодаря за бързите отговори.

piki

Аз пък минавам сканираните страници през първото сито във Finereader. Там оправям грубите грешки. После експортвам в txt. Минавам го през Fiction Book Designer. После от фб2 го прехвърлям в RTF с CoolReader и след това пак в txt. Пускам му една проверка през Word със спел чекъра и regular expressions в Notepad++/UltraEditor. И най-накрая правя бързо или подробно изчитане, след като го мина през MyLyb2FB конвертора на Мандор. Това е... piece of cake

PS. ПО подобен начин снимах, разпознах, редактирах и качих "Мечът на Шанара" от Тери Брукс за 1 ден. От сутринта от 8 до вечерта и бях готов. Но разполагах с идеално контрастни, 8 мегапикселови снимки на страниците. За съжаление фотото не беше мое

hammster

Искам да споделя и моя опит, но нека да не се определя за еталон. Както споменава mandor всеки си си има някакъв метод, които му се трува най-лесен. Ето го и моя:

1. Сканирам текста с fine reader и разпознавайки се опитвам да отстраня колкото се може повече грешки за да ми е по-лесно после в текстовия редактор. Запазвам го в .txt файл с кодировка ANSI.
2. Отварям с OpenOffice и минавам правописна проверка. Запис пак в .txt.
3. Отварям с АtlantisWord и правя форматиране и автокорекция. Понеже редактирам главно собствени книги или книги които някой друг е сканирал на които имам книжното издание, за финал проверявам за слети или разделени абзаци с книжното издание в ръка. Финално го изпращам в .odt(OpenOffice).

За сега лека-полека напредвам със сканирането. С няклко от първите страници правя опити за редакция.Тази кодировка
ANSI нещо не я открих(други с лопата да ги ринеш), с Open office ми се отварят ???????????????????????????.
Ще се опитам да сваля програмата отново и пак ше пробвам.

hammster

Пардон, в abbyy кодировката е наречена Windows. Ето снимка: http://hammster.data.bg/abby.jpg

GeOrg

ultimat написа:За сега лека-полека напредвам със сканирането. С няклко от първите страници правя опити за редакция.Тази кодировка
ANSI нещо не я открих(други с лопата да ги ринеш), с Open office ми се отварят ???????????????????????????.
Ще се опитам да сваля програмата отново и пак ше пробвам.

Обикновено може да срещнеш следните кодировки на кирилица:

windows-1251 или cp-1251 - това е ANSI и е подразбираща се за ползващите операционна система Windows. 1251 означава Българска/Сръбска таблица на кирилица. Всяка страна или група страни си имат такъв номер.

UTF-8 - уникод постепенно навлиза в употреба, една единствена кодова страница съдържаща всички известни символи и азбуки. В тази кодировка обикновено се изпращат книгите в тази библиотека. Размера на текстовите файлове нараства около два пъти.

KOI-8R - руска кирилизираща таблица.

ISO-8859-5 - юникс базирана кодова таблица на кирилица. Цифрата 5 по примера на Microsoft показва кирилица. Длъжен съм да отбележа, че в момента почти всички дистрибуции на Linux ползвани от българи зареждат или cp-1251 или UTF-8(която е по-подразбиране)

Има и други кодови таблици, но те се ползват много рядко и почти не се срещат в Интернет.

Всъщност (ако не греша много грубо някъде) под "ANSI-кодировка" се разбира коя да е от стандартизираните еднобайтови кодировки. И "Windows-1251" e ANSI, и "KOI-8" е ANSI и т.н.

Не разбрах защо всички експортирате първо през TXT? Нали така губите цялото форматиране (имам предвид най-вече акцентрания текст)? Защо например не започнете с RTF - предполагам, че AtlantisWord и FBDesigner-а ще се справят с този формат?

GeOrg

Не грешиш, прав си за ANSI. Не съм сигурен в KOI-8R (U), но това е без значение стига да излиза текста на екрана коректно.
Колкото до използването и обработката в RTF, има логика защото ще е по-лесно SFB форматирането визуално.

ANSI е просто оригиналната американска подредба на 8 битовата ASCII кодировка, в която са стандартизирини само първите 128 символа. Според ANSI втората половина от 128 символа съдържа допълнителни символи, псевдо-графика и др. KOI, MIK и другите подобни кодировки просто заместват втората половина с кирилица, или с каквото друго си щат. Windows-1251 е микрософското име на тяхната 8-битова кодировка, съдържаща 256 символа, от които втората половина 128 символа съдържа кирилица. Експортирайте в 8-битова кодировка само ако сте сигурни, че в нея има всички символи, използвани в книгата, което се случва рядко. Така че се налага да използвате някоя от Unicode кодировките като UTF-8.

Ето моите лични предпочитания:
Сканиране:
За снимане с камера вижте идеите във форума. За сканиране със скенер, използвайте пълните възможности на скенера си за настройка и тествайте с някои типични страници, за да ви е по-лесен животът при редакцията. Сканирам черно-бяло; или сиво за по-некачествения печат и обработка след сканирането. Още при сканирането си отбелязвам номерата на проблемни страници, например бледи, мастилени петна, зацапан текст, некачествена хартия, нехванат близо до сгъвките текст и т.н. След сканирането прелиствам набързо (за 10-тина минути) книгата, за да хвана и отбележа допълнително страници, които биха създали проблем, включително и колко НЕ-кирилица има в нея. Ако е необходима допълнителна обработка на картинките, погледнете идеите тук във форума.

Разпознаване:
Ако в текста се среща рядко НЕ-кирилица, целият текст разпознавам като използвам само български и след това разпознавам само единични страници със съответно добавени езици. Иначе направо цялата книга разпознавам с колкото езика са необходими. Коригирам лошия текст в отбелязаните предварително страници. Проверявам за аномалии като разпознати картинки вместо текст. Не махам номерата на страниците, за да е лесна справката при редакцията. Накрая експортирам в Word с опцията "Formated text" без да се притеснявам за кодировката.

Редакция:
Първата ми работа е да премахна скритите опционни знаци за сричкопренасяне (Optional hyphens). После селектирам целия текст и махам всякакво форматиране като запазвам само акцентирания (наклонен) текст и избирам един-единствен шрифт Courier New, просто защото е monospace и ми е по-лесно да забележа грешките и също забелязах, че очите ми се уморяват най-малко от него. След това оправям наведнъж с "намери и замести" честите проблеми с тирета, интервали, многоточия, кавички и т.н. Някои начини да се направи това са дадени във форума. Изключвам всякакво автоматично форматиране в Word и слагам табулатори в началото на всеки абзац. Следва прочитане на книгата с оправяне на правописа и на най-големия проблем според мен - слетите абзаци, особено при пряка реч. Едновременно слагам SFB формата БЕЗ обикновения наклонен (акцентиран) текст. Разбира се, на този етап махам и номерата на страниците. След цялостно прочитане и форматиране минавам чрез "Търсене" само наклонения текст и го форматирам. Записвам в UTF-8 txt файл. Последно, използвам Notepad2, за да сменя затварящите кавички с правилните. Никога не прочитам втори път; това е най-досадното нещо.

Сега имам друг въпрос. На няколко страници има картинки. Какви да ги върша с тях?

SecondShoe

Картинките обикновено ги пращаш отделно като указваш коя картинка, къде точно в текста присъства.

Това означава, че се праща папка(кнгата и картинките).Така ли?

fbinnnzhivko

отварям снимки със АББЪ Финереадер версиq 8.0 и като трябва да сеифам каквото и да правя ми излизат замо квадратчета или символи които няма смисъл ?????? какво да правя ???? искам и аз да сканирам някоя книга но парво искам да сам сигурен че мога да го направя цялото сам и тогава ..... иначе ако имаш картинки в текста които ще правиш ги обозначаваш като картинки и те после си остажат така в документа. имеил за вразка fbinnzhivko[маймунско а]gmail[ . ]com моля помогнете М№

fbinnnzhivko написа:отварям снимки със АББЪ Финереадер версиq 8.0 и като трябва да сеифам каквото и да правя ми излизат замо квадратчета или символи които няма смисъл ?????? какво да правя ???? искам и аз да сканирам някоя книга но парво искам да сам сигурен че мога да го направя цялото сам и тогава ..... иначе ако имаш картинки в текста които ще правиш ги обозначаваш като картинки и те после си остажат така в документа. имеил за вразка fbinnzhivko[маймунско а]gmail[ . ]com моля помогнете М№

Човек, само преброй колко грешки имаш в три реда, а искаш да редактираш цяла книга. Уважавам желанието ти, но се постарай малко повече с правописа.

nextvasko

Mandor написа: Иначе в 90% от случаите тази последователност вероятно ще проработи.

Точно казано, наистина работи.

beertobeer

Моля някой, който наистина разбира от текстообработка да разясни макар и накратко понятието "регулярни изрази"

Разбирай възможност за търсене в опредлен избран текст на символни низове, множества и подмножества от символи на базата на сложни критерии. Оригиналното име на „регулярни изрази“ е regular expressions. Това е, цитирам, „мощно средство за търсене“ на последователности от символи в текст на базата на дефинирани глобални условия за търсене. Те се кодират с вид скрипт в програмите, които ги поддържат. Това става по общо взето еднакъв стандартизиран начин. За скриптовете при търсене се използват мета-символи (служебни символи) като $ ^; класове от символи (шаблони за глобално затърсене) от вида [xxx]; Ескейп последователности (Escape sequences) от вида \x \t \n; оператори за цикли (iterators) от вида * + {x}; алтернативи — |; модификатори — ? *. Сигурно изпускам някои.

Примери:
[аъоуеиюя] Намира точно една от изредените гласни.
[^аъоуеиюя] Намира всичко, което не е гласна.
Огън[ъая]т Намира огънят, огънът и огънат.
Пешо|Гошо|Тошо Намира което и да е от трите имена.

Възможностите са много и не могат да се опишат всички тук. Ето една произволна статия по въпроса тук, която ми се видя добра.
Ако искаш по-теоретично определение да ти спре дишането, виж тук.
Иначе хората са си го описали достатъчно обстойно тук.

piki

Ето и нагледен пример:

Код: Избиране на всичко

"^((?:[0]?[1-9]|[1][012])[-:\\/.](?:(?:[0-2]?\\d{1})|(?:[3][0,1]{1}))[-:\\/.]
(?:(?:[1]{1}\\d{1}\\d{1}\\d{1})|(?:[2]{1}\\d{3})))(?![\\d])\\s((?:(?:[0-1][0-9])|
(?:[2][0-3])|(?:[0-9])):(?:[0-5][0-9])(?::[0-5][0-9]))\\s\\d{1,}\\s{2}(PAID|SEND)
\\s{1}(\\w+.*\\w+)\\s{11,}(\\d+\\.\\d+)\\s{5,}(\\d{0,}\\.\\d{2})"

Чрез този израз изваждам небходими данни от лог файлове... сигурно може да се оптимизира по-добре (не твърдя, че съм RegEx гуру)

но за мен работи доста сполучливо

явно съм го уцелил.

Бел.Mandor: Разхвърлях кода на няколко реда, за да не издува страницата.

beertobeer

Благодаря много на Boman и kiki за бързата реакция и обясненията.
Наистина ми помогнаха да разбера смисъла и принципа на действие

hammster · Мнение от **hammster** » 16 юли 2011, 23:46

Най-честите пунктоационни грешки които срещам в текстовете които редактирам, а предполагам и немалка част от останалите редактори, които пращат текстове за Читанка-та, са от типа:
— Хайде, момчета и момичета — започна Бакъс, — Нека да свършим и това, стига да можем.
или пък обратния вариант:
— Джак, в момента не сме на служба — каза Бакъс. — всичко, което видиш или чуеш, докато си в Куантико, си остава само за теб.
Кажете как трябва да изглежда регулярен израз който да "лови" такива грешки в ОpenОffice3. Прочетох помощната му информация, както и няколкото линка (единия де

, защото не съм на ти с английския) дадени в тази тема, но понеже съм абсолютен лаик, не можах да създам нещо което да работи. Дали аз не бъркам някъде? Да не би това да се прави с макрос? И каква е разликата между двете!

Мнение от **Mandor** » 18 юли 2011, 08:18

Първият пример се улавя с израза

Код: Избиране на всичко

, [—–\-] [А-Я]

а вторият — с

Код: Избиране на всичко

\. [—–\-] [а-я]

И в двата случая освен „Regular Expressions“ трябва да включиш и „Match case“.
Диапазонът „[а-я]“ не е особено коректен, но OOo3 отказва да работи с кирилица при шаблони „[:lower:]“ и „[:upper:]“.
Предупреждавам, че първият пример ще улавя и коректни конструкции като „— Колкото и да искам — продължи той, — Сара няма да се включи…“

За разликата между регулярен израз и макрос: Регулярният израз е сложен шаблон за търсене и заместване; в първия пример горе се търси запетая, следвана от интервал, едно от трите възможни тирета (за всеки случай), следвани от интервал и главна буква на кирилица. Макросът е последователност от действия (операции), предлагани от съответната програма, например: „Потърси еди-кой-си текст; ако го намериш, го оцвети в червено и се върни отново да търсиш, ако не го намериш, прекрати работа“.

hammster · Мнение от **hammster** » 18 юли 2011, 20:21

Точно това ми трябваше. Идеята беше програмата да намира такива низове, а аз да решавам дали са верни или не.
Благодаря много!

Форуми на Моята библиотека

Съвети за начална редакция след сканиране

Поредният начинаещ

Кодировки

имам въпрос ???

Re: имам въпрос ???

Re: Съвети за начална редакция след сканиране

Молба

Благодарности

Регулярен израз или макрос?

Re: Съвети за начална редакция след сканиране

Re: Съвети за начална редакция след сканиране

Кой е на линия