Съвети за начална редакция след сканиране

За коригирането на текстове след сканиране
Правила
Уважавайте другите участници и се отнасяйте с тях така, както бихте желали те да се отнасят с вас!
Аватар
Boman
Мнения: 89
Регистрация: 03 февруари 2007, 08:24

Мнение от Boman »

lavrentii написа:
Същността на въпроса ми е, как мога да задавам търсенето на неинтервали, букви или малки букви ?
Зависи коя програма използваш за редактиране. Най-гъвкави са програмите като Open Office, които използват стандартните Regular Expressions. Възможностите за търсене са безгранични. Прекалено са много, затова ги виж в хелпа на Open Office. Аз лично препоръчвам Notepad2. Работи добре с всички кодировки, ползва Regular Expressions, безплатна е, бърза е и може да се настрои да изглежда както си пожелаеш. От друга страна, в MS Word възможностите не са толкова, но можеш да търсиш букви (^$), кой да е символ (^?), нов ред (^p), разните тирета и т.н. Отиди на Find или Replace, щракни на Special и ще видиш въможностите. Ако не виждаш Special, щракни на Мore, за да се появят.
Закон на Мърфи: ако мнението ми във форума може да бъде разбрано погрешно, то това ще стане!
lavrentii
Мнения: 6
Регистрация: 04 декември 2007, 16:52

Мнение от lavrentii »

ОК, мерси много, аз се пробвах с ultraedit , там също има поне някои от тея, но не знам дали всичките,ще се провери, а ще сваля програмата която ми препоръча :)
nlr
Мнения: 63
Регистрация: 29 декември 2006, 15:06
Местонахождение: Варна

Мнение от nlr »

lavrentii, прегледай това: http://nalsur.hit.bg/RE.txt
Конструирал съм го по препоръките на Mandor и с него си проверявам книгите.
Аватар
hammster
Мнения: 79
Регистрация: 08 юли 2006, 20:24
Местонахождение: София
Връзка:

Мнение от hammster »

Аз лично ползвам тази програма http://hammster.data.bg/AtlantisWord.zip и съм много доволен от нея. Руска е, бърза е, и прави автокорекция на по-голямата част от описаните от вас проблеми само с натискането на един бутон. За главен недостатък смятам липсата и на правописна проверка на български език.
Ето снимка: Изображение
С пари можеш да купиш книга, но не и знание.
ultimat
Мнения: 12
Регистрация: 14 септември 2008, 18:47

Поредният начинаещ

Мнение от ultimat »

Доста почетох по форума за сканирание и редактиране.Хора с опит коментират с лекота неща, които(поне засега) ме карат да се чувствам глупава, че и некадърна.
Но, тъй като искам да се включа в работата на сайта реших да опитам и да питам.Така... започнах да сканирам "Печатът" на Р.Моналди и Ф.Сорти(май се поизсилих с тези 650 стр. като наначало).
Та първият ми въпрос е:След отваряне с Fine Reader следва запаметяване на файла.Има няколко различни възможности
и варианти към тях(Word, HTML, текстов документ и доста други, както и варианти- точно копие, редактируемо, форматиран текст).Кой от тях да се избере за запаметяване на страничките и изобщо това има ли някакво значение?
Аватар
SecondShoe
Мнения: 421
Регистрация: 16 август 2006, 04:55

Мнение от SecondShoe »

Аз съм сканирал само три книги и не мога да кажа, че съм опитен, но тук има хора с десетки книги зад гърба си. Ще бъде супер ако някой от тях направи ръководство с картинки и инструкции как се сканира, редактира и подготвя за добавяне една книга. Според мен ако има такова ръководство рязко ще се вдигне броя на сканираните книги.
BHorse
Мнения: 5
Регистрация: 02 април 2008, 20:11

Мнение от BHorse »

Аз не сканирам - нямам скенер вкъщи, а и компютърът ми се е на удобно място за поставяне на скенер. Затова пък от време на време разпознавам сканирани книги и се занимавам с редакция. На SecondShoe и ultimat мога да препоръчам само едно - разгледайте темата, разгледайте програмите, които се цитират в нея и си изберете най-удобните за вас. Съмнявам се някой да направи инструкция с картинки, но дори и да има такава, тя едва ли би била най-удачна за всеки, тъй като всеки от нас работи на различен компютър и, има различни навици за работа. Лично аз използвам следния начин на работа:
1. Зареждам всички страници във Fine Reader и го пускам да разпознава.
2. Готовия текст прехвърлям в WORD (колкото и да не харесва Борислав тази програма :))
3. Чета текста и поправям всяка забелязана грешка.
4. Записвам текста в UTF-8.


И една малка добавка към първия пост на Mandor - много често в текстовете се среща сливане на пряка реч с последващия я абзац - частен случай на неправилно разпознати абзаци. За съжаление няма начин това да бъде проверено от каквато и да било програма, може да се забележи само при четене.
Mandor
Мнения: 752
Регистрация: 19 август 2006, 10:56
Връзка:

Мнение от Mandor »

BHorse
Да, точно заради такива сливания препоръчвам да се сравнят визуално началата на параграфите, но кой ще си дава този труд... :(

ultimat
Изобщо да не се обезкуражаваш! Всички сме минали през този етап. За съжаление, BHorse е прав - колкото хора, толкова методи.
Аз, например, експортирам в HTML (форматиран текст; съвместимо със стари браузери), след което с макрос в текстообработващата ми програма премахвам маркерите за шрифт, размер и т.н. и оставям само <i> и <b>. После редактирам получения текстов файл. Под "редактиране" разбирам пълно изчитане и корекция на забелязаните грешки, като текстовият редактор ми заема дясната половина от екрана, а в лявата гледам сканираните страници от FR за визуална проверка на съмнителните места. По време на изчитането вмъквам SFB-маркери за форматиране; най-накрая прекарвам текста през макрос за маркиране на съмнителните места (почти всички са описани в първия пост на тази тема) и отново прехвърлям текста, като спирам на маркираните думи - както от макроса, така и от модула за проверка на правописа. Най-накрая прекарвам получения текст през SFB-конвертора, за да проверя дали не се е промъкнала грешка при форматирането. Това е.
ultimat
Мнения: 12
Регистрация: 14 септември 2008, 18:47

Мнение от ultimat »

Нямам намерение да се отчайвам. Убедена съм, че ако се справя един път нещата след това ще налекнат значително и ще досаждам по малко с елемнтарни въпроси. Благодаря за бързите отговори.
piki
Мнения: 65
Регистрация: 08 септември 2007, 11:35

Мнение от piki »

Аз пък минавам сканираните страници през първото сито във Finereader. Там оправям грубите грешки. После експортвам в txt. Минавам го през Fiction Book Designer. После от фб2 го прехвърлям в RTF с CoolReader и след това пак в txt. Пускам му една проверка през Word със спел чекъра и regular expressions в Notepad++/UltraEditor. И най-накрая правя бързо или подробно изчитане, след като го мина през MyLyb2FB конвертора на Мандор. Това е... piece of cake

PS. ПО подобен начин снимах, разпознах, редактирах и качих "Мечът на Шанара" от Тери Брукс за 1 ден. От сутринта от 8 до вечерта и бях готов. Но разполагах с идеално контрастни, 8 мегапикселови снимки на страниците. За съжаление фотото не беше мое :(
Аватар
hammster
Мнения: 79
Регистрация: 08 юли 2006, 20:24
Местонахождение: София
Връзка:

Мнение от hammster »

Искам да споделя и моя опит, но нека да не се определя за еталон. Както споменава mandor всеки си си има някакъв метод, които му се трува най-лесен. Ето го и моя:

1. Сканирам текста с fine reader и разпознавайки се опитвам да отстраня колкото се може повече грешки за да ми е по-лесно после в текстовия редактор. Запазвам го в .txt файл с кодировка ANSI.
2. Отварям с OpenOffice и минавам правописна проверка. Запис пак в .txt.
3. Отварям с АtlantisWord и правя форматиране и автокорекция. Понеже редактирам главно собствени книги или книги които някой друг е сканирал на които имам книжното издание, за финал проверявам за слети или разделени абзаци с книжното издание в ръка. Финално го изпращам в .odt(OpenOffice).
С пари можеш да купиш книга, но не и знание.
ultimat
Мнения: 12
Регистрация: 14 септември 2008, 18:47

Мнение от ultimat »

За сега лека-полека напредвам със сканирането. С няклко от първите страници правя опити за редакция.Тази кодировка
ANSI нещо не я открих(други с лопата да ги ринеш), с Open office ми се отварят ???????????????????????????.
Ще се опитам да сваля програмата отново и пак ше пробвам.
Аватар
hammster
Мнения: 79
Регистрация: 08 юли 2006, 20:24
Местонахождение: София
Връзка:

Мнение от hammster »

Пардон, в abbyy кодировката е наречена Windows. Ето снимка: http://hammster.data.bg/abby.jpg
С пари можеш да купиш книга, но не и знание.
Аватар
GeOrg
Мнения: 203
Регистрация: 04 август 2006, 15:52
Местонахождение: Пловдив, Ивайловград

Мнение от GeOrg »

ultimat написа:За сега лека-полека напредвам със сканирането. С няклко от първите страници правя опити за редакция.Тази кодировка
ANSI нещо не я открих(други с лопата да ги ринеш), с Open office ми се отварят ???????????????????????????.
Ще се опитам да сваля програмата отново и пак ше пробвам.
Обикновено може да срещнеш следните кодировки на кирилица:

windows-1251 или cp-1251 - това е ANSI и е подразбираща се за ползващите операционна система Windows. 1251 означава Българска/Сръбска таблица на кирилица. Всяка страна или група страни си имат такъв номер.

UTF-8 - уникод постепенно навлиза в употреба, една единствена кодова страница съдържаща всички известни символи и азбуки. В тази кодировка обикновено се изпращат книгите в тази библиотека. Размера на текстовите файлове нараства около два пъти.

KOI-8R - руска кирилизираща таблица.

ISO-8859-5 - юникс базирана кодова таблица на кирилица. Цифрата 5 по примера на Microsoft показва кирилица. Длъжен съм да отбележа, че в момента почти всички дистрибуции на Linux ползвани от българи зареждат или cp-1251 или UTF-8(която е по-подразбиране)

Има и други кодови таблици, но те се ползват много рядко и почти не се срещат в Интернет.
Може и така да е, ...!
Mandor
Мнения: 752
Регистрация: 19 август 2006, 10:56
Връзка:

Кодировки

Мнение от Mandor »

Всъщност (ако не греша много грубо някъде) под "ANSI-кодировка" се разбира коя да е от стандартизираните еднобайтови кодировки. И "Windows-1251" e ANSI, и "KOI-8" е ANSI и т.н.

Не разбрах защо всички експортирате първо през TXT? Нали така губите цялото форматиране (имам предвид най-вече акцентрания текст)? Защо например не започнете с RTF - предполагам, че AtlantisWord и FBDesigner-а ще се справят с този формат?
Аватар
GeOrg
Мнения: 203
Регистрация: 04 август 2006, 15:52
Местонахождение: Пловдив, Ивайловград

Мнение от GeOrg »

Не грешиш, прав си за ANSI. Не съм сигурен в KOI-8R (U), но това е без значение стига да излиза текста на екрана коректно.
Колкото до използването и обработката в RTF, има логика защото ще е по-лесно SFB форматирането визуално.
Може и така да е, ...!
Аватар
Boman
Мнения: 89
Регистрация: 03 февруари 2007, 08:24

Мнение от Boman »

ANSI е просто оригиналната американска подредба на 8 битовата ASCII кодировка, в която са стандартизирини само първите 128 символа. Според ANSI втората половина от 128 символа съдържа допълнителни символи, псевдо-графика и др. KOI, MIK и другите подобни кодировки просто заместват втората половина с кирилица, или с каквото друго си щат. Windows-1251 е микрософското име на тяхната 8-битова кодировка, съдържаща 256 символа, от които втората половина 128 символа съдържа кирилица. Експортирайте в 8-битова кодировка само ако сте сигурни, че в нея има всички символи, използвани в книгата, което се случва рядко. Така че се налага да използвате някоя от Unicode кодировките като UTF-8.

Ето моите лични предпочитания:
Сканиране:
За снимане с камера вижте идеите във форума. За сканиране със скенер, използвайте пълните възможности на скенера си за настройка и тествайте с някои типични страници, за да ви е по-лесен животът при редакцията. Сканирам черно-бяло; или сиво за по-некачествения печат и обработка след сканирането. Още при сканирането си отбелязвам номерата на проблемни страници, например бледи, мастилени петна, зацапан текст, некачествена хартия, нехванат близо до сгъвките текст и т.н. След сканирането прелиствам набързо (за 10-тина минути) книгата, за да хвана и отбележа допълнително страници, които биха създали проблем, включително и колко НЕ-кирилица има в нея. Ако е необходима допълнителна обработка на картинките, погледнете идеите тук във форума.

Разпознаване:
Ако в текста се среща рядко НЕ-кирилица, целият текст разпознавам като използвам само български и след това разпознавам само единични страници със съответно добавени езици. Иначе направо цялата книга разпознавам с колкото езика са необходими. Коригирам лошия текст в отбелязаните предварително страници. Проверявам за аномалии като разпознати картинки вместо текст. Не махам номерата на страниците, за да е лесна справката при редакцията. Накрая експортирам в Word с опцията "Formated text" без да се притеснявам за кодировката.

Редакция:
Първата ми работа е да премахна скритите опционни знаци за сричкопренасяне (Optional hyphens). После селектирам целия текст и махам всякакво форматиране като запазвам само акцентирания (наклонен) текст и избирам един-единствен шрифт Courier New, просто защото е monospace и ми е по-лесно да забележа грешките и също забелязах, че очите ми се уморяват най-малко от него. След това оправям наведнъж с "намери и замести" честите проблеми с тирета, интервали, многоточия, кавички и т.н. Някои начини да се направи това са дадени във форума. Изключвам всякакво автоматично форматиране в Word и слагам табулатори в началото на всеки абзац. Следва прочитане на книгата с оправяне на правописа и на най-големия проблем според мен - слетите абзаци, особено при пряка реч. Едновременно слагам SFB формата БЕЗ обикновения наклонен (акцентиран) текст. Разбира се, на този етап махам и номерата на страниците. След цялостно прочитане и форматиране минавам чрез "Търсене" само наклонения текст и го форматирам. Записвам в UTF-8 txt файл. Последно, използвам Notepad2, за да сменя затварящите кавички с правилните. Никога не прочитам втори път; това е най-досадното нещо.
ultimat
Мнения: 12
Регистрация: 14 септември 2008, 18:47

Мнение от ultimat »

Сега имам друг въпрос. На няколко страници има картинки. Какви да ги върша с тях?
Аватар
SecondShoe
Мнения: 421
Регистрация: 16 август 2006, 04:55

Мнение от SecondShoe »

Картинките обикновено ги пращаш отделно като указваш коя картинка, къде точно в текста присъства.
ultimat
Мнения: 12
Регистрация: 14 септември 2008, 18:47

Мнение от ultimat »

Това означава, че се праща папка(кнгата и картинките).Така ли?
fbinnnzhivko

имам въпрос ???

Мнение от fbinnnzhivko »

отварям снимки със АББЪ Финереадер версиq 8.0 и като трябва да сеифам каквото и да правя ми излизат замо квадратчета или символи които няма смисъл ?????? какво да правя ???? искам и аз да сканирам някоя книга но парво искам да сам сигурен че мога да го направя цялото сам и тогава ..... иначе ако имаш картинки в текста които ще правиш ги обозначаваш като картинки и те после си остажат така в документа. имеил за вразка fbinnzhivko[маймунско а]gmail[ . ]com моля помогнете М№
Аватар
moosehead
Мнения: 137
Регистрация: 17 февруари 2007, 18:29
Местонахождение: София

Re: имам въпрос ???

Мнение от moosehead »

fbinnnzhivko написа:отварям снимки със АББЪ Финереадер версиq 8.0 и като трябва да сеифам каквото и да правя ми излизат замо квадратчета или символи които няма смисъл ?????? какво да правя ???? искам и аз да сканирам някоя книга но парво искам да сам сигурен че мога да го направя цялото сам и тогава ..... иначе ако имаш картинки в текста които ще правиш ги обозначаваш като картинки и те после си остажат така в документа. имеил за вразка fbinnzhivko[маймунско а]gmail[ . ]com моля помогнете М№
Човек, само преброй колко грешки имаш в три реда, а искаш да редактираш цяла книга. Уважавам желанието ти, но се постарай малко повече с правописа. :)
nextvasko
Мнения: 1
Регистрация: 15 септември 2008, 23:12
Местонахождение: Пловдив
Връзка:

Re: Съвети за начална редакция след сканиране

Мнение от nextvasko »

Mandor написа: Иначе в 90% от случаите тази последователност вероятно ще проработи.
Точно казано, наистина работи.
beertobeer
Мнения: 38
Регистрация: 26 декември 2008, 19:07

Молба

Мнение от beertobeer »

Моля някой, който наистина разбира от текстообработка да разясни макар и накратко понятието "регулярни изрази"
Аватар
Boman
Мнения: 89
Регистрация: 03 февруари 2007, 08:24

Мнение от Boman »

Разбирай възможност за търсене в опредлен избран текст на символни низове, множества и подмножества от символи на базата на сложни критерии. Оригиналното име на „регулярни изрази“ е regular expressions. Това е, цитирам, „мощно средство за търсене“ на последователности от символи в текст на базата на дефинирани глобални условия за търсене. Те се кодират с вид скрипт в програмите, които ги поддържат. Това става по общо взето еднакъв стандартизиран начин. За скриптовете при търсене се използват мета-символи (служебни символи) като $ ^; класове от символи (шаблони за глобално затърсене) от вида [xxx]; Ескейп последователности (Escape sequences) от вида \x \t \n; оператори за цикли (iterators) от вида * + {x}; алтернативи — |; модификатори — ? *. Сигурно изпускам някои.

Примери:
[аъоуеиюя] Намира точно една от изредените гласни.
[^аъоуеиюя] Намира всичко, което не е гласна.
Огън[ъая]т Намира огънят, огънът и огънат.
Пешо|Гошо|Тошо Намира което и да е от трите имена.

Възможностите са много и не могат да се опишат всички тук. Ето една произволна статия по въпроса тук, която ми се видя добра.
Ако искаш по-теоретично определение да ти спре дишането, виж тук.
Иначе хората са си го описали достатъчно обстойно тук.
Закон на Мърфи: ако мнението ми във форума може да бъде разбрано погрешно, то това ще стане!
piki
Мнения: 65
Регистрация: 08 септември 2007, 11:35

Мнение от piki »

Ето и нагледен пример:

Код: Избиране на всичко

"^((?:[0]?[1-9]|[1][012])[-:\\/.](?:(?:[0-2]?\\d{1})|(?:[3][0,1]{1}))[-:\\/.]
(?:(?:[1]{1}\\d{1}\\d{1}\\d{1})|(?:[2]{1}\\d{3})))(?![\\d])\\s((?:(?:[0-1][0-9])|
(?:[2][0-3])|(?:[0-9])):(?:[0-5][0-9])(?::[0-5][0-9]))\\s\\d{1,}\\s{2}(PAID|SEND)
\\s{1}(\\w+.*\\w+)\\s{11,}(\\d+\\.\\d+)\\s{5,}(\\d{0,}\\.\\d{2})" 
:shock: :shock: :D :D

Чрез този израз изваждам небходими данни от лог файлове... сигурно може да се оптимизира по-добре (не твърдя, че съм RegEx гуру) :) но за мен работи доста сполучливо :) явно съм го уцелил.

Бел.Mandor: Разхвърлях кода на няколко реда, за да не издува страницата.
beertobeer
Мнения: 38
Регистрация: 26 декември 2008, 19:07

Благодарности

Мнение от beertobeer »

Благодаря много на Boman и kiki за бързата реакция и обясненията.
Наистина ми помогнаха да разбера смисъла и принципа на действие
Аватар
hammster
Мнения: 79
Регистрация: 08 юли 2006, 20:24
Местонахождение: София
Връзка:

Регулярен израз или макрос?

Мнение от hammster »

Най-честите пунктоационни грешки които срещам в текстовете които редактирам, а предполагам и немалка част от останалите редактори, които пращат текстове за Читанка-та, са от типа:
— Хайде, момчета и момичета — започна Бакъс, — Нека да свършим и това, стига да можем.
или пък обратния вариант:
— Джак, в момента не сме на служба — каза Бакъс. — всичко, което видиш или чуеш, докато си в Куантико, си остава само за теб.
Кажете как трябва да изглежда регулярен израз който да "лови" такива грешки в ОpenОffice3. Прочетох помощната му информация, както и няколкото линка (единия де :) , защото не съм на ти с английския) дадени в тази тема, но понеже съм абсолютен лаик, не можах да създам нещо което да работи. Дали аз не бъркам някъде? Да не би това да се прави с макрос? И каква е разликата между двете!
С пари можеш да купиш книга, но не и знание.
Mandor
Мнения: 752
Регистрация: 19 август 2006, 10:56
Връзка:

Re: Съвети за начална редакция след сканиране

Мнение от Mandor »

Първият пример се улавя с израза

Код: Избиране на всичко

, [—–\-] [А-Я]
а вторият — с

Код: Избиране на всичко

\. [—–\-] [а-я]
И в двата случая освен „Regular Expressions“ трябва да включиш и „Match case“.
Диапазонът „[а-я]“ не е особено коректен, но OOo3 отказва да работи с кирилица при шаблони „[:lower:]“ и „[:upper:]“.
Предупреждавам, че първият пример ще улавя и коректни конструкции като „— Колкото и да искам — продължи той, — Сара няма да се включи…“

За разликата между регулярен израз и макрос: Регулярният израз е сложен шаблон за търсене и заместване; в първия пример горе се търси запетая, следвана от интервал, едно от трите възможни тирета (за всеки случай), следвани от интервал и главна буква на кирилица. Макросът е последователност от действия (операции), предлагани от съответната програма, например: „Потърси еди-кой-си текст; ако го намериш, го оцвети в червено и се върни отново да търсиш, ако не го намериш, прекрати работа“.
Аватар
hammster
Мнения: 79
Регистрация: 08 юли 2006, 20:24
Местонахождение: София
Връзка:

Re: Съвети за начална редакция след сканиране

Мнение от hammster »

Точно това ми трябваше. Идеята беше програмата да намира такива низове, а аз да решавам дали са верни или не.
Благодаря много!
С пари можеш да купиш книга, но не и знание.
Отговор

Обратно към

Кой е на линия

Потребители, разглеждащи форума: 0 гости