Съвети за начална редакция след сканиране

Отговор на темата


This question is a means of preventing automated form submissions by spambots.
Усмивки
:D :) :( :o :shock: :? 8) :lol: :x :P :oops: :cry: :evil: :twisted: :roll: :wink: :!: :?: :idea: :arrow: :| :mrgreen:
BBCode е включен
Кодът [img] е включен
Кодът [flash] е изключен
Кодът [url] е включен
Усмивките са включени
Преглед на темата
   

Разгъване Преглед на темата: Съвети за начална редакция след сканиране

Re: Кодировки

Мнение от zelenkroki » 15 март 2012, 05:18

Ами например при мен FBDesigner не иска да отваря формати .doc и .rtf. Така че се налага, преди да ги запиша в fb2, първо да ги конвертирам в txt. Това ме убива, защото наистина акцентираният текст се губи и след това трябва ръчно да се добавя. В help секцията на FBDesigner пише, че за работа с тоя тип файлове трябва word2000 или по-нов, а мисля моя е последна версия. Не знам как да процедирам оттук нататък.

@ Милен10, направи си малък rtf-файл с еднакъв шрифт без стилове и удебелен и наклонен текст в него. Дали отново не се отваря с FBDesigner?
Нямам никаква практика с програмата (ако е тази: http://www.the-ebook.org/rus/?dl_id=7. Извежда след инсталирането, че е BookDesigner family member, last update 24.6.2008). Тази ли е при тебе?
Проверих отваряне на различни .doc и .rtf файлове - справя се добре с някои, при някои чакането надхвърля търпението.
Извежда съобщение за невъзможност да трансформира във формат за BookDesigner, когато във файла има различно стилово форматиране. Поне такъв процес пише, че се извършва при чакането и зависването без отговор.
Пробите при мене са с MS Word 2003 при Windows 7 Proffesional. И двете не са от предпочитаните за ползване, доколкото си имат алтернативи с отворен или поне свободно разпространяван код.

Re: Кодировки

Мнение от Милен10 » 14 март 2012, 10:41

Mandor написа:Всъщност (ако не греша много грубо някъде) под "ANSI-кодировка" се разбира коя да е от стандартизираните еднобайтови кодировки. И "Windows-1251" e ANSI, и "KOI-8" е ANSI и т.н.

Не разбрах защо всички експортирате първо през TXT? Нали така губите цялото форматиране (имам предвид най-вече акцентрания текст)? Защо например не започнете с RTF - предполагам, че AtlantisWord и FBDesigner-а ще се справят с този формат?


Ами например при мен FBDesigner не иска да отваря формати .doc и .rtf. Така че се налага, преди да ги запиша в fb2, първо да ги конвертирам в txt. Това ме убива, защото наистина акцентираният текст се губи и след това трябва ръчно да се добавя. В help секцията на FBDesigner пише, че за работа с тоя тип файлове трябва word2000 или по-нов, а мисля моя е последна версия. Не знам как да процедирам оттук нататък.

Re: Съвети за начална редакция след сканиране

Мнение от Преслава » 05 февруари 2012, 13:48

С какъв пример мога да уловя дали в края на изречение или абзац има сложена точка, а не запетая?
При OpenOffice.
Следвах примера на Mandor за улавяне с , [—–\-] [А-Я] и \. [—–\-] [а-я] .
Вършат страхотна работа, но не зная сега за тези точки в края.

Re: Съвети за начална редакция след сканиране

Мнение от elensia » 02 февруари 2012, 12:10

Благодаря за отговора, ще използвам "й" тогава.

Re: Съвети за начална редакция след сканиране

Мнение от Alegria » 01 февруари 2012, 19:31

Шрифтът няма никакво значение, тъй като "и" с ударение се форматира правилно само с буква "й".

Re: Съвети за начална редакция след сканиране

Мнение от elensia » 01 февруари 2012, 18:42

Здравейте,
Аз съм нова тук и сега се пробвам да редактирам един текст за упражнение.
Питането ми се отанся за "ѝ" или "и" с ударение. Замяната му с ù, което е латинско изписване ми реже очите всеки път като чета текста. :)
Тъй като този проблем ми прави много често впечатление по сайтовете, поразгледах различните шрифтове и повечето нямат такъв символ, макар и да са кирилизирани.
Според мен правилния символ е в Tahoma с код U+045D и него съм копирала по-горе.
Питането ми е дали мога да сменям шрифта на текста, за да подменя всички латински символи с правилния на Tahoma?
Т.е. крайния текст ще е на Тахома. Питам, тъй като не съм наясно какво се прави по-нататък в процеса на обработка.

Re: Съвети за начална редакция след сканиране

Мнение от hammster » 18 юли 2011, 20:21

Точно това ми трябваше. Идеята беше програмата да намира такива низове, а аз да решавам дали са верни или не.
Благодаря много!

Re: Съвети за начална редакция след сканиране

Мнение от Mandor » 18 юли 2011, 08:18

Първият пример се улавя с израза
Код: Избиране на всичко
, [—–\-] [А-Я]
а вторият — с
Код: Избиране на всичко
\. [—–\-] [а-я]

И в двата случая освен „Regular Expressions“ трябва да включиш и „Match case“.
Диапазонът „[а-я]“ не е особено коректен, но OOo3 отказва да работи с кирилица при шаблони „[:lower:]“ и „[:upper:]“.
Предупреждавам, че първият пример ще улавя и коректни конструкции като „— Колкото и да искам — продължи той, — Сара няма да се включи…“

За разликата между регулярен израз и макрос: Регулярният израз е сложен шаблон за търсене и заместване; в първия пример горе се търси запетая, следвана от интервал, едно от трите възможни тирета (за всеки случай), следвани от интервал и главна буква на кирилица. Макросът е последователност от действия (операции), предлагани от съответната програма, например: „Потърси еди-кой-си текст; ако го намериш, го оцвети в червено и се върни отново да търсиш, ако не го намериш, прекрати работа“.

Регулярен израз или макрос?

Мнение от hammster » 16 юли 2011, 23:46

Най-честите пунктоационни грешки които срещам в текстовете които редактирам, а предполагам и немалка част от останалите редактори, които пращат текстове за Читанка-та, са от типа: — Хайде, момчета и момичета — започна Бакъс, — Нека да свършим и това, стига да можем.
или пък обратния вариант: — Джак, в момента не сме на служба — каза Бакъс. — всичко, което видиш или чуеш, докато си в Куантико, си остава само за теб.
Кажете как трябва да изглежда регулярен израз който да "лови" такива грешки в ОpenОffice3. Прочетох помощната му информация, както и няколкото линка (единия де :) , защото не съм на ти с английския) дадени в тази тема, но понеже съм абсолютен лаик, не можах да създам нещо което да работи. Дали аз не бъркам някъде? Да не би това да се прави с макрос? И каква е разликата между двете!

Благодарности

Мнение от beertobeer » 03 декември 2009, 20:30

Благодаря много на Boman и kiki за бързата реакция и обясненията.
Наистина ми помогнаха да разбера смисъла и принципа на действие

Мнение от piki » 03 декември 2009, 16:23

Ето и нагледен пример:
Код: Избиране на всичко
"^((?:[0]?[1-9]|[1][012])[-:\\/.](?:(?:[0-2]?\\d{1})|(?:[3][0,1]{1}))[-:\\/.]
(?:(?:[1]{1}\\d{1}\\d{1}\\d{1})|(?:[2]{1}\\d{3})))(?![\\d])\\s((?:(?:[0-1][0-9])|
(?:[2][0-3])|(?:[0-9])):(?:[0-5][0-9])(?::[0-5][0-9]))\\s\\d{1,}\\s{2}(PAID|SEND)
\\s{1}(\\w+.*\\w+)\\s{11,}(\\d+\\.\\d+)\\s{5,}(\\d{0,}\\.\\d{2})"

:shock: :shock: :D :D

Чрез този израз изваждам небходими данни от лог файлове... сигурно може да се оптимизира по-добре (не твърдя, че съм RegEx гуру) :) но за мен работи доста сполучливо :) явно съм го уцелил.
Бел.Mandor: Разхвърлях кода на няколко реда, за да не издува страницата.

Мнение от Boman » 03 декември 2009, 00:41

Разбирай възможност за търсене в опредлен избран текст на символни низове, множества и подмножества от символи на базата на сложни критерии. Оригиналното име на „регулярни изрази“ е regular expressions. Това е, цитирам, „мощно средство за търсене“ на последователности от символи в текст на базата на дефинирани глобални условия за търсене. Те се кодират с вид скрипт в програмите, които ги поддържат. Това става по общо взето еднакъв стандартизиран начин. За скриптовете при търсене се използват мета-символи (служебни символи) като $ ^; класове от символи (шаблони за глобално затърсене) от вида [xxx]; Ескейп последователности (Escape sequences) от вида \x \t \n; оператори за цикли (iterators) от вида * + {x}; алтернативи — |; модификатори — ? *. Сигурно изпускам някои.

Примери:
[аъоуеиюя] Намира точно една от изредените гласни.
[^аъоуеиюя] Намира всичко, което не е гласна.
Огън[ъая]т Намира огънят, огънът и огънат.
Пешо|Гошо|Тошо Намира което и да е от трите имена.

Възможностите са много и не могат да се опишат всички тук. Ето една произволна статия по въпроса тук, която ми се видя добра.
Ако искаш по-теоретично определение да ти спре дишането, виж тук.
Иначе хората са си го описали достатъчно обстойно тук.

Молба

Мнение от beertobeer » 02 декември 2009, 23:14

Моля някой, който наистина разбира от текстообработка да разясни макар и накратко понятието "регулярни изрази"

Re: Съвети за начална редакция след сканиране

Мнение от nextvasko » 12 декември 2008, 19:50

Mandor написа:Иначе в 90% от случаите тази последователност вероятно ще проработи.

Точно казано, наистина работи.

Re: имам въпрос ???

Мнение от moosehead » 21 ноември 2008, 20:41

fbinnnzhivko написа:отварям снимки със АББЪ Финереадер версиq 8.0 и като трябва да сеифам каквото и да правя ми излизат замо квадратчета или символи които няма смисъл ?????? какво да правя ???? искам и аз да сканирам някоя книга но парво искам да сам сигурен че мога да го направя цялото сам и тогава ..... иначе ако имаш картинки в текста които ще правиш ги обозначаваш като картинки и те после си остажат така в документа. имеил за вразка fbinnzhivko@gmail.com моля помогнете М№

Човек, само преброй колко грешки имаш в три реда, а искаш да редактираш цяла книга. Уважавам желанието ти, но се постарай малко повече с правописа. :)

имам въпрос ???

Мнение от fbinnnzhivko » 21 ноември 2008, 01:01

отварям снимки със АББЪ Финереадер версиq 8.0 и като трябва да сеифам каквото и да правя ми излизат замо квадратчета или символи които няма смисъл ?????? какво да правя ???? искам и аз да сканирам някоя книга но парво искам да сам сигурен че мога да го направя цялото сам и тогава ..... иначе ако имаш картинки в текста които ще правиш ги обозначаваш като картинки и те после си остажат така в документа. имеил за вразка fbinnzhivko@gmail.com моля помогнете М№

Мнение от ultimat » 24 септември 2008, 15:05

Това означава, че се праща папка(кнгата и картинките).Така ли?

Мнение от SecondShoe » 24 септември 2008, 14:45

Картинките обикновено ги пращаш отделно като указваш коя картинка, къде точно в текста присъства.

Мнение от ultimat » 23 септември 2008, 18:53

Сега имам друг въпрос. На няколко страници има картинки. Какви да ги върша с тях?

Мнение от Boman » 16 септември 2008, 17:27

ANSI е просто оригиналната американска подредба на 8 битовата ASCII кодировка, в която са стандартизирини само първите 128 символа. Според ANSI втората половина от 128 символа съдържа допълнителни символи, псевдо-графика и др. KOI, MIK и другите подобни кодировки просто заместват втората половина с кирилица, или с каквото друго си щат. Windows-1251 е микрософското име на тяхната 8-битова кодировка, съдържаща 256 символа, от които втората половина 128 символа съдържа кирилица. Експортирайте в 8-битова кодировка само ако сте сигурни, че в нея има всички символи, използвани в книгата, което се случва рядко. Така че се налага да използвате някоя от Unicode кодировките като UTF-8.

Ето моите лични предпочитания:
Сканиране:
За снимане с камера вижте идеите във форума. За сканиране със скенер, използвайте пълните възможности на скенера си за настройка и тествайте с някои типични страници, за да ви е по-лесен животът при редакцията. Сканирам черно-бяло; или сиво за по-некачествения печат и обработка след сканирането. Още при сканирането си отбелязвам номерата на проблемни страници, например бледи, мастилени петна, зацапан текст, некачествена хартия, нехванат близо до сгъвките текст и т.н. След сканирането прелиствам набързо (за 10-тина минути) книгата, за да хвана и отбележа допълнително страници, които биха създали проблем, включително и колко НЕ-кирилица има в нея. Ако е необходима допълнителна обработка на картинките, погледнете идеите тук във форума.

Разпознаване:
Ако в текста се среща рядко НЕ-кирилица, целият текст разпознавам като използвам само български и след това разпознавам само единични страници със съответно добавени езици. Иначе направо цялата книга разпознавам с колкото езика са необходими. Коригирам лошия текст в отбелязаните предварително страници. Проверявам за аномалии като разпознати картинки вместо текст. Не махам номерата на страниците, за да е лесна справката при редакцията. Накрая експортирам в Word с опцията "Formated text" без да се притеснявам за кодировката.

Редакция:
Първата ми работа е да премахна скритите опционни знаци за сричкопренасяне (Optional hyphens). После селектирам целия текст и махам всякакво форматиране като запазвам само акцентирания (наклонен) текст и избирам един-единствен шрифт Courier New, просто защото е monospace и ми е по-лесно да забележа грешките и също забелязах, че очите ми се уморяват най-малко от него. След това оправям наведнъж с "намери и замести" честите проблеми с тирета, интервали, многоточия, кавички и т.н. Някои начини да се направи това са дадени във форума. Изключвам всякакво автоматично форматиране в Word и слагам табулатори в началото на всеки абзац. Следва прочитане на книгата с оправяне на правописа и на най-големия проблем според мен - слетите абзаци, особено при пряка реч. Едновременно слагам SFB формата БЕЗ обикновения наклонен (акцентиран) текст. Разбира се, на този етап махам и номерата на страниците. След цялостно прочитане и форматиране минавам чрез "Търсене" само наклонения текст и го форматирам. Записвам в UTF-8 txt файл. Последно, използвам Notepad2, за да сменя затварящите кавички с правилните. Никога не прочитам втори път; това е най-досадното нещо.

Мнение от GeOrg » 16 септември 2008, 14:20

Не грешиш, прав си за ANSI. Не съм сигурен в KOI-8R (U), но това е без значение стига да излиза текста на екрана коректно.
Колкото до използването и обработката в RTF, има логика защото ще е по-лесно SFB форматирането визуално.

Кодировки

Мнение от Mandor » 16 септември 2008, 13:14

Всъщност (ако не греша много грубо някъде) под "ANSI-кодировка" се разбира коя да е от стандартизираните еднобайтови кодировки. И "Windows-1251" e ANSI, и "KOI-8" е ANSI и т.н.

Не разбрах защо всички експортирате първо през TXT? Нали така губите цялото форматиране (имам предвид най-вече акцентрания текст)? Защо например не започнете с RTF - предполагам, че AtlantisWord и FBDesigner-а ще се справят с този формат?

Мнение от GeOrg » 15 септември 2008, 22:13

ultimat написа:За сега лека-полека напредвам със сканирането. С няклко от първите страници правя опити за редакция.Тази кодировка
ANSI нещо не я открих(други с лопата да ги ринеш), с Open office ми се отварят ???????????????????????????.
Ще се опитам да сваля програмата отново и пак ше пробвам.


Обикновено може да срещнеш следните кодировки на кирилица:
windows-1251 или cp-1251 - това е ANSI и е подразбираща се за ползващите операционна система Windows. 1251 означава Българска/Сръбска таблица на кирилица. Всяка страна или група страни си имат такъв номер.
UTF-8 - уникод постепенно навлиза в употреба, една единствена кодова страница съдържаща всички известни символи и азбуки. В тази кодировка обикновено се изпращат книгите в тази библиотека. Размера на текстовите файлове нараства около два пъти.
KOI-8R - руска кирилизираща таблица.
ISO-8859-5 - юникс базирана кодова таблица на кирилица. Цифрата 5 по примера на Microsoft показва кирилица. Длъжен съм да отбележа, че в момента почти всички дистрибуции на Linux ползвани от българи зареждат или cp-1251 или UTF-8(която е по-подразбиране)

Има и други кодови таблици, но те се ползват много рядко и почти не се срещат в Интернет.

Мнение от hammster » 15 септември 2008, 21:29

Пардон, в abbyy кодировката е наречена Windows. Ето снимка: http://hammster.data.bg/abby.jpg

Мнение от ultimat » 15 септември 2008, 19:33

За сега лека-полека напредвам със сканирането. С няклко от първите страници правя опити за редакция.Тази кодировка
ANSI нещо не я открих(други с лопата да ги ринеш), с Open office ми се отварят ???????????????????????????.
Ще се опитам да сваля програмата отново и пак ше пробвам.

Мнение от hammster » 15 септември 2008, 18:29

Искам да споделя и моя опит, но нека да не се определя за еталон. Както споменава mandor всеки си си има някакъв метод, които му се трува най-лесен. Ето го и моя:

1. Сканирам текста с fine reader и разпознавайки се опитвам да отстраня колкото се може повече грешки за да ми е по-лесно после в текстовия редактор. Запазвам го в .txt файл с кодировка ANSI.
2. Отварям с OpenOffice и минавам правописна проверка. Запис пак в .txt.
3. Отварям с АtlantisWord и правя форматиране и автокорекция. Понеже редактирам главно собствени книги или книги които някой друг е сканирал на които имам книжното издание, за финал проверявам за слети или разделени абзаци с книжното издание в ръка. Финално го изпращам в .odt(OpenOffice).

Мнение от piki » 15 септември 2008, 12:53

Аз пък минавам сканираните страници през първото сито във Finereader. Там оправям грубите грешки. После експортвам в txt. Минавам го през Fiction Book Designer. После от фб2 го прехвърлям в RTF с CoolReader и след това пак в txt. Пускам му една проверка през Word със спел чекъра и regular expressions в Notepad++/UltraEditor. И най-накрая правя бързо или подробно изчитане, след като го мина през MyLyb2FB конвертора на Мандор. Това е... piece of cake

PS. ПО подобен начин снимах, разпознах, редактирах и качих "Мечът на Шанара" от Тери Брукс за 1 ден. От сутринта от 8 до вечерта и бях готов. Но разполагах с идеално контрастни, 8 мегапикселови снимки на страниците. За съжаление фотото не беше мое :(

Мнение от ultimat » 15 септември 2008, 10:40

Нямам намерение да се отчайвам. Убедена съм, че ако се справя един път нещата след това ще налекнат значително и ще досаждам по малко с елемнтарни въпроси. Благодаря за бързите отговори.

Мнение от Mandor » 15 септември 2008, 08:24

BHorse
Да, точно заради такива сливания препоръчвам да се сравнят визуално началата на параграфите, но кой ще си дава този труд... :(
ultimat
Изобщо да не се обезкуражаваш! Всички сме минали през този етап. За съжаление, BHorse е прав - колкото хора, толкова методи.
Аз, например, експортирам в HTML (форматиран текст; съвместимо със стари браузери), след което с макрос в текстообработващата ми програма премахвам маркерите за шрифт, размер и т.н. и оставям само <i> и <b>. После редактирам получения текстов файл. Под "редактиране" разбирам пълно изчитане и корекция на забелязаните грешки, като текстовият редактор ми заема дясната половина от екрана, а в лявата гледам сканираните страници от FR за визуална проверка на съмнителните места. По време на изчитането вмъквам SFB-маркери за форматиране; най-накрая прекарвам текста през макрос за маркиране на съмнителните места (почти всички са описани в първия пост на тази тема) и отново прехвърлям текста, като спирам на маркираните думи - както от макроса, така и от модула за проверка на правописа. Най-накрая прекарвам получения текст през SFB-конвертора, за да проверя дали не се е промъкнала грешка при форматирането. Това е.

Мнение от BHorse » 15 септември 2008, 02:13

Аз не сканирам - нямам скенер вкъщи, а и компютърът ми се е на удобно място за поставяне на скенер. Затова пък от време на време разпознавам сканирани книги и се занимавам с редакция. На SecondShoe и ultimat мога да препоръчам само едно - разгледайте темата, разгледайте програмите, които се цитират в нея и си изберете най-удобните за вас. Съмнявам се някой да направи инструкция с картинки, но дори и да има такава, тя едва ли би била най-удачна за всеки, тъй като всеки от нас работи на различен компютър и, има различни навици за работа. Лично аз използвам следния начин на работа:
1. Зареждам всички страници във Fine Reader и го пускам да разпознава.
2. Готовия текст прехвърлям в WORD (колкото и да не харесва Борислав тази програма :))
3. Чета текста и поправям всяка забелязана грешка.
4. Записвам текста в UTF-8.


И една малка добавка към първия пост на Mandor - много често в текстовете се среща сливане на пряка реч с последващия я абзац - частен случай на неправилно разпознати абзаци. За съжаление няма начин това да бъде проверено от каквато и да било програма, може да се забележи само при четене.

Към началото

cron