Форуми на Моята библиотека

Здравейте,
Прегледах вече няколко теми за сканиране и разпознаване на текст, но не намерих нищо за редактиренето. Току що приключих с редактирането на една книга и я пуснах за добавяне. Това, което ме изненада беше, че сканирането и OCR-а отнеха около 10% от времето и още 90% ми бяха необходими за да открия грешки, неправилно разпознати думи и други мазнотии. Преди да започна направих няколко макроса за да изчистят дублирани интервали и др. глупости. Също така инсталирах ItaEst за проверка на правописни грешки. Последното мога да кажа, че не ми помогна въобще. Във всеки случай трябваше внимателно да прочета цялата книга за да открия всички нередности (а самата книга съм я чел поне 5 пъти и вече ми беше малко досадно

).
Затова сега се обръщем към по-опитните в занаята за помощ. Има ли начин за по-бързо и лесно редактиране?

v.

Ами ... не - по бърз и точен начин от прочитането и оправяне на грешките ръчно няма...освен ако не дадеш на друг - който не е чел книгата или поне не я е чел 5 пъти да я редактира.

П.С.Ако сканираните картинки са с добра резолюция и ползваш аби файн рийдер 8 не би трябвало да има чак толкова много грешки...

slavy написа: П.С.Ако сканираните картинки са с добра резолюция и ползваш аби файн рийдер 8 не би трябвало да има чак толкова много грешки...

Така е, но понякога книгите имат дефекти, т.е. недобре отпечатани страници. Освен това, когато се сканира с по-ниска разделителна способност става по-бързо.

Няма начин да коригираш сканиран текст без да прочетеш отново целия текст. Има обаче техники и тънкости при корекцията на грешките. Ще споделя моя опит в това отношение. Не мислете за текста като нещо смислено, а като прост набор от символи част от които са сбъркани. По този начин ще вземате по-правилни решения при поправката на грешките.

Аз използвам модула за търсене и заместване на редактора с които работя, преди около 10 дена това беше MS Word(сега минах на ОпънОфис но още нямам опит с него). Настройвам го да търси и замести определена група символи с правилната по целия текст на документа. Не е задължително да е цяла или отделна дума. По този начин срещаните грешки прогресивно намаляват. Това е така тъй като, ако сте сканирали при едни и същи параметри и условия текста, то скенера е снимал по един и същи начин, транслатора от графика в текст допуска почти едни и същи грешки в словосъчетанията.

Разбира се трябва да се влага доста мисъл при заместването. Задължително ако е възможно трябва да се групират неправилно транслирани с правилно транслирани символи. Символите трябва да са максимално малко на брой, от една страна за да може да се обхванат възможно най голям брой сгрешени думи(без член ако се напише думата или се ограничим до нейния корен ще бъдат коригирани множество разновидности на тази дума), но от друга страна е необходимо да са достатъчно на брой правилните символи за да не се подменят думи(ако ползвате само част от думата имайте в предвид че тя може да е част и на съвсем друга дума. Програмата няма да направи тази разлика и може би добавянето на още една буква решава проблема). След преминаване на около 10 страници по този начин почти не се среща текст за коригиране, но само почти. Срещат се макар и единични, но гарантирам че след преминаване на една трета, вече ще са по една две грешки на около 10-15 страници.

Тук естествено може да спрете и да пуснете програма за коригиране на правописните грешки. Аз ползвах тази на Датекс, но тя работи с Флекстайп, а флекстайпа променя връзките в езиковата база на Windows на системно ниво и с течение на времето създава проблеми с извеждането на различни езикови таблици(води до преинсталиране

). Това е една от причините да премина и на Опън-Офис пакета, който е на чист български и има корекция на правописа, сричкопренасяне и български синонимен речник. Другата

както се досещате е, че всичко това е напълно безплатен и законен софтуер така че MS да духа супата

. С новия софтуер още не съм се пробвал, но с FlexWord работата ставаше. Тук трябва да съобразите, че често се ползват диалектни думи или чуждици и да правите справка с оригинала. По този начин една книга от около 150 - 200 страници може да се редактира за около 3-4 часа след сканирането и превръщането и в текст, но пак повтарям много е важно как ще подбирате и подменяте групите символи, иска се малко тренировка за да придобиете опит. Може и да ви хареса, това все пак си е една доста добра и интересна логическа задача.
Успех

на всички начинаещи и нека и други споделят опита си, надявам се ще е полезно за всички нас.

slavy написа:П.С.Ако сканираните картинки са с добра резолюция и ползваш аби файн рийдер 8 не би трябвало да има чак толкова много грешки...

И аз искам да споделя проблемите си, тъй като сега съм на етап редактиране на един сборник с фантастични разкази и имам нужда от помощ.
Ползвах цифров фотоапарат Canon A620, с който заснех книгата. Тъй като нямах помощник беше доста трудоемко, но за сметка на това бързо

. Най-голям проблем при снимането е книгата да не е под някакъв ъгъл защото Файн Рийдър се шашка, но както и да е, оправих се. Ползвах едно стъкло от един рафт (не е смешно), с който затисках половината от книгата, която беше подпряна на една възглавница на леглото. Фотоапарата беше на статив до леглото. Апарата беше настроен да снима 2 секунди след като натисна копчето, тъй като иначе се тресеше и мажеше. Седях и разлиствах книгата и само се пресягах да натискам копчето. Тъй като апарата има flip screen си бях обърнал дисплея срещу мен и виждах достатъчно за да донамествам книгата след обръщане на страницата. Както и да е стана бързо, ама бая се уморих щото стъклото беше голямо и тежеше

.Ползвах черно-бял режим и малко по-продължителна експозиция. Макар и да ми изглеждаше омазано Файн Рийдър си разпозна страниците почти без грешки. Дори страници дето ми се виждаха безнадеждно омазани си ги разпозна без проблем. Тук там се появяваше някоя грешка ама ги оправях директно при разпознаването на всяка страница. Проблема е, че в самата книга има ужасно много грешки (така си е отпечатана), но това не ми е най-големия проблем сега.
В момента имам книгата на DOC файл и се чудя как да премахна оригиналното форматиране. Проблемите ми са със знаците за пренос (не искам да ходя ред по ред да обединявам пренесените думи) и оригиналната дължина на редовете. Искам да обединя редовете и дължината им да зависи само от размера на прозореца на програмата за четене. С другите работи сам ще се оправя ама за тея двете си нямам идея как става!

P.S. Не мога да пускам съобщения когато вляза регистриран!!! Излиза ми съобщение за грешка: "Не сте избрали тип на съобщението"

SecondShoe? написа: В момента имам книгата на DOC файл и се чудя как да премахна оригиналното форматиране. Проблемите ми са със знаците за пренос (не искам да ходя ред по ред да обединявам пренесените думи) и оригиналната дължина на редовете. Искам да обединя редовете и дължината им да зависи само от размера на прозореца на програмата за четене...

Ако искаш изпрати ми файла на [email protected] да видя какво точно му има на форматирането и после ще напиша какво съм измислил.

goblin написа:Ако искаш изпрати ми файла на [email protected] да видя какво точно му има на форматирането и после ще напиша какво съм измислил.

Пратих го.

P.S. Сега пък успях да пусна постинг регистриран.

SecondShoe,

Ако си пазиш batch-а от FineReader-a, просто експериментирай с различни настройки на експортирането. При мен най-добри резултати дава при txt със следните настройки:

Преди да вадя на тхт, обаче, минавам проверка на правописа във FineReader-a и гледайки улавям доста неправилно разпознати пренасяния, които оправям ръчно и на момента. Най-често в края на дясната страница. Също така липсващ ENTER за пренос на нов ред при пряка реч и кратки реплики.

След като извадя файла на тхт, го 'почиствам' в EditPad Lite - наистина много бърз и добър редактор. Например: заменям дублираните интервали с единични, претърсвам за още изостанали неправилни пренасяния с -ENTER. Веднага лъсват. Визуално, ако има излишни празни редове също лесно се забеляват. Накрая пускам втори spellcheck. Може да се ползва Word или Writer от OpenOffice.org.

Успех!
нт

SecondShoe? написа: В момента имам книгата на DOC файл и се чудя как да премахна оригиналното форматиране. Проблемите ми са със знаците за пренос (не искам да ходя ред по ред да обединявам пренесените думи) и оригиналната дължина на редовете. Искам да обединя редовете и дължината им да зависи само от размера на прозореца на програмата за четене. С другите работи сам ще се оправя ама за тея двете си нямам идея как става!

Има малки тънкости към които ще те насоча.

По първия ти проблем неправилния пренос, има два типа грешен пренос: единия е на неправилен пренос в комбинация с карай на абзац (т.е. натиснат ENTER за нов ред). При този вариант трябва да се махнат първо символите за край на абзац за да стане проблем на пренос от втори тип, а той е тире за пренос в дума, намираща се по средата на реда. Този тип грешка се оправя много лесно с правописен речник- той ги локализира и извежда в прозорец за поправка. Аз работя вече с Опън Офиса и ползвам неговата екстра за правопис. Ако работите с MS Office трябва да потърсите друг вариант например FlexWord на Datex.

Втория ти проблем, обединяване на редовете е малко по-сложен за решаване,

поради многообразието от грешки. Трябва да се съобразим, че нов абзац можем да имаме единствено след '.', ':', '!' и '?' които са край на ред. По-редки са случаите когато имаме край на абзац след затварящи кавички и други символи и литерали. От друга страна край на абзац не може да има след малка, голяма буква, интервал, запетая, точка и запетая и тире освен в редки частни случай. И сега аз постъпвам по следния начин текста го конвертирам в ANSI кодировка и коригирам грешките с редактор за шестнадесетичен код

. Ползвам Notepad++ с които извършвам и конвертирането ако се налага. Той в плъгините си има такъв редактор. Правя следните стъпки:
1. (Решението за първия ти проблем)Задавам му да търси комбинацията 2d0d0a ('-' + 'ENTER') и където я намери по текста да я замести с 2d20 ('-' и интервал). По този начин се изчиства комбинираната грешка тире за пренос + край на абзац, като се оставя само тирето с интервал, което води до показване на грешка от правописната програма в думата, ако тирето е за пренос а не обикновено. Излизате от шестнадесетичния редактор и си правите сейв. По желание може още сега да минете правописната проверка за да ликвидирате грешните преноси, там където тиретата не са за преноси няма да ви даде грешка.

2. Сега искам да запомните че в ANSI кодировката 0d0c(латински букви) отговаря на натиснат ентер или нов абзац за краткост ще го изписвам Е. Следващите търсения и замествания които правя в шестнадесетичния редактор са 20Е с 20(след интервал не може да има нов абзац следователно оставяме само интервал); 2cЕ с 2c20(запетайка Е, със запетайка интервал); 3bЕ с 3b20(точка и запетая Е, с точка и запетая и интервал). До тук считам че ви стана ясно остават ви още точно 32 проверки за малките букви от българската азбука и трябва да въведете последователно търсене и заместване с e0E; e1E; e2E ... edE; eeE; efE; f0E; f1E ... ffE и ги заместите съответно с e020; e120 и т.н. до края. Подчертавам това са малките букви на кирилица. Главните букви и цифрите не ги визирам- според мен много рядко срещана грешка за да си губим времето с нея. Който може да си напише макрос

, който не може

да работи така, по-добре е от колкото да четеш и препрочиташ няколко пъти целия текст.

Разбира се тази техника не е на 100% успешна, но визираните грешки ги свежда до минимум. По този начин оставяте възможност за край на абзац, единствено ако съвпадне с край на изречението. Няма техника за 100% оформяне на абзаците без прочитане на целия текст, но тази ще реши проблема почти на 95%. Успех

ПП Снощи го писах до късно и уточнявам две неща:
Първо конвертирането на текста е в чист текст ANSI кодировка тъй като е 8 битова и търсенето на комбинациите е по-елементарно.
Второ комбинациите са в шестнадесетичен код в който се използват цифрите от 0 до 9 и буквите от латинската азбука- abcdef. Използваната главна буква Е е комбинацията 0c0d.

GeOrg написа:..............

За конкретния файл нямаше нужда от чак такива гимнастики. Всичко стана в Word.

Отваряме файла, натискаме бутончето, за са се виждат скритите символи и оглеждаме текста, за да видим какви хитринки трябва да приложим. В случая трябва да се оправят пренасянията и абзаците.

1. При пренасянията имаме тире и параграф. На места втората част на думата започва от началото на реда, а на други места пред нея има един или два интервала. За да оправим интервалите, първо избираме "Replace" и задаваме да замени "тире и параграф" с някакъв символ, който го няма в текста (например "@"). След това заменяме "@ и интервал" с "@" и повтаряме това няколко пъти. След тази операция пренесените думи изглеждат та@ка. Пак с "Replace" премахваме "@" и приключваме с пренасянията.

2. Забелязваме, че в началото на всеки абзац има три или повече интервала. Тук прилагаме същия номер със замените.
Заменяме "параграф и три интервала" с "@". После заменяме останалите параграфи (тези, които всъщност не трябва да ги има) с "интервал". След това заменяме "@ и интервал" с "@" и повтаряме това няколко пъти. Така получаваме един безкраен текст, но с "@" на местата, на които трябва да има нов ред. Заменяме "@" с "параграф и пет интервала" и получаваме, каквото искахме да получим.

3. Изпращаме файла на SecondShoe да го прочете още веднъж и да направи някои дребни корекции.

Това за трите интервала след абзаца наистина не се бях сетил

. Твоя метод решава по-добре проблема за абзаците. Аз също ще го прилагам от тук на татък, много добро решение браво

Имаш ли някаква идея това което предлагаш върви ли на ООо(ОпенОфис). Май ми е време да започвам с опитите.
Колкото до пренасянията според мене е по добре да се внесе тире и интервал и да се изчистят с коректора на грешки, наместо залагане на несрещан символ визираното @. Много често след пряка реч имаме тирета които не са за пренос и се намират на края на ред т.е. има и параграф до тях. Впрочем и твоя метод в крайна сметка ще доведе до грешка в програмата за корекция. Така че май като се замисля спора е излишен, но това за трите интервала е страхотно 10х от мене.

SecondShoe? написа:Не мога да пускам съобщения когато вляза регистриран!!! Излиза ми съобщение за грешка: "Не сте избрали тип на съобщението"

При пускане на нова тема, под текстовата кутия има един ред, от който може да се избере типа на съобщението. Там пише следното:

Пускане на темата като: (*) Нормална () Важна тема () Важно съобщение

По подразбиране е избрано "Нормална".

Щом се появява тази грешка, явно софтуера понякога забравя

какво е било избрано. Засега обаче нямам време да изследвам проблема по-задълбочено.

Ако на някого пак му се появи тази грешка, може да се върне назад и да избере тип на темата. Това би трябвало да оправи нещата.

Добавка (и поправка): Разгледах кода на phpbb2 и видях, че съм се заблудил. Написаното по-горе не е причината за грешката. Нещо друго спъва каруцата.

Благодаря на всички за помощта

. Книгата е почти готова за добавяне. Реших да проверя правописа с Оупън Офис и искам да предупредя всички, които смятат да го ползват! Самия офис има много грешни думи вкарани в речника. Има и някой генерално сбъркани неща принципно. Например на всички места където има съмнение между -е и -я е препочетено -е, при все, че правилно на повечето места е -я. Примерно думата спящи според Оупън Офис е грешна, а вярно било спещи! Всички аналогични ситуации са така! Ето и един скрийншот на друга грешка, която е шокираща.

Внимавайте с Оупън Офис! Аз не бих го ползвал повече. Бях го изтеглил нарочно за да редактирам с него ама при това положение просто няма смисъл.

@Борислав
Аз не се опитвах да пусна нова тема, а да отговоря в тази тема и съответно опцията, която се искаше да избера просто не присъства в прозореца. Пробвах доста пъти, така и не успях, накрая пуснах мнение нерегистриран и стана. После опитах пак и успях да пусна съобщение регистриран. Мистерия.

Съжалявам но прахуляка е правилното изписване, направих бърза справка в речника на Уйкипедия там също е изписана думата с 'у', а не с 'о', освен ако и там не грешат. Колкото до другата грешка, не искам да се явявам адвокат на българския речник на ОпънОфис но просто липсваше тази форма на думата 'спя'- 'спящи' 'спящите' също липсва, лично аз си ги добавих. Друг е въпроса, че наистина има въведени грешни думи(по-скоро диалектни), на мене също това ми направи впечатление.

ПП Тъй като продължих да се ровя в речника на Уйкипедия намерих и думата 'спещи' ако се употреби като сегашно деятелно причастие в множествено число "спещи под звездното небе" е абсолютно правилно както и спещите.
Мда прибързано включих неправилните изрази в речника сега трябва да ги махам от там.
За който не вярва това е линка

GeOrg написа:Съжалявам но прахуляка е правилното изписване, направих бърза справка в речника на Уйкипедия там също е изписана думата с 'у', а не с 'о', освен ако и там не грешат. Колкото до другата грешка, не искам да се явявам адвокат на българския речник на ОпънОфис но просто липсваше тази форма на думата 'спя'- 'спящи' 'спящите' също липсва, лично аз си ги добавих. Друг е въпроса, че наистина има въведени грешни думи(по-скоро диалектни), на мене също това ми направи впечатление.

ПП Тъй като продължих да се ровя в речника на Уйкипедия намерих и думата 'спещи' ако се употреби като сегашно деятелно причастие в множествено число "спещи под звездното небе" е абсолютно правилно както и спещите.

Нужни са малко пояснения.

Уикиречник е сроден проект на Уикипедия, но не е подчинен на енциклопедията. Напълно самостоятелен е. Приликата му с Уикипедия е, че всеки може да прави промени в него.

Преди около две години се заех да вмъкна малко информация в него, като източника ми беше БГ Офис (т.е. информацията, която се ползва и в Оупън Офис). Затова, ако нещо е сгрешено в данните на БГ Офис, ще е сгрешено и в Уикиречник.
Хубавото е, че лесно може да поправи, защото и двата проекта (БГ Офис и Уикиречник) са свободни.

ПП. Официалното име на свободната енциклопедия е Уикипедия.

GeOrg написа:Това за трите интервала след абзаца...

... не е универсално. Може границата между абзаците да е някаква друга, но почти винаги има нещо, за което да се закачиш.

GeOrg написа:...върви ли на ООо(ОпенОфис).

Върви на всеки текстов редактор. Задължително е да може да показва скритите символи, които нормално не се виждат, но участват във форматирането. Аз предпочитам EmEditor.

GeOrg написа:...залагане на несрещан символ визираното @...

Смисълът на това е да можеш да работиш само по елемента, който оправяш в момента, без да променяш други части на текста. В конкретния случай изчистваме излишните интервали между тирето и втората част на думата. Ако не заменим тирето с друг символ, ще пострадат интервалите около тиретата за пряка реч и другите тирета, които не са за пренасяне и трябва да останат.

И още нещо (много важно!): Ако ти се налага да провериш правописа на някоя дума, забрави за речника в Уикипедия!

@GeOrg
Според книжното издание на Български тълковен речник такава дума като прахуляк не съществува. Има: "прахоляк м. Много прах (по земята, във въздуха и пр.). Децата играят из прахоляка".
Освен това като направим проверка с други форми като прахообразен, прахосвам и т.н. всичко е с -о. На всичкото отгоре и фонетично го изговаряме прах'о'ляк, а не прах'у'ляк. Лично за мен беше очевидно, че е с -о още преди да тръгна да търся доказателства, тъй като два семестъра сме имали "Съвременен български език".
Иначе ако тръгна да вадя грешните думи от Оупън Офис ще стане голям списък. Интересно ми е как е в Майкрософт Офиса, сега нямам български речник инсталиран там, ако някой има и пробва ще е интересно да видим резултата.

Едит: току що пробвах в Майкрософт Офис 2003 и резултата е в подкрепа на прахоляк:

Едит 2: Сегашното деятелно причастие (Цитати от най-точния възможен източник на информция, а именно "Българска граматика" на Петър Пашов от 1999 г.)

При сегашното деятелно причастие гласната я под ударение или гласната е без ударение не се менят в зависимост от характера на следващата сричка. Това означава, че са правилни формите в летящи чинии, а не летещи чинии, спящи, а не спещи, напр. у Ив. Вазов:
Един само буден сред толкова спящи,
ти един за всички като демон бдящи...
Също и при членуваната форма за м.р. в ед. ч. я под ударение не преминава в е, напр. спящият, а не спещият, летящия холандец, а не летещия и пр.
Има дублети ако пред удареното -ящ има шушкава съгласна ж, ч, ш или гласна: за правилни се приемат мълчащ и мълчещ, лежащ и лежещ, стоящ и стоещ.

P.S. Това е следващият ми проект за цифровизиране - "Българска граматика" на Петър Пашов. Явно има нужда.

Съгласен съм с всичко защото и аз до сега се рових за правилното. Жалко е че има такива грешки и то в достъпен от всякъде речник в намиращ се в интернет.

Ето какво казва spellchecker-ът ItaEst http://www.bacl.org/itaestbg.html, интегриран в Word 2000 за прЪхУлякЪ

Сетих се, обаче, какво е 'прахуляк'. Правилното изписване ще да е пра-хуляк и сигурно ще значи 'древен хулител'

Язък за OpenOffice-a.

И аз го пробвам от няколко месеца периодично и на мойта стара щайга върви пъти по-тежко от Word-a, и забелязах, че дори и да избера да инсталира само Writer-a, пак сипва 200+ mb на диска, и няма начин да не го прави... Разкарах инсталацията и сега държа един portable вариант, който съм окълцал до последно, но пак е около 100 mb, а Word 2000 под 30.

Темата ми е любима!

Поздрави!

Борислав написа:При пускане на нова тема, под текстовата кутия има един ред, от който може да се избере типа на съобщението. Там пише следното:
Пускане на темата като: (*) Нормална () Важна тема () Важно съобщение

Бориславе, този проблем ("Не сте избрали тип на съобщението") ти го съобщих отдавна. При това се появява по абсолютно случаен принцип, макар че е доста постоянен. А описания от теб ред и аз не го виждам - под текстовата кутия виждам само четири реда с отметки. Всичко казано важи както при IE6, така и при Firefox.
Освен това често се появява съобщение (най-отдолу): "Could not connect to database server at for !".
Това съобщение също не успя да се изпрати отначало. Появи се и "DEBUG INFO: mode=".

Mandor написа:
Борислав написа:При пускане на нова тема, под текстовата кутия има един ред, от който може да се избере типа на съобщението. Там пише следното:
Пускане на темата като: (*) Нормална () Важна тема () Важно съобщение
Бориславе, този проблем ("Не сте избрали тип на съобщението") ти го съобщих отдавна. При това се появява по абсолютно случаен принцип, макар че е доста постоянен. А описания от теб ред и аз не го виждам - под текстовата кутия виждам само четири реда с отметки.

Тогава също ти дадох това обяснение, но вчера разбрах, че причината е друга.

На всяка страница има един вътрешен параметър mode, който определя какъв тип е пусканото съобщение: начало на нова тема, отговор, лично съобщение и др. Явно понякога стойността на този параметър се губи и всичко увисва. Ще потърся дали е известен подобен бъг в phpbb2.

Mandor написа:Освен това често се появява съобщение (най-отдолу): "Could not connect to database server at for !".

Все ме мързи да погледна защо се появява.

Форуми на Моята библиотека

Редактиране

Редактиране