Автоматичен OCR - Linux (Ubuntu)

Правила
Уважавайте другите участници и се отнасяйте с тях така, както бихте желали те да се отнасят с вас!

Отговор на темата


This question is a means of preventing automated form submissions by spambots.
Усмивки
:D :) :( :o :shock: :? 8) :lol: :x :P :oops: :cry: :evil: :twisted: :roll: :wink: :!: :?: :idea: :arrow: :| :mrgreen:
BBCode е включен
Кодът [img] е включен
Кодът [flash] е изключен
Кодът [url] е включен
Усмивките са включени
Преглед на темата
   

Разгъване Преглед на темата: Автоматичен OCR - Linux (Ubuntu)

Re: Автоматичен OCR - Linux (Ubuntu)

Мнение от ventsy » 01 август 2014, 16:00

Tessaract, но не е проблем да ги направя да поддържат и друг engine. Наистина Tessaract на доста места върна пълна каша.
Ще гледам утре по някое време да ги завърша. До неделя 100% ще ги кача.

Re: Автоматичен OCR - Linux (Ubuntu)

Мнение от zearendil » 31 юли 2014, 18:31

аз се интересувам :)

Re: Автоматичен OCR - Linux (Ubuntu)

Мнение от гост » 31 юли 2014, 07:56

Кой engine ползваш ? Tesseract или Cuneiform , Cuneiform е руски и по добре се справя с кирилица, поне по мои наблюдения...

Re: Автоматичен OCR - Linux (Ubuntu)

Мнение от ventsy » 31 юли 2014, 06:33

Между другото - ето какви OCR проблеми засичам засега. Ако има някои които съм пропуснал, моля кажете ми.
JI - л
I-I - Н / н
I/I - И / и
4 - Ч / ч
7 - Т/ т
I-I-I - Ж/ ж
3 - З/з
6 - Б/б
0 - О/о
8 - В/в
g - д
9 - Я/я
[Ц - Щ

-- Дълго тире
Разстояния - повече от едно вероятно е грешка

Автоматичен OCR - Linux (Ubuntu)

Мнение от ventsy » 31 юли 2014, 05:53

Онзи ден имах малко свободно време та реших да се опитам да опростя процеса на публикуване на материали в Читанка.
Написах няколко прости шел скрипта и мисля че се получи доста добре. Ето горе-долу как стават нещата:

1. Скрипт който инсталира нужните инструменти
2. Скрипт който конвертира всички сканирани изображения в текст
3. В момента работя над скрипт който да премахва грешки получени от OCR-а
4. Също така работя и над скрипт който да проверява за правописни грешки.
5. Последната стъпка ще бъде получения текст да бъде сравнен с текста получен от стъпка #2 и разликите да бъдат показани на проверяващият.
6. На този етап текста едно 80% - 90% от грешките би трябвало да са отстранени.

Ако някой работи на Линукс и се интересува, да пише. В следващите няколко дни ще публикувам всички скриптове, само искам да ги пооправя малко.

Към началото

cron