Автоматичен OCR - Linux (Ubuntu)

Търсене и предлагане на помощ при сканиране. Теми за началната работа при цифровизацията.
Правила
Уважавайте другите участници и се отнасяйте с тях така, както бихте желали те да се отнасят с вас!
Отговор
ventsy
Мнения: 17
Регистрация: 22 септември 2011, 06:45

Автоматичен OCR - Linux (Ubuntu)

Мнение от ventsy »

Онзи ден имах малко свободно време та реших да се опитам да опростя процеса на публикуване на материали в Читанка.
Написах няколко прости шел скрипта и мисля че се получи доста добре. Ето горе-долу как стават нещата:

1. Скрипт който инсталира нужните инструменти
2. Скрипт който конвертира всички сканирани изображения в текст
3. В момента работя над скрипт който да премахва грешки получени от OCR-а
4. Също така работя и над скрипт който да проверява за правописни грешки.
5. Последната стъпка ще бъде получения текст да бъде сравнен с текста получен от стъпка #2 и разликите да бъдат показани на проверяващият.
6. На този етап текста едно 80% - 90% от грешките би трябвало да са отстранени.

Ако някой работи на Линукс и се интересува, да пише. В следващите няколко дни ще публикувам всички скриптове, само искам да ги пооправя малко.
ventsy
Мнения: 17
Регистрация: 22 септември 2011, 06:45

Re: Автоматичен OCR - Linux (Ubuntu)

Мнение от ventsy »

Между другото - ето какви OCR проблеми засичам засега. Ако има някои които съм пропуснал, моля кажете ми.
JI - л
I-I - Н / н
I/I - И / и
4 - Ч / ч
7 - Т/ т
I-I-I - Ж/ ж
3 - З/з
6 - Б/б
0 - О/о
8 - В/в
g - д
9 - Я/я
[Ц - Щ

-- Дълго тире
Разстояния - повече от едно вероятно е грешка
гост

Re: Автоматичен OCR - Linux (Ubuntu)

Мнение от гост »

Кой engine ползваш ? Tesseract или Cuneiform , Cuneiform е руски и по добре се справя с кирилица, поне по мои наблюдения...
zearendil
Мнения: 46
Регистрация: 26 юли 2010, 16:24

Re: Автоматичен OCR - Linux (Ubuntu)

Мнение от zearendil »

аз се интересувам :)
ventsy
Мнения: 17
Регистрация: 22 септември 2011, 06:45

Re: Автоматичен OCR - Linux (Ubuntu)

Мнение от ventsy »

Tessaract, но не е проблем да ги направя да поддържат и друг engine. Наистина Tessaract на доста места върна пълна каша.
Ще гледам утре по някое време да ги завърша. До неделя 100% ще ги кача.
Отговор

Обратно към

Кой е на линия

Потребители, разглеждащи форума: 0 гости