Форуми на Моята библиотека

Онзи ден имах малко свободно време та реших да се опитам да опростя процеса на публикуване на материали в Читанка.
Написах няколко прости шел скрипта и мисля че се получи доста добре. Ето горе-долу как стават нещата:

1. Скрипт който инсталира нужните инструменти
2. Скрипт който конвертира всички сканирани изображения в текст
3. В момента работя над скрипт който да премахва грешки получени от OCR-а
4. Също така работя и над скрипт който да проверява за правописни грешки.
5. Последната стъпка ще бъде получения текст да бъде сравнен с текста получен от стъпка #2 и разликите да бъдат показани на проверяващият.
6. На този етап текста едно 80% - 90% от грешките би трябвало да са отстранени.

Ако някой работи на Линукс и се интересува, да пише. В следващите няколко дни ще публикувам всички скриптове, само искам да ги пооправя малко.

Между другото - ето какви OCR проблеми засичам засега. Ако има някои които съм пропуснал, моля кажете ми.
JI - л
I-I - Н / н
I/I - И / и
4 - Ч / ч
7 - Т/ т
I-I-I - Ж/ ж
3 - З/з
6 - Б/б
0 - О/о
8 - В/в
g - д
9 - Я/я
[Ц - Щ

-- Дълго тире
Разстояния - повече от едно вероятно е грешка

Кой engine ползваш ? Tesseract или Cuneiform , Cuneiform е руски и по добре се справя с кирилица, поне по мои наблюдения...

аз се интересувам

Tessaract, но не е проблем да ги направя да поддържат и друг engine. Наистина Tessaract на доста места върна пълна каша.
Ще гледам утре по някое време да ги завърша. До неделя 100% ще ги кача.

Форуми на Моята библиотека

Автоматичен OCR - Linux (Ubuntu)

Автоматичен OCR - Linux (Ubuntu)

Re: Автоматичен OCR - Linux (Ubuntu)

Re: Автоматичен OCR - Linux (Ubuntu)

Re: Автоматичен OCR - Linux (Ubuntu)

Re: Автоматичен OCR - Linux (Ubuntu)