Автоматичен OCR - Linux (Ubuntu)
Пуснато: 31 юли 2014, 05:53
Онзи ден имах малко свободно време та реших да се опитам да опростя процеса на публикуване на материали в Читанка.
Написах няколко прости шел скрипта и мисля че се получи доста добре. Ето горе-долу как стават нещата:
1. Скрипт който инсталира нужните инструменти
2. Скрипт който конвертира всички сканирани изображения в текст
3. В момента работя над скрипт който да премахва грешки получени от OCR-а
4. Също така работя и над скрипт който да проверява за правописни грешки.
5. Последната стъпка ще бъде получения текст да бъде сравнен с текста получен от стъпка #2 и разликите да бъдат показани на проверяващият.
6. На този етап текста едно 80% - 90% от грешките би трябвало да са отстранени.
Ако някой работи на Линукс и се интересува, да пише. В следващите няколко дни ще публикувам всички скриптове, само искам да ги пооправя малко.
Написах няколко прости шел скрипта и мисля че се получи доста добре. Ето горе-долу как стават нещата:
1. Скрипт който инсталира нужните инструменти
2. Скрипт който конвертира всички сканирани изображения в текст
3. В момента работя над скрипт който да премахва грешки получени от OCR-а
4. Също така работя и над скрипт който да проверява за правописни грешки.
5. Последната стъпка ще бъде получения текст да бъде сравнен с текста получен от стъпка #2 и разликите да бъдат показани на проверяващият.
6. На този етап текста едно 80% - 90% от грешките би трябвало да са отстранени.
Ако някой работи на Линукс и се интересува, да пише. В следващите няколко дни ще публикувам всички скриптове, само искам да ги пооправя малко.