Бих предложил да се започне проект за сканиране или по-точно разпознаване на ЛИБИ и ГИБИ - латински и гръцки източници за Българската история. Който се занимава малко с история знае, че това са най-ценните книги за българската история и много хора ще се зарадват да ги имат в по-удобен формат от сегашния достъпен на интернет - книгите са сканирани, но без OCR и не може нито да се търси, нито да се копира от тях удобно.
Разумно е да се започне с ЛИБИ том 1 издаден 1958г., като сканираната версия може да се изтегли от тук
http://macedonia.kroraina.com/libi/1/index.html
Сканирането и разпознаването ще е доста по-трудно от това на малка художествена книга, тъй като имаме две колони, в ляво латинския текст, а в дясно българския текст. Има и доста коментари. Латинският и българският текст може да се преформатират и един над друг, но задължително трябва да се запази и оригиналния номер на страница, защото книгите са цитирани със страници безброй пъти на интернет и в други книги. Ще е необходимо да се постигне и безгрешен текст по възможност, въпреки че може да се постави забележка, хората да проверяват и оригиналите, ако държат на изключителна точност.
Та въпросът е кой тук би желал да посвети малко или повече сили на такъв проект? Chitanka.info би ли помогнала с нещо?
ЛИБИ и ГИБИ
Правила
Уважавайте другите участници и се отнасяйте с тях така, както бихте желали те да се отнасят с вас!
Уважавайте другите участници и се отнасяйте с тях така, както бихте желали те да се отнасят с вас!
Re: ЛИБИ и ГИБИ
С малко напасване на системата на библиотеката, ще е възможно да се запази оригиналното оформление в две колони. Вижда се, че това е много важно при сравняването на двуезичните текстове.
Re: ЛИБИ и ГИБИ
Благодаря за отзива.
Направих вече OCR разпознаване на 2-3 страници с две колони и съм доволен да кажа, че разпознаването и на българския и латинския текст е на около 100% при това и на индексите в текста. Ще трябва да се изтрият доста тирета, да се пипнат някои завъртулки, форматиране и малко творческа работа. ЛИБИ 1 е 460 страници. Дано се съберем обаче поне 2-3ма.
Направих вече OCR разпознаване на 2-3 страници с две колони и съм доволен да кажа, че разпознаването и на българския и латинския текст е на около 100% при това и на индексите в текста. Ще трябва да се изтрият доста тирета, да се пипнат някои завъртулки, форматиране и малко творческа работа. ЛИБИ 1 е 460 страници. Дано се съберем обаче поне 2-3ма.
Re: ЛИБИ и ГИБИ
Как точно възнамеряваш да форматираш текста?
Re: ЛИБИ и ГИБИ
Трябва да мисля, тествам и чета доста по това. За момента го слагам в Word 2010.
Там използвам опцията Page Layout - Columns - Two и Column Break, обаче яко засичам с бележките във Footer. Можело да се използва и таблици за по-голяма гъвкавост, но всичко ще трябва да се копира едно по едно, а ще гледам да минимизирам работата естествено.
За момента свалям страници и търся хора да помагат най-вече.
Там използвам опцията Page Layout - Columns - Two и Column Break, обаче яко засичам с бележките във Footer. Можело да се използва и таблици за по-голяма гъвкавост, но всичко ще трябва да се копира едно по едно, а ще гледам да минимизирам работата естествено.
За момента свалям страници и търся хора да помагат най-вече.
Re: ЛИБИ и ГИБИ
Никой не се нави да помага, та май сам ще си го правя. Поне да споделя тук как го правя, може някой друг да се сблъска с подобен сложен текст и тези проблеми.
1.Сканират се всички страници и се слагат в отделен файл, примерно в .png формат, да не е .jpg където би се да се загубила информация и качество на OCR. На мене страниците ми трябват да ги разпозная често и по 3 пъти, тъй като имам и доста гръцки текст. Първия път правя OCR с латински и български, втория път за страниците с гръцки с латински и гръцки, а за няколко страници трябва буквално да изрежа само гръцкия текст и да направя OCR само с гръцки за да получа точните гръцки думи. Отделно имам и старобългарски, немски, френски, чехски и сръбски за цитирани книги, но те са по-малко. Слагам примерно @@, после на едно място си правя изречение с Insert- Symbol или търсене на unicode символ с Google и после с Rеplace сменям навсякъде @@ във файла.
2.При OCR изключвам Read Header & Footers, изпращам в Word 2010 всичко във Formated text. На пръв поглед изглежда по-зле, но иначе ръцете ви се връзват и оставате на едно място. След което започва лудо форматиране. Размера на страниците трябва да се избере твърдо в този момент, иначе Word се побърква после - при мене е A5. Page Margines се определят също тук за целия текст. Сменям за целия текст и типа на шрифта, но размера не пипам защото после не мога да разпозная кое къде е на страницата. А трябва всяка дума да се форматира с точен размер ръчно, тъй като често една бuква е разпозната примерно с размер 9.4, пък до нея с 8.9 pt. Трябва да се смени и за всеки Параграф "spacing after", често и Font - Spacing.
3. Някой малки таблички и в зависимост от качеството на сканиране се оправят с няколко настройки, но за големи ги копирам в Ексел,
правя ги на една колона, после в Notepad, редактирам ги и после в Word си правя нова таблица.
4. Word разделя текста на колони лесно с с Page Layout-Colums-Two и Ctrl+Shift+Enter и може да се прави по няколко пъти на страница без проблем. Но подобни операции трябва да се правят след като книгата е събрана в един файл (аз я разделих първо на 5 файла, че е голяма) защото пак не трябва да се разчита, чe Word би изпълнил по-сложни операции безгрешно.
5. Почва луда редакция. За радост основния текст е разпознат при мене много добре, но горните индекси може би на 80%, а долните едва на 20%
1.Сканират се всички страници и се слагат в отделен файл, примерно в .png формат, да не е .jpg където би се да се загубила информация и качество на OCR. На мене страниците ми трябват да ги разпозная често и по 3 пъти, тъй като имам и доста гръцки текст. Първия път правя OCR с латински и български, втория път за страниците с гръцки с латински и гръцки, а за няколко страници трябва буквално да изрежа само гръцкия текст и да направя OCR само с гръцки за да получа точните гръцки думи. Отделно имам и старобългарски, немски, френски, чехски и сръбски за цитирани книги, но те са по-малко. Слагам примерно @@, после на едно място си правя изречение с Insert- Symbol или търсене на unicode символ с Google и после с Rеplace сменям навсякъде @@ във файла.
2.При OCR изключвам Read Header & Footers, изпращам в Word 2010 всичко във Formated text. На пръв поглед изглежда по-зле, но иначе ръцете ви се връзват и оставате на едно място. След което започва лудо форматиране. Размера на страниците трябва да се избере твърдо в този момент, иначе Word се побърква после - при мене е A5. Page Margines се определят също тук за целия текст. Сменям за целия текст и типа на шрифта, но размера не пипам защото после не мога да разпозная кое къде е на страницата. А трябва всяка дума да се форматира с точен размер ръчно, тъй като често една бuква е разпозната примерно с размер 9.4, пък до нея с 8.9 pt. Трябва да се смени и за всеки Параграф "spacing after", често и Font - Spacing.
3. Някой малки таблички и в зависимост от качеството на сканиране се оправят с няколко настройки, но за големи ги копирам в Ексел,
правя ги на една колона, после в Notepad, редактирам ги и после в Word си правя нова таблица.
4. Word разделя текста на колони лесно с с Page Layout-Colums-Two и Ctrl+Shift+Enter и може да се прави по няколко пъти на страница без проблем. Но подобни операции трябва да се правят след като книгата е събрана в един файл (аз я разделих първо на 5 файла, че е голяма) защото пак не трябва да се разчита, чe Word би изпълнил по-сложни операции безгрешно.
5. Почва луда редакция. За радост основния текст е разпознат при мене много добре, но горните индекси може би на 80%, а долните едва на 20%
Кой е на линия
Потребители, разглеждащи форума: един гост