ЛИБИ и ГИБИ

ЛИБИ

Бих предложил да се започне проект за сканиране или по-точно разпознаване на ЛИБИ и ГИБИ - латински и гръцки източници за Българската история. Който се занимава малко с история знае, че това са най-ценните книги за българската история и много хора ще се зарадват да ги имат в по-удобен формат от сегашния достъпен на интернет - книгите са сканирани, но без OCR и не може нито да се търси, нито да се копира от тях удобно.
Разумно е да се започне с ЛИБИ том 1 издаден 1958г., като сканираната версия може да се изтегли от тук
http://macedonia.kroraina.com/libi/1/index.html

Сканирането и разпознаването ще е доста по-трудно от това на малка художествена книга, тъй като имаме две колони, в ляво латинския текст, а в дясно българския текст. Има и доста коментари. Латинският и българският текст може да се преформатират и един над друг, но задължително трябва да се запази и оригиналния номер на страница, защото книгите са цитирани със страници безброй пъти на интернет и в други книги. Ще е необходимо да се постигне и безгрешен текст по възможност, въпреки че може да се постави забележка, хората да проверяват и оригиналите, ако държат на изключителна точност.

Та въпросът е кой тук би желал да посвети малко или повече сили на такъв проект? Chitanka.info би ли помогнала с нещо?

С малко напасване на системата на библиотеката, ще е възможно да се запази оригиналното оформление в две колони. Вижда се, че това е много важно при сравняването на двуезичните текстове.

ЛИБИ

Благодаря за отзива.

Направих вече OCR разпознаване на 2-3 страници с две колони и съм доволен да кажа, че разпознаването и на българския и латинския текст е на около 100% при това и на индексите в текста. Ще трябва да се изтрият доста тирета, да се пипнат някои завъртулки, форматиране и малко творческа работа. ЛИБИ 1 е 460 страници. Дано се съберем обаче поне 2-3ма.

Как точно възнамеряваш да форматираш текста?

ЛИБИ

Трябва да мисля, тествам и чета доста по това. За момента го слагам в Word 2010.
Там използвам опцията Page Layout - Columns - Two и Column Break, обаче яко засичам с бележките във Footer. Можело да се използва и таблици за по-голяма гъвкавост, но всичко ще трябва да се копира едно по едно, а ще гледам да минимизирам работата естествено.
За момента свалям страници и търся хора да помагат най-вече.

ЛИБИ

Никой не се нави да помага, та май сам ще си го правя. Поне да споделя тук как го правя, може някой друг да се сблъска с подобен сложен текст и тези проблеми.

1.Сканират се всички страници и се слагат в отделен файл, примерно в .png формат, да не е .jpg където би се да се загубила информация и качество на OCR. На мене страниците ми трябват да ги разпозная често и по 3 пъти, тъй като имам и доста гръцки текст. Първия път правя OCR с латински и български, втория път за страниците с гръцки с латински и гръцки, а за няколко страници трябва буквално да изрежа само гръцкия текст и да направя OCR само с гръцки за да получа точните гръцки думи. Отделно имам и старобългарски, немски, френски, чехски и сръбски за цитирани книги, но те са по-малко. Слагам примерно @@, после на едно място си правя изречение с Insert- Symbol или търсене на unicode символ с Google и после с Rеplace сменям навсякъде @@ във файла.

2.При OCR изключвам Read Header & Footers, изпращам в Word 2010 всичко във Formated text. На пръв поглед изглежда по-зле, но иначе ръцете ви се връзват и оставате на едно място. След което започва лудо форматиране. Размера на страниците трябва да се избере твърдо в този момент, иначе Word се побърква после - при мене е A5. Page Margines се определят също тук за целия текст. Сменям за целия текст и типа на шрифта, но размера не пипам защото после не мога да разпозная кое къде е на страницата. А трябва всяка дума да се форматира с точен размер ръчно, тъй като често една бuква е разпозната примерно с размер 9.4, пък до нея с 8.9 pt. Трябва да се смени и за всеки Параграф "spacing after", често и Font - Spacing.

3. Някой малки таблички и в зависимост от качеството на сканиране се оправят с няколко настройки, но за големи ги копирам в Ексел,
правя ги на една колона, после в Notepad, редактирам ги и после в Word си правя нова таблица.

4. Word разделя текста на колони лесно с с Page Layout-Colums-Two и Ctrl+Shift+Enter и може да се прави по няколко пъти на страница без проблем. Но подобни операции трябва да се правят след като книгата е събрана в един файл (аз я разделих първо на 5 файла, че е голяма) защото пак не трябва да се разчита, чe Word би изпълнил по-сложни операции безгрешно.

5. Почва луда редакция. За радост основния текст е разпознат при мене много добре, но горните индекси може би на 80%, а долните едва на 20%

Форуми на Моята библиотека

ЛИБИ и ГИБИ

ЛИБИ и ГИБИ

Re: ЛИБИ и ГИБИ

Re: ЛИБИ и ГИБИ

Re: ЛИБИ и ГИБИ

Re: ЛИБИ и ГИБИ

Re: ЛИБИ и ГИБИ

Кой е на линия