от Boman » 16 септември 2008, 17:27
ANSI е просто оригиналната американска подредба на 8 битовата ASCII кодировка, в която са стандартизирини само първите 128 символа. Според ANSI втората половина от 128 символа съдържа допълнителни символи, псевдо-графика и др. KOI, MIK и другите подобни кодировки просто заместват втората половина с кирилица, или с каквото друго си щат. Windows-1251 е микрософското име на тяхната 8-битова кодировка, съдържаща 256 символа, от които втората половина 128 символа съдържа кирилица. Експортирайте в 8-битова кодировка само ако сте сигурни, че в нея има всички символи, използвани в книгата, което се случва рядко. Така че се налага да използвате някоя от Unicode кодировките като UTF-8.
Ето моите лични предпочитания:
Сканиране:
За снимане с камера вижте идеите във форума. За сканиране със скенер, използвайте пълните възможности на скенера си за настройка и тествайте с някои типични страници, за да ви е по-лесен животът при редакцията. Сканирам черно-бяло; или сиво за по-некачествения печат и обработка след сканирането. Още при сканирането си отбелязвам номерата на проблемни страници, например бледи, мастилени петна, зацапан текст, некачествена хартия, нехванат близо до сгъвките текст и т.н. След сканирането прелиствам набързо (за 10-тина минути) книгата, за да хвана и отбележа допълнително страници, които биха създали проблем, включително и колко НЕ-кирилица има в нея. Ако е необходима допълнителна обработка на картинките, погледнете идеите тук във форума.
Разпознаване:
Ако в текста се среща рядко НЕ-кирилица, целият текст разпознавам като използвам само български и след това разпознавам само единични страници със съответно добавени езици. Иначе направо цялата книга разпознавам с колкото езика са необходими. Коригирам лошия текст в отбелязаните предварително страници. Проверявам за аномалии като разпознати картинки вместо текст. Не махам номерата на страниците, за да е лесна справката при редакцията. Накрая експортирам в Word с опцията "Formated text" без да се притеснявам за кодировката.
Редакция:
Първата ми работа е да премахна скритите опционни знаци за сричкопренасяне (Optional hyphens). После селектирам целия текст и махам всякакво форматиране като запазвам само акцентирания (наклонен) текст и избирам един-единствен шрифт Courier New, просто защото е monospace и ми е по-лесно да забележа грешките и също забелязах, че очите ми се уморяват най-малко от него. След това оправям наведнъж с "намери и замести" честите проблеми с тирета, интервали, многоточия, кавички и т.н. Някои начини да се направи това са дадени във форума. Изключвам всякакво автоматично форматиране в Word и слагам табулатори в началото на всеки абзац. Следва прочитане на книгата с оправяне на правописа и на най-големия проблем според мен - слетите абзаци, особено при пряка реч. Едновременно слагам SFB формата БЕЗ обикновения наклонен (акцентиран) текст. Разбира се, на този етап махам и номерата на страниците. След цялостно прочитане и форматиране минавам чрез "Търсене" само наклонения текст и го форматирам. Записвам в UTF-8 txt файл. Последно, използвам Notepad2, за да сменя затварящите кавички с правилните. Никога не прочитам втори път; това е най-досадното нещо.
ANSI е просто оригиналната американска подредба на 8 битовата ASCII кодировка, в която са стандартизирини само първите 128 символа. Според ANSI втората половина от 128 символа съдържа допълнителни символи, псевдо-графика и др. KOI, MIK и другите подобни кодировки просто заместват втората половина с кирилица, или с каквото друго си щат. Windows-1251 е микрософското име на тяхната 8-битова кодировка, съдържаща 256 символа, от които втората половина 128 символа съдържа кирилица. Експортирайте в 8-битова кодировка само ако сте сигурни, че в нея има всички символи, използвани в книгата, което се случва рядко. Така че се налага да използвате някоя от Unicode кодировките като UTF-8.
Ето моите лични предпочитания:
Сканиране:
За снимане с камера вижте идеите във форума. За сканиране със скенер, използвайте пълните възможности на скенера си за настройка и тествайте с някои типични страници, за да ви е по-лесен животът при редакцията. Сканирам черно-бяло; или сиво за по-некачествения печат и обработка след сканирането. Още при сканирането си отбелязвам номерата на проблемни страници, например бледи, мастилени петна, зацапан текст, некачествена хартия, нехванат близо до сгъвките текст и т.н. След сканирането прелиствам набързо (за 10-тина минути) книгата, за да хвана и отбележа допълнително страници, които биха създали проблем, включително и колко НЕ-кирилица има в нея. Ако е необходима допълнителна обработка на картинките, погледнете идеите тук във форума.
Разпознаване:
Ако в текста се среща рядко НЕ-кирилица, целият текст разпознавам като използвам само български и след това разпознавам само единични страници със съответно добавени езици. Иначе направо цялата книга разпознавам с колкото езика са необходими. Коригирам лошия текст в отбелязаните предварително страници. Проверявам за аномалии като разпознати картинки вместо текст. Не махам номерата на страниците, за да е лесна справката при редакцията. Накрая експортирам в Word с опцията "Formated text" без да се притеснявам за кодировката.
Редакция:
Първата ми работа е да премахна скритите опционни знаци за сричкопренасяне (Optional hyphens). После селектирам целия текст и махам всякакво форматиране като запазвам само акцентирания (наклонен) текст и избирам един-единствен шрифт Courier New, просто защото е monospace и ми е по-лесно да забележа грешките и също забелязах, че очите ми се уморяват най-малко от него. След това оправям наведнъж с "намери и замести" честите проблеми с тирета, интервали, многоточия, кавички и т.н. Някои начини да се направи това са дадени във форума. Изключвам всякакво автоматично форматиране в Word и слагам табулатори в началото на всеки абзац. Следва прочитане на книгата с оправяне на правописа и на най-големия проблем според мен - слетите абзаци, особено при пряка реч. Едновременно слагам SFB формата БЕЗ обикновения наклонен (акцентиран) текст. Разбира се, на този етап махам и номерата на страниците. След цялостно прочитане и форматиране минавам чрез "Търсене" само наклонения текст и го форматирам. Записвам в UTF-8 txt файл. Последно, използвам Notepad2, за да сменя затварящите кавички с правилните. Никога не прочитам втори път; това е най-досадното нещо.