Съвети за начална редакция след сканиране

За коригирането на текстове след сканиране
Правила
Уважавайте другите участници и се отнасяйте с тях така, както бихте желали те да се отнасят с вас!
Mandor
Мнения: 752
Регистрация: 19 август 2006, 10:56
Връзка:

Съвети за начална редакция след сканиране

Мнение от Mandor »

Тъй като напоследък често виждам книги, които се появяват директно от FineReader-а (най-много с повърхностна проверка с програма за правописна корекция), събрах най-често срещаните проблеми при сканиране и ги описах.
Някои от шаблоните, които съм описал, включват диапазон от възможности, затова най-добре ще е да използвате редактор, който поддържа търсене по регулярни изрази (аз използвам UltraEdit, но и OpenOffice ги поддържа).
И така, ето списъка:

1. Прегледайте началото на книгата - много често сканировчиците прескачат посвещенията, а после забравят да ги добавят.

2. Потърсете странни символи - често се появяват "^" и "~" вместо тире, "|" поради наличие на гънка и т.н. Изобщо, потърсете за символи, които нямат място в текста - "@", "#" и т.н.

3. Потърсете дали имате текст на латиница. Ако програмата за разпознаване е настроена да разпознава смесен текст (например "Български+Английски"), понякога български букви се появяват на латиница - най-често "а", "е", "о"; "r" вместо "г" и т.н.

4. Почистване на интервалите.
Често срещани проблеми са два (и повече) последователни интервала, опашни интервали (<интервал><нов ред>) и водещи интервали (<нов ред><интервал>).

5. Замяна на многоточие
Заменете всички срещания на три точки "..." със символа за многоточие "…" (код 0x85). След това търсете следните некоректни комбинации:
<точка><точка>
<точка><интервал><точка>
<точка><запетая>
<запетая><точка>

6. Изравняване на тиретата
След сканиране и експорт можете да срещнете четири вида тирета в текста - дефис (код 0x2D), n-тире (ширина половин кегел, код 0x96), m-тире (ширина колкото кегела, код 0x97) и тире за пренос (код 0xAD). Прегледайте дали тирето за пренос наистина се появява в пренесени думи и го изтрийте. Преобразувайте всички останали в дефис (засега) - това ще облекчи по-късната обработка.

7. Липсващ интервал след отварящото тире в пряка реч.
Пример:

Код: Избиране на всичко

- Кога тръгваме?
-Веднага.
За целта потърсете комбинацията <нов ред><тире><не-интервал>. Можете да използвате и <нов ред><тире><буква>, но така ще пропуснете изреченията, които започват с многоточие или друг препинателен знак.

8. Неправилно разкъсване на параграф.
Повечето такива грешки се откриват чрез няколко последователни търсения.
<нов ред><малка буква>

Код: Избиране на всичко

…но сега
вече е ясно.
<тире><нов ред>

Код: Избиране на всичко

…заприижда-
ха хора.
<буква><нов ред>

Код: Избиране на всичко

- Колко? - попита
Херцогинята.
<нов ред><тире><интервал><малка буква>

Код: Избиране на всичко

- Колко?
- попита Херцогинята.
<запетая><нов ред>

Код: Избиране на всичко

…доколкото знам,
Боян не може…
Отбележете, че някои от откритите "грешки" може да не са грешки - например в стихотворения или посвещения е допустимо параграф да завършва със запетая, а шаблонът <буква><нов ред> ще "хване" всички заглавия.
Комбинациите <препинателен знак><нов ред> може да се разширят с отварящи скоби,
отварящи кавички и др. - всички символи, за които се сетите, че не може да се появяват в края на реда.

9. Неправилно форматирани препинателни знаци.
Сещам се за следните недопустими комбинации:

9.1. Препинателен знак с интервал пред него:
<интервал><запетая>
<интервал><точка>
<интервал><удивителна>
<интервал><въпросителна>
<интервал><дясна скоба>
<интервал><затваряща кавичка>

9.2. Отварящ елемент с интервал след него:
<лява скоба><интервал>
<отваряща кавичка><интервал>

9.3. Липсващ интервал:
<запетая><не-интервал>
<точка><не-(интервал или нов ред)>

9.4. Два препинателни знака:
Всички комбинации от залепени двойки, състоящи се от: точка, запетая, тире, удивителна, въпросителна. Отбележете, че комбинациите "!?", "?!" и "!!" понякога са допустими.

9.5. Препинателен знак, следван от буква:
<точка><буква>
<запетая><буква>
<удивителна><буква>
<въпросителна><буква>
Обърнете внимание, че с тези шаблони ще откриете напълно коректните "т.н.", "пр.н.е", "бел.ав." и т.н.

9.6. Фалшив препинателен знак:
Най-често се появява фалшива точка или запетая, причинени от петно в сканираната страница. Повечето ще откриете с комбинацията:
<точка><интервал><малка буква>

10. Други комбинации

10.1. Параграф, започващ с нещо различно от тире, главна буква, отварящи кавички или многоточие.
Обърнете внимание, че това търсене ще открие номерата на главите, ако са представени само с числа.

11. Нормализиране на тиретата
Извършете следните замени:
<нов ред><тире><интервал> -> <нов ред><дълго тире><интервал>
<интервал><тире><интервал> -> <интервал><дълго тире><интервал>
За символа <дълго тире> можете да използвате m-тире (код 0x97). След това потърсете следните комбинации:
<тире><интервал>
<интервал><тире>
С тях ще хванете всички тирета, които са неправилно залепени или разделени от едната си страна. Обърнете внимание, че с първата комбинация ще хванете и коректни ситуации като:

Код: Избиране на всичко

кино- и фотоапарати.
12. Потърсете за често срещани замени на символи.
Често съюзът "и" се заменя с близки по вид символи, затова потърсете:
<интервал>н<интервал>
<интервал>п<интервал>
Други вариации на това търсене са:
<интервал>н<препинателен знак>

Друга често срещана замяна е <нула> вместо <главно О>, както и <ер малък> вместо <ер голям>. Добре е да ги потърсите всичките.

Трети шаблон за търсене може да е:
<малка буква><главна буква>
Тази грешка се среща при сканиране на специфични шрифтове, но съм я виждал и в "нормален" текст.

13. Пробно изчитане
Изберете си една част от сканирания текст и я прочетете. Има голяма вероятност да откриете проблем, характерен за конкретния текст (например грешно разпознато име на герой).

И последно, което едва ли някой ще си направи труда да направи - проверете новите редове. Това е лесно в онези части от книгата, където липсва пряка реч, но е много трудно да се "хване" като проблем от редактора. Сравнете визуално началните думи от параграфите в сканирания текст и оригинала - това много ще облекчи по-нататъшната работа на редактора.
В краен случай поне прелистете книгата и проверете дали са разпознати правилно местата, където има смяна на сюжета - там обикновено се оставят два празни реда или "* * *".


Ако някой предложи още разумни шаблони, ще ги включа в списъка.

Между другото, знае ли някой как може да се накара FineReader-а да не поставя символа за край на параграф в края на всяка сканирана страница? Ефектът го има и в 7-ма, и в 8-ма версия.
Последната и единствена промяна е направена от Mandor на 01 юни 2007, 10:27.
eeka

Мнение от eeka »

лудница :shock: :shock:
Аватар
goblin
Мнения: 54
Регистрация: 20 август 2006, 17:18

Re: Съвети за начална редакция след сканиране

Мнение от goblin »

Mandor написа:Между другото, знае ли някой как може да се накара FineReader-а да не поставя символа за край на параграф в края на всяка сканирана страница?
Не може да се накара.
За щастие, има много лесен начин за оправяне на проблема.
1. След разпознаването експортираме файла в Word и му даваме SaveAs > .txt.

2. Изчистваме боклука от текста - обикновено това са номерата на страниците, понякога колонтитули и др. Това става с Replace, като за всеки елемент обикновено се намира начин да се премахне, без да пострада другия текст. Важно е между страниците да не останат други символи освен символа за край на параграф.

3. Отваряме текстовия файл с програмката Fiction Book Designer. При отварянето на файла програмата автоматично обединява прекъснатите абзаци и доста добре се справя с откриването на заглавията на главите. Цялото форматиране нататък става с тази програма (то, всъщност, ако текста е разпознат без много грешки, не остава много да се прави на ръка :D ). След това си съхраняваме книжката във формат .fb2.

4. Конвертиравето на .fb2 в .txt може да се направи по много начини, аз го правя по най-лесния:
Отварям книжката с CoolReader и оттам - експорт в .RTF.
Отварям RTF-а с Word > SaveAs .txt. При това се губят отстъпите в началото на абзаците. Това се оправя, като заменям "Paragraph mark" с "Paragraph mark + 5 интервала" и готово. :)

По този начин преди няколко дни на сайта се появиха книгите "Вирусът Y2K" и "Двойно прикритие". Как изглеждаха преди това в отвратителен PDF формат сигурно някои вече са видели в един друг сайт. Цялата операция общо за двете книги продължи половин час. Удоволствието да оправи тиретата за пренасяне оставих на Борислав. :P
Mandor
Мнения: 752
Регистрация: 19 август 2006, 10:56
Връзка:

Re: Съвети за начална редакция след сканиране

Мнение от Mandor »

goblin написа:1. След разпознаването експортираме файла в Word и му даваме SaveAs > .txt.
Хм, още на тази точка ме изгуби като читател. Ако се сканира книга, в която има много наклонен текст, тази операция ще заличи всякакво форматиране. Да, не се срещат често, но все пак ги има.
Иначе в 90% от случаите тази последователност вероятно ще проработи.
Аватар
goblin
Мнения: 54
Регистрация: 20 август 2006, 17:18

Re: Съвети за начална редакция след сканиране

Мнение от goblin »

Mandor написа:Ако се сканира книга, в която има много наклонен текст, тази операция ще заличи всякакво форматиране.
Ъ-ъ-ъ... Виж сега... Аз съм от поколението, което се е учило да чете, когато книгите не се набираха на компютър :).
Нас са ни учили сами да си намираме акцентите в текста, без да се налага някой да ни ги навира в очите :P, така че наклоненият текст изобщо не ме интересува :).

А сега сериозно: Това се налага заради Fiction Book Designer. Примирявам се с някои недостатъци, защото предимствата при работа с нея са много по-големи. :)
Аватар
Boman
Мнения: 89
Регистрация: 03 февруари 2007, 08:24

Мнение от Boman »

Видях, че темата от Hawthorne тук отплесна по-скоро към тази, та реших да изкажа едно мнение и после да задам някой въпрос.

Първо мнението, че нали всеки го има :wink: :
Най-важно е сканирането. Пробвах няколко скенера на HP i Canon, а сега взех Plustek OpticBook 3600 и мисля, че ако се направят някои настройки предварително като гама корекция, контраст и яркост, тогава всичко след това минава гладко и почти не се налага редактиране. (Между другото, аз правя разлика между редактиране, което е отстраняване на грешките в правописа, и форматирането, което за мен е как изглежда ). Специално Canon има режим Text Mode, който подобрява много трасирането. След това предпочитам да редактирам при OCR-а, за да виждам едновременно и оригинала. Тогава не се налага да се четат големи пасажи.

От тук имам въпрос за форматирането. Не съм наясно със стъпките след OCR-а. Като че правилото е пак "Разни хора, разни идеали!". В какъв формат се експортира, за да стане по-лесно след това форматирането. Използва ли се въобще rtf или fb2 или направо запазваме в txt UTF-8. Просто имам нужда някой с опит да опише стъпките от А до Я като ако трябва да се отвори нова тема за това и да се дискутира, да се раздроби, да се избистри, и да стане по-лесно впоследствие :lol: .

Последно, едно въпросче към goblin:
Видях, че използваш Коол Reader. Убеждавам го аз него да отвори UTF-8, ама той не ще. А обещава, че може. Имаш ли идея защо лъже? Като му подам UTF-8, нито се сърди, нито казва нещо - просто нищо, само празен екран. Като го нахраня с Win 1251 файл, радва се та се къса.

От тук нататък обещавам да пиша по-кратко :P .
Закон на Мърфи: ако мнението ми във форума може да бъде разбрано погрешно, то това ще стане!
Mandor
Мнения: 752
Регистрация: 19 август 2006, 10:56
Връзка:

Мнение от Mandor »

Boman написа:...а сега взех Plustek OpticBook 3600...
Много интересно! Би ли споделил малко практически впечатления от този скенер? Някъде четох, че имал "сляпо поле" на около 7 мм от ръба, вярно ли е?

За онези, които не знаят - това е скенер, проектиран за сканиране на книги - стъклото му излиза на ръба.
Аватар
goblin
Мнения: 54
Регистрация: 20 август 2006, 17:18

Мнение от goblin »

Boman написа:Последно, едно въпросче към goblin:
Видях, че използваш Коол Reader. Убеждавам го аз него да отвори UTF-8, ама той не ще. А обещава, че може. Имаш ли идея защо лъже? Като му подам UTF-8, нито се сърди, нито казва нещо - просто нищо, само празен екран. Като го нахраня с Win 1251 файл, радва се та се къса.
Честно казано, това съм го забелязал, но не съм се замислял, защото и без това си държа книжките в 1251.
Сега направих една проба: Направих една книжка в .fb2 в UTF-8 и CoolReader я отвори. Оказа се, че отваря текстове в UTF-8, свалени от руски сайтове, а с тези тук не става. Май Борислав трябва да каже къде е заровено кучето. :)

PS: Продължих пробите и се оказа, че и от руските текстове в UTF-8 някои ги отваря, а други - не ще :roll:. Има някаква магия тука...
Последната и единствена промяна е направена от goblin на 12 февруари 2007, 11:22.
eeka
Мнения: 5
Регистрация: 10 февруари 2007, 04:08

Мнение от eeka »

да и аз мислех да рекуестна подобно постъпково описание, но като се замислиш то няма един точно фиксиран метод на действие - всеки си действа както му е удобно и според собствените си цели и разбирания. общо взето единственото общо за всички е, че първо сканират и разпознават после редактират. и дори и това не важи за всички, защото някои и обработват заснетото на фотошоп преди разпознаването :).
все пак, понеже и на мен ми харесва идеята да се стъкми нещо като ръководство ще споделя как процедирам аз и се надявам да се включат и други, за да извлечем взаимна полза от споделения опит, както и да спомогнем начинаещите(аз самият не се изключвам от тази група все още).

1. Сканиране+разпознаване.
Тук ползвам вградения енджин във ФайнРийдър, защото си сканира сам и аз само отгръщам страниците без да натискам на всяка бутона за сканиране. По принцип си нагласям ръчно настройката за брайтнес, за да намаля шума по страницата(излишните точки, които създават грешки при разпознаването). За съжаление новият ми скенер не позволява да ползвам тази настройка, но се оказа, че и автоматичното върши чудесна работа. Също така правейки няколко пробни сканирания си задавам и параметрите на книгата/страницата, за да избегна ненужните черни полета, които се получават около книгата иначе, правейки картинката прекалено голяма и неудобна за работа във ФайнРийдър. Другото, което предполагам е излишно да споменавам е настройката за формата на сканиране - Черно/бял документ на 300дпи.
2. След като приключа сканирането+разпознаване вече имам налице готови блокове, които преглеждам един по един, отстранявам излишните и където има нужда правя корекции и също така проверявам номерата на страниците за пропуски или повторения. хубаво е да се обръща внимание и на номерацията на блоковете - когато страниците са 2 и има разни картинки и тям подобни понякога номерацията на блоковете е омешана и се размества последователността на текста.
3. След като съм отстранил излишното и съм проверил и оформил блоковете пускам разпознаване наново. Тук държа да отбележа, че според мен е добре по възможност да се избягва разпознаване със смесени езици. Примерно ако знам, че в текста на книгата няма чужди букви пускам смесено разпознаване само за първата страница със инфото за издателството и автора, а за останалия текст използвам само българския речник.
4. Редактиране във ФайнРийдър: има няколко неща, които според мен е най-добре да се свършат още във ФайнРийдъра. Едното е правописните грешки. Тук най-лесно и нагледно се сверява със снимката, да не говорим, че може и по-мързеливо просто да огледаш набързо осветените в синьо думи/букви/знаци. После следват тиретата за пренос: съвсем лесно: пускам Риплейс на "<тире><Line Break>" със "<Optional Hyphen><Line Break>, измествам прозорчето така, че да не ми пречи и само с бутоните "F" и "R" си прехвърлям едно по едно и замествам където трябва да е тире за пренос, а е разпознато като нормално.
Друго, което ми направи впечатление е, че на доста места ФайнРийдър погрешно слага <Line Break> вместо <Параграф>, най-вече при пряка реч. Сега може и да греша от невежество, но мисля, че това другаде трудно ще се засече, и дори и при четене няма как да сравниш лесно със оригинала. Затова най-важното е да се има едно наум и винаги да се следи за този проблем, защото 100%-ов начин да се засече с някакъв израз няма, понеже във Файнд/Риплейс-а на ФайнРийдър не са включени нужните специални символи. Все пак с търсене на изразите "<точка><Line Break>", "?<Line Break>" и "!<Line Break>" според мен се засичат поне 90% от случаите, но трябва да се отстраняват ръчно.
Това са нещата, които според мен няма как да се свършат толкова добре след експорт. Всеки сам може да си прецени какво друго му харесва да свърши предварително.
5. Експортиране - тук смятам, че формата, в който ще се експортира донякъде зависи от програмата, с която ще се редактира текста. Аз лично експортирам в чист текстов формат без никакви отметки в настройките за експорт, но това, макар и лесно за работа после си има някои недостатъци. В моя случай нещата се свеждат до това, че чета на ГСМ в чист текстов формат и форматирането, което се губи при екпорт в обикновено ТХТ просто не ме интересува. За мен проблем е, когато не са оправени параграфите и пряката реч е слята неразбираемо и не мога да хвана коя реплика на кой герой е. Това, че при експорта се е загубил италика не ме вълнува особено.
6. След експорта следва редактирането, за което постъпково следвам упътването на Мандор по-горе, вземайки предвид какво съм свършил преди това във ФайнРийдъра. За това кое как обаче няма да се впускам в обяснения, защото на самия мен ми беше нужна една доста интензивна кореспонденция с Мандор докато събера 2 и 2 и получа 4. Всеки си има различни познания по текстообработка и от прочетеното във форума съдя, че почти всеки си ползва и различна програма, а си има и отделна тема по въпроса...
Ще добавя само, че ми се струва, че на този пост май не му е точно тука мястото, но ще оставя на админа да го премести ако реши, понеже все пак отговарям на предния пост.
Аватар
Борислав
Мнения: 1065
Регистрация: 15 ноември 2005, 17:25

Мнение от Борислав »

goblin написа:Оказа се, че отваря текстове в UTF-8, свалени от руски сайтове, а с тези тук не става. Май Борислав трябва да каже къде е заровено кучето. :)
Не съм ползвал тази програма, но имам едно предположение.

Някои уиндоски програми разпознават файлове в УТФ-8 само ако те започват с три специални символа (казват им BOM).

Създадох два файла - един с BOM (132 байта) и един без (129 байта). Пробвайте кой от тях ще бъде разпознат.
Аватар
goblin
Мнения: 54
Регистрация: 20 август 2006, 17:18

Мнение от goblin »

Борислав написа:Създадох два файла - един с BOM (132 байта) и един без (129 байта). Пробвайте кой от тях ще бъде разпознат.
Същата работа. :oops:
CoolReader и на двата показва празен лист. EmEditor ги отваря и двата.
Забелязвам, че CoolReader се държи различно с различни файлове (всичките - UTF-8 ) - някои ги отваря нормално, на някои показва празен лист, а някои ги отваря на маймуни. :D
Mandor
Мнения: 752
Регистрация: 19 август 2006, 10:56
Връзка:

Мнение от Mandor »

Не разбирам защо се занимавате с този CoolReader. Защото чете RTF-и ли? За FB2 си има по-нормални "читанки"...
Един от колегите ми беше общувал с Вадим Лопатин (автора на прословутия CR) във връзка с последната му "творба" - wol-конвертор; беше много разочарован - според него автора (цитирам) "има много мърляв стил на програмиране и съпровождане". Като гледам резултатите, напълно му вярвам.
Опитайте и такъв експеримент - вземете един FB2-файл (още по-добре - юникод), изтрийте първите два тага (xml и FictionBook), преименувайте го на txt, и се опитайте да го отворите.
Аватар
goblin
Мнения: 54
Регистрация: 20 август 2006, 17:18

Мнение от goblin »

Mandor написа:Не разбирам защо се занимавате с този CoolReader.
Най-вече - защото единствено с него мога да ползвам SpeechLab (знам какво ще ми отговориш, но, както се казва - въпрос на вкус и диоптри :D ) . Другите читалки, които са ми известни, работят само с SAPI4. Освен това, ако се потрудиш малко с настройките, книгите имат много по-приятен вид, отколкото в Haali Reader например :P .

Очевидно програмата има проблем с автоматичното разпознаване на UTF-8, но това не е достатъчна причина да се откажа от нея.
Аватар
Boman
Мнения: 89
Регистрация: 03 февруари 2007, 08:24

Мнение от Boman »

Mandor написа:Би ли споделил малко практически впечатления от този скенер?
Използвах го за първата си книга за библиотеката. Убедих се, че от скенера зависи да е песен редактирането. Този скенер позволява да се сканира до около 5мм от ръба му, т.е. сканира се страница след страница без да се прегъва книгата. Това позволява да не се деформира книгата и да не се получават сенки. Има добра настойка на изображението, за да се получава отчетлив текст. Автоматично сортира и записва сканираната страница като дава поредно име на файла, върти четните страници и т.н. След като приготвя поредната страница, само натискам един ОГРОМЕН бутон и скенерът върши останалото. Много е бърз. Ако не си пия бирата и сканирам юнашки, стигам до около 7 сек. на страница. Първата книга беше 300 стр., които сканирах за около 1,5 часа без да бързам. Купих го за около 320 щатски, но добавих 60 за 3 години гаранция. Чакам с нетърпение да си докарам мойте книги да ги почвам, че в момента имам само няколко на български. Иначе, като скенер за картинки не е нищо особено - средна работа.

Mandor, освен "Kуул" Reader (Бориславе, нещо не ми дава да напиша куул на ингелийски...), коя читанка за XP да използвам на моя Tablet PC, която да изглежда като книга, зa да е приятна и да не си вадя очите, да помни до къде съм стигнал, а и да отваря UTF-8 и/или FB2 и/или RTF?
...Ле-ле пак отплеснах от темата. Борислав ще ми дърпа ушите и то с право. Това е лош пример за младите. Ще ме прощавате. Sorry. :cry:
Аватар
SecondShoe
Мнения: 421
Регистрация: 16 август 2006, 04:55

Мнение от SecondShoe »

Boman написа:коя читанка за XP да използвам на моя Tablet PC, която да изглежда като книга, зa да е приятна и да не си вадя очите, да помни до къде съм стигнал, а и да отваря UTF-8 и/или FB2 и/или RTF?
Аз също ползвам таблет рс за четене и от куул рийдър по-хубаво не съм открил. Ако нещо не ти отваря както трябва няма проблем да си конвертираш файла за няколко секунди и после да четеш с кеф няколко дена. Щом си с таблет значи екрана е LCD и съответно ти трябва клиър тайп технологията. За съжаление новите версии на куул рийдър не подкарват клиър тайп незнайно защо. Последната коректно работеща версия е 2.0.21. Дръпни я от сайта на куул рийдър и си чети с кеф :D . Другите две вградени в програмата технологии за изглаждане на ръбовете не са толкова добри затова задължително гледай да докараш работещ клиър тайп за максимално удоволствие от четенето.
Аватар
nqgolova
Мнения: 63
Регистрация: 15 август 2006, 17:47
Връзка:

Re: Съвети за начална редакция след сканиране

Мнение от nqgolova »

3. Отваряме текстовия файл с програмката Fiction Book Designer. При отварянето на файла програмата автоматично обединява прекъснатите абзаци и доста добре се справя с откриването на заглавията на главите. Цялото форматиране нататък става с тази програма (то, всъщност, ако текста е разпознат без много грешки, не остава много да се прави на ръка :D ). След това си съхраняваме книжката във формат .fb2.

Когато се опитам да отворя текстовия файл с Fiction Book Designer излизат ми само маймуни.Не мога да разбера къде греша.
Аватар
goblin
Мнения: 54
Регистрация: 20 август 2006, 17:18

Re: Съвети за начална редакция след сканиране

Мнение от goblin »

nqgolova написа:Когато се опитам да отворя текстовия файл с Fiction Book Designer излизат ми само маймуни.Не мога да разбера къде греша.
Защото файлът ти е в UTF-8. Обърни го в 1251. :)

ПП: Отворих файла с Fiction Book Designer. Няма много за редактиране (освен прекъснатите абзаци), но няма да си играя с него. Гледам, че Hawthorne се е захванал с редакцията и не искам да му отнемам удоволствието... :lol:
Аватар
nqgolova
Мнения: 63
Регистрация: 15 август 2006, 17:47
Връзка:

Мнение от nqgolova »

Благодаря много.Цяла седмица се чудя,защото първия път ми прочете файла,а после отказа.Явно ,че тогава съм го направила без да искам.Ще има ли проблем ако се сканира някоя по-нова книга примерно скоро излязла.
Аватар
goblin
Мнения: 54
Регистрация: 20 август 2006, 17:18

Мнение от goblin »

nqgolova написа:Ще има ли проблем ако се сканира някоя по-нова книга примерно скоро излязла.
Това не го разбрах съвсем... :roll: Няма значение кога е излязла книгата, важно е каква кодировка ще си избереш за файла. Иначе новоизлезлите книги са по-лесни за редактиране, защото в тях почти няма пренасяне, защото се набират и печатат по други технологии. :P
След малко ще ти пратя на мейла това, което направих в .fb2 и в .txt.
Има нужда от още малко подреждане, желателно със сравняване с книгата и след това - проверка на правописа, защото има доста раздвоени думи. :)
Аватар
nqgolova
Мнения: 63
Регистрация: 15 август 2006, 17:47
Връзка:

Мнение от nqgolova »

Имах впредвид дали няма да има проблем с издателствата
nlr
Мнения: 63
Регистрация: 29 декември 2006, 15:06
Местонахождение: Варна

Мнение от nlr »

Ти си сканирай, пък проблемите ги остави да ги мисли Борислав :)
Аватар
MikoBG
Мнения: 64
Регистрация: 13 февруари 2007, 02:30

Re: Съвети за начална редакция след сканиране

Мнение от MikoBG »

goblin написа:
nqgolova написа:Когато се опитам да отворя текстовия файл с Fiction Book Designer излизат ми само маймуни.Не мога да разбера къде греша.
Защото файлът ти е в UTF-8. Обърни го в 1251. :)

ПП: Отворих файла с Fiction Book Designer. Няма много за редактиране (освен прекъснатите абзаци), но няма да си играя с него. Гледам, че Hawthorne се е захванал с редакцията и не искам да му отнемам удоволствието... :lol:
Закачвам се за този пост за да добавя и моя коментар за Fiction Book Designer. Чстно казано не ми допадна. Освен описаните в сайта на създателя и проблеми при мен за по малко от 1.5 ч искочиха и други.
- при форматиране на параграф, ако той е по-голям от нещо си / не се потрудих да разера колко / маркера отскача на горе и оцветява и маркира в черно предишния аркиран.
- не функционално подбрани клавиши - за бързина налага се работа с мишка и КБ но в един момент нещо ръцете ти се заплитат! :shock: :oops: :D
- това е описано но ще повторя - няма Save as :shock: - много неудобно и от горе на всичко записвайки преди да изляза не разбрах къде го сложи ! Та сега ще трябва и да претърсвам диска!!! :lol:
Няма да ползвам повече това програмче. Имам чувството, че ако бях пуснал добрия стар РЕ2 или Е3 под ДОС щях по-бързо и по-добре да си свърша работата. :lol: :roll:
Аватар
goblin
Мнения: 54
Регистрация: 20 август 2006, 17:18

Re: Съвети за начална редакция след сканиране

Мнение от goblin »

MikoBG написа:- при форматиране на параграф, ако той е по-голям от нещо си / не се потрудих да разера колко / маркера отскача на горе и оцветява и маркира в черно предишния аркиран. ...

... записвайки преди да изляза не разбрах къде го сложи ! Та сега ще трябва и да претърсвам диска!!!
> Отскача, защото чукаш неправилно. :D Като влачиш с мишката - така става, особено, ако ти треперят ръцете. Там изрично си пише: Параграф се селектира, като кликнеш в началото, след това натискаш Shift и кликваш в края на параграфа. :P

> Файлът ти е в папката ..:\Program Files\Fiction Book Designer\fb2 :shock:
Hawthorne
Мнения: 80
Регистрация: 25 ноември 2006, 08:46
Местонахождение: Шумен
Връзка:

Мнение от Hawthorne »

goblin, ако искаш да редактираш давай, защото аз не се усетих, че тази седмица имам няколко контролно важни, за които трябва да уча и не знам дали ще ми остане много свободно време да редактирам ( то аз нормално не редактирам, а си чета и директно грешките поправям, някак по-интересно ми е :) ).
Приятелите и враговете са богатства, които всеки притежава.
Аватар
strix
Мнения: 15
Регистрация: 03 март 2007, 20:16

Re: Съвети за начална редакция след сканиране

Мнение от strix »

Mandor написа:
4. Почистване на интервалите.
Често срещани проблеми са два (и повече) последователни интервала, опашни интервали (<интервал><нов ред>) и водещи интервали (<нов ред><интервал>).

5. Замяна на многоточие
Заменете всички срещания на три точки "..." със символа за многоточие "…" (код 0x85). След това търсете следните некоректни комбинации:
<точка><точка>
<точка><интервал><точка>
<точка><запетая>
<запетая><точка>

6. Изравняване на тиретата
След сканиране и експорт можете да срещнете четири вида тирета в текста - дефис (код 0x2D), n-тире (ширина половин кегел, код 0x96), m-тире (ширина колкото кегела, код 0x97) и тире за пренос (код 0xAD). Преобразувайте всички в дефис (засега) - това ще облекчи по-късната обработка.
Здравейте,
тъй като за първи път сканирам и редактирам книги имам следните въпроси:
1. По какъв начин да заместя символ/и/ със символ, който го няма на клавиатурата - в случая става дума за три точки "..." със символ за многоточие - код 0x85?
2. Как да търся символи, липсващи на клавиатурата?
Ще съм много благодарен, ако ми отговорите.
За редактиране използвам Crimson Editor и UltraEdit.
nlr
Мнения: 63
Регистрация: 29 декември 2006, 15:06
Местонахождение: Варна

Мнение от nlr »

1. Alt + 0133
2. http://www.frontpagewizard.com/use_alt_keys.asp или Start->Programs->Accsessories->System Tools->Character Map
Аватар
strix
Мнения: 15
Регистрация: 03 март 2007, 20:16

Благодаря!

Мнение от strix »

Благодаря!
Гост

Мнение от Гост »

Каква би могла да бъде причината, един файл в UTF-8 кодиране, след преминаване в ANSI да излиза на квадратчета?
Гост

Мнение от Гост »

ами например утф-а е кирилица а твоя анси по подразбиране е джигитайски или французки или некъф подобен
lavrentii
Мнения: 6
Регистрация: 04 декември 2007, 16:52

Мнение от lavrentii »

Темата е много добра и дадените идеи са направо страхотни, но аз лично смятам, че много от тези грешки не са толкова фатални. :) Искам да попитам как мога да търся подобни последователности:

<нов ред><тире><не-интервал>
<нов ред><тире><интервал><малка буква>
<нов ред><тире><буква>

Същността на въпроса ми е, как мога да задавам търсенето на неинтервали, букви или малки букви ?
Отговор

Обратно към

Кой е на линия

Потребители, разглеждащи форума: 0 гости