Кратко описание на SFB-формата

Отговор на темата


This question is a means of preventing automated form submissions by spambots.
Усмивки
:D :) :( :o :shock: :? 8) :lol: :x :P :oops: :cry: :evil: :twisted: :roll: :wink: :!: :?: :idea: :arrow: :| :mrgreen:
BBCode е включен
Кодът [img] е включен
Кодът [flash] е изключен
Кодът [url] е включен
Усмивките са включени
Преглед на темата
   

Разгъване Преглед на темата: Кратко описание на SFB-формата

Re: Кратко описание на SFB-формата

Мнение от dijon » 31 август 2017, 09:25

Огромни благодарности на всички за споделянето на собствено "ноу-хау". : )

Извадих си допълнителните програми за помощ, но най-важното е - трябва четене на крайния продукт. Трудоемка и времеотнемаща е цялата процедура.

Малко по малко и ще стане, аз мислих, че за ден ще минавам през всички етапи като сканиране, разпознаване, спелчек, форматиране за SFB и качване за одобрение. : )

EDIT: На Mandor макросите как мога да сваля, тук линка за версия 005 не работи https://forum.chitanka.info/topic774.html

Re: Кратко описание на SFB-формата

Мнение от NomaD » 30 август 2017, 22:58

Ето кратко изложение и на моя дългогодишен и все още усъвършенстващ се опит по работата върху текстовете на сканираните книги.


0. Сканиране и разпознаване (или само разпознаване на сканиран текст) с ABBYY FineReader (накр. FR).

1. Корекция във FR: осветени позиции, спелвани думи, паразитни знаци, слети и разделени параграфи (в режим на визуализиране на непечатаемите знаци), слагане на разделителни празни редове, маркиране на акцентираните думи и изрази, обработка на бележките под линия (съотнасяне на номерацията им към съответния параграф). Винаги се прави повторен контролен преглед страница по страница. Конвертиране на съдържанието и генериране на txt-файл с utf-8 кодировка.

2. Отваряне на txt-файла с Notepad++: Прилагане на табулациите, SFB-структуриране и слагане на коректни разделителни тирета, многоточия и кавички, премахване на излишни интервали, слагане на средни скоби на обяснителните бележки. Файлът се записва в txt-формат с utf-8 кодировка.

3. Обработка на текста в текстовия редактор на Open Office (аналогичен на Word) чрез макроса на Mandor при изключен спелчекър - най-вече сливане на параграфите, разделени постранично в книжното издание, коригиране на осветени съмнителни позиции (невинаги е грешка!), организиране на обяснителните бележки към съответните параграфи, проверка на коректността на SFB-структурата. Файлът се записва в txt-формат с utf-8 кодировка.

4. Проверка на SFB с MyLibToFB2 и корекции на текста, отворен с Notepad++ - най-вече на проблеми с кавичките, бележките под линия и паразитни знаци, пропуснати модификатори за акцентирани думи и изрази, неточни SFB-маркери. Проверката продължава до пълно конвертиране и успешно генериране на fb2-файл. Временно заменяне на M> маркерите с по-старите S> и L>, за да се осъществи успешно конверсията. Файлът се записва като txt с utf-8 кодировка.

5. Преглеждане на текста на генерирания в резултат на конверсията fb2-файл, отворен с Cool Reader - самия текст, структурата на съдържанието (за пропуснато форматиране на заглавие на глава, сгрешена номерация на главите, объркана йерархия на секциите). Макар и невинаги да има пропуски във форматирането, някои немаркирани или погрешно маркирани позиции лесно се открояват. Корекциите се нанасят в txt-файла, отворен с Notepad++. Също така Cool Reader е добър инструмент, с който може да се огледат визуализирането и позиционирането на илюстрациите, ако има такива.

6. Правописна корекция на текста с Open Office с включен спелчекър. Предимство на този иначе несъвършен спелчекър е възможността да се игнорират често срещащите се характерни непознати думи, което позволява да се откроят погрешни техни варианти и съответно да се коригират. За всеки случай е активиран и макросът на Mandor - все някоя пропусната грешна позиция се забелязва. Файлът се записва в txt-формат с utf-8 кодировка.

7. Обстойна проверка и корекция с IDI-спелчекъра. С междинни опреснявания на текста. Ако текстът е пълен с грешки, проверката се повтаря още 1-2 пъти. Файлът се записва в txt-формат с utf-8 кодировка. (Спелчекърът е добър инструмент само за грамотни хора, с него трябва да се действа внимателно и с висока отговорност - с негова помощ се премахват много грешки, но също така може да се нанесат много вреди.)

8. Проверка и корекция с помощта на Проверителя на SFB. Корекциите се нанасят в txt-файла, отворен с Notepad++.

9. Проверка на txt-файла, отворен с Notepad++., за "невидими" ("скрити") грешни думи (рискови думи) с моя "речник" на рисковите думи.

10. Обстойно и пълноценно четене на текста с цел корекция (особено ако проверката в предишните етапи - най-вече тт. 7. и 9. - констатира проблемен в правописно отношение текст). Всяка забелязана проблемна позиция (освен несъмнените грешки) се сверява с реалното издание (съответно - скановете). Корекциите се нанасят в txt-файла, отворен с Notepad++. Четенето на текста от обработвания файл може да се извърши по избран от коректора начин. Аз лично чета текста от fb2-файл с таблет, маркирам проблемните позиции и после нанасям поправките в txt-файла, отворен на компютъра.

11. Последна контролна проверка на SBF-формата с MyLibToFB2 преди качване на файла в Ателието на Читанка за проверка.

12. Качвам в Ателието zip-архив на текстовия файл заедно с jpeg-файл с изображението на корицата и... moosehead и Epsilon да му мислят! :P

Re: Кратко описание на SFB-формата

Мнение от Еми » 30 август 2017, 21:19

Не мога да се въздържа да не споделя и моя скромен опит. След разпознаване минавам предварителен чекер за отстраняване на груби грешки, след това чета качествено в уърд за около 2-5 дни в зависимост от обема на книгата и личните ми ангажименти. Следва подробен чекер по всичко засветнато, проверител на SFB грешки и се получава книга, която има максимум десетина скрити грешки. Програмите са важно нещо, но както казва един от доброволците в МБ, "по-важно е какво има между кориците". Всеки си е намерил някакъв модел, но във всички случаи не може да се разчита само на програмите, а на оператора.

Re: Кратко описание на SFB-формата

Мнение от johnjohn » 30 август 2017, 20:50

Здравейте.

Ще споделя и моя скромен опит. Не снимам с телефон а с обикновен офис скенер HP с резолюция 300 dpi. Ползвам файн ридър десет. Поради това, че се старая да не унищожавам книгата, често скановете ми не са с добро качество.

Най-първоначалната обработка и вмъкване на sfb таговете правя още в OCR-a. Там вмъквам ръчно секции, бележки под линия, ударения и др. Реално правя първи прочит буква по буква, докато още имам за подложка снимката.

След това преминвам в ultraedit (или друг текстов редактор по избор). Там оправям прекъснатите редове, добавям изпуснати табулации. На този етап всеки път изчитам описанието на sfb и статията за често срещани грешки при форматиране. Минал съм само няколко книги, но досега всеки път си намирам грешки по този начин.

След това се прехвърлям в онлайн проверителя. Там автоматично оправям тирета, кавички и т.н. Обхождам всичко засветено ръчно и коригирам в ултраедит при нужда.

Следващ етап - пействам всичко в пясъчника и оглеждам за груби грешки. Там излизат незатворени кавички и грешни тагове.

След това минавам със спелчека. Там за всяка книга е различно, зависи от тематиката най-вече, но винаги излизат маса неща.

Предпоследен етап ми е конвертиране във fb2 с една стара програмка. Тя писка за още доста грешки (некоректни тагове, кавички, бележки под линия).

Резултатния файл чета повторно за няколко вечери от телефона. FB Reader позволява да сложа маркер на всичко, което ме усъмни. На сутринта в офиса, докато си пия кафето сравнявам съмнителните места с хартията и при нужда коригирам. Накрая пускам файла за проверка и обикновено тоз който проверява ми открива още неща.

Цялото упражнение ми изяжда минимум месец за лека книга плейн текст. Надявам се да е била от полза тази писаница.

Re: Кратко описание на SFB-формата

Мнение от thefly » 30 август 2017, 17:37

Твърде добре те разбирам :)) Прекарам по 10 часа на ден пред монитора и мразя да чета от компютър, защото очите ми отиват на кино, но... няма начин да направиш читава (вярна с хартиения оригинал) книжка, ако не я изчетеш (може и леко по диагонала) още в Abbyy Finereader. Това е единствения етап, когато едно до друго стоят и хартиеното, и електронното копие.

В началото и аз си мислех, че е достатъчно да мина книжката през IDI и след това да си я коригирам, докато си я чета на моята си читанка. Е, оказа се, че това ми костваше повече време и очи, и въпреки това резултатът беше, меко казано, незадоволителен.

Re: Кратко описание на SFB-формата

Мнение от dijon » 30 август 2017, 16:55

thefly, благодаря за подробните забележки. Наистина, при курсива без четене на целия текст няма да мине, сглобява думи, които IDI не хваща.
Но не мога да чета дълго време от монитора, заболява ме главата. Отделно и на работа прекарвам едни 8 часа пред екрана.

Ще опитам на следващия разказ с по-добри снимки. Ако пак омаже така - повече курсив няма да "сканирам".

notman, добра идея. Но само от телефона зачитам някоя книга в електронен вариант, че екрана му пази повече. : ) А там е хард за отбелязване.

Re: Кратко описание на SFB-формата

Мнение от notman » 30 август 2017, 16:30

dijon написа:Джуничиро Танидзаки (Jun'ichirō Tanizaki) - Аз

В sfb форматирана и коригирана за SpellCheck. Отне ми доста време...

Прикачвам тук файла, някой ако има време да ми даде съвети дали става за нещо.


Знаеш ли какво, сега ми хрумна, че ако искаш да навлезеш в дебрите на SFB, може би най-добре е да започнеш не с ново произведение, а с корекция на съществуващо. Избираш си, значи, някоя книжка за четене и ако „извадиш късмет“, ще се случи да има повечко грешки в нея. Ти надлежно ще си ги отбележиш по време на четенето, а след това сваляш наличния SFB-файл, отваряш го и коригираш наред. Естествено, това трябва да е съпътствано от нов запис в Ателието с обозначението [(корекция)], както е описано някъде тук :) Докато въртиш текста нагоре-надолу, ще се нагледаш на маркери и ще ги видиш в реално време как се ползват и как работят.
Другото, което искам да ти кажа, е да ползваш чата активно, когато имаш въпроси относно обработката на текст. На първо време задавай въпросите си без конкретен адресат, има кой да ти отговори и ще ти отговори. Не пропускай и тази подробност, че чатът пази относително дълга история, така че ако влезеш днес в празен чат и зададеш въпрос, после излезеш, а утре по същото време влезеш отново, със сигурност ще видиш, че някой ти е отговорил по някое време... например през нощта :) А ако пък се случи някой от познавачите на формата (римува се със сармата, не с нормата) да е в чата - ще можеш надълго и нашироко да го разпиташ, като му привеждаш и конкретни примери от твоя текст :)

Re: Кратко описание на SFB-формата

Мнение от thefly » 30 август 2017, 16:24

IMHO, супер е като за преди „ръчно четене“! Забелязано на пръв крив поглед:
| Джуничиро Танидзаки
| АЗ

(мисля, че заглавията съща трябва да са с редовни букви)
но не и с крадец Крадецът

(изгубена точка)
че ако се сади по

(типична OCR-грешка. но тя се излавя на ръчно четене)
хаорито е сос семеен герб

(като горното. тези грешки не е хубаво да са много, защото и на ръчно четене от раз не можеш ги хвана)
[* Традиционна японска връхна дреха. — Б. пр.]

(конвенцията е Б.пр. и т.н., демек – без шпации)
към него“ но едно е сигурно

(мисля, че IDI не хваща такива грешки)
какво ли не ми мина през Ум тогава.

(ако Ум не е персонаж...)

Да кажат знаещите, но мисля, че е необходимо минимум два пъти четене на ръка за всяка книга. А ако OCR-ът е калпав, може и три пъти.

Re: Кратко описание на SFB-формата

Мнение от dijon » 30 август 2017, 13:30

Джуничиро Танидзаки (Jun'ichirō Tanizaki) - Аз

В sfb форматирана и коригирана за SpellCheck. Отне ми доста време, но за това помогнаха и нескопосаните снимки с телефона. И курсива, който е използван за текста, "з" ми го обърна на "3" (числото три), "ъ" на "б", "в" също на "б" и доста други като цяло само заради курсива.

Прикачвам тук файла, някой ако има време да ми даде съвети дали става за нещо.

Не съм го пускал в сайта, защото пише само преди 2012, а това е от 2016. За цялата книга не знам дали ще успея да "сканирам" и форматирам...
Прикачени файлове
Jun'ichiro-Tanizaki_Az.zip
(10.9 KiB) Свален 8 пъти

Re: Кратко описание на SFB-формата

Мнение от dijon » 25 август 2017, 15:50

~HT,

Благодаря ви за информацията! Кой да се сети да провери дали книгите ги има и в SFB, понеже свалям директно epub, който е конвертиран и всичко си му работи както трябва. : )

Видях и коректора за SFB, който ще ми помогне много след моите редакции. Супер, значи остава да видим каква ще я свърша.

Re: Кратко описание на SFB-формата

Мнение от ~HT » 25 август 2017, 15:45

dijon написа:Почетох доста из форума.

Като цяло цялата операция си е доста сложна. : ) Но все още не ми се е изпарило желанието....
Уж ги понаучих докато четох, но все пак да имам и един готов кадърен файл, за да не губя времето после на някой след мен да се чуди какво съм се опитвал да направя, особено ако няма книгата пред себе си.


Ето и нужния ви линк: https://wiki.chitanka.info/Workroom

Re: Кратко описание на SFB-формата

Мнение от ~HT » 25 август 2017, 15:39

dijon,

Всички файлове в библиотеката са налични за сваляне в sfb - кликнете на предпоследния бутон с иконка на самата библиотека.

Също, ако отидете в 'Работно ателие', може да видите и свалите произволен 'запис' от там и да го разгледате.

Разгледайте също 'ресурси', работно ателие и т.н.
:)

Re: Кратко описание на SFB-формата

Мнение от dijon » 25 август 2017, 15:15

Почетох доста из форума.

Като цяло цялата операция си е доста сложна. : ) Но все още не ми се е изпарило желанието. Единствено може ли да помоля за един форматиран в SFB txt файл?

Да гледам за някой неща, като заглавията, анотациите, главите и т.н. Уж ги понаучих докато четох, но все пак да имам и един готов кадърен файл, за да не губя времето после на някой след мен да се чуди какво съм се опитвал да направя, особено ако няма книгата пред себе си.

Re: Кратко описание на SFB-формата

Мнение от NomaD » 22 юни 2016, 20:38

Правилото за равния брой отварящи и затварящи кавички е не толкова от правописно-пунктуационен, а преди всичко от технически характер - отнася към SFB-формата, за да може коректно да се отчетат оградените думи и изрази при конвертиране във форматите за електронни книги.

Re: Кратко описание на SFB-формата

Мнение от Борислав » 22 юни 2016, 20:34

Еми написа:Не го разбрах това. Трябва да добавя кавички, въпреки че не е така според речника?

Да, ако кавичките а изпуснати, трябва да ги добавиш.

Re: Кратко описание на SFB-формата

Мнение от Еми » 22 юни 2016, 20:32

Не го разбрах това. Трябва да добавя кавички, въпреки че не е така според речника?

Re: Кратко описание на SFB-формата

Мнение от Борислав » 22 юни 2016, 20:27

Еми написа:Сега се зачетох, че броят на отварящите и затварящите кавички трябва да е равен. Но това го промениха с речника на БАН от 2012 г. Пише го на стр.120-121 и най-вече в 127.1.3. - Когато цитат или друг ограден в кавички текст е включен в края на друг цитат, кавичките не се удвояват.

Правилото за изпуснатите кавички е по-старо, но за формата SFB то е без значение. Броят на отварящите и затварящите кавички винаги трябва да е равен, за да може автоматично да се разпознава къде свършват конкретните кавички.

Re: Кратко описание на SFB-формата

Мнение от Еми » 22 юни 2016, 20:18

Сега се зачетох, че броят на отварящите и затварящите кавички трябва да е равен. Но това го промениха с речника на БАН от 2012 г. Пише го на стр.120-121 и най-вече в 127.1.3. - Когато цитат или друг ограден в кавички текст е включен в края на друг цитат, кавичките не се удвояват.

Re: Кратко описание на SFB-формата

Мнение от Spellweaver » 13 юли 2011, 09:58

Знакът за табулация в MS Word при използването на Regular expressions е ^t, а за край на параграф - ^p.

Тоест, ако заместиш ^p с ^p^t всъщност след всеки нов край на параграф ще се появи и табулация.

Re: Табулатори

Мнение от kill_u » 13 юли 2011, 03:43

Boman написа:в Word:
Замести ^p с ^p^t

Ако ползуваш Open Office, той работи с Regular Expressions, което е дълга тема сама по себе си, но е изцяло описана в Help-а на офиса. Позволява да търсиш и заместваш каквото си искаш. Много други редактори също го ползват и си заслужава да се прегледа. Аз ползвам Notepad2 за txt файлове, който също го поддържа и от последната версия поддържа търсене и заместване в UTF-8.


Можеш ли да обясниш по подробно, защото нещо не вдявам как може да заместиш празно пространство с табулация? Кой е знака за табулацията?

Re: Кратко описание на SFB-формата

Мнение от gogo_mir » 25 април 2011, 08:02

Какво съдържание искаш да правиш?

Re: Кратко описание на SFB-формата

Мнение от lkoicheva » 25 април 2011, 07:58

А някой дали не може да ми помогне с обяснение как се прави съдържание?

Мнение от Mandor » 29 декември 2008, 11:41

belleamie
Грешката "Текст на ред с маркер" означава, че имаш блоков маркер (x>...x$), който не е сам на ред - има още нещо след него, което е недопустимо. За втората грешка не мога да кажа нищо, докато не видя кода.
Погледнах RTF-версията на "Хаос" (между другото, не е качен SFB, а FB2! Не забравяй да го замениш в крайната версия!) и според мен благодарностите не бива да се оформят като посвещение, а като самостоятелна секция:
Код: Избиране на всичко
|       Том Кланси
|       Хаос

>       Благодарности
        Държим да благодарим на Джеф Ровин за неговите (...) колективните ни усилия.
@       Том Кланси и Стив Пиеченик


>       1

        _Вторник, 9:47_
        _Гарбсен, Германия_

        Само допреди няколко дни

Мнение от belleamie » 28 декември 2008, 20:27

Как трябва да бъдат означена секцията "Благодарности" в началото на книгата? Въпросът ми е свързан с редакцията на "Хаос" от Том Кланси, с която се заглавичквам от доста време. Опитах да го направя с маркери за посвещение, но конвертора дава грешки: текст на реда с първия маркер; незатваряне на маркера на същия ред.
Благодаря предварително за помощта.

Мнение от Mandor » 10 ноември 2008, 09:37

hammster написа:Има ли маркер за подчертан курсив.

За съжаление форматът не поддържа подчертан текст. Допустимите модификатори са: акцентиран (обикновено се извежда като наклонен), силно акцентиран (обикновено се извежда като удебелен), зачертан, горен индекс, долен индекс, monospace (не знам как да го кажа на български). Допустима е произволна комбинация от тези модификатори.

Табулации

Мнение от Boman » 10 ноември 2008, 01:06

hamster, забравих нещо:
След като направиш ^p => ^p^t, ако имаш празни редове в текста, за да махнеш табулациите от тях, направи ^p^t^p => ^p^p няколко пъти докато не останат такива.

Мнение от hammster » 09 ноември 2008, 23:55

Благодаря на всички ви, но съветът на Boman ми допада най-много. И още един въпрос:
Има ли маркер за подчертан курсив. В момента довършвам редакцията на една книга в която има 2-3 такива думи и незнам какво да ги правя.
Благодаря предварително.

Табулатори

Мнение от Boman » 09 ноември 2008, 23:29

в Word:
Замести ^p с ^p^t

Ако ползуваш Open Office, той работи с Regular Expressions, което е дълга тема сама по себе си, но е изцяло описана в Help-а на офиса. Позволява да търсиш и заместваш каквото си искаш. Много други редактори също го ползват и си заслужава да се прегледа. Аз ползвам Notepad2 за txt файлове, който също го поддържа и от последната версия поддържа търсене и заместване в UTF-8.

Мнение от piki » 09 ноември 2008, 22:01

Notepad++
Select All
TextFX->TextFX Edit->Leading space to tabs or tabs to spaces

Мнение от BHorse » 09 ноември 2008, 21:56

Някои слагат табулациите на ръка, докато четат книгата. Аз съм избрал друг вариант - след като запиша книгата в текстов файл, в началото на всеки параграф (ред) остават по повече от един интервал (другите "повече от един" съм махнал преди това), в зависимост от това, колко отстояние от ляво съм задал за текста в Word. Отварям файла с Notepad, поставям един-два табулатора, копирам някой от табулаторите, цълвам на Edit - Replace, paste-вам табулатора в полето "Replace with", в полето "Find what" слагам толкова интервали, колкото ми се появяват преди параграфа и после цъкам на "Repalce all".

Към началото