Кратко описание на SFB-формата

За формата на текстовете, използван в библиотеката
Правила
Уважавайте другите участници и се отнасяйте с тях така, както бихте желали те да се отнасят с вас!
kill_u
Мнения: 23
Регистрация: 30 януари 2007, 13:08
Местонахождение: Анкапистан

Re: Табулатори

Мнение от kill_u »

Boman написа:в Word:
Замести ^p с ^p^t

Ако ползуваш Open Office, той работи с Regular Expressions, което е дълга тема сама по себе си, но е изцяло описана в Help-а на офиса. Позволява да търсиш и заместваш каквото си искаш. Много други редактори също го ползват и си заслужава да се прегледа. Аз ползвам Notepad2 за txt файлове, който също го поддържа и от последната версия поддържа търсене и заместване в UTF-8.
Можеш ли да обясниш по подробно, защото нещо не вдявам как може да заместиш празно пространство с табулация? Кой е знака за табулацията?
Gnu/Linux user 411527
Аватар
Spellweaver
Мнения: 17
Регистрация: 05 юли 2011, 02:11
Местонахождение: Стара Загора
Връзка:

Re: Кратко описание на SFB-формата

Мнение от Spellweaver »

Знакът за табулация в MS Word при използването на Regular expressions е ^t, а за край на параграф - ^p.

Тоест, ако заместиш ^p с ^p^t всъщност след всеки нов край на параграф ще се появи и табулация.
Аватар
Еми
Мнения: 138
Регистрация: 26 януари 2012, 16:14
Местонахождение: София

Re: Кратко описание на SFB-формата

Мнение от Еми »

Сега се зачетох, че броят на отварящите и затварящите кавички трябва да е равен. Но това го промениха с речника на БАН от 2012 г. Пише го на стр.120-121 и най-вече в 127.1.3. - Когато цитат или друг ограден в кавички текст е включен в края на друг цитат, кавичките не се удвояват.
Когато имаш желание - намираш начин. Когато нямаш желание - намираш оправдание.
Аватар
Борислав
Мнения: 1065
Регистрация: 15 ноември 2005, 17:25

Re: Кратко описание на SFB-формата

Мнение от Борислав »

Еми написа:Сега се зачетох, че броят на отварящите и затварящите кавички трябва да е равен. Но това го промениха с речника на БАН от 2012 г. Пише го на стр.120-121 и най-вече в 127.1.3. - Когато цитат или друг ограден в кавички текст е включен в края на друг цитат, кавичките не се удвояват.
Правилото за изпуснатите кавички е по-старо, но за формата SFB то е без значение. Броят на отварящите и затварящите кавички винаги трябва да е равен, за да може автоматично да се разпознава къде свършват конкретните кавички.
Аватар
Еми
Мнения: 138
Регистрация: 26 януари 2012, 16:14
Местонахождение: София

Re: Кратко описание на SFB-формата

Мнение от Еми »

Не го разбрах това. Трябва да добавя кавички, въпреки че не е така според речника?
Когато имаш желание - намираш начин. Когато нямаш желание - намираш оправдание.
Аватар
Борислав
Мнения: 1065
Регистрация: 15 ноември 2005, 17:25

Re: Кратко описание на SFB-формата

Мнение от Борислав »

Еми написа:Не го разбрах това. Трябва да добавя кавички, въпреки че не е така според речника?
Да, ако кавичките а изпуснати, трябва да ги добавиш.
Аватар
NomaD
Мнения: 200
Регистрация: 10 март 2007, 19:39

Re: Кратко описание на SFB-формата

Мнение от NomaD »

Правилото за равния брой отварящи и затварящи кавички е не толкова от правописно-пунктуационен, а преди всичко от технически характер - отнася към SFB-формата, за да може коректно да се отчетат оградените думи и изрази при конвертиране във форматите за електронни книги.
Изображение
dijon
Мнения: 18
Регистрация: 11 януари 2017, 11:10

Re: Кратко описание на SFB-формата

Мнение от dijon »

Почетох доста из форума.

Като цяло цялата операция си е доста сложна. : ) Но все още не ми се е изпарило желанието. Единствено може ли да помоля за един форматиран в SFB txt файл?

Да гледам за някой неща, като заглавията, анотациите, главите и т.н. Уж ги понаучих докато четох, но все пак да имам и един готов кадърен файл, за да не губя времето после на някой след мен да се чуди какво съм се опитвал да направя, особено ако няма книгата пред себе си.
~HT

Re: Кратко описание на SFB-формата

Мнение от ~HT »

dijon,

Всички файлове в библиотеката са налични за сваляне в sfb - кликнете на предпоследния бутон с иконка на самата библиотека.

Също, ако отидете в 'Работно ателие', може да видите и свалите произволен 'запис' от там и да го разгледате.

Разгледайте също 'ресурси', работно ателие и т.н.

:)
~HT

Re: Кратко описание на SFB-формата

Мнение от ~HT »

dijon написа:Почетох доста из форума.

Като цяло цялата операция си е доста сложна. : ) Но все още не ми се е изпарило желанието....
Уж ги понаучих докато четох, но все пак да имам и един готов кадърен файл, за да не губя времето после на някой след мен да се чуди какво съм се опитвал да направя, особено ако няма книгата пред себе си.
Ето и нужния ви линк:
https://wiki.chitanka.info/Workroom
dijon
Мнения: 18
Регистрация: 11 януари 2017, 11:10

Re: Кратко описание на SFB-формата

Мнение от dijon »

~HT,

Благодаря ви за информацията! Кой да се сети да провери дали книгите ги има и в SFB, понеже свалям директно epub, който е конвертиран и всичко си му работи както трябва. : )

Видях и коректора за SFB, който ще ми помогне много след моите редакции. Супер, значи остава да видим каква ще я свърша.
dijon
Мнения: 18
Регистрация: 11 януари 2017, 11:10

Re: Кратко описание на SFB-формата

Мнение от dijon »

Джуничиро Танидзаки (Jun'ichirō Tanizaki) - Аз

В sfb форматирана и коригирана за SpellCheck. Отне ми доста време, но за това помогнаха и нескопосаните снимки с телефона. И курсива, който е използван за текста, "з" ми го обърна на "3" (числото три), "ъ" на "б", "в" също на "б" и доста други като цяло само заради курсива.

Прикачвам тук файла, някой ако има време да ми даде съвети дали става за нещо.

Не съм го пускал в сайта, защото пише само преди 2012, а това е от 2016. За цялата книга не знам дали ще успея да "сканирам" и форматирам...
Прикачени файлове
Jun'ichiro-Tanizaki_Az.zip
(10.9 KiB) Свален 316 пъти
thefly
Мнения: 73
Регистрация: 17 май 2009, 12:24
Местонахождение: София
Връзка:

Re: Кратко описание на SFB-формата

Мнение от thefly »

IMHO, супер е като за преди „ръчно четене“! Забелязано на пръв крив поглед:
| Джуничиро Танидзаки
| АЗ
(мисля, че заглавията съща трябва да са с редовни букви)
но не и с крадец Крадецът
(изгубена точка)
че ако се сади по
(типична OCR-грешка. но тя се излавя на ръчно четене)
хаорито е сос семеен герб
(като горното. тези грешки не е хубаво да са много, защото и на ръчно четене от раз не можеш ги хвана)
[* Традиционна японска връхна дреха. — Б. пр.]
(конвенцията е Б.пр. и т.н., демек – без шпации)
към него“ но едно е сигурно
(мисля, че IDI не хваща такива грешки)
какво ли не ми мина през Ум тогава.

(ако Ум не е персонаж...)

Да кажат знаещите, но мисля, че е необходимо минимум два пъти четене на ръка за всяка книга. А ако OCR-ът е калпав, може и три пъти.
notman
Мнения: 215
Регистрация: 21 февруари 2012, 19:30

Re: Кратко описание на SFB-формата

Мнение от notman »

dijon написа:Джуничиро Танидзаки (Jun'ichirō Tanizaki) - Аз

В sfb форматирана и коригирана за SpellCheck. Отне ми доста време...

Прикачвам тук файла, някой ако има време да ми даде съвети дали става за нещо.
Знаеш ли какво, сега ми хрумна, че ако искаш да навлезеш в дебрите на SFB, може би най-добре е да започнеш не с ново произведение, а с корекция на съществуващо. Избираш си, значи, някоя книжка за четене и ако „извадиш късмет“, ще се случи да има повечко грешки в нея. Ти надлежно ще си ги отбележиш по време на четенето, а след това сваляш наличния SFB-файл, отваряш го и коригираш наред. Естествено, това трябва да е съпътствано от нов запис в Ателието с обозначението [(корекция)], както е описано някъде тук :) Докато въртиш текста нагоре-надолу, ще се нагледаш на маркери и ще ги видиш в реално време как се ползват и как работят.
Другото, което искам да ти кажа, е да ползваш чата активно, когато имаш въпроси относно обработката на текст. На първо време задавай въпросите си без конкретен адресат, има кой да ти отговори и ще ти отговори. Не пропускай и тази подробност, че чатът пази относително дълга история, така че ако влезеш днес в празен чат и зададеш въпрос, после излезеш, а утре по същото време влезеш отново, със сигурност ще видиш, че някой ти е отговорил по някое време... например през нощта :) А ако пък се случи някой от познавачите на формата (римува се със сармата, не с нормата) да е в чата - ще можеш надълго и нашироко да го разпиташ, като му привеждаш и конкретни примери от твоя текст :)
dijon
Мнения: 18
Регистрация: 11 януари 2017, 11:10

Re: Кратко описание на SFB-формата

Мнение от dijon »

thefly, благодаря за подробните забележки. Наистина, при курсива без четене на целия текст няма да мине, сглобява думи, които IDI не хваща.
Но не мога да чета дълго време от монитора, заболява ме главата. Отделно и на работа прекарвам едни 8 часа пред екрана.

Ще опитам на следващия разказ с по-добри снимки. Ако пак омаже така - повече курсив няма да "сканирам".


notman, добра идея. Но само от телефона зачитам някоя книга в електронен вариант, че екрана му пази повече. : ) А там е хард за отбелязване.
thefly
Мнения: 73
Регистрация: 17 май 2009, 12:24
Местонахождение: София
Връзка:

Re: Кратко описание на SFB-формата

Мнение от thefly »

Твърде добре те разбирам :)) Прекарам по 10 часа на ден пред монитора и мразя да чета от компютър, защото очите ми отиват на кино, но... няма начин да направиш читава (вярна с хартиения оригинал) книжка, ако не я изчетеш (може и леко по диагонала) още в Abbyy Finereader. Това е единствения етап, когато едно до друго стоят и хартиеното, и електронното копие.

В началото и аз си мислех, че е достатъчно да мина книжката през IDI и след това да си я коригирам, докато си я чета на моята си читанка. Е, оказа се, че това ми костваше повече време и очи, и въпреки това резултатът беше, меко казано, незадоволителен.
johnjohn
Мнения: 4
Регистрация: 29 януари 2013, 14:30

Re: Кратко описание на SFB-формата

Мнение от johnjohn »

Здравейте.

Ще споделя и моя скромен опит. Не снимам с телефон а с обикновен офис скенер HP с резолюция 300 dpi. Ползвам файн ридър десет. Поради това, че се старая да не унищожавам книгата, често скановете ми не са с добро качество.

Най-първоначалната обработка и вмъкване на sfb таговете правя още в OCR-a. Там вмъквам ръчно секции, бележки под линия, ударения и др. Реално правя първи прочит буква по буква, докато още имам за подложка снимката.

След това преминвам в ultraedit (или друг текстов редактор по избор). Там оправям прекъснатите редове, добавям изпуснати табулации. На този етап всеки път изчитам описанието на sfb и статията за често срещани грешки при форматиране. Минал съм само няколко книги, но досега всеки път си намирам грешки по този начин.

След това се прехвърлям в онлайн проверителя. Там автоматично оправям тирета, кавички и т.н. Обхождам всичко засветено ръчно и коригирам в ултраедит при нужда.

Следващ етап - пействам всичко в пясъчника и оглеждам за груби грешки. Там излизат незатворени кавички и грешни тагове.

След това минавам със спелчека. Там за всяка книга е различно, зависи от тематиката най-вече, но винаги излизат маса неща.

Предпоследен етап ми е конвертиране във fb2 с една стара програмка. Тя писка за още доста грешки (некоректни тагове, кавички, бележки под линия).

Резултатния файл чета повторно за няколко вечери от телефона. FB Reader позволява да сложа маркер на всичко, което ме усъмни. На сутринта в офиса, докато си пия кафето сравнявам съмнителните места с хартията и при нужда коригирам. Накрая пускам файла за проверка и обикновено тоз който проверява ми открива още неща.

Цялото упражнение ми изяжда минимум месец за лека книга плейн текст. Надявам се да е била от полза тази писаница.
Аватар
Еми
Мнения: 138
Регистрация: 26 януари 2012, 16:14
Местонахождение: София

Re: Кратко описание на SFB-формата

Мнение от Еми »

Не мога да се въздържа да не споделя и моя скромен опит. След разпознаване минавам предварителен чекер за отстраняване на груби грешки, след това чета качествено в уърд за около 2-5 дни в зависимост от обема на книгата и личните ми ангажименти. Следва подробен чекер по всичко засветнато, проверител на SFB грешки и се получава книга, която има максимум десетина скрити грешки. Програмите са важно нещо, но както казва един от доброволците в МБ, "по-важно е какво има между кориците". Всеки си е намерил някакъв модел, но във всички случаи не може да се разчита само на програмите, а на оператора.
Когато имаш желание - намираш начин. Когато нямаш желание - намираш оправдание.
Аватар
NomaD
Мнения: 200
Регистрация: 10 март 2007, 19:39

Re: Кратко описание на SFB-формата

Мнение от NomaD »

Ето кратко изложение и на моя дългогодишен и все още усъвършенстващ се опит по работата върху текстовете на сканираните книги.


0. Сканиране и разпознаване (или само разпознаване на сканиран текст) с ABBYY FineReader (накр. FR).

1. Корекция във FR: осветени позиции, спелвани думи, паразитни знаци, слети и разделени параграфи (в режим на визуализиране на непечатаемите знаци), слагане на разделителни празни редове, маркиране на акцентираните думи и изрази, обработка на бележките под линия (съотнасяне на номерацията им към съответния параграф). Винаги се прави повторен контролен преглед страница по страница. Конвертиране на съдържанието и генериране на txt-файл с utf-8 кодировка.

2. Отваряне на txt-файла с Notepad++: Прилагане на табулациите, SFB-структуриране и слагане на коректни разделителни тирета, многоточия и кавички, премахване на излишни интервали, слагане на средни скоби на обяснителните бележки. Файлът се записва в txt-формат с utf-8 кодировка.

3. Обработка на текста в текстовия редактор на Open Office (аналогичен на Word) чрез макроса на Mandor при изключен спелчекър - най-вече сливане на параграфите, разделени постранично в книжното издание, коригиране на осветени съмнителни позиции (невинаги е грешка!), организиране на обяснителните бележки към съответните параграфи, проверка на коректността на SFB-структурата. Файлът се записва в txt-формат с utf-8 кодировка.

4. Проверка на SFB с MyLibToFB2 и корекции на текста, отворен с Notepad++ - най-вече на проблеми с кавичките, бележките под линия и паразитни знаци, пропуснати модификатори за акцентирани думи и изрази, неточни SFB-маркери. Проверката продължава до пълно конвертиране и успешно генериране на fb2-файл. Временно заменяне на M> маркерите с по-старите S> и L>, за да се осъществи успешно конверсията. Файлът се записва като txt с utf-8 кодировка.

5. Преглеждане на текста на генерирания в резултат на конверсията fb2-файл, отворен с Cool Reader - самия текст, структурата на съдържанието (за пропуснато форматиране на заглавие на глава, сгрешена номерация на главите, объркана йерархия на секциите). Макар и невинаги да има пропуски във форматирането, някои немаркирани или погрешно маркирани позиции лесно се открояват. Корекциите се нанасят в txt-файла, отворен с Notepad++. Също така Cool Reader е добър инструмент, с който може да се огледат визуализирането и позиционирането на илюстрациите, ако има такива.

6. Правописна корекция на текста с Open Office с включен спелчекър. Предимство на този иначе несъвършен спелчекър е възможността да се игнорират често срещащите се характерни непознати думи, което позволява да се откроят погрешни техни варианти и съответно да се коригират. За всеки случай е активиран и макросът на Mandor - все някоя пропусната грешна позиция се забелязва. Файлът се записва в txt-формат с utf-8 кодировка.

7. Обстойна проверка и корекция с IDI-спелчекъра. С междинни опреснявания на текста. Ако текстът е пълен с грешки, проверката се повтаря още 1-2 пъти. Файлът се записва в txt-формат с utf-8 кодировка. (Спелчекърът е добър инструмент само за грамотни хора, с него трябва да се действа внимателно и с висока отговорност - с негова помощ се премахват много грешки, но също така може да се нанесат много вреди.)

8. Проверка и корекция с помощта на Проверителя на SFB. Корекциите се нанасят в txt-файла, отворен с Notepad++.

9. Проверка на txt-файла, отворен с Notepad++., за "невидими" ("скрити") грешни думи (рискови думи) с моя "речник" на рисковите думи.

10. Обстойно и пълноценно четене на текста с цел корекция (особено ако проверката в предишните етапи - най-вече тт. 7. и 9. - констатира проблемен в правописно отношение текст). Всяка забелязана проблемна позиция (освен несъмнените грешки) се сверява с реалното издание (съответно - скановете). Корекциите се нанасят в txt-файла, отворен с Notepad++. Четенето на текста от обработвания файл може да се извърши по избран от коректора начин. Аз лично чета текста от fb2-файл с таблет, маркирам проблемните позиции и после нанасям поправките в txt-файла, отворен на компютъра.

11. Последна контролна проверка на SBF-формата с MyLibToFB2 преди качване на файла в Ателието на Читанка за проверка.

12. Качвам в Ателието zip-архив на текстовия файл заедно с jpeg-файл с изображението на корицата и... moosehead и Epsilon да му мислят! :P
Изображение
dijon
Мнения: 18
Регистрация: 11 януари 2017, 11:10

Re: Кратко описание на SFB-формата

Мнение от dijon »

Огромни благодарности на всички за споделянето на собствено "ноу-хау". : )

Извадих си допълнителните програми за помощ, но най-важното е - трябва четене на крайния продукт. Трудоемка и времеотнемаща е цялата процедура.

Малко по малко и ще стане, аз мислих, че за ден ще минавам през всички етапи като сканиране, разпознаване, спелчек, форматиране за SFB и качване за одобрение. : )

EDIT: На Mandor макросите как мога да сваля, тук линка за версия 005 не работи topic774.html
valentindivanov
Мнения: 2
Регистрация: 19 април 2020, 00:30

Re: Кратко описание на SFB-формата

Мнение от valentindivanov »

Не мога да намера инструкции как се вкарва в информацията за текста името на художника на корицата.
Извинявам се, ако ги има някъде и съм ги пропуснал.
cattiva2511
Мнения: 151
Регистрация: 04 октомври 2015, 16:19

Re: Кратко описание на SFB-формата

Мнение от cattiva2511 »

valentindivanov написа:Не мога да намера инструкции как се вкарва в информацията за текста името на художника на корицата.
Извинявам се, ако ги има някъде и съм ги пропуснал.
Всички данни за хартиеното тяло се вписват в проекта Библиоман.
valentindivanov
Мнения: 2
Регистрация: 19 април 2020, 00:30

Re: Кратко описание на SFB-формата

Мнение от valentindivanov »

Благодаря!
Отговор

Обратно към

Кой е на линия

Потребители, разглеждащи форума: 0 гости