За редактирането и помощните средства

За коригирането на текстове след сканиране

За редактирането и помощните средства

Мнениеот Mandor » 25 юни 2009, 13:57

Все по-често се сблъсквам с най-различни интерпретации на термина «редактиране» (става въпрос само за този сайт, разбира се, и по-точно - за секцията «Сканиране»). Един потребител дори беше разбрал термина като «литературна редакция» и се поинтересува защо трябва да се редактират книги, които вече са преминали през такава редакция. Е, наистина има издания, които са просто шедьовър на българското книгоиздаване (пресен пример от «Сиела»: «…реакторът на вестника…», «…държи езика зад избите…» и т.н.), някои любителски преводи («…седнъх на лиглото…» (реален пример, не съм си го измислил!)) и др., които просто си плачат за пълна литературна редакция. Но това са изключения. Затова да поясним: В този сайт под «редакция» се разбира поправката на всички грешки, възникнали при прехвърлянето на книжното издание в текстов вид.

Тези грешки могат да са най-различни - неправилно разпознати букви и цели думи, неправилно залепване или разкъсване на съседни параграфи, неправилно форматирани препинателни знаци и т.н., - но средството за тяхната поправка е едно-единствено: Текстът трябва да се прочете изцяло и да се поправят всички открити грешки.

Край. Точка. Това е голата истина - колкото и да е трудоемко, това е единственият начин за редакция на текст. Всички останали след тази операция грешки ще се дължат единствено на вашата небрежност, неграмотност, или просто умора.
И обратното - каквито и операции да сте извършвали върху текста: форматиране, проверка на правописа и пунктуацията и т.н., ако не сте го изчели, не можете да наречете тази дейност «редакция».

Можете, разбира се, да намалите количеството грешки, като използвате някакви специализирани средства за текстообработка - системи за правописна проверка (спелчекъри), за граматична проверка, собствени алгоритми за обработка на текста, получен от OCR-програмата, и т.н. - те ще облекчат работата по редакцията, но няма (а и не могат) да я заменят изцяло. Още по-лошо: неправилната им употреба може дори да влоши качеството на текста, вместо да го подобри. Ако се колебаете дали дадено автоматизирано средство ще ви помогне или ще ви попречи, прилагайте следния прост принцип: Не позволявайте на помощните средства да редактират вместо вас!

Например, ако използвате спелчекър, никога не прилагайте функцията «Замени всички» върху грешна дума. В доста от случаите ще замените и някоя съвсем различна (и може би правилно изписана) дума. Ако сте си написали макрос за откриване на специфичен проблем в текста, не вграждайте в него функция за автоматична поправка, а го направете така, че само да ви показва къде е вероятният проблем. После сами преценете дали това е грешка. И т.н., и т.н. - използвайте каквито искате помощни средства, но не им позволявайте да редактират вместо вас!
И още веднъж: ако не сте прочели текста, не лъжете, че сте го редактирали. Това, че сте го проверили със спелчекър, не означава че сте открили всички грешки. Пример: «…но тон не пожела» («тон» вместо «той»). Кое автоматично средство може да намери тази грешка? Правилно, никое. «Тон» е напълно коректна българска дума.

Като заключение искам да направя кратко отклонение от темата и да поясня една често срещана заблуда относно спелчекърите. Производителите често се хвалят с голямото количество думи (или словоформи) в речниците на техните продукти. Колкото и странно да звучи, спелчекърите с по-богати речници откриват по-малко грешки. Обяснението е просто - по-богатите речници включват думи, които се срещат много рядко - в десетки и стотици пъти по-рядко от случаите, когато тази дума е просто грешно изписана съвсем различна дума. Един добър пример е «конто» - банков термин, също и стара парична единица. От всичките над 12'000 произведения в сайта (към момента на писане на тази тема) тази дума се среща в един-единствен текст - «Жангада» на Жул Верн. Всички останали срещания са грешно изписване на «които» или «който». Аналогично е положението с диалектния израз «па» - напр. в «Е, па защо не!». До момента съм го срещал само в текстовете на трима български автори, всички останали появявания са били грешно разпозната дума «на». dd (автор на програмата «IDI Spell checker») ми даде друг пример - глаголът «дооре» (т.е. да довърши орането) не се среща нито веднъж в текстовете от сайта; всичките му срещания са неправилно разпозната дума «добре». Изводът е очевиден - колкото повече думи има в речника на спелчекъра, толкова е по-голяма вероятността да пропусне грешна дума.
Аватар
Mandor
 
Мнения: 721
Регистрация: 19 август 2006, 10:56

Мнениеот dd » 27 юни 2009, 01:35

Като цяло това, което казваш е вярно. След няколко дена смятам да публикувам нова версия на "IDI Spell checker" с още по-богат словоформен речник (към 30'000 форми повече от v1.09) и твоя постинг ме принуждава да уточня няколко неща за тези, които ще решат да я ползват. Проблемът с "прекалено многото думи" е известен отдавна и затова при добавяне на нови форми се следват няколко прости правила. Добавят се само думи, които нямат близки думи, тоест думите, които се добавят са с етикет "no suggestions" в специалната програма, с която се добавят. Например "мармозетка", "преподобномъченик", "германизация", "мормонизъм", "соколарство" и хиляди подобни. Допуска се изключение, когато думата, която се добавя е по-често използвана от тази, която се предлага като предложение. Също се прави изключение за думи, които програмата за добавяне съобщава като грешки в определен контекст, но според Гугъл такъв контекст е много малко вероятен. Например глаголът "самоназовава" е добавен, въпреки че може да бъде грешка на "само назовава" в даден контекст. При проверка в Гугъл от сто намерени резултата обаче се вижда, че няма нито един случай, в който да е грешка на "само назовава". Не така стои въпроса с редки думи като "пооздравявам" (от болест), "подържа" (да подържа ръката ти), които са верни, но също така са чести грешки на "поздравявам", "поддържа" и пр. Подобни думи се добавят в списък с рискови думи и се третират като непознати, с единствената разлика, че при спелинга до тях има етикетче (risk), за да ни се покаже, че са известни на програмата. Въпреки всички подобни защитни механизми, добавянето на 10'000 основни словоформи, колкото и сложни и езотерични да са, наистина ще доведе до минимално намаляване на грешните думи, които биха били открити, например още една дума на десет хиляди непознати. Това не е оправдание словоформения речник да не се развива. Още повече, че се предвижда добавянето на още механизми за прецизиране на правописа (контекстна проверка и пр.).

Като допълнителна екстра добавянето на словоформи помага за оправянето на грешки в базата. Например днес опитах да добавя "репрезЕнтативен", при което добавящата програма изпищя, че в базата вече има дума "репрезАнтативен". В такива случаи винаги правя проверка с БАН-ския речник и се оказа, че имаме "обратно отсъждане", тоест сгрешена дума в базата и правилна, която се маркира като сгрешена. Досега съм оправил стотици такива грешки, които в почти всички случаи са наследени от първоначалната база на БГ Офис, върху която надграждам новата база (двете отдавна нямат нищо общо като качество и количество). Тъй като OpenOffice ползва базата на БГ Офис, всички тези грешки си стоят непокътнати и в OpenOffice, спелингът в който не е пипан от няколко години. Потребители са изчистили малка част от тези грешки в уикшинърито (bg.wiktionary.org), което също е импорт на базата на БГ Офис, но и там положението е трагично.

И накрая, за да доизправя окончателно косите на Мандор ;), ще кажа, че съвсем скоро за супермързеливите ще е активна и функция "автокорекция", която ще им позволява да коригират целия файл, без дори да го погледнат. Просто в момента, в който се дропне файла в програмата, тя автоматично ще генерира коригиран файл в същата папка и логфайл с оправените грешки с малък контекст. Автокорекцията няма да се мъчи да оправя всички грешки, а само предварително дефинираните в съответни списъци, което ще сведе риска до минимум. Например програмата ще знае, че "стойноста" трябва да се замести със "стойността", но няма да замества "ражбирам" с "разбирам" или "бегам" с "бягам", тъй като се случва авторът да предава буквално развалена реч на чужденци или разговорна реч на разни необразовани типове. Автокорекцията няма да върши никаква работа на сериозните редактори, а ще съществува единствено за да се тества подобно предизвикателство. Наистина трябва да се прочете целия текст, след като се коригира със спелчекър.
dd
 
Мнения: 157
Регистрация: 12 април 2009, 05:05

Мнениеот Mandor » 27 юни 2009, 12:36

Не виждам никаква практическа полза от такава функция. Програмата няма откъде да знае кое е правилното в контекста на произведението, че да може сама да извърши заместването. Идеята на тази тема, както и на помощните програми, е да помогнат на редакторите да намалят количеството грешки, докато една такава функция е нещо от вида "... да дадем на редакторите достатъчно дълго въже...".
Преди два дена поправих над 60 грешки в текст, чието име на файл започваше с "FIXED_". Очевидно редакторът го е изпратил с убеждението, че текстът не съдържа грешки...
Има далеч по-полезни функции, които можеш да вградиш в програмата си, да не говорим за възможните подобрения в интерфейса, за да си губиш времето с такива вредни разширения. Но това е само мое мнение. Да не отплесваме темата - има отделна тема за твоя коректор.
Аватар
Mandor
 
Мнения: 721
Регистрация: 19 август 2006, 10:56

Мнениеот dd » 27 юни 2009, 19:10

Mandor написа:Преди два дена поправих над 60 грешки в текст

Звучи ми малко вероятно, но ако имаш предвид правописни грешки, които чекърът не е уловил, това би било сериозен проблем, затова подобни думи, ако имаш време и желание, може да публикуваш в другата тема, за да ги оправям. По-вероятно е, ако са правописни грешки, този, който е редактирал текста да е оправил само малка част от тях и да го е записал, след като го е домързяло да продължи. Вината в такъв случай е на редактора. Най-правдоподобно ми звучи хипотезата текстът да е имал стотици грешки след разпознаването и след като е оправен с чекъра да са останали 60-те, които чекърът засега не улавя — форматиране, разделени думи и прочие грешки над ниво словоформа. В този случай човекът е свършил добросъвестно по-лесната половина от работа, а ти останалата. Разбирам, че искаш всичко да е перфектно и затова имаш доста резерви към спелчекърите, все пак твърдя, че вършат добра работа като първа фаза на редакцията. Никой не оспорва, че е най-добре човек след това да отдели ден-два, за да прочете внимателно цялото произведение и да оправи скритите грешки.
dd
 
Мнения: 157
Регистрация: 12 април 2009, 05:05

Мнениеот Mandor » 27 юни 2009, 22:18

Защо така обръщаш нещата? Как може да е проблем, че спелчекърът не е открил "тон" вместо "той", "вие" вместо "вис", "понита" вместо "попита" и т.н., и т.н.? Има сума ти грешки, които един спелчекър просто не може да улови. И то ако говорим само за правописните грешки, а има още доста видове. Точно това се опитах да обясня по-горе. Изобщо не изключвам спелчекъра като помощен инструмент - винаги го пускам най-накрая и винаги откривам грешни думи, които съм пропуснал при изчитането. Точно това беше идеята на темата - да се покаже, че не може да се извърши нормална редакция без да се изчете всичко. Само това. Никъде не съм казвал "Не използвайте помощни средства, защото няма да помогнат"; точно обратното. Просто предупреждавам да не се възприемат като някаква панацея, защото това изобщо не е вярно.
Аватар
Mandor
 
Мнения: 721
Регистрация: 19 август 2006, 10:56


Обратно към Корекция

Кой е на линия

Потребители, разглеждащи форума: Николко регистрирани потребители и 0 гости