IDI Spell Checker 24.09.15
Правила
Уважавайте другите участници и се отнасяйте с тях така, както бихте желали те да се отнасят с вас!
Уважавайте другите участници и се отнасяйте с тях така, както бихте желали те да се отнасят с вас!
IDI Spell Checker 24.09.15
Колеги, преработих вградения спелчекър от един друг мой проект във вид, подходящ за текстовете на Читанката (дълги UTF-8 текстове и пр.).
Програмата не се нуждае от инсталация. Просто стартирате exe-то и пускате текстов файл в програмния прозорец. Ще се радвам, ако някой иска да тества и да изкаже мнение и препоръки. Работи под Windows.
Словоформената база е мащабна доработка на БГ-Офис базата, която се ползва в OpenOffice (без стотиците грешки и с около 3 пъти повече основни форми).
Програмата не се нуждае от инсталация. Просто стартирате exe-то и пускате текстов файл в програмния прозорец. Ще се радвам, ако някой иска да тества и да изкаже мнение и препоръки. Работи под Windows.
Словоформената база е мащабна доработка на БГ-Офис базата, която се ползва в OpenOffice (без стотиците грешки и с около 3 пъти повече основни форми).
Последната промяна е направена от dd на 129. Мнението е било променяно 129 пъти.
Благодаря, ultimat.
Днес една книга, валидирана от Мандор (Рисковете на професията) и дооправена от мен, ме накара да доработя алгоритъма за предложения. Току-що качих нова версия 1.04 - линкът е същият по-горе. Проблемът е в късото тире, когато погрешно е използвано вместо дългото (0x97) и е слепено до съседните думи, обикновено около пряка реч и не само (напр. "долу-каза" вместо "долу - каза"). Мандор разбираемо е пропуснал почти двайсет такива (ако изобщо е оправял тиретата, де) по простата причина, че няма как автоматично да се оправят, без да се чете целия текст.
За щастие в чекъра има (и продължавам да добавям) почти пълен списък на всички възможни полуслети думи, така че тези, които са полуслети в текста и не са в списъка, се маркират като непознати. До днес единственото предложение на "долу-каза", и всички подобни, бе "долу каза". Сега алгоритъмът предлага и второ предложение "долу — каза" (с дълго тире, оградено от 2 интервала), освен ако няма слята дума "долуказа". Целта е корекцията да не се прави ръчно, а да става само едно кликване върху предложението (така корекцията се добавя и в лог файла). Освен в UTF-8, добавих възможност за запис и в ANSI формат, тъй като някои хора качват в него и е добре изходният и коригираният текст да са в един и същ формат, за да е по-лесно на Борислав да сравнява двете версии, преди да добави някоя от тях (нямам представа дали си играе).
Днес една книга, валидирана от Мандор (Рисковете на професията) и дооправена от мен, ме накара да доработя алгоритъма за предложения. Току-що качих нова версия 1.04 - линкът е същият по-горе. Проблемът е в късото тире, когато погрешно е използвано вместо дългото (0x97) и е слепено до съседните думи, обикновено около пряка реч и не само (напр. "долу-каза" вместо "долу - каза"). Мандор разбираемо е пропуснал почти двайсет такива (ако изобщо е оправял тиретата, де) по простата причина, че няма как автоматично да се оправят, без да се чете целия текст.
За щастие в чекъра има (и продължавам да добавям) почти пълен списък на всички възможни полуслети думи, така че тези, които са полуслети в текста и не са в списъка, се маркират като непознати. До днес единственото предложение на "долу-каза", и всички подобни, бе "долу каза". Сега алгоритъмът предлага и второ предложение "долу — каза" (с дълго тире, оградено от 2 интервала), освен ако няма слята дума "долуказа". Целта е корекцията да не се прави ръчно, а да става само едно кликване върху предложението (така корекцията се добавя и в лог файла). Освен в UTF-8, добавих възможност за запис и в ANSI формат, тъй като някои хора качват в него и е добре изходният и коригираният текст да са в един и същ формат, за да е по-лесно на Борислав да сравнява двете версии, преди да добави някоя от тях (нямам представа дали си играе).
Последната промяна е направена от dd на 4. Мнението е било променяно 4 пъти.
aa: Всъщност повечето текстове са без специфични знаци, но съм абсолютно съгласен с теб - най-добре е да се записва в UTF-8, защото това се използва в библиотеката.
Колкото до тиретата - мога да хвана само "полузалепени тирета", но не и напр. "долу-каза" (късо залепено вместо дълго), "най - високият" (отделено за дълго вместо късо залепено) или "библио-тека" (останало тире за пренос).
Всъщност много хора бъркат термините - валидирането е само проверка дали няма нарушения на SFB-форматът, които ще попречат на конвертирането на произведението. Почти всички грешки си остават в текста. Нещо повече: дори не се проверява правилното форматиране - напр. ако обработчикът маркира някое стихотворение като цитат, това няма да се хване при валидирането.
Колкото до тиретата - мога да хвана само "полузалепени тирета", но не и напр. "долу-каза" (късо залепено вместо дълго), "най - високият" (отделено за дълго вместо късо залепено) или "библио-тека" (останало тире за пренос).
Всъщност много хора бъркат термините - валидирането е само проверка дали няма нарушения на SFB-форматът, които ще попречат на конвертирането на произведението. Почти всички грешки си остават в текста. Нещо повече: дори не се проверява правилното форматиране - напр. ако обработчикът маркира някое стихотворение като цитат, това няма да се хване при валидирането.
Нов спелчекър - проблем с линка
Би ли дал нов линк - този при разархивиране дава грешка и в архива няма exe, а само един текстов файл.
Re: Нов спелчекър - проблем с линка
Сигурно ъплоудът се е скапал. Както и да е, качих v1.05 (линк в първия пост). Ако пак има някакъв проблем, кажи. Зипвам със 7-zip и има минимална вероятност някои разархиватори да не четат формата правилно.didikot написа:Би ли дал нов линк - този при разархивиране дава грешка и в архива няма exe, а само един текстов файл.
Що се отнася до ANSI-то, наистина трябва да се записва в ANSI само ако изходният файл е ANSI. Тогава няма опасност някои символи да не се запишат в първоначалния си вид. Но ако изходният формат е ANSI и запишете резултата в UTF-8, много по-трудно е да направите побайтово сравнение на двата файла на ниско ниво с програма за сравняване на файлове. Поне аз ги сравняват, за да съм сигурен, че не съм скапал нещо при корекцията.
Последната промяна е направена от dd на 2. Мнението е било променяно 2 пъти.
Версия 1.06 — подобрения в алгоритъма за предложение на корекции.
Последната и единствена промяна е направена от dd на 05 декември 2009, 15:42.
Версия 1.07 — актуализиран словоформен списък плюс подобрения в алгоритъма за предложение на корекции.
Последната и единствена промяна е направена от dd на 05 декември 2009, 15:42.
dd, дава грешка при стартиране. Пробвах го на 2 компютъра с XP.dd написа:Версия 1.07 — актуализиран словоформен списък плюс подобрения в алгоритъма за предложение на корекции.
moosehead, мога само да гадая какъв е проблема. Първо кажи дали успя да стартираш някоя от предните версии. Също виж дали ти е активирана виртуалната памет (трябва да имаш файл pagefile.sys в c:\). Може да изтриеш всички файлове в папката "alt", освен "b_bulgarian.txt" и да пробваш пак. Така програмата ще ползва по-малко памет, но няма да прави правописна проверка на английски думи, което за Читанката не е критично (чекърът работи и с английски текстове). Възможно е също да работиш със строшен от вирус/малуер и пр. уиндоус, което да не позволява нормална работа. Ще помоля ако някой друг е стартирал успешно v1.07 или пък има подобен проблем да пише.
Последната промяна е направена от dd на 2. Мнението е било променяно 2 пъти.
Версия 1.08 — би трябвало вече да работи нормално, но ако откриете още проблеми, казвайте. В 1.07 оправих една скрита грешка, която не се проявява винаги, но при някои конфигурации програмата не стартира.
Последната и единствена промяна е направена от dd на 05 декември 2009, 15:37.
Под Windows Vista Home Premium, програмата(v.1.07) тръгна и работи до колко коректно не мога да кажа тъй като все още не я познавам добре, но идеята заложена в нея е добра. Иска обаче доста доработка все още. Поне при мене за времето с което разполагах и и отделих се подразних от следното:
Първо - в левия панел се опитах да изтрия дума която бе подадена като непозната, но уви изтри се всичко там и не успях по никакъв начин да го възстановя. Наложи се да влача файла наново. Опитах това тъй като реших, че подадените открити непознати думи след изтриването им там не биха били подавани като такива. Най малкото трябва да има възможност да се указват като правилни за дадения текст чрез обезцветяване. Подозирам, че това е предвидено по някакъв начин, но аз не успях да го направя.
Второ - пак в левия панел избора на думи е ограничен до това което го има в спелчекера. Би трябвало да има възможност да се добави дума(корекция) или думи които да коригират подаденото като грешно. Това ще е особено полезно когато са повече на брой като конкретна грешка. В такъв случай трябва ръчно да се поправя в десния панел всяка една от тях и определено съществува риск от нова грешка или пропуск. Търсене заместване не успях да накарам да работи. Защо - нямам идея - маркирам и копирам грешното поставям с Ctrl+V в прозорчето за търсене, изписвам с какво да се замени в другото, пускам замяна за всички намерени в текста, резултат - реакция на труп!
Трето(без съмнение във връзка с второ) - може би трябва да помислиш за възможност за създаване на потребителски речници в процеса на проверка, в които да влизат думи, които се считат за грешни от официалния речник, но всъщност са верни за самото произведение. Това е особено полезно при редакцията на поредица - невероятно много време, концентрация и работа спестява при редактирането. В пълна сила важи и за отделен текст с измислени думи, имена, градове, местности и т.н.
Четвърто е във връзка с първите три - трябва да има команда за извършване на повторна проверка за грешки. В която вече поправеното или указано като вярно да не се отразява. Поне аз често оставям за по-късна редакция и след обстойна проверка на дадена грешка за която имам съмнения как е правилно. Ако всичко останало не отпадне по някакъв начин, ще бъде истинско предизвикателство откриването им когато реша да се заема с тях. Разбира се други може би не работят по този начин, но лично аз държа на това. Понякога на човек му е необходимо време да размисли за да избере правилното решение.
Пето - няма възможност за промяна големината на прозореца на спелчекера(освен двата - пълен и нормален), а това доста затруднява "влаченето и пускането". Определено някакъв "Open" в десния сегмент на прозореца при това положение няма да е излишен.
Със сигурност ще ползвам програмата и за напред. Аз съм доста критичен, и сигурно ще се почувстваш засегнат, но уверявам те - ако това което си започнал не ми бе харесало, едва ли щях да отделя време и си дам труда дори да напиша, че е пълен боклук.
Първо - в левия панел се опитах да изтрия дума която бе подадена като непозната, но уви изтри се всичко там и не успях по никакъв начин да го възстановя. Наложи се да влача файла наново. Опитах това тъй като реших, че подадените открити непознати думи след изтриването им там не биха били подавани като такива. Най малкото трябва да има възможност да се указват като правилни за дадения текст чрез обезцветяване. Подозирам, че това е предвидено по някакъв начин, но аз не успях да го направя.
Второ - пак в левия панел избора на думи е ограничен до това което го има в спелчекера. Би трябвало да има възможност да се добави дума(корекция) или думи които да коригират подаденото като грешно. Това ще е особено полезно когато са повече на брой като конкретна грешка. В такъв случай трябва ръчно да се поправя в десния панел всяка една от тях и определено съществува риск от нова грешка или пропуск. Търсене заместване не успях да накарам да работи. Защо - нямам идея - маркирам и копирам грешното поставям с Ctrl+V в прозорчето за търсене, изписвам с какво да се замени в другото, пускам замяна за всички намерени в текста, резултат - реакция на труп!
Трето(без съмнение във връзка с второ) - може би трябва да помислиш за възможност за създаване на потребителски речници в процеса на проверка, в които да влизат думи, които се считат за грешни от официалния речник, но всъщност са верни за самото произведение. Това е особено полезно при редакцията на поредица - невероятно много време, концентрация и работа спестява при редактирането. В пълна сила важи и за отделен текст с измислени думи, имена, градове, местности и т.н.
Четвърто е във връзка с първите три - трябва да има команда за извършване на повторна проверка за грешки. В която вече поправеното или указано като вярно да не се отразява. Поне аз често оставям за по-късна редакция и след обстойна проверка на дадена грешка за която имам съмнения как е правилно. Ако всичко останало не отпадне по някакъв начин, ще бъде истинско предизвикателство откриването им когато реша да се заема с тях. Разбира се други може би не работят по този начин, но лично аз държа на това. Понякога на човек му е необходимо време да размисли за да избере правилното решение.
Пето - няма възможност за промяна големината на прозореца на спелчекера(освен двата - пълен и нормален), а това доста затруднява "влаченето и пускането". Определено някакъв "Open" в десния сегмент на прозореца при това положение няма да е излишен.
Със сигурност ще ползвам програмата и за напред. Аз съм доста критичен, и сигурно ще се почувстваш засегнат, но уверявам те - ако това което си започнал не ми бе харесало, едва ли щях да отделя време и си дам труда дори да напиша, че е пълен боклук.
Може и така да е, ...!
GeOrg, благодаря за критиките.
Прегледай този 8-минутен видеоучител. Бях го сложил в пакета на v1.06, но го махнах в следващите версии, тъй като е непълен. Имам намерение да направя по-добро видео, но в случая и това ще свърши работа.
Действително има проблем с търсенето и заместването. Добре че ми го посочи. За да работи "Replace All", трябва да натиснеш поне веднъж "Find Next" за текста, който търсиш и чак след това "Replace All". Това е моя грешка, която ще оправя в следващата версия.
Доста от нещата вече ги има, но не съм ги документирал. Потребителски думи се добавят във файла b_bulgarian_custom.txt, който се генерира като празен файл след първото стартиране на програмата. Този файл засега може да редактираш директно с текстов редактор (при спрян спелчекър), като просто добавяш думи по една на ред. Като намеря време ще го направя и чрез добавяне на текущата дума, за да не се налага да се пише директно във файла. За мен обаче потребителският речник е ненужен поради това, че непознатите думи се групират и собствените имена, които вероятно ще искаш да добавяш, са намират най-отгоре в обобщения списък и може просто да ги игнорираш и да започнеш да оправяш истинските грешки, които са в долната част на същия списък. Този начин на работа няма нищо общо с тегавата процедура в нормалните текстови редактори, като Word или OpenOffice, където трябва да прегледаш примерно 500 страници за да оправиш 50-ина грешки. Там поддържането на потребителски речник може и да върши някаква работа.
Предложенията за корекция в левия панел може да редактираш като временно изключиш отметката "Active". След редакцията я включваш, за да се върнеш в нормалния режим на коригиране чрез кликване върху предложението за корекция. Демонстрирано е във видеото.
Също няма проблем да оправиш само част от файла и да го запишеш. Програмата го записва в същата папка с префикс "fixed_" без да те пита за ново име. После ако искаш го преименуваш, но може да го оставиш и с името "fixed_". След ден-два отваряш вече редактирания файл (преименуван или не), като го дропваш, както преди това оригиналния, и продължаваш да редактираш. Ако дропнеш файла "fixed_" без преди това да го преименуващ, при последващ запис новия файл ще е "fixed_fixed_". Ако искаш може да си го редактираш цял месец. Но и това е ненужно, тъй като в един средностатистически роман програмата намира около 1000-2000 непознати думи, които след като се групират и сортират по честота на срещане, стават 200-300 уникални думи, от които половината са собствени имена с повече от едно повторение (имената на героите, местностите и пр.). Собствените имена веднага виждаш в горната част на обобщения списък и просто ги прескачаш (може да ги прегледаш, ако държиш да откриеш скрити грешки). Остават към 100 думи, обикновено тези с малки букви, които трябва да прегледаш за грешки. От тези 100 думи половината не са грешки, а просто липсват в списъка с познати думи и затова се листват като непознати. Остават към 40-50 думи, които наистина са грешки. От тях към 80% се коригират с по едно кликване, тъй като алгоритъма за предложение на корекция предлага правилната дума. Остават и 5-10 думи, които трябва на ръка да редактираш в десния панел, както го правиш в обикновен текстов редактор. Накрая записваш. Като свикнеш, всичко това за подобен файл отнема между 5 и 10 минути. Разбира се, остават и грешки, които засега програмата не засича.
Съгласен съм, че трябва да се добави нормален Open dialog, освен влаченето, както и прозорецът да позволява произволен размер. Ще го направя съвсем скоро. Има и други неща да се правят.
Прегледай този 8-минутен видеоучител. Бях го сложил в пакета на v1.06, но го махнах в следващите версии, тъй като е непълен. Имам намерение да направя по-добро видео, но в случая и това ще свърши работа.
Действително има проблем с търсенето и заместването. Добре че ми го посочи. За да работи "Replace All", трябва да натиснеш поне веднъж "Find Next" за текста, който търсиш и чак след това "Replace All". Това е моя грешка, която ще оправя в следващата версия.
Доста от нещата вече ги има, но не съм ги документирал. Потребителски думи се добавят във файла b_bulgarian_custom.txt, който се генерира като празен файл след първото стартиране на програмата. Този файл засега може да редактираш директно с текстов редактор (при спрян спелчекър), като просто добавяш думи по една на ред. Като намеря време ще го направя и чрез добавяне на текущата дума, за да не се налага да се пише директно във файла. За мен обаче потребителският речник е ненужен поради това, че непознатите думи се групират и собствените имена, които вероятно ще искаш да добавяш, са намират най-отгоре в обобщения списък и може просто да ги игнорираш и да започнеш да оправяш истинските грешки, които са в долната част на същия списък. Този начин на работа няма нищо общо с тегавата процедура в нормалните текстови редактори, като Word или OpenOffice, където трябва да прегледаш примерно 500 страници за да оправиш 50-ина грешки. Там поддържането на потребителски речник може и да върши някаква работа.
Предложенията за корекция в левия панел може да редактираш като временно изключиш отметката "Active". След редакцията я включваш, за да се върнеш в нормалния режим на коригиране чрез кликване върху предложението за корекция. Демонстрирано е във видеото.
Също няма проблем да оправиш само част от файла и да го запишеш. Програмата го записва в същата папка с префикс "fixed_" без да те пита за ново име. После ако искаш го преименуваш, но може да го оставиш и с името "fixed_". След ден-два отваряш вече редактирания файл (преименуван или не), като го дропваш, както преди това оригиналния, и продължаваш да редактираш. Ако дропнеш файла "fixed_" без преди това да го преименуващ, при последващ запис новия файл ще е "fixed_fixed_". Ако искаш може да си го редактираш цял месец. Но и това е ненужно, тъй като в един средностатистически роман програмата намира около 1000-2000 непознати думи, които след като се групират и сортират по честота на срещане, стават 200-300 уникални думи, от които половината са собствени имена с повече от едно повторение (имената на героите, местностите и пр.). Собствените имена веднага виждаш в горната част на обобщения списък и просто ги прескачаш (може да ги прегледаш, ако държиш да откриеш скрити грешки). Остават към 100 думи, обикновено тези с малки букви, които трябва да прегледаш за грешки. От тези 100 думи половината не са грешки, а просто липсват в списъка с познати думи и затова се листват като непознати. Остават към 40-50 думи, които наистина са грешки. От тях към 80% се коригират с по едно кликване, тъй като алгоритъма за предложение на корекция предлага правилната дума. Остават и 5-10 думи, които трябва на ръка да редактираш в десния панел, както го правиш в обикновен текстов редактор. Накрая записваш. Като свикнеш, всичко това за подобен файл отнема между 5 и 10 минути. Разбира се, остават и грешки, които засега програмата не засича.
Съгласен съм, че трябва да се добави нормален Open dialog, освен влаченето, както и прозорецът да позволява произволен размер. Ще го направя съвсем скоро. Има и други неща да се правят.
Последната и единствена промяна е направена от dd на 05 декември 2009, 15:37.
@dd
Благодаря за разясненията, a и филмчето поднесе доста информация. Според мене е задължително да се гледа поради доста нестандартното управление спрямо речниците с които сме свикнали до сега. При всички случай ще е необходимо време да се свикне. Колкото до потребителския речник няма да се съглася. Може би не си ме разбрал за това ще поразсъждавам малко за което надявам се няма да се сърдиш.
Да наистина искам да игнорирам непознатите думи за основния речник които са имена, география и специфични думи или термини, но едва след проверката им. И освен това след като съм ги проверил и указал за верни не желая повече да ми се пречкат. Не съм съгласен да се приема без да бъде проверено каквото и да е след като веднъж е показано за грешно от програмата. По важното е, че не ми се иска да ги проверявам и указвам като верни наново при следващото влизане за проверка на този текст или друг от поредица. А трябва да са в отделен речник защото няма да са верни при претърсване за грешки на друг текст и следователно нямат работа в основния, но за текст стартиран за проверка няколко пъти през период от време - са. А това определено ще се случва.
В общия случай често срещаната непозната дума без предложение за корекция от основния речник явно е вярна за съответното произведение, но това не ни дава право да я игнорираме без проверка и одобрена да бъде добавена в потребителски файл за нуждите на проверката.
При положение, че е действително сбъркана може да има предложение/я за нея, но може и да няма. Ако има предложение всичко е ясно избираме. Ако не сме съгласни с предложението, би трябвало да има предложение и от потребителския речник. Ако и с него не сме съгласни явно трябва ръчна поправка или добавяне в потребителския речник.
Лично аз когато редактирам създавам задължително такива потребителски речници. Особено за лични имена, географски понятия и измислени за целите на произведението думи. Няма как да си сигурен при такава дума грешка ли е, ново име - лично или географско, или термин. Когато има подадена дума и от потребителския речник като възможност за редакция визуално информацията е повече за вземане на правилно решение. Едва ли можеш да запаметиш всички нови думи в текста, още по-малко да съобразиш, че е сгрешена дума от контингента на потребителския речник.
Лошото в официалните речници е че всичко е на последователен принцип - движи се дума по дума от началото към края и в кръг докато не се изчистят всички грешки - редактиране в движение. Това което ми харесва при твоя спелчекер и което е новото(поне аз другаде не съм го срещал) е, че извежда грешките на куп. Прави статистически преглед и ги групира - проверката може да бъде паралелна, а не последователна - имаш избор коя дума да редактираш. Това е нещо страхотно и новаторско, но най-много ме впечатли групирането.
Това което си мисля като подкрепа за потребителски речник е, че най-напред би трябвало да групира и подрежда низходящо по брой срещана сгрешена дума за която няма предложения за редакция от основния речник. Най-вероятно думите с най-голям брой срещания са верни за текста, но неверни за други текстове. Когато се започне една редакция поне 95% от думите нямащи предложение за редакция от основния речник ще са имена или специфични думи за текста, понятия и термини и те са абсолютно верни. Идеята ми е те да се укажат като такива след проверка и да влязат в потребителски речник за конкретния текст за да могат да бъдат извеждани като предложения за поправка на други грешни думи.
На второ място след първия етап описан горе(създаване и попълване на потребителски речник за текста) да има втори при който да се провери наново текста с включения вече потребителски речник, като се групират и подредят низходящо по брой пъти срещани в текста, думите имащи предложение за поправка от основния речник(то други и не би трябвало вече да има) - тук също е много вероятно горе описания случай - да имаме вярна за съответното произведение дума която е необходимо да вкараме в потребителския речник.
И така надолу до единичните грешни в края за проверка и редакция при необходимост където сумарно основния+потребителския речник вече ще са най-богати на предложения.
И да доразвия - този потребителски речник трябва да може да се запише под дадено име и да има възможност да се зареди за ползване след прекъсване на работа по текста. Друго приложение на такъв съхранен файл е редакцията на следващ текст от поредица на даден автор, при който гарантирано тези думи, термини, имена и понятия влезнали вече в този потребителския речник, са използвани. По този начин изчистването на грешки ще бъде значително улеснено защото вече ще се извеждат само и единствено думи на които трябва да се обърне внимание. Освен това в предложенията за коригиране ще са както от основния речник така и от потребителския такъв без да се налага наново да се попълва потребителски, а само да се допълва за последващо използване.
Ето тези неща имах пред вид когато поисках потребителски речник. Такъв спелчекер какъвто се опитваш да направиш, определено ще е специализиран за търсене на грешки в дълги текстове след сканиране и разпознаване и би отговарял в пълна степен на нуждите на този сайт. Съжалявам, че не мога да програмирам иначе бих ти предложил помощ, но мога да ти пожелая искрено успех! По въпроса който ти е отправил Mandor, подозирам че ще иска да се интегрира в програмата ти и възможност за търсене и редактиране с регулярни изрази. Ако е така то аз го подкрепям и съм сигурен, че ако се реализира програмата ще стане нещо изключително полезно.
Благодаря за разясненията, a и филмчето поднесе доста информация. Според мене е задължително да се гледа поради доста нестандартното управление спрямо речниците с които сме свикнали до сега. При всички случай ще е необходимо време да се свикне. Колкото до потребителския речник няма да се съглася. Може би не си ме разбрал за това ще поразсъждавам малко за което надявам се няма да се сърдиш.
Да наистина искам да игнорирам непознатите думи за основния речник които са имена, география и специфични думи или термини, но едва след проверката им. И освен това след като съм ги проверил и указал за верни не желая повече да ми се пречкат. Не съм съгласен да се приема без да бъде проверено каквото и да е след като веднъж е показано за грешно от програмата. По важното е, че не ми се иска да ги проверявам и указвам като верни наново при следващото влизане за проверка на този текст или друг от поредица. А трябва да са в отделен речник защото няма да са верни при претърсване за грешки на друг текст и следователно нямат работа в основния, но за текст стартиран за проверка няколко пъти през период от време - са. А това определено ще се случва.
В общия случай често срещаната непозната дума без предложение за корекция от основния речник явно е вярна за съответното произведение, но това не ни дава право да я игнорираме без проверка и одобрена да бъде добавена в потребителски файл за нуждите на проверката.
При положение, че е действително сбъркана може да има предложение/я за нея, но може и да няма. Ако има предложение всичко е ясно избираме. Ако не сме съгласни с предложението, би трябвало да има предложение и от потребителския речник. Ако и с него не сме съгласни явно трябва ръчна поправка или добавяне в потребителския речник.
Лично аз когато редактирам създавам задължително такива потребителски речници. Особено за лични имена, географски понятия и измислени за целите на произведението думи. Няма как да си сигурен при такава дума грешка ли е, ново име - лично или географско, или термин. Когато има подадена дума и от потребителския речник като възможност за редакция визуално информацията е повече за вземане на правилно решение. Едва ли можеш да запаметиш всички нови думи в текста, още по-малко да съобразиш, че е сгрешена дума от контингента на потребителския речник.
Лошото в официалните речници е че всичко е на последователен принцип - движи се дума по дума от началото към края и в кръг докато не се изчистят всички грешки - редактиране в движение. Това което ми харесва при твоя спелчекер и което е новото(поне аз другаде не съм го срещал) е, че извежда грешките на куп. Прави статистически преглед и ги групира - проверката може да бъде паралелна, а не последователна - имаш избор коя дума да редактираш. Това е нещо страхотно и новаторско, но най-много ме впечатли групирането.
Това което си мисля като подкрепа за потребителски речник е, че най-напред би трябвало да групира и подрежда низходящо по брой срещана сгрешена дума за която няма предложения за редакция от основния речник. Най-вероятно думите с най-голям брой срещания са верни за текста, но неверни за други текстове. Когато се започне една редакция поне 95% от думите нямащи предложение за редакция от основния речник ще са имена или специфични думи за текста, понятия и термини и те са абсолютно верни. Идеята ми е те да се укажат като такива след проверка и да влязат в потребителски речник за конкретния текст за да могат да бъдат извеждани като предложения за поправка на други грешни думи.
На второ място след първия етап описан горе(създаване и попълване на потребителски речник за текста) да има втори при който да се провери наново текста с включения вече потребителски речник, като се групират и подредят низходящо по брой пъти срещани в текста, думите имащи предложение за поправка от основния речник(то други и не би трябвало вече да има) - тук също е много вероятно горе описания случай - да имаме вярна за съответното произведение дума която е необходимо да вкараме в потребителския речник.
И така надолу до единичните грешни в края за проверка и редакция при необходимост където сумарно основния+потребителския речник вече ще са най-богати на предложения.
И да доразвия - този потребителски речник трябва да може да се запише под дадено име и да има възможност да се зареди за ползване след прекъсване на работа по текста. Друго приложение на такъв съхранен файл е редакцията на следващ текст от поредица на даден автор, при който гарантирано тези думи, термини, имена и понятия влезнали вече в този потребителския речник, са използвани. По този начин изчистването на грешки ще бъде значително улеснено защото вече ще се извеждат само и единствено думи на които трябва да се обърне внимание. Освен това в предложенията за коригиране ще са както от основния речник така и от потребителския такъв без да се налага наново да се попълва потребителски, а само да се допълва за последващо използване.
Ето тези неща имах пред вид когато поисках потребителски речник. Такъв спелчекер какъвто се опитваш да направиш, определено ще е специализиран за търсене на грешки в дълги текстове след сканиране и разпознаване и би отговарял в пълна степен на нуждите на този сайт. Съжалявам, че не мога да програмирам иначе бих ти предложил помощ, но мога да ти пожелая искрено успех! По въпроса който ти е отправил Mandor, подозирам че ще иска да се интегрира в програмата ти и възможност за търсене и редактиране с регулярни изрази. Ако е така то аз го подкрепям и съм сигурен, че ако се реализира програмата ще стане нещо изключително полезно.
Може и така да е, ...!
GeOrg, благодаря отново за критиките и идеите.
Възможностите за подобрения са безгранични, въпрос единствено на свободно време да седна да ги кодирам. Не е проблем да добавя нещата, които споменаваш и предполагам, че ще го направя в следващите версии. Също освен "гола" проверка на словоформите, може да се добавят всякакъв вид проверки и автокоригиране на общото и специфично SFB форматиране (подобно на валидирането, което Mandor прави плюс още маса неща). Също и някои превдорегулярни изрази в диалога за търсене и заместване (само тези, които на практика се използват в Читанката), но не като регулярни изрази, а като списък с действия, разбираеми за хората, които не са програмисти - например "изтрий всички интервали и табулации в края на параграфите", "замени повече от един интервал с един интервал", "коригирай новите изречения, започващи с малка буква (с потвърждение)", "открий параграфите, които не завършват с препинателен знак за край на изречение (без заглавни параграфи)", "открий повтарящи се съседни думи (напр. "той се се смее")" и още десетки подобни. И разбира се, еднокликово действие, което обобщава и извежда всички подобни проблеми. Също контекстова проверка, като морфологично съгласуване на съседни словоформи, за да се хващат всички грешки от вида "малък стая", "той ми казах" и всякакви граматически правила за които се сетя и които позволяват сравнително лесно кодиране. Когато добавям нови словоформи, ги добавям в съответните типове (с една специална програмка) и морфологичната информация за всяка дума вече е налице, но засега съответния файл с типовата информация не е в пакета на чекъра, тъй като още не е активирана подобна контекстова проверка. С това, надявам се, отговарям и на Мандор.
Възможностите за подобрения са безгранични, въпрос единствено на свободно време да седна да ги кодирам. Не е проблем да добавя нещата, които споменаваш и предполагам, че ще го направя в следващите версии. Също освен "гола" проверка на словоформите, може да се добавят всякакъв вид проверки и автокоригиране на общото и специфично SFB форматиране (подобно на валидирането, което Mandor прави плюс още маса неща). Също и някои превдорегулярни изрази в диалога за търсене и заместване (само тези, които на практика се използват в Читанката), но не като регулярни изрази, а като списък с действия, разбираеми за хората, които не са програмисти - например "изтрий всички интервали и табулации в края на параграфите", "замени повече от един интервал с един интервал", "коригирай новите изречения, започващи с малка буква (с потвърждение)", "открий параграфите, които не завършват с препинателен знак за край на изречение (без заглавни параграфи)", "открий повтарящи се съседни думи (напр. "той се се смее")" и още десетки подобни. И разбира се, еднокликово действие, което обобщава и извежда всички подобни проблеми. Също контекстова проверка, като морфологично съгласуване на съседни словоформи, за да се хващат всички грешки от вида "малък стая", "той ми казах" и всякакви граматически правила за които се сетя и които позволяват сравнително лесно кодиране. Когато добавям нови словоформи, ги добавям в съответните типове (с една специална програмка) и морфологичната информация за всяка дума вече е налице, но засега съответния файл с типовата информация не е в пакета на чекъра, тъй като още не е активирана подобна контекстова проверка. С това, надявам се, отговарям и на Мандор.
Последната и единствена промяна е направена от dd на 05 декември 2009, 15:38.
Не считам второто си мнение за критика и те моля да не го възприемаш като такава - споделих какво ме улеснява когато съм редактирал текст за библиотеката.
Истината е, че няма специализиран спелчекер, който да улеснява такава редакция. Масовите редактори имат вградени такива за собствени нужди - писма, документи, кратки разработки и др. Разчетени са отлично за контрол при въвеждане на текст, дори при преглед за грешки на кратки текстове, но при редакция на голям по обем текст, каквито са редактираните за библиотеката, издишат от към улесняваща потребителя функционалност. Да не забравяме и специфичните грешки в такива текстове допускани при сканиране и разпознаване - за тях няма софтуер улесняващ редактора. Какво да се прави - всеки работи с това с което разполага.
Предлагам ти да откриеш тема в раздела "Начинания", ако смяташ това което разработваш да стане такъв инструмент. Мисля, доста хора тук могат да дадат идеи с каква функционалност програмата да се обогати. Може би ще се намерят и хора които да помогнат при самото програмиране.
Успех!
Истината е, че няма специализиран спелчекер, който да улеснява такава редакция. Масовите редактори имат вградени такива за собствени нужди - писма, документи, кратки разработки и др. Разчетени са отлично за контрол при въвеждане на текст, дори при преглед за грешки на кратки текстове, но при редакция на голям по обем текст, каквито са редактираните за библиотеката, издишат от към улесняваща потребителя функционалност. Да не забравяме и специфичните грешки в такива текстове допускани при сканиране и разпознаване - за тях няма софтуер улесняващ редактора. Какво да се прави - всеки работи с това с което разполага.
Предлагам ти да откриеш тема в раздела "Начинания", ако смяташ това което разработваш да стане такъв инструмент. Мисля, доста хора тук могат да дадат идеи с каква функционалност програмата да се обогати. Може би ще се намерят и хора които да помогнат при самото програмиране.
Успех!
Може и така да е, ...!
Версия 1.09 — актуализиран словоформен списък (1'019'914 словоформи) плюс подобрения в алгоритъма за предложение на корекции.
В момента приоритет ми е добавянето на липсващи словоформи, за да минимизирам откриването на непознати думи, които не са грешки. Работя с честотния списък на липсващите в програмата словоформи, които се срещат в архива на цялата Читанка. Остава ми да прегледам още около 50'000 словоформи и до две седмици ще кача версия с окончателния словоформен списък. След това започвам кодиране на контекстов анализ и коригиране на грешките, които той открива, плюс другите неща, за които стана дума в предните постинги.
В момента приоритет ми е добавянето на липсващи словоформи, за да минимизирам откриването на непознати думи, които не са грешки. Работя с честотния списък на липсващите в програмата словоформи, които се срещат в архива на цялата Читанка. Остава ми да прегледам още около 50'000 словоформи и до две седмици ще кача версия с окончателния словоформен списък. След това започвам кодиране на контекстов анализ и коригиране на грешките, които той открива, плюс другите неща, за които стана дума в предните постинги.
Последната и единствена промяна е направена от dd на 05 декември 2009, 15:38.
Версия 1.10 — актуализиран словоформен списък (1'045'181 словоформи).
Почвам работа по интерфейса и алгоритми за контекстна проверка. Следваща версия след около месец (или по-рано).
Както казва Мандор, спелчекърите не са панацея, така че е най-добре човек да отдели ден-два, за да прочете цялото произведение и да оправи скритите грешки, които не се откриват от чекърите.
Почвам работа по интерфейса и алгоритми за контекстна проверка. Следваща версия след около месец (или по-рано).
Както казва Мандор, спелчекърите не са панацея, така че е най-добре човек да отдели ден-два, за да прочете цялото произведение и да оправи скритите грешки, които не се откриват от чекърите.
Последната промяна е направена от dd на 3. Мнението е било променяно 3 пъти.
-
- Мнения: 161
- Регистрация: 06 юни 2009, 22:32
- SecondShoe
- Мнения: 421
- Регистрация: 16 август 2006, 04:55
Актуалната версия на спелчекера е 1.21 . Наскоро го изтеглих и пробвах. Доста е добър. Много ценен инструмент!
Я! Читанката проработила По този повод качвам нова версия 1.22. Спрямо v1.10 новите неща са:
— Проверка на текст докато пишете (в реално време). Просто пишете текст в десния панел и ако сгрешите дума, тя се оцветява в червено (или розово ако е с главна буква). В левия панел се показват предложения за корекция на сгрешената дума. Ако напишете само една българска дума с десния панел, в левия се показва частта от речника, в която се намира думата, заедно с число от 0 до 4'999, показващо честотата на срещане на думата: 0 — най-честите думи, 4999 — редките думи, без число — свръхредките.
Ако напишете само една английска дума в десния панел, в левия може да видите превода й на български. При въвеждане на втора дума в десния панел (българска или английска), левия панел ще превключи в нормален режим на проверка на правопис.
— Проверка на клипборда. Например, ако пишете във форум, преди да си пуснете мнението, може да го копирате в клипборда, при което спелчекърът автоматично го проверява за грешки. Правите корекции по познатия начин (кликвате в левия върху сгрешената дума от обобщения списък в левия панел, след което кликвате върху корекцията) и накрая копирате коригирания текст от чекъра и го пействате във форума. Разбира се, може да пишете мнението директно в спелчекъра с включена проверка в реално време и накрая — копи-пейст от чекъра във форума.
При дропване на файл за проверка, например текст от Читанката, опцията "Клипборд" се изключва автоматично, за да не си изтриете работата, ако неволно копирате нещо в клипборда докато коригирате текста. Може винаги да активирате проверката на клипборда чрез чекбоскчето "Клипборд".
— Потребителски речник. За да добавите дума в него, например собствените имена или измислените думи, щракнете върху думата в обобщения списък в левия панел, после натиснете бутончето "добави". Повторете същото за всички думи от обобщения списък, които не искате да ви се пречкат. Накрая натиснете "Refresh", за да актуализирате оцветяването на текста в десния панел. Новодобавените думи вече се приемат за правилни и не се оцветяват. С бутончето "Виж" по всяко време може да видите думите, които сте добавили. Те се показват като списък в левия панел. Ако имате зареден текст в десния панел, с който в момента работите, натиснете "Refresh" за да се върнете към правописната проверка. Бутончето "Изчисти" нулира потребителския речник — например ако почвате нова книга със съвсем други собствени имена и термини. Нулирането на потребителския речник, не е задължително, но има риск да сте добавили думи (особено кратки), които може да са грешки в друг контекст.
— Може да игнорирате проверката на собствени имена като изключите опцията "Главни букви". Върши работа, ако целите бързина, но има риск да пропуснете някои сгрешени думи с главни букви.
— Цветен филтър. Средство за откриване на скрити грешки. Филтърът работи като оцветява редки български словоформи, които има вероятност да са грешки в нормален контекст. Например в израза "видях двама депутате", обръщението "депутате" ще е оцветено, въпреки че е валидна дума и веднага може да видите, че e грешка на "депутати". Тази опция е за педанти, които могат да отделят 10-20 минути повече (за стандартен роман), за да прегледат допълнително оцветените от филтъра няколкостотин думи в целият текст. Цветният филтър е изключен по подразбиране. След като го включите, натиснете "Refresh" за да преоцветите текста. За повече детайли за цветния филтър, кликнете въпросчето до съответната опция (отваря html документ).
— Ъпгрейд на словоформената база. Освен добавяне на нови и премахване на единични грешни форми, наследени от БГ-офис, премахнах около 700 грешни словоформи от оригиналния тип 71, импортиран в чекъра от БГ-офис. Това са отглаголни съществителни, образувани от свършени глаголи, напр. изпръскане вместо изпръскване, прегледане вместо преглеждане и пр. Отглаголни съществителни с наставка -не се образуват само от несвършени глаголи.
— Проверка на текст докато пишете (в реално време). Просто пишете текст в десния панел и ако сгрешите дума, тя се оцветява в червено (или розово ако е с главна буква). В левия панел се показват предложения за корекция на сгрешената дума. Ако напишете само една българска дума с десния панел, в левия се показва частта от речника, в която се намира думата, заедно с число от 0 до 4'999, показващо честотата на срещане на думата: 0 — най-честите думи, 4999 — редките думи, без число — свръхредките.
Ако напишете само една английска дума в десния панел, в левия може да видите превода й на български. При въвеждане на втора дума в десния панел (българска или английска), левия панел ще превключи в нормален режим на проверка на правопис.
— Проверка на клипборда. Например, ако пишете във форум, преди да си пуснете мнението, може да го копирате в клипборда, при което спелчекърът автоматично го проверява за грешки. Правите корекции по познатия начин (кликвате в левия върху сгрешената дума от обобщения списък в левия панел, след което кликвате върху корекцията) и накрая копирате коригирания текст от чекъра и го пействате във форума. Разбира се, може да пишете мнението директно в спелчекъра с включена проверка в реално време и накрая — копи-пейст от чекъра във форума.
При дропване на файл за проверка, например текст от Читанката, опцията "Клипборд" се изключва автоматично, за да не си изтриете работата, ако неволно копирате нещо в клипборда докато коригирате текста. Може винаги да активирате проверката на клипборда чрез чекбоскчето "Клипборд".
— Потребителски речник. За да добавите дума в него, например собствените имена или измислените думи, щракнете върху думата в обобщения списък в левия панел, после натиснете бутончето "добави". Повторете същото за всички думи от обобщения списък, които не искате да ви се пречкат. Накрая натиснете "Refresh", за да актуализирате оцветяването на текста в десния панел. Новодобавените думи вече се приемат за правилни и не се оцветяват. С бутончето "Виж" по всяко време може да видите думите, които сте добавили. Те се показват като списък в левия панел. Ако имате зареден текст в десния панел, с който в момента работите, натиснете "Refresh" за да се върнете към правописната проверка. Бутончето "Изчисти" нулира потребителския речник — например ако почвате нова книга със съвсем други собствени имена и термини. Нулирането на потребителския речник, не е задължително, но има риск да сте добавили думи (особено кратки), които може да са грешки в друг контекст.
— Може да игнорирате проверката на собствени имена като изключите опцията "Главни букви". Върши работа, ако целите бързина, но има риск да пропуснете някои сгрешени думи с главни букви.
— Цветен филтър. Средство за откриване на скрити грешки. Филтърът работи като оцветява редки български словоформи, които има вероятност да са грешки в нормален контекст. Например в израза "видях двама депутате", обръщението "депутате" ще е оцветено, въпреки че е валидна дума и веднага може да видите, че e грешка на "депутати". Тази опция е за педанти, които могат да отделят 10-20 минути повече (за стандартен роман), за да прегледат допълнително оцветените от филтъра няколкостотин думи в целият текст. Цветният филтър е изключен по подразбиране. След като го включите, натиснете "Refresh" за да преоцветите текста. За повече детайли за цветния филтър, кликнете въпросчето до съответната опция (отваря html документ).
— Ъпгрейд на словоформената база. Освен добавяне на нови и премахване на единични грешни форми, наследени от БГ-офис, премахнах около 700 грешни словоформи от оригиналния тип 71, импортиран в чекъра от БГ-офис. Това са отглаголни съществителни, образувани от свършени глаголи, напр. изпръскане вместо изпръскване, прегледане вместо преглеждане и пр. Отглаголни съществителни с наставка -не се образуват само от несвършени глаголи.
Последната и единствена промяна е направена от dd на 05 декември 2009, 15:38.
Поздравления! Не се отказваш и развиваш тази полезна програма. Вече има и възможност за създаване на потребителски речник. Надявам се скоро да има опция за съхранение на същия във файл за последваща употреба.dd написа: ...
— Потребителски речник. За да добавите дума в него, например собствените имена или измислените думи, щракнете върху думата в обобщения списък в левия панел, после натиснете бутончето "добави". Повторете същото за всички думи от обобщения списък, които не искате да ви се пречкат. Накрая натиснете "Refresh", за да актуализирате оцветяването на текста в десния панел. Новодобавените думи вече се приемат за правилни и не се оцветяват. С бутончето "Виж" по всяко време може да видите думите, които сте добавили. Те се показват като списък в левия панел. Ако имате зареден текст в десния панел, с който в момента работите, натиснете "Refresh" за да се върнете към правописната проверка. Бутончето "Изчисти" нулира потребителския речник — например ако почвате нова книга със съвсем други собствени имена и термини. Нулирането на потребителския речник, не е задължително, но има риск да сте добавили думи (особено кратки), които може да са грешки в друг контекст.
...
Може и така да е, ...!
Думите се съхраняват във файл и мисля, че всичко работи нормално. Специална опция за съхранение (напр. менюта "Съхрани потребителския речник" и "Зареди потребителски речник") би била необходима само ако искаш да работиш с повече от един потребителски речник и да може да избираш, кой от няколкото речника (т.е. списъци от думи) да бъде активен в даден момент. Не знам дали това имаш предвид. Може да се направи, но не ми изглежда чак толкова необходимо.GeOrg написа:Надявам се скоро да има опция за съхранение на същия във файл за последваща употреба.
Сега работи така: След като разархивираш нова версия на програмата и я стартираш за първи път, в папката "alt" се генерират няколко празни файла. Сред тях е и потребителския речник "b_bulgarian_custom.txt", който е прост текстов файл, в който думите се добавят впоследствие сортирани по азбучен ред, по една дума на ред. Добавените думи по време на една работна сесия се сортират и записват във файла в момента, в който спреш програмата. Файлът се зарежда при всяко следващо пускане на програмата и думите, които си добавил по време на предишната сесия са активни и при новата сесия. Може да продължиш да добавяш думи по време на новата сесия. След като пак спреш програмата, файлът ще съдържа сортиран списък на старите плюс новите думи. Така файлът може да расте безкрайно, докато не го изчистиш. След разархивиране на нова версия на програмата, трябва просто да копираш този файл "b_bulgarian_custom.txt" от старата папка "alt" в новата и едва тогава да изтриеш папката на стария речник. Това неудобство е поради факта, че програмата не се инсталира и няма как да се запазят автоматично променени файлове или опций от предната версия, но от друга страна така имаш пълен контрол върху нещата. Тук е мястото да ти благодаря, тъй като това не е очевидно за обикновения потребител, защото все още няма никакъв приличен "Help". Нищо не пречи да работиш и с няколко речника, ако си играеш на ръка да ги преименуваш и да копираш в папката "alt" този, който ти трябва.
Последната и единствена промяна е направена от dd на 05 декември 2009, 15:38.
Да точно - няколко потребителски речника с възможност за включване и изключване и то не само на един от тях, а на няколко такива. По-скоро предложението е за улесняване на начинаещите потребители, не че няма да се оправя и с наличието на един. Има смисъл когато редактираш поредица от текстове на даден автор с доста голям промеждутък от време в което подхващаш друг проект. Потребителски речник създаден за един текст почти на 100% е излишен за друг текст с малки изключения, но пък спестява поне 20% работа, ако следващия текст е от поредица на същия автор. Освен това едва ли имаш в речника си вкарани например специфични морски термини или всички географски наименования, диалектни думи и др. Разбира се не е и необходимо защото просто рядко се налага употребата им, но от друга страна са непознати не само като думи, а и изписването им. Проверката за коректност на такива думи изисква време което се губи всеки път ако няма специализиран речник в който веднъж проверени да бъдат включени и запаметени във файл за употреба при такава необходимост. Това имам предвид като искам повече потребителски речници и възможност за съхранението им и последващо активиране, освен ако нямаш намерение да включиш такива служебни към програмата.
Може и така да е, ...!
Кой е на линия
Потребители, разглеждащи форума: 0 гости