IDI Spell Checker 24.02.07

От време на време се появяват идеи за странични проекти. Обсъждайте ги тук.
Правила
Уважавайте другите участници и се отнасяйте с тях така, както бихте желали те да се отнасят с вас!
Отговор
mIRCata
Мнения: 58
Регистрация: 19 ноември 2009, 22:59

Мнение от mIRCata »

много хубава програма. Пуснах файла на 11 книга от Колелото на Времето.
Правят ми впечатление някои неща - ще ги описвам, защото може и да са верни, но може и да са пропуски в програмата.
хваща "да това" като евентуална грешка в "да товарят". Не трябва ли да е с проверка дали не е част от дума. В смисъл ако има букви след това да се прескача?
В проверката за дума с главна буква в средата на изречението с над 3 повторения, показва думи, които са първи. т.е точка-интервал-главна буква. забелязах го на думата Две.
mIRCata
Мнения: 58
Регистрация: 19 ноември 2009, 22:59

Мнение от mIRCata »

като избрах да увелича разбера на шрифта от 8 на 10 - изчезна оцветяването. Промяната на отметката "Оцветявай" не промени нищо.
Win 7 Ultimate 64 bit.

При промяна на размер и презареждане на файла - се появява оцветяването.
Гост

Мнение от Гост »

mIRCata написа:В проверката за дума с главна буква в средата на изречението с над 3 повторения, показва думи, които са първи. т.е точка-интервал-главна буква. забелязах го на думата Две.
Натисни няколко пъти върху думата "Две" в левия панел, за да стигнеш до истинския проблем в текста. Кликването в левия панел позиционира в десния на общо основание, което значи, че освен върху грешните места, програмата ще позиционира и върху случаите, при които "Две" e в началото на изречението. Щом програмата отчита проблема в левия панел, със сигурност "Две" се среща и някъде в среда на изречение, което най-вероятно е грешка при разпознаването (главна буква в среда на изречение). Просто трябва да кликаш докато не стигнеш до тези места.
Гост

Мнение от Гост »

mIRCata написа:като избрах да увелича разбера на шрифта от 8 на 10 - изчезна оцветяването. Промяната на отметката "Оцветявай" не промени нищо.
Win 7 Ultimate 64 bit.

При промяна на размер и презареждане на файла - се появява оцветяването.
Просто натисни бутона "Refresh" след подобни промени. Ако искаш да не си играеш да уголемяваш шрифта след всяко стартиране, просто отвори файла settings.txt, намери реда FONT_SIZE 8 и го промени на FONT_SIZE 10. Така размерът по подразбиране ще се промени от 8 на 10. Това работи с последната версия 1.66
Гост

Мнение от Гост »

mIRCata написа:хваща "да това" като евентуална грешка в "да товарят".
Виж коментара ми за "Две". Отново търсене на общо основание. Трябва да кликнеш няколко пъти в левия панел, за да стигнеш до истинското "да това" в текста (вероятна грешка на "до това"). Обяснено е няколко пъти по-рано в темата. Това наистина е недостатък на програмата, но не е фатален за нормална работа и чистенето на грешки.
Гост

Мнение от Гост »

Xesiona написа:Аз както винаги си играя с проверките.. ;)
Но ми е странно едно нещо.. Когато пусна в Чекера rtf файл, всички тирета стават малки. И след запаметяването - пак в rtf - си остават малки.
Този проблем липсва, ако пусна txt файл за проверка - после си го запаметявам в rtf и тиретата си остават големи.
Пък може и да не запаметявам правилно, знам ли.. Аз запаметявам като давам десен бутон на мишката върху текста в десния прозорец и му давам да запамети като rtf. Тогава файла се запаметява в папката на чекера под името FILE.rtf
Та в крайна сметка - в мен ли е грешката (което е по-вероятно) или не?
Не, че ми пречи после да си оправя наново тиретата, не е кой знае какво усилие, но все пак..
Отваряй само файлове, предварително конвертирани в txt. Програмата е направена да работи 100% коректно единствено при отваряне на txt файлове (нормални или UTF-8). В последната версия 1.66 при запис се показва диалог "save as", така че може да избираш име различно от "FILE.rtf" или другите имена по подразбиране.
dd
Мнения: 168
Регистрация: 12 април 2009, 05:05

Мнение от dd »

mIRCata
Мнения: 58
Регистрация: 19 ноември 2009, 22:59

Мнение от mIRCata »

Гост написа:
mIRCata написа:В проверката за дума с главна буква в средата на изречението с над 3 повторения, показва думи, които са първи. т.е точка-интервал-главна буква. забелязах го на думата Две.
Натисни няколко пъти върху думата "Две" в левия панел, за да стигнеш до истинския проблем в текста. Кликването в левия панел позиционира в десния на общо основание, което значи, че освен върху грешните места, програмата ще позиционира и върху случаите, при които "Две" e в началото на изречението. Щом програмата отчита проблема в левия панел, със сигурност "Две" се среща и някъде в среда на изречение, което най-вероятно е грешка при разпознаването (главна буква в среда на изречение). Просто трябва да кликаш докато не стигнеш до тези места.
Сега преглеждам Малазанска книга на мъртвите - Лунните градини. В проверката за главни букви в средата на изречение ми показва думата "ветеран" и предложение да я замести с "ветеран." Дори не е с главна буква. Същото е и думите взвод, отново, бивни. Превъртам целия списък с щракане, но никъде не изкачат в среда на изречение с голяма буква.

Едит: Сега като прегледах къде се среща главната буква ми направи впечатление следното. Участват с тире пред тях.
Примерно "- Ветеран си." и "- Отново се обърна към" - може би от там идва предупреждението.
Но за "бивни" единственото място където се среща с голяма буква е "съдържаше пророчество според Прорицателите. Бивните на глигана Теннерок се.....".
dd
Мнения: 168
Регистрация: 12 април 2009, 05:05

Мнение от dd »

mIRCata написа: Сега преглеждам Малазанска книга на мъртвите - Лунните градини. В проверката за главни букви в средата на изречение ми показва думата "ветеран" и предложение да я замести с "ветеран." Дори не е с главна буква. Същото е и думите взвод, отново, бивни. Превъртам целия списък с щракане, но никъде не изкачат в среда на изречение с голяма буква.
След "ветеран" липсва препинателен знак и започва нов ред с главна буква (виж картинката по-долу), затова програмата извежда думата, тъй като не е ясно дали е грешка (ако е изречение, което продължава на нов ред) или както в случая просто резултат от "нестандартно" форматиране на текста. Програмата вляво извежда обикновено контекст от 2 думи, но в случая втората дума "По" би трябвало да е на нов ред и би се получило разкъсване в левия панел, затова извеждам само първата дума "ветеран". Тя си е с малка буква (втората, ако я имаше, би била с главна). В този случай левият панел ти служи единствено да позиционираш върху проблема, като кликнеш няколко пъти "ветеран", докато не стигнеш до проблемния текст в десния панел (има 4 "ветеран" в текста, затова кликваш най-много 4 пъти или по-малко ако имаш късмет). В този текст освен "ветеран" има и още думи, които поради същата причина се извеждат като потенциални грешки. Ти преценяваш къде е грешка и къде не. Подобни текстове не са много в Читанката. Ако подобно форматиране е масово в дадено произведение, може да изключиш опцията "Търси изречения без точка или грешна главна буква".
Изображение

Също видях качени само RTF и DOC версии на файла. За да работиш безпроблемно с чекъра, първо конвертирай текста в txt (utf8) формат с произволен текстов редактор. В чекъра може да отваряш и записваш RTF, но има някакъв бъг в Rich Edit контрола (по-точно съобщението EM_STREAMOUT) и дългите тирета се преобразуват в къси. Не съм си играл да търся къде точно е проблема. Може да е и моя грешка, но подозирам грешка при имплементацията на съобщението за български локал.

И нещо странично. Ако при зареден файл изберете дума в десния панел, долу вляво се показва бърз английския превод на думата (на скрийншота виждате "veteran"). Ако включите опцията "Машинен превод от английски" и включите чекбокса "В реално време", може да пишете английски текст в десния панел и програмата ще го преведе на български в новоотворения прозорец. Машинният преводач e на много ранен етап на развитие, затова не очаквайте чудеса.
mIRCata
Мнения: 58
Регистрация: 19 ноември 2009, 22:59

Мнение от mIRCata »

Ок. Благодаря за разясненията. Просто ми беше чудно защо ги показва.
dd
Мнения: 168
Регистрация: 12 април 2009, 05:05

Мнение от dd »

Версия 1.73 — сериозна актуализация на базите.
Последната и единствена промяна е направена от dd на 11 април 2010, 01:06.
dd
Мнения: 168
Регистрация: 12 април 2009, 05:05

Мнение от dd »

Версия 1.74 — още един сериозен ъпдейт на базите. За пръв път добавям в пакета на програмата и списъците с думи по типове, за да може да се ползват от всички заинтересовани (файлът \alt\bgtypes2\types.zip).
dd
Мнения: 168
Регистрация: 12 април 2009, 05:05

Мнение от dd »

Версия 1.75

1. Поиграх си няколко дена да изчистя над 1'500 пунктуационни и няколко дузини правописни грешки от вградения английско-български речник (файлът "b_en-bg.txt"). Речникът ползвате като отворите прозорчето "Инфо" и кликнете двойно върху английска дума в зареден текст или като напишете английска дума направо в прозорчето "Инфо", след което я кликнете двойно. Третият начин е като изтриете (с бутончето "Clr") всичко в десния панел и напишете английска дума в него (пак при отворен "Инфо").

2. Добавих още около 170 липсващи бг словоформи в базата на чекъра.

3. Махнах добавения в 1.74 файл "types.zip". До няколко дена ще кача на сайта списъците с думи по типове в малко по-човешки вид с подобаващо описание.
dd
Мнения: 168
Регистрация: 12 април 2009, 05:05

Мнение от dd »

Версия 1.76 (Хостингът никакъв го няма от няколко часа, затова качвам торент.)

1. Стотина нови бг форми.
2. Стотина нови предефинирани грешки.
3. 15-тина оправени грешки в базата — предимно думи в грешен подтип плюс 2-3 правописни грешки още от импорта на БГ Офис, напр. побратимявям. Откриването на откровена правописна грешка след толкова засичания е събитие, затова го споменавам като нещо любопитно :-)
4. Актуализиран файл със списъците от думи по типове bg_types_v1.76.zip в папката \alt\bgtypes2
5. Дребни промени в кода за липсващи запетаи.
Последната и единствена промяна е направена от dd на 30 април 2010, 13:48.
petrovich
Мнения: 762
Регистрация: 31 юли 2008, 14:20

Мнение от petrovich »

Който няма възможност да изтегли торента, може да направи това оттук.
dd
Мнения: 168
Регистрация: 12 април 2009, 05:05

Мнение от dd »

Версия 1.77

1. Показват се английско-английски дефиниции към вградения английско-български речник.

Изображение Изображение

2. Оправих една критична грешка, потенциално забиваща програмата.

p.s. благодарности на @petrovich за огледалото.
Аватар
moosehead
Мнения: 137
Регистрация: 17 февруари 2007, 18:29
Местонахождение: София

Мнение от moosehead »

dd, а дали е възможно секцията "Непознати думи" да има възможност за сортиране и по азбучен ред.

Имам предвид ако едно име се среща 500 пъти напр. излиза в горния край на секцията, а ако е сгрешена 1 буква в него от OCR-a (най-често не е първата) и това име е сгрешено веднъж излиза в долния край и трудно може да се направи връзката, че това едно и също име. А като се подредят по азбучен ред ще излязат едно под друго и ще ги "хванем".

P.S. То може и да има такава възможност, ама аз не я открих. :D
dd
Мнения: 168
Регистрация: 12 април 2009, 05:05

Мнение от dd »

moosehead написа:dd, а дали е възможно секцията "Непознати думи" да има възможност за сортиране и по азбучен ред.
Имам предвид ако едно име се среща 500 пъти напр. излиза в горния край на секцията, а ако е сгрешена 1 буква в него от OCR-a (най-често не е първата) и това име е сгрешено веднъж излиза в долния край и трудно може да се направи връзката, че това едно и също име. А като се подредят по азбучен ред ще излязат едно под друго и ще ги "хванем".
Идеята е изключително добра, затова току-що във версия 1.78 добавих опция "Показвай непознатите думи по азбучен ред". Изключена е по подразбиране. Който предпочита опцията да е активна винаги и да не си играе да я включва от менюто всеки път, може да промени опцията PRINT_UNKNOWN_ALPHABETICALLY в settings.txt, като промени нулата до опцията на единица.

Подреждането по честота на срещане позволява по-бърза проверка и корекция, защото може просто да игнорираме горната част на списъка с непознати думи (което не е желателно) и да се съсредоточим върху думите с 1-2 срещания, които са в долната част и е по-вероятно да са грешки.
Подреждането по азбучен ред обаче позволява да се хванат сгрешените при OCR собствени имена, тъй като веднага се набиват на очи близките думи и при драстична разлика в броя е сигурно, че тази с по-малък брой е OCR грешка. Буквално в първия файл, който проверих ("Артур и забраненият град"), открих подобна грешка и е почти сигурно, че в доста текстове има същия проблем. На картинката виждаме, че името "Бетамеш" се среща 123 пъти, а "Бетамещ" 1 път. Второто очевидно е OCR грешка, затова го щракваме веднъж, за да позиционираме върху него в текста и го оправяме ръчно в десния панел. Ако думите са подредени по честота, със сигурност тази грешка ще остане незабелязана.

При проверка на текст може да се ползват и двата начина последователно или само подреждане по азбучен ред. При промяна на опцията при вече зареден текст трябва да натиснете Refresh, за да накарате програмата да направи повторна проверка и съответно да актуализира вляво подреждането на непознатите думи.

Изображение
dd
Мнения: 168
Регистрация: 12 април 2009, 05:05

Мнение от dd »

Версия 1.79

1. Доста корекции и допълнения в английско-българския речник.
2. Скромен ъпдейт на бг базите.
3. Оправих някои пропуски в контекстните менюта. Инфопрозорчето и прозореца на машинния превод вече имат менюта.
Последната и единствена промяна е направена от dd на 16 май 2010, 01:30.
dd
Мнения: 168
Регистрация: 12 април 2009, 05:05

Мнение от dd »

Версия 1.80 — нова опция "Оцветявай всички англ. думи, не само непознатите". По идея от форума на subs.sab.bz. Оцветяват се в синьо всички думи на латиница, а в червено — само непознатите (потенциални правописни грешки). Вляво се извежда съответния пълен списък. Опцията е изключена по подразбиране и няма смисъл да се включва при проверка на текстове за Читанката.


Изображение
Последната и единствена промяна е направена от dd на 16 май 2010, 01:30.
dd
Мнения: 168
Регистрация: 12 април 2009, 05:05

Мнение от dd »

Версия 1.81

1. Задължителен ъпдейт. Оптимизирайки разни дреболии по кода съм строшил сериозно v1.80 (забива в определени ситуации). Сега е наред, надявам се.
2. Около 500 нови основни форми в бг базата. Доста от тях са неологизми или трендови думи от последните месеци (Ейяфятлайокутл, аутсорсване, биопроизводител, аутлет и пр.). Българският език се развива доста бясно и не трябва да се изостава :)
dd
Мнения: 168
Регистрация: 12 април 2009, 05:05

Мнение от dd »

Версия 1.82 Lite — олекотена версия по молба от форума subs.sab.bz/forum

Копи-пейст:

Иска само 90MB оперативна памет, при първо стартиране се зарежда за 2 секунди, всяко следващо стартиране става за половин секунда (практически мигновено). За сравнение пълната версия иска 335MB памет, първо стартиране — 28 сек., всяко следващо — 12 сек. (на моята машина). За правописна проверка олекотената версия върши почти същата работа като пълната. Българският словоформен списък е намален от 1'179'496 форми при пълната v1.82 на 523'318 при Lite v1.82, като съм оставил само думите, които реално се срещат. Това означава, че в редки случаи ще попадате на валидни думи, които Lite няма да разпознава и ще оцветява в червено. В Lite липсват и контекстните проверки, които изискват зареждане на типова информация за думите (тоест кое е глагол, съществително, прилагателно, кое е име на човек, град и пр.), затова не хваща някои видове грешки, напр. "джон" с малка буква, несъгласуване между прилагателно и съществително (напр. "олекотен версия") и други подобни. Липсват и вградените английски речници, затова не се извършва правописна проверка на английски думи и не може да ползвате Lite като английско-българско-английски речник или преводач.
petrovich
Мнения: 762
Регистрация: 31 юли 2008, 14:20

Мнение от petrovich »

dd написа: Българският словоформен списък е намален от 1'179'496 форми при пълната v1.82 на 523'318 при Lite v1.82…
Кога ще бъде възможно свалянето на пълната версия 1.82?
dd
Мнения: 168
Регистрация: 12 април 2009, 05:05

Мнение от dd »

petrovich написа: Кога ще бъде възможно свалянето на пълната версия 1.82?
Lite 1.82 можеше да я кръстя Lite 1.81, за да избегна подобни въпроси, но тъй като има добавени към 150 липсващи думи и някои козметични промени, все пак логично беше да увелича версията. Няма обаче да качвам пълната 1.82, за да не губя времето на хората с дребни ъпдейти. До дни ще кача 1.83.
dd
Мнения: 168
Регистрация: 12 април 2009, 05:05

Мнение от dd »

Доработена версия 1.82A Lite

Идеята да махна редките словоформи в Lite версията не се оказа чак толкова добра. Днес правих още тестове с произволни документи и чекърът тук-там оцветяваше в червено редки думи, които са в базата на пълната версия, но липсват в Lite. Това дразни и затова в 1.82A върнах пълната словоформена база. Сега Lite чете 17MB файл от диска вместо 8MB, затова вместо за половин секунда се зарежда за 1 секунда.
Последната и единствена промяна е направена от dd на 29 май 2010, 16:24.
dd
Мнения: 168
Регистрация: 12 април 2009, 05:05

Мнение от dd »

Доработена версия 1.82C Lite — оправих една потенциално критична грешка.
dd
Мнения: 168
Регистрация: 12 април 2009, 05:05

Мнение от dd »

Версия 1.83 — дузини корекции в базите, но нищо критично. По-заетите може да пропуснат ъпдейта.
dd
Мнения: 168
Регистрация: 12 април 2009, 05:05

Мнение от dd »

Версия 1.84

1. Сложните топонимни прилагателни, които липсват в базата, вече не се разпознават като грешки (напр. бразилско-палестински, софийско-варненски, калифорнийско-софийски). Няма начин да се добавят в словоформената база всички комбинации (биха били един милион за хиляда топонимни прилагателни), затова един прост алгоритъм, който проверява дали двете части са топонимни прилагателни (първото в ср.р., ед.ч., второто в основната си форма) върши идеална работа. Топонимните прилагателни се съхраняват в отделен тип 78t, който е еднакъв с 78.

2. Известно е, че префиксалните морфеми (префиксоиди) "полу", "псевдо", "супер", "хипер", "ултра", "свръх" и "мега" се пишат слято с прилагателните и съществителните (напр. суперталантлив, свръхактивен, мегаконцерн). Досега добавях ръчно в базата подобни сложни прилагателни всеки път, когато ги срещнех, но и тук каузата за изчерпателност е обречена, тъй като за да се изчерпят всички комбинации трябва да се добавят още 50 хиляди основни думи. Затова добавих код, който проверява дали непознатата дума е комбинация от някоя от гореизброените морфеми плюс прилагателно. Така проблемът е решен и вече чекърът не почервенява подобни думи.

3. Добавих 215 липсващи наречия в тип 188. Тези форми и досега ги е имаше като форми на съответното прилагателно от ср.р. (бавно, безогледно и пр.), но се наложи да попълня списъка, тъй като някои алгоритми разчитат на информация кога една форма освен прилагателно от ср.р. се среща често и като е наречие (не всички прилагателни от ср.р. се използват в речта като наречия). Наследеният от БГ Офис списък думи от тип 188 беше абсолютно непоследователен (на принципа "тука има, тука нема").

4. Същата непоследователност в БГ Офис има и при прилагателните. Много мин.стр.причастия на глаголи (напр. вдетинен, вдъхновен) в БГ Офис са добавени и като прилагателни в съответния тип, но много фигурират единствено в глаголен тип, въпреки че масово се използват атрибутивно, тоест като прилагателни. Отделих един ден да издиря подобни причастия и допълних прилагателните типове с няколкостотин липсващи (напр. отегчен, заключен). Не всички причастия реално се ползват като прилагателни и затова процесът на отсяване е леко субективен, но вярвам, че съм се справил. Пълнотата на прилагателните типове е критична за някои съществуващи, а и бъдещи алгоритми, затова това допълване трябваше да се направи.

5. Добавих стотина нови словоформи в базата и преместих 4-5 думи в други по-точни типове. Добавих и десетина суперрискови думи в съответния списък, за да се святкат като непознати. Изтрих излишния тип 40b. Малка промяна в тип 40 позволи обединяването на двата типа.
Последната и единствена промяна е направена от dd на 06 юни 2010, 14:07.
dd
Мнения: 168
Регистрация: 12 април 2009, 05:05

Мнение от dd »

Току-що 1.84 заби при проверка на "Моби Дик" от работилницата. С 1.83 файлът се провери нормално, тъй че очевидно съм строшил нещо при последните промени. Сега ще прегледам кода и по-късно днес ще кача оправена версия.
Последната и единствена промяна е направена от dd на 06 юни 2010, 14:08.
dd
Мнения: 168
Регистрация: 12 април 2009, 05:05

Мнение от dd »

Версия 1.85

1. Оправих една критична грешка, която забива програмата.
2. Ако непозната дума е съставена от морфемите "ново", "старо", "древно", "източно", "западно", "северно" и "южно" плюс топонимно прилагателно, думата не се счита за грешка (напр. новоперсийски, източнорумънски, южнолатвийски, древноизраелска).
3. Двайсетина нови думи в базата.
4. Вграденият машинен преводач е ъпдейтнат до версия 0.10. Все още не се разпознават глаголни времена и куп други неща, затова преводът е лош. До няколко дена ще активирам разпознаването.

И като странична забележка да кажа, че тествайки чекъра продължавам да се натъквам на уж готови за добавяне текстове с по няколкостотин грешки. Вероятно при натискане на бутона за качване на текст, системата трябва да показва списък с прости неща, които човек трябва да е направил, и качващият да потвърди с отметка, че текстът му е минал изброените проверки, преди да може да качи текста.
Отговор

Обратно към

Кой е на линия

Потребители, разглеждащи форума: 0 гости