Речник на българския език

От време на време се появяват идеи за странични проекти. Обсъждайте ги тук.
Правила
Уважавайте другите участници и се отнасяйте с тях така, както бихте желали те да се отнасят с вас!
Аватар
Борислав
Мнения: 1065
Регистрация: 15 ноември 2005, 17:25

Речник на българския език

Мнение от Борислав »

Представям ви един нов проект: Речник на българския език.

Словоформената база е изградена с помощта на IDI Spell Checker.

Възможно е влизането с OpenID, което на пръв поглед изглежда безполезно, защото регистрираните потребители нямат никакви допълнителни права. По-нататък ще им дам възможност да предлагат промени в данните, които ще трябва да се одобряват.

В момента един потребител може да се сдобие с пълни редакторски права само ако се свърже с мен и си поиска такива.
Аватар
SecondShoe
Мнения: 421
Регистрация: 16 август 2006, 04:55

Мнение от SecondShoe »

Добре ще е да има някакъв помощен модул където да се обясни каква е целта на сайта, как се работи с него, как може да се допринася с нещо към съдържанието и др. ЧЗВ.

Като за начало, ето какво е Open ID:
OpenID е нов начин да се идентифицирате навсякъде в уеб пространството. С вашия личен OpenID, Вие можете да се логнете във всеки сайт поддържащ OpenID (вече има около 1000 такива и броя им расте с всеки изминал ден) и да се идентифицирате като себе си.

Това е едно потребителско име и една парола за всички страници, в които ще отидете. Означава край на прозорците с регистрация в страниците, които посещавате. Най-важното, OpenID е отворено; то е протокол, който е разработен от различни общности, заинтригувани в решението на проблема с идентичността веднъж за винаги. Вие можете да го използвате във всеки сайт, който е с разрешен OpenID, както и да имате такъв акаунт. Това премахва редовете, където искате да имате акаунт и въпросът, който ви бива задаван се променя от „Имате ли акаунт“ на „Разрешен ли е OpenID на този сайт?“
Източник
Аватар
Борислав
Мнения: 1065
Регистрация: 15 ноември 2005, 17:25

Мнение от Борислав »

На страницата за влизане ще сложа малко информация за OpenID.
dd
Мнения: 168
Регистрация: 12 април 2009, 05:05

Мнение от dd »

Ще помагам с каквото мога. Отдавна мисля да направя подобно нещо, но засега се въздържам, тъй като има още работа по базите. Ако този проект се актуализира редовно и сработи дългосрочно, ще се откажа от моя вариант.
petrovich
Мнения: 762
Регистрация: 31 юли 2008, 14:20

Мнение от petrovich »

Да разбирам ли, че тази услуга ще стане като IDI Spell Checker, само че в електронен вариант?
Аватар
Борислав
Мнения: 1065
Регистрация: 15 ноември 2005, 17:25

Мнение от Борислав »

petrovich написа:Да разбирам ли, че тази услуга ще стане като IDI Spell Checker, само че в електронен вариант?
На първо време целта е изчистване на грешките в базата и запълването й с нови думи и значения.
dd
Мнения: 168
Регистрация: 12 април 2009, 05:05

Мнение от dd »

Борислав написа:На първо време целта е изчистване на грешките в базата и запълването й с нови думи и значения.
Влагам изключително много труд да чистя IDI базата от грешки и предполагам, че са останали не повече от стотина (при 1.2M словоформи това никак не е зле).

Ето примерни грешки, каквито ако срещнете в базата, може да съобщавате:
1. Правописни грешки.
— "музикхол" вместо "мюзикхол".
2. Думи, поставени в тип за друга част на речта.
— "марципан" е съществително, поставено в прилагателен тип, поради което се генерират куп неправилни форми, напр. "марципания", "марципаната".
3. Думи, поставени в грешен тип за същата част на речта.
— "малоазиец" — съществително, поставено в грешен съществителен тип, което генерира "малоазици", вместо "малоазийци".
— "запъхтян" — променливо "я", правилно е "запъхтени", не "запъхтяни", тоест поставена е в грешен тип.
— "ханджийка" — думата има звателна форма "ханджийке", но е поставена в тип без звателна форма.
— "напичам" — глагол от несвършен вид, поставен в свършен тип, поради което се генерират по-малко форми от необходимото (липсват сег.деят.прич. "напичащ" и деепричастие "напичайки").
— "грухам" — преходен глагол, поставен в непреходен тип, при което не се генерират формите за мин.страд.прич. (липсват "грухан", "грухано" и пр., напр. "грухана пшеница")
4. Липсващ тип — думи, които не могат да се поставят в никой от съществуващите типове, затова са поставени в най-близкия тип, което е грешно.
— възвратни глаголи, напр. "сърби ме" е добавен като невъзвратен "аз сърбя", което генерира неправилни (мъртви) форми като "ти сърбиш", "вие сърбихте".
— глаголи, предполагащи множествено число на извършителя или единствено число на събирателни съществителни, не се използват в 1л. ед.ч. (няма "аз наслизам", "аз наизскачам" (въпреки че това са формите, с които се листват в речниците), има "те наизскачаха" или "народът наизскача").

Естествено, вероятността потребител да забележи и съобщи подобни грешки не е много голяма, затова Борислав при желание може да следи кога качвам нови версии (2-3 пъти месечно) и да ъпдейтва базата.
petrovich
Мнения: 762
Регистрация: 31 юли 2008, 14:20

Мнение от petrovich »

В момента гледам, че има много малко думи. Да разбирам ли, че скоро ще се влее голямата база данни на dd или?
Аватар
Борислав
Мнения: 1065
Регистрация: 15 ноември 2005, 17:25

Мнение от Борислав »

petrovich написа:В момента гледам, че има много малко думи.
Къде и как го гледаш това?
petrovich
Мнения: 762
Регистрация: 31 юли 2008, 14:20

Мнение от petrovich »

Борислав написа:
petrovich написа:В момента гледам, че има много малко думи.
Къде и как го гледаш това?
Грешката е моя аз се бъркам с най-търсени думи :)
Аватар
SecondShoe
Мнения: 421
Регистрация: 16 август 2006, 04:55

Мнение от SecondShoe »

А знаете ли какъв речник ползва Google за да поправя грешните думи в търсенията? Изглежда доста точен. Досега не си спомням да съм виждал грешки там.
mIRCata
Мнения: 58
Регистрация: 19 ноември 2009, 22:59

Мнение от mIRCata »

Мога само да предполагам, че вади най-често срещания вариант, като вероятно най-правилен.
petrovich
Мнения: 762
Регистрация: 31 юли 2008, 14:20

Български тълковен речник 1976г.

Мнение от petrovich »

Сканирах и разпознах Български тълковен речник (трето издание) от 1976г. на издателство "Наука и изкуство".
1. Връзка към качените снимки под формата на архив: тук
2. Речника след разпознаването (в няколко текстови формата, препоръчвам да използвате .rtf формата). цък
2.1. снимките обработени със Scan Tailor
Забележка: Няма да качвам текста разпознат от снимките, които са обработени със Scan Tailor, тъй като има много грешки, които не се наблюдават при разпознатия текст (без обработка на снимките).
3. Направих запитване към БАН (Българска академия на науките) относно това дали е възможно да ни предоставят електронен вариант на "Речник на българския език". Ето и писмото:
Здравейте,
Аз съм потребител занимаващ се с развитието на сайта chitanka.info в частност rechnik.chitanka.info и ви пиша, тъй като от известно време аз и екипа се занимаваме с обогатяването на базата данни с думи. Искам да ви попитам дали е възможно да ни изпратите томовете на "Речник на българския език" в електронен вариант?

Поздрави!
(пратено на 24.03.2010)

Както се досещате все още няма отговор от тях, но се надявам да получа такъв. Ако до 1 месец не отговорят ще се наложи да преминем към другия вариант --> снимане/сканиране на всички томове (засега са 12 издадени) и съответното им разпознаване.
Последната и единствена промяна е направена от petrovich на 04 април 2010, 09:32.
Гост

Мнение от Гост »

petrovich, би ли качил само страница 161. Вместо нея има копие на страница 555 (IMG_6468.jpg), което е по-добро от другото, което е размазано. Вероятно при повторното снимане на 555 си припокрил 161 без да искаш.
petrovich
Мнения: 762
Регистрация: 31 юли 2008, 14:20

Мнение от petrovich »

Гост написа:petrovich, би ли качил само страница 161. Вместо нея има копие на страница 555 (IMG_6468.jpg), което е по-добро от другото, което е размазано. Вероятно при повторното снимане на 555 си припокрил 161 без да искаш.
Да, грешката е възникнала, защото съм сменил името във фотоапарата, но не и на компютъра. Ето тук можеш да изтеглиш снимката.

P.S. И моля те регистрирай се във форума, за да виждам все пак на кой пиша :wink:
Последната и единствена промяна е направена от petrovich на 06 ноември 2010, 18:59.
petrovich
Мнения: 762
Регистрация: 31 юли 2008, 14:20

Мнение от petrovich »

Има ново развитие на ситуацията. Свързах се с г-жа Стефка Караколева, която ми написа следното писмо:
Здравейте!

Изпращам Ви линк към един речник, който дълги години създава една моя позната и колежка Румяна Станкова. Не Ви писах преди за него, защото исках първо да и пиша мейл и да я попитам докъде е стигнала работата по речника и естетствено да се съгласи да изпратя този линк. Тук са публикувани няколко букви от него. Той е много голям-една буква е около 1000 страници.

http://www.bvu-bg.eu/nmvb/index.php?Clip=vlibdrugi
ИНТЕРАКТИВЕН МУЛТИДИСЦИПЛИНАРЕН АНГЛИЙСКО-БЪЛГАРСКИ РЕЧНИК - букви: A B C D

Поздрави,
_____________________________________
Stefka Romanova Karakoleva
Успях от по-горната връзка да видя следната връзка цък
От горната връзка се разбира, че думите са написани, но се
Търси издател, който да разработи Web страница и search engine (търсеща машина) за публикуване на целия речник в Интернет.

Та моето предложение е да се свържем с маг.инж. Румяна В. Станкова и да предложим директно да използва "Речко" за нейния проект.
Аватар
Борислав
Мнения: 1065
Регистрация: 15 ноември 2005, 17:25

Мнение от Борислав »

petrovich написа:... Та моето предложение е да се свържем с маг.инж. Румяна В. Станкова и да предложим директно да използва "Речко" за нейния проект.
Добавянето на двуезични речници към Речко е един от следващите етапи на развитието му. Най-вероятно всеки от тях ще представлява отделен раздел на сайта — влизаш в него и търсиш в рамките на един-единствен речник, напр. английско-български.

Предлагам ти да се свържеш с г-жа Станкова и да я попиташ какво точно е нейното желание.
petrovich
Мнения: 762
Регистрация: 31 юли 2008, 14:20

Мнение от petrovich »

Изпратих писмо и до "Български национален корпус" ([email protected],
[email protected]). Ето и съобщението:
Здравейте,
Аз съм потребител занимаващ се с развитието на сайта chitanka.info в частност rechnik.chitanka.info и ви пиша, тъй като от известно време аз и екипа се занимаваме с обогатяването на базата данни с думи. Искам да ви попитам дали е възможно да ни изпратите под формата на текстов файл вашата база данни от думи?

Поздрави!
Да се надяваме, че все отнякъде ще получим помощ :)
petrovich
Мнения: 762
Регистрация: 31 юли 2008, 14:20

Мнение от petrovich »

Свързах се с маг.инж. Румяна В. Станкова и написах следното:
Здравейте,
Аз съм потребител занимаващ се с развитието на сайта chitanka.info в частност rechnik.chitanka.info и ви пиша, тъй като от известно време аз и екипа се занимаваме с обогатяването на базата данни с думи. Искам да ви попитам дали желаете да реализираме вашия труд (базата данни от думи) посредством нашия проект?

Поздрави!
Поне оттук ще има отговор :)
petrovich
Мнения: 762
Регистрация: 31 юли 2008, 14:20

Мнение от petrovich »

Получих следното писмо от екипа на "Речник на българсия език" (човек направо да не повярва):
G-n Petrov,

Sabina Pavlova sam. Sekretar na Rechnik na bulgarskija ezik. Prepratiha mi vasheto piatane.

Tom 13 (poslednijat otpechatan: poen-prelestno) na pazara e 43 leva. V Instituta se prodava s otstapka i e 34 leva. Predhodnite tomove sa po 20 leva s ottapkata pri nas.

S. pavlova
Превод: Г-н Петров,
Сабина Павлова съм. Секретар на Речник на българския език. Препратиха ми вашето питане. Том 13 (последният отпечатан: поен-прелестно) на пазара е 43 лева. В института се продава с отстъпка и е 34 лв. Предходните томове са по 20 лв. с отстъпка при нас.

С. Павлова

Аз и написах следното:
Благодаря за информацията. Предварително съм се запознал със цените на томовете в книжен вариант.
Но моето запитване е следното: Имате ли досега издадените томове в електронен вариант?
Ще ви държа в течение...
Последната и единствена промяна е направена от petrovich на 12 април 2010, 19:08.
mIRCata
Мнения: 58
Регистрация: 19 ноември 2009, 22:59

Мнение от mIRCata »

Явно в БАН от много работа не им остава време да се запознаят с кирилицата на Windows. Може и да няма електронен вариант, че използват само латиницата по компютрите. А речниците да са ги подготвяли за печат на пишеща машина :lol: :lol:
petrovich
Мнения: 762
Регистрация: 31 юли 2008, 14:20

Мнение от petrovich »

Ето и отговора от госпожа Сабина/Събина Павлова:
Не, нямаме. Това е изискването на издателите. Ние работи върху електронна версия, която се надяваме да се пусне, когато отпечатаме и последния том.
Само да допълня, че отпечатването на последния том е планувано за 2020 (аз не знам дали дотогава ще съм жив :roll:).

Ето и моя отговор:
Благодаря за отговора! Възможно ли е да ми кажете някакви срокове, в които ще бъдат завършени томовете (имам предвид за всеки том поотделно), тъй като на сайтът ви виждам само обща дата за всичките томове. Мерси!
Поне вече знаем какво да правим. След като ми свършат изпитите (края на юни)започвам да купувам том по том и съответно започва снимаме, разпознаване, редактиране... Те могат да направят речниците към 2020 г., но аз мисля ние да го направим до 2012 г. (може и по-рано). Значи за момента са издадени 13 тома като очакваме отговора на г-жа Павлова, за да разберем останалите кога ще бъдат издадени :).
petrovich
Мнения: 762
Регистрация: 31 юли 2008, 14:20

Мнение от petrovich »

Г-жа Сабина Павлова:
Не бих искала да се ангажирам с такива срокове. Има няколко извънинституски причини, които не ми дават възможност за конкретни прогнози.

А Вие какво работите или с какво се занимавате, та проявявате интерес към речника? Не са много хората, които проявяват индивидуален интерес към това дело. По маркетингови проучвания около 800 са частните потребители.
Това писмо обяснява много неща. С една дума (нищо лошо) ще се надяваме някаква висша сила да забърза нещата.

Ето и моя отговор:
Писмото пратено от мен до [email protected] може да ви даде отговор на вашия въпрос:
Здравейте,
Аз съм потребител занимаващ се с развитието на сайта chitanka.info в частност rechnik.chitanka.info и ви пиша, тъй като от известно време аз и екипа се занимаваме с обогатяването на базата данни с думи. Искам да ви попитам дали е възможно да ни изпратите томовете на "Речник на българския език" в електронен вариант?

Поздрави!
Това е причината поради, която ви задавах тези въпроси. Още веднъж благодаря за отделеното време!
petrovich
Мнения: 762
Регистрация: 31 юли 2008, 14:20

Мнение от petrovich »

Отговорът от г-жа Павлова:
За съжаление не можем да Ви предоставим електронен варинат. На електронен носител са томовете 9-13 (б. М-П, първа част) и преизданието т. 1-3. Правим успоредно с новите томове с преиздание на т. 1-8., тъй като са изчерпани, а и са отпечатани преди промяната. Така че вече можем да обновим някои дефиниции и да включим утвърдените нови значениия и думи в последните 20-ина години при преиздаването, а не само да набавим тираж от първите осем тома. Всъщност, щом сте били в сайта на речника, знаете всичко това. Не съм го поглеждала тъй като от октовмри до 1 април бях толкова заета и презаета с речникови задачки, че се чудя как оцелях. Сега се връщам към всекидневието си и ще отворя инфото ни.

Но мисля, че щом става дума за словно обогатяване на този сайт, който поддържате rechnik.chitanka.info би Ви бил полезен Националния корпус на българския език. В сайта на Института за български език ще намерите как да влезнете и да ползвате този корпус. Направихме го в края на 2009 г. - по модела на другите национални корпуси из Европа.

Ще мисля с какво бихме могли да сме Ви реално полезни.

Хубава вечер!

Сабина
Ето и моят:
Отново благодаря за информацията. Относно Националния корпус - предварително го бях разгледал, но никъде не видях възможността да бъде свален под каквато и да е форма (даже напротив пишеше изрично, че не е достъпен). Смятам, че като всяка нормална европейска държава (особено когато става въпрос за развитието на родния език) трябва такъв род ресурси да бъдат общодостъпни не само за разглеждане, а и за тяхното развитие. Тъй като БАН е държавна институция, а държавата е създадена, за да служи на народа е напълно нормално информацията да бъде достъпна под каквато и да било форма. Склонен съм ако предложите вариант за предоставяне на информацията (досега качените речници) в електронен вариант да заплатя сумата (по банков път, на място, няма значение) определена от вас. Разберете, че независимо дали ни предоставите информацията в електронен вариант или не, всички досега издадени речници ще бъдат сканирани, разпознати, редактирани и качени съответно в електронен вариант. Но според мен е много по-удачно заедно с вас да развием това богатство. От името на екипа на chitanka.info (в частност мен) Ви предлагам нашата помощ за цифровизирането на речника без каквото и да е заплащане в замяна на нашия труд. Очаквам вашия отговор!
Очевидно от нейния отговор се разбира (поне за мен), че г-жа Павлова не желае повече да се занимава с нас. БАН е институция, която няма желание и сигурно няма и да има в близкото бъдеще, да се променя. Ироничното в тази ситуация, че името БАН много напомня на ban...
petrovich
Мнения: 762
Регистрация: 31 юли 2008, 14:20

Мнение от petrovich »

Днес обикалях няколко часа, за да разбера откъде могат да се закупят речниците. Има три основни библиотеки на БАН — едната се намира на бул. Шипченски проход 52 тук, другата на ул. Сердика 4 тук и третата на 15-ти ноември тук.
В момента има налични 3, 9, 10, 13 том. Аз успях да купя последния 2 том за 35 лв. Скоро ще купя и останалите. Никой за момента не може да ми каже (включително и хората от БАН) кога ще бъдат преиздадени изчерпаните. Очакват се в близките месеци да се издадат един по един 4, 5, 6, 7, 8, но кога ще стане това никой не знае. Видях и старите издания, но за съжаление качеството на хартията е толкова ниско, че е изключено правилното им разпознаване независимо от това, че могат да се сканират перфектно. Жената от книжарницата на бул. Шипченски проход ми обясни, че съставителите си издават томовете където решат и обикновенно никога няма достатъчно бройки. Жената на ул. Сердика 4 ми обеща да се обади след като проучи какво е останало по складовете. Имам няколко варианта 1, 11 том да се купят от интернет книжарница, така че ми се струва възможно събирането на всички издадени досега томове. Който има идеи да пише. :wink:
petrovich
Мнения: 762
Регистрация: 31 юли 2008, 14:20

Мнение от petrovich »

В този коментар ще отбелязвам прогреса на обработка на „Речник на българския език”:
ТомБуква(и)СтатусБрой странициГодина на издаванеБрой думи
1А—БКупен, сканиран1080200110 598
2ВКупен, сканиран76820026206
3Г—ДКупен, сканиран80520076501
4Деятелен—ЕКупен, сканиран97420127928
5Е—ЖЧака да бъде преиздаден1029 (първо издание)чака9455 (първо издание)
6И—ЙЧака да бъде преиздаден963 (първо издание)чака9307 (първо издание)
7КЧака да бъде преиздаден768 (първо издание)чака6652 (първо издание)
8К—ЛКупен, сканиран, чака да бъде преиздаден (ново издание)864 (първо издание)1995, чака6191 (първо издание)
9МКупен, сканиран88019986881
10НКупен, сканиран126720009722
11ОКупен, сканиран124320029678
12П-поемкаКупен, сканиран107420047887
13поен-прелестноКупен, сканиран122420098995
14прелет-пясъчножълтКупен, сканиран122420126685
Последната промяна е направена от petrovich на 5. Мнението е било променяно 5 пъти.
dd
Мнения: 168
Регистрация: 12 април 2009, 05:05

Мнение от dd »

Току-що минах през чата. @petrovich си е пожелал описание на типовете, за да може по-лесно да добавя думи. Има подобно описание, въпреки че не е най-подробно:

http://www.freeplace.info/ididictionary ... types.html (глаголни типове)

http://www.freeplace.info/ididictionary ... tives.html (прилагателни и съществителни типове)

Има и още типове, които липсват в двете таблици. Типовете плюс подтиповете в момента са 411 на брой, но реално основните са трийсетина. Останалите са редки и в много от тях има само по една-две думи, които се скланят/спрягат по нестандартен начин.

Има огромен списък с неща, които трябва да се имат предвид при добавянето на думи в съответните типове. Ще нахвърлям набързо някои от тях и ще ги публикувам тук малко по-късно.
Последната промяна е направена от dd на 3. Мнението е било променяно 3 пъти.
petrovich
Мнения: 762
Регистрация: 31 юли 2008, 14:20

Re: Речник на българския език

Мнение от petrovich »

Втори том (буква В) на „Речник на българския език“ е редактиран. :wink:
Аватар
Бам Бам
Мнения: 417
Регистрация: 29 октомври 2010, 17:36
Местонахождение: Папуа Нова Гвинея
Връзка:

Re: Речник на българския език

Мнение от Бам Бам »

Браво!
Гост

Re: Речник на българския език

Мнение от Гост »

Да питам:
1. Линковете малко по-горе не работят. Има ли някъде в мрежата таблиците на Боримир Кръстев? Как може да се установи видът на некласифицирана дума (освен проба-грешка)?
2. Как стои въпросът със синхронизирането на частите, които не се ползват с АП защита? Ако тук се установят грешки (на словоформи напр.), а има и други проекти, които ползват същата БД, могат ли поправките да бъдат пренесени там?
3. Едно време имаше обратни речници, които са полезни за някои случаи (вместо римен речник; на мен ми трябват думите, които завършват на -ий, с оглед правописните малформации). Нагло ли е да препоръчам доработване и на такъв модул на Речко?
Отговор

Обратно към

Кой е на линия

Потребители, разглеждащи форума: 0 гости