Речник на българския език
Правила
Уважавайте другите участници и се отнасяйте с тях така, както бихте желали те да се отнасят с вас!
Уважавайте другите участници и се отнасяйте с тях така, както бихте желали те да се отнасят с вас!
Речник на българския език
Представям ви един нов проект: Речник на българския език.
Словоформената база е изградена с помощта на IDI Spell Checker.
Възможно е влизането с OpenID, което на пръв поглед изглежда безполезно, защото регистрираните потребители нямат никакви допълнителни права. По-нататък ще им дам възможност да предлагат промени в данните, които ще трябва да се одобряват.
В момента един потребител може да се сдобие с пълни редакторски права само ако се свърже с мен и си поиска такива.
Словоформената база е изградена с помощта на IDI Spell Checker.
Възможно е влизането с OpenID, което на пръв поглед изглежда безполезно, защото регистрираните потребители нямат никакви допълнителни права. По-нататък ще им дам възможност да предлагат промени в данните, които ще трябва да се одобряват.
В момента един потребител може да се сдобие с пълни редакторски права само ако се свърже с мен и си поиска такива.
- SecondShoe
- Мнения: 421
- Регистрация: 16 август 2006, 04:55
Добре ще е да има някакъв помощен модул където да се обясни каква е целта на сайта, как се работи с него, как може да се допринася с нещо към съдържанието и др. ЧЗВ.
Като за начало, ето какво е Open ID:
Като за начало, ето какво е Open ID:
OpenID е нов начин да се идентифицирате навсякъде в уеб пространството. С вашия личен OpenID, Вие можете да се логнете във всеки сайт поддържащ OpenID (вече има около 1000 такива и броя им расте с всеки изминал ден) и да се идентифицирате като себе си.
Това е едно потребителско име и една парола за всички страници, в които ще отидете. Означава край на прозорците с регистрация в страниците, които посещавате. Най-важното, OpenID е отворено; то е протокол, който е разработен от различни общности, заинтригувани в решението на проблема с идентичността веднъж за винаги. Вие можете да го използвате във всеки сайт, който е с разрешен OpenID, както и да имате такъв акаунт. Това премахва редовете, където искате да имате акаунт и въпросът, който ви бива задаван се променя от „Имате ли акаунт“ на „Разрешен ли е OpenID на този сайт?“
Източник
Влагам изключително много труд да чистя IDI базата от грешки и предполагам, че са останали не повече от стотина (при 1.2M словоформи това никак не е зле).Борислав написа:На първо време целта е изчистване на грешките в базата и запълването й с нови думи и значения.
Ето примерни грешки, каквито ако срещнете в базата, може да съобщавате:
1. Правописни грешки.
— "музикхол" вместо "мюзикхол".
2. Думи, поставени в тип за друга част на речта.
— "марципан" е съществително, поставено в прилагателен тип, поради което се генерират куп неправилни форми, напр. "марципания", "марципаната".
3. Думи, поставени в грешен тип за същата част на речта.
— "малоазиец" — съществително, поставено в грешен съществителен тип, което генерира "малоазици", вместо "малоазийци".
— "запъхтян" — променливо "я", правилно е "запъхтени", не "запъхтяни", тоест поставена е в грешен тип.
— "ханджийка" — думата има звателна форма "ханджийке", но е поставена в тип без звателна форма.
— "напичам" — глагол от несвършен вид, поставен в свършен тип, поради което се генерират по-малко форми от необходимото (липсват сег.деят.прич. "напичащ" и деепричастие "напичайки").
— "грухам" — преходен глагол, поставен в непреходен тип, при което не се генерират формите за мин.страд.прич. (липсват "грухан", "грухано" и пр., напр. "грухана пшеница")
4. Липсващ тип — думи, които не могат да се поставят в никой от съществуващите типове, затова са поставени в най-близкия тип, което е грешно.
— възвратни глаголи, напр. "сърби ме" е добавен като невъзвратен "аз сърбя", което генерира неправилни (мъртви) форми като "ти сърбиш", "вие сърбихте".
— глаголи, предполагащи множествено число на извършителя или единствено число на събирателни съществителни, не се използват в 1л. ед.ч. (няма "аз наслизам", "аз наизскачам" (въпреки че това са формите, с които се листват в речниците), има "те наизскачаха" или "народът наизскача").
Естествено, вероятността потребител да забележи и съобщи подобни грешки не е много голяма, затова Борислав при желание може да следи кога качвам нови версии (2-3 пъти месечно) и да ъпдейтва базата.
- SecondShoe
- Мнения: 421
- Регистрация: 16 август 2006, 04:55
Български тълковен речник 1976г.
Сканирах и разпознах Български тълковен речник (трето издание) от 1976г. на издателство "Наука и изкуство".
1. Връзка към качените снимки под формата на архив: тук
2. Речника след разпознаването (в няколко текстови формата, препоръчвам да използвате .rtf формата). цък
2.1. снимките обработени със Scan Tailor
Забележка: Няма да качвам текста разпознат от снимките, които са обработени със Scan Tailor, тъй като има много грешки, които не се наблюдават при разпознатия текст (без обработка на снимките).
3. Направих запитване към БАН (Българска академия на науките) относно това дали е възможно да ни предоставят електронен вариант на "Речник на българския език". Ето и писмото:
Както се досещате все още няма отговор от тях, но се надявам да получа такъв. Ако до 1 месец не отговорят ще се наложи да преминем към другия вариант --> снимане/сканиране на всички томове (засега са 12 издадени) и съответното им разпознаване.
1. Връзка към качените снимки под формата на архив: тук
2. Речника след разпознаването (в няколко текстови формата, препоръчвам да използвате .rtf формата). цък
2.1. снимките обработени със Scan Tailor
Забележка: Няма да качвам текста разпознат от снимките, които са обработени със Scan Tailor, тъй като има много грешки, които не се наблюдават при разпознатия текст (без обработка на снимките).
3. Направих запитване към БАН (Българска академия на науките) относно това дали е възможно да ни предоставят електронен вариант на "Речник на българския език". Ето и писмото:
(пратено на 24.03.2010)Здравейте,
Аз съм потребител занимаващ се с развитието на сайта chitanka.info в частност rechnik.chitanka.info и ви пиша, тъй като от известно време аз и екипа се занимаваме с обогатяването на базата данни с думи. Искам да ви попитам дали е възможно да ни изпратите томовете на "Речник на българския език" в електронен вариант?
Поздрави!
Както се досещате все още няма отговор от тях, но се надявам да получа такъв. Ако до 1 месец не отговорят ще се наложи да преминем към другия вариант --> снимане/сканиране на всички томове (засега са 12 издадени) и съответното им разпознаване.
Последната и единствена промяна е направена от petrovich на 04 април 2010, 09:32.
Да, грешката е възникнала, защото съм сменил името във фотоапарата, но не и на компютъра. Ето тук можеш да изтеглиш снимката.Гост написа:petrovich, би ли качил само страница 161. Вместо нея има копие на страница 555 (IMG_6468.jpg), което е по-добро от другото, което е размазано. Вероятно при повторното снимане на 555 си припокрил 161 без да искаш.
P.S. И моля те регистрирай се във форума, за да виждам все пак на кой пиша
Последната и единствена промяна е направена от petrovich на 06 ноември 2010, 18:59.
Има ново развитие на ситуацията. Свързах се с г-жа Стефка Караколева, която ми написа следното писмо:
От горната връзка се разбира, че думите са написани, но се
Та моето предложение е да се свържем с маг.инж. Румяна В. Станкова и да предложим директно да използва "Речко" за нейния проект.
Успях от по-горната връзка да видя следната връзка цъкЗдравейте!
Изпращам Ви линк към един речник, който дълги години създава една моя позната и колежка Румяна Станкова. Не Ви писах преди за него, защото исках първо да и пиша мейл и да я попитам докъде е стигнала работата по речника и естетствено да се съгласи да изпратя този линк. Тук са публикувани няколко букви от него. Той е много голям-една буква е около 1000 страници.
http://www.bvu-bg.eu/nmvb/index.php?Clip=vlibdrugi
ИНТЕРАКТИВЕН МУЛТИДИСЦИПЛИНАРЕН АНГЛИЙСКО-БЪЛГАРСКИ РЕЧНИК - букви: A B C D
Поздрави,
_____________________________________
Stefka Romanova Karakoleva
От горната връзка се разбира, че думите са написани, но се
Търси издател, който да разработи Web страница и search engine (търсеща машина) за публикуване на целия речник в Интернет.
Та моето предложение е да се свържем с маг.инж. Румяна В. Станкова и да предложим директно да използва "Речко" за нейния проект.
Добавянето на двуезични речници към Речко е един от следващите етапи на развитието му. Най-вероятно всеки от тях ще представлява отделен раздел на сайта — влизаш в него и търсиш в рамките на един-единствен речник, напр. английско-български.petrovich написа:... Та моето предложение е да се свържем с маг.инж. Румяна В. Станкова и да предложим директно да използва "Речко" за нейния проект.
Предлагам ти да се свържеш с г-жа Станкова и да я попиташ какво точно е нейното желание.
Изпратих писмо и до "Български национален корпус" ([email protected],
[email protected]). Ето и съобщението:
[email protected]). Ето и съобщението:
Да се надяваме, че все отнякъде ще получим помощЗдравейте,
Аз съм потребител занимаващ се с развитието на сайта chitanka.info в частност rechnik.chitanka.info и ви пиша, тъй като от известно време аз и екипа се занимаваме с обогатяването на базата данни с думи. Искам да ви попитам дали е възможно да ни изпратите под формата на текстов файл вашата база данни от думи?
Поздрави!
Свързах се с маг.инж. Румяна В. Станкова и написах следното:
Поне оттук ще има отговорЗдравейте,
Аз съм потребител занимаващ се с развитието на сайта chitanka.info в частност rechnik.chitanka.info и ви пиша, тъй като от известно време аз и екипа се занимаваме с обогатяването на базата данни с думи. Искам да ви попитам дали желаете да реализираме вашия труд (базата данни от думи) посредством нашия проект?
Поздрави!
Получих следното писмо от екипа на "Речник на българсия език" (човек направо да не повярва):
Сабина Павлова съм. Секретар на Речник на българския език. Препратиха ми вашето питане. Том 13 (последният отпечатан: поен-прелестно) на пазара е 43 лева. В института се продава с отстъпка и е 34 лв. Предходните томове са по 20 лв. с отстъпка при нас.
С. Павлова
Аз и написах следното:
Превод: Г-н Петров,G-n Petrov,
Sabina Pavlova sam. Sekretar na Rechnik na bulgarskija ezik. Prepratiha mi vasheto piatane.
Tom 13 (poslednijat otpechatan: poen-prelestno) na pazara e 43 leva. V Instituta se prodava s otstapka i e 34 leva. Predhodnite tomove sa po 20 leva s ottapkata pri nas.
S. pavlova
Сабина Павлова съм. Секретар на Речник на българския език. Препратиха ми вашето питане. Том 13 (последният отпечатан: поен-прелестно) на пазара е 43 лева. В института се продава с отстъпка и е 34 лв. Предходните томове са по 20 лв. с отстъпка при нас.
С. Павлова
Аз и написах следното:
Ще ви държа в течение...Благодаря за информацията. Предварително съм се запознал със цените на томовете в книжен вариант.
Но моето запитване е следното: Имате ли досега издадените томове в електронен вариант?
Последната и единствена промяна е направена от petrovich на 12 април 2010, 19:08.
Ето и отговора от госпожа Сабина/Събина Павлова:
Ето и моя отговор:
Само да допълня, че отпечатването на последния том е планувано за 2020 (аз не знам дали дотогава ще съм жив ).Не, нямаме. Това е изискването на издателите. Ние работи върху електронна версия, която се надяваме да се пусне, когато отпечатаме и последния том.
Ето и моя отговор:
Поне вече знаем какво да правим. След като ми свършат изпитите (края на юни)започвам да купувам том по том и съответно започва снимаме, разпознаване, редактиране... Те могат да направят речниците към 2020 г., но аз мисля ние да го направим до 2012 г. (може и по-рано). Значи за момента са издадени 13 тома като очакваме отговора на г-жа Павлова, за да разберем останалите кога ще бъдат издадени .Благодаря за отговора! Възможно ли е да ми кажете някакви срокове, в които ще бъдат завършени томовете (имам предвид за всеки том поотделно), тъй като на сайтът ви виждам само обща дата за всичките томове. Мерси!
Г-жа Сабина Павлова:
Ето и моя отговор:
Това писмо обяснява много неща. С една дума (нищо лошо) ще се надяваме някаква висша сила да забърза нещата.Не бих искала да се ангажирам с такива срокове. Има няколко извънинституски причини, които не ми дават възможност за конкретни прогнози.
А Вие какво работите или с какво се занимавате, та проявявате интерес към речника? Не са много хората, които проявяват индивидуален интерес към това дело. По маркетингови проучвания около 800 са частните потребители.
Ето и моя отговор:
Писмото пратено от мен до [email protected] може да ви даде отговор на вашия въпрос:
Това е причината поради, която ви задавах тези въпроси. Още веднъж благодаря за отделеното време!Здравейте,
Аз съм потребител занимаващ се с развитието на сайта chitanka.info в частност rechnik.chitanka.info и ви пиша, тъй като от известно време аз и екипа се занимаваме с обогатяването на базата данни с думи. Искам да ви попитам дали е възможно да ни изпратите томовете на "Речник на българския език" в електронен вариант?
Поздрави!
Отговорът от г-жа Павлова:
Ето и моят:За съжаление не можем да Ви предоставим електронен варинат. На електронен носител са томовете 9-13 (б. М-П, първа част) и преизданието т. 1-3. Правим успоредно с новите томове с преиздание на т. 1-8., тъй като са изчерпани, а и са отпечатани преди промяната. Така че вече можем да обновим някои дефиниции и да включим утвърдените нови значениия и думи в последните 20-ина години при преиздаването, а не само да набавим тираж от първите осем тома. Всъщност, щом сте били в сайта на речника, знаете всичко това. Не съм го поглеждала тъй като от октовмри до 1 април бях толкова заета и презаета с речникови задачки, че се чудя как оцелях. Сега се връщам към всекидневието си и ще отворя инфото ни.
Но мисля, че щом става дума за словно обогатяване на този сайт, който поддържате rechnik.chitanka.info би Ви бил полезен Националния корпус на българския език. В сайта на Института за български език ще намерите как да влезнете и да ползвате този корпус. Направихме го в края на 2009 г. - по модела на другите национални корпуси из Европа.
Ще мисля с какво бихме могли да сме Ви реално полезни.
Хубава вечер!
Сабина
Очевидно от нейния отговор се разбира (поне за мен), че г-жа Павлова не желае повече да се занимава с нас. БАН е институция, която няма желание и сигурно няма и да има в близкото бъдеще, да се променя. Ироничното в тази ситуация, че името БАН много напомня на ban...Отново благодаря за информацията. Относно Националния корпус - предварително го бях разгледал, но никъде не видях възможността да бъде свален под каквато и да е форма (даже напротив пишеше изрично, че не е достъпен). Смятам, че като всяка нормална европейска държава (особено когато става въпрос за развитието на родния език) трябва такъв род ресурси да бъдат общодостъпни не само за разглеждане, а и за тяхното развитие. Тъй като БАН е държавна институция, а държавата е създадена, за да служи на народа е напълно нормално информацията да бъде достъпна под каквато и да било форма. Склонен съм ако предложите вариант за предоставяне на информацията (досега качените речници) в електронен вариант да заплатя сумата (по банков път, на място, няма значение) определена от вас. Разберете, че независимо дали ни предоставите информацията в електронен вариант или не, всички досега издадени речници ще бъдат сканирани, разпознати, редактирани и качени съответно в електронен вариант. Но според мен е много по-удачно заедно с вас да развием това богатство. От името на екипа на chitanka.info (в частност мен) Ви предлагам нашата помощ за цифровизирането на речника без каквото и да е заплащане в замяна на нашия труд. Очаквам вашия отговор!
Днес обикалях няколко часа, за да разбера откъде могат да се закупят речниците. Има три основни библиотеки на БАН — едната се намира на бул. Шипченски проход 52 тук, другата на ул. Сердика 4 тук и третата на 15-ти ноември тук.
В момента има налични 3, 9, 10, 13 том. Аз успях да купя последния 2 том за 35 лв. Скоро ще купя и останалите. Никой за момента не може да ми каже (включително и хората от БАН) кога ще бъдат преиздадени изчерпаните. Очакват се в близките месеци да се издадат един по един 4, 5, 6, 7, 8, но кога ще стане това никой не знае. Видях и старите издания, но за съжаление качеството на хартията е толкова ниско, че е изключено правилното им разпознаване независимо от това, че могат да се сканират перфектно. Жената от книжарницата на бул. Шипченски проход ми обясни, че съставителите си издават томовете където решат и обикновенно никога няма достатъчно бройки. Жената на ул. Сердика 4 ми обеща да се обади след като проучи какво е останало по складовете. Имам няколко варианта 1, 11 том да се купят от интернет книжарница, така че ми се струва възможно събирането на всички издадени досега томове. Който има идеи да пише.
В момента има налични 3, 9, 10, 13 том. Аз успях да купя последния 2 том за 35 лв. Скоро ще купя и останалите. Никой за момента не може да ми каже (включително и хората от БАН) кога ще бъдат преиздадени изчерпаните. Очакват се в близките месеци да се издадат един по един 4, 5, 6, 7, 8, но кога ще стане това никой не знае. Видях и старите издания, но за съжаление качеството на хартията е толкова ниско, че е изключено правилното им разпознаване независимо от това, че могат да се сканират перфектно. Жената от книжарницата на бул. Шипченски проход ми обясни, че съставителите си издават томовете където решат и обикновенно никога няма достатъчно бройки. Жената на ул. Сердика 4 ми обеща да се обади след като проучи какво е останало по складовете. Имам няколко варианта 1, 11 том да се купят от интернет книжарница, така че ми се струва възможно събирането на всички издадени досега томове. Който има идеи да пише.
В този коментар ще отбелязвам прогреса на обработка на „Речник на българския език”:
Том | Буква(и) | Статус | Брой страници | Година на издаване | Брой думи |
---|---|---|---|---|---|
1 | А—Б | Купен, сканиран | 1080 | 2001 | 10 598 |
2 | В | Купен, сканиран | 768 | 2002 | 6206 |
3 | Г—Д | Купен, сканиран | 805 | 2007 | 6501 |
4 | Деятелен—Е | Купен, сканиран | 974 | 2012 | 7928 |
5 | Е—Ж | Чака да бъде преиздаден | 1029 (първо издание) | чака | 9455 (първо издание) |
6 | И—Й | Чака да бъде преиздаден | 963 (първо издание) | чака | 9307 (първо издание) |
7 | К | Чака да бъде преиздаден | 768 (първо издание) | чака | 6652 (първо издание) |
8 | К—Л | Купен, сканиран, чака да бъде преиздаден (ново издание) | 864 (първо издание) | 1995, чака | 6191 (първо издание) |
9 | М | Купен, сканиран | 880 | 1998 | 6881 |
10 | Н | Купен, сканиран | 1267 | 2000 | 9722 |
11 | О | Купен, сканиран | 1243 | 2002 | 9678 |
12 | П-поемка | Купен, сканиран | 1074 | 2004 | 7887 |
13 | поен-прелестно | Купен, сканиран | 1224 | 2009 | 8995 |
14 | прелет-пясъчножълт | Купен, сканиран | 1224 | 2012 | 6685 |
Последната промяна е направена от petrovich на 5. Мнението е било променяно 5 пъти.
Току-що минах през чата. @petrovich си е пожелал описание на типовете, за да може по-лесно да добавя думи. Има подобно описание, въпреки че не е най-подробно:
http://www.freeplace.info/ididictionary ... types.html (глаголни типове)
http://www.freeplace.info/ididictionary ... tives.html (прилагателни и съществителни типове)
Има и още типове, които липсват в двете таблици. Типовете плюс подтиповете в момента са 411 на брой, но реално основните са трийсетина. Останалите са редки и в много от тях има само по една-две думи, които се скланят/спрягат по нестандартен начин.
Има огромен списък с неща, които трябва да се имат предвид при добавянето на думи в съответните типове. Ще нахвърлям набързо някои от тях и ще ги публикувам тук малко по-късно.
http://www.freeplace.info/ididictionary ... types.html (глаголни типове)
http://www.freeplace.info/ididictionary ... tives.html (прилагателни и съществителни типове)
Има и още типове, които липсват в двете таблици. Типовете плюс подтиповете в момента са 411 на брой, но реално основните са трийсетина. Останалите са редки и в много от тях има само по една-две думи, които се скланят/спрягат по нестандартен начин.
Има огромен списък с неща, които трябва да се имат предвид при добавянето на думи в съответните типове. Ще нахвърлям набързо някои от тях и ще ги публикувам тук малко по-късно.
Последната промяна е направена от dd на 3. Мнението е било променяно 3 пъти.
Re: Речник на българския език
Втори том (буква В) на „Речник на българския език“ е редактиран.
Re: Речник на българския език
Да питам:
1. Линковете малко по-горе не работят. Има ли някъде в мрежата таблиците на Боримир Кръстев? Как може да се установи видът на некласифицирана дума (освен проба-грешка)?
2. Как стои въпросът със синхронизирането на частите, които не се ползват с АП защита? Ако тук се установят грешки (на словоформи напр.), а има и други проекти, които ползват същата БД, могат ли поправките да бъдат пренесени там?
3. Едно време имаше обратни речници, които са полезни за някои случаи (вместо римен речник; на мен ми трябват думите, които завършват на -ий, с оглед правописните малформации). Нагло ли е да препоръчам доработване и на такъв модул на Речко?
1. Линковете малко по-горе не работят. Има ли някъде в мрежата таблиците на Боримир Кръстев? Как може да се установи видът на некласифицирана дума (освен проба-грешка)?
2. Как стои въпросът със синхронизирането на частите, които не се ползват с АП защита? Ако тук се установят грешки (на словоформи напр.), а има и други проекти, които ползват същата БД, могат ли поправките да бъдат пренесени там?
3. Едно време имаше обратни речници, които са полезни за някои случаи (вместо римен речник; на мен ми трябват думите, които завършват на -ий, с оглед правописните малформации). Нагло ли е да препоръчам доработване и на такъв модул на Речко?
Кой е на линия
Потребители, разглеждащи форума: един гост