Каких слов не хватает в орфографическом словаре?

Автор Рыбка Рио, 15 июня 2010, 10:57

0 Пользователи и 1 гость просматривают эту тему.

PiVV

prof-alexТрио
Спасибо, но я имел в виду что-то типа этого, но для OOo.


Yakov


PiVV


Рыбка Рио

Цитата: Yakov от 17 июня 2010, 18:51Причина была в  том, что Hunspell не понимает файл аффиксов Ispell
После конвертации всё замечательно работает!!!  Подмигивающий
dict_ru_RU-rk-0.4.oxt (983.29 Кб - загружено 2 раз.)
Так что, давайте может этот словарь будем поставлять со сборкой? Но, кстати, в этом словаре 322147 строк (в обычном словаре порядка 140000 строк), т.е. видимо файл aff в dict_ru_RU-rk-0.4.oxt неоптимален. Наверное, это самая большая сложность, написать файл aff. Словарь dict_ru_RU-rk-0.4.oxt работает в 2 раза дольше (на том специаьном тестовом коде, который тут привели dr.Faust) (при том, что оба словаря - koi8-r).
ubuntu 12.04 + LibO3.6.0

PiVV

О, господи! Ну какой к чертям собачьим тестовый код? Три десятка слов для словаря в несколько миллионов - это тест? Я понимаю сравнить эффективность простого списка слов и его же, но с использованием аффикс-правил. И вообще, для теста необходимо использовать функцию проверки слова, которая просто проверяет есть такое слово в словаре или нет, но не пытается подбирать для неправильных слов подсказки-суггестии. Вот тогда это более-менее равное сравнение. Ну и тест-слова надо увеличить.

dr.Faust

Цитата: PiVV от 20 июня 2010, 18:31Три десятка слов для словаря в несколько миллионов - это тест?
А какая разница?
Цитата: PiVV от 20 июня 2010, 18:31И вообще, для теста необходимо использовать функцию проверки слова, которая просто проверяет есть такое слово в словаре или нет, но не пытается подбирать для неправильных слов подсказки-суггестии.
Почему? В реальности он же будет их подбирать. Смысл от теста в условиях которых не будет ни когда?
Цитата: PiVV от 20 июня 2010, 18:31Ну и тест-слова надо увеличить.
Дык увеличьте. Или дайте список - сам сделаю.
Свобода информации - свобода личности!

PiVV

ЦитироватьА какая разница?
Просто высказываю свои сомнения в правильности и эффективности.
ЦитироватьПочему? В реальности он же будет их подбирать. Смысл от теста в условиях которых не будет ни когда?
Ну если уж зашёл разговор о реальности, может тогда какую-нибудь "Войну и мир" взять (а вообще тот макрос можно переделать для проверки файла или текущего текста в редакторе?).

Yakov

Цитата: Трио от 20 июня 2010, 17:53
Так что, давайте может этот словарь будем поставлять со сборкой? Но, кстати, в этом словаре 322147 строк (в обычном словаре порядка 140000 строк), т.е. видимо файл aff в dict_ru_RU-rk-0.4.oxt неоптимален. Наверное, это самая большая сложность, написать файл aff. Словарь dict_ru_RU-rk-0.4.oxt работает в 2 раза дольше (на том специаьном тестовом коде, который тут привели dr.Faust) (при том, что оба словаря - koi8-r).
Этот словарь под лицензией GPL, а для сборки желательна лицензия LGPL.
И ещё один важный момент - этот словарь без буквы Ё (то есть слова, написанные через ё считаются ошибочными). А для сборки хотелось бы иметь словарь с Ё.
Я affix файл полностью переписал под стандарт Hunspell (а старый код ispell закомментировал).
Используется в нём 11 групп суффиксов. Так что написать affix файл не такая большая сложность, сложно сделать оптимальный affix - файл.
Для оптимизации словаря в affix файле можно ещё выделить приставки, тогда основной словарь будет меньше.

Рыбка Рио

Да, тут не только суффиксы и приставки, тут вообще приставки в шировком смысле слова, т.е., к примеру, слово
жи, плы
и производные:
живу, плыву, живущий, плывущий и т.д.
Это не те суффиксы и префиксы, просто приставки с основным формам, и не важно вначале они или в конце.

А по поводу тестового кода, достаточно рассмотреть два случая, 1) взять одно правильное слово, и 2) одно неправильное слово. 1) Правильное слово нужно искать за, к пример, 1000 проходов (т.к. одно слово ищется очень быстро, и скорость поиска зависит от количества букв), а 2) второе слово достаточно искать всего за 10-50 проходов. И сравнить. В тестовом коде время определяется только поиском неправильных слов. Скорее всего , время на поиск правильных слов (для этого нужно немного изменить массив проверяемых слов в коде) будет тоже не в пользу словаря с длинным списком слов в файле dic.
ubuntu 12.04 + LibO3.6.0

dr.Faust

Цитата: PiVV от 20 июня 2010, 20:20Ну если уж зашёл разговор о реальности, может тогда какую-нибудь "Войну и мир" взять (а вообще тот макрос можно переделать для проверки файла или текущего текста в редакторе?).
Влёгкую. Но тестировать надо бы на одном наборе слов...
Свобода информации - свобода личности!

Yakov

Цитата: Yakov от 17 июня 2010, 19:51
Цитата: Yakov от 15 июня 2010, 23:49
Могу предложить ещё один словарь http://sisyphus.ru/ru/srpm/Sisyphus/ispell-ru-rk.
Сборка для OpenOffice  переделана из формата ispell, распространяется под GPL v2.
После конвертации всё замечательно работает!!!  ;)
Разместил
http://extensions.services.openoffice.org/ru/project/Russian-rk-dictionary

Yakov

Цитата: Yakov от 21 июня 2010, 16:20
Разместил
http://extensions.services.openoffice.org/ru/project/Russian-rk-dictionary
В списке рассылки oo-discuss@
после публкации анонса
http://lists.openoffice.ru/pipermail/oo-discuss/2010-June/022831.html
развернулась дискуссия, почему в словаре нет буквы Ё.

Syzygy

Цитата: Yakov от 20 июня 2010, 21:09о есть слова, написанные через ё считаются ошибочными
Это конечно совершенно неправильно.
A Matter of Life and Death

Yakov

Цитата: Syzygy от 28 июня 2010, 10:27
Цитата: Yakov от 20 июня 2010, 21:09о есть слова, написанные через ё считаются ошибочными
Это конечно совершенно неправильно.
Меня это тоже не устраивает.