Форум поддержки пользователей. LibreOffice, Apache OpenOffice, OpenOffice.org

Форум поддержки пользователей. LibreOffice, Apache OpenOffice, OpenOffice.org

29 Май 2017, 14:33 *
Добро пожаловать, Гость. Пожалуйста, войдите или зарегистрируйтесь.
Вам не пришло письмо с кодом активации?

Войти
Новости: Доступно и просто о работе в офисных пакетах
 
   Начало   Помощь Поиск Войти Регистрация    задать вопрос  
Страниц: 1 2 3 4 »   Вниз
  Печать  
Автор Тема: Конвертация словаря в формат Hunspell  (Прочитано 35956 раз)
0 Пользователей и 1 Гость смотрят эту тему.
Yakov
Администратор
*
Offline Offline

Сообщений: 2 202


WWW
« Стартовое сообщение: 22 Апрель 2010, 10:38 »

Есть идея на основе русского словаря aot.ru создать словарь для hunspell.
http://seman.svn.sourceforge.net/viewvc/seman/trunk/Dicts/SrcMorph/RusSrc/
При конвертации в формат  hunspell возникла проблема:
внутреннее устройство словаря aot.tu содержит таблицу из набора
около 2700 видов суфиксов.
Попробовал использовать при создании словаря флаг Num для
использования цифровых суффиксов - но словарь hunspell получился нерабочим   Плачущий
Есть ли дополнительная документация по созданию словаря hunspell,
кроме этого:
http://www.mozilla-russia.org/projects/dictionary/hunspell.html
« Последнее редактирование: 22 Апрель 2010, 11:12 от Yakov » Записан

Yakov
Администратор
*
Offline Offline

Сообщений: 2 202


WWW
« Ответ #1: 22 Апрель 2010, 10:57 »

Сконвертированный словарь aot.ru в формат fsa  уже используется в расширеннии для проверки грамматики LanguageTool. Поэтому, желательно иметь и орфографический словарь с тем же набором слов.
Записан

Yakov
Администратор
*
Offline Offline

Сообщений: 2 202


WWW
« Ответ #2: 4 Июль 2010, 22:41 »

Тестовая версия заработала, но файл аффиксов по размеру получился соизмерим с размером словаря.
Поэтому загрузка в память  Hunspell словаря длится на моём компьютере около 50 секунд.

То есть для использования с Hunspell (и OpenOffice) требуется преобразование структуры словаря.
Записан

PiVV
Гость
« Ответ #3: 4 Июль 2010, 23:19 »

Цитата:
Попробовал использовать при создании словаря флаг Num для
использования цифровых суффиксов - но словарь hunspell получился нерабочим
Странно, мой "домашний" словарь изначально именно с нумерованными правилами создавался и прекрасно работает. Правда я всё ещё сижу на 2.4.2 потому что там можно просто подменить файлы словаря своими.
Цитата:
но файл аффиксов по размеру получился соизмерим с размером словаря.
А чего ж это так правила раздуло. Мои неоптимизированные (правда пока без приставок) примерно в 30 раз меньше чем словарь. С учётом того, что словарь ещё будет пополняться, а правила практически нет соотношение должно возрасти.
Цитата:
Поэтому загрузка в память  Hunspell словаря длится на моём компьютере около 50 секунд.
А как это можно проверить, например с моим словарём? Я-то по большей части в Firefox проверяю и собираю новые слова.
Записан
Syzygy
Ветеран
*****
Offline Offline

Пол: Мужской
Расположение: Подмосковье
Сообщений: 1 522


WWW
« Ответ #4: 5 Июль 2010, 08:33 »

Есть идея на основе русского словаря aot.ru создать словарь для hunspell.
У меня вопрос - собственно, что это даст? Каковы ввыгоды?
Записан

A Matter of Life and Death
Yakov
Администратор
*
Offline Offline

Сообщений: 2 202


WWW
« Ответ #5: 5 Июль 2010, 09:01 »

Есть идея на основе русского словаря aot.ru создать словарь для hunspell.
У меня вопрос - собственно, что это даст? Каковы ввыгоды?
Лицензия словаря - LGPL
И словарная база для проверки орфографии будет совпадать
со словарём, который используется для проверки грамматики.
+этот словарь основывается на академическом словаре А.А.Зализняка с дополнениями и переработкой рабочей группой aot.ru, то есть обладает хорошим качеством.
Записан

Yakov
Администратор
*
Offline Offline

Сообщений: 2 202


WWW
« Ответ #6: 5 Июль 2010, 09:09 »

А чего ж это так правила раздуло. Мои неоптимизированные (правда пока без приставок) примерно в 30 раз меньше чем словарь. С учётом того, что словарь ещё будет пополняться, а правила практически нет соотношение должно возрасти.
Это из-за слов,написанных через дефис.
Наверное, правильным решением будет удалить аффиксы для слов с дефисным написанием и включить эти слова
обычным списком.

А как это можно проверить, например с моим словарём? Я-то по большей части в Firefox проверяю и собираю новые слова.
У меня словарь http://extensions.services.openoffice.org/ru/node/4120 грузится за 3 секунды,
там файл аффиксов значительно меньше (12 аффиксов вместо 2650)
И памяти Hunspell для него потребляет в 2 раза меньше...
Записан

PiVV
Гость
« Ответ #7: 5 Июль 2010, 18:14 »

Цитата:
Это из-за слов,написанных через дефис.
Слова с дефисами я предполагаю делать через COMPOUNDRULE, но пока просто списком включаю.
Цитата:
У меня словарь http://extensions.services.openoffice.org/ru/node/4120 грузится за 3 секунды
Можно подробнее описать, как вы определяете время загрузки. Или вообще используется не OOo?
Цитата:
И памяти Hunspell для него потребляет в 2 раза меньше
Я думаю потребляемая память всё равно зависит от количества строк в dic-файле и первого числа, указанного в нём. Больше число - больше памяти под хэш, быстрее поиск. Меньше число - меньше памяти под хэш, медленнее поиск.
Записан
Yakov
Администратор
*
Offline Offline

Сообщений: 2 202


WWW
« Ответ #8: 5 Июль 2010, 19:04 »

Цитата:
У меня словарь http://extensions.services.openoffice.org/ru/node/4120 грузится за 3 секунды
Можно подробнее описать, как вы определяете время загрузки. Или вообще используется не OOo?
Время от запуска
Hunspell -d dic_name
до перехода Hunspell в интерактивный режим
В случае OOo задержка наблюдается после ввода первого слова во Writer.


Цитата:
И памяти Hunspell для него потребляет в 2 раза меньше
Я думаю потребляемая память всё равно зависит от количества строк в dic-файле и первого числа, указанного в нём. Больше число - больше памяти под хэш, быстрее поиск. Меньше число - меньше памяти под хэш, медленнее поиск.
И от этого то же зависит,
но насколько я понял из экспериментов от размера файла аффиксов зависит время первоначальной загрузки
спеллчекера, а от размера словаря - время проверки текста.
Записан

Yakov
Администратор
*
Offline Offline

Сообщений: 2 202


WWW
« Ответ #9: 11 Июль 2010, 14:19 »

но файл аффиксов по размеру получился соизмерим с размером словаря.
А чего ж это так правила раздуло. Мои неоптимизированные (правда пока без приставок) примерно в 30 раз меньше чем словарь. С учётом того, что словарь ещё будет пополняться, а правила практически нет соотношение должно возрасти.
Есть идея написать файл аффиксов "с нуля", а не брать за основу предложенный в оригинальном словаре. Ну и в файл *.dic включить полную форму слова. (в оригинальном словаре 2 таблицы: для основ слов и для окончаний)
Тогда количество аффиксов будет небольшим.
Записан

Yakov
Администратор
*
Offline Offline

Сообщений: 2 202


WWW
« Ответ #10: 14 Июль 2010, 08:14 »

Есть идея написать файл аффиксов "с нуля", а не брать за основу предложенный в оригинальном словаре. Ну и в файл *.dic включить полную форму слова. (в оригинальном словаре 2 таблицы: для основ слов и для окончаний)
Тогда количество аффиксов будет небольшим.
Получившийся словарь загружается быстро (=1сек), размер словаря в виде расширения OOo около 750 кб. Но возникла проблема с описанием файла аффиксов (получается очень много неопознанных слов). В основной словарь необходимо
включить для существительных ещё и форму слова во множественном числе (в пробной версии в DIC файле слова представлены только в одной форме, преобразования должны были происходить с помощью аффиксов).
« Последнее редактирование: 14 Июль 2010, 08:16 от Yakov » Записан

Yakov
Администратор
*
Offline Offline

Сообщений: 2 202


WWW
« Ответ #11: 14 Декабрь 2010, 00:16 »

Собрана тестовая версия словаря, которая имеет приемлемое быстродействие.
Файл аффиксов сгенерирован с помощью программы affixcompress из состава hunspell.
http://myooo.ru/usercontent/extentions/dict_ru_RU-AOT-0.1.1.oxt
Записан

Yakov
Администратор
*
Offline Offline

Сообщений: 2 202


WWW
« Ответ #12: 3 Сентябрь 2011, 21:42 »

Собрана ещё одна версия словаря - dict_ru_RU-AOT-0.2.1!
В этой версии используются оригинальные наборы для групп аффиксов, какими они заданы в оригинальном словаре.
Для обеспечения приемлемого объёма и высокого быстродействия были исключены редко используемые аффиксы, и слова, их использующие,
включены в словарь во всех формах.

[вложение удалено Администратором]
Записан

ape
Ветеран
*****
Offline Offline

Сообщений: 2 411


« Ответ #13: 4 Сентябрь 2011, 15:29 »

Установил в master~2011-09-02_14.25.52_LibO-Dev_OOO350m1_Win_x86 - работает без проблем.
Используется ли этот словарь при проверке орфографии (LightProof-0.2b_ru)?
Записан
Yakov
Администратор
*
Offline Offline

Сообщений: 2 202


WWW
« Ответ #14: 4 Сентябрь 2011, 17:07 »

Используется ли этот словарь при проверке орфографии  грамматики (LightProof-0.2b_ru)?
LightProof -ru на настоящий момент не использует орфографический словарь
В разрабатываемой версии LanguageTool -1.5-dev выполнено обновление встроенного словаря для русского языка (используется формат fsa),
так что теперь словари в LanguageTool -1.5 и dict_ru_RU-AOT-0.2.1 будут  почти идентичными
http://forumooo.ru/index.php/topic,391.msg13576.html#msg13576
« Последнее редактирование: 4 Сентябрь 2011, 17:14 от Yakov » Записан

Страниц: 1 2 3 4 »   Вверх
  Печать  
 
Перейти в:  

Powered by MySQL Powered by PHP Powered by SMF 1.1.21 | SMF © 2006-2009, Simple Machines Valid XHTML 1.0! Valid CSS!