Создание словаря Hunspell

Автор dziglo, 8 июля 2022, 20:52

0 Пользователи и 1 гость просматривают эту тему.

dziglo

Доброго вечера.

Есть ли у кого-нибудь из посетителей форума опыт создания словаря в формате Hunspell?
Хотел бы проконсультироваться. Трудно дается инструкция к этому формату.

И еще вопрос — есть ли утилиты, программки, облегчающие создание словаря Hunspell?

gabix

Попробуйте сформулировать более конкретные вопросы.

sokol92

Цитата: dziglo от  8 июля 2022, 20:52Есть ли у кого-нибудь из посетителей форума опыт создания словаря в формате Hunspell?
На форуме есть соответствующая тема.
Владимир.

dziglo

Цитата: gabix от 10 июля 2022, 20:27Попробуйте сформулировать более конкретные вопросы.

Я могу задать здесь, но они касаются конкретно этого формата, думал, уместнее в личке (форум же не совсем, а точнее совсем не Hunspell'овский ))
За «соответствующую тему» спасибо. Ее создателю Yakov'у написал в личку, пока не ответил.

А вопросы например, такие:

1) как в соответствующем файле Hunspell прописать возможность использования апострофов.
То есть есть слова (беру просто русские слова для примера; а так язык будет другой): абордаж, инструкция, оповещение. И в некоторых случаях они будут писаться так: 'бордаж, 'нструкция, 'повещение. Как это реализовать? Не прописывать же в dic-файле все возможные слова еще и с апострофом.

2) как прописывается возможность использования слов с дефисами: пришел-таки, иди-ка и т.д.

3) есть ли утилиты/программки для удобной работы с Hunspell, или все нужно делать, грубо говоря, руками в Блокноте?

gabix

2) А зачем? Включаем в словарь «пришёл» и «таки», и в этом случае «пришёл-таки» не будет распознаваться как ошибка. Если же одна из частей не является самостоятельным словом, так и прописывать: «таможенно-тарифный/A» и т.п. Теоретически есть, вроде, какие-то флаги для присоединения всяких там клитик, но я не заморачиваюсь.
3) А какое удобство нужно? Формат-то просто текстовый. Разумеется, есть сам Hunspell.

dziglo

Цитата: gabix от 12 июля 2022, 16:17
2) А зачем? Включаем в словарь «пришёл» и «таки», и в этом случае «пришёл-таки» не будет распознаваться как ошибка. Если же одна из частей не является самостоятельным словом, так и прописывать: «таможенно-тарифный/A» и т.п. Теоретически есть, вроде, какие-то флаги для присоединения всяких там клитик, но я не заморачиваюсь.
3) А какое удобство нужно? Формат-то просто текстовый. Разумеется, есть сам Hunspell.

2) А как быть с такими частицами как «-ка»? Дай-ка, иди-ка. Самостоятельно «-ка» не применяется, не прописывать же все возможные варианты с «-ка».
3) Малопонятные теги там. Была бы программа с дружественным интерфейсом.
«Разумеется, есть сам Hunspell»
Как понять? :-) Это же вроде просто формат, или (утрированно говоря) язык разметки вроде HTML. Это же не программа?

gabix

> Самостоятельно «-ка» не применяется

Ну и ладно. Всё равно вписываем её в словарь и радуемся жизни.

> Малопонятные теги там

Тэги? Откуда?

> Это же не программа?

Таки программа. Точнее, библиотека и кой-какие утилиты: https://sourceforge.net/projects/hunspell/

mikekaganski

С уважением,
Михаил Каганский

dziglo

Цитата: mikekaganski от 13 июля 2022, 09:58
Цитата: gabix от 13 июля 2022, 09:26https://sourceforge.net/projects/hunspell/

Точнее, http://hunspell.github.io/ (Ласло перенёс это на гитхаб давным-давно).

А где по ссылке утилиты? Как в этом разобраться? )

mikekaganski

Исходники каких-то утилит есть в https://github.com/hunspell/hunspell/tree/master/src/tools - но для них нет документации (типа той, что есть для hunspell(5) и которая лежит здесь). В shell-скриптах (типа affixcompress, makealias) можно почитать использование прямо в коде. Но кмк, все эти утилиты не слишком полезны для эффективной разработки словарей, они решают какие-то специальные задачи.
С уважением,
Михаил Каганский

Yakov

#10
Посмотрите и эту инструкцию на случай, если слова для словаря находятся в одном файле:
http://wiki.forumooo.ru/wiki/Hunspell_Dict

dziglo

Цитата: Yakov от 13 июля 2022, 14:24
Посмотрите и эту инструкцию на случай, если слова для словаря находятся в одном файле:
http://wiki.forumooo.ru/wiki/Hunspell_Dict


А с апострофами подскажите?

Yakov

#12
Цитата: dziglo от 12 июля 2022, 13:113) есть ли утилиты/программки для удобной работы с Hunspell, или все нужно делать, грубо говоря, руками в Блокноте?
Одним из разработчиков словаря en-GB для hunspell была создана утилита https://proofingtoolgui.org/ , которую он использует при разработке словаря en-GB. Но
Proofingtoolgui работает только со словарями в кодировке UTF-8.

Yakov

#13
Цитата: dziglo от 12 июля 2022, 13:11Не прописывать же в dic-файле все возможные слова еще и с апострофом.
Создать префиксы(приставки). Для этого есть специальный флаг префикса - PFX. Его использование полностью аналогично использованию суффиксов - SFX.

Возможно, придется ещё использовать флаг WORDCHARS для указания hunspell, какие нестандартные символы (например апостроф, дефис) могут использоваться в составе слова.

dziglo

Спасибо.
А что означает вот это?
TRY esianrtolcdugmphbyfvkwzESIANRTOLCDUGMPHBYFVKWZ'

Почему не все буквы указаны в TRY и почему они идут именно в этом порядке, а не в алфавитном?