Конвертация словаря в формат Hunspell

Автор Yakov, 22 апреля 2010, 11:38

0 Пользователи и 1 гость просматривают эту тему.

Yakov

#120
Цитата: yup от 10 апреля 2021, 10:51А также этот конвертер в каких-то ситуациях целиком теряет классы. Например, класс 12 используется в словаре, но отсутствует в файле аффиксов.
Это сделано специально, так как hunspell большим количеством классов начинает тормозить и потреблять огромное количество памяти. Словарь был оптимизирован, и редко используемые аффиксы исключены и представлены в виде списка слов.

Цитата: yup от 10 апреля 2021, 10:51
И ещё он не всегда учитывает, что фамилии, имена, отчества, географические названия и прочие имена  собственные в словарь Hunspell надо писать с большой буквы, и пишет их с маленькой.
В оригинальном словаре нет указания на правописание с заглавной или маленькой буквы. В сконвертированном словаре все слова приведены маленькой буквы. Но по тегам для имён собственных, действительно, это можно восстановить. Спасибо. Будет учтено в следующей версии словаря.

yup

Цитата: Yakov от 11 апреля 2021, 11:11Словарь был оптимизирован, и редко используемые аффиксы исключены и представлены в виде списка слов.
Да, я читал об этом в теме. Но есть же в словаре (файле .dic) ссылки на 12-й класс... Возможно, есть и на другие несуществующие классы (я особо не искал, пока есть более актуальная задача - выискивание ошибок, там счёт идёт уже на тысячи).
Кстати, сейчас глянул чуть подробнее - что-то с этим классом 12 нечисто. Он приписан словам, которые ну никак к одному классу относиться не могут:
алконавт/12
вооруженный/12
дотянёшься/12
осведомленный/12
поликистозн/12
почем/12
самодемонтажн/12
трем/12


И этих слов даже в словаре АОТ нет.
А поскольку ошибки я сейчас выискиваю для исправления АОТ-овского словаря, то как раз подвернулся случай спросить: Ваш словарь получен чисто конвертированием того, или Вы в свой ещё какие-то слова вручную добавляли?

Цитата: Yakov от 11 апреля 2021, 11:11В сконвертированном словаре все слова приведены маленькой буквы. Но по тегам для имён собственных, действительно, это можно восстановить.
Но в Вашем словаре же есть почти 7000 имён собственных, написанных именно с большой буквы. Значит, какой-то анализ тегов и сейчас имеется?
Исследованием вопроса я пока не занимался, но так, навскидку, логика совершенно не просматривается: и имена, и фамилии, и географические названия попадаются как написанными с большой буквы, так и с маленькой.

Yakov

#122
Цитата: yup от 11 апреля 2021, 12:16Но в Вашем словаре же есть почти 7000 имён собственных
Это слова, добавленные уже после конвертации.
Часть слов добавлялась в этот словарь и в исходники AOT параллельно.

Новая версия словаря будет переконвертирована из исходного словаря заново.

Yakov

Цитата: yup от 11 апреля 2021, 12:16Кстати, сейчас глянул чуть подробнее - что-то с этим классом 12 нечисто.
Цитировать
FORBIDDENWORD  12
Это запрещённые слова к подстановке в исправления.

yup

Цитата: Yakov от 11 апреля 2021, 12:21Это слова, добавленные уже после конвертации.
Новая версия словаря будет переконвертирована из исходного словаря заново.
В свой словарь Вы слова добавляли после конвертации вручную или как-то автоматизированно? Те изменения, которые я внесу в словарь, на Ваш процесс в случае пересечения по словам точно никак повлиять не смогут? Или будет иметь смысл дать вам список моих изменений?

Цитата: Yakov от 11 апреля 2021, 12:32Это запрещённые слова к подстановке в исправления.
Вот чёрт, всё время я про FORBIDDENWORD забываю...
(А мне ж ещё с командой Hunspell насчёт этого флага бодаться придётся - уговаривать изменить алгоритм его обработки, потому что нынешняя логика очень уж похожа на ошибку.)

Yakov

Цитата: yup от 11 апреля 2021, 12:44потому что нынешняя логика очень уж похожа на ошибку
В чём обработка флага не соответствует ожидаемому?

yup

Если схематично, то сейчас это так:

Есть абстракция "слово" (в файле .dic). У "слова" могут быть "потомки" (образуемые с помощью аффиксов). Но правильнее их назвать "потомки1", так как могут быть ещё и "потомки2" (образуемые от "потомков1" в случае использования двойных аффиксов).

Если "слово" является запрещённым, то все его потомки автоматически тоже считаются запрещёнными.
Но если слово нормальное, а запрещённым оказывается "потомок1", то его потомки запрещёнными не считаются.

А документация на этот счёт невнятна. Точнее, двусмысленна. Но как её ни трактуй, а логика работы должна обладать постоянством.

CryVICSky

#127
Yakov, в конфигурации расширения LanguageTool в LibreOffice во вкладке «Основные настройки» есть пункт «Добавить словарь LanguageTool в службу проверки орфографии LibreOffice». Функция сама по себе обалденная, но не понятно какой словарь добавляется, откуда? Поясни, пожалуйста.

И ещё. Где взять файл последней версии полного орфографического словаря из сборки "только с Ё", который можно было бы открыть любым редактором или блокнотом? В формате *.dic, например?
Windows 10 Pro v.22H2 build 19045.2006 (x64) + Java v.1.8.0.371 (x64) + Независимый LanguageTool v.6.2-Snapshot от 03.05.2023.

Терехов Иван Сергеевич, Группа «Плач Победы».

Yakov

Цитата: CryVICSky от 27 июня 2021, 22:21«Добавить словарь LanguageTool в службу проверки орфографии LibreOffice»
Добавляются слова из "пользовательского" орфографического словаря LT:
https://github.com/languagetool-org/languagetool/blob/master/languagetool-language-modules/ru/src/main/resources/org/languagetool/resource/ru/hunspell/spelling.txt
Основной словарь в LT представлен в формате fsa, а дополнительные слова, которые не попали в основной словарь, включены в так называемый "пользовательский" словарь, который представляет собой обычный текстовый файл, где каждое новое слово начинается с новой строки.

CryVICSky

#129
Ниже представленные данные получены в процессе работы со следующими расширениями для LibreOffice: dict_pack_ru-aot-0.4.5.oxt и LanguageTool-20210708-snapshot.oxt;

Ложные срабатывания:

1. В заданиях для наших студентов эта любовь становится тем фундаментом, на котором им предстоит строить отношения с Миром, откуда начнётся их путь духовного роста и развития.

2. Всё больше людей понимает, что учиться любить можно и нужно, и что искусством любить себя, других, природу, мир в целом можно овладеть, и что для этого нужно прикладывать определённые усилия.

Многоэтапный процесс исправления ошибки — это нормально?

3. Более менее → более-менее → более или менее.

Спорные и непонятные слова:

межрегионгаз (не уверен в правильности написания, часть названия организации «Газпром межрегионгаз»)
многоформантного (предлагается в качестве исправления для слова «многоформатного»)
пробужденные
нерешенными
привёдшими

Новые слова для пополнения словаря в прикреплённом ниже файле.
Windows 10 Pro v.22H2 build 19045.2006 (x64) + Java v.1.8.0.371 (x64) + Независимый LanguageTool v.6.2-Snapshot от 03.05.2023.

Терехов Иван Сергеевич, Группа «Плач Победы».

user22

#130
Народ, объясните как в словарях hunspell указать слова со слэшем "/" (например, г/л, кг/см и т.п.)? Чтобы эти слова считались правильными и не подчеркивались.

Yakov

Самое простое решение — включить обе части слова в словарь. Например "кг/см" --> "кг", "см".

user22

#132
Yakov, к сожалению это решение не работает. Возможно нужно править не сам словарь, а файл аффиксов. Или может это нерешаемая задача в hunspell?

Yakov

Цитата: user22 от 27 декабря 2021, 23:05это решение не работает
Проверяли в чистом hunspell или в LibreOffice?

user22

Yakov, конечно в офисе, при наборе реальных текстов. Hunspell как такового у меня нет. У меня правда не Libre, а SoftOffice 2018 и WPSOffice 2016. Может в LibreOffice и работает, хотя движок должен быть такой же или нет? Libre я не использую, он монстр по размеру, а компактных версий не знаю.