Конвертация словаря в формат Hunspell

Автор Yakov, 22 апреля 2010, 11:38

0 Пользователи и 1 гость просматривают эту тему.

cross1983

Добрый день. Словарь "только ё" допускает написание "девчёнка" и "девчонка".  Слово "девчёнка" - ошибка.

Yakov


pager_sadly

Добрый день!
В Debian Bug Tracking System идёт обсуждение о добавлении
словаря в дистрибутив.
Ознакомиться и принять участие в обсуждении можно по ссылке:
https://bugs.debian.org/cgi-bin/bugreport.cgi?bug=926505

CryVICSky

#78
Yakov, предлагаю немного перестроить работу с наполнением основного словаря для проверки орфографии. Так как новые версии собираются редко, то удобней всего создать на github.com отдельный промежуточный проект с файлом пользовательского словаря совместимого с LO и AOO (C:\Users\...\AppData\Roaming\LibreOffice\4\user\wordbook\standard.dic) и наполнять его новыми словами (скачивать свежий файл standard.dic в любое время и предлагать новые слова для добавления смогут все желающие, причём открыто), а затем после сборки новой версии основного словаря обнулять его и наполнять снова до следующей официальной сборки, проверяя заранее все ошибки. Всем заинтересованным сторонам будет намного удобней.
Windows 10 Pro v.22H2 build 19045.2006 (x64) + Java v.1.8.0.371 (x64) + Независимый LanguageTool v.6.2-Snapshot от 03.05.2023.

Терехов Иван Сергеевич, Группа «Плач Победы».

Yakov

Да, существующая схема не очень удобна.
В планах доработать форму сбора данных слов для словаря, чтобы упростить работу по обработке полученных слов.

Envek

Добрый день. Сегодня, когда я экспериментировал с поиском слова «чай» в легендарной фразе «Съешь ещё этих мягких французских булок, да выпей же чаю.» с помощью полнотекстового поиска в PostgreSQL и словаря Hunspell от AOT.ru для нормализации слов, я столкнулся с тем, что в текущем словаре слово «чаю» считается самостоятельным словом, отчего у меня поиск не работает.

Однако же викисловарь считает, что это или форма глагола «чаять» или форма существительного «чай».

Посему я предлагаю из словаря слово «чаю» удалить, а словам «чай» и «чаять» присвоить правильные аффиксы.

Т.е. сейчас, в словаре версии 0.4.3, скачанном с extensions.libreoffice.org, так:

чай
чаю
чаять


Я предлагаю сделать так:

чай/126
чаять/527


У себя локально с такими изменениями у меня слово «чаю» начинает определяться как «это или чай или чаять», что на мой взгляд правильно.

Я вообще по адресу пришёл с такими запросами? ;D

Envek

Ну и присоединюсь к предыдущим ораторам про возможность улучшать словарь через какую-нибудь публичную площадку (например, GitHub.com или GitLab.com). Я бы с удовольствием приходил бы раз в год с небольшими пулл-реквестами с правками типа той, что я выше предложил. Сейчас даже непонятно, куда идти с такими правками/жалобами.

Yakov

Цитата: Envek от 25 ноября 2019, 16:12Я вообще по адресу пришёл с такими запросами?
Да, обсудить можно в этой теме.
Предложить новые слова лучше через эту форму

Yakov

Этот (0.4.3) словарь оптимизирован под работу hunspell, так как при работе с большим числом аффиксов у hunspell начинаются жуткие тормоза и потребление памяти.
Поэтому некоторые редко используемые аффиксы "развёрнуты".

Yakov

Сейчас я планирую пересобрать словарь с другим набором аффиксов.

Yakov

#85
Словарь версии 0.4.4

Yakov

#86
Пакет словарей (орфография, тезаурус, переносы) 0.4.4   (19 мая 2020 г.)

Обновление размещаю на форуме, так как на сайте расширений LO происходит обновление дизайна и обновление контента на нём пока затруднено.

Следующую переработанную версию словаря с изменённой структурой аффиксов планирую собрать синхронно с обновлением словарей в LanguageTool. Выпуск версии 5.0 LT запланирован на конец июня 2020г.

Yakov


simurq

#88
Добрый день!
По-моему, я делаю что-то неправильно. При попытке использовать словари (0.4.4) на Notepad++ в выделяемых словах отсутствует Ё: https://i.imgur.com/QKfMe47.jpg

Знаю, что словари предназначены для LibreOffice (за что огромное спасибо автору!), но так как формат файлов вроде один и тот же, решил перетащить оба (.dic и .aff) в соответствующую папку Hunspell словарей для Notepad++.

PS: Может это от того, что файл .dic закодирован в ANSI? Пробовал заменить на UTF-8, как для стандартного русскоязычного словаря для Notepad++, вообще вариантов замены не предлагает.

Спасибо!

Yakov