Форум поддержки пользователей. LibreOffice, Apache OpenOffice, OpenOffice.org

Форум поддержки пользователей. LibreOffice, Apache OpenOffice, OpenOffice.org

30 Июль 2021, 16:45 *
Добро пожаловать, Гость. Пожалуйста, войдите или зарегистрируйтесь.
Вам не пришло письмо с кодом активации?

Войти
Новости: Доступно и просто о работе в офисных пакетах
 
   Начало   Помощь Поиск Войти Регистрация    задать вопрос  
Страниц: « 1 2 3 4 5 6 7 8 9   Вниз
  Печать  
Автор Тема: Конвертация словаря в формат Hunspell  (Прочитано 100584 раз)
0 Пользователей и 1 Гость смотрят эту тему.
Yakov
Администратор
**
Offline Offline

Сообщений: 2 579


WWW
« Ответ #120: 11 Апрель 2021, 11:11 »

А также этот конвертер в каких-то ситуациях целиком теряет классы. Например, класс 12 используется в словаре, но отсутствует в файле аффиксов.
Это сделано специально, так как hunspell большим количеством классов начинает тормозить и потреблять огромное количество памяти. Словарь был оптимизирован, и редко используемые аффиксы исключены и представлены в виде списка слов.

И ещё он не всегда учитывает, что фамилии, имена, отчества, географические названия и прочие имена  собственные в словарь Hunspell надо писать с большой буквы, и пишет их с маленькой.
В оригинальном словаре нет указания на правописание с заглавной или маленькой буквы. В сконвертированном словаре все слова приведены маленькой буквы. Но по тегам для имён собственных, действительно, это можно восстановить. Спасибо. Будет учтено в следующей версии словаря.
« Последнее редактирование: 11 Апрель 2021, 11:19 от Yakov » Записан
yup
Участник
**
Offline Offline

Сообщений: 12


« Ответ #121: 11 Апрель 2021, 12:16 »

Словарь был оптимизирован, и редко используемые аффиксы исключены и представлены в виде списка слов.
Да, я читал об этом в теме. Но есть же в словаре (файле .dic) ссылки на 12-й класс... Возможно, есть и на другие несуществующие классы (я особо не искал, пока есть более актуальная задача - выискивание ошибок, там счёт идёт уже на тысячи).
Кстати, сейчас глянул чуть подробнее - что-то с этим классом 12 нечисто. Он приписан словам, которые ну никак к одному классу относиться не могут:
Код:
алконавт/12
вооруженный/12
дотянёшься/12
осведомленный/12
поликистозн/12
почем/12
самодемонтажн/12
трем/12

И этих слов даже в словаре АОТ нет.
А поскольку ошибки я сейчас выискиваю для исправления АОТ-овского словаря, то как раз подвернулся случай спросить: Ваш словарь получен чисто конвертированием того, или Вы в свой ещё какие-то слова вручную добавляли?

В сконвертированном словаре все слова приведены маленькой буквы. Но по тегам для имён собственных, действительно, это можно восстановить.
Но в Вашем словаре же есть почти 7000 имён собственных, написанных именно с большой буквы. Значит, какой-то анализ тегов и сейчас имеется?
Исследованием вопроса я пока не занимался, но так, навскидку, логика совершенно не просматривается: и имена, и фамилии, и географические названия попадаются как написанными с большой буквы, так и с маленькой.
Записан
Yakov
Администратор
**
Offline Offline

Сообщений: 2 579


WWW
« Ответ #122: 11 Апрель 2021, 12:21 »

Но в Вашем словаре же есть почти 7000 имён собственных
Это слова, добавленные уже после конвертации.
Часть слов добавлялась в этот словарь и в исходники AOT параллельно.

Новая версия словаря будет переконвертирована из исходного словаря заново.
« Последнее редактирование: 11 Апрель 2021, 12:24 от Yakov » Записан
Yakov
Администратор
**
Offline Offline

Сообщений: 2 579


WWW
« Ответ #123: 11 Апрель 2021, 12:32 »

Кстати, сейчас глянул чуть подробнее - что-то с этим классом 12 нечисто.
Цитата:
FORBIDDENWORD  12
Это запрещённые слова к подстановке в исправления.
Записан
yup
Участник
**
Offline Offline

Сообщений: 12


« Ответ #124: 11 Апрель 2021, 12:44 »

Это слова, добавленные уже после конвертации.
Новая версия словаря будет переконвертирована из исходного словаря заново.
В свой словарь Вы слова добавляли после конвертации вручную или как-то автоматизированно? Те изменения, которые я внесу в словарь, на Ваш процесс в случае пересечения по словам точно никак повлиять не смогут? Или будет иметь смысл дать вам список моих изменений?

Это запрещённые слова к подстановке в исправления.
Вот чёрт, всё время я про FORBIDDENWORD забываю...
(А мне ж ещё с командой Hunspell насчёт этого флага бодаться придётся - уговаривать изменить алгоритм его обработки, потому что нынешняя логика очень уж похожа на ошибку.)
Записан
Yakov
Администратор
**
Offline Offline

Сообщений: 2 579


WWW
« Ответ #125: 11 Апрель 2021, 13:02 »

потому что нынешняя логика очень уж похожа на ошибку
В чём обработка флага не соответствует ожидаемому?
Записан
yup
Участник
**
Offline Offline

Сообщений: 12


« Ответ #126: 11 Апрель 2021, 13:20 »

Если схематично, то сейчас это так:

Есть абстракция "слово" (в файле .dic). У "слова" могут быть "потомки" (образуемые с помощью аффиксов). Но правильнее их назвать "потомки1", так как могут быть ещё и "потомки2" (образуемые от "потомков1" в случае использования двойных аффиксов).

Если "слово" является запрещённым, то все его потомки автоматически тоже считаются запрещёнными.
Но если слово нормальное, а запрещённым оказывается "потомок1", то его потомки запрещёнными не считаются.

А документация на этот счёт невнятна. Точнее, двусмысленна. Но как её ни трактуй, а логика работы должна обладать постоянством.
Записан
CryVICSky
Участник
**
Offline Offline

Пол: Мужской
Расположение: Россия, Республика Коми
Сообщений: 21


« Ответ #127: 27 Июнь 2021, 22:21 »

Yakov, в конфигурации расширения LanguageTool в LibreOffice во вкладке «Основные настройки» есть пункт «Добавить словарь LanguageTool в службу проверки орфографии LibreOffice». Функция сама по себе обалденная, но не понятно какой словарь добавляется, откуда? Поясни, пожалуйста.

И ещё. Где взять файл последней версии полного орфографического словаря из сборки "только с Ё", который можно было бы открыть любым редактором или блокнотом? В формате *.dic, например?
« Последнее редактирование: 27 Июнь 2021, 22:34 от CryVICSky » Записан

Windows 10 Pro v.1909.18363.1379 (x64) + LibreOffice v.7.0.6.2 (x64, LT v.5.5 от 10.07.2021, Dictionary Pack v.0.4.5) + Java v.8.291 (x64).

Терехов Иван Сергеевич, The CryVICtory Group.
Yakov
Администратор
**
Offline Offline

Сообщений: 2 579


WWW
« Ответ #128: 29 Июнь 2021, 00:41 »

«Добавить словарь LanguageTool в службу проверки орфографии LibreOffice»
Добавляются слова из "пользовательского" орфографического словаря LT:
https://github.com/languagetool-org/languagetool/blob/master/languagetool-language-modules/ru/src/main/resources/org/languagetool/resource/ru/hunspell/spelling.txt
Основной словарь в LT представлен в формате fsa, а дополнительные слова, которые не попали в основной словарь, включены в так называемый "пользовательский" словарь, который представляет собой обычный текстовый файл, где каждое новое слово начинается с новой строки.
Записан
CryVICSky
Участник
**
Offline Offline

Пол: Мужской
Расположение: Россия, Республика Коми
Сообщений: 21


« Ответ #129: 8 Июль 2021, 14:05 »

Ниже представленные данные получены в процессе работы со следующими расширениями для LibreOffice: dict_pack_ru-aot-0.4.5.oxt и LanguageTool-20210708-snapshot.oxt;

Ложные срабатывания:

1. В заданиях для наших студентов эта любовь становится тем фундаментом, на котором им предстоит строить отношения с Миром, откуда начнётся их путь духовного роста и развития.

2. Всё больше людей понимает, что учиться любить можно и нужно, и что искусством любить себя, других, природу, мир в целом можно овладеть, и что для этого нужно прикладывать определённые усилия.

Многоэтапный процесс исправления ошибки — это нормально?

3. Более менее → более-менее → более или менее.

Спорные и непонятные слова:

межрегионгаз (не уверен в правильности написания, часть названия организации «Газпром межрегионгаз»)
многоформантного (предлагается в качестве исправления для слова «многоформатного»)
пробужденные
нерешенными
привёдшими

Новые слова для пополнения словаря в прикреплённом ниже файле.

* Новые слова от 08.07.2021.txt (3.54 Кб - загружено 0 раз.)
« Последнее редактирование: 14 Июль 2021, 14:11 от CryVICSky » Записан

Windows 10 Pro v.1909.18363.1379 (x64) + LibreOffice v.7.0.6.2 (x64, LT v.5.5 от 10.07.2021, Dictionary Pack v.0.4.5) + Java v.8.291 (x64).

Терехов Иван Сергеевич, The CryVICtory Group.
Страниц: « 1 2 3 4 5 6 7 8 9   Вверх
  Печать  
 
Перейти в:  

Powered by MySQL Powered by PHP Powered by SMF 1.1.21 | SMF © 2006-2009, Simple Machines Valid XHTML 1.0! Valid CSS!