Конвертация словаря в формат Hunspell

Автор Yakov, 22 апреля 2010, 11:38

0 Пользователи и 1 гость просматривают эту тему.

Yakov

#90
Цитата: simurq от  4 июня 2020, 23:05в выделяемых словах отсутствует Ё
Отсутствует именно в словах или в вариантах исправлений? Варианты исправлений для версии 0.4.4 должны предлагать слова с Ё.

simurq

#91
Цитата: Yakov от  5 июня 2020, 00:19
Отсутствует именно в словах или в вариантах исправлений? Варианты исправлений для версии 0.4.4 должны предлагать слова с Ё.

В том-то и дело, что в вариантах исправлений. Если посмотрите на рисунок, то там как-раз видно, что при попытке исправить слово "расчет" на "расчёт" словарь предлагает варианты без Ё: расчте, расчт, расчес, распет.


Yakov


Yakov

Пакет словарей (орфография, тезаурус, переносы) 0.4.5  (06 июня 2020 г.)

Yakov

Словарь версия 0.4.5
(Залил вместо битого файла версии 0.4.4, выложенного ранее в этой ветке)

simurq

Цитата: Yakov от  6 июня 2020, 23:30
Словарь версия 0.4.5
(Залил вместо битого файла версии 0.4.4, выложенного ранее в этой ветке)

Большое спасибо!!! Теперь всё работает. Успехов!

kompilainenn

Цитата: Yakov от  6 июня 2020, 23:30
Словарь версия 0.4.5
(Залил вместо битого файла версии 0.4.4, выложенного ранее в этой ветке)
Эта штука работает лучше, чем встроенный в ЛО словарь?
Поддержать разработчиков LibreOffice можно тут, а наш форум вот тут

Yakov

Больший размер словаря + пополняется современной лексикой.

mikekaganski

#98
Цитата: Yakov от  7 июня 2020, 23:57
Больший размер словаря + пополняется современной лексикой.

Было бы здорово заменить встроенный словарь на этот. Да ещё если бы добавить в настройки Options->Language Settings->Grammar Checking (Russian) возможность выбора "только ё" - было бы просто обалденно.

Лицензия встроенного - BSD-like (https://git.libreoffice.org/dictionaries/+/master/ru_RU/README_ru_RU.txt). Лицензия этого словаря - LGPL. Не проблема, например встроенный тезаурус - LGPL (https://git.libreoffice.org/dictionaries/+/master/ru_RU/README_thes_ru_RU.txt). Но если бы заменить лицензию словаря на тройную MPL / GPL / LGPL (как у Lightproof, созданного Yakov - https://git.libreoffice.org/dictionaries/+/master/ru_RU/README_Lightproof_ru_RU.txt), вообще было бы замечательно (но это зависит от технической возможности - есть ли право на перелицензирование).

А то встроенный остался без изменений с момента импорта (https://git.libreoffice.org/dictionaries/+log/master/ru_RU/ru_RU.aff, https://git.libreoffice.org/dictionaries/+log/master/ru_RU/ru_RU.dic).

Единственное изменение во встроенном, пока ещё отсутствующее в этом - перекодировка в UTF-8.

ЦитироватьДа ещё если бы добавить в настройки Options->Language Settings->Grammar Checking (Russian) возможность выбора "только ё"
Ну, или просто иметь оба словаря, и переключать в Options->Language Settings->Writing Aids->Available Language Modules->Edit
С уважением,
Михаил Каганский

kompilainenn

Цитата: mikekaganski от  8 июня 2020, 08:47Было бы здорово заменить встроенный словарь на этот
вот да
Поддержать разработчиков LibreOffice можно тут, а наш форум вот тут

pogrebnoj-alexandroff

Уважаемые форумчане, здравствуйте.

В своей работе по редактированию текстов, мы ни раз сталкивались с проблемой обязательных знаков ударения в многозначных словах русского языка (как за́мок или замо́к, непутевы́е или непутёвые, а́тлас или атла́с, го́да или года́, ве́ка или века́, по́рою или порою́ и т.д.) от которых зависит смысл напечатанного в текстах. А если предложение состоит из одного сло́ва, то без ударений вообще непонятно о чём писано. В некоторых программах есть возможность создавать свой орфографический словарь и мной были составлены базисные словари:

• добавленных слов под ударениями;
• исключённых многозначных слов без ударений.

Однако это не всегда удобно и хотелось бы иметь такие словари встроенные в программы. Кромы того, обнаружилась ещё одна проблемка, которая не решена и это — имена собственные (ФИО, топонимы, аббревиатуры учреждений, как КГБ или ФСБ и СБУ и пр.), а также римские числительные (I, II, III... V... IX... ХХХ и т.д.).

Программы все эти слова́ и числа фиксирует со строчной буквы, что ошибочно и неудобно при редактировании. В Виндовс был внедрён словарь с буквой Ё и пользователь может выбрать устанавливать его или нет. Хотелось бы точно такое сделать и для слов с ударениями. Если кто-то пожелает его установить, исключив такие же безударные варианты, то мог бы это сделать для различных Офисов тоже.

Я уже обращался в компании-производители редакционных программ и браузеров, где есть русский язык, но они "нихт-бум-бум". Может ли кто-то взяться за такой проект или подсказать, что можно сделать в данном случае, кроме как вновь и вновь настойчиво обратиться в компанию-изготовитель той или иной программы.

Также было замечено, что в процессе занесения слов в словари могут захватываться знаки препинания. Что сделать, чтобы этого не происходило я не знаю. Кроме того как добавлять нужные слова при постоянном открывании словарей вручную.

В пример, для желающих, скачал словари из программы и загружаю два текстовых файла со словарями, которые каждый может дополнить самостоятельно. Опять же, это пример и словари не полны.

Word List Added to Dictionary.txt
Word List Removed from Dictionary.txt

Для осознания проблемы, демонстрирую отрывок произведения на русском языке.

... И про́бил час указанный оракулом, и при́был Иванушка в град белокаменный, и проби́л стену кулаком своим богатырским — кулаком великанским; и вошёл в город широкой поступью под неистовые крики толпы́ поражённой, с одной стороны́, и ликование толпы́ победителей — с другой. Но ми́нул час,.. другой,.. третий,.. и то́лпы слились воедино: в одну — не бо́льшую или меньшую, а — в единую, большу́ю семью славных жителей го́рода; земли́ народа нашего. И зе́мли те вольные простираются от океана до океана богатствами несметными, полями бескрайними, лесами зелёными, реками и озёрами полноводными... Тут я неминуемо хотел бы упомянуть, мил мой человечище, что не всё так быстро и просто делается, как сказка сказывается. Народ не враз народится по всей той территории и для первенца славного и здорового не менее девяти месяцев надобно, а то и Ле́та иль го́да целостного — календарного. Не одно поколение в лету канет, но делами своими в века́х и в памяти людской останется. (Aleksey Pogrebnoj-Alexandroff "Краски". — 2000 год).

Как можно этот и ему подобные тексты публиковать без знаков ударения? Почему итальянский, испанский и прочие словари в обязательном порядке содержат ударения или акцентные символы, а русский язык таким нужным знаком (единственным!) обделён до сих пор?

С уважением,
Алексей

Yakov

Для проверки текста с ударениями можно воспользоваться LanguageTool. Подойдёт онлайн-форма https://languagetool.org/ru или Java-приложение https://languagetool.org/download/LanguageTool-5.2.zip

Yakov

А вот в следующем выпуске этого словаря (dict_ru_ru_aot) не будут помечаться слова с ударениями как ошибочные.  

Цитата: pogrebnoj-alexandroff от 15 января 2021, 04:10• исключённых многозначных слов без ударений.
Думаю, что в предустановленном словаре это не должно присутствовать.


PoAlanTim

Цитата: Yakov от 15 января 2021, 12:22Думаю, что в предустановленном словаре это не должно присутствовать.
Наконец-то дело сдвинулось с мёртвой точки. Пользователь сам должен выбирать необходимое, а там где слова многозначны — выбор должен быть исключён, как с буквой Ё в словах.

pogrebnoj-alexandroff

Цитата: Yakov от 15 января 2021, 12:22в следующем выпуске этого словаря (dict_ru_ru_aot) не будут помечаться слова с ударениями как ошибочные

Здо́рово, и здоро́во Яков! Конечно прекрасно, что в словаре не будут отображаться слова́ с ударениями, как ошибочные, но... Министерством образования РФ давно уже́ был опубликован список многозначных слов с обязательным использованием ударений в них, которые были включены в экзаменационный процесс для школьников. Соответственно, в словарях необходимо исключить многозначные слова́ без знака ударения и включить такие лишь с ударениями (как это было сделано с буквой Ё). Было бы удобнее выбирать во всплывающем окне при наведении на подчёркнутое красным слово курсором, как предусмотрено в редакционных программах. Уверен, что такие слова (два, вместо одного) необходимо добавить в словари (словарь АОТ) исключив их без ударений, как — обязательные. Пользователь мог выбрать нужное из предложенного, если самостоятельно ударение не поставил. Для удобства можно предусмотреть кнопку в Офисе и "горячую клавишу", так как не каждый пользователь (особенно пожилой) может додумать как это сделать.

https://www.liveinternet.ru/users/pogrebnoj-alexandroff/post295763958/