Language Tool - проверка грамматики для русского языка

Автор ForumOOo (бот), 12 мая 2008, 23:00

0 Пользователи и 1 гость просматривают эту тему.

Yakov

#90
Цитата: kompilainenn от 15 января 2015, 22:11
2 Яков: а нельзя ли сделать фичу, чтобы при выборе пункта "Добавить в словарь" для некоторого слова, оно бы при (наличии инета), передавалось на сервер, где можно было бы его добавить в официальную сборку?
Эта возможность, скорей всего, более уместна для интерактивной формы проверки
http://myooo.ru/component/option,com_spellingandgrammarcheckform/Itemid,133/
Но из-за особенностей реализации проверки орфографии, словарь в LT и словарь для LO/OOo (http://extensions.openoffice.org/en/project/russian-dictionary-pack-only-yo-aot-paket-slovarey-dlya-russkogo-yazyka-na-osnove-proekta) всё-таки различаются.

CryVICSky

#91
Цитата: Yakov от 27 января 2015, 09:11
Цитата: kompilainenn от 15 января 2015, 22:11
2 Яков: а нельзя ли сделать фичу, чтобы при выборе пункта "Добавить в словарь" для некоторого слова, оно бы при (наличии инета), передавалось на сервер, где можно было бы его добавить в официальную сборку?
Эта возможность, скорей всего, более уместна для интерактивной формы проверки
http://myooo.ru/component/option,com_spellingandgrammarcheckform/Itemid,133/
Но из-за особенностей реализации проверки орфографии, словарь в LT и словарь для LO/OOo (http://extensions.openoffice.org/en/project/russian-dictionary-pack-only-yo-aot-paket-slovarey-dlya-russkogo-yazyka-na-osnove-proekta) всё-таки различаются.
Yakov, я тоже один из тех, кто поддерживает эту фичу обеими руками и ногами. :) Хотелось бы иметь возможность прямо из независимой оболочки выделять и отправлять новые слова на сервер, но и для интерактивной формы проверки она критически нужна.

Можно даже для начала открыть на форуме специальную тему, где от пользователей начать собирать новые слова для словарей. Кстати, на просторах интернета существует ресурс с достаточно удобной и интересной функциональностью для активно развивающихся проектов - reformal.ru - сервис для обратной связи с пользователями. Его применение было бы очень кстати в данной ситуации, да и не только в ней.
Windows 10 Pro v.22H2 build 19045.2006 (x64) + Java v.1.8.0.371 (x64) + Независимый LanguageTool v.6.2-Snapshot от 03.05.2023.

Терехов Иван Сергеевич, Группа «Плач Победы».

CryVICSky

#92
Yakov, хотелось бы ещё попросить о функции автоматического сохранения, в независимой сборке утилиты, последних размеров основного окна и нижнего рабочего (где отображаются результаты проверки текста), с которыми была закрыта программа.

К предыдущему своему сообщению добавлю один момент... В независимой сборке утилиты представляю реализацию дополнительного пользовательского словаря, в который можно было бы добавлять, отсутствующие в основном, слова, а в дальнейшем иметь возможность группой их отправлять на сервер в любой или определённый момент времени. Данная функциональность достаточно тонкая особенность любых текстовых редакторов и к ней стоит относиться с глубоким трепетом и осторожностью, чтобы не было ничего лишнего.
Windows 10 Pro v.22H2 build 19045.2006 (x64) + Java v.1.8.0.371 (x64) + Независимый LanguageTool v.6.2-Snapshot от 03.05.2023.

Терехов Иван Сергеевич, Группа «Плач Победы».

Yakov

Цитата: CryVICSky от 20 февраля 2015, 11:54В независимой сборке утилиты представляю реализацию дополнительного пользовательского словаря

В ежедневных сборках доступна такая функциональность. Единственное, добавлять в этот словарь можно только с помощью внешнего текстового редактора.
Список слов для спеллчекера хранится в файлах spelling.txt в подкаталогах resource/xx/hunspell.
Для словаря частей речи это будет файл added.txt в подкаталогах resource/xx/, где xx- код языка.


CryVICSky

#94
Цитата: Yakov от 21 февраля 2015, 20:05В ежедневных сборках доступна такая функциональность. Единственное, добавлять в этот словарь можно только с помощью внешнего текстового редактора.
Хотелось бы видеть данную функциональность в виде пункта контекстного меню по нажатию ПКМ (--> Добавить в словарь). А алгоритм уже бы сам добавлял слова куда нужно. То есть реализация данной функциональности должна быть частью интерфейса программы. Хотелось бы иметь возможность также по нажатию ПКМ в контекстном меню найти пункт - «Просмотреть словарь», после нажатия на который открывалось бы небольшое окошко со списком уже добавленных слов и дополнительными кнопками: «Удалить» и «Добавить». Самая простая и, в тоже время, максимально удобная и понятная реализация.
Цитата: Yakov от 21 февраля 2015, 20:05Список слов для спеллчекера хранится в файлах spelling.txt в подкаталогах resource/xx/hunspell.
Для словаря частей речи это будет файл added.txt в подкаталогах resource/xx/, где xx- код языка.
В данном случае возникает сразу куча вопросов... В какой форме вносить слова? Есть ли разница между этими словарями? Куда эти словари затем отправлять?
Windows 10 Pro v.22H2 build 19045.2006 (x64) + Java v.1.8.0.371 (x64) + Независимый LanguageTool v.6.2-Snapshot от 03.05.2023.

Терехов Иван Сергеевич, Группа «Плач Победы».

Yakov

Цитата: CryVICSky от 22 февраля 2015, 07:48Есть ли разница между этими словарями?
Да. spelling.txt - это проверка орфографии.
added.txt используется только для проверки грамматики. Причём для этого словаря вносится не только само слово, но и его базовая форма, а так же код части речи (postag). И для этого словаря для каждого слова необходимо обязательно вносить все словоформы, иначе проверка грамматики не будет правильно работать.

Кроме того, в программе есть бинарный словарь обратного преобразования частей речи, которому нет дополнения в виде текстового файла. То есть при массовом добавлении слов необходимо всё равно пересоздавать бинарный словарь (даже 3 словаря: словарь частей речи, обратный словарь частей речи, словарь для проверки орфографии).



Yakov


Yakov

#97
В текущей разрабатываемой версии
https://languagetool.org/download/snapshots/LanguageTool-20150223-snapshot.zip
https://languagetool.org/download/snapshots/LanguageTool-20150223-snapshot.oxt
доп. словарь для проверки орфографии был дополнен словами, вошедшими в новую версию словарей
для LO/OOo/Mozilla http://forumooo.ru/index.php/topic,106.msg29726.html#msg29726
Кроме того, в этой сборке добавлено много новых правил для проверки грамматики.
Сборка готова для тестирования.
К моменту релиза (2.9) планируется провести работу по улучшению работы существующих правил.

CryVICSky

#98
Yakov, в текущей разрабатываемой версии пользовательские словари (spelling.txt, added.txt) в той или иной степени уже заполнены словами. Как с ними быть? Добавлять новые слова прямо к ним или оформлять свой пользовательский словать отдельно, чтобы затем отправить тебе на почту?

Дополнение:

Также я понял, что реализация заполнения словаря для проверки грамматики (added.txt) ещё достаточно трудна для обычного пользователя. Этот процесс так или иначе требуется автоматизировать и упростить для восприятия. В связи с этим обстоятельством, сейчас меня больше будет интересовать заполнение словаря для проверки орфографии (spelling.txt) и отправки его тебе на почту. Кстати, не могу найти почтовый адрес. Хотя мне проще отправить его (ссылку на текстовый файл словаря в Яндекс.Диске) личным сообщением.
Windows 10 Pro v.22H2 build 19045.2006 (x64) + Java v.1.8.0.371 (x64) + Независимый LanguageTool v.6.2-Snapshot от 03.05.2023.

Терехов Иван Сергеевич, Группа «Плач Победы».

Yakov


Yakov

#100
Цитата: kompilainenn от 15 января 2015, 20:11а нельзя ли сделать фичу, чтобы при выборе пункта "Добавить в словарь" для некоторого слова, оно бы при (наличии инета), передавалось на сервер, где можно было бы его добавить в официальную сборку?
Реализовано для формы проверки текста на http://languagetool.org/ru/

Спасибо Helen за реализацию формы добавления слов в словарь!

CryVICSky

Yakov, разъясни, пожалуйста, в чём разница обычных сборок LT от сборок LT-wikipedia? И ещё вопрос в догонку: в параметрах LT появилась настройка каталога для ngram. Что это за каталог такой и что такое ngram-а(-ы)? Я так понял, что эта функциональность ещё не реализована для русского модуля, но мне пока вообще её суть непонятна.
Windows 10 Pro v.22H2 build 19045.2006 (x64) + Java v.1.8.0.371 (x64) + Независимый LanguageTool v.6.2-Snapshot от 03.05.2023.

Терехов Иван Сергеевич, Группа «Плач Победы».

Yakov

#102
Цитата: CryVICSky от 24 октября 2015, 13:04в чём разница обычных сборок LT от сборок LT-wikipedia?
LT-wikipedia предназначена для сайта community.languagetool.org  
С её помощью выполняется тестирование правил для languagetool на основе данных с сайта wikipedia.org

На настоящий момент проверка "последних правок" с wikipedia.org отключена из-за большой загрузки сайта.
Но для английского языка она активна.

Yakov

Цитата: CryVICSky от 24 октября 2015, 13:04Что это за каталог такой и что такое ngram-а(-ы)? Я так понял, что эта функциональность ещё не реализована для русского модуля, но мне пока вообще её суть непонятна.

Работа с ngram на данный момент реализована только для английского языка. Для использования этой функциональности необходим
очень большой набор данных ngram (так называемый Big data), который надо скачивать отдельно. Объём этих данных в упакованном виде - 8 Гб. Эти данные включают в себя статистическую информацию о частотности употребления фраз.
+ Необходимо создание специальных правил.
В версии 3.1 LT возможность использования ngram была активирована сразу для нескольких языков, для которых есть данные ngram https://books.google.com/ngrams/


CryVICSky

Цитата: Yakov от 24 октября 2015, 21:51Эти данные включают в себя статистическую информацию о частотности употребления фраз. + Необходимо создание специальных правил.
В версии 3.1 LT возможность использования ngram была активирована сразу для нескольких языков, для которых есть данные ngram
Yakov, благодарю за столь подробное разъяснение. Только из него вытек ещё один уточняющий вопрос: для каких целей нужна эта статистическая информация о частотности употребления фраз в LT?
Windows 10 Pro v.22H2 build 19045.2006 (x64) + Java v.1.8.0.371 (x64) + Независимый LanguageTool v.6.2-Snapshot от 03.05.2023.

Терехов Иван Сергеевич, Группа «Плач Победы».