Language Tool - проверка грамматики для русского языка

Автор ForumOOo (бот), 12 мая 2008, 23:00

0 Пользователи и 1 гость просматривают эту тему.

Yakov

Например, фраза из слов word1 word2 word3 встречается в текстах с  вероятностью 0,001%, а фраза из слов  word1 word3 word2 не встречается вообще, значит 2 фраза – ошибочная.

greenman

Цитата: Yakov от 24 октября 2015, 21:51Объём этих данных в упакованном виде - 8 Гб.
Офигеть. Лет десять назад traum library весила около 8GB.

alexeyI

Привет
Есть текст следующего вида - хххххххх = ууууууууу, требуется орфографическая проверка только для ууууууууууу
Создаю правило в disambiguation.xml вида

<rule name="1" id="2">
   <pattern>
      <token regexp="yes">^(.*?)=</token>
        </pattern>
        <disambig action="immunize"/>
</rule>

И ничего не работает. Если в регэкспе менять = на любые другие символы, например буквенные - все отрабатывает замечательно. Вообще, паттерн верный, и в джаве и в джаваскрипте работает. Кто знает в чем может быть проблема или в куда обратиться?

Yakov

 disambiguation.xml  относится только к проверке грамматики, для проверки орфографии он не используется

Yakov

Скорей всего regexp надо так записывать:

<token regexp="yes">^(.*?)[=]</token>



CryVICSky

#111
Планируется ли в ближайшее время реализация в программном интерфейсе независимой сборки LT функционала пользовательского словаря подобного тому, который реализован в LibreOffice?
Windows 10 Pro v.22H2 build 19045.2006 (x64) + Java v.1.8.0.371 (x64) + Независимый LanguageTool v.6.2-Snapshot от 03.05.2023.

Терехов Иван Сергеевич, Группа «Плач Победы».

Yakov

Такая функциональность реализована в расширении для браузеров FireFox и GoogeChrome.
В ближайшем релизе планируется пересобрать встроенный словарь частей речи с расширенными грамматическими характеристиками.

Yakov

Цитата: CryVICSky от  3 февраля 2017, 20:32реализация в программном интерфейсе независимой сборки LT функционала пользовательского словаря
Есть issue 493

CryVICSky

#114
Цитата: Yakov от  6 февраля 2017, 17:28Есть issue 493
Я правильно понимаю тот факт, что данная функциональность ещё не реализована, а только предложена к реализации, причём уже относительно давно? Судя по тому, что описано в предложении #493, можно сделать вывод: подобная реализация решит сразу две задачи. На функциональном уровне создаётся и пополняется отдельный пользовательский словарь, и, таким образом, пропускаются «неизвестные» (отсутствующие в основном словаре) слова при проверке орфографии. Мне тоже подобное решение обеих проблем представляется идеальным.
Windows 10 Pro v.22H2 build 19045.2006 (x64) + Java v.1.8.0.371 (x64) + Независимый LanguageTool v.6.2-Snapshot от 03.05.2023.

Терехов Иван Сергеевич, Группа «Плач Победы».

Yakov

#115
Цитата: CryVICSky от  7 февраля 2017, 16:08ещё не реализована, а только предложена к реализации
Да.
Цитата: CryVICSky от  7 февраля 2017, 16:08На функциональном уровне создаётся и пополняется отдельный пользовательский словарь
Этот словарь и сейчас есть. Я периодически пополняю его словами, собранными с помощью формы
http://myooo.ru/component/option,com_addtodictsuggest/Itemid,135/
Но слова из пользовательского словаря пока не предлагаются в качестве вариантов замены при исправлении ошибок (небольшой баг).

CryVICSky

#116
Цитата: Yakov от  7 февраля 2017, 17:06Этот словарь и сейчас есть. Я периодически пополняю его словами, собранными с помощью формы.
Здесь требуется уточнение. Пользовательский словарь, он на то и пользовательский, потому что заполняется самими пользователями (каждым в отдельности) и никем больше. Его заполнение и открытие должно происходить максимально просто для всех пользователей, чтобы не нужно было лезть в файловые дебри приложения. Разработчиками изначально это должно было быть реализовано на функциональном уровне, в самом интерфейсе приложения, причём на самом видном и удобном месте.

Цитата: Yakov от  4 февраля 2017, 16:40Такая функциональность реализована в расширении для браузеров FireFox и GoogeChrome.
Эта функция для браузера действительно удобная, но является вспомогательной. Для самого же текстового редактора LT она представляется более значимой и, соответственно, её реализации должно быть уделено большее количество внимания.
Windows 10 Pro v.22H2 build 19045.2006 (x64) + Java v.1.8.0.371 (x64) + Независимый LanguageTool v.6.2-Snapshot от 03.05.2023.

Терехов Иван Сергеевич, Группа «Плач Победы».

kompilainenn

Цитата: CryVICSky от  8 февраля 2017, 21:36Разработчиками изначально это должно было быть реализовано
Цитата: CryVICSky от  8 февраля 2017, 21:36её реализации должно быть уделено большее количество внимания
слово "должен" слабо играет в диспутах вокруг опенсорц
Поддержать разработчиков LibreOffice можно тут, а наш форум вот тут

Yakov

Цитата: CryVICSky от  8 февраля 2017, 21:36заполняется самими пользователями (каждым в отдельности)
То есть предлагается сделать независимые словари для каждого пользователя операционной системы и хранить их в профиле пользователя ОС вместе с настройками LT?

CryVICSky

#119
Цитата: kompilainenn от  9 февраля 2017, 04:51слово "должен" слабо играет в диспутах вокруг опенсорц
Я имел в виду то, что если уж взялись делать, то должны были реализовать подобную функциональность сразу, чтобы потом пользователи от них этого не требовали.

Цитата: Yakov от  9 февраля 2017, 07:29То есть предлагается сделать независимые словари для каждого пользователя операционной системы и хранить их в профиле пользователя ОС вместе с настройками LT?
Необязательно так. Ведь суть то в чём?! При проверке текста в текстовом редакторе LT определяются ошибки в словах, которые отсутствуют в основном словаре. Пользователь щёлкает ПКМ по слову и вылетает контекстное меню с кнопкой «добавить в словарь», далее он нажимает на неё. Алгоритм проверяет существование текстового файла со стандартным именем, например, «custom_dictionary.txt». Он может находиться и в директории программы - «\org\languagetool\resource\ru\hunspell\», и в профиле пользователя ОС вместе с настройками LT. Этот выбор должен сделать сам пользователь. Если файла с данным именем не существует, то он создаётся, а если он уже был до этого создан, то новое слово добавляется к списку существующих. Одно слово на строку. Плюс я бы на месте разработчиков добавил бы к функции добавления нового слова в пользовательский словарь ещё и функцию сортировки, чтобы можно было упростить процедуру поиска одинаковых слов с «е» и с «ё», и им подобных. Чтобы сортировка списка слов происходила автоматически каждый раз при запуске функции редактирования пользовательского словаря. Зачем и как? Рядом с кнопкой «добавить в словарь» в контекстном меню должна быть ещё одна кнопка «редактировать словарь», при нажатии на которую пользователь мог бы увидеть небольшое открывшееся окно со всем уже отсортированным списком слов, содержащихся в пользовательском словаре, с возможностью его (списка слов) редактирования, полного или частичного выделения и удаления физически прямо из этого окна. При удалении всех слов из словаря, сам текстовый файл («custom_dictionary.txt») удаляется с жёсткого диска до момента следующего добавления новых слов.

+ исправление небольшого бага:

Цитата: Yakov от  7 февраля 2017, 17:06Но слова из пользовательского словаря пока не предлагаются в качестве вариантов замены при исправлении ошибок (небольшой баг).
Windows 10 Pro v.22H2 build 19045.2006 (x64) + Java v.1.8.0.371 (x64) + Независимый LanguageTool v.6.2-Snapshot от 03.05.2023.

Терехов Иван Сергеевич, Группа «Плач Победы».