Language Tool - проверка грамматики для русского языка

Yakov · 25 октября 2015, 17:19

Например, фраза из слов word1 word2 word3 встречается в текстах с вероятностью 0,001%, а фраза из слов word1 word3 word2 не встречается вообще, значит 2 фраза – ошибочная.

greenman · 25 октября 2015, 18:38

Цитата: Yakov от 24 октября 2015, 21:51Объём этих данных в упакованном виде - 8 Гб.

Офигеть. Лет десять назад traum library весила около 8GB.

alexeyI · 18 мая 2016, 13:58

Привет
Есть текст следующего вида - хххххххх = ууууууууу, требуется орфографическая проверка только для ууууууууууу
Создаю правило в disambiguation.xml вида

<rule name="1" id="2">
<pattern>
<token regexp="yes">^(.*?)=</token>
</pattern>
<disambig action="immunize"/>
</rule>

И ничего не работает. Если в регэкспе менять = на любые другие символы, например буквенные - все отрабатывает замечательно. Вообще, паттерн верный, и в джаве и в джаваскрипте работает. Кто знает в чем может быть проблема или в куда обратиться?

Yakov · 18 мая 2016, 16:14

disambiguation.xml относится только к проверке грамматики, для проверки орфографии он не используется

Yakov · 18 мая 2016, 16:18

Скорей всего regexp надо так записывать:

Код Выделить


<token regexp="yes">^(.*?)[=]</token>

Yakov · 18 мая 2016, 16:20

Это ваша тема?
http://forum.languagetool.org/t/problem-with-regexp-based-rule/868

CryVICSky · 3 февраля 2017, 22:32

Планируется ли в ближайшее время реализация в программном интерфейсе независимой сборки LT функционала пользовательского словаря подобного тому, который реализован в LibreOffice?

Yakov · 4 февраля 2017, 18:40

Такая функциональность реализована в расширении для браузеров FireFox и GoogeChrome.
В ближайшем релизе планируется пересобрать встроенный словарь частей речи с расширенными грамматическими характеристиками.

Yakov · 6 февраля 2017, 19:28

Цитата: CryVICSky от 3 февраля 2017, 20:32реализация в программном интерфейсе независимой сборки LT функционала пользовательского словаря

Есть issue 493

CryVICSky · 7 февраля 2017, 18:08

Цитата: Yakov от 6 февраля 2017, 17:28Есть issue 493

Я правильно понимаю тот факт, что данная функциональность ещё не реализована, а только предложена к реализации, причём уже относительно давно? Судя по тому, что описано в предложении #493, можно сделать вывод: подобная реализация решит сразу две задачи. На функциональном уровне создаётся и пополняется отдельный пользовательский словарь, и, таким образом, пропускаются «неизвестные» (отсутствующие в основном словаре) слова при проверке орфографии. Мне тоже подобное решение обеих проблем представляется идеальным.

Yakov · 7 февраля 2017, 19:06

Цитата: CryVICSky от 7 февраля 2017, 16:08ещё не реализована, а только предложена к реализации

Да.

Цитата: CryVICSky от 7 февраля 2017, 16:08На функциональном уровне создаётся и пополняется отдельный пользовательский словарь

Этот словарь и сейчас есть. Я периодически пополняю его словами, собранными с помощью формы
http://myooo.ru/component/option,com_addtodictsuggest/Itemid,135/
Но слова из пользовательского словаря пока не предлагаются в качестве вариантов замены при исправлении ошибок (небольшой баг).

CryVICSky · 8 февраля 2017, 23:36

Цитата: Yakov от 7 февраля 2017, 17:06Этот словарь и сейчас есть. Я периодически пополняю его словами, собранными с помощью формы.

Здесь требуется уточнение. Пользовательский словарь, он на то и пользовательский, потому что заполняется самими пользователями (каждым в отдельности) и никем больше. Его заполнение и открытие должно происходить максимально просто для всех пользователей, чтобы не нужно было лезть в файловые дебри приложения. Разработчиками изначально это должно было быть реализовано на функциональном уровне, в самом интерфейсе приложения, причём на самом видном и удобном месте.

Цитата: Yakov от 4 февраля 2017, 16:40Такая функциональность реализована в расширении для браузеров FireFox и GoogeChrome.

Эта функция для браузера действительно удобная, но является вспомогательной. Для самого же текстового редактора LT она представляется более значимой и, соответственно, её реализации должно быть уделено большее количество внимания.

kompilainenn · 9 февраля 2017, 06:51

Цитата: CryVICSky от 8 февраля 2017, 21:36Разработчиками изначально это должно было быть реализовано

Цитата: CryVICSky от 8 февраля 2017, 21:36её реализации должно быть уделено большее количество внимания

слово "должен" слабо играет в диспутах вокруг опенсорц

Yakov · 9 февраля 2017, 09:29

Цитата: CryVICSky от 8 февраля 2017, 21:36заполняется самими пользователями (каждым в отдельности)

То есть предлагается сделать независимые словари для каждого пользователя операционной системы и хранить их в профиле пользователя ОС вместе с настройками LT?

CryVICSky · 9 февраля 2017, 21:13

Цитата: kompilainenn от 9 февраля 2017, 04:51слово "должен" слабо играет в диспутах вокруг опенсорц

Я имел в виду то, что если уж взялись делать, то должны были реализовать подобную функциональность сразу, чтобы потом пользователи от них этого не требовали.

Цитата: Yakov от 9 февраля 2017, 07:29То есть предлагается сделать независимые словари для каждого пользователя операционной системы и хранить их в профиле пользователя ОС вместе с настройками LT?

Необязательно так. Ведь суть то в чём?! При проверке текста в текстовом редакторе LT определяются ошибки в словах, которые отсутствуют в основном словаре. Пользователь щёлкает ПКМ по слову и вылетает контекстное меню с кнопкой «добавить в словарь», далее он нажимает на неё. Алгоритм проверяет существование текстового файла со стандартным именем, например, «custom_dictionary.txt». Он может находиться и в директории программы - «\org\languagetool\resource\ru\hunspell\», и в профиле пользователя ОС вместе с настройками LT. Этот выбор должен сделать сам пользователь. Если файла с данным именем не существует, то он создаётся, а если он уже был до этого создан, то новое слово добавляется к списку существующих. Одно слово на строку. Плюс я бы на месте разработчиков добавил бы к функции добавления нового слова в пользовательский словарь ещё и функцию сортировки, чтобы можно было упростить процедуру поиска одинаковых слов с «е» и с «ё», и им подобных. Чтобы сортировка списка слов происходила автоматически каждый раз при запуске функции редактирования пользовательского словаря. Зачем и как? Рядом с кнопкой «добавить в словарь» в контекстном меню должна быть ещё одна кнопка «редактировать словарь», при нажатии на которую пользователь мог бы увидеть небольшое открывшееся окно со всем уже отсортированным списком слов, содержащихся в пользовательском словаре, с возможностью его (списка слов) редактирования, полного или частичного выделения и удаления физически прямо из этого окна. При удалении всех слов из словаря, сам текстовый файл («custom_dictionary.txt») удаляется с жёсткого диска до момента следующего добавления новых слов.

+ исправление небольшого бага:

Цитата: Yakov от 7 февраля 2017, 17:06Но слова из пользовательского словаря пока не предлагаются в качестве вариантов замены при исправлении ошибок (небольшой баг).

Форум поддержки пользователей LibreOffice, Apache OpenOffice

Новости:

Language Tool - проверка грамматики для русского языка

Yakov

greenman

alexeyI

Yakov

Yakov

Yakov

CryVICSky

Yakov

Yakov

CryVICSky

Yakov

CryVICSky

kompilainenn

Yakov

CryVICSky