Форум поддержки пользователей. LibreOffice, Apache OpenOffice, OpenOffice.org

Форум поддержки пользователей. LibreOffice, Apache OpenOffice, OpenOffice.org

25 Ноябрь 2017, 08:31 *
Добро пожаловать, Гость. Пожалуйста, войдите или зарегистрируйтесь.
Вам не пришло письмо с кодом активации?

Войти
Новости: Вы можете задать вопрос по LibreOffice или Apache OpenOffice  без регистрации, используя форму
 
   Начало   Помощь Поиск Войти Регистрация    задать вопрос  
Страниц: « 1 2   Вниз
  Печать  
Автор Тема: База данных с пропущенными символами в названиях  (Прочитано 768 раз)
0 Пользователей и 1 Гость смотрят эту тему.
JohnSUN
Капитана в тот день называли на "ты"
Гуру
*******
Offline Offline

Пол: Мужской
Расположение: Киев
Сообщений: 2 359


Помогаю людям и компьютерам понимать друг друга


WWW
« Ответ #15: 27 Август 2017, 22:23 »

Ну, погляди в поиске ещё и "Поиск подобных", как альтернативу регэкспам
Записан

Владислав Орлов aka JohnSUN
Благодарить-не зазорно.
Подарить благо создателям офиса, нашему ресурсу, мне
vitaliian
Новичок
*
Offline Offline

Сообщений: 22


« Ответ #16: 27 Август 2017, 22:55 »

первое работающее решение... формулу осторожно можно тянуть вниз. Если тянуть не осторожно calc зависнет в вычислениях. Когда изменил последний аргумент формулы на ноль, точность и скорость поиска существенно выросла, зато появилось больше пропусков.

* поиск совпадений.ods (570.69 Кб - загружено 8 раз.)
« Последнее редактирование: 28 Август 2017, 08:28 от vitaliian » Записан
rami
Гуру
*******
Offline Offline

Пол: Мужской
Сообщений: 2 295


MacBook Pro, LibreOffice и Apache OpenOffice


« Ответ #17: 28 Август 2017, 08:36 »

Когда изменил последний аргумент формулы на ноль, точность и скорость поиска существенно выросла, зато появилось больше пропусков.
В данном случае должен быть ноль, т.е. "поиск точного совпадения" (насколько это возможно при наличии не известных букв). Лучше не получить ничего, чем получить не верный результат. Когда вместо отсутствующей буквы подходят несколько функция VLOOKUP выберет первую из возможных и это не всегда будет правильно. Для решения данной задачи нужно создавать механизм вроде проверки грамматики с автоматической подстановкой однозначных значений и списком выбора если их несколько.

Кстати, словарь нужно очищать от дубликатов, коих больше 560 штук.
Записан

vitaliian
Новичок
*
Offline Offline

Сообщений: 22


« Ответ #18: 28 Август 2017, 08:49 »

Вы уверены, что Calc - это лучшее решение для таких задач?

Как ни странно да. Приведу пример, есть 50 тыс. анкет (писем, объявлений) заполненных вручную, с дичайшим количеством ошибок (в т.ч. опечаток), которые затрудняют анализ. Все время приходится искать текст с применением регулярных выражений. Есть мысль в оригинальном тексте заменить ключевые слова поиска (их не больше 100) на маски наподобии "п....м" = "продам", "г...ж" = "гараж", "п......е" ="приятное", "п.........е" = "путешествие" и т.д. В словарик будут внесены эталонные образцы, по которым в соседние столбцы подтянутся "правильные" эквиваленты. Не в ворде же это делать?

Кстати, словарь нужно очищать от дубликатов, коих больше 560 штук.

очищать словарь от дубликатов - самое легкое задание на свете  Подмигивающий
надо бы завести 3й столбец с альтернативными вариантами. "лу#" может быть "луг" и "лук"
« Последнее редактирование: 28 Август 2017, 08:54 от vitaliian » Записан
rami
Гуру
*******
Offline Offline

Пол: Мужской
Сообщений: 2 295


MacBook Pro, LibreOffice и Apache OpenOffice


« Ответ #19: 28 Август 2017, 08:54 »

очищать словарь от дубликатов - самое легкое задание из тех что можно придумать)
надо бы завести 3й столбец с альтернативными вариантами. "лу#" => "луг" и "лук"
Тогда ещё "луч" и "луб". А что дальше с третьим столбцом?
Записан

vitaliian
Новичок
*
Offline Offline

Сообщений: 22


« Ответ #20: 28 Август 2017, 08:58 »


Тогда ещё "луч" и "луб". А что дальше с третьим столбцом?

дальше один раз таки придётся вмешаться ручками, чтобы определить "луг", "лук" или "луч" в данном контексте нам нужен. К счастью, таких слов не так уж и много. Так же есть адское сочетание  "оро" "оло", там побольше вариантов будет... Я еще не придумал как научить Calc понимать смысл текста, чтобы само подбирало более подходящее по смыслу слово, но тематика текста мне всегда известна, значит "правильные" варианты можно регулировать тематическими словарями.
« Последнее редактирование: 28 Август 2017, 10:20 от vitaliian » Записан
Страниц: « 1 2   Вверх
  Печать  
 
Перейти в:  

Powered by MySQL Powered by PHP Powered by SMF 1.1.21 | SMF © 2006-2009, Simple Machines Valid XHTML 1.0! Valid CSS!