Обычное сравнение 2х столбцов

AlexSher · 19 апреля 2017, 13:15

Здравствуйте.
Подскажите, помогите кто знает

Есть ключевые слова, больше 11000 в одной колонке и около 2000 в другой колонке. Даже не слова а фразы где много слов.

Нужно сравнить не пересекаются ли они. Не совпадают ли полностью.

Те которые пересеклись, по возможности либо выписать рядом в колонку, либо выделить как-то... лучше выписать наверное.

JohnSUN · 19 апреля 2017, 13:23

Добро пожаловать на форум, AlexSher!
Количество значений не существенно, это может сказаться только на проворстве офиса - ну, чуть дольше ждать результата, делов-то!
Хотелось бы увидеть образец этих данных - штук 50 ключевых слов и с десяток фраз с разными вариантами совпадений. Можете приложить такой файл?

AlexSher · 19 апреля 2017, 13:33

Спасибо за ответ!
Да, вот накидал пример.
В третьей колонке пометил те которые должны совпадать.

JohnSUN · 19 апреля 2017, 14:01

Ну, с полным совпадением всё понятно, это не сложно
Для начала нужно бы слегка почистить данные - удалить дубли из "наших ключей" и из "чужих ключей". Проще всего это сделать с помощью Стандартного фильтра (на картинке).
А потом совсем просто - объединяем данные двух массивов (просто дописываем чужие ключи в тот же столбец), в соседней колонке пишем

Код Выделить

=COUNTIF(A:A;A2)
(эта формула сообщит, сколько раз значение из ячейки встречается в колонке), растягиваем формулу до конца данных (Ctrl+Shift+End и Ctrl+D) и опять применяем фильтр - отбираем записи, которые встретились больше одного раза.

Но это точное совпадение. А что имелось в виду под "пересечением"?

AlexSher · 19 апреля 2017, 14:25

Спасибо за помощь!

Но этот вариант не совсем подойдет.

1) Когда я пытаюсь удалить дубли, у меня выходит очень много фраз, они по факту повторяются друг в друге + еще слова.
Это как бы разные ключи. Если они в рамках одной компании.
Например: "грузоперевозки Новосибирск" и "грузоперевозки Новосибирск цена" и "грузоперевозки Новосибирск транспортная компания" - если они в рамках одной компании то это все правильно, они не дубликаты, а разные ключи.

Вот если бы так сравнивалось между 2мя столбцами, между двумя списками ключей - это было бы здорово, т.к. там они похорошему вообще не должны пересекаться.

2) Если вывести напротив каждого ключа, цифру сколько раз она повторяется, то мне придется листать о конца список с 13000+ строк.
Или как то еще упорядочить? оставить те, которые более 2х раз употребляются ?

JohnSUN · 19 апреля 2017, 15:15

Об удалении дублей я заговорил по той простой причине, что в образце эти самые дубли встретились ("ж д доставка грузов" и "компании грузоперевозок" по два раза, а "ответственное хранение" встретилось трижды в колонке A). При моём способе определения совпадающих фраз эти строки вызвали бы ложное срабатывание и привели бы к неправильному результату.

Цитата: AlexSher от 19 апреля 2017, 14:25
Если вывести напротив каждого ключа, цифру сколько раз она повторяется, то мне придется листать о конца список с 13000+ строк.

Ой, нет! Только не это, шеф, только не это!

Цитата: AlexSher от 19 апреля 2017, 14:25
Или как то еще упорядочить? оставить те, которые более 2х раз употребляются ?

Совершенно верно! Я именно про это написал

Цитата: JohnSUN от 19 апреля 2017, 14:01
и опять применяем фильтр - отбираем записи, которые встретились больше одного раза.

rami · 19 апреля 2017, 16:12

Давайте попробуем вариант попроще (тоже фильтр, но другой):

1. под заголовками вставьте новую строку и в ячейках A2 и B2 запишите одинаковое слово (например, ключ) см. снимок
2. выделим диапазон A2:A11000 (до низа данных)
3. открываем окно Расширенного фильтра и заполняем:
4. Взять условия фильтра из — выбираем диапазон из столбца B (до низа данных), пишем (B2:B2000)
5. ставим "птички" Без повторений и
6. Копировать результат в: — выбираем адрес начальной ячейки для результата
7. OK

Важно! чтобы фильтр сработал заголовки данных в столбцах A и B должны быть одинаковые (первую строку с вашими заголовками игнорируем).

AlexSher · 20 апреля 2017, 12:31

Цитата: rami от 19 апреля 2017, 16:12
Давайте попробуем вариант попроще (тоже фильтр, но другой):

1. под заголовками вставьте новую строку и в ячейках A2 и B2 запишите одинаковое слово (например, ключ) см. снимок
2. выделим диапазон A2:A11000 (до низа данных)
3. открываем окно Расширенного фильтра и заполняем:
4. Взять условия фильтра из — выбираем диапазон из столбца B (до низа данных), пишем (B2:B2000)
5. ставим "птички" Без повторений и
6. Копировать результат в: — выбираем адрес начальной ячейки для результата
7. OK

Важно! чтобы фильтр сработал заголовки данных в столбцах A и B должны быть одинаковые (первую строку с вашими заголовками игнорируем).

Спасибо! Ваш Вариант сработал!

Цитата: JohnSUN от 19 апреля 2017, 15:15
Об удалении дублей я заговорил по той простой причине, что в образце эти самые дубли встретились ("ж д доставка грузов" и "компании грузоперевозок" по два раза, а "ответственное хранение" встретилось трижды в колонке A). При моём способе определения совпадающих фраз эти строки вызвали бы ложное срабатывание и привели бы к неправильному результату.
Цитата: AlexSher от 19 апреля 2017, 14:25
Если вывести напротив каждого ключа, цифру сколько раз она повторяется, то мне придется листать о конца список с 13000+ строк.
Ой, нет! Только не это, шеф, только не это!
Цитата: AlexSher от 19 апреля 2017, 14:25
Или как то еще упорядочить? оставить те, которые более 2х раз употребляются ?
Совершенно верно! Я именно про это написал
Цитата: JohnSUN от 19 апреля 2017, 14:01
и опять применяем фильтр - отбираем записи, которые встретились больше одного раза.

Спасибо Вам тоже огромное!

joshua · 22 мая 2017, 15:15

Возможно уже не актуально, но может кому пригодиться...

Надо просто вставить данные в столбец А и B.
На закладке Result он выдаст те значения столбца В, которые встречаются в А(хотя бы раз)
Если совпадений больше, то надо просто протянуть формулу на закладке Result ниже, до тех пор пока не появиться надпись "...КОНЕЦ СОВПАДЕНИЙ"

Форум поддержки пользователей LibreOffice, Apache OpenOffice

Новости:

Обычное сравнение 2х столбцов

AlexSher

JohnSUN

AlexSher

JohnSUN

AlexSher

JohnSUN

rami

AlexSher

joshua