Релевантный поиск по базе MySQL

04.11.2011 | Категория: Web-мастеру и не только | Автор: ManHunter

Релевантный поиск по базе MySQL

Я уже писал о возможностях поиска с учетом морфологии, а теперь обещанная статья о релевантном поиске по базе MySQL. Как разъясняют словари, релевантность - в поисковых системах - мера соответствия результатов поиска задаче поставленной в запросе. То есть чем ближе найденный результат соответствует искомому, тем выше в результатах поиска он должен находиться. Применительно к выборке из базы, в строках результата релевантность должна быть представлена неким числовым значением, по которому эта выборка должна быть отсортирована.

Начнем с теории. Если мы ищем строку из нескольких слов среди нескольких текстов, то наибольшей релевантностью обладает текст, в котором встречается вся эта строка целиком и точно в том виде, как ее задали к поиску. Затем идут тексты, где есть все слова из искомой фразы, но расположенные не по порядку. После них идут тексты, где встречаются только отдельные слова, и, чем меньше слов из фразы, тем ниже релевантность. К тому же слова из заголовка текста должны иметь поисковый вес больше, чем такие же слова из текста.

Теперь попробуем это реализовать описанный выше алгоритм на PHP и MySQL. На первом шаге надо разобрать поисковую строку на отдельные слова, при этом надо будет отбросить слова, короче трех символов. Если вы внимательно читали комментарии к статье о морфологическом поиске, то наверняка увидели там полезный совет по укорачиванию длинных слов. Его я тоже задействую.

Code (PHP) : Убрать нумерацию

// Разобрать искомую строку $search на отдельные слова
preg_match_all('/[[:alnum:]]{3,}/is',stripslashes($search),$matches);
$words=array_unique($matches[0]);
$true_words=Array();
if (count($words)) {
foreach($words as $word) {
// Обрабатывать только слова длиннее 3 символов
if (strlen($word)>3) {
// От слов длиннее 7 символов отрезать 2 последних буквы
if (strlen($word)>7) {
$word=substr($word,0,(strlen($word)-2));
}
// От слов длиннее 5 символов отрезать последнюю букву
elseif (strlen($word)>5) {
$word=substr($word,0,(strlen($word)-1));
}
$true_words[]=addcslashes(addslashes($word),'%_');
}
}
}
// Список уникальных поисковых слов
$true_words=array_unique($true_words);

Теперь надо распределить весовые коэффициенты между полной фразой и отдельными словами, а также между заголовком и текстом. Значимость заголовка и текста я установил как пропорцию 80/20, мне кажется это наиболее оптимальное соотношение. Для полной фразы в заголовке и тексте я выбрал соотношение 60/20, а для отдельных слов 10/10. Последние коэффициенты 10 и 10 будут еще дополнительно распределяться на каждое входящее слово. Пока не очень понятно, для чего это все сделано, поэтому поясню на примере. Предположим, у нас есть текст:

Заголовок: Мама мыла раму или история успеха



Текст: Однажды мама мыла раму и заработала на этом кучу денег. Теперь у мамы своя фирма по мытью окон.

Как я уже говорил, максимальное значение релевантности будет у текстов, которые содержат искомую фразу целиком, поэтому возьмем фразу "мама мыла раму". Считаем релевантность текста:

Заголовок:

"мама мыла раму" = 60%

вес каждого отдельного слова = (20/3) = ~6.66

"мама" = 6.66%

"мыла" = 6.66%

"раму" = 6.66%



Текст:

"мама мыла раму" = 10%

вес каждого отдельного слова = (10/3) = ~3.33

"мама" = 3.33%

"мыла" = 3.33%

"раму" = 3.33%



Релевантность: ~100%

Небольшая погрешность возникла из-за округления результатов деления. Изменим заголовок текста:

Заголовок: Деловая мама или история успеха



Текст: Однажды мама мыла раму и заработала на этом кучу денег. Теперь у мамы своя фирма по мытью окон.

Смотрим как изменится релевантность при той же поисковой строке:

Заголовок:

вес каждого отдельного слова = (20/3) = ~6.66

"мама" = 6.66%



Текст:

"мама мыла раму" = 10%

вес каждого отдельного слова = (10/3) = ~3.33

"мама" = 3.33%

"мыла" = 3.33%

"раму" = 3.33%



Релевантность: ~26.7%

При этом запрос "история успеха" на том же тексте даст следующий результат:

Заголовок:

"история успеха" = 60%

вес каждого отдельного слова = (20/2) = 10

"история" = 10%

"успеха" = 10%



Текст:

ничего не найдено = 0%



Релевантность: 80%

Надеюсь, что теперь вам понятно для чего используются и как получаются эти цифры. Остался последний шаг - все вышеизложенное надо перевести на PHP и в итоге получить запрос к базе MySQL.

Code (PHP) : Убрать нумерацию

// Вес отдельных слов в заголовке и тексте
$coeff_title=round((20/count($true_words)),2);
$coeff_text=round((10/count($true_words)),2);
// Формируем запрос к базе
$query = "SELECT *, ";
// Условия для полного совпадения фразы в заголовке и тексте
$query .= "( IF (`t_title` LIKE '%".$search."%', 60, 0)";
$query .= "+ IF (`t_text` LIKE '%".$search."%', 10, 0)";
// Условия для каждого из слов
foreach($true_words as $word) {
$query .= "+ IF (`t_title` LIKE '%".$word."%', ".$coeff_title.", 0)";
$query .= "+ IF (`t_text` LIKE '%".$word."%', ".$coeff_text.", 0)";
}
$query.=") AS `relevant` FROM `articles`";
// Условие выборки - вхождение фразы или отдельных слов в заголовок или текст
$query .= " WHERE (";
$query .= " `t_title` LIKE '%".$search."%' OR `t_text` LIKE '%".$search."%'";
// Условия для каждого из слов
foreach($true_words as $word) {
$query .= " OR `t_title` LIKE '%".$word."%'";
$query .= " OR `t_text` LIKE '%".$word."%'";
}
$query .= ") ORDER BY `relevant` DESC";

Так, для поисковой строки "мама мыла раму" получится такой запрос:

SELECT *,

(IF (`t_title` LIKE '%мама мыла раму%', 60, 0)

+ IF (`t_text` LIKE '%мама мыла раму%', 10, 0)

+ IF (`t_title` LIKE '%мама%', 6.67, 0)

+ IF (`t_text` LIKE '%мама%', 3.33, 0)

+ IF (`t_title` LIKE '%мыла%', 6.67, 0)

+ IF (`t_text` LIKE '%мыла%', 3.33, 0)

+ IF (`t_title` LIKE '%раму%', 6.67, 0)

+ IF (`t_text` LIKE '%раму%', 3.33, 0)) AS `relevant`

FROM `articles`

WHERE

(`t_title` LIKE '%мама мыла раму%'

OR `t_text` LIKE '%мама мыла раму%'

OR `t_title` LIKE '%мама%'

OR `t_text` LIKE '%мама%'

OR `t_title` LIKE '%мыла%'

OR `t_text` LIKE '%мыла%'

OR `t_title` LIKE '%раму%'

OR `t_text` LIKE '%раму%')

ORDER BY `relevant` DESC

а для "история успеха" вот такой:

SELECT *,

(IF (`t_title` LIKE '%история успеха%', 60, 0)

+ IF (`t_text` LIKE '%история успеха%', 10, 0)

+ IF (`t_title` LIKE '%история%', 10, 0)

+ IF (`t_text` LIKE '%история%', 5, 0)

+ IF (`t_title` LIKE '%успеха%', 10, 0)

+ IF (`t_text` LIKE '%успеха%', 5, 0)) AS `relevant`

FROM `articles`

WHERE

(`t_title` LIKE '%история успеха%'

OR `t_text` LIKE '%история успеха%'

OR `t_title` LIKE '%история%'

OR `t_text` LIKE '%история%'

OR `t_title` LIKE '%успеха%'

OR `t_text` LIKE '%успеха%')

ORDER BY `relevant` DESC

Выглядит страшновато, но такие запросы обрабатываются сравнительно быстро и их можно кэшировать. Конечно, для огромных объемов информации лучше поискать другие варианты поиска, но для небольших сайтов такое решение будет вполне уместно. Например, у меня на этом блоге используется очень похожий алгоритм поиска и скорость его работы меня полностью устраивает.

Просмотров: 18672 | Комментариев: 13

Метки: MySQL, PHP

Внимание! Статья опубликована больше года назад, информация могла устареть!

то Квази:
полнотекстовый поиск это хорошо но, по моим сведениям, MySQL на данный момент поддерживает полнотекстовый поиск со словоформами только для латиницы. С кирилицой же, введя в поиск "Гутаперче" строки со словами "Гутаперчевый" не найдешь. Знаю есть решение данной проблемы, но, имхо, костыль! В то время как, по моему, в ПроджектSQL словоформы с кирилицей ищет в полнотекстовом поиске.

Так что для сравнительно небольших баз считаю возможным использовать Like

ManHunter (05.12.2012 в 13:16):

Все консультации и выпрямление рук только за деньги.

vladyka (05.12.2012 в 13:14):

Здравствуйте! Сформировал запрос по этому примеру, но есть проблема, и никак не пойму, почему.
Например, запрос
SELECT news_id, '' as page_id, news_subject, '' as page_title, news_extended, '' as page_content, ( IF (`news_subject` LIKE '%ПАВПВ%', 60, 0)+ IF (`news_extended` LIKE '%ПАВПВ%', 10, 0)) AS `rel` FROM `root_news` WHERE ( `news_subject` LIKE '%ПАВПВ%' OR `news_extended` LIKE '%ПАВПВ%') UNION SELECT '' as news_id, page_id, '' as news_subject, page_title, '' as news_extended, page_content,( IF (`page_title` LIKE '%ПАВПВ%', 60, 0)+ IF (`page_content` LIKE '%ПАВПВ%', 10, 0)) AS `rel` FROM `root_custom_pages` WHERE ( `page_title` LIKE '%ПАВПВ%' OR `page_content` LIKE '%ПАВПВ%') ORDER BY rel DESC LIMIT 0,20
выводит 117 результатов, хотя совпадений нет ни в одном, да и слово бессмысленное. Такое же и с некоторыми нормальными словами. Как с этим бороться?
Большинство запросов обрабатываются адекватно.

Nashev (10.01.2012 в 18:19):

Респект!

Квази (14.11.2011 в 14:47):

Спасибо за развёрнутый ответ!

ManHunter (14.11.2011 в 11:23):

Не надо так категорично заявлять. FULLTEXT и MATCH-AGAINST - это хорошо и здорово, но они работают только на таблицах MyISAM, не говоря о том, что в базе придется еще хранить эти FULLTEXT-индексы.
Дальше открываем мануал MySQL: "Релевантность вычисляется на основе количества слов в данной строке столбца, количества уникальных слов в этой строке, общего количества слов в тексте и числа документов (строк), содержащих отдельное слово." Что это значит? Это значит, что короткая фраза в огромном тексте будет иметь крохотную релевантность, хотя фактически это не так.
И еще там же в мануале: "Описанная техника подсчета лучше всего работает для больших наборов текстов (фактически она именно для этого тщательно настраивалась). Для очень малых таблиц распределение слов не отражает адекватно их смысловое значение, и данная модель иногда может выдавать некорректные результаты." Для моего блога критично, чтобы поиск был максимально точный, и описанный способ мне подходит больше всего, к тому же в этой реализации я могу самостоятельно определять вес релевантности заголовка и текста.
Ну и наконец, если искомое слово встречается более чем в 50% статей, то оно вообще будет проигнорировано. Для огромной базы это, возможно, правильное поведение, но мне опять же нужна максимальная точность.
Поэтому для каждой задачи должно быть свое решение, а не закидоны "Только ZZZ - это хорошо, а все остальное хуйня".

Квази (14.11.2011 в 10:40):

Вообще-то поиск с использованием LIKE - это не есть хорошо! Нужно использовать полнотекстовый поиск, вот это вариант.

Добавить комментарий

Заполните форму для добавления комментария

Если программист в девять утра уже на работе, значит он там же и ночевал

Главная страница Web-мастеру и не только Образ мышления: Assembler Мои программы Software Темная сторона Силы Обзоры техники А еще я туда ем! Жизнь в оффлайне Всякая всячина

Карта сайта Ссылки Обратная связь Правила сайта Настройки сайта RSS-канал

Материалы, опубликованные на этом сайте, не рекомендуются к просмотру лицам в возрасте до 16 лет без присутствия взрослых.

Метки статей

Свернуть

Вам помог этот сайт?

Поблагодарили 34,349 раз

Международный день секретаря

Международный день солидарности молодежи

Всемирный день защиты лабораторных животных

Всемирная неделя иммунизации

Нашли на сайте орфографическую ошибку? Выделите ее мышкой и нажмите

Ctrl

Enter

Буду очень благодарен, если размеcтите мою кнопочку:

<a href="https://www.manhunter.ru" target="_blank"><img src="https://www.manhunter.ru/images/button.gif" alt="Личный блог ManHunter'а" title="Личный блог ManHunter'а" width="88" height="31" /></a>

$Яндекс тИЦ: {YANDEX_TIC}$

Яндекс ИКС: 380

Сейчас я слушаю

---

- автообновление

Powered by PCL's Speckled Band Engine 0.2 RC3
© ManHunter / PCL, 2008-2024
При использовании материалов ссылка на сайт обязательна
Время генерации: 0.1 сек. / MySQL: 2 (0.0073 сек.) / Память: 4.5 Mb

	2024 - АПРЕЛЬ
Пн	Вт	Ср	Чт	Пт	Сб	Вс
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Релевантный поиск по базе MySQL

Комментарии

Добавить комментарий