Ранжирование документов по запросу на основе лога действий пользователей поисковой системы
Агеев М.С.

Предложен алгоритм улучшения качества ранжирования поисковой системы на основе предсказания релевантности документов запросу. Для предсказания релевантности используются методы машинного обучения и извлечения информации из логов. Высокая эффективность алгоритма продемонстрирована на реальных, полномасштабных данных поисковой системы. Алгоритм распараллеливается по технологии MapReduce, что позволяет обрабатывать логи и производить машинное обучение на кластерной архитектуре. Разработанная методика формирования факторов ранжирования может применяться для различных задач извлечения знаний из логов. Работа выполнена при финансовой поддержке РФФИ (проект 12-07-31225-мол_а).

Ключевые слова: поисковые системы, машинное обучение, анализ логов

Название статьи, аннотация и ключевые слова на английском языке

Агеев М.С., ст. науч. сотр., e-mail: mageev@yandex.ru – Научно-исследовательский вычислительный центр, Московский государственный университет им. М.В. Ломоносова, Ленинские горы, д. 1, стр. 4, 119992, Москва