Метод обнаружения массово порожденных неестественных текстов на основе анализа тематической структуры
Павлов А.С., Добров Б.В.

Поисковый спам - одна из основных угроз для современных поисковых систем. Спамеры используют разнообразные алгоритмы для массового порождения неестественных текстов. Рассматривается обобщенная теоретическая модель текстов, порождаемых на основе документов-образцов, а также предложен новый алгоритм обнаружения неестественных текстов на основе анализа тематической структуры текстов. Предложенный алгоритм апробирован на синтетических и реальных данных.

Ключевые слова: поисковый спам, тематическая структура, моделирование

Название статьи, аннотация и ключевые слова на английском языке

Павлов А.С., аспирант, e-mail: pavvloff@gmail.com - Московский государственный университет им. М.В. Ломоносова, факультет вычислительной математики и кибернетики, Ленинские горы, 119991, Москва;
Добров Б.В., зав. лаб., e-mail: dobroff@mail.cir.ru - Научно-исследовательский вычислительный центр, Московский государственный университет им. М.В. Ломоносова, Ленинские горы, д. 1, стр. 4, 119991, Москва