Алгоритмы машинного обучения для задачи анализа и рубрикации электронных документов
Петровский М.И., Глазкова В.В.

     Методы машинного обучения и интеллектуального анализа данных предназначены для решения задач анализа, классификации и выявления скрытых закономерностей в больших объемах разнородных сложно структурированных данных. К таким задачам относится прикладная задача анализа и рубрикации больших коллекций электронных текстовых и гипертекстовых документов. Для ее решения необходима разработка эффективных по точности и скорости алгоритмов для многотемной классификации (multi-label classification), т.е. классификации в условиях существенно перекрывающихся классов, когда любой объект классификации (документ) может принадлежать более чем одному классу (теме) одновременно, а также разработка формальных моделей представления гипертекстовых данных, эффективных по точности представления исходной информации и занимаемой при этом памяти. В настоящей статье предлагается новая модель представления данных, основанная на выделении частых эпизодов лексем (или N-грамм), и новый метод учeта гиперссылок, основанный на классификации с помощью N-граммного классификатора текста адресов гиперссылок и замене их в исходном тексте документа на специальные признаки. Кроме того, исследуется возможность использования подхода на основе декомпозиции "каждый против каждого" для решения задачи многотемной классификации. Предлагается новый метод многотемной классификации, основанный на подходе попарных сравнений с помощью набора бинарных классификаторов, где результирующие вероятности принадлежности документа темам (релевантности классов) вычисляются с помощью обобщенной модели Брэдли--Терри, а нерелевантные классы отсекаются с помощью пороговой функции, заданной в пространстве релевантностей классов. Все разработанные алгоритмы экспериментально проверены на эталонных тестовых наборах данных и показали лучшие результаты по сравнению с традиционными методами. Работа поддержана грантом РФФИ № 06-01-00691, грантом поддержки научных школ № 02.445.11.7427 и грантом Президента РФ МК-4264.2007.9.

Петровский М.И., Глазкова В.В. - Московский государственный университет имени М.В. Ломоносова, факультет вычислительной математики и кибернетики, Ленинские горы, 119899, Москва;     e-mail: mash@cs.msu.ru