Регуляризация многоязычных тематических моделей
Дударенко М.А.

Предлагается многоязычная вероятностная тематическая модель, одновременно учитывающая двуязычный словарь и связи между документами параллельной или сравнимой коллекции. Для комбинирования этих двух видов информации применяется аддитивная регуляризация тематических моделей (ARTM). Предлагаются два способа использования двуязычного словаря: первый учитывает только сам факт связи между словами–переводами, во втором настраиваются вероятности переводов в каждой теме. Качество многоязычных моделей измеряется на задаче кросс-язычного поиска, когда запросом является документ на одном языке, а поиск производится среди документов другого языка. Показано, что комбинированный учет слов–переводов из двуязычного словаря и связанных документов улучшает качество кросс-язычного поиска по сравнению с моделями, использующими только один тип информации. Сравнение разных методов включения в модель двуязычных словарей показывает, что оценивание вероятностей переводов не только улучшает качество модели, но и позволяет находить тематический контекст для пар "слово–перевод".}

Ключевые слова: многоязычная тематическая модель, вероятностная тематическая модель, параллельная коллекция, сравнимая коллекция, двуязычный словарь, регуляризация, кросс-язычный поиск.

Название статьи, аннотация и ключевые слова на английском языке

  • Дударенко М.А. – Московский государственный университет им. М.В.Ломоносова, факультет вычислительной математики и кибернетики, Ленинские горы, 119992, Москва; аспирант, e-mail: m.dudarenko@gmail.com