Комбинирование признаков для автоматического извлечения терминов
Лукашевич Н.В., Логачев Ю.М.

В статье описывается эксперимент по извлечению двухсловных терминологических словосочетаний на основе комбинирования различных признаков этих словосочетаний. Признаки вычисляются на основе трех источников: статистики употребления слов в текстовой коллекции предметной области, выдачи глобальных поисковых машин и тезауруса предметной области. Для оценки качества извлечения терминов используется терминологические словосочетания из онтологии по естественным наукам и технологиям ОЕНТ. Показано, что использование совокупности признаков словосочетаний значительно улучшает извлечение терминов.

Ключевые слова: извлечение знаний из текстов, извлечение терминов, тезаурус, машинное обучение, поисковая система, Интернет

Название статьи, аннотация и ключевые слова на английском языке

Лукашевич Н.В., ст. науч. сотр., e-mail: louk_nat@mail.ru; Логачев Ю.М., студент ф-та ВМК МГУ, e-mail: yulogachev@gmail.com - Научно-исследовательский вычислительный центр, Московский государственный университет им. М.В. Ломоносова, 119991, Москва