МЕТОДЫ И МОДЕЛИ АВТОМАТИЧЕСКОГО ИЗВЛЕЧЕНИЯ КЛЮЧЕВЫХ СЛОВ
Аннотация
Дается обзор и классификация основных методов автоматического извлечения ключевых
слов из текстовых документов, среди которых выделяются статистические и гибридные с ис-
пользованием корпуса текстов или на основе отдельного документа. Анализируются пре-
имущества и недостатки каждого из подходов. Отмечается проблематичность применения
статистических методик для флективных языков, таких как русский. Формулируются требо-
вания к эффективной модели извлечения ключевых слов из текстов на русском языке и дают-
ся конкретные рекомендации для их достижения. Подчеркивается, что для создания эффек-
тивных экстракторов ключевых слов следует учитывать лингвистические типы естественных
языков (аналитический, флективный, агглютинативный, изолирующий), предметную область
(подъязык) и наличие необходимых лингвистических и программных ресурсов. Подход ил-
люстрируется на примере автоматического экстрактора ключевых слов Lana-Key-RU из рус-
скоязычных статей по математическому моделированию.