МЕТОДЫ И МОДЕЛИ АВТОМАТИЧЕСКОГО ИЗВЛЕЧЕНИЯ КЛЮЧЕВЫХ СЛОВ

Авторы

  • Светлана Олеговна Шереметьева Автор
  • Павел Григорьевич Осминин Автор

Аннотация

Дается обзор и классификация основных методов автоматического извлечения ключевых
слов из текстовых документов, среди которых выделяются статистические и гибридные с ис-
пользованием корпуса текстов или на основе отдельного документа. Анализируются пре-
имущества и недостатки каждого из подходов. Отмечается проблематичность применения
статистических методик для флективных языков, таких как русский. Формулируются требо-
вания к эффективной модели извлечения ключевых слов из текстов на русском языке и дают-
ся конкретные рекомендации для их достижения. Подчеркивается, что для создания эффек-
тивных экстракторов ключевых слов следует учитывать лингвистические типы естественных
языков (аналитический, флективный, агглютинативный, изолирующий), предметную область
(подъязык) и наличие необходимых лингвистических и программных ресурсов. Подход ил-
люстрируется на примере автоматического экстрактора ключевых слов Lana-Key-RU из рус-
скоязычных статей по математическому моделированию.

Биографии авторов

  • Светлана Олеговна Шереметьева

    доктор филологических наук, профессор кафедры лингвистики и межкультурной коммуникации, Южно-Уральский государственный университет (Челябинск),
    linklana@yahoo.com

  • Павел Григорьевич Осминин

    преподаватель кафедры лингвистики и межкультурной коммуникации, Южно-Уральский государственный университет (Челябинск), osperevod@gmail.com

Выпуск

Раздел

Статьи