Cемантический поиск учебных дисциплин под требования рынка труда на основе нейросетевых моделей языка

Дмитрий Сергеевич Ботов; Юрий Владиславович Дмитрин; Юлий Дмитриевич Кленин

Авторы

Дмитрий Сергеевич Ботов Автор
Юрий Владиславович Дмитрин Автор
Юлий Дмитриевич Кленин Автор

Аннотация

В условиях роста объема открытого образовательного контента, повышения требований к профессиональному образованию со стороны рынка труда, развития концепции обучения в течение всей жизни (Lifelong Learning) сегодня крайне актуальной является задача регулярного обновления содержания образовательных программ и отдельных дисциплин. В статье рассматривается метод семантического поиска образовательного контента под заданные требования рынка труда, определяемые профессиональными стандартами. В отличие от традиционных подходов сопоставления и анализа содержания образовательных программ, основанных на онтологических моделях и правилах, предлагается использовать подход к распределенному представлению слов (word embeddings) с помощью известных нейросетевых моделей языка word2vec и fastText. В качестве исходных запросов выступают фрагменты профессиональных стандартов – конкретные требования к знаниям, умениям и описания трудовых действий и трудовых функций, а в качестве искомых документов – описания учебных дисциплин и онлайн-курсов, включающие аннотацию, результаты обучения, структуру и содержание основных тем. Приводятся данные экспертной оценки качества ранжирования по метрике NDCG (Normalized Discounted Cumulative Gain) и точности семантического поиска по метрике MAP (Mean Average Precision) на представительном корпусе программ учебных дисциплин вузов по ИТ-направлениям и массовых открытых онлайн-курсов. Лучшие результаты для поиска показывают модели word2vec и fastText, обучаемые без учителя на больших специально подготовленных корпусах текстов программ учебных дисциплин и описаний онлайн-курсов. Для перехода от векторов слов к векторам текстов исследуются разные способы усреднения векторов слов, полученных от нейросетевых моделей, в сочетании с векторной моделью TF-IDF.

Биографии авторов

Дмитрий Сергеевич Ботов

старший преподаватель кафедры информационных технологий и экономической информатики
Юрий Владиславович Дмитрин

аспирант кафедры информационных технологий и экономической информатики
Юлий Дмитриевич Кленин

аспирант кафедры информационных технологий и экономической информатики

Cемантический поиск учебных дисциплин под требования рынка труда на основе нейросетевых моделей языка

Авторы

Аннотация

Биографии авторов

Опубликован

Выпуск

Раздел