Математическое моделирование рекомендательной системы и обработка данных телекоммуникационной компании с помощью моделей машинного обучения

Авторы

  • Никита Андреевич Андриянов Автор
  • Мадина-Бону Рустамовна Атаходжаева Автор
  • Евгений Игоревич Бородин Автор

Аннотация

Цель исследования: разработка методов моделирования данных для разработки рекомендатель-ных алгоритмов с использованием дважды стохастических авторегрессионных моделей случайных процессов и проверка их адекватности путем применения алгоритмов машинного обучения для кла-стеризации пользователей в имитируемом наборе данных и прогнозирования вероятностей интере-са. Методы исследования. В статье рассмотрены методы, используемые при построении рекомен-дательных систем. При этом рассмотрена задача моделирования поведения пользователей с помо-щью дважды стохастической модели. Данная модель предложена для генерации искусственных данных. Дважды стохастическая модель позволяет генерировать нестационарные процессы, таким образом, создает пользователей с разными вероятностными свойствами в разных группах объектов интереса. После этого искусственно созданные пользователи (и их активность) кластеризуются на основе модифицированного алгоритма K-средних. Основная модификация заключается в необхо-димости автоматической предварительной оценки числа кластеров, а не его выбора человеком. Да-лее моделируется поведение представителей каждой группы пользователей для новых событий. На основе сгенерированной информации и обучающих данных решается задача прогнозирования и ранжирования предлагаемых услуг. При этом на первом этапе использования регрессионных моде-лей достаточно для отнесения пользователя к группе и формирования предложений данному поль-зователю. Результаты исследования. На обучающих данных в 2 кластерах были достигнуты вы-сокие индексы детерминации, что говорит примерно о 90 % объясненной дисперсии при использо-вании предложенной дважды стохастической модели. Особое внимание уделено работе современ-ных рекомендательных систем на примере системы «Диско» от Яндекс. Кроме того, выполнена пре-добработка и предварительный анализ данных реального сектора, а именно: исследуются данные телекоммуникационной компании. С целью выдачи релевантных предложений по услугам связи разработана тестовая рекомендательная система. Заключение. Таким образом, к основным резуль-татам работы относится математическая модель, симулирующая реакцию пользователей на раз-личные услуги, а также модель логистической регрессии, используемая для прогнозирования веро-ятности заинтересованности пользователя новой услугой. На основе прогнозируемых вероятностей не составляет труда ранжирование новых предложений. Апробация на синтезированных данных показала высокую эффективность модели.

Биографии авторов

  • Никита Андреевич Андриянов
    канд. техн. наук, доцент Департамента анализа данных и машинного обучения
  • Мадина-Бону Рустамовна Атаходжаева
    магистрант Департамента анализа данных и машинного обучения
  • Евгений Игоревич Бородин
    аспирант Департамента анализа данных и машинного обучения

Опубликован

2022-05-17

Выпуск

Раздел

Информатика и вычислительная техника