Выполнение распределенных вычислительных экспериментов на MLOps платформе НИУ ВШЭ

Авторы

  • Антон Сергеевич Хританков Автор
  • Валентин Александрович Полежаев Автор
  • Георгий Александрович Жуликов Автор
  • Максим Сергеевич Галынчик Автор
  • Никита Андреевич Климин Автор
  • Кирилл Евгеньевич Сахаров Автор
  • Виктор Олегович Минченков Автор
  • Иван Вячеславович Спирин Автор
  • Иван Игоревич Крупнов Автор
  • Софья Федоровна Якушева Автор
  • Александра Сергеевна Маратканова Автор
  • Вячеслав Иванович Козырев Автор
  • Павел Сергеевич Костенецкий Автор
  • Хади Мухаммед Салех Автор

Аннотация

Несмотря на распространение и успешные применения средств интеллектуального анализа и обработки данных для решения отдельных прикладных задач, все еще не решена проблема разработки технологии создания таких программных средств. В работе в контексте единого процесса MLOps создания технологий машинного обучения рассматриваются возникающие задачи автоматизации и выполнения распределенных вычислительных экспериментов на базе единой вычислительной платформы. Разрабатываемая в НИУ ВШЭ платформа MLOps предназначена для развертывания интеллектуальных веб-сервисов и программных средств анализа данных. Платформа должна управлять доступными локально и в облачной среде разнородными ресурсами и объединять их с ресурсами вычислительного кластера cHARISMa НИУ ВШЭ под управлением Slurm. Таким образом актуальна задача интеграции указанных ресурсов для проведения вычислительных экспериментов, реализации конвейеров настройки моделей машинного обучения, решения задач обработки и анализа данных. Особенностями решаемой задачи являются рассмотрение процесса вычислений, как составной части технологии создания интеллектуальных веб-сервисов, обусловленная этой технологией необходимость использования разнородных ресурсов и использование единой гибридной платформы для выполнения вычислений. В работе предложено решение указанной задачи интеграции вычислений и приведены результаты апробации решения для интеллектуальных веб-сервисов. Показана принципиальная возможность такой интеграции разнородных ресурсов в одном вычислительном эксперименте на базе расширяемой пользователем объектной модели эксперимента и предметно-ориентированного языка его спецификации, решены вопросы динамического управления развертыванием интеллектуальных приложений, интеграции конвейеров обработки данных, веб-сервисов и наборов данных для выполнения распределенных вычислительных экспериментов.

Опубликован

2025-07-10

Выпуск

Раздел

Информатика, вычислительная техника и управление