МОДЕЛИ МАШИННОГО ОБУЧЕНИЯ В ЗАДАЧЕ ПРОГНОЗИРОВАНИЯ ПРИРОДНО-РЕСУРСНОГО ПОТЕНЦИАЛА ПЕРМСКОГО КРАЯ
Аннотация
В статье рассматривается проблема повышения качества моделирования и прогнозирования комплексного показателя природно-ресурсного потенциала региона за счет использования некоторых моделей машинного обучения с учителем. Актуальность решаемой задачи объясняется тем, что традиционно используемые для данных целей модели демонстрируют либо слишком низкое качество, либо сложны в настройке и оценке их параметров. Цель исследования: определение моделей машинного обучения, обеспечивающих оптимальные значения различных метрик качества моделирования. Материалы и методы. Для целей исследования рассмотрены модели множественной линейной регрессии, дерева принятия решений, случайного леса, градиентного бустинга и многослойного персептрона. В качестве метрик качества выбраны коэффициент детерминации R2, арифметический квадратный корень из средней квадратической ошибки моделирования RMSE, средняя абсолютная ошибка моделирования MAE и относительная погрешность прогнозирования на 1 и 2 временных интервала. Исследование выполнено на примере зависимости комплексного показателя природно-ресурсного потенциала Пермского края от системы определяющих его факторов на временном интервале с 2001 по 2018 г. в среде Jupiter Notebook средствами библиотек Pandas и Scikit-learn. Для обеспечения сопоставимости результатов моделирования был произведен отбор факторов на основании их корреляционного анализа. Подбор оптимальных параметров моделей произведен на основании данных с 2001 по 2016 г., качество прогнозирования проверялось по данным 2017 и 2018 гг. Результаты. По результатам проведенного исследования оказалось, что модель классической множественной линейной регрессии демонстрирует худшие результаты по всем рассмотренным метрикам качества. Наибольшее значение коэффициента детерминации, минимальные значения корня из средней квадратичной и средней абсолютной ошибки моделирования демонстрирует модель дерева решений. При этом минимальная относительная погрешность прогнозирования на 2017 г. обеспечивается моделью градиентного бустинга, на 2018 г. – моделью многослойного персептрона. Заключение. Проведенное исследование позволяет утверждать, что нелинейные модели машинного обучения для задачи моделирования и прогнозирования комплексного показателя природно-ресурсного потенциала демонстрируют лучшие аппроксимационные и прогностические свойства по сравнению с множественной линейной регрессией и могут быть использованы для повышения качества управления природными ресурсами.