Метод нахождения связанных показателей на основе анализа нормативно-правовых актов методами NLP
Аннотация
Современные методы прогнозирования временных рядов позволяют получить весьма точные и качественные прогнозы при наличии ретроспективных данных. Однако результаты работы этих методов определяются объемом и качеством обучающей выборки. Когда временной ряд отсутствует, имеет малое количество точек или вовсе не достоверен, методы прогнозирования временных рядов неэффективны. В таком случае принято использовать подходы для нахождения иных показателей, так или иначе коррелирующих с искомым, далее называемых косвенными показателями. В рамках работы над прогнозированием социально-экономических показателей возникла необходимость в формировании перечня косвенных показателей, однако имеющиеся решения для данной задачи не обеспечивают требуемой достоверности. В большинстве случаев в работах используют данные социальных сетей, форумов и других источников, которые не могут считаться объективными, так как являются выражением субъективной точки зрения и могут быть подвержены умышленным фальсификациям и искажениям. Такие риски неприемлемы при разработке системы, создаваемой для принятия управленческих решений на уровне государства. Цель исследования: разработка методов поиска косвенных показателей, основывающихся на объективных источниках информации. Данные методы позволяют сформировать перечень косвенных показателей, не привлекая экспертов и исключая риски некорректности первичных данных. Материалы и методы. Исследования проводились на основе нормативно-правовых актов Российской Федерации и ее субъектов. Данный источник был выбран по причине того, что нормативные документы являются объективными и основополагающими документами государства. Они не являются представлением субъективной точки зрения автора или группы лиц. Для эксперимента была собрана часть нормативной базы с 2016 по 2021 год, относящаяся к категориям: сельское хозяйство, медицина, социальная сфера и другие. Результаты. Определен метод нахождения косвенных показателей, разработаны и апробированы различные алгоритмы ранжирования косвенных показателей, сформированы косвенные показатели для нескольких социально-экономических показателей. Процесс выявления косвенных показателей построен на применении методов Data Mining и NLP к базе данных нормативно-правовых актов Российской Федерации. Заключение. Полученное решение позволило сформировать список N-грамм, связанных с искомым показателем. На данном этапе интерпретация N-граммы в показатель производится с помощью эксперта, однако для этого не требуется иметь компетенций в предметной области показателя.