ГИБРИДНЫЙ МЕТОД КЛАССИФИКАЦИИ ТЕКСТОВЫХ ДАННЫХ С УЗКОСПЕЦИАЛИЗИРОВАННОЙ ТЕРМИНОЛОГИЕЙ

Авторы

  • Влада Сергеевна Серова Автор
  • Александр Владимирович Голлай Автор
  • Елена Вячеславовна Бунова Автор

Аннотация

В условиях экспоненциального роста объемов текстовой информации, особенно в предметно-ориентированных областях (технических, медицинских, юридических), задача автоматической классификации текстов, насыщенных узкоспециализированной терминологией, приобретает критическую важность. Существующие подходы, включая трансформерные модели (BERT), часто демонстрируют снижение точности при работе с редкой или доменно-специфической лексикой из-за обучения на общеупотребительных корпусах. Целью исследования является разработка гибридного метода Combined Neural BERT (CNB), обеспечивающего максимальную точность классификации (100 %) для текстов со специализированной терминологией за счет синергетического объединения преимуществ контекстуальных языковых моделей, лексико-статистических методов и инструментов визуализации. Материалы и методы. Предложенный метод CNB интегрирует три ключевых компонента: 1) BERT (или его производные) для генерации глубоких контекстуальных эмбеддингов, учитывающих семантику и порядок слов; 2) полносвязные нейронные сети (FCNN), выступающие как классификатор на основе признаков от BERT и/или обрабатывающие лексико-статистические признаки; 3) метод «Облако слов» и TF-IDF для выделения и визуализации ключевых терминов домена, формирования словаря признаков и повышения интерпретируемости. Архитектура метода включает этапы: предобработка текста (нормализация, очистка), параллельное извлечение признаков (контекстуальные эмбеддинги BERT + TF-IDF векторы), объединение признаковых пространств, классификация с помощью FCNN, интерактивная настройка на основе анализа «Облака слов». Результаты. Гибридный подход CNB протестирован на реальном корпусе из 10 000 обращений жителей Челябинской области (7 тематических категорий) с использованием 70 ключевых терминов и 150 стоп-слов. Метод продемонстрировал 100%-ную точность классификации после трех итераций обучения (общее время 90 мин). Ключевые преимущества: высшая точность за счет компенсации слабых мест BERT в специализированных доменах лексико-статистическими признаками; улучшенная интерпретируемость благодаря визуализации ключевых терминов «Облаком слов»; эффективность обработки больших объемов специализированных текстов. Заключение. Разработанный гибридный метод CNB доказал свою исключительную эффективность для классификации текстов с узкоспециализированной терминологией. Он представляет собой мощный инструмент для аналитики предметно-ориентированных текстовых массивов (юридические документы, техническая документация, медицинские заключения и т. п.) в условиях постоянно растущих объемов данных. Перспективы включают адаптацию метода для других доменов и оптимизацию вычислительной эффективности.

Биографии авторов

  • Влада Сергеевна Серова
    аспирант кафедры информационно-аналитического обеспечения управления в социальных и экономических системах, Южно-Уральский государственный университет, Челябинск, Россия
  • Александр Владимирович Голлай
    д-р техн. наук, доц., проф. кафедры информационно-аналитического обеспечения управления в социальных и экономических системах, директор Высшей школы электроники и компьютерных наук, Южно-Уральский государственный университет, Челябинск, Россия
  • Елена Вячеславовна Бунова
    канд. техн. наук, доц., доц. кафедры прикладной математики и информатики, Южно-Уральский государственный университет, Челябинск, Россия

Опубликован

2025-09-06

Выпуск

Раздел

Информатика и вычислительная техника