Распределенная инструментальная среда словарного морфологического анализа для обработки русского языка

Авторы

  • Дмитрий Алексеевич Усталов Автор
  • Михаил Людвигович Гольдштейн Автор

Аннотация

В статье рассмотрен подход к масштабированию сервиса морфологического разбора слов естественного языка при обработке различных коллекций документов на русском языке. Выполнен обзор и критический анализ существующих решений. Сформированы требования к инструментальной среде словарного морфологического анализатора. Распределенная архитектура Web-сервиса морфологического анализа, предназначенного для обработки крупных коллекций документов на русском языке, представлена в виде структурной модели. Данная архитектура реализована в виде прототипа системы на языке программирования Ruby. Приведена структура используемого морфологического словаря в виде реляционной схемы. Испытания данного метода в распределенной вычислительной среде показали линейную масштабируемость предлагаемого решения. Конфигурация эксперимента включает систему генерации нагрузки в виде HTTP-запросов, систему балансировки нагрузки на рабочие узлы распределенной системы, серверы приложений с функционирующим анализатором и базу данных морфологического словаря, а также кэширующий узел для снижения издержек при выполнении запросов к словарю. Применение данного подхода позволяет получить линейный рост производительности в распределенных системах автоматической обработки больших объемов текста.

Биографии авторов

  • Дмитрий Алексеевич Усталов

    бакалавр информационных систем, старший програм-
    мист отдела вычислительной техники

  • Михаил Людвигович Гольдштейн

    кандидат технических наук, заведующий отделом
    вычислительной техники

Выпуск

Раздел

Программирование