ИСПОЛЬЗОВАНИЕ ЛИНГВИСТИЧЕСКИ ОРИЕНТИРОВАННЫХ МОДУЛЕЙ НА ЯЗЫКЕ PYTHON ДЛЯ ОБРАБОТКИ БОЛЬШИХ ТЕКСТОВЫХ МАССИВОВ НА ВОСТОЧНЫХ ЯЗЫКАХ В ЦЕЛЯХ ЭФФЕКТИВНОГО СБОРА И ОБРАБОТКИ ДАННЫХ ПО ОТРАСЛЯМ ВОСТОКОВЕДЧЕСКОЙ ТЕМАТИКИ (НА ПРИМЕРЕ NLTK)
Аннотация
Проведен анализ современного лингвистически ориентированного программного обеспе-
чения, созданного в рамках языка программирования Python. В качестве примера выбран
комплекс программных модулей Natural Language Toolkit (NLTK). В статье также рассматри-
ваются не только общие принципы работы NLTK, но и их особенности в применении к вос-
точным языкам: фарси, арабскому и китайскому. Показано решение для работы с текстами на
восточных языках в кодировке utf-8.
Выпуск
Раздел
Статьи