ИСПОЛЬЗОВАНИЕ ТЕОРИИ МНОЖЕСТВ В СРАВНИТЕЛЬНО-ЛОГИЧЕСКИХ МЕТОДАХ ВЫДЕЛЕНИЯ ТЕКСТОВ НА ИСЛАМСКУЮ ТЕМАТИКУ В ПРОЦЕССЕ МОНИТОРИНГА СЕТЕВЫХ РЕСУРСОВ
Abstract
Выделение текстов исламского содержания в сетевых ресурсах может проводиться с помо-щью сравнительно-логических методов «проверка на вхождение» и «пересечение множеств».
Для какого-либо языка предварительно собирается корпус прецедентных текстов на исламскую
тематику. Из этого корпуса при помощи статистических методов извлекается множество ключе-
вых понятий. Список выделенных ключевых слов представляется в виде множества. Сформиро-
ванное множество ключевых понятий может быть представлено в виде базы данных и в даль-
нейшем используется в качестве эталонного множества А. Тексты, представляющие интерес для
экспертизы, представляются в виде множества понятий Б. Множество А сравнивается с множе-
ством А на предмет пересечения. Наличие в множестве Б элементов множества А, характер и
степень пересечения двух множеств позволяет идентифицировать текст, представляющий инте-
рес для экспертизы. Язык программирования Python предоставляет широкие возможности для
работы со строками, кортежами, словарями и множествами. В процессе мониторинга сетевых ре-
сурсов и поиска текстов на исламскую тематику необходимо использовать методы, изложенные
в статье, а также базы данных с эталонными списками ключевых слов.
Published
2016-11-15
Issue
Section
Articles