Научная статья на тему 'Модель потока текстовых сообщений тематических интернет-форумов'

Модель потока текстовых сообщений тематических интернет-форумов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
464
54
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МОДЕЛЬ / ИНТЕРНЕТ-ФОРУМ / СТРУКТУРА ТЕКСТОВОГО СООБЩЕНИЯ / МОДЕЛЬ ПОТОКА / ФИЛЬТРАЦИЯ / ОНТОЛОГИЯ ПРЕДМЕТНОЙ ОБЛАСТИ / НЕЧЁТКАЯ ЛОГИКА / НЕЧЕТКИЙ ВЫВОД / ПРОГНОЗИРОВАНИЕ СОБЫТИЙ ПРЕДМЕТНОЙ ОБЛАСТИ / MODEL / ONLINE FORUM / TEXT MESSAGE / FLOW / FILTRATION / DOMAIN ONTOLOGY / FUZZY LOGIC / FUZZY INFERENCE / AND FORECASTING OF EVENTS SUBJECT AREA

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Смагин Алексей Аркадьевич, Полетаев Владислав Сергеевич

Введение. Статья посвящена моделированию потока текстовых сообщений тематических интернет-форумов для решения задач прогнозирования событий предметной области, определенной онтологией. Тематические интернет-форумы имеют высокую популярность среди пользователей, интересующихся определенными предметными областями. Как правило, события, происходящие в определенной предметной области, находят свое отражение на посвященных им дискуссионных интернет-площадках. Указанный фактор позволяет прогнозировать возникновение новых событий интересующей предметной области на основе анализа потока текстовых сообщений тематических интернет-форумов. Материалы и методы. В работе использовались следующие методы исследования: системный анализ, логический метод, методы поиска и познания, метод абстрагирования и другие методы научного исследования. Результаты. В статье представлены результаты анализа наиболее популярных в настоящее время программных платформ для построения интернет-форумов. На основании проведенного исследования построена общая модель дискуссионного интернет-ресурса. Исходя из полученных результатов определена структура текстовых сообщений дискуссионных интернет-ресурсов. В связи с тем, что задачей исследования является прогнозирование событий предметной области, определенной онтологией, построена модель потока текстовых сообщений тематических интернет-форумов, позволяющая производить его статистический и семантический анализ, учитывая принадлежность к конкретному форуму, теме форума, количеству сообщений темы форума, автору, рейтингу автора и времени создания, а также осуществлять фильтрацию сообщений, не относящихся к рассматриваемой предметной области. Поскольку интернет-форумы представляют собой хранилища неформализованных данных, содержат нечеткие понятия и знания, целесообразно применение для работы с ними нечеткой логики. Результаты анализа потока текстовых сообщений тематических интернет-форумов могут быть использованы в качестве входных параметров для системы нечеткого вывода, прогнозирующей возникновение новых событий рассматриваемой предметной области. Обсуждение. Модель не предназначена для классификации сообщений по темам предметной области, заданной онтологией. При необходимости в модель потребуется внести дополнительные параметры, позволяющие реализовывать существующие алгоритмы классификации текстовых сообщений. Заключение. При использовании предложенной модели на практике следует учитывать, что в случае применения пользователями тематических интернет-форумов для составления сообщений нескольких языков, необходимо дополнить онтологию предметной области терминами на всех используемых языках и корректным образом задать отношения между ними.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Смагин Алексей Аркадьевич, Полетаев Владислав Сергеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE MODEL OF STREAM OF TEXT MESSAGES OF THEMATIC INTERNET FORUMS

Introduction. The paper is devoted to modeling of the stream of text messages thematic Internet forums to solve problems of forecasting the events of the subject domain defined by the ontology. Thematic Internet forums have high popularity among users, who are interested in defined subject areas. Typically, the events occurring in a particular subject area reflected on his discussion Internet sites. This factor allows predicting the occurrence of new events in the chosen subject area on the basis of the analysis of the stream of text messages thematic Internet forums. Materials and methods. We used the following research methods: system analysis, logical method, methods of search and knowledge, abstraction method, and other methods of scientific research. Results. The article presents the results of the analysis of the most currently popular software platforms for building online forums. On the basis of this research the General model of the discussion of the Internet resource. Based on the obtained results we determined the structure of text messages discussion of Internet resources. Due to the fact that the objective of the study is the prediction of events of a subject domain, a specific ontology, the model of the stream of text messages thematic Internet forums to enable its statistical and semantic analysis, considering the affiliation to a specific forum, topic, forum, posts a forum topic, author, rating of the author and time of creation, and to filter by messages, not related to the subject area. Because Internet forums are the store unstructured data contain fuzzy concepts and knowledge, it is advisable to use to work with fuzzy logic. The results of the analysis of the stream of text messages thematic Internet forums can be used as input parameters for the fuzzy inference system that predicts the occurrence of new events the subject area. Discussion. The model is not intended for classification by subjects subject domain specified ontology. If necessary, the model will need to include additional parameters that allow implementing the existing algorithms for classifying text messages. Conclusions. When using the proposed model in practice, note that in the case of users of thematic online forums to compose messages for multiple languages, it is necessary to supplement the domain ontology terms across languages and the correct way to specify relations between them.

Текст научной работы на тему «Модель потока текстовых сообщений тематических интернет-форумов»

_ 05.13.00 ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ _

05.13.18 УДК 004.056

МОДЕЛЬ ПОТОКА ТЕКСТОВЫХ СООБЩЕНИЙ ТЕМАТИЧЕСКИХ ИНТЕРНЕТ-ФОРУМОВ

© 2017

Алексей Аркадьевич Смагин, доктор технических наук, профессор Ульяновский государственный университет, Ульяновск (Россия) Владислав Сергеевич Полетаев, соискатель кафедры «Телекоммуникационные технологии и сети» Ульяновский государственный университет, Ульяновск (Россия)

Аннотация

Введение. Статья посвящена моделированию потока текстовых сообщений тематических интернет-форумов для решения задач прогнозирования событий предметной области, определенной онтологией. Тематические интернет-форумы имеют высокую популярность среди пользователей, интересующихся определенными предметными областями. Как правило, события, происходящие в определенной предметной области, находят свое отражение на посвященных им дискуссионных интернет-площадках. Указанный фактор позволяет прогнозировать возникновение новых событий интересующей предметной области на основе анализа потока текстовых сообщений тематических интернет-форумов.

Материалы и методы. В работе использовались следующие методы исследования: системный анализ, логический метод, методы поиска и познания, метод абстрагирования и другие методы научного исследования. Результаты. В статье представлены результаты анализа наиболее популярных в настоящее время программных платформ для построения интернет-форумов. На основании проведенного исследования построена общая модель дискуссионного интернет-ресурса. Исходя из полученных результатов определена структура текстовых сообщений дискуссионных интернет-ресурсов.

В связи с тем, что задачей исследования является прогнозирование событий предметной области, определенной онтологией, построена модель потока текстовых сообщений тематических интернет-форумов, позволяющая производить его статистический и семантический анализ, учитывая принадлежность к конкретному форуму, теме форума, количеству сообщений темы форума, автору, рейтингу автора и времени создания, а также осуществлять фильтрацию сообщений, не относящихся к рассматриваемой предметной области. Поскольку интернет-форумы представляют собой хранилища неформализованных данных, содержат нечеткие понятия и знания, целесообразно применение для работы с ними нечеткой логики. Результаты анализа потока текстовых сообщений тематических интернет-форумов могут быть использованы в качестве входных параметров для системы нечеткого вывода, прогнозирующей возникновение новых событий рассматриваемой предметной области.

Обсуждение. Модель не предназначена для классификации сообщений по темам предметной области, заданной онтологией. При необходимости в модель потребуется внести дополнительные параметры, позволяющие реализовывать существующие алгоритмы классификации текстовых сообщений.

Заключение. При использовании предложенной модели на практике следует учитывать, что в случае применения пользователями тематических интернет-форумов для составления сообщений нескольких языков, необходимо дополнить онтологию предметной области терминами на всех используемых языках и корректным образом задать отношения между ними.

Ключевые слова: модель, интернет-форум, структура текстового сообщения, модель потока, фильтрация, онтология предметной области, нечёткая логика, нечеткий вывод, прогнозирование событий предметной области.

Для цитирования: Смагин А. А., Полетаев В. С. Модель потока текстовых сообщений тематических интернет-форумов // Вестник НГИЭИ. 2017. № 10 (77). С. 16-24.

THE MODEL OF STREAM OF TEXT MESSAGES OF THEMATIC INTERNET FORUMS

© 2017

Alexey Arkadievich Smagin, Dr.Sci. (Engineering), the professor

Ulyanovsk state University, Ulyanovsk (Russia) Vladislav Sergeevich Poletaev, the applicant of the chair of Telecommunication technologies and networks

Ulyanovsk state University, Ulyanovsk (Russia) 16

Abstract

Introduction. The paper is devoted to modeling of the stream of text messages thematic Internet forums to solve problems of forecasting the events of the subject domain defined by the ontology.

Thematic Internet forums have high popularity among users, who are interested in defined subject areas. Typically, the events occurring in a particular subject area reflected on his discussion Internet sites. This factor allows predicting the occurrence of new events in the chosen subject area on the basis of the analysis of the stream of text messages thematic Internet forums.

Materials and methods. We used the following research methods: system analysis, logical method, methods of search and knowledge, abstraction method, and other methods of scientific research.

Results. The article presents the results of the analysis of the most currently popular software platforms for building online forums. On the basis of this research the General model of the discussion of the Internet resource. Based on the obtained results we determined the structure of text messages discussion of Internet resources.

Due to the fact that the objective of the study is the prediction of events of a subject domain, a specific ontology, the model of the stream of text messages thematic Internet forums to enable its statistical and semantic analysis, considering the affiliation to a specific forum, topic, forum, posts a forum topic, author, rating of the author and time of creation, and to filter by messages, not related to the subject area.

Because Internet forums are the store unstructured data contain fuzzy concepts and knowledge, it is advisable to use to work with fuzzy logic. The results of the analysis of the stream of text messages thematic Internet forums can be used as input parameters for the fuzzy inference system that predicts the occurrence of new events the subject area. Discussion. The model is not intended for classification by subjects subject domain specified ontology. If necessary, the model will need to include additional parameters that allow implementing the existing algorithms for classifying text messages.

Conclusions. When using the proposed model in practice, note that in the case of users of thematic online forums to compose messages for multiple languages, it is necessary to supplement the domain ontology terms across languages and the correct way to specify relations between them.

Keywords: model, online forum, text message, model, flow, filtration, domain ontology, fuzzy logic, fuzzy inference, and forecasting of events subject area.

For citation: Smagin A. A., Poletaev V. S. The model Vestnik NGIEI = Bulletin NGIEI. 2017; 10 (77): 16-24.

Введение

В настоящее время глобальные информационные сети оказывают растущее влияние на все новые и новые сферы нашей жизни. Происходит стремительное развитие единого глобального информаци-онно-телекоммуникационногопространства, формируются новые социальные группы, оказывается существенное влияние на традиционный образ жизни людей по всему миру. К сожалению, на сегодняшний день наблюдается стремительный рост не только новых технологий, обеспечивающих информационную потребность человечества, но и разнообразия компьютерных атак, осуществляемых с их помощью.

В данной статье речь идет о моделировании потока текстовых сообщений хакерских интернет-форумов для решения задач прогнозирования новых угроз информационной безопасности. Актуальность темы обусловлена тем, что тематические интернет-форумы имеют высокую популярность среди пользователей, интересующихся определенными предметными областями. Как правило, события, происходящие в определенной предметной области, на-

of stream of text messages of thematic internet forums.

ходят свое отражение на посвященных им дискуссионных интернет-площадках. Указанный фактор позволяет прогнозировать возникновение новых событий интересующей предметной области на основе анализа потока текстовых сообщений тематических интернет-форумов.

Актуальность данной темы определяется несколькими группами факторов. С одной стороны, системы обнаружения атак на компьютерные сети уже давно применяются как одно из средств защиты информации. С другой стороны, аналитические обзоры компаний, специализирующиеся в сфере интернет-технологий и защиты информации, такие как Symantec, Trustware, KasperskyLabs, показывают, что за последние несколько лет количество атак на различные информационные системы продолжает расти, а средства, которыми пользуются злоумышленники, превращаются из простых ха-керских инструментов в серьезное информационное оружие [6; 7; 8].

Цель исследования заключается в разработке модели потока текстовых сообщений интернет-

форумов, позволяющей осуществлять их семантический и статистический анализ для дальнейшего нечеткого логического вывода о возникновении новых угроз информационной безопасности.

В работе использовались следующие методы исследования: системный анализ, логический метод, методы поиска и познания, метод абстрагирования и другие методы научного исследования.

Научная новизна работы заключается в систематизации знаний об организации интернет-форумов, статистическом и семантическом анализе потоков текстовых сообщений и системах нечеткой логики, которая становится базой для создания методики прогнозирования угроз информационной безопасности.

Результаты данной работы могут быть использованы специалистами по защите информации для прогнозирования угроз информационной безопасности и принятия мер по их нейтрализации.

Материалы и методы

В статье представлены результаты анализа наиболее популярных в настоящее время программных платформ для построения интернет-форумов. На основании проведенного исследования построена общая модель дискуссионного интернет-ресурса. Исходя из полученных результатов, определена структура текстовых сообщений дискуссионных интернет-ресурсов. Построена модель потока текстовых сообщений тематических интернет-форумов, позволяющая производить его статистический и семантический анализ, учитывая принадлежность к конкретному форуму, теме форума, количеству сообщений темы форума, автору, рейтингу автора и времени создания, а также осуществлять фильтрацию сообщений, не относящихся к рассматриваемой предметной области. В работе использовались следующие методы исследования: систем-

ный анализ, логическим метод, методы поиска и познания, метод абстрагирования и другие методы научного исследования.

Результаты

В глобальной сети Интернет в настоящее время существует значительное количество дискуссионных информационных ресурсов (далее - форумов), посвященных вопросам информационной безопасности и механизмам получения несанкционированного доступа к компьютерной информации. В части из них преобладают участники, заинтересованные в обмене сведениями о защите информации, в других - интересующиеся способами совершения компьютерных атак. Указанные форумы могут рассматриваться в качестве общедоступных источников данных об уязвимостях, компьютерных атаках, вредоносном программном обеспечении.

Наиболее популярные темы, обсуждаемые в настоящее время на хакерских форумах, соответствуют категориям актуальных угроз информационной безопасности [10; 11; 12; 13; 14; 15; 16].

При организации форумов, как правило, используются наиболее популярные программные платформы:

- Invision Power Board (IPB);

- vBulletin;

- PunBB;

- Simple Machines Forum (SMF);

- Vanilla;

- XenForo;

- phpBB.

Перечисленные программные средства в своей реализации используют базы данных, отличающиеся по своей структуре. Вместе с тем общая структура базы данных (модель) форумов, содержащая информацию о текстовых сообщениях выглядит, следующим образом (рисунок 1):

Рисунок 1 - Модель базы данных интернет-форумов

Рисунок 2 - Структура сообщения интернет-форума

Исходя из анализа модели интернет-форумов, каждое сообщение в отдельности представляет собой структуру, состоящую из следующих связанных между собой элементов (рисунок 2).

Потоком текстовых сообщений является множество текстовых сообщений интернет-форумов, создаваемых пользователями с течением времени.

В связи с тем, что целью моделирования потока текстовых сообщений хакерских интернет-форумов является прогнозирование угроз информационной безопасности, при формировании модели необходимо предусмотреть возможность дальнейшего проведения семантического и статистического анализа сообщений, учитывая принадлежность к конкретному форуму, теме форума, количеству сообщений темы форума, автору, рейтингу автора, а также времени создания.

В настоящее время наиболее эффективным средством описания определенных предметных областей является онтология. Сущность онтологического подхода заключается в том, что предметная область представляется в виде организованной совокупности понятий, их свойств и связей [17].

Таким образом, в общем виде модель потока текстовых сообщений, относящихся к предметной области, заданной онтологией, может быть представлена тройкой:

= , О, Г), (1)

где 5 - поток текстовых сообщений в текущий момент времени т; М - множество сообщений в потоке; О - онтология предметной области; Т = {1,...,т} - множество периодов времени, для которых велись наблюдения за потоком (например, множество дней или часов).

О = {Б, Я, Б), (2)

где Е - множество терминов предметной области, которую описывает онтология; Я - отношения между терминами предметной области;^ - множество функций интерпретации (аксиоматизации), заданных на терминах и/или отношениях онтологии [18].

Каждое сообщение d£M представляется в ви-

де:

d = (s, t, Fd, А), (3)

где s - текст сообщения, tE {1,2,...,т} - момент времени создания сообщения; Fd = (wb ..., wk} -вектор, представляющий сообщение в предметной области, заданной онтологией O; k - количество терминов в онтологии O, координаты wi (i = 1, ... ,k) - веса терминов в сообщении; А - рейтинг автора сообщения.

Для расчета весов может быть использована модель TF-IDF (Term Frequency - Inverse Document Frequency), согласно которой вес термина в сообщении прямо пропорционален частоте его вхождения в сообщение и обратно пропорционален количеству сообщений, в которых он встречается:

wi '

D

Л

(4)

: Fi' log

I DFi J

где wi и Fi - вес и частота термина i в сообщении соответственно; D - общее число сообщений; DFi - число сообщений, в которых встречается термин i.

Данная модель не учитывает того факта, что сообщения могут иметь разную длину, вследствие чего частота термина, а значит и его вес будут тем меньше, чем больше длина сообщений. Поэтому выполняется нормирование весов терминов в сообщении путем их деления на евклидову норму (длину вектора-сообщения):

wi d

Wi

\li=lWl

(5)

Как упоминалось ранее, онтологический подхода заключается в том, что предметная область представляется в виде организованной совокупности понятий (терминов), их свойств и связей. Наиболее удобным форматом представления онтологии с точки зрения машинной обработки и наглядности описания особенностей предметной области является OWL (Web Ontology Language) -язык описания онтологий для семантической паутины.

*

Принцип работы существующих алгоритмов извлечения терминологии в лексикографии и тер-миноведении основан на статистических и лингвистических методах.

В основе статистических методов лежит вычисление степени терминологичности на основании числовых закономерностей, присущих термину или нетермину. В основе лингвистических методов лежит отбор по определенным лексико-грамма-тическим шаблонам и другим лингвистическим признакам термина [9; 19].

Онтологический подход хранения знаний предполагает представление их в следующем виде:

O = (E, R, F), (6)

где E - термины предметной области, которую описывает онтология; R - отношения между терминами предметной области, при этом Rc {R

inc, Radd, Rterm, Riem, Rnc} ; Rinc множество встроенных отношений объектов таких, как «то же самое, что и», и «является Подклассом»^а^ - множество отношений, позволяющих расширять набор объектов описываемой предметной области за счет сочетания лемм связанных объектов. Например: свойства «имеет Отношение» и «является Частью»^егт - отношение «является Термином», имеющее логический тип значения. Это свойство является вспомогательным и определяется экспертом исходя из критерия - насколько данный объект онтологии является характерным конкретно для этой предметной области. Используется в процессе извлечения терминов согласно тезаурусному критерию терминологичности; Riem - отношение «имеет Лемму», имеющее строковое значение, полученное путем леммирования (приведения к начальной форме) наименования объекта, например с помощью программы Mystem компании «Яндекс» по соответствующим морфологическим признакам терми-m;RNC - множество отношений объектов, а также свойств типа данных, наиболее полно описывающих особенности взаимодействия объектов рассматриваемой предметной области. Пример: свойства «является Типом вирусов», «является Элементом», «состоит Из»; F - множество функций интерпретации (аксиоматизации), заданных на терминах и/или отношениях онтологии [17].

Задача фильтрации сообщений, не относящихся к рассматриваемой предметной области, мо-

жет быть решена использованием семантической метрики «термин/нетермин» с использованием заранее разработанной OWL-онтологии. При этом для каждого поступающего сообщения определяется степень близости к терминам рассматриваемой предметной области. Применение такой метрики позволяет выделить из массива поступающих сообщений только те, которые относятся к данной предметной области.

Степень близости поступающих сообщений к терминам предметной области к^ может иметь значение от 0 до 1: чем ближе полученное значение к 1, тем с большей долей вероятности данное сообщений относится к тому или иному термину [20].

Существуют два критерия отбора сообщений, относящихся к рассматриваемой предметной области, посредством использования онтологии:

- тезаурусный критерий;

- критерий вложенных связей.

Тезаурус представляет собой словарь терминов на естественном языке, явно указывающий отношение между терминами и предназначенный для информационного поиска. Любая онтология является усложненной версией тезауруса [21].

Тезаурусный подход к фильтрации сообщений предполагает непосредственный поиск лемм из поступающих сообщений среди терминов, определенных в онтологии.

Для этого в разработанной онтологии для каждого класса определяется свойство «имеет Лемму», которое имеет строковое значение, полученное путем леммирования (приведения к начальной форме) имени объекта, по соответствующим морфологическим признакам термина.

Алгоритм определения степени близости сообщений к терминам проблемной области согласно тезаурусному критерию предполагает:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1) оценку степени близости поступающего сообщения каждому объекту онтологии без учета онтологического критерия оценки;

2) определение опорного объекта онтологии, наиболее близко ассоциирующегося с поступающим сообщением.

Общая схема оценки степени близости сообщения терминам проблемной области согласно те-заурусному критерию приведена на рисунке 3.

Входное слово/сочетание слов (лемма)

Рисунок 3 - Поиск опорного объекта онтологии

Опорный объект онтологии, используемый в дальнейшем анализе, имеет степень близости по отношению к сообщению, рассчитанную по следующей формуле:

т

Г Л

кг

- тах

щ

(7)

V Рг)

г-1

где т - количество всех объектов онтологии; п, -число слов из леммы поступающего сообщения, найденных в лемме объекта онтологии; р, - общее число слов в лемме объекта онтологии.

Если несколько разных объектов онтологии имеют одинаковое значение коэффициента кг, то опорным будет считаться тот объект, которому соответствует максимальное п,. Если таких объектов несколько, то они все будут считаться опорными, и анализ по онтологическому критерию будет проведен для каждого из этих объектов.

Структура онтологии рассматриваемой предметной области предполагает наличие у каждого из ее объектов свойства «является Термином», имеющее логический тип значения. Это свойство является вспомогательным и определяется экспертом исходя из критерия - насколько данный объект онтологии является характерным конкретно для этой предметной области. Степень близости сообщения терминам рассматриваемой предметной области в соответствии с тезаурусным критерием оценивается по следующей формуле:

кОпг

кг с + 1

(8)

где к - результат первого этапа анализа; с - число отношений, связывающих опорный объект онтологии с ближайшим объектом, имеющим истинное значение свойства «является Термином». В случае если сам опорный объект имеет истинное значение данного свойства, то с = 0. Схема данного поиска приведена на рисунке 4.

Рисунок 4 - Тезаурусный критерий 21

Таким образом, процесс оценки степени близости сообщения к терминам проблемной области по метрике «термин/нетермин» в его онтологической составляющей представляет собой движение по графу, в узлах которого находятся объекты соответствующих классов онтологий. Если опорный объект имеет ложное значение свойства «является Термином» и при этом не имеет никаких связей с другими объектами онтологии либо все связанные объекты также имеют значение «ложь» этого свойства, то находится другой опорный объект для данного сообщения, и оценка проводится заново. В аналогичной ситуации с другими опорными объектами либо в случае их отсутствия поступающее сообщение признается не относящимся к предметной области = 0).

Критерий вложенных связей. Помимо оценки степени терминологичности отдельно взятого сообщения, метрика «термин/нетермин» позволяет осуществить фильтрацию путем сопоставления леммы сообщения и сочетаниями лемм объектов онтологии, связанных отношениями Ла^.

Таким образом, при сопоставлении поступающих сообщений и объектов предметной области, связанных между собой однонаправленными отношениями Лам, сообщение считается относящемся к предметной области, если его лемма совпадает с объединением лемм соответствующих объектов онтологии.

Особенностью данного метода является необходимость представления объектов онтологии преимущественно в виде однословий с максимизацией числа отношений между объектами. Определяющими для использования этого метода являются отношения ЯаМ, позволяющие формировать словосочетания естественным образом.

Обсуждение

Предложенная модель потока текстовых сообщений тематических интернет-форумов, относящихся к предметной области, заданной онтологией, построены в целях решения задачи прогнозирования новых угроз информационной безопасности. Она позволяет осуществлять семантический и статистический анализ потока текстовых сообщений, результаты которого могут использоваться в системах нечеткого логического вывода о возникновении новых угроз информационной безопасности.

В связи с особенностями задачи, для которой моделировался поток текстовых сообщений, модель не предназначена для классификации сообщений по темам предметной области, заданной онтологией. При необходимости, в модель потребуется внести

дополнительные параметры, позволяющие реализо-вывать существующие алгоритмы классификации текстовых сообщений.

Кроме того, при практическом применении предложенной модели необходимо учитывать язык, на котором пользователи тематических интернет-форумов составляют сообщения. Он должен совпадать с языком терминов онтологии, задающей предметную область. В случае применения пользователями нескольких языков, необходимо дополнить онтологию предметной области терминами на всех используемых языках и корректным образом задать отношения между ними.

Заключение

В статье представлены результаты анализа наиболее популярных в настоящее время программных платформ для построения интернет-форумов. На основании проведенного исследования построена общая модель дискуссионного интернет-ресурса. Исходя из полученных результатов, определена структура текстовых сообщений дискуссионных интернет-ресурсов. Предложена модель потока текстовых сообщений, относящихся к предметной области, заданной онтологией, которая позволяет осуществлять фильтрацию сообщений, относящихся к рассматриваемой предметной области, и проводить статистический анализ, учитывая принадлежность к конкретному форуму, теме форума, количеству сообщений темы форума, автору, рейтингу автора, а также времени создания.

В связи с тем, что хакерские форумы представляют собой хранилища неформализованных данных из области информационных технологий и безопасности, содержат нечеткие понятия и знания, целесообразно применение для работы с ними нечеткой логики.

Предпосылкой для применения нечетких моделей является наличие неопределенности обусловленной неполнотой информации и сложностью предметной области [1; 2; 3;4; 5].

Результаты анализа создаваемых на хакерских форумах сообщений могут быть использованы в качестве входных параметров для системы нечеткого вывода, прогнозирующей возникновение новых угроз информационной безопасности.

Получая нечеткий вывод о возникновении новой угрозы информационной безопасности, специалист по защите информации имеет возможность оценить степень угрозы для защищаемых им информационных ресурсов, пересмотреть модель угроз информационной безопасности и предпринять меры по нейтрализации возможных уязвимостей.

СПИСОК ЛИТЕРАТУРЫ

1. Зайченко Ю. П. Нечеткие модели и методы в интеллектуальных системах : Учеб. для вузов. К. : «Издательский Дом «Слово», 2008. 344 с.

2. Усков А. А. Принципы построения систем управления с нечеткой логикой // Приборы и системы. Управление, контроль, диагностика. 2004. № 6. С. 7-13.

3. Тэрано Т., Асаи К., Сугено М. Прикладные нечеткие системы. М. : Мир, 1993. 368 с.

4. Леоненков А. В. Нечеткое моделирование в среде MATLAB и fuzzyTECH. С-Пб. : БХВ -Санкт-Петербург, 2005. 716 с.

5. Рутковская Д., Пилиньский М., Рутковс-кий Л. Нейронные сети, генетические алгоритмы и нечеткие системы / Пер. с польск. И. Д. Рудинского. М. : Горячая линия - Телеком, 2006. 452 с.

6. Kaspersky Security Bulletin 2010 [Электронный ресурс]. Режим доступа: http://www.securelist.com/

7. Symantec Report on AttackKits and Malicious Websites-2015 [Электронныйресурс]. Режим доступа: http://scm.symantec.com;

8. Trustware Global Security Report 2014 [Электронный ресурс]. Режим доступа: http: //www .trustwave. com/GSR;

9. Гмурман В. Е. Теория вероятностей и математическая статистика. Учеб. пособие для вузов. Изд. 7-е, стер. М. : Высш. Шк., 2000. 479 с.

10. Лукацкий А. Обнаружение атак. СПб. : БХВ -Петербург, 2001. 624с.

11. ГОСТ Р 50922-96. Защита информации. Основные термины и определения. Москва. 1996.

12. Крат Ю. Г., Шрамкова И. Г. Основы информационной безопасности : учеб. пособие. Хабаровск : Изд-во ДВГУПС, 2008. 112 с.

13. Блинов А. М. Информационная безопасность : Учеб. пособие. Часть 1. СПб. : СПБГУЭФ, 2010. 96 с.

14. Информационная безопасность : Учебник для студентов вузов. М. : Академический Проект; Гаудеамус, 2-е изд. 2004. 544 с.

15. Гатчин Ю. А., Сухостат В. В. Теория информационной безопасности и методология защиты информации. СПб. : СпбГУ ИТМО, 2010. 98 с.

16. Макаренко С. И. Информационная безопасность : учебное пособие для студентов вузов. Ставрополь : СФ МГГУ им. М. А. Шолохова, 2009. 372 с.

17. Ярушкина Н. Г., Вельмисов А. П., Стец-ко А. А. Средства data minig для нечетких реляционных серверов данных // Информационные технологии. 2007. № 6. С. 20-29.

18. Добров Б. В., Лукашевич Н. В., Сыромятников С. В. Формирование базы терминологических словосочетаний по текстам предметной области // Труды V Всеросс. науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL-2003). СПб., 2003. С.201-210.

19. Андреев И. А., Башаев В. А., Клейн В. В. Разработка программного средства для извлечения терминологии из текста на основании морфологических признаков, определяемых программой Mystem // Интегрированные модели и мягкие вычисления в искусственном интеллекте. М. : Физматлит, 2013. С. 1227-1236.

20. Афанасьева Т. В. Ярушкина Н. Г. Нечеткий динамический процесс с нечеткими тенденциями в анализе временных рядов // Вестник Ростовского государственного университета путей сообщения. 2011. № 3. С. 7-16.

21. Кураленок И. Е., Некрестьянов И. С. Оценка систем текстового поиска // Программирование. 2002. 28 (4). С. 226-242.

REFERENCES

1. Zajchenko Yu. P. Nechetkie modeli i metody v intellektual'nyh sistemah (Fuzzy models and methods in intelligent systems), Ucheb. dlya vuzov. K. : «Izda-tel'skij Dom «Slovo», 2008, 344 p.

2. Uskov A. A. Principy postroeniya sistem up-ravleniya s nechetkoj logikoj (Principles of control systems with fuzzy logic), Pribory i sistemy. Upravlenie, kontrol', diagnostika, 2004, No. 6, pp. 7-13.

3. Tehrano T., Asai K., Sugeno M. Prikladnye nechetkie sistemy (Applied fuzzy systems), M, Mir, 1993,368 p.

4. Leonenkov A. V. Nechetkoe modelirovanie v srede MATLAB i fuzzyTECH (Fuzzy modeling in MATLAB and fuzzyTECH), S-Pb, BHV - Sankt-Peterburg, 2005, 716 p.

5. Rutkovskaya D., Pilin'skij M., Rutkovskij L. Nejronnye seti, geneticheskie algoritmy i nechetkie sistemy (Neural networks, genetic algorithms and fuzzy systems), Per. s pol'sk. I. D. Rudinskogo, M, Gorya-chaya liniya, Telekom, 2006, 452 p.

6. Kaspersky Security Bulletin 2010 [EHlek-tronnyj resurs]. Rezhim dostupa: http://www.securelist.com/

7. Symantec Report on AttackKits and Malicious Websites-2015 [EHlektronnyj resurs] Rezhim dostupa: http://scm.symantec.com

8. Trustware Global Security Report 2014 [EHlektronnyj resurs], Rezhim dostupa: http: //www .trustwave.com/GSR

9. Gmurman V. E. Teoriya veroyatnostej i ma-tematicheskaya statistika (Probability theory and mathematical statistics), Ucheb. posobie dlya vuzov Izd. 7-e, ster. M. : Vyssh. SHk., 2000, 479 p.

10. Lukackij A. Obnaruzhenie atak (Attack detection), SPb. : BHV-Peterburg, 2001, 624 p.

11. GOST R 50922-96. Zaschita informatsii. Osnovnie termini I opredeleniya. Moskva. 1996.

12. Krat Yu. G., SHramkova I. G. Osnovy in-formacionnoj bezopasnosti (Fundamentals of information security. tutorial), ucheb. posobie, Habarovsk, Izd-vo DVGUPS, 2008, 112 p.

13. Blinov A. M. Informacionnaya bezopasnost' (Information security), Ucheb. posobie. CHast' 1. SPb. : SPBGUEHF, 2010, 96 p.

14. Informacionnaya bezopasnost' (Information security), Uchebnik dlya studentov vuzov. M. : Aka-demicheskij Proekt; Gaudeamus, 2-e izd, 2004, 544 p.

15. Gatchin Yu. A., Suhostat V. V. Teoriya in-formacionnoj bezopasnosti i metodologiya zashchity informacii (Theory of informational security and methodology of information protection), SPb. : SPbGU ITMO, 2010, 98 p.

16. Makarenko S. I. Informacionnaya bezopas-nost': uchebnoe posobie dlya studentov vuzov (Information security: a training manual for students), Stavropol', SF MGGU im. M. A. SHolohova, 2009, 372 p.

17. Yarushkina N. G., Vel'misov A. P., Stec-ko A. A. Credstva data minig dlya nechetkih relyacion-nyh serverov dannyh (Data minig tools for fuzzy rela-

tional data servers), Informacionnye tekhnologii, 2007, No. 6, pp. 20-29.

18. Dobrov B. V., Lukashevich N. V., Syro-myatnikov S. V. Formirovanie bazy terminologicheskih slovosochetanij po tekstam predmetnoj oblasti (Forming the base of the terminological word combinations in texts of the subject area), Trudy 5-j Vseross. nauch. konf. «EHlektronnye biblioteki: perspektivnye metody i tekhnologii, ehlektronnye kollekcii» (RCDL-2003), SPb., 2003, pp. 201-210.

19. Andreev I. A. Bashaev V. A., Klejn V. V. Razrabotka programmnogo sredstva dlya izvlecheniya terminologii iz teksta na osnovanii morfologicheskih priznakov, opredelyaemyh programmoj Mystem (The development of software tools for extracting terminology from text on the basis of morphological characters, determined by the program Mystem), Integrirovannye modeli i myagkie vychisleniya v iskusstvennom intellekte, M. : Fizmatlit, 2013, pp. 1227-1236.

20. Afanas'eva T. V., YArushkina N. G. Ne-chetkij dinamicheskij process s nechetkimi tenden-ciyami v analize vremennyh ryadov (Fuzzy dynamic process with fuzzy trends time series analysis), Vestnik Rostovskogo gosudarstvennogo universiteta putej soobshcheniya, 2011, No. 3, pp. 7-16.

21. Kuralenok I. E., Nekrest'yanov I. S. Ocenka sis-tem tekstovogo poiska (Evaluation systems text search), Programmirovanie, 2002, No. 28 (4), pp. 226-242.

Дата поступления статьи в редакцию 11.07.2017, принята к публикации 25.09.2017.

05.13.00

УДК 621.391.037

ПОВЫШЕНИЕ ЭНЕРГЕТИЧЕСКОЙ ЭФФЕКТИВНОСТИ ЭЛЕМЕНТОВ СЕНСОРНЫХ СЕТЕЙ МЕТОДОМ ПЕРЕСТАНОВОЧНОГО ДЕКОДИРОВАНИЯ

© 2017

Алексей Анатольевич Шамин, кандидат экономических наук, старший преподаватель кафедры «Информационные технологии и системы связи» Нижегородский государственный инженерно-экономический университет, Княгинино (Россия)

Аннотация

Введение. В статье рассматривается метод защиты данных от ошибок в беспроводных сенсорных сетях с применением процедуры перестановочного декодирования. С целью повышения энергетической эффективности приемопередатчиков сетевых устройств предлагается использовать систематические избыточные блоковые коды.

Материалы и методы. Небольшая длина кодовых последовательностей требует от приемника максимального использования заложенной в код избыточности. Это может быть реализовано только при условии использования мягкой обработки принятых данных и введения процедуры перестановочного декодирования (ПД) в отношении обрабатываемой декодером кодовой комбинации. Традиционный подход в системе (ПД) связан с классическими методами линейных преобразований порождающей матрицы избыточного кода в соответствии с сортировкой мягких решений по убыванию или ранговой метрикой, примененной к принятому кодовому вектору. В свою очередь, линейные преобразования матриц предполагают ряд последовательных шагов в виде

i Надоели баннеры? Вы всегда можете отключить рекламу.