Научная статья на тему 'О применении синтаксического анализатора Cognitive Dwarf в задаче фильтрации незапрашиваемой электронной корреспонденции'

О применении синтаксического анализатора Cognitive Dwarf в задаче фильтрации незапрашиваемой электронной корреспонденции Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
96
15
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Хеирхабаров Т. С.

Рассматривается применение программы синтаксического и морфологического анализа текстов Cognitive Dwarf на этапе предобработки исходных данных статистических алгоритмов фильтрации незапрашиваемой электронной корреспонденции.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE «cognitIVE Dwarf» TEXT PARSER APPLICATION In the problem SPAM filtration

Application of text parse software package Cognitive Dwarf on the stage of preprocessing initial data in statistical approach to filtering spam is considered in the article.

Текст научной работы на тему «О применении синтаксического анализатора Cognitive Dwarf в задаче фильтрации незапрашиваемой электронной корреспонденции»

Решетневскце чтения

УДК 004.056

Т. С. Хеирхабаров

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева, Россия, Красноярск

О ПРИМЕНЕНИИ СИНТАКСИЧЕСКОГО АНАЛИЗАТОРА COGNITIVE DWARF В ЗАДАЧЕ ФИЛЬТРАЦИИ НЕЗАПРАШИВАЕМОЙ ЭЛЕКТРОННОЙ КОРРЕСПОНДЕНЦИИ

Рассматривается применение программы синтаксического и морфологического анализа текстов Cognitive Dwarf на этапе предобработки исходных данных статистических алгоритмов фильтрации незапрашиваемой электронной корреспонденции.

Программный пакет Cognitive Dwarf предназначен для автоматической синтаксической и морфологической разметки текстов на русском и английских языках. Cognitive Dwarf представляет собой консольное приложение, на вход которому подается текстовая информация на русском или английском языке в кодировке Windows-1251. Текст может подаваться как в виде файла, так и в виде потока через стандартный буфер ввода. Результатом работы программы является текст, разбитый на слова и предложения, где для слов определяются нормальные формы, грамматические характеристики и синтаксические отношения, в которые они вступают внутри предложения. Выходные данные могут быть помещены как в текстовый файл, так и в стандартный буфер вывода.

В разработанном алгоритме фильтрации незапрашиваемой электронной корреспонденции, основанном на статистических методах, программный пакет Cognitive Dwarf применяется на этапе предобработки исходных данных для приведения отдельных слов тела письма к нормальной форме. Данная операция называется лемматизацией. В русском языке нормальными формами являются: для существительных -именительный падеж единственного числа; для прилагательных - именительный падеж единственного числа мужского рода; для глаголов, причастий и деепричастий - глагол в инфинитиве.

Программная реализация разработанного алгоритма фильтрации незапрашиваемой электронной корреспонденции была осуществлена на языке программирования Python. Обмен данными между программной реализацией разработанного алгоритма и программой синтаксического анализа текстов Cognitive Dwarf осуществляется через стандартные буферы ввода-вывода, что намного быстрее по сравнению с информационным обменом через файл на жестком диске. Для вызова синтаксического анализатора использован модуль Subprocess, входящий в стандартную библиотеку языка программирования Python. Данный модуль позволяет запускать из программного кода на языке Python сторонние приложения и управлять стандартными буферами ввода-вывода запущенных приложений.

Приведение к нормальной форме позволило значительно сократить размер базы данных сигнатур, которая представляет собой реляционное отношение вида Я, схема отношения которого включает три атрибута (слово, количество вхождений данного слова в незапрашиваемые письма, количество вхождений слова в легитимные письма). Сокращение размера данной базы обусловлено тем, что в ней хранятся только нормальные формы слов, а не множество словоформ для каждого слова.

Первоначальное обучение разработанного алгоритма фильтрации незапрашиваемой электронной корреспонденции проводилось на случайной выборке из 1 500 незапрашиваемых писем и 1 500 легитимных писем. В обучающую выборку легитимной почты бы -ли включены как письма обычной переписки, так и письма различных почтовых рассылок, на которые ранее была осуществлена подписка.

Применение операции лемматизации позволило сократить размер базы данных сигнатур на 40 %: с 67 638 записей до 41 905. Изначально предполагалось, что лемматизация увеличит время обработки одного электронного письма, однако за счет уменьшения количества записей в базе данных сигнатур сократилось время выборки информации из базы.

Применение процедуры лемматизации увеличивает эффективность разработанного алгоритма фильтрации. Был проведен сравнительный анализ эффективности методов Байеса и Фишера с выключенной и включенной процедурой лемматизации слов, применяемых в разработанном алгоритме фильтрации незапрашиваемой электронной корреспонденции. Тестирование производилось на выборке из 110 спам-писем и 110 обычных писем после первоначального обучения системы. Результаты тестов представлены в виде таблиц сопряженности (табл. 1, 2).

Результаты сравнительного анализа показывают, что применение процедуры лемматизации на этапе предобработки позволяет снизить количество лож-ноположительных срабатываний и повысить эффективность разработанного алгоритма фильтрации в целом.

Методы и средства защиты информации

T. S. Heirkhabarov

Siberian State Aerospace University named after academician M. F. Reshetnev, Russia, Krasnoyarsk

THE «COGNITIVE DWARF» TEXT PARSER APPLICATION IN THE PROBLEM SPAM FILTRATION

Application of text parse software package Cognitive Dwarf on the stage of preprocessing initial data in statistical approach to filtering spam is considered in the article.

© Xenpxa6apoB T. C., 2011

УДК 004.045

С. А. Чекмарев, М. Ю. Вергазов

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева, Россия, Красноярск

ОПЫТ РАЗРАБОТКИ БОРТОВОЙ СЕТИ НА ОСНОВЕ СТАНДАРТА SPACEWIRE*

Представлены структурная схема маршрутизатора Space Wire, отличительные особенности и результаты разработки.

Таблица 1

Таблица сопряженности: метод Байеса

% Без лемматизации С лемматизацией

Положительно Отрицательно Положительно Отрицательно

Положительно 93,6 6,4 95,5 4,5

Отрицательно 0 100 0 100

Таблица сопряженности: метод Фишера Таблица 2

% Без лемматизации С лемматизацией

Положительно Отрицательно Положительно Отрицательно

Положительно 95,5 4,5 98,2 1,8

Отрицательно 4,5 95,5 2,7 97,83

Технология SpaceWire - это международный стандарт коммуникаций бортового авиационного и космического оборудования, призванный заменить существующие бортовые интерфейсы (такие как MIL-STD-1553В, RS435). SpaceWire, закрепленный в качестве стандарта документом ESA ECSS-E50-12A, уже широко используется не только ESA, но и NASA и японским космическим агентством JAXA.

SpaceWire разрабатывалась на основе стандартов IEEE1355-1995 и TIA/EIA-644 (LVDS) в соответствии со следующими требованиями аэрокосмических применений:

- устойчивость к отказам и сбоям;

- высокие скорости передачи информации;

- малые задержки доставки сообщений;

- низкое энергопотребление;

- электромагнитная совместимость;

- поддержка систем реального времени и системных функций бортовых комплексов;

- компактная реализация в СБИС.

Сеть SpaceWire состоит из набора узлов, соединенных с помощью маршрутизаторов. Узлы SpaceWire - это источники и приемники, непосредственно взаимодействующие с использующими их системами.

Сегодня маршрутизаторы SpaceWire предлагают такие крупные зарубежные компании, как АС^, Aeroflex Gaisler, ВАЕ и др. В России это направление активно осваивает НПЦ «ЭЛВИС».

Специалисты СибГАУ проводят разработку своего маршрутизатора SpaceWire (см. рисунок). Маршрутизатор имеет несколько интерфейсов для подключения узлов.

* Работа выполнена в рамках реализации ФЦП «Научные и научно-педагогические кадры инновационной России на 2009-2013 годы», ГК № П757 от 20.05.2010 г. и № Т1032 от 27.05.2010 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.