Научная статья на тему 'Метод повышения точности автоматического определения частей речи слов предложения в морфологических анализаторах DLP-систем'

Метод повышения точности автоматического определения частей речи слов предложения в морфологических анализаторах DLP-систем Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
337
98
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЧАСТЕРЕЧНАЯ РАЗБИВКА / AUTOMATED PARTS OF SPEECH DEFINITION / АВТОМАТИЧЕСКОЕ ОПРЕДЕЛЕНИЕ ЧАСТЕЙ РЕЧИ / МОРФОЛОГИЧЕСКИЙ АНАЛИЗ / MORPHOLOGICAL ANALYSIS / PART-OF-SPEECH TAGGING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Лапшин Сергей Владимирович, Лебедев Илья Сергеевич

Предложен метод повышения точности частеречной разбивки слов предложения в морфологических анализаторах DLP-систем. Поставленные эксперименты подтверждают этот факт. При этом метод обладает важным преимуществом – для его работы не требуются предварительно размеченные тексты или иные специально подготовленные данные, за исключением морфологических словарей.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

IMPROVING ACCURACY OF PART-OF-SPEECH TAGGING IN DLP MORPHOLOGICAL ANALYZER

This article provides a method of accuracy improving for part-of-speech tagging in DLP morphological analyzer. Fulfilled experiments prove this fact. This method has an important advantage – no preliminarily formatted texts or other specially prepared data are needed, except for morphological dictionaries.

Текст научной работы на тему «Метод повышения точности автоматического определения частей речи слов предложения в морфологических анализаторах DLP-систем»

8

МЕТОДЫ И СИСТЕМЫ ЗАЩИТЫ ИНФОРМАЦИИ

УДК 004.056

МЕТОД ПОВЫШЕНИЯ ТОЧНОСТИ АВТОМАТИЧЕСКОГО ОПРЕДЕЛЕНИЯ ЧАСТЕЙ РЕЧИ СЛОВ ПРЕДЛОЖЕНИЯ В МОРФОЛОГИЧЕСКИХ АНАЛИЗАТОРАХ DLP-СИСТЕМ С.В. Лапшин, И.С. Лебедев

Предложен метод повышения точности частеречной разбивки слов предложения в морфологических анализаторах DLP-систем. Поставленные эксперименты подтверждают этот факт. При этом метод обладает важным преимуществом - для его работы не требуются предварительно размеченные тексты или иные специально подготовленные данные, за исключением морфологических словарей.

Ключевые слова: частеречная разбивка, автоматическое определение частей речи, морфологический анализ.

Введение

Появление информационных систем, определяющим элементом которых является открытый контур управления, обусловливает необходимость совершенствования и поиска решений, обеспечивающих предотвращение утечек конфиденциальной информации. Учитывая огромный объем документов, циркулирующих в информационно-телекоммуникационных системах, возникает ряд проблемных вопросов, связанных с повышением качества обработки текстовых сообщений системами Data Loss Prevention (DLP). Целесообразность использования того или иного метода зависит от аналитической или синтетической природы естественного языка. Приводимый в работе метод предназначен для текстовой информации, представленной на русском языке.

Ключевой момент в работе DLP-системы - получение вердикта анализатора данных в ответ на запрос: является ли перемещаемая информация защищаемой [1]? Одним из важных этапов в работе анализатора является морфологический анализ передаваемых сообщений. От качества морфологических характеристик разобранных словоформ зависят показатели полноты и точности определения угроз информационной безопасности DLP-системы. Однако автоматический анализ естественного языка, в том числе и морфологический, небезошибочен и многозначен - часто он дает несколько вариантов анализа для одной языковой единицы [2, 3].

Подавляющее число методов автоматической обработки текстовой информации основано на статистической информации. Один из подходов к формализации может быть представлен следующим образом:

- P(K\x) - вероятность принадлежности характеристик словоформы к данной части речи K;

- P(Kj) - вероятность появления словоформы, принадлежащей данной части речи.

Связь двух словоформ W\ и W2 задает пересечение классов {К\ G К) Г) (К2 е К), идентифицируемых словоформами. Предпочтение у класса Kt к классу Kr может быть задано с помощью матрицы потерь, где строки содержат веса при отнесении одного класса к другому:

Ki K2 Km

Ki Xii Xii ■■ ^11

К2 Xii Xii ■■ ^11

Km Xii Xii ■■ ^11

(1)

Тогда

у=£ (к-к р (х|к,. )р (к,.).

1=1

Значение потерь X определяется как функция от частоты встречаемости класса ц. Для линейного классификатора выражение примет вид

Увеличение значения у показывает необходимость включения класса в состав обрабатываемых признаков. Иными словами, для определения правильной гипотезы необходимо учитывать заранее полученную статистическую информацию о сочетаемости частей речи, что является одним из узких мест обработки текстовых сообщений.

В работе описан метод повышения точности автоматического определения частей речи слов в предложении. Особенностью метода является то, что он не требует предварительно размеченных текстов или иных специально подготовленных данных, за исключением словарей морфологических описаний слов.

Место метода в БЬР-системе

Рассмотрим множество сообщений Б, анализируемых в БЬР-системе:

Б = {й,}, , = 1,..., п,

где - одно из обрабатываемых в защищаемой информационной системе текстовых сообщений.

Пусть V = {V,}, ,=1,..., п - множество вердиктов, выносимых DLP-системой для каждого из сообщений й,. В общем случае DLP-система решает задачу классификации каждого из сообщений множества Б для вынесения вердикта V, о возможности дальнейшей обработки:

Рпьр(й,) = V,.

Необходимо отметить, что здесь и в дальнейшем в работе рассматриваются лингвистический анализ и лингвистическая классификация обрабатываемых сообщений для DLP-систем. Рассмотрим задачу классификации как упорядоченную композицию функций РжР = Рш ° Рш-1 ° ... ° Р ° ^1, где в зависимости от функционального наполнения DLP-системы функции могут обозначать: р -графематический анализ, Р2 - морфологический анализ, Р3 - синтаксический анализ, Р4 - семантический анализ и т.д. Каждая из функций р выполняется на одном из этапов анализа сообщения. Второй этап - морфологический анализ (Р2) - разделяется на подэтапы: Р = Р» ° ^24-1 ° . ° р2 ° ^21.

В зависимости от реализации этап частеречной разбивки обычно является первым (Р21), поэтому ошибки на этапе частеречной разбивки анализируемых сообщений могут быть критическими. Следовательно, качество лингвистического анализа в DLP-системах существенно зависит от достигаемых показателей качества на этапе выполнения Р21.

Таким образом, задача повышения качества определения частеречных характеристик слов обрабатываемого сообщения важнай для повышения показателей качества фильтрации DLP-систем.

Суть метода

Предлагаемый метод разметки слов предложений по частям речи основывается на использовании некоторого множества известных, заранее корректных последовательностей признаков части речи (множество корректных шаблонов) для аналогичных предложений. Аналогичным в данном случае является предложение, имеющее одинаковую длину и последовательность частей речи с анализируемым. Выбор одной из гипотез определяется наличием ее во множестве известных. При этом если в известном множестве содержится более одной гипотезы для анализируемого предложения, то выбирается наиболее часто встречающаяся. Важной особенностью метода является то, что необходимое для работы множество корректных шаблонов формируется автоматически на основе специально подготовленного морфологического словаря и не требует предварительно размеченных текстов. Предлагаемый метод состоит из следующих частей:

- формирование множества корректных шаблонов предложений;

- формирование множества гипотез о признаках части речи слов в предложении;

- поиск во множестве корректных шаблонов каждой из гипотез;

- выделение одной из гипотез на основе результатов поиска.

Формализация задачи представлена следующим образом.

Пусть = {5,}, ,=1,..., п - множество корректных шаблонов предложений. Пусть Н = {к}, ,=1,..., ш - множество гипотез о признаках части речи слов анализируемого предложения. Пусть Я -правильное описание анализируемого предложения с точки зрения признаков части речи его слов. Тогда решаемая задача состоит в том, чтобы выбрать такое /?, е II. что /?, = Я.

При этом важными подзадачами являются формирование множества корректных шаблонов 5 и поиск к, в множестве 5.

Формирование множества корректных шаблонов предложений

Сформировать достаточное множество корректных шаблонов вручную не представляется возможным. Если рассматривать 14 частей речи и только предложения длиной до 10 слов, то мощность множества 5, необходимого для анализа таких предложений, можно грубо оценить по следующей формуле:

10

|5ю| = £14' - 3-1011. (1)

,=1

Очевидно, что корректно разметить такое или сравнимое с таким число предложений за разумное время невозможно. Автоматическое решение этой подзадачи «напрямую» сталкивается с исходной решаемой проблемой - с проблемой точности автоматического определения частей речи в предложениях.

Для решения этой подзадачи была использована следующая идея. Искомое множество 5 можно формировать на основе предложений, состоящих только из однозначных с точки зрения признаков части речи слов.

Таким образом, процесс формирования множества корректных шаблонов предложений состоит из следующих шагов.

Шаг 1. Формирование морфологического словаря, в котором исключены все омонимы.

Шаг 2. Определение предложений, состоящих только из полученных на шаге 1 слов.

Шаг 3. Создание шаблонов на основе полученных на шаге 2 предложений.

Шаг 4. Добавление полученных шаблонов в искомое множество.

На шаге 1 для каждой словоформы в словаре ищется совпадающая с ней, но отличающаяся морфологическим описанием. Если найдены совпадающие словоформы, у которых отличается часть речи, то эта словоформа не добавляется в словарь. Те словоформы, которые имеют единственное морфологическое описание (или часть речи во всех случаях одинакова), попадают в создаваемый словарь.

Шаги 2-4 являются сугубо техническими и не представляют интереса.

Описанный способ дает возможность получить необходимое множество 5 автоматически, без использования предварительно размеченных текстов. Таким образом, реализуется первая часть предлагаемого метода.

Следующей подзадачей является формирование множества гипотез Н о признаках части речи слов в предложении. Для этого для каждого слова в предложении из словаря извлекается список возможных частей речи. Далее с помощью перестановки возможных частей речи для каждого слова формируется искомое множество Н.

Поиск в множестве корректных шаблонов каждой из гипотез

Полученное в первой части множество корректных шаблонов 5 предложений достаточно велико (1). Поиск перебором в таком множестве будет крайне неэффективен. В связи с этим предлагается организовать хранение множества корректных шаблонов с помощью словаря.

В нашей реализации описываемого метода шаблон предложения представляет собой последовательность чисел, т.е. части речи кодируются числами: = {ш,}, ,= 1,..., п, ш, - закодированная часть речи ,-го слова в предложении.

В качестве примера можно рассмотреть шаблон, полученный из предложения «Дорожка вела к амбару.» из произведения «Война и мир» Л.Н. Толстого. В нашем случае кодирование выполнялось следующим образом (таблица).

Часть речи Код

Существительное 0x0001

Глагол 0x0002

Предлог 0x0200

Таблица. Кодирование частей речи числовыми значениями

Таким образом, шаблон, полученный из указанного выше предложения, имеет вид 5 = {1, 2, 512, 1}.

Для организации хранения и поиска по большому числу таких числовых последовательностей был выбран словарь неограниченной вложенности, где на каждом уровне ключом является код части речи, а значением - кортеж из словаря следующего уровня и числа, означающего количество встреч предложения с частями речи, которые были закодированы использованными числами:

5[Ш:] [Ш2]... [Шп] = (5П+1, И), где 5п+1 - словарь следующего уровня вложенности, а N - число встреч шаблона 5,. Такая структура хранения довольно проста в реализации и использовании и позволяет выполнять поиск по большому числу шаблонов предложений с приемлемой скоростью, что подтверждается экспериментом.

Выделение одной из гипотез на основе результатов поиска

Поиск каждой из гипотез к, во множестве известных шаблонов 5 может привести к трем различным исходам:

- Н П 5 = 0 - в имеющемся множестве корректных шаблонов не найдено ни одной гипотезы;

- Н П 5 = {ку} - в имеющемся множестве корректных шаблонов найдена одна гипотеза;

- Н П 5 = {ку ... кь} - в имеющемся множестве корректных шаблонов найдено несколько гипотез.

Большое число результатов первого исхода говорит о том, что имеющегося множества корректных шаблонов недостаточно, и требуется его пополнение. В случае второго исхода единственная найденная гипотеза ку считается верной. В случае третьего исхода выбирается гипотеза, которая встречалась наиболее часто. Полученная в результате гипотеза ку является в среднем более корректной, чем случайно выбранная из исходного множества Н. Это подтверждается экспериментом.

Эксперимент

Описанный метод был реализован и встроен в подсистему определения частей речи слов в предложении. Эффективность метода оценивалась сравнением результатов работы подсистемы с заведомо корректными на размеченных вручную текстах.

В качестве первого источника размеченных текстов изначально был выбран Национальный корпус русского языка [4]. Но он не подошел из-за большого числа использованных там «композитных» частей речи, например: «местоимение-существительное», «местоимение-прилагательное», «числительное-прилагательное» и т.д. Поскольку в используемом нами словаре такие «части речи» не используются, статистика получалась искаженной, и для сравнения был выбран Открытый корпус русского языка [5].

Сравнение производилось на случайной выборке 115 размеченных вручную текстов Открытого корпуса русского языка. В ходе каждого опыта сравнивалось 15252 слова в 2057 предложениях.

На рис. 1 показана зависимость качества анализа в процентах от количества использованных при анализе шаблонов предложений.

66,4

66,3

66,2

66,1

66

65,9

65,8

65,7

65,6

Рис. 1. Зависимость процента корректно определенных частей речи (по оси ординат) от числа шаблонов предложений, использованных при анализе (по оси абсцисс)

При этом имеющееся множество шаблонов далеко от насыщения. На рис. 2 показана зависимость количества полученных шаблонов от числа разобранных текстов.

6000000 5000000 4000000 3000000 2000000 1000000

0 5000 10000 15000

Рис. 2. Зависимость количества полученных шаблонов (по оси ординат) от числа разобранных текстов

(по оси абсцисс)

По графику видно, что число шаблонов линейно возрастает в зависимости от числа разобранных текстов, что говорит о возможности улучшения полученных нами параметров. По приблизительной оценке при мощности множества шаблонов ~109 можно ожидать повышение качества разбора на 10-12%.

Полученная на выходе системы гипотеза является в среднем более корректной, чем случайно выбранная из исходных. Иными словами, число верных совпадений частей речи слов в предложении выше, чем у случайно выбранной гипотезы, что подтверждено экспериментом.

0 2000000 4000000

МУЛЬТИАГЕНТНАЯ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКАЯ СРЕДА..

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Заключение

Описанный в работе метод позволяет повысить точность автоматического определения частей речи слов в предложении. Поставленные эксперименты подтверждают этот факт. При этом метод обладает важным преимуществом - для его работы не требуются предварительно размеченные тексты или иные специально подготовленные данные, за исключением словарей морфологических описаний слов. При этом остается достаточно много возможностей для доработки метода. В частности, видится полезным учет знаков препинания и отдельных словосочетаний [6]. Улучшение указанной характеристики позволяет повысить качество морфологического анализа в DLP-системах, что, в свою очередь, приводит к повышению защищенности таких систем.

Работа выполнена в рамках НИР №12360.

Литература

1. Левцов В.Ю. Контроль подмены символов в системах борьбы с утечками конфиденциальных данных // «Information Security/ Информационная безопасность» - 2009. - № 5. - С. 19-22.

2. Боярский К.К., Каневский Е.А. Разработка инструментария для полуавтоматической морфологической разметки текста // Труды международной конференции «Корпусная лингвистика - 2008». -СПб: СПбГУ, Факультет филологии и искусств, 2008. - С. 83-88.

3. Боярский К.К., Каневский Е.А., Стафеев С.К. Использование словарной информации при анализе текста // Научно-технический вестник информационных технологий, механики и оптики. - 2012. -№ 3 (79). - С. 87-91.

4. Национальный корпус русского языка [Электронный ресурс]. - Режим доступа: http://ruscorpora.ru/corpora-usage.html, свободный. Яз. рус. (дата обращения 17.02.2013).

5. Открытый корпус русского языка [Электронный ресурс]. - Режим доступа: http://opencorpora.org/dict.php, свободный. Яз. рус. (дата обращения 17.02.2013).

6. Кобзарева Т.Ю., Афанасьев Р.Н. Универсальный модуль предсинтаксического анализа омонимии частей речи в РЯ на основе словаря диагностических ситуаций // «Компьютерная лингвистика и интеллектуальные технологии». Труды международного семинара «Диалог'2002». - М.: Наука, 2002. -Т. 2. - С. 258-268.

Лапшин Сергей Владимирович Лебедев Илья Сергеевич

УДК 004.89, 004.942

МУЛЬТИАГЕНТНАЯ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКАЯ СРЕДА ПОДДЕРЖКИ УПРАВЛЕНИЯ РЕГИОНАЛЬНОЙ БЕЗОПАСНОСТЬЮ «БЕЗОПАСНЫЙ ВИРТУАЛЬНЫЙ РЕГИОН»1 А.В. Маслобоев

Для информационной поддержки принятия решений и повышения уровня координации субъектов региональной безопасности разработан прототип сетецентрической мультиагентной информационно-аналитической среды поддержки управления региональной безопасностью «Безопасный виртуальный регион» с унифицированной точкой доступа на основе веб-технологий. Ядро и компоненты распределенной информационной среды образуют иерархическое виртуальное пространство региона как интеграционную площадку для проблемно-ориентированных ситуационно-коалиционных мультиагентных систем поддержки управления рискоустойчивым региональным развитием. Ключевые слова: мультиагентные технологии, региональная безопасность, управление, информационно-аналитическая поддержка, онтологии, полимодельные комплексы, виртуальное пространство региона.

Введение

В настоящее время одним из приоритетных направлений государственной политики Российской Федерации (РФ) в Арктике, согласно «Стратегии развития Арктической зоны РФ и обеспечения национальной безопасности на период до 2020 года» [1], является развитие сферы информационных технологий и связи. Реализация Арктической стратегии по данному направлению предполагает создание ком-

1

Работа выполнена при поддержке РФФИ (проект №12-07-00138 «Разработка когнитивных моделей и методов формирования интегрированной информационной среды поддержки управления безопасностью арктических регионов России»)

- Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, аспирант, sv.lapshin@gmail.com

- Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, доктор технических наук, доцент, lebedev@cit.ifmo.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.