Научная статья на тему 'Агентный подход с применением нечетких множеств для задачи синтаксического анализа текста'

Агентный подход с применением нечетких множеств для задачи синтаксического анализа текста Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
193
64
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПРИНЯТИЕ РЕШЕНИЙ / DECISION-MAKING / НЕЧЕТКИЕ МНОЖЕСТВА / FUZZY SETS / СИНТАКСИЧЕСКИЙ АНАЛИЗ / МУЛЬТИАГЕНТНАЯ СИСТЕМА / MULTIAGENT SYSTEM / TEXT PARSING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Никуличев Андрей Викторович

Статья посвящена применению агентно-ориентированного подхода к автоматизации синтаксического анализа предложения на естественном языке. Предлагается методика построения системы, в которой с каждой лексемой связан интеллектуальный агент-исполнитель, сам вычисляющий родительскую связь. За основу рационального выбора альтернативы агентом взят аппарат нечетких множеств, который позволяет использовать интуитивные экспертные знания.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Никуличев Андрей Викторович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Агентный подход с применением нечетких множеств для задачи синтаксического анализа текста»

тественно-языковых текстов / А.Н. Швецов, А.М. Куртасов // Вестник Череповецкого государственного университета. - 2012. - № 1(36). - Т. 2. - С. 11-15.

8. Heilman, M. Good Question! Statistical Ranking for Question Generation. / M. Heilman, N.A. Smith // Human Language Technologies: The 2010 Annual Conference of NAACL. - Los Angeles, California, 2010. - P. 609-617.

9. Kurtasov, A.M. A System for Generating Cloze Test Items from Russian-Language Text / A.M. Kurtasov // Proceedings of the Student Research Workshop associated with

The 9th International Conference on Recent Advances in Natural Language Processing (RANLP 2013). - Hissar, Bulgaria, 2013.

10. Mitkov, R. A computer-aided environment for generating multiple-choice test items / R. Mitkov, Le An Ha, N. Ka-ramanis // Natural Language Engineering. - 2006. - 12(2). -P. 1-18.

11. Ng, Andrew Supervised Learning // CS229 Lecture Notes, Stanford University. - URL: http://cs229. stan-ford.edu/notes/cs229-notes1.pdf

УДК 004.8

А.В. Никуличев

Научный руководитель: кандидат технических наук, доцент А.Н. Сорокин

АГЕНТНЫЙ ПОДХОД С ПРИМЕНЕНИЕМ НЕЧЕТКИХ МНОЖЕСТВ ДЛЯ ЗАДАЧИ СИНТАКСИЧЕСКОГО АНАЛИЗА ТЕКСТА

Статья посвящена применению агентно-ориентированного подхода к автоматизации синтаксического анализа предложения на естественном языке. Предлагается методика построения системы, в которой с каждой лексемой связан интеллектуальный агент-исполнитель, сам вычисляющий родительскую связь. За основу рационального выбора альтернативы агентом взят аппарат нечетких множеств, который позволяет использовать интуитивные экспертные знания.

Принятие решений, нечеткие множества, синтаксический анализ, мультиагентная система.

The article is devoted to the agent-based approach to automate text parsing. The technique of constructing the system where each lexical unit is associated with an intelligent agent-performer, calculating a parent relationship, is suggested. The basis for the rational selection of an alternative agent is the formalism of fuzzy sets, which allows the use of intuitive knowledge.

Decision-making, fuzzy sets, text parsing, multiagent system.

В связи с возникновением парадигмы агентно-ориентированных систем, использующих агентов как высокоуровневую абстракцию для формализации и структурирования предметной области и как мощное программное средство для разработки и реализации сложных информационных систем, решение многих задач стало более структурированным и «красивым». В рамках данной статьи будет рассмотрен вариант принятия решений интеллектуальным агентом на основе нечетких множеств применительно к задаче синтаксического анализа.

Следует отметить, что попытки создания автоматического синтаксического анализа применялись уже с 1950-х гг. [3]. Среди всех из них можно выделить анализаторы, использующие оптимально покрытие синтаксической структуры фразы набором правил, описывающих элементарные синтагматические отношения между словами текста [2]. Основная проблема данного подхода - это неоднозначность и сложность составления корректной базы синтагм для последовательной проверки. Таким образом, задача до сих пор является актуальной и требует другого подхода для решения; на смену процедурным алгоритмам пришли алгоритмы, связанные с искусственным интеллектом.

Целью работы является проработка методики синтаксического анализа естественно-языковых предложений на основе мультиагентной системы.

Рассмотрим классическую схему распределенного решения задач несколькими агентами [5] применительно к синтаксическому анализу более подробно:

1. Агент-субординатор (руководитель, центральный орган) проводит декомпозицию исходной проблемы. В рамках нашей задачи он занимается разбивкой предложения на естественном языке на отдельные лексемы и находит их параметры (род, число, падеж и т.д.). Важно отметить, что параметры лексемы не всегда могут быть однозначно определены без контекста и установившихся связей.

2. Отдельные задачи распределяются между агентами-исполнителями. В нашем случае отдельной задачей является нахождение агентом родителя для назначенной ему лексемы. Причем поиск должен осуществляется на основе экспертных знаний, т.е. выбор должен быть обоснованным, и агент должен

выбрать наиболее подходящую для него альтернативу.

3. Для получения общего результата производится композиция, интеграция частных результатов, соответствующих выделенным задачам. На данном этапе агент-субординатор также производит анализ результата и корректировку своих решений относительно параметров лексем. Процесс начинается заново, пока не останется вариантов для корректировки. После этого агент-субординатор выбирает самый подходящий вариант среди полученных в результате

рабочего процесса. За основу берутся такие признаки, как: соответствие грамматике языка, частотные характеристики и некоторые особенности, выраженные в виде экспертных знаний (своего рода «костыли»).

Экспертные знания, о которых идет речь в п. 2, являются в большей степени интуитивными, поэтому имеет смысл использовать нечеткие множества для принятия решения при выборе подходящей альтернативы.

Теория принятия решений на основе нечетких множеств - достаточно развитый инструмент. Предлагаемые ею решения основаны на нечеткой информации и несут на себе печать нечеткости, однако обосновывают выбор одного из предлагаемых вариантов и показывают, как увеличение информированности сказывается на достоверности и правильности принимаемых решений.

Первое применение в рамках задачи, описанной в данной статье, - это выбор агентом-исполнителем подходящей альтернативы для родительской связи. Второе применение - выбор между вариантами разбора. Он связан, прежде всего, с омонимией, которая возникает из-за одинакового написания разных форм одного слова (например, слово «одеяло» имеет одинаковую форму для винительного и именительного падежа). Рассмотрим применение более подробно.

При исследовании реальной ситуации или процесса с целью принятия рационального решения естественно начать с выявления множества всех допустимых решений или альтернатив. Информация о реальной ситуации или процессе принятия решений, на основе которой одни альтернативы можно предпочесть другим, может быть задана различными способами. Самый универсальных их них - это отношение предпочтения в множестве альтернатив [1].

Отношение предпочтения определяется путем высказывания для каждой пары альтернатив из множества X утверждений вида:

"х не хуже у", т.е. х У у или (х, у) е Я ,

где х, у - альтернативы, принадлежащие множеству X, Я - отношение предпочтения.

Информация в такой форме позволяет сузить класс рациональных выборов, включив в него лишь те альтернативы, которые не доминируются ни одной альтернативой множества X. Их можно представит в следующем виде:

Xнд' = {х | х е X,(у, х) г Я \ Я_1 Уу е X}.

Выбор из данного множества является рациональным, однако, в реальных системах встречаются такие ситуации, когда у лица, принимающего решения, нет четкого представления о предпочтениях между всеми или некоторыми из альтернатив. Поэтому более гибким способом формализации имеющихся у экспертов знаний о реальной ситуации представляется такой, при котором они имеют возможность описывать степень своей убежденности в предпочтениях

между альтернативами из интервала [0, 1]. Таким образом вводится понятие нечеткого отношения предпочтения, у которого также можно найти множество недоминируемых альтернатив (точнее степени недоминируемости, так как отношение нечеткое) по следующей формуле:

|4Д (x) = 1 - sup |R (y, x), x e X , (1)

yeX

где |R - отношение строго предпочтения, которое равно

s, х [|r (x, y)(y, x) при (x, y) >|r (y, x) |R (x, y) = <

[0 при |R (x, y) <|R (y, x).

(2)

Таким образом, найдя нечеткое отношение предпочтения, можно рационально выбрать ту или иную альтернативу (составить очередь из выбора по предпочтительности), что и требуется агенту-исполнителю при синтаксическом разборе.

Рассмотрим пример. Пусть имеется предложение «Большой столб упал на дом с железной крышей». Для лексемы «большой» агент-исполнитель, связанный с ней, будет рассматривать три альтернативы: столб, дом и крышей. Рассмотрим определение отношения предпочтения на примере прилагательного и следующих условий эксперта:

1. Условие согласованности с родителем (1). Например, для прилагательного и существительного должны совпадать род, число и падеж, как в словосочетании «письменный стол».

2. Условие расположения относительно родителя (0,7). Прямой порядок употребляется чаще для прилагательных, поэтому более предпочтительней обратного. В качестве примера можно привести словосочетание «у крыльца большого дома».

3. Условие близости к родителю (0,4). Близость прилагательного к существительному интуитивно связывает их вместе. Например: «около деревянной стены беседки».

У каждого условия (критерия) есть свой вес, который указывает на степень сознательности (интуитивности). То есть чем ближе вес к единице, тем условие более сознательно и менее интуитивно, и наоборот. Если условие является истинными, то в общую сумму прибавляется его вес. Далее находится общая степень принадлежности отношению предпочтения по формуле:

X Pi

| R = , (3)

n

где Pi - вес условия, или 0 (в случае, если условие ложное), n - общее количество правил. Так как отношение рефлексивное по диагонали можно выставить единицы. Рассмотрим альтернативы x1 и x2. «Большой» согласовано со «столб», значит оно точно не хуже альтернативы «дом», к общей сумме при-

бавляем 1. Далее проверяем второе и третье условие, оба они истины, значит общая сумма равна 2,1 и степень принадлежности равна 2,1/3 = 0,7. Аналогично найдем коэффициенты для остальных пар и получим следующее нечеткое отношение предпочтения (табл. 1) на множестве Ь = (х! - столб, х2 - дом, х3 -крыша}.

Таблица 1

Отношение предпочтения между альтернативами

Я х1 х2 х3

х1 1 0,7 0,7

х2 0,57 1 0,57

Х3 0,23 0,7 1

Найдем отношение строго предпочтения по формуле (2). Далее по формуле (1) вычислим множество недоминируемых альтернатив (табл. 2).

Таблица 2

Множество недоминируемых альтернатив

х1 х2 х3

мЯд' 1 0,87 0,53

Таким образом, рациональная очередь выбора альтернатив будет выглядеть как последовательность

(хЬ х2-, х3}.

Экспертные знания могут быть довольно разносторонние. Среди них могут быть не только критерии, которые помогают предпочесть одну альтернативу другой, но и условия, с помощью которых эксперт определяет, какая из альтернатив вероятнее всего подходит на роль родителя, а какая - только в очень редких случаях. Каждое из условий имеет свой вес, который трактуется как степень допустимости альтернативы. В результате получим отображение V : Ь ^ [0, 1].

Для примера составления отображения у(Ь) рассмотрим предложение «Когда прошел сильный дождь, грязный асфальт стал чистым» и следующие условия:

- Именная часть сказуемого (0,5). Если альтернатива на роль родителя находится перед глаголами «быть», «являться» или «становится», а сама лексема находится после них, то в этом случае прилагательное скорей всего является именной частью составного именного сказуемого и зависит от глагола. Например, «Ее платье было красное».

- Разные сегменты расположения (0,4). Альтернатива на роль родителя находится в другом сегменте, например: «Был слышен звонкий голос, который приводил в ужас». Для лексемы «звонкий» альтернатива «ужас» будет удовлетворять данному условию.

Пусть для лексемы «чистым» агент рассматривает три альтернативы: «дождь», «асфальта» и «стал», т.е. Ь=(х1 - дождь, х2 - асфальт, х3 - стал}. Для вы-

числения общего коэффициента воспользуемся формулой (3) (для ложного условия к общей сумме добавляется 1, вместо 0). Для первой альтернативы истинным будет только условие 2, следовательно, коэффициент равен (1 + 0,4)/2 = 0,7. Для второй альтернативы - 0,75, а для третьей - 1 (табл. 3).

Таблица 3

Множество допустимости альтернатив

х1 х2 х3

V Ь 0,7 0,75 1

Следует отметить, что некоторые условия для данного множества могут быть преобразованы в условия предпочтения и участвовать при определении отношения Я, однако вариант с отдельным множеством более гибкий и ограничивает эксперта от лишней работы.

Таким образом, при рациональном выборе альтернативы (лексемы на роль родителя) мы должны учитывать еще отношение предпочтения Яё со следующей функцией принадлежности:

[1 при у(х) >у(у),

_ 1 „

[0 в остальных случаях.

В итоге получилось два отношения предпочтения, относительно которых нужно принять рациональное решение. Для этого воспользуемся следующим алгоритмом [4, с. 149 - 150].

1. Построим отношение Q!, функция принадлежности которого равна

ца = тт (хя, хяа ^

где хЯ и хЯё - значения функции принадлежности отношений Я и Яё соответственно, и найдем на нем множество недоминируемых альтернатив с функцией принадлежности ц^'.

2. Построим отношение Q2, функция принадлежности которого равна

= 2(((х, х-) + Нв(х, х-)^

и также найдем на нем множество недоминируемых альтернатив с функцией принадлежности цн^ .

3. Результирующее множество есть пересечение

м"» и ..н-д-

По результирующему множеству (аналогично первому примеру) можно создать очередь рационального выбора, которая будет учитывать как допустимость самих альтернатив на роль родителя, так и предпочтительность между ними.

Опишем методику синтаксического разбора более подробно (см. рисунок).

Процесс синтаксического анализа

Рисунок. Блок-схема процесса синтаксического анализа для многоагентной системы

На первом этапе происходит инициализации агента-субординатора предложением на естественном языке. Он в свою очередь разбирает его на лексемы и сегменты, определяет их параметры и создает для каждой единицы разбора агента. Так как определение параметров (род, число, падеж и т.д.) из-за омонимии может быть неоднозначным, происходит перебор среди полученных вариантов.

На втором этапе агенты-исполнители инициализируются сегментами и лексемами с определенными на предыдущем этапе параметрами. Далее они (агенты-исполнители с лексемами) формируют очередь выбора для определения родительской связи. Сначала агент-исполнитель фильтрует все лексемы, оставляя только те, которые могут претендовать на роль родителя (например, исключает союзы, предлоги и т.д.). После этого формируется нечеткое отношение предпочтения (учитываются все контекстные условия - стратегия детерминированного анализа) и строится очередь рационального выбора. Следует отметить, что результат может не удовлетворять вызывающую систему в семантическом плане (например, из-за неоднозначности во фразе «мать любит дочь») или агента-субординатора (из-за применении серии фильтров - фильтровой анализ), поэтому следующей операцией является корректировка очереди посредством матрицы достоверных или предпочтительных связей (описание ее формирования выходит за рамки данной статьи).

Третий этап связан непосредственно с процессом поиска родительских связей. Для этого используется полученная раннее очередь решений (самый первый элемент этой очереди является самым рациональным с точки зрения агента). Выбрав первый на очереди

элемент, агент-исполнитель пытается согласовать данную связь с агентом, который будет выступать на роль родителя и агентом, который связан с сегментов для текущей лексемы (в случае если родитель находится в другом сегменте, данный агент может проверить связь на уровне сегментов). Если одобрение не получено, берется следующее на очереди решение, иначе агент-исполнитель закрепляет связь оповещением агента-субординатора.

Как только все агенты отчитались перед агентом-субординатором о выбранных связях, происходит смена параметров в случае наличия омонимии или неудачного разбора (стратегия механизма возвратов), и процесс начинается заново со второго этапа. Агент-субординатор при этом фиксирует удачный вариант разбора (альтернативу), который должен быть учтен при формировании окончательного результата.

На последнем этапе (четвертом) агент-субординатор на основе частотных характеристик и соответствий грамматике языке составляет отношение предпочтения и очередь недоминируемых альтернатив среди вариантов разбора. После чего происходит формирование и вывод результата в виде г<^-графа. На этом процесс заканчивается.

Следует отметить, что выбор агентами альтернатив практически не учитывает связи, установленными другими агентами в процессе работы, что, естественно, является недочетом. Однако применение экспертных знаний на разных уровнях анализа (уровень лексем, уровень сегментов и уровень предложения в целом) компенсируют его.

В результате описанного подхода мы получим следующие результаты:

- возможность учета даже тех знаний эксперта, которые в большей степени являются интуитивными, что помогает более точно осуществить разбор;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- возможность объединения фильтрового анализа, механизма возвратов и стратегию детерминированного анализа;

- тривиальный алгоритм работы через распределение решений несложных задач между агентами, не требуя от них «закрученной» логики. То есть по сути поведение агента сводится только к выбору родителя через очередь рациональных решений;

- простой поиск ошибок и отладка, так как установку некорректной связь можно проанализировать по поведению агента. То есть при неправильно разобранном предложении можно взять лог отдельного агента и без труда понять, почему он сделал неправильное решение, не касаясь при этом работы остальных.

Литература

1. Губко, М.В. Лекции по принятию решений в условиях нечеткой информации / М.В. Губко. - URL: http:// www.mtas.ru/Library/uploads/1099037698.pdf

2. Ермаков, А.Е. Эксплицирование элементов смысла текста средствами синтаксического анализа-синтеза / А.Е. Ермаков // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог'2003. - М., 2003. - С. 136-140.

3. Мельчук, И.А. Автоматический синтаксический анализ / И.А. Мельчук. - Новосибирск: [б.и.], 1964.

4. Орловский, С.А. Проблемы принятия решений при нечеткой исходной информации / С.А. Орловский. - М., 1981.

5. Тарасов, В.Б. От многоагентных систем к интеллектуальным организациям: философия, психология, информатика / В.Б. Тарасов. - М., 2002.

УДК 004.896

С.В. Пыж

Научный руководитель: кандидат технических наук, доцент О.Г. Ганичева

МОБИЛЬНАЯ АВТОМАТИЗИРОВАННАЯ СИСТЕМА ИНВЕНТАРИЗАЦИИ МЕТАЛЛУРГИЧЕСКОЙ ПРОДУКЦИИ И ОБЕСПЕЧЕНИЯ БЕЗОПАСНОСТИ В СКЛАДСКИХ ПОМЕЩЕНИЯХ И ИСПОЛЬЗУЕМЫЙ В НЕЙ МЕТОД АНАЛИЗА ИЗОБРАЖЕНИЙ НА ОСНОВЕ СВЕРТОЧНОЙ НЕЙРОННОЙ СЕТИ

В данной статье описан способ инвентаризации металлургической продукции и обеспечения безопасности складских помещений с помощью системы, содержащей мобильные колесные платформы с оборудованными на них цифровыми видеокамерами. Также рассмотрен метод анализа цифровых изображений, получаемых системой с этих платформ, с помощью сверточной нейронной сети с целью автоматического считывания и распознавания маркировки продукции.

Металлургия, склад, инвентаризация, искусственный интеллект, сверточная нейронная сеть, робот, мобильная платформа.

This article describes the method of the steel products inventory and providing security in the storage rooms with the help of the system containing the wheeled mobile platforms equipped with digital video cameras. The author describes the method of analysis of digital images obtained be the system from these platforms, using convolution neural network for automatically reading and recognition of product labeling.

Metallurgy, warehouse, inventory, artificial intelligence, convolution neural network, robot, mobile platform.

Частью активов металлургического предприятия являются материальные запасы. Они могут представлять собой товары, предназначенные для реализации, и полуфабрикаты. Система, в программном обеспечении которой реализованы методы оптического анализа, способна считывать маркировку продукции и автоматически принимать оптимальные решения ее загрузки на складе и проведения инвентаризации. Наличие в данной системе мобильных модулей с оборудованными оптическими средствами позволяет ей адаптироваться к специфическим условиям большинства складов металлургической продукции, а также обеспечить удаленный контроль безопасности в помещениях.

В данной статье рассмотрены существующие средства автоматизированной инвентаризации продукции, оценены их недостатки, предложена система, не имеющая этих недостатков, описана ее программная составляющая.

На текущий момент в складских помещениях используются различные средства инвентаризации продукции: терминалы сбора данных, сканеры маркировки, стационарные системы видеонаблюдения с реализованными алгоритмами оптического распознавания. Данные средства имеют один или несколько следующих недостатков:

- необходимость использования ручного труда;

- дополнительные затраты на стационарную установку;

i Надоели баннеры? Вы всегда можете отключить рекламу.