Научная статья на тему 'Автоматическое распознавание смысла текста на примере отчетов о производственных несчастных случаях'

Автоматическое распознавание смысла текста на примере отчетов о производственных несчастных случаях Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
490
38
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ СМЫСЛА / СЕМАНТИЧЕСКОЕ МОДЕЛИРОВАНИЕ / MEANING RECOGNITION / SEMANTIC MODELLING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Головко Александр Павлович

В статье обсуждается проблема распознавания смысла текстов на естественном языке. Конкретная задача извлечение необходимой информации из сообщений об инцидентах, повлекших случаи производственного травматизма в сельском хозяйстве. Приводятся сведения о семантической модели данной предметной области и связанной с ней моделью синтаксиса русского языка.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Головко Александр Павлович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE AUTOMATIC MEANING RECOGNITION OF NATURAL LANGUAGE TEXTS IN THE CONTEXT OF THE INDUSTRIAL ACCIDENTS REPORTS

In the article, the problem of the automatic meaning recognition of natural language texts is discussed. Namely the extracting of necessary information from reports about industrial accidents in agriculture is considered. The article considers the information about the semantic model of this subject domain (industrial accidents) and corresponded Russian language syntax model.

Текст научной работы на тему «Автоматическое распознавание смысла текста на примере отчетов о производственных несчастных случаях»

экология и безопасность жизнедеятельности

УДК 004.225 А.П. Головко

Курганский государственный университет

автоматическое распознавание смысла текста на примере отчетов о производственных несчастных случаях

Аннотация. В статье обсуждается проблема распознавания смысла текстов на естественном языке. Конкретная задача - извлечение необходимой информации из сообщений об инцидентах, повлекших случаи производственного травматизма в сельском хозяйстве. Приводятся сведения о семантической модели данной предметной области и связанной с ней моделью синтаксиса русского языка.

Ключевые слова: распознавание смысла, семантическое моделирование.

A.P. Golovko Kurgan State University

the automatic meaning recognition of natural language texts in the context of the industrial accidents REports

Annotation. In the article, the problem of the automatic meaning recognition of natural language texts is discussed. Namely the extracting of necessary information from reports about industrial accidents in agriculture is considered. The article considers the information about the semantic model of this subject domain (industrial accidents) and corresponded Russian language syntax model.

Keywords: meaning recognition, semantic modelling.

1 Постановка задачи

1 1. Проблема

Задача распознавания смысла текста на естественном языке в настоящее время стоит остро, ведется большое количество исследований на эту тему. Разработка средств машинного понимания таких текстов по произвольной тематике на уровне, сопоставимом с человеческим, в настоящее время не представляется возможным. Поэтому актуальной является задача разработки средств, обесп еч иваю щих п о н и м а н и е те ксто в , касаю щ ихся 106-

конкретных областям техники, социальной жизни и так далее.

Прикладная задача, инициировавшая данную работу, состоит в следующем. Для проведения исследований в области производственного травматизма необходим сбор статистики о несчастных случаях. К сожалению, у нас в стране отсутствуют отлаженные механизмы сбора статистической информации, методики работы с массивами данных по производственному травматизму. С данной проблемой автора ознакомил кандидат технических наук С.П. Левашов (Курганский государственный университет), который столкнулся с ней в ходе проводимых им исследований в этой области.

Практически для проведения здесь статистического исследования нужно для каждом случае травматизма получить информацию об обстоятельствах несчастного случая и его последствиях (медицинский диагноз). Имеются классификаторы, с помощью которых, имея описание инцидента и диагноз, можно определить 4 классификационных признака: код вида воздействия, код источника травмы, код места травмы и код характера травмы. Для наших целей эти коды являются необходимой и достаточной информацией. Проблема в том, что текстовое описание несчастного случая на производстве и полученной травмы хранится (в «Региональном отделении Фонда социального страхования Российской Федерации») в произвольном, неструктурированном виде. Человек, прочитав этот текст, как правило, может определить необходимые коды, поскольку он понимает широкий контекст того, о чем говорится в тексте. Однако объем этой информации весьма велик, и выполнение этой работы вручную нереально. Встает задача автоматизации анализа информации о производственных несчастных случаях.

1.2 подход к решению

Итак, задача выглядит следующим образом.

На входе имеем два текстовых поля: с описанием инцидента и с медицинским диагнозом.

На выходе необходимо получить четыре кода, перечисленные выше.

Имеются 4 классификатора. Все имеют иерархическую структуру с небольшим (2-4) количеством уровней иерархии. Классификаторы следующие:

1 Источник травмы. Это может быть, например, «Трактор», «Стремянка», «Летящие частицы», «Дорожное покрытие».

2 Вид воздействия. Например: «Удары падающими предметами при обращении с ними», «Чрезмерные физические усилия при подъеме предметов», «Контакт с чрезмерно холодными веществами или предметами».

3 Характер поврежде н и й . Нап ри мер:

«Переломы», «Ожоги», «Острые отравления и интоксикации».

4 Местоположение повреждения. Различные части тела и системы организма: «Голова», «Система кровообращения».

Каждый элемент того или иного классификатора содержит соответствующий код. Наша цель - определить в каждом из классификаторов элемент (и, следовательно, код), адекватный ситуации, описанной в тексте. При этом источник травмы и вид воздействия определяются исходя из описания инцидента, а характер и местоположение повреждения - из диагноза.

Что представляют собой исходные данные.

Как правило, текст написан грамотно, знаки пунктуации расставлены верно, лексика используется стандартная. Сокращения используются, но также общепринятые. Это, по крайней мере, упрощает первоначальную обработку текста.

В большинстве случаев диагноз - перечисление пострадавших органов и характера повреждений, то есть достаточно прозрачно корреспондирует с содержимым классификаторов 3 и 4. Синтаксис также достаточно прост; сложности могут возникать в фразах типа «Тупая травма таза, обширные ушибы, кровоподтеки мягких тканей таза, промежности». Здесь могут быть разные толкования, к чему относится слово «промежности».

Описание инцидента обычно сложнее и синтаксически и семантически, так как:

- часто состоит из нескольких предложений; учет связи между предложениями текста представляет отдельную задачу,

- нет никакого стандарта (в диагнозах он просматривается), все предложения имеют произвольную форму, сам пострадавший обычно не упоминается ни как деятель, ни как объект, так как «и так понятно, о ком идет речь»,

- иногда в принципе ничего нельзя определить по части классификаторов 1 и 2, например: «Выполняя ремонт, получил травму»,

- наиболее сложный момент состоит в том, что часто для понимания требуются знания о явлениях, никак в тексте не упомянутых, образующих ситуативный контекст. Например, «Заводил с пускача трактор, не выключив скорость, получил перелом таза». А в случае диагноза контекст обычно укладывается в анатомию человека.

Под термином «понимание» будем понимать следующее (подражая человеческому «пониманию»). Имеется ряд типовых ситуаций (шаблонов, паттернов). Необходимо распознать паттерн, соответствующий смыслу текста, и параметризовать его, исходя из конкретного содержания текста. Поняв текст, мы решим и утилитарную задачу: определим классификационные коды.

Исходя из изложенного представляется реальным следующий подход к решению задачи.

1 Описание инцидента и диагноз обрабатываются независимо.

2 Синта ксич еский анализ для обоих полей СЕРИЯ «ТЕХНИЧЕСКИЕ НАУКИ», ВЫПУСК 11

(описание инцидента и диагноз) производится одинаково, в соответствии со схемой, изложенной в [1]. То есть, проводится морфологический анализ, затем строится синтаксическая структура предложения, используя семантическую информацию только для снятия неоднозначности.

3 Семантический анализ диагноза можно осуществить исходя из того, что паттернов здесь относительно немного (обычно, один для каждого вида травмы) и паттерн достаточно просто идентифицируется, когда построена синтаксическая структура предложения. После этого могут быть определены классификационные коды.

4 В случае с описанием инцидента можно выделить два случая.

Первый - аналогичный ситуации с пониманием диагноза, например: «Упав с комбайна, сломал ногу» - вся информация содержится в тексте, необходимо ее только извлечь.

Второй - как в примере с запуском трактора, стоящего на скорости. Здесь база знаний должна включать достаточно обширные контексты различных ситуаций. В этом случае наша программа должна идентифицировать паттерн, восстановить важные для понимания, но не упомянутые прямо в тексте, обстоятельства, а затем действовать, как в первом случае.

Следует отметить, что проект разрабатывался как исследовательский, а не как промышленный.

2 Морфологический анализ

На вход морфологического анализатора подается предложение. На выходе - массив/ список морфологических описаний элементов предложения.

Работа происходит в два этапа.

1 Предварительная обработка текста. На этом этапе производится замена

1) знаков препинания соответствующими кодами, принятыми в системе;

2) популярных сокращений и распространенных опечаток; для этого используются словари, которые сейчас доступны;

3) марок техники на название соответствующего вида техники, например, вместо «МТ-20» будет «трактор»; соответствующий словарь составлен самостоятельно;

4) слов неизвестных MyStem (см. ниже) на их «суррогаты»: вместо «оскольчатый» (перелом) -«осколочный» и т.п.; состав таких слов был установлен опытным путем.

2 Собственно морфологический анализ слов предложения.

Для него используется анализатор MyStem. Он разработан Яндекс, его исходный код закрыт, он свободно может применяться в коммерческих и некоммерческих приложениях; имеющиеся ограничения в нашем случае значения не имеют. Данный анализатор обладает вполне достаточной функциональностью: для каждого текстового слова находятся все возможные лексемы, для к о т о р ы х п р и в о_д и т ся их полная гр а мм а_тическая

107

характеристика (часть речи и, например, род и одушевленность для существительных), и форма (формы), в которой данной текстовое слово представляет данную лексему (например, число, падеж).

Стоит отметить, что для промышленного применения в таком виде анализатор вряд ли применим, в частности, из-за низкого быстродействия, но для исследовательских целей вполне пригоден. Можно предположить, что для своих внутренних целей Яндекс использует несколько другую версию.

3 синтаксический анализ

3.1 Общая схема и алгоритм

Применяемая модель синтаксиса состоит из двух компонентов:

1) фреймовая модель предложения,

2) система правил продукции для восстановления структуры предложения по его тексту.

Общая схема синтаксического разбора такова

1 На входе — массив текстовых атомов — знаков препинания или слов, уже обработанных морфологическим анализатором. Идентификаторы атомов - просто их позиции в массиве, начиная с 1.

2 В ходе разбора формируются фреймы, первоначально — каждый фрейм связан с одним атомом, потом структуры могут укрупняться. Идентификатор фрейма - это его номер (начиная с 1) в хронологическом порядке создания фреймов. Они образуют МФ - массив/список фреймов.

3 В ходе разбора создается и постоянно изменяется список фреймов верхнего уровня (СВУ). Это фреймы, каждый из которых не подчинен другому фрейму. В конце вывода в этом списке должен быть ровно один элемент — всё предложение, как целое. Ему древообразно подчинены другие фреймы, что и отражает синтаксическую структуру предложения.

Алгоритм разбора в целом такой.

1 Сначала фреймов нет, списки пусты.

2 Атомы из входного массива вводятся по одному слева направо. Для слова сразу же создается фрейм соответствующего типа (см. ниже). Новый фрейм пополняет собой МФ и его идентификатор записывается в хвост СВУ. Фрейм, расположенный в хвосте СВУ называется текущим.

3 Делается попытка укрупнить фреймы в СВУ, подчиняя один фрейм другому.

3.1 Всегда рассматривается текущий фрейм и то, что слева от него. Имеется ряд типовых ситуаций, когда можно произвести укрупнение. Они отражены в наборе правил продукции, где антецедент - типовая ситуация, а консеквент — действие, которое следует произвести.

3.2 Операции могут быть следующих типов:

1) Захват. Текущий фрейм поглощает фрейм слева, тот удаляется из СВУ (то есть из списка удаляется его идентификатор, сам фрейм в МФ остается), а его идентификатор записывается в один из слотов поглотившего его фрейма (см. прим е р_) .

108-

2) Передача. Точно наоборот. Фрейм слева поглощает текущий с такими же последствиями для обоих.

3) Объединение. Производится, когда создается группа подобных членов. Создается новый фрейм (см. типы фреймов) и ему подчиняются текущий и фрейм слева.

3.3 Если произошла передача, то обработка этого текстового атома заканчивается и вводится следующий. Если произошел захват, то п.3 начинается сначала.

4 Это продолжается, пока не произойдет одно из двух

- слева от текущего фрейма в СВУ пусто;

- ни одно правило невозможно применить.

3.2. Фреймовая модель

3.2.1 Общая структура

Фреймы образуют несколько групп: для синтаксического разбора, для распознавания ситуаций инцидентов и др. Здесь рассматриваются только первые.

Любой фрейм включает слоты (имеет свойства):

1) Идентификатор: число - идентификатор данного фрейма;

2) Тип: указание типа. Практически - код, но далее для удобочитаемости используются мнемонические обозначения;

3) Фрейм-хозяин: число - идентификатор фрейма, в который входит данный. Пустое значение, если хозяина нет.

Все фреймы-экземпляры имеют общее пространство идентификаторов. Как видно из состава слотов, общих для всех типов, фреймы образуют древообразную структуру (в общем случае - лес), но не решетку и тем более не граф более общего вида.

Фреймы для грамматического разбора разделяются на фреймы на уровне словосочетаний и на уровне предложений. Предложение в данном случае формально не считается словосочетанием.

3.2.2 Фреймы на уровне словосочетаний

Имеется две основные подгруппы: фреймы-

блоки и атомарные фреймы.

Блоки соответствуют именам знаменательным и местоименным (для последних, в основном, зарезервировано) и включают их и подчиненные им слова. Последних может не быть, тогда блок включает только одно слово.

Атомарные соответствуют знаку препинания или служебному слову: предлогу, союзу, частице, междометию. У служебных слов не бывает подчиненных слов. Фактически служебное слово может состоять из нескольких текстовых. («в течение», «потому что» и пр.), в этом случае отображающий это слово фрейм будет считаться атомарным и объединять все эти текстовые слова.

Все фреймы данной группы включают слоты (один из трех альтернативно):

1) Базовое слово. Число - идентификатор слова или з н а к а п р е п и н а н и я . Для ат о марны х -

единственного слова или знака. Для блоков -того знаменательного, вокруг которого построен блок

2) Базовые однородные члены. Число - идентификатор блока типа ОЧ_ (однородные члены, см. ниже), если блок базирован на ОЧ. Только для блоков.

3) Базовое цельное словосочетание. Аналогично, если блок базирован на цельном словосочетании.

Слот «Тип» может принимать для фреймов-блоков следующие значения (фактически это могут быть коды, здесь приведены мнемонические обозначения): ГрСущ (Группа существительного), ГрПрил (Группа прилагательного), ГрГлаг (Группа глагола), ГрНар (Группа наречия), ГрЧисл (Группа числительного), ПрОб (Причастный оборот), ДеепрОб (Деепричастный оборот), ГрМст (Группа местоимения), ЗнПр (Знак препинания), Предлог, Союз, Частица, ОЧ_Сущ (Группа однородных членов - существительных), ОЧ_Прил (аналогично прилагательных), ОЧ_Глаг (глаголов), ОЧ_Нар (наречий), ОЧ_Числ (числительных).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Кроме того, все фреймы-блоки включают слот «Включаемые элементы». Список (без иерархии) идентификаторов фреймов, включенных в данную группу. Собственный идентификатор не включается. Может быть пустым.

Кроме общих, все фреймы имеют слоты, отражающие их специфику. В качестве примера: фрейм «Группа существительного» включает дополнительные слоты:

1) Согласованное определение: Список идентификаторов фреймов, образующих согласованное определение. Может быть пустым.

2) Несогласованное определение: Список идентификаторов фреймов, образующих несогласованное определение. Может быть пустым.

3) Предлог: Число — идентификатор предлога. Если его нет — пустое значение.

3.2.3 Фреймы на уровне предложения

Здесь всего два вида фреймов: ПредГр (Предикативная группа) и Предложение.

Фрейм типа ПредГр включает три дополнительные слота:

1) ГрПодл: Группа подлежащего (идентификатор фрейма). Этот фрейм обычно - ГрСущ, но не обязательно.

2) ГрСказ: Группа сказуемого (идентификатор фрейма). Этот фрейм обычно - ГрГлаг, но не обязательно.

3) Общее обстоятельство: Как правило, ГрСущ, которые относятся ко всей конструкции, основанной на предикативном ядре.

Фрейм типа Предложение включает только один дополнительный слот: Список независимых предикативных групп.

То есть мы предполагаем каждое предложение, вообще говоря, сложносочиненным, а каждое главное может иметь в подчинении любое количество придаточных, которые попадают либо в Гру п п у п о д л е ж_а ще го , ли б о в Г_р_у п п у с казу е мог_о , СЕРИЯ «ТЕХНИЧЕСКИЕ НАУКИ», ВЫПУСК 11

либо в Общее обстоятельство. Благодаря очевидной рекурсивности этой конструкции, возможна любая степень вложенности.

3.3 правила продукции для синтаксического разбора

Как говорилось выше, правила служат для восстановления структуры предложения. Ниже в качестве примера приведены два правила, применяемые, когда текущий блок - группа существительного.

(11)ЕСЛИТекБлок=ГрСушИУровень=Верхний И Элемент = ГрПрил И Согласованы(ТекБлок, Элемент)

ТО Захват (Элемент, СоглОпр)

(22) ЕСЛИ ТекБлок = ГрСуш(с/п, КосвП) И Уровень = Нижний И Элемент = ГрСуш ТО Передача(ТекБлок ,НеСоглОпр) Здесь Элемент - элемент СВУ слева от текущего,

с/п - с предлогом,

Уровень = Верхний или Нижний означает, что рассматривается элемент СВУ или фрейм, ближайший слева от текущего безотносительно к его положению в иерархии,

КосвП - любой косвенный падеж. Управляющая структура данной продукционной системы проста. Все правила имеют определенный приоритет (в принципе — вычисляемый, практически — фиксированный для каждого типа фрейма). Правила просматриваются в соответствии с этими приоритетами, пока хотя бы одно не сработает. Затем просмотр начинается сначала.

3.4 пример синтаксического разбора Допустим, на входе текст: «Сложный осколь-

чатый перелом третьего пальца левой руки».

После морфологического анализатора получим массив (атомов).

Таблица 1 - Пример исходных данных для синтаксического разбора

Идент. Основная форма Часть речи Морфологическая характеристика

1 сложный Прилагательное М.р., ед.ч., ИП

2 оскольча-тый .Прилагательное М.р., ед.ч., ИП

3 перелом Существительное М.р., ед.ч., ИП

4 третий Числительное Порядковое, М.р., ед.ч., РП

5 палец Существительное М.р., ед.ч., РП

6 левый Прилагательное Ж.р., ед.ч., РП

7 рука Существительное Ж.р., ед.ч., РП

После синтаксического разбора будет получено предложение, где будет всего одна независимая предикативная группа, в которой будет заполнена только группа подлежащего. Она будет представлена следующей структурой (начиная с корня дерева): СВУ = [3]

{ Ид = 3 , Тип = ГрСущ , БС = 3 , С О = [2 , 1] , Н О =

[5], Пр = None, ВЭ = [1,2,4,5,6,7]}

{Ид = 5, Тип = ГрСущ, БС = 5, СО = [4], НО = [7], Пр = None, ВЭ = [4,7]}

{Ид = 7, Тип = ГрСущ, БС = 7, СО = [6], НО = [], Пр = None, ВЭ = [7]}

Фреймы с идентификаторами 1, 2, 4, 6 - представляют только слова с теми же идентификаторами.

Здесь Ид - идентификатор, БС - базовое слово, СО - согласованное определение, НО - несогласованное определение, Пр - предлог, ВЭ -включаемые элементы, [...] - список. 4 семантический анализ

4.1 Тезаурус

Для семантического анализа текста разработан тезаурус по предметной области. Он включает в себя совокупность терминов, описывающих данную предметную область, с указанием семантических отношений (связей) между ними. Тезаурус представлен обычной реляционной БД.

Основной является таблица «Понятия», содержащее понятия-существительные. Имеются разного рода связи между понятиями, как иерархические, так и горизонтальные, отражающие специфику предметной области. Используется перекрестная классификация: одно и тоже существительное может входить в несколько групп. Например, радиатор — это и резервуар, который может разгерметизироваться, и тяжелый предмет со всеми его возможными ролями. Кроме того, радиатор - часть двигателя и т.д. Характеристики и связи между существительными отражены в таблицах «Существительные в группе» и «Группы существительных».

Существенно меньший по численности элементов компонент тезауруса - глаголы. Каждый глагол может иметь несколько значений, поэтому они также объединены в группы. Основная -«Травмирующие глаголы». Например, «оказаться» по смыслу может быть и «находиться», и «попасть», и «угодить». Травмирующие глаголы, в свою очередь, объединены в «Функциональные роли». Например, травмирующий глагол «Оказаться» входит в функциональную роль «Защемить».

Формально входит в тезаурус и компонент, отражающий анатомию человека и отчасти физиологию: основные системы организма.

4.2 медицинский диагноз Семантический анализ медицинского диагноза не представляет большой трудности по причинам, о которых сказано выше.

Практически все случаи сводятся к следующим схемам:

<Вид повреждения> <орган/система организма>

<Смерть в следствие> <причина смерти> Как видно из примера синтаксического разбора, его результат может быть достаточно легко транслирован в требуемую пару кодов.

4.3 Описание инцидента

4.3.1 структура модели

Семантическая модель инцидента включает следующие основные компоненты:

1. Классификация инцидентов.

2. Состав и иерархия ролей.

3. Правила определения носителей (так сказать, исполнителей, айог'ов) ролей.

4. Правила определения класса инцидента и его соотнесения с целевыми кодами (кодами вида воздействия и источника травмы).

5. Контексты травмоопасных ситуаций.

Последний компонент используется в случаях, когда сообщение не содержит достаточно информации для прямого определения целевых кодов, и мы вынуждены подключать знания о более широком контексте ситуации.

Классификация инцидентов основана на, так сказать, «бытовой» классификации, естественной для человека и поэтому наиболее ясно проявляющейся в формулировках на естественном языке. Эта классификация тесно связана с (целевым в нашей задаче) классификатором вида травмирующего воздействия, но имеет отличия. В частности, принятая в модели классификация подробнее.

Роли делятся на:

1) Глобальные роли: Травмирующее действие, Субъект, Объект. Присутствуют во всех видах инцидентов.

2) Локальные роли. Специфические для каждого рода инцидентов и, как правило, называются агентами. Например, при защемлении обычно два агента: между чем и чем защемило. При разрыве ёмкости - уже другие агенты в зависимости от характера травмирующего воздействия: травма летящими частицами, травма громким звуком и т.д.

Правила определения носителей ролей являются правилами продукции, антецеденты которых определены на синтаксической модели предложения с сообщением об инциденте. Подробности приведены ниже.

4.3.2 Алгоритм семантического анализа

Этот алгоритм полностью перекрывает случай прямого распознавания. В случае, когда необходим расширенный контекст, требуются дополнительные действия, о которых говорится в следующем пункте.

Последовательность действий следующая.

1 Распознаётся травмирующее действие.

Сначала распознаем травмирующее действие: ищем сказуемое из списка глаголов, соответствующих (по тезаурусу) травмирующим действиям. Действие может быть выражено:

- просто «травмирующим» глаголом («ударил», «ударило»),

- тем же глаголов в возвратной форме («ударился»),

-соответствующим отглагольным существительным без глагола («удар»),

-соответствующим отглагольным существи-те л ь н ым с г_л а голом и з о п р е_д е л е н н о го набора

(«получил удар», «произошел удар»).

2 Выясняется, кто является субъектом действия.

Для этого применяется ряд правил. Некоторые из них:

- если глагол возвратный, то субъект - сам пострадавший;

- если нет подлежащего и глагол не среднего рода, то субъект — сам пострадавший;

- если нет подлежащего и глагол среднего рода, то субъект — не пострадавший и как-то следует из контекста, либо не следует, если сказано слишком кратко (например, «зажало», «ударило»);

- если в ГрГлаг есть ГрСущ1(ТП) то ГрСущ1 -предполагаемый субъект. Нужно проверить по тезаурусу, может ли это быть субъект данного действия («бункером ударило...»). Иначе считаем, что субъект «некая сила». Например, «палец зажало между валом и шестерней». Что-то зажало, сила тяжести, допустим.

3 Определяется объект. Это или пострадавший в целом, или часть тела.

4 Выясняется орудие нанесения травмы. Во многих случаях зависит от типа действия. Является локальной ролью.

5 Выделяется контекстный процесс. Например, инцидент произошел в рамках другого процесса: ремонта, полевых работ и т.д.

Пункты 4, 5 могут пропускаться, если их не требует задача.

6 Заключительный шаг. Определяется паттерн и целевые коды.

В таблице 2 следующие колонки: содержательное описание ситуации; целевой код и формулировка (по классификатору) вида воздействия; то же источника травмы; антецеденты правил, консеквенты которых указывают именно на данный паттерн. Обозначения типа Оказаться1 означает принадлежность действия к определенной группе, означающей действия, одинаковые

по сути в данном контексте. В данном случае: занять какое-то место в пространстве (скорее всего, некстати).

4.3. Случай использования расширенного контекста

Для восстановления недостающей информации применяем подход, аналогичный [2].

При изложении будем использовать реальный пример: «Открутил пробку радиатора, получил ожог». Человеку, читающему текст, всё понятно: в радиаторе трактора после длительной работы вода нагрета примерно до температуры кипения, много горячего пара, который вырвется, если сейчас открутить крышку. Открутил-таки - получил ожог этим самым паром. Фактически, не хватает упоминания промежуточного момента: «произошел выброс (горячего) пара». Но люди обычно это как раз всегда опускают, поскольку «и так ясно».

В модели реализован следующий формализм.

Мы считаем, что происшествия, приведшие к травмам, развиваются по сценарию:

1) неосторожное действие: то, что стартовало процесс,

2) промежуточное действие: неблагоприятное развитие событий,

3) травмирующее действие.

Каждый из пунктов сценария также в случае необходимости может быть развернут в цепочку.

Нам необходимо построить локальное поле знаний для группы неосторожных действий. В данном случае эти действия - разгерметизация, то есть какая-то «неправильная» разгерметизация ёмкости.

1. Объекты и их свойства

1.1. Бывают емкости: жесткие: баллоны, цистерны, радиаторы,... ; эластичные (оболочки): камеры колес, ...

1.2. Содержимое

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1) по агрегатному состоянию: газ, жидкость, одновременно газ и жидкость.

Таблица 2 - Типовые ситуации (фрагмент)

Код фрейма Содержание инцидента Код вида воздействия Код источника травмы Условие выбора

101 Защемление: между шестеренкой и цепью и т.п. То есть между частями работающего механизма 43. Защемление между движущимися предметами (за исключением летящих или падающих предметов) 12. Механизмы и устройства с трансмиссией 1) Субъект (Часть тела) Действие(Оказаться1) Предлог(Между) Агент1(Часть механизма) Агент2(Часть механизма) 2) Субъект(Часть механизма) Действие (Прихватить1) Объект(Часть тела)

102 Затянуло, замотало 42. Защемление между неподвижным и движущимся предметами 15. С/х механизмы и устройства или 12. Механизмы и устройства с трансмиссией (в зависимости от контекста) 1) Действие (Затянуть1) Объект (Часть тела) Предлог(В) Агент1(Вращ1) 2)Действие (Замотать1) Объект (Одежда) 3) 2)Действие (Замотать1) Объект (Часть тела: Волосы)

2) по температуре: низкая температура, высокая, нормальная.

3) по давлению: высокое, нормальное.

4) по химическим свойствам: нейтральное, едкое, токсичное.

1.3 Разгерметизация может быть

- штатными средствами: вынуть пробку, отвинтить крышку,...

- аварийная: лопнуть, проткнуть(чем-то),...

1.4 В результате аварийной разгерметизации может быть: повреждение емкости или уничтожение емкости.

1.5 Травмирующим фактором может быть: выброс содержимого, громкий звук, ударная волна, разлетающиеся частицы.

1.6 Возможные последствия.

Выброс содержимого может повлечь: ожог, обморожение, химический ожог, отравление.

Громкий звук может повлечь: травму органов слуха.

Ударная волна: то же, что удар.

2. Цепочки действий

1) Неосторожное действие - разгерметизация

2) Промежуточное действие— звук/выброс/ волна.

3) Травмирующее действие — в соответствии с промежуточным.

2.1 Любой конкретный объект, например, радиатор, имеет свои характеристики, как источник именно этого типа опасности: жесткий, жидкость и газ, температура высокая, давление нормальное, химические свойства: нейтральное.

2.2 При разгерметизации того, кто содержит жидкость и газ, может произойти выброс того и другого. При этом при штатной разгерметизации - газ (мы для простоты считаем, что есть только пробка сверху), а при повреждении - жидкость.

2.3 Травмирующее действие от выброса содержимого: если температура высокая — ожог, если температура низкая - обморожение, если содержимое едкое - химический ожог, если токсичное - отравление.

Можно заметить, что эти правила не привязаны к каким-то другим условиям. Например, не требуют учета нескольких факторов.

Таким образом, если теперь мы идентифицируем неосторожное действие и объект, мы можем построить цепочку (цепочки).

3 Идентификация неосторожного действия

Теперь мы может распознать ситуацию, используя правило с антецедентом:

Действие(Открывать1)И

Объект(Целое(Емкость1), Часть(Средство_герм_1)),

где Открывать1: открыть, открутить, вынуть, вытащить; Емкость1: баллон, радиатор,...;

Средство_герм_1: пробка, вентиль, крышка... Эта информация содержится в тезаурусе.

4 Восстановление цепочки событий

Далее мы можем идентифицировать разгер-мети з а ц и ю как штат н ую (п . 1. 3 поля знаний) , з ате м 112-

- выброс газа (п.2.2), затем - ожог (пп.2.1, 2.3).

Таким образом, локальное поле знаний дает возможность восстановить обстоятельства, пропущенные в тексте сообщения.

5 Реализация

Проект был доведен до уровня работающей программы. При этом тезаурус был составлен в полном (в первом приближении) объеме, синтаксический анализатор - примерно на 50%, система правил для семантического анализа медицинских диагнозов - практически полностью. База знаний для семантического анализа инцидентов заполнялась выборочно, только с целью проверить адекватность подхода и практическую приемлемость компьютерной реализации.

В работе над проектом приняли участие студенты КГУ специальности ПОВТиАС А. Кипорский и И. Кипорская. Ими был заполнен тезаурус и осуществлена программная реализация на языке Java (это входило в их выпускные работы).

Автором разработана пилотная программа на языке Erlang.

6 Выводы

1 Разработана семантическая модель предметной области «Производственные несчастные случаи. Трактористы». База знаний на ее основе позволяет осуществлять машинное понимание (семантический анализ) текстов с описанием инцидентов и соответствующих медицинских диагнозов.

2 Разработан синтаксический анализатор предложений на русском языке, ориентированный в первую очередь на подготовку информации для семантического анализатора.

3 Осуществлена программная реализация синтаксического и семантического анализаторов.

4 Тестирование показало эффективность данного подхода.

Список литературы

1 Головко А. П. Автоматический анализ предложения на естественном языке на основе комбинированного семантико-синтаксического подхода // Вестник Курганского государственного университета. Серия «Технические науки». Вып.5. Курган: Изд-во Курганского гос. ун-та, 2010. С.156-159.

2 Сценарии /Л.В.Литвинцева //Искусственный интеллект : в 3 кн. Кн. 2. Модели и методы : справочник /под ред. Д. А. Поспелова. М.: Радио и связь, 1990. 304 с.

УДК 658.3

А.А. Перелыгина, В.Н. Орлов, А.В. Брюхов Курганский государственный университет

оценка

профессиональных качеств сотрудников экспертным методом

Аннотаци я . В статье обосновывается зна-

Вестник КГУ, 2016. № 3

i Надоели баннеры? Вы всегда можете отключить рекламу.