Научная статья на тему 'Классификация текстов в системе узлов лексической онтологии'

Классификация текстов в системе узлов лексической онтологии Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
316
74
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ / КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА / КЛАССИФИКАЦИЯ ТЕКСТОВ / ЛЕКСИЧЕСКАЯ ОНТОЛОГИЯ / ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ТЕКСТОВ / ARTIFICIAL INTELLIGENCE / COMPUTER LINGUISTICS / TEXT CLASSIFICATION / LEXICAL ONTOLOGY / TEXT MINING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Данченков Сергей Игоревич, Поляков Владимир Николаевич

В статье рассматривается проблема семантического индексирования текстов в терминах задачи классификации текстов по узлам лексической онтологии. Предлагается использовать данный подход в задачах идентификации объектов в полнотекстовых документах для повышения качества поиска информации. Приведены основные отличия данного подхода от задач разрешения многозначности и индексирования. Предложен метод классификации OntoKlass. Сделана формальная постановка задачи. Выполнена инженерная реализация метода.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Данченков Сергей Игоревич, Поляков Владимир Николаевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

In this work we consider a problem of text semantic indexing from positions of text classification problem with lexical ontology units. We offer to use this approach for objects identification problem and to improve quality of information retrieval. Basic differences of classification problem with using lexical ontology units from the text indexing task and from WSD task are formulated. A new method of classification is offered named as OntoKlass. Formal statement of the problem is made. Engineering realization of the method is executed.

Текст научной работы на тему «Классификация текстов в системе узлов лексической онтологии»

УЧЕНЫЕ ЗАПИСКИ КАЗАНСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА

Том 152, кн. 1

Физико-математические пауки

2010

УДК 004.81

КЛАССИФИКАЦИЯ ТЕКСТОВ В СИСТЕМЕ УЗЛОВ ЛЕКСИЧЕСКОЙ ОНТОЛОГИИ

С .И. Дай,чей,ков, В.Н. Поляков

Аннотация

В статье рассматривается проблема семантического индексирования текстов в терминах задачи классификации текстов по узлам лексической онтологии. Предлагается использовать данный подход в задачах идентификации объектов в полнотекстовых документах для повышения качества поиска информации. Приведены основные отличия данного подхода от задач разрешения многозначности и индексирования. Предложен метод классификации О^.оЮавв. Сделана формальная постановка задачи. Выполнена инженерная реализация метода.

Ключевые слова: искусственный интеллект, компьютерная лингвистика, классификация текстов, лексическая онтология, интеллектуальный анализ текстов.

Введение

Автоматическая классификация текстов представляет собой один из наиболее хорошо изученных разделов компьютерной лингвистики. Существуют солидные обзоры, дающие представления о результатах, полученных в этой области за последние годы [1]. Хорошо известны классические коллекции текстов (Т1си1сг-21578 и др.). которые стали стандартом де-факто в области оценки качества методов и приложений для автоматической классификации текстов. Под автоматической классификацией (рубрикацией) информации понимается отнесение порции информации к одной или нескольким категориям из конечного множества рубрик [1. 2]. Она может применяться в следующих сферах:

• системы документооборота для классификации технической документации;

Существует ряд методов классификации больших объемов текстовой информации. в основе которых лежат технологии компьютерной лингвистики и алгоритмов распознавания образов.

Среди задач классификации выделяют:

носится информация.

Список может быть продолжен в зависимости от поставленных задач.

Кроме того, классификация бывает точной, когда каждой паре документ-категория сопоставляется булево значение 0 или 1 (соответствует документ категории или нет), и ранжированной (определяется степень принадлежности документа к категории). Известно несколько методов построения и обучения классификатора: Т1оссЫо, разрешающие деревья, метод к соседей, метод опорных векторов (БУМ) и др. [1]. Показатели (качество, цена, скорость) автоматической классификации постоянно улучшаются. Это обусловлено как применением новых методов и алгоритмов или улучшением уже имеющихся (например, добавление в модель эвристик [3]), так и развитием компьютерных технологий, следовательно, и вычислительных мощностей. Процесс автоматической классификации не предусматривает помощь специально обученных экспертов1, что существенно снижает затраты и снижает риски по человеческому фактору. Важным моментом является наличие признанных метрик, позволяющих объективно оценить качество классификации [4].

Наряду с классификацией существуют и другие методы повышения качества поиска информации. В настоящее время перспективы организации более качественного, содержательного информационного поиска в сети Интернет связываются с разработкой онтологий [5, 6].

На формальном уровне онтология это система, состоящая из набора понятий и набора утверждений об этих понятиях, на основе которых можно строить классы, объекты, отношения, функции и теории [5, 7, 8]. Стоит отметить, что существуют различные интерпретации определения онтологии среди специалистов по искусственному интеллекту [9 11] и в комыонити по компьютерной лингвистики [12]. Основными компонентами онтологии являются классы или понятия, отношения, функции, аксиомы, примеры.

В зависимости от специфики декомпозиции предметной области существует несколько типов онтологий: верхнего уровня, предметных областей, прикладные онтологии, лексические онтологии [12]. В предложенном далее подходе мы будем использовать лексические онтологии.

Лексические онтологии это лексико-семантические структуры, в которых установлены семантические связи между словами и словосочетаниями. При этом отличительной чертой онтологий является то, что узлами этой сети являются не сами слова (лексемы), а их семантические значения [7], то есть лексическая онтология представляет собой сеть вербалнзованых концептов (концепты с именами).

В качестве примера лексической онтологии можно привести ресурс "\¥огсШе1 [13]. Этот ресурс представляет в виде иерархической структуры систему значений словаря общеупотребительных слов английского языка. Вместе с тем возникает достаточно много проектов, которые описывают на основе модели "\¥огсШе1 терминологические системы конкретных предметных областей, то есть создают лексические онтологии этих областей [5, 11, 14, 15].

В настоящей работе рассматривается возможность применения технологий классификации и онтологических систем в рамках задачи классификации текстов с привязкой к узлам лексической онтологии. В этом случае каждый узел онтологии можно рассматривать как рубрику, к которой можно привязать текст, то есть фактически классифицировать его по узлам онтологий. В работе рассматривается прикладная онтология, включающая не только абстрактные, но и индивидные объекты (например, конкретные промышленные предприятия, персоналии топ-менеджеров). При этом решается относительно частная задача классификации текстов по этим терминальным узлам онтологии.

1 В технологии машинного обучения труд экспертов используется при разметке обучающей выборки.

Отправной точкой в постановке задачи классификации текстов к узлам лексической онтологии является одна из задач информационного поиска и извлечения информации из текстов на естественном языке задача выявления индивидных объектов в тексте. Под индивидным объектом будем понимать концепт, характеризующийся именем собственным, причем в тексте индивидный объект может иметь различные имена собственные, что несколько затрудняет его выявление, но дополнительная информация способна уточнить, о каком именно объекте идет речь (Пример 1).

Пример 1

Открытое акционерное общество «Магнитогорский металлургический комбинат» [м>ц] является крупнейшим предприятием, чёрной .металлургии [«>31] России, его доля в объёме металлопродукции [w32] , реализуемой на внутреннем рынке страны, составляет около 20%. ОАО «ММК» [wi2] входит в число двадцати крупнейших сталелитейных компаний [w33] мира (по данным журнала Metal Bulletin [«731] )• Магнитогорский комбинат [«>13] представляет собой крупный металлургический комплекс [w34] с полным производственным циклом, начиная с подготовки железорудного сырья [w35] и заканчивая глубокой переработкой черных металлов [w36]. По итогам 2005 года выручка от продажи товаров, продукции, работ, услуг ММК [wi4] составила Ц1 329-4 млн. рублей, прибыль до налогообложения 39 1Ц. 7 млн. рублей.

В данном примере:

• wii, W12, wi3, wi4 принадлежат микрословарю идентификаторов объекта;

• w2i принадлежит микрословарю тематической лексики;

• w3i, w32, w33, w34 принадлежат микрословарю индивидных лексических

2

Кроме того, индивидный объект может не всегда быть упомянут в явном виде (Пример 2). Однако в тексте может присутствовать информация, неявно указывающая на объект. Например, если речь идет о компаниях, упомянутые имена топ-менеджеров, названия партнеров или даже географические названия могут указывать на то. что в данном тексте речь идет именно об этой компании, а не о какой-то другой.

Пример 2

По решению губернатора Петра Сумина [«>21] Виктор Гашников [«>22] ■удостоен высшей награды Челябинской области [w23] за выдающиеся заслуги в развитии металлургической промышленности [w3i] в регионе. Так оценен его труд в качестве руководителя крупнейшего в регионе и стране металлургического предприятия [w32].

Здесь:

• w2i, w22 , w23 принадлежат микрословарю тематической лексики;

• w3i, w32 принадлежат микрословарю индивидных лексических единиц.

Необходимо подчеркнуть, что в нашем случае задача классификации текстов

по узлам онтологической системы не сводится к задаче разрешения лексической многозначности, хотя иногда это можно сделать. В общем случае термин, которым обозначен индивидный объект в лексической онтологии, в тексте может и не

2Подройнее это рассматривается в разд. 1.

встретиться. Таким образом, текст может быть на основании косвенных признаков привязан к данному узлу онтологической сети. В этом и заключается новизна подхода.

1. Постановка задачи

1.1. Формальное описание онтологии. Будем представлять онтологию как пятерку вида:

О = (К,Ь,Еы,Екк ,ДН), (1)

где К - множество концептов3, Ь — множество лексических единиц4, К^ _ множество отношений «концепт —лексическая единица»5, Ккк — множество семантических связей6 между концептами, Кц - множество лингвистически обусловленных связей между лексическими единицами7.

1.2. Формальная постановка задачи. Формальная постановка задачи классификации в соответствии с [1] выглядит следующим образом. Имеется множество К узлов онтологической системы, множество П документов, необходимо построить отображение С (К, Б) С К х П, удовлетворяющее условию Р.

1.3. Описание метода Оп1;оК1а88. Метод ОгЦоЮаББ базируется на технологии машинного обучения и использует контролируемые8 словари лексических единиц четырех типов:

1) микрословарь идентификаторов объекта

V = {■Ш11,'Ш12,...,'Ш1П}; (2)

2) микрословарь тематической лексики

V = {^21,^22,- ••,^2т}; (3)

3) микрословарь индивидных лексических единиц (имена сотрудников, географические названия)

Уз = {^31,^32, • • • (4)

4) микрословарь уникальных лексических единиц (логотипы и названия продуктов)

У4 = {№41,^42, •••, №4, }• (5)

Микрословари У1, У2, У3, У4 формируются в процессе машинного обучения.

3В сети WordNet концепт описывается набором синонимов (синсетом). Пример: {завод, фабрика, предприятие}

4Лексическими единицами являются слова, устойчивые словосочетания или другие единицы языка, способные обозначать предметы, явления, их признаки и т. п.

5Это отношение описывает значение лексической единицы. Например: сосуд — {капилляр}, сосуд {кувшин}.

6Примеры связей между концептами: связь «часть - целое»: отрасль - предприятие, предприятие подразделение, предприятие персонал; родо-видовая связь: ВУЗ университет; синонимическая связь: помидор томат; ассоциативная связь: студент экзамен профессор аудитория.

7Примером могут служить морфологические формы: отпуск - отпускать.

8 Термин обозначает словари, введенные вручную или сформированные автоматически в процессе машинного обучения.

Опишем текст как массив нормализованных словоформ9

D = {wdi, wd2,..., wdb}.

(6)

На этапе классификации формируются элементы A1; A2, A3, A4, A5 алгоритма принятия решения:

Ai = Ki • Ni/Nimax,

где Ni = |D П Vi |, Ki - весовой коэффициент, Ni max = | Vi | ;

A2 = K2 • N2/N2 max;

где N2 = |D П V21, K2 - весовой коэффициент, N2 max = | V21 ;

A3 = K3 • N3/N3 max где N3 = |D П V3|, K3 - весовой коэффи циент, N3max = |V3| ;

A4 = K4 • N4 /N4 max, где N4 = |D П V4|, K4 - весовой коэффициент, N4max = |V4| ;

A5 = (Ai + A2 + A3 + A4)/4.

(7)

(8) (9)

(10) (H)

В процессе классификации происходит наполнение матрицы отношений документ рубрика:

di ^2 ^3 • • • dy

C

cii ci2 ci3 • • ciy ki

C2i C22 C23 • • c2y k2

C3i C32 C33 • • c3y k3

Czi Cz2 Cz3 • • Czy kz

(12)

сы е {0,1}. (13)

Имеется система (массив) пороговых значений Т = {Т1, Т2, Т3, Т4, Т5}. Таким образом, можно построить пространство правил для выполнения условий классификации, то есть привязки документа к узлу онтологии (см. табл. 1). Правило принятия решения выбирается следующим образом:

Ckd

1, если U выполнявтся; 0, если U не выполняется.

(14)

2. Инженерная реализация

Нами разработана программа, предназначенная для отнесения текстовых документов к искомому объекту, то есть она является по сути своей классификатором. Особенностью применяемого нами подхода является возможность привязки текста к объекту даже в тех случаях, когда объект упомянут в тексте иным термином или вовсе не упомянут в явном виде (только по косвенным признакам можно судить о принадлежности текста к объекту). В программе предусмотрены:

9Такое представление может быть получено в результате морфологического анализа текста в процессе лемматизации (получения первоначальной формы слова, исходя из других ого словоформ).

Табл. 1

Правило >т! Л2 > Т2 Аз > Тз а4 > т4 ЛБ >Тб Общая формула для и

Мягкое Не важно Не важно Не важно Не важно И и :АЬ> Ть

1-1 Л Л Л И и (^1 > Тх)А(А5 > Ть)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Л И Л Л и и (А2 > Т2)А(Аь > Ть)

Л Л И Л и и (Аз > Тз) а (Аь > Ть)

Л Л Л И и и (А4 > Т4) а (Аь > Ть)

1-1 И Л Л и и А( (Ах > Тх)а(А2 > Т2)а Аь > Ть)

1-1 Л И Л и v-. (Ах > Тх) а (А3 > Т3)А А(Лб > ТЬ)

1-1 Л Л И и v: (Ах >Тх) а (А4> Т4)А А(Л6 > Ть)

Л И И Л и и: (А2 >Т2) а (Аз > Т3)а а(Аб > ТЬ)

Л И Л И и v: (А2 >т2) а (А4> Т4)А А(Аб >Тб)

Л Л И и и V: (Аз > Тз)А(А4 > Т4)А А(Аб >Тб)

1-1 и и л и V: (А1 > ТО А(А2 > Т2)А а(А3 >Тз)а(А5 >Тб)

1-1 и л и и и-. (Ах >Тх) а (А2> Т2)а А(у14 > Т4) А (Аь > Ть)

1-1 л и и и v: (Ах >Тх) а (Аз > Т3)а Л(А4 >Т4)А(Аб >Тб)

Л и и и и v: (А2 >Т2) а (Аз > Т3)А Л(А4 >Т4)А(Аб >Тб)

Жосткоо 1-1 и и и и и: (Ах >Тх) а (А2> Т2)а а(А3 >Т3)а(А4 >Т4)а а(Аб >ТБ)

где И истина; Л ложь.

• подключение коллекции текстовых документов с возможностью просмотреть список:

выбор из всех имеющихся в системе объектов: пять/загружать онтологию в файл/из файла:

нять/загружать микрословари в файл/из файла:

вантных документов.

Главное меню программы (рис. 1) состоит из трех основных частей: «Верхнее меню» (меню «Файл» и «Помощь»). «Строка запроса» и «Результат выполнения запроса», в котором располагаются две области: список релевантных документов и текст выбранного документа. Пользователь вводит запрос (при этом система предлагает выбор из проиндексированных объектов), результатом выполнения которого будет список релевантных документов с возможностью просмотра текста

Система классификации

Файл Помощь

с привязкой к узлам

:Нрока.запроса-

■Щэмек. Надги(|уи':;:к,' те1йИигд1еЬ'егк^ котЬ1па1

>тат выполнения запроса^

C:\Documents апс! Эей СЛ0оситеп1$ апс1 5ей СЛ0оситеп1$ апс1 5ей C:\Documents апс! Эей

пдз\0 апсИепко\Рабочий пдг\0 апсИепко\Рабочий пдг\0 апсИепко\Рабочий пдг\0 апсИепко\Рабочий

C:\Docuiinents апа ЗеШпстиапспепкоТабочий столхиЕМОчКояяекци

C:\Documents апс1 5е№пдз\0апсИепко\Рабочий C:\Documents апс1 5еШпд5\0апсИепко\Рабочий СЛ0оситеп1$ апс1 5е№пд®\0апсИепко\Рабочий C:\Documents апс1 5е№пд5\0апсИепко\Рабочий C:\Documents апс15еЦ1пд$\0апсИепко\Рабочий C:\Documents апс! 5е№пдз\0апсИепко\Рабочий

Число документов коллекции 100

Количество релевантных документов 11

стол\0 Е М 0 ^Коллекция стол\0 Е М 0 ^Коллекция стол\0 Е М 0 ^Коллекция стол\0 Е М 0 ^Коллекция

стол\0 Е М 0 ^Коллекция стол\0 Е М 0 ^Коллекция стол\0 Е М 0 ^Коллекция стол\0 Е М 0 ^Коллекция стол\0 Е М 0 ^Коллекция стол\0 Е М 0 ^Коллекция

ММ К ремонтирует травильный агрегат 10.10.2008

В ЛПЦ.-В, цехе по производству высокопрочной стальной ленты Магнитогорского металлургического комбината, проходит плановый продолжительный ремонт непрерывного травильного агрегата.

Это первый крупный ремонт оборудования за все время существования ЛПЦ-8. Введенный в эксплуатацию вместе с другими основными мощностями цеха в 1982 году, непрерывный травильный агрегат все прошедшие годы исправно выполнял возложенные на него задачи. Через агрегат проходит вся продукция цеха, а это около 37 тыс. тонн ленты в месяц. Рекордное время работы стало возможным благодаря профессионализму строителей, правильной эксплуатации оборудования и грамотному техническому обслуживанию.

В ходе продолжительного 20-дневного ремонта будут полностью заменены все ванны агрегата - четыре травильные и две промывочные, общей протяженностью 140 метров. Для их Футеровки разработан новый проект. На сегодня уже завершен демонтаж старых ванн и посекционный монтаж новых ванн. В ремонте задействованы подрядные организации: ЗАО «МРК», ЗАО «Спецремстрой», ЗАО «МОЦ», ЗАО «МОК», ЗАО «Трест ВостокХимзащига». Все работы идут по графику и будут продолжаться до 18 октября. Параллельно ведутся

Рис. 1. Главное меню программы | Помощь

П одкл юч ить текстову ю кол л екци ю Текстовая коллекция Настройки Выход

Рис. 2. Окно меню «Файл»

выбранного из данного списка документа. На экран выводится также информация о количестве документов в системе и числе документов, удовлетворяющих запросу.

В «Верхнем меню» имеется возможность подключить новую или просмотреть уже подключенную коллекцию текстовых документов. Для гибкого управления системой и оптимизации ее работы под нужды конкретного пользователя предусмотрено меню настроек (меню «Файл» - «Настройки» (рис. 2)).

Настройки распределены между двумя окнами: «Навигация по онтологии» (рис. 2) и «Настройка микрословарей объекта10» (рис. 3). В окне «Навигация по онтологии» пользователь может просмотреть ветвь онтологии с возможностью ее редактирования (добавлять/удалять узлы) и сохранения изменений. Кроме того, пользователь должен указать типы объектов системы (индивид/множество).

Микрословари выбранного объекта выводятся в отдельном окне в виде списков. Настройка микрословарей объекта происходит в одноименном окне (рис. 4). Загружается эталонный образец (текст по которому происходит обучение). Образец можно использовать как для наполнения всех четырех микрословарей (VI, , Уз, У4); так и лишь тех, что выбрал пользователь. Далее формируется список

10 Под объектом понимается узел онтологии.

Навигация по онтологии

-Дерево онтологии. Отношение часть-целое.

□ Промышленность В-- Тяжелая

В Металлургия

• Цветная металлургия Е1 Черная металлургия

Добыча и обогащения сырья В Производство чёрных металлов В Предприятия

Магнитогорский металлургический комбинат

В • Структура

В- Производство и реализация металлопродукции В- Финансовые компании В Обеспечение технологического процесса ММ К В Техническое Обслуживание ММК В Глубокая переработка металлопродукции В прочие специализированные компании Производство стальных и чугунных труб Коксохимическая промышленность Вторичная обработка чёрных металлов Машиностроение Металлообработка Химическая промышленность Лесная промышленность Промышленность строительных материалов Электроэнергетика Добывающая промышленность Легкая

-Атрибуты объекта-

-Тип объекта-

Индивид

Г М|

ножество

Показать микрословари объекта Настройка на выбранный объект

¡1пс1ех

Рис. 3. Окно «Навигация по онтологии»

Магнитка - курсом динамичного развития

Открытое акционерное общество «Магнитогорский металлургический комбинат» является крупнейшим предприятием чёрной металлургии России, его доля в объёме металлопродукции, реализуемой на внутреннем рынке страны, составляет около 20 %. Предприятие представляет собой крупный металлургический комплекс с полным производственным циклом, начиная с подготовки железорудного сырья и заканчивая глубокой переработкой черных металлов. ММК производит самый широкий на сегодняшний день сортамент металлопродукции среди предприятий Российской Федерации и стран СНГ. Около 40 % продукции ОАО «ММК» экспортируется в различные страны

2007 год для ММК характеризовался самыми высокими производственными показателями за всю более чем 75-летнюю историю предприятия. По итогам прошлого года на ММК было выплавлено 13 201 тыс. тонн стали (106,5 % к аналогичным показателям 2006 года] и выпущено 12 824 тыс. тонн горячего проката (106,3). П роизводство товарной металлопродукции за 2007 год составило 12 203 тыс. тонн [107,6 %\ По выпуску металлопродукции ММК превзошел

Г и,

образец для всех параметров N

Загрузить образец

Сформировать список кандидатов

Занести всех кандидатов в микрословарь

Привязать микрословари к объекту

(* Считать автоматически Г" Указать в явном виде

№ Использовать образец

Вес компонента К2

Г" Считать автоматически (♦ Указать в явном виде Г-

Использовать образец

(* Считать Г Указать

- М икрословарь VI—

Магнитка

Магнитогорский ме ММК

ОАО "ММК"

ММК

ММК

ММК

ММК

Магнитогорскому г/ ММК

Магнитогорский ме

-1

Магнитка Магнитогорский металлургический кс Магнитогорского металлургического Магнитогорскому металлургическому ММК

□АО "ММК"

"Список кандидатов

-Микрословарь

БМб-ОЕМАБ 5М5-ОЕМАБ

министр промышленности и Виктор Христенко российской промышленное^ ЗАО «ИнтеркоЫУ» Виктор Рашников В иктор Рашников Приоскольского горно-обогг Белгородской области «Атакаш».

«Атакаш» ЭМВ-ОЕМАб Белгородской области Виктор Рашников

т -

ж

Городисский Андрей Ми> Дэвид Логан ЗАО «ИнгеркоЫУ» Кривощеков Сергей В Левин Кирилл Юрьевич <

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ма.г и иго го рек ой плошадке комбин^

Загрузить микрословарь терминов | 17 Использовать образец

"Список терминов-

"Микрословарь УЗ-

черной металлургии *

металлопродукции металлургический комплекс

шягж

глубокой переработкой черн металлопродукции горячего проката металлопродукции металлопродукции

стали

3

автоматизированных сортовых стг агрегата непрерывного горячего ц агрегата непрерывного горячего ц— агрегатом непрерывного горячего агрегатом непрерывного отжига/г

глубокой переработкой черных IV горячего проката горячей прокатки железооирного сьюья

а

"Настройка уникальным данных У4— "Вес компонента К4-

(* Считать а С* Указать в явном виде

Список кандидатов

-Микрословарь У4

Рис. 4. Окно «Настройка микрословарей объекта»

Выбою объекта

Выбор микрословарей для обучения

Загрузка обучающего образца

I

Выявление токенов в обучающем образце

Принятия решения о принадлежности токена к микрословарю

Т

Формирование микрословарей

Автоматиче екая нас тр ойка ы 1 Ручная настройка ; I I

Формирование списков кандидатов

/ Ручное / | / редактирование / ! / списков кандидатов / • / и микр о слов ар ей / '

Занесение кандидатов в микр о словари VI, У2, УЗ,

1

х

Привязка микр о слов ар ей к объекту

Сохранение изменений

Рис. 5. Блок-схема обучения

кандидатов слов и словосочетаний для каждого микрословаря, после чего пользователь может занести в микрословарь либо всех кандидатов, либо кандидатов по выбору. При переносе кандидатов в микрословарь система автоматически исключает повторы. Предусмотрена возможность добавлять/удалять термин из списка кандидатов и непосредственно из микрословаря. Важной особенностью системы является гибкая настройка весов компонентов (К1, К2, Кз, К4). Для каждого компонента вес может быть определен автоматически или задаваться вручную.

Блок-схема обучения показана на рис. 5.

После формирования микрословарей они привязываются к объекту, на который происходила настройка. В окне навигации по онтологии у данного узла можно будет увидеть изменения в привязанных к нему микрословарях. Теперь пользователь может входить в меню поиска (Главное меню) и задавать запрос, который будет выполняться уже с учетом изменений.

Общая блок-схема, блок-схема расчета N компонентов и схема данных показаны на рис. 6 8).

Заключение

Результатом работы явилось разработка методики, формальной постановки задачи и инженерная реализация для задачи классификации текстов по узлам лексической онтологии. Данный метод может быть использован в целях повышения качества поиска информации, а также для частной задачи идентификации объекта.

Стоит выделить следующие основные отличия задачи классификации по узлам лексической онтологии от задачи разрешения многозначности и задачи индексирования.

1. Значение слова описано в словаре и, как правило, представляет собой концепт-класс, тогда как в нашем случае объектом может быть индивид.

Рис. 6. Общая блок-схема

2. В пашой задаче классификации используются маркеры, связанные с жизненным циклом объекта, его функционирование, то есть это в какой-то степени максимально конкретизированный портрет предметной области, в которой функционирует объект, в то время как в задаче многозначности в основном используются доминирующие локсико-синтаксичоскио связи. Таким образом, объект можно рассматривать как референт значения (концепта).

3. Задача классификации текстов с привязкой к узлам лексической онтологии отличается от задачи индексирования текстов по лексическим единицам тем. что в общем случае онтологический концепт (обозначающий класс или индивид) может быть в тексте не локсикализован в явном виде. Кроме того, задача индексирования обычно не решает проблем, связанных с омонимией и синонимией.

Рис. 7. Блок схема расчет N компонентов

Микрословарь VI (название объекта)

РК Индекс объекта

Название объекта

Ветеь онтологии

РК Индекс объекта

^мя объекта Тип объекта Индекс родительского узла

Микросповэрь У2 (индивидуальные данные]

РК Индекс объекта

Индивидуальные данные

Микрословарь УЗ (тематические термины)

РК Индекс объекта

Тематические термины

МикрО словарь 74 (уникальные данные)

РК Индекс объекта

Уникальные данные

Отклзосифицированные документы

РК Индекс объекта

Имя документа

Рис. 8. Схема данных

Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований и Правительства Республики Татарстан (проект Л- 09-07-97007-р-Поволжьо_ а).

Summary

S.I. Danchenkov, V.N. Pulyakuv. Automatic Text Classification in the System of Concepts Lexical Ontology.

In this work we consider a problem of text semantic indexing from positions of text classification problem with lexical ontology units. We offer to use this approach for objects identification problem and to improve quality of information retrieval. Basic differences of classification problem with using lexical ontology units from the text indexing task and from WSD task are formulated. A new method of classification is offered named as Ont.oKlass. Formal statement of the problem is made. Engineering realization of the method is executed.

Key words: artificial intelligence, computer linguistics, text classification, lexical ontology, text mining.

Литература

1. Fabrizio S. Machine Learning in Automated Text Categorization // ACM Computing Surveys. 2002. V. 34, No 1. P. 1 47.

2. Агеев M.G., Доброе Б.В., Лукашевич П.В. Автоматическая рубрикация текстов: методы и проблемы // Учен. зап. Казап. уп-та. Сер. Физ.-матем. науки. 2008. Т. 150, кп. 4. С. 25 40.

3. Pulyakuv V., Sidyakin О., Sinitcin V., Ten A. Analysis of influence of heuristics on text classification effectiveness // Paper Collection "Text Processing and Cognitive Technologies" / Ed. by V. Solovyev, V. Polyakov, V. Goldberg. Moscow-Kazan-Varna: Ucheba, 2005. No 11. P. 121 135.

4. Даиче.иков С.И., Поляков В.Н., Си,дякми О.А. Использование технологии классификации текстов Rubryx в задаче разрешения лексической многозначности // Труды Казанской школы по компьютерной и когнитивной лингвистике TEL-2006. Казань, 2007. С. 16 23.

5. Доброе Б.В., Лукашевич Н.В., Сииицыи М.Н., Шапкии В.Н. Разработка лингвистической онтологии по естественным паукам для решения задач информационного поиска // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды седьмой Всерос. пауч. копф. RCDL'2005 (Ярославль, 4 6 окт. 2005 г.). Ярославль: Яросл. гос. уп-т, 2005. С. 70 79.

6. Роеееева О.И., Загорулько Ю.А. Организация эффективного поиска па основе опто-логий // Труды междупар. семинара Диалог'2001 по компьютерной лингвистике и ее приложениям. Аксаково, 2001. Т. 2. С. 333 342.

7. Поляков В.Н. Использование технологий, ориентированных па лексическое значение, в задачах поиска и классификации // Проблемы прикладной лингвистики: Сб. ст. ИЯ РАН. М.: Азбуковник, 2004. Вып. 2. С. 101 117.

8. Гаврилова, Т.А. Онтологический подход к управлению знаниями при разработке корпоративных информационных систем // Новости искусственного интеллекта. 2003. № 2. С. 24 30.

9. Guarino N. Formal Ontology and Information Systems // Guarino N. (ed.) Proc. of the 1st Intern. Conf. on Formal Ontologies in Information Systems, FOIS!98. Trento, Italy: IOS Press, 1998. P. 3 15.

10. Huvy E.H. Combining and standardizing large-scale, practical ontologies for machine translation and other uses // Proc. of the 1st Intern. Conf. on Language Resources and Evaluation (LREC). Granada, Spain, 1998. P. 535 542.

11. Stumme G. Using ontologies and formal concept analysis for organizing business knowledge // Wissensmanagement. mit. Referenzmodellen Konzept.e fur die

Anwendungssystem- und OrganisationsgestaltungHeidelberg / Eds. J. Becker. R. Knack-stedt. Heidelberg: Pliysica, 2002. P. 163 174.

12. Соловьев В.Д., Доброе Б.В., Иванов В.В., Лукашевич Н.В. Онтологии и тезаурусы. Казань. Москва: Казан, гос. уп-т, Моск. гос. уп-т, 2006. 157 с.

13. Miller G., Beckwith R., Fellbaum С., Gross D., Miller K. Introduction to WordNet: An On-Line Lexical Database // Intern. J. Lexicography. 1990. V. 3, No 4. P. 235 312.

14. Ruventini A., Marinelli R. Extending the Italian WordNet with the Specialized Language of the Maritime Domain // Proc. of Second Intern. WordNet Conf. GWC. 2004. P. 193 198.

15. Vassal P. Extending. Trimming and Fusing WordNet for Technical Documents // Proc. of WordNet and Other Lexical Resources: Applications, Extensions and Customizations. Pittsburg, USA, 2001. P. 125 131.

Поступила в редакцию 17.04.09

Данченков Сергей Игоревич аспирант Московского института стали и сплавов. Е-таП: graysnprOmail.ru

Поляков Владимир Николаевич кандидат технических паук, доцепт Московского государственного лингвистического университета и Московского института стали и сплавов, старший паучпый сотрудник Института языкознания РАН, г. Москва. Е-таП: pvn-650mail.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.