Научная статья на тему 'О возможности построения онтологий на основе доминантных лексем: результаты автоклассификации текстов'

О возможности построения онтологий на основе доминантных лексем: результаты автоклассификации текстов Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
63
23
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The question, concering the possibility of using the dominants (i.e. the most significant words, automatically extractable from the texts) for constracting ontologes is being discussed. There has been discribed the experiment on the classification of the texts, that, in the author’s opinion confirms the fact, that dominants are terms.

Текст научной работы на тему «О возможности построения онтологий на основе доминантных лексем: результаты автоклассификации текстов»

МАТЕМАТИКА

Вестник Омского университета, 2004. № 3. С. 45-47. © Омский государственный университет

О ВОЗМОЖНОСТИ ПОСТРОЕНИЯ онтологий НА ОСНОВЕ ДОМИНАНТНЫХ ЛЕКСЕМ: РЕЗУЛЬТАТЫ АВТОКЛАССИФИКАЦИИ ТЕКСТОВ

О.Г. Чанышев

Омский филиал Института математики СО РАН 644099, Омск, ул. Певцова, 13

Получена 9 апреля 2004 г-

The question, concering the possibility of using the dominants (i.e. the most significant words, automatically extractable from the texts) for constracting ontologes is being discussed. There has been discribed the experiment on the classification of the texts, that, in the author's opinion confirms the fact, that dominants are terms.

Среди множества возможных областей применения систем, «понимающих» текст на естественном языке, в настоящее время особенное внимание уделяется интеллектуализациии WWW путем автоматического построения онтологий [1— 3]. Здесь остается открытой проблема корректного выбора терминов предметной области (ПО). Они могли бы стать вершинами первого уровня в модели ПО, представленной в виде иерархической семантической сети.

В настоящей статье описываются метод автоматической экстракции из текстов «доминантных лексем» и эксперимент по автоматической классификации текстов на их основе, подтверждающий, что доминанты действительно являются терминами.

1. Экстракция доминант и классификация

Метод экстракции доминант заключается в следующем. Согласно «Ассоциативной модели реального текста» [4], из текста выделяются «независимые лексемы связи» (НЛС). НЛС упорядочиваются по убыванию «ассоциативной мощности» (Ф) - аналог степени вершины графа, состоящего из вершин-лексем, смежность между которыми определяется вхождением в одно предложение. Далее по критерию Ф > 0, 5Rt выделяются доминанты - подмножество НЛС (Rt -ранг текста - максимальный номер группы лексем с минимальной Ф). Количество доминант в среднем составляет около 4% всех слов текста (без стоп-лексем).

Классификация текстов основана на сравнении суммы весов доминант, принадлежащих пересечениям множества доминант текста и тезаурусов различных ПО. Тезаурусы представляют из себя объединение доминант классифицирующих текстов. Классифицирующие тексты определяются экспертно.

Пусть Ti - тезаурус i-ой предметной области, 1 < г < N, D - множество доминант произвольного текста, u'i, u'2,..., u'fc,..., wn - множество весов доминант этого текста, Wk = 1 /г];, Pi = = Ti U D, Г]; - ранг доминанты (номер группы с одинаковыми значениями Ф в частично упорядоченной по убыванию последовательности Ф^).

> . го,-

КС _ ^3 = 1 J

Ък=1 wi

- коэффициент корелляции текста с i-ой ПО,

■Wj € Pi.

Текст принадлежит Т^-ой ПО, если К£ > К^, гфр, (i, р) € 1, 2,..., N.

2. Эксперимент

Все классифицируемые (100) и классифицирующие тексты взяты из Internet'а и преобразованы из форматов WinWord и HTML в линейный формат (*.txt). В необходимых местах были проставлены отсутствующие точки.

По возможности в качестве классифицирующих выбирались курсы лекций (лекция - файл).

46

О.Г. Чанышев

2.1. Тезаурусы и классифицирующие тексты

После наименования тезауруса в скобках указано число составляющих его слов. После тире перечисляются классифицирующие тексты.

1. Тезаурус «Общие вопросы философии» (837): «Введение в философию», (лекции с сайта Башкирского ГУ), лекции Дулумана «Философская пропедевтика» и лекции Суворовой «Введение в современную философию» (45 текстов, 1 758 757 байт).

2. Тезаурус «Индийская философия и буддизм» (538): первый том С. Радхакришнана «История индийской философии», книга Рокотовой «Основы буддизма» (16 текстов, 1 911 941 байт).

3. Тезаурус «Психология» (431): монография И. Смирнова, Е. Безносюка, А. Журавлёва. «Психотехнологии. Компьютерный психосемантический анализ и психокоррекция на неосознаваемом уровне.» М.: Издательская группа «Прогресс» - «Культура», 1995. 416 с. (1 текст, 597 865 байт); лекции О.Н. Первушиной «Общая психология» (5 текстов, 143 951 байт), лекции Т.Н. Пушкиной «Медицинская психология» (1 текст, 142 370 байт), а также неидентифициро-ванный текст «Психология и ее разделы» (17 108 байт) со ссылкой на источник: Годфруа Ж. Что такое психология. Т. 1. М.: Мир, 1992.

4. Тезаурус «Языкознание» (645): лекции по общему языкознанию И.П. Сусова (сайт Пермского ГУ, 59 текстов общим объемом 702 747 байт).

5. Тезаурус «Искусственный интеллект»

(320): Сотник С.Л. Конспект лекций по курсу «Основы проектирования систем искусственного интеллекта», 1998., (5 текстов, 132 761 байт), неидентифицированные тексты «Проблемы ИИ» (15 661 байт) и «Методы ИИ» (164 922 байт), список литературы по ИИ (около 100 наименований, 14 799 байт), текст лекции автора «Классификация задач анализа данных» (нет в Интернете), в основу которой положен материал книги Н.Г. За-горуйко «Прикладные методы анализа данных и знаний», Новосибирск: Изд-во Ин-та математики, 1999.

6. Тезаурус «Нейрокомпьютинг» (268): Ф. Уоссермен «Нейрокомпьютерная техника: Теория и практика», 1992 и статья Роберта Хехт Нильсена «Нейрокомпьютинг: история, состояния, перспективы» // Открытые системы. 1998. №4-5. (всего 12 текстов, 362 291 байт).

7. Тезаурус «Системы управления базами данных» (436): Кузнецов С.Д. Введение в СУБД // Системы управления базами данных, #1-4/95 -#1-6/96 и Ладыженский Г.М. Системы управления базами данных - коротко о главном / / Си-

стемы управления базами данных #1-4/95 (всего 13 текстов, 687 441 байт).

2.2. Классифицируемые тексты

Классифицируемые тексты подбирались на основании оценки семантического совпадения наименований и содержания. Например, если книга Ф. Карпа «Дао физики», состоящая из 16 глав (плюс предисловия, введение и эпилог, выделенные мной в два отдельных текста), в целом отнесена к разделу «Общие вопросы философии», то главы 5, 6, 7, 9 (соответствующие наименования: «Индуизм», «Буддизм», «Китайская философия», «Дзен») отнесены к разделу «Индийская философия и буддизм». Противоположный пример: при ознакомлении со статьей М.Г. Доррер «Интуитивное предсказание нейросетями взаимоотношений в группе» из сборника «Методы нейроинформатики» (см.: Методы нейроинфор-матики / Под. ред. А.Н. Горбаня; отв. за выпуск М.Г. Доррер. Красноярск: КГТУ, 1998. 205 с.) я был совершенно уверен, что из-за вопросников, составляющих более половины текста, статья будет классифицирована как принадлежащая разделу «Психология», тем не менее оставил ее в группе текстов «Нейрокомпьютинг».

3. Результат классификации

Первая цифра - число классифицируемых текстов, вторая цифра в скобках - число правильно кл ассиф ициров анных.

1. Общие вопросы философии - 30 (30).

2. Индийская философия и буддизм - 7 (7).

3. Психология - 12 (9). При этом неправильно классифицированные тексты оказываются принадлежащими либо разделу «Индийская философия и буддизм», либо «Общие вопросы философии».

4. Языкознание - 10 (8). Из двух неверно классифицированных текст Б.А. Кулика «Проблема соотношения логики и естественного языка» классифицирован как принадлежащий разделу «Искусственный интеллект», а текст Г. Почепцо-ва «История русской семиотики до и после 1917 года» как принадлежащий разделу «Общие вопросы философии».

5. Искусственный интеллект - 7(6). Текст «Философские проблемы искусственного интеллекта» классифицирован как принадлежащий разделу «Индийская философия и буддизм», во-первых, «Общие вопросы философии», во-вторых.

6. Нейрокомпьютинг - 16 (9). 4 текста из 7 неправильно классифицированных определены как принадлежащие разделу «Искусственный интеллект», а 2 из этих 4 «во-вторых» принадлежат

Онтологии, доминантные лексемы и автоклассификация текстов

47

разделу «Нейрокомпьютинг». 6 из 9 правильно классифицированных «во-вторых» принадлежат разделу «Искусственный интеллект».

7. Системы управления базами данных - 18(16). При этом текст Л.К. Боброва «Мировая индустрия онлайновых баз данных» оказался принадлежащим разделу «Психология», а текст Эндрю Ларсена и др. «Oracle Media Server» - разделу «Нейрокомпьютинг», что следует считать неверным.

Несмотря на то что текст «Система ABRIAL» заявлен как посвященный организации баз знаний, я классифицировал бы его как принадлежащий предметной области СУБД. Так же классифицировала его и программа: как принадлежащий предметной области СУБД, во-первых, и «Искусственный интеллект», во-вторых.

Тем не менее формально из 100 текстов опознаны неверно 15, точность классификации равна 85%.

Все классифицирующие тексты сами были классифицированы и оказались принадлежащими своим предметным областям (ожидаемый, но не столь уж очевидный результат).

Попытка сделать большее ударение на роль контекста путем учета не только суммарного веса множества пересечения, но и его размерности ухудшила результат.

Хотя было понятно, что при данном методе классификации использование взвешенных терминов в тезаурусах может только ухудшить результат, проверил и этот вариант. Каждому термину сопоставлялся вес, равный среднему значению веса доминанты в классифицирующих текстах. Итог ярко иллюстрирует факт, что несколько классифицирующих текстов оказались принадлежащими совершенно иным предметным областям.

4. Основные выводы

1. Результаты классификации текстов на основе доминантных лексем подтверждают, что доминанты действительно являются терминами.

2. Наиболее важным фактором, определяющим точность классификации рассматриваемым методом, является адекватность классифицирующих текстов предметной области.

«Системы управления базами данных». Коэффициент корелляции = 0,752.

Ниже приведены доминанты текста со значениями обратных рангов. Звездочками отмечены принадлежащие пересечению с тезаурусом «Искусственный интеллект».

ДОМИНАНТЫ ТЕКСТА: системы 1.0*, поддержки 0.5*, знаний 0.333*, программы 0.333*, сети 0.25*, данных 0.2*, модели 0.2*, систем 0.166*, модель 0.166*, обнаружения 0.14-2, создания 0.125, закономерностей 0.111*, работы 0.111*, человеко 0.111, текстов 0.111, области 0.1*, этапы 0.1, анализа 0.1*, структуру 0.1, построения 0.090*, технических 0.090.

Корелляции с другими разделами классификатора:

«Психология» - 0,623;

«Нейрокомпьютинг» - 0,448;

«Языкознание» - 0,382;

«Общие вопросы философии» - 0,345;

«Индийская философия и буддизм» - 0,285.

[1] Майкевич Н.В. От информационного пространства к пространству знаний. Онтологии в Интернет // http://www.dialog-21.ru/archive_article.asp? param=7029&y=200 l&vol=6078

[2] Кентавр по имени ТЕОН: Тезаурус + Онтология // http://www.dialog-21.ru/directions_materials. asp?dir_id=2025.

[3] Загоруйко Н.Г., Налетов A.M., Гребенкин И.М. На пути к автоматическому построению онтологии // http://www.dialog-21.ru/Archive/2003/ Zagorujko.htm

[4] Чанышев О. Г. Ассоциативная модель реального текста и ее применение в процессах автоиндексирования // Труды Седьмой национальной конференции по искусственному интеллекту с международным участием КИИ'2000. Москва: Изд-во физико-математической литературы, 2000. С. 430-438.

5. Пример классификации

Текст: Загоруйко Н.Г. Искусственный разум в научных исследованиях. Принадлежит разделу «Искусственный интеллект». Коэффициент корелляции = 0,824. Второй ближайший раздел

i Надоели баннеры? Вы всегда можете отключить рекламу.