Научная статья на тему 'Алгоритмы концептуального моделирования и классификации текстов в корпусе тувинского языка'

Алгоритмы концептуального моделирования и классификации текстов в корпусе тувинского языка Текст научной статьи по специальности «Математика»

CC BY
201
23
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
КОРПУС ЯЗЫКА / АНАЛИЗ ФОРМАЛЬНЫХ ПОНЯТИЙ / КОНЦЕПТУАЛЬНЫЕ МОДЕЛИ ТЕКСТОВ / АЛГОРИТМ КЛАССИФИКАЦИИ / АЛГОРИТМЫ СНИЖЕНИЯ РАЗМЕРНОСТИ КОНТЕКСТОВ

Аннотация научной статьи по математике, автор научной работы — Быкова В. В., Монгуш Ч. М.

Корпус языка это информационно-лингвистическая система, основанная на собрании оцифрованных текстов некоторого языка. На сегодняшний день корпус тувинского языка включает официально-деловые документы и произведения тувинской художественной литературы. Работы по расширению корпуса тувинского языка и углублению уровня обработки текстов продолжаются. Они приводят к необходимости решения задач анализа естестественно-языковых текстов. Основными из этих задач являются классификация по прецедентам и концептуальное моделирование. Для их решения в статье используется алгебраический подход, называемый анализом формальных понятий. Предлагаются алгоритмы и программы для построения концептуальной модели коллекции литературных произведений и решения задачи бинарной классификации по прецедентам. Указаны приемы снижения вычислительной сложности рассматриваемых алгоритмов. В работе представлены результаты вычислительных экспериментов, подтверждающие результативность предложенных приемов по снижению сложности вычислений. Приведены результаты концептуального моделирования и бинарной классификации произведений тувинского фольклора.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The corpus is an information-linguistic system based on the collection of digitized texts in some language. Nowadays, the corpus of Tuvan language includes official and business documents and Tuvan literary works. Expanding of the Tuvan corpus and deepening of the text processing level are continuening. These works lead to the tasks of a natural language text analysis. The main tasks is classification by precedents and conceptual modeling. In order to solve these problems, the paper uses an algebraic approach, which is called the analysis of formal concepts. The paper proposes algorithms and programs for constructing a conceptual model of literary works collection and solving the problem of a binary classification by precedents. There are methods of reducing computational complexity of the considered algorithms. The paper presents the results of computational experiments, which confirm the effectiveness of the proposed methods for reducing computation complexity. Finally, there are the results of conceptual modeling and binary classification of Tuvan folklore works.

Текст научной работы на тему «Алгоритмы концептуального моделирования и классификации текстов в корпусе тувинского языка»

УДК 519.688:004.93 Дата подачи статьи: 15.06.17

Б01: 10.15827/0236-235Х.030.3.487-495 2017. Т. 30. № 3. С. 487-495

АЛГОРИТМЫ КОНЦЕПТУАЛЬНОГО МОДЕЛИРОВАНИЯ И КЛАССИФИКАЦИИ ТЕКСТОВ В КОРПУСЕ ТУВИНСКОГО ЯЗЫКА

В.В. Быкова, д.ф.-м.н., профессор, [email protected]

(Сибирский федеральный университет, Свободный просп., 79, г. Красноярск,, 660041, Россия); Ч.М. Монгуш, аспирант, преподаватель, [email protected] (Сибирский федеральный университет, Свободный просп., 79, г. Красноярск,, 660041, Россия; Тувинский государственный университет, ул. Ленина, 36, г. Кызыл, 667000, Россия)

Корпус языка - это информационно-лингвистическая система, основанная на собрании оцифрованных текстов некоторого языка. На сегодняшний день корпус тувинского языка включает официально-деловые документы и произведения тувинской художественной литературы.

Работы по расширению корпуса тувинского языка и углублению уровня обработки текстов продолжаются. Они приводят к необходимости решения задач анализа естестественно-языковых текстов. Основными из этих задач являются классификация по прецедентам и концептуальное моделирование.

Для их решения в статье используется алгебраический подход, называемый анализом формальных понятий. Предлагаются алгоритмы и программы для построения концептуальной модели коллекции литературных произведений и решения задачи бинарной классификации по прецедентам. Указаны приемы снижения вычислительной сложности рассматриваемых алгоритмов.

В работе представлены результаты вычислительных экспериментов, подтверждающие результативность предложенных приемов по снижению сложности вычислений. Приведены результаты концептуального моделирования и бинарной классификации произведений тувинского фольклора.

Ключевые слова: корпус языка, анализ формальных понятий, концептуальные модели текстов, алгоритм классификации, алгоритмы снижения размерности контекстов.

В настоящее время активно создаются корпусы языков народов Российской Федерации для сохранения национального литературного наследия и проведения научных исследований по изучению этих языков. Работа над созданием Национального корпуса тувинского языка ведется сотрудниками, аспирантами и студентами Тувинского государственного и Сибирского федерального университетов [1]. Под корпусом понимается информационно-лингвистическая система, основанная на собрании оцифрованных текстов. Корпус включает в себя различные типы текстов, представленных в языке, а также разметку - информацию о свойствах текстов. В рамках корпусов решаются многие задачи анализа естестественно-языковых текстов, возникающие в филологических и лингвистических исследованиях [2]. Основными из них являются классификация по прецедентам и концептуальное моделирование. Классификация по прецедентам, как правило, направлена на установление жанра и автора текста, определение пространственно-временного периода написания произведения. Цель концептуального моделирования -структурное представление знаний, извлеченных из текстов произведений (например, особенности использования языковых клише и диалектных вариантов эпических выражений).

Традиционными подходами для решения задачи классификации являются методы машинного обучения и математической статистики, основанные на количественных мерах близости рассматриваемых текстов [3]. В этом случае, как правило, се-

мантическая составляющая анализируемых текстов не рассматривается. Для построения концептуальных моделей текстов обычно используются концептуальные графы и решетки понятий [3]. Однако существует формализованный подход, известный в литературе как анализ формальных понятий, который позволяет выполнять классификацию, концептуальное моделирование и решать многие другие задачи анализа текстов на основе алгебраической теории решеток [4, 5]. В рамках этого подхода тексты анализируются на семантическом уровне, моделируются и представляются бинарными контекстами, отражающими наличие или отсутствие признаков, характерных для исследуемых произведений. Использование методов анализа формальных понятий позволяет не включать в ПО корпусов пакеты программ, ориентированные на решение отдельных задач анализа данных.

Анализ формальных понятий (АФП) является прикладной ветвью алгебраической теории решеток, в рамках которой возможна формализация терминов «понятие» и «иерархия понятий».

Основные идеи АФП были сформулированы в работе Р. Вилле и Б. Гантера [6] и развиты в исследованиях С.О. Кузнецова, Д.И. Игнатова, С.И. Гурова [5, 7]. В АФП формальные понятия определяются с помощью соответствий Галуа и представляют собой пары множеств вида (объем, содержание). Основным достоинством такого определения является абсолютное соответствие традиционной трактовке термина «понятие», используемого в гуманитарных науках [8].

В статье предлагаются алгоритмы и программы для построения концептуальной модели и решения задачи бинарной классификации по прецедентам с помощью математического аппарата АФП. Указаны приемы снижения вычислительной сложности рассматриваемых алгоритмов. Представлены результаты вычислительных экспериментов, подтверждающие результативность предложенных приемов по снижению сложности вычислений. Приведены результаты концептуального моделирования и бинарной классификации по прецедентам произведений тувинского фольклора.

Основные термины и обозначения

Приведем термины и обозначения, применяемые в АФП [6].

Пусть для некоторой предметной области определены два непустых конечных множества G и M объектов и признаков соответственно (от немецких слов Gegenstände - объект, Merkmale - признак). Пусть также задано отношение инцидентности между множествами G и M: I с G х M. Существование в I пары (g, m), g е G и m е M, означает, что объект g имеет признак m и, наоборот, признак m присущ объекту g. Тройка K = (G, M, I) называется формальным контекстом (или кратко контекстом) для рассматриваемой предметной области. Если множества G и M линейно упорядочены (например лексикографически), то контекст можно однозначно (с точностью до «материальной» природы объектов и признаков) задать бинарной матрицей T, отражающей отношение инцидентности I.

Выберем два произвольных элемента g е G и m е M. Определим для них отображения ф и у:

ф(?) = {m е M | (g, m) е I} - множество признаков, присущих объекту g е G;

y(m) = {g е G | (g, m) е I} - множество объектов, обладающих признаком m е M.

Отображения ф и у можно обобщить на произвольные A с G и B с Mследующим образом: ф(А) = {m е M | V g е A (g, m) е I}, ф(В) = {g е G | V m е B (g, m) е I}. Здесь ф(А) - множество признаков, общих для всех объектов из A, а ф(В) - множество объектов, обладающих всеми признаками из B. При этом считается, что ф(0) = M и у(0) = G, то есть пустому множеству объектов присущи все признаки из M, и каждый объект рассматриваемого контекста обладает пустым множеством признаков. Отображения ф и у определены так, что для любых Ai, A2 с G и Bi, B2 с M верны равенства: ф(А U A2) = ф(^1) П ф(А), y(Bi U B2) = y(Bi) n y(B2). Обычно в анализе формальных понятий для отображений ф и у применяется единое обозначение (•) ', а приведенные выше формулы для ф(А), y(B) записываются так:

A' = п 8 е A g' = {т е M | Vg е A (g, m) е I}, (1)

В' = п е B m' = {g е G | Vm е B m) е I}. (2)

Если g е G и m е M, то обозначения g' и m ' служат сокращенной формой записи множеств ф(?) = {g}' и у(т) = {m}' соответственно. Отображения «'» удовлетворяют свойствам, вытекающим из их определения и вполне реалистичного и постулируемого в анализе данных положения: расширение (сокращение) множества признаков уменьшает (увеличивает) число объектов, обладающих этими признаками. Формально эти свойства можно выразить в виде следующих утверждений.

Утверждение 1. Для всякого контекста K = (°, M, I) и любых Bl, B2 с M верны свойства:

- антимонотонность:

если Bl с B2, то (B2)' с (Bl)' ;

- экстенсивность:

Bl с (Bl)'', где (Bl)'' = ((Bl)') ' с М.

Утверждение 2. Для всякого контекста K = (°, M, I) и любых A1, A2 с G верны свойства:

- антимонотонность:

если Al с A2, то (Л2)' с (А1)' ;

- экстенсивность:

А1 с (А1) '' , где (А1) '' = ((А1) ') ' с G.

Множество (В1) ' ' = ф(у(В1)) можно трактовать как набор признаков, которые всегда появляются в объектах контекста К = (°, М, I) вместе с признаками из В1, причем это множество является наибольшим по включению в пределах этого контекста. Множество (А1) ' ' = у(ф(А1)) можно интерпретировать как наибольшее по включению множество объектов, которые обладают всеми признаками, характерными для объектов А1. Согласно утверждениям 1 и 2, отображения ф и у составляют пару соответствий Галуа между множествами 2° и 2м, частично упорядоченными по включению [9]. Здесь традиционно 2° и 2М - совокупность всех подмножеств рассматриваемых множеств ° и М соответственно. Двойное применение отображения «'» определяет оператор замыкания «' ' » на 2° или 2м в алгебраическом смысле [9].

Множество признаков В с М, для которого В = В'' , называется замкнутым в контексте К = (°, М, I). Принято говорить, что множество В' ' является замыканием для В с М в контексте К = (°, М, I). Исходя из (1) и (2), при В' Ф 0 замыкание для В с М можно вычислить по формуле

В'' = П 8 е ° {£ | В с ^ }. (3)

Если В' = 0, то всегда В ' ' = ф(у(В)) = ф(0) = М. Важно отметить, что применение формулы (3) позволяет за один просмотр контекста К = (°, М, I) найти замыкание для заданного множества признаков.

Концептуальное моделирование и АФП

Концептуальное моделирование направлено на структурное представление знаний об исследуемой

предметной области. Концептуальная модель как семантическая структурная модель предметной области представляет группы однородных объектов, связанных между собой отношениями. Однородность объектов в данном случае понимается как наличие у них одних и тех же свойств. Эти группы однородных объектов традиционно называют сущностями, концептами или понятиями. Объекты, образующие понятия, могут иметь различную природу. В концептуальных моделях используются не только бинарные отношения, но и отношения произвольной арности. Такая универсальность позволяет применять концептуальное моделирование в самых разных областях, в том числе в анализе текстов. В общем случае описание концептуальной модели содержит перечень взаимосвязанных понятий предметной области вместе с их свойствами и характеристиками.

Для описания концептуальных моделей используются различные средства, но в основном графические (диаграммы «сущность-связь», концептуальные графы, решетки понятий). В системах обработки текстовых данных применяются преимущественно концептуальные графы и решетки [3]. Анализ формальных понятий позволяет не только представить (описать и визуализировать) концептуальную модель, но и построить ее, исходя из формальных контекстов. Формальный контекст является абстрактной моделью исследуемой предметной области, отражающей отношение инцидентности между объектами и их свойствами. Имея в наличии формальный контекст, с помощью математических методов АФП можно выявить основные понятия предметной области, установить между ними отношение частичного порядка и объединить формальные понятия в решетку. Такая решетка понятий - математическое описание концептуальной модели, допускающее ее исследование математическими методами.

Дадим определение решетки формальных понятий. Пусть для некоторой предметной области задан формальный контекст K = М, I), где G -множество объектов; М - множество признаков; I - отношение инцидентности между множествами G и М. Пара (А, В), А с G, В с М, такая, что А' = В и В' = А, называется формальным понятием с объемом А и содержанием В. Другими словами, пара множеств (А , В) является формальным понятием для контекста К = М, I) тогда и только тогда, когда А = А'' и В = В'' , то есть когда А, В - замкнутые множества относительно оператора «' ' ». Если контекст К = М, I) представлен матрицей Т, то формальному понятию (А, В) соответствует ее максимальная подматрица, заполненная единицами. Строки этой подматрицы отвечают элементам из А, а столбцы - элементам из В.

Пусть ¥Ск - множество всех формальных понятий контекста К = М, I). Введем на ¥Ск отношение частичного порядка Е следующим образом:

(А1, В1) Е (А2, В2), если А1 с А2 (или В2 с В1), (4) где А1, А2 с G и В1, В2 с М. Заметим, что в высказывании (4) достаточно указать лишь одно из двух включений А 1 с А2 или В2 с В1 , поскольку в силу антимонотонности отображений « » из одного из них всегда следует другое. Согласно (4), если (А1, В1) Е (А2, В2), формальное понятие (А2, В2) можно считать более общим, чем понятие (А1, В1), поскольку оно имеет меньший набор характерных признаков, а значит, большее число объектов, обладающих этими признаками.

Определим на ¥Ск операции пересечения п и объединения и через одноименные теоретико-множественные операции п и и следующим образом:

(А1, В1) п (А2, В2) = (А1 п А2, (А1 п А2)' ), (5)

(А1, В1) и (А2, В2) = ((В1 п В2)' , В1 п В2). (6)

Тогда частично упорядоченное множество (ЕСк, Е) образует решетку Ьк = (^Ск , п, и). Операции и и п, установленные соотношениями (5) и (6), удовлетворяют всем необходимым для решеток законам ассоциативности, коммутативности, идемпотентности и поглощения [9]. Эта решетка называется решеткой формальных понятий контекста К = М, I). Известно, что Ьк является полной решеткой [6]. Нулем решетки Ьк является формальное понятие (М , М), содержащее все признаки контекста к = М, I), а единицей - формальное понятие G'), в котором объем - множество всех объектов рассматриваемого контекста.

Решетка Ьк связывает все элементы частично упорядоченного множества ¥Ск в определенную иерархическую структуру. Чем выше уровень расположения формального понятия в Ьк, тем более общим по отношению к формальным понятиям, находящимся ниже в Ьк, оно является. Таким образом, решетка Ьк - это формализованное представление множества формальных понятий и связей между ними в смысле отношения (4). Причем каждое формальное понятие этой решетки определяет множество однородных объектов исследуемой предметной области со своим специфичным набором признаков. На основе решетки формальных понятий и методов АФП можно решать задачу бинарной классификации по прецедентам.

Задача бинарной классификации по прецедентам и алгоритм ее решения

Известны различные формулировки задачи классификации [3, 7]. Задача бинарной классификации по прецедентам традиционно формулируется следующим образом. Пусть задано конечное множество объектов G, разделенное на два класса G+ и G-, G+ п G~ = 0, G+ и G~- = G. Такое разбиение определено с помощью некоторой обучающей выборки и целевого бинарного признака г. Элементы множеств G+ и G~ называют положительными и отрицательными прецедентами соответственно. Все

объекты из G описаны через конечное множество признаков M, которое задается (0, 1)-матрицей T, кодирующей наличие или отсутствие признака m е M для объекта g е G. Пусть задан некоторый объект х g G. Считается, что он обладает множеством признаков Мх с M. Требуется найти решающее правило, которое для объекта х определяет класс принадлежности. Решающее правило должно приводить к отказу от классификации, когда принадлежность объекта х к тому или иному классу не может быть однозначно определена.

Для описания данной задачи в терминах АФП достаточно лишь уточнить вид представления классов G+ и GС этой целью сопоставим классу G+ положительный контекст K+ = (G+, M, I+), а классу G~ - отрицательный контекст K- = (G-M, I). Существование в I+ пары (g, m) означает, что объект g е G+ имеет признак m е M. Аналогично принадлежность пары (g, m) к I- говорит о том, что объекту g е G~ присущ признак m е M. Таким образом, бинарная матрица T разбивается на две подматрицы, соответствующие отношениям инцидентности I+ и I".

Существуют различные алгоритмы классификации на основе АФП. К ним относятся алгоритмы Rulearner, GALOIS, GRAND, CITREC, CLNN & CLNB и LEGAL, использующие всю решетку понятий или ее некоторое подмножество [10], и алгоритмы, основанные на гипотезах [7]. В данной статье задача бинарной классификации по прецедентам решается с помощью гипотез.

Гипотезой называется некоторый набор признаков, который присутствует в описании объектов одного класса и не присутствует в описании объектов другого класса. Гипотезы извлекаются из решеток формальных понятий LK+ и LK-, построенных для контекстов K+ и K- соответственно. Содержание B+ формального понятия (A+, B+) е Lk+ называется положительной гипотезой, если не существует такого формального понятия (A- B-) е LK-, что B+ с B- В противном случае множество признаков B+ называется фальсифицированной положительной гипотезой. Аналогичным образом определяются отрицательные гипотезы и фальсифицированные отрицательные гипотезы: содержание Б~ формального понятия (A- B") е LK- считается отрицательной гипотезой, если не существует такого формального понятия (A+, B+) е Lk+, что B с B+, иначе B является фальсифицированной отрицательной гипотезой.

Решающее правило бинарной классификации по прецедентам для объекта х можно сформулировать следующим образом [7]:

- объект х относится к классу G+, если множество Мх включает хотя бы одну положительную гипотезу и не включает ни одной отрицательной гипотезы; в противном случае объект х относится к классу G-;

- отказ от классификации происходит, если Мх не включает в качестве подмножеств ни положительные, ни отрицательные гипотезы, или если Мх включает как положительные, так и отрицательные гипотезы.

Процесс решения задачи бинарной классификации на основе гипотез состоит из пяти этапов:

1-й этап - предобработка исходных контекстов;

2-й этап - нахождение формальных понятий

в К+ и К";

3-й этап - построение решеток ЬК+ и ЬК-;

4-й этап - выявление гипотез;

5-й этап - применение решающего правила бинарной классификации для объекта х г

На первом этапе производится предобработка исходных контекстов с целью уменьшения их размеров. Предобработка выполняется так, чтобы не изменились число и состав формальных понятий в Ьк+ и Ьк-. Сокращение может затрагивать как множество объектов, так и множество признаков. Возможные случаи и алгоритмы их обработки рассмотрим применительно к положительному контексту и соответствующей ему матрице инцидентности.

Случай 1 (дубликаты строк).

Пусть в К+ = (°+, М, !+) существует множество объектов А = ^1, g2}, таких, что gl' = gi = В. Тогда А" = (я\ п g2 ' ) ' = (В п В)' = (В)' = А, то есть А является замкнутым множеством. Следовательно, объект g2 можно удалить из К+ и не учитывать при вычислении положительных формальных понятий. При построении решетки ЬК+ объект g2 необходимо добавить в объемы тех формальных понятий, в которые вошел объект g1.

Случай 2 (нулевые строки и столбцы).

Если в К+ = (°+, М, !+) существует такой объект g, что £ = 0, то £' = (д') ' = (0) ' = Аналогично, если в К+ = (°+, М, !+) имеется признак т е М, такой, что т' = 0, то т' ' = (т') ' = (0) ' = М. Поэтому на момент вычисления положительных формальных понятий объект g и признак т следует отбросить, а затем при построении ЬК+ объект g добавить в единицу, а признак т - в ноль этой решетки.

Случай 3 (единичные строки и столбцы).

Если в контексте К+ = (°+, М, !+) существует такой объект g е что £ = М, то £ ' = (д') ' = = (М) ' = g. Поэтому объект g надо опустить при нахождении формальных понятий, но затем добавить в решетку ЬК+ новое формальное понятие (д, М), а объемы всех ранее полученных положительных формальных понятий пополнить объектом д. Аналогично, если имеется такой признак т, что т' = т вначале необходимо опустить и потом добавить в содержание всех формальных понятий решетки Ьк+.

На втором и третьем этапах выявляются формальные понятия в исходных контекстах К+ и К", прошедших предобработку. Простейшим способом осуществления этих действий является пере-

бор всех различных подмножеств множества признаков (их число, как правило, значительно меньше числа объектов) с вычислением для каждого из них замыкания по формуле (3). Затем на основе (4)-(6) строятся решетки Ьк+ и Ьк- для контекстов к+ и к-соответственно.

На четвертом и пятом этапах выявляются положительные гипотезы, фальсифицированные положительные гипотезы, отрицательные гипотезы и фальсифицированные отрицательные гипотезы путем проверки отношения включения содержаний соответствующих формальных понятий. После этого в соответствии с приведенным выше решающим правилом классификации принимается решение о том, чтобы или отнести объект х к G+ или к G-, или констатировать отказ от классификации. Следует отметить, что на четвертом и пятом этапах процесса решения задачи бинарной классификации может быть использован не только алгоритм классификации на основе гипотез, но и любой другой алгоритм, базирующийся на АФП.

Проблема построения решетки

формальных понятий и приемы снижения сложности вычислений

Рассмотренные выше задачи концептуального моделирования и бинарной классификации опираются на решетки формальных понятий. Известно, что задача порождения для заданного контекста всех формальных понятий и построения решетки формальных понятий является ЫР--трудной. Обоснование этого факта дано в [5]. Высокая вычислительная сложность данной задачи объясняется тем, что число формальных понятий может экспоненциально зависеть от размера контекста. Например, это имеет место для контекстов вида к = М, ф). Поэтому время, необходимое на выявление формальных понятий в контексте к = М, I) и построение решетки, в худшем случае составляет 0(|¥Ск| • \G\2 • |М|), где |¥Ск| - число формальных понятий. Далее предлагаются два приема снижения вычислительной сложности этого процесса.

Прием 1: уменьшение размера величин и М1 с помощью алгоритмов обработки случаев 1-3.

Эти случаи описаны выше, там же доказана корректность их применения. Время реализации приема 1 составляет 0(^| • |М|).

Прием 2: декомпозиция контекста - разделение контекста на полиномиальное число боксов (с последующим поиском формальных понятий в каждом из выделенных боксов).

Введем понятие бокса через объектные и признаковые формальные понятия контекста к = М, I). Назовем объектным понятием формальное понятие вида (^', g'), где g е G, а признаковым понятием - формальное понятие вида (т', т'' ), где т е М. Таким образом, каждому объекту из G соответствует одно объектное понятие, и каждому

признаку из М - одно признаковое понятие. Следовательно, для контекста к = М, I) число объектных понятий равно а число признаковых понятий составляет |М|. Заметим, что объектное понятие (д'' , £) имеет самое большое по размеру содержание £ среди других формальных понятий, имеющих в объеме объект g, а признаковое понятие (т , т ) - самый большой объем т среди других понятий, имеющих в содержании признак т. Это следует из антимонотонности соответствий Га-луа, указанных в утверждениях 1 и 2.

Обозначим через 0к = {(?'', £) | V д е G} с ¥Ск множество всех объектных понятий и через 8к = {(т ', т'') | V т е М} с ¥Ск множество всех признаковых понятий контекста к = (Э, М, I). Заметим, что множества 0к и & могут иметь непустое пересечение. Выберем два формальных понятия (£' , £) е 0к и (т', т'' ) е 8к. Если для них верно отношение порядка ' , £) Е (т', т'' ) или, то же самое, выполняются условия

£' с т' и т'' с £, (7)

то пару (т', £) назовем боксом контекста к = М, I), образованным элементами g е G и т е М. Пусть формальное понятие (А, В) е ¥Ск вложено в бокс (т', £) контекста к = М, I), если А с т' и В с £. Всякий бокс (т', £) не является пустым, поскольку согласно (7) в него всегда вложены формальные понятия ' , £) е 0к и (т', т'') е 8к.

Рассмотрим некоторый бокс (т , £ ), образованный элементами g е G и т е М контекста к = М, I). Очевидно, что данный бокс определяет некоторую подматрицу матрицы Т и образует подкон-текст М, С) контекста к = М, I), где С с I. При этом (х, у) е С, если и только если х е т' и у е g'. Соответствие между боксами и формальными понятиями контекста к = М, I) устанавливает утверждение 3 [11], подтверждающее корректность приема 2.

Утверждение 3. Для всякого контекста к = М, I) и любой пары множеств (А, В), где 0 Ф А с G, 0 Ф В с М, справедливы высказывания:

а) если (А , В) - формальное понятие контекста к = М, I), то всегда в этом контексте существует бокс (т', £), образованный элементами g е G и т е М, причем, возможно, не единственный, в который это формальное понятие вкладывается;

б) если (А, В) - формальное понятие подкон-текста М, С), соответствующего некоторому боксу (т', £) контекста к = М, I), то оно также является формальным понятием контекста к =

М, I).

Если в контексте к = М, I) имеются формальные понятия 0) и (0, М), то для них невозможно установить признаковые и объектные понятия, поэтому они не вкладываются ни в один из боксов данного контекста. Их наличие необходимо просто учитывать при построении решеток.

Однократное формирование боксов для контекста K = (G, M, I) включает в себя следующие действия: нахождение всех объектных и признаковых понятий; проверка условия (7) для каждой пары таких формальных понятий и формирование боксов. Число анализируемых пар, проверок и полученных боксов всегда не более чем |I| = |G| • |M|. Поэтому время формирования боксов составляет O(|I| • (|G| + + |M|)). В худшем случае может быть найден только один бокс, совпадающий с исходным контекстом, и тогда декомпозиция контекста на боксы не дает эффекта. Это возможно, например, для контекста, полностью заполненного единицами. Однако реальные контексты, как правило, разлагаются на разумное число боксов. Важно отметить, что процесс разбиения контекста на боксы может быть организован итерационно, ведь каждый выявленный бокс может быть вновь разбит на боксы. Но если данный процесс продолжать до тех пор, пока все боксы выродятся в формальные понятия, это может привести к экспоненциальному числу боксов, а значит, и к экспоненциальному времени их построения. Для получения полиномиального числа боксов рекомендуется ограничиваться константным числом итераций.

Описание программы и результаты вычислительных экспериментов

Рассмотренные выше алгоритмы решения задач концептуального моделирования и бинарной классификации по прецедентам, а также приемы снижения вычислительной сложности этих алгоритмов реализованы в программе FCACorpus (язык программирования Delphi). Функция визуализации решеток формальных понятий не была включена в программу FCACorpus, так как ее применение целесообразно только для контекстов сравнительно небольших размеров. Визуализировать решетку можно всегда с помощью специальных программных средств [12].

Для оценки результативности приемов снижения сложности вычислений, реализованных в программе FCACorpus, были выполнены вычислительные эксперименты. Использовались контексты с числом объектов 15, 18, 20 и числом признаков 15. Эти контексты были сформированы на основе паспортов фольклорных произведений, взятых из Национального корпуса тувинского языка. Для каждого контекста K = (G, M, I) осуществлялся поиск множества FCK всех формальных понятий без разбиения и с однократным разбиением этого контекста на боксы. Результаты вычислительных экспериментов приведены в таблице 1, где |G| - количество объектов контекста; |FCK| - число найденных формальных понятий; N - количество образованных боксов; t - время выполнения программы. Вычислительные эксперименты выполнялись на компьютере с процессором Intel® Core™ i7-720QM

Processor (6M Cache, 1.60 GHz) и ОЗУ размером 4 ГБ.

Таблица 1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Результаты экспериментов

Table 1

The experimental results

Вычисление всех формальных понятий контекста |G| IFCkI N t, мс

Без разбиения на боксы 15 36 - 480

С разбиением на боксы 36 12 66

Без разбиения на боксы 18 73 - 12480

С разбиением на боксы 73 23 120

Без разбиения на боксы 20 98 - 30519

С разбиением на боксы 98 40 150

Как видно из таблицы 1, количество и состав полученных формальных понятий в обоих случаях (без разбиения на боксы, с разбиением на боксы) полностью совпадают. Однако применение боксов дает значительный выигрыш во времени - время выполнения программы в этом случае уменьшается в 10-20 раз. Эксперименты на случайно сгенерированных контекстах различной размерности, показали, что, чем больше объектов и признаков содержит анализируемый контекст, тем больше выигрыш во времени.

Результаты концептуального моделирования и классификации произведений тувинского фольклора

Рассмотрим пример применения АФП и разработанных программ для филологических исследований, направленных на концептуальное моделирование произведений тувинского фольклора и определение их принадлежности к жанру героического эпоса. Для решения этих задач необходимо сформировать соответствующие контексты на основе паспортов произведений. Паспорт произведения - это набор признаков, характеризующих семантические, синтаксические и морфологические особенности этого произведения. Например, паспорт произведения тувинского фольклора содержит информацию о сказителе, сведения о пространственно-временном периоде написания, жанровые и сюжетные особенности произведения. Всего выделено 14 признаков, приведенных в таблице 2.

В таблице 3 представлен бинарный контекст К+ = (0+, М, I+) для четырех фольклорных произведений, где 0+ = {«Арзылац-Кара аъттыг Хунан-Кара», «МeрYн-ХYЛYк», «влээдей-Мерген», «Эле-стей ашак»}; М = {¿1 ¿2, ¿3, ¿4, а1, а2, q1, с1, с2, с3, ¿ь Ь, Ы; I+ - отношение инцидентности между

и М.

Известно, что все произведения из 0+ относятся к жанру тувинского героического эпоса [13]. В таблице 3 названия произведений заменены их поряд-

ковыми номерами. Единичный (нулевой или пустой) элемент этой таблицы указывает на то, что соответствующее литературное произведение обладает (не обладает) тем или иным признаком.

Таблица 2

Паспорт произведения тувинского фольклора

Table 2

Passport of a Tuvan folklore work

Идентификатор признака Значение признака

Si Сказитель Кашкак

S2 Сказитель Хертек

S3 Сказитель Ооржак

S4 Другой сказитель или народ

ai Горный ареал

a2 Степной ареал

qi Есть богатырь

q2 Нет богатыря

ci Сюжет «Сватовство»

C2 Сюжет «Сестра добывает брату суженую»

c3 Другой сюжет

tl Зачин «Эрте шагныц эктинде, бурун шагныц мурнунда»

t2 Зачин «Шыянам, эрте бурунгу шаг да»

t3 Зачин «Шыянам, эртенгиниц эртезинде бурунгунуц мурнунда»

Таблица 3

Контекст K+ произведений тувинского героического эпоса

Table 3

The context K+ of Tuvan heroic epic works

Заметим, что контекст К+ допускает предобработку согласно описанным выше случаям 2 и 3. Всего контекст К+ порождает 10 формальных понятий, которые образуют решетку Ьк+ (рис. 1). Еди-

ницей этой решетки является формальное понятие (О+, {д}), а нулем - (0, М).

Решетка ЬК+ - концептуальная модель для множества произведений тувинского героического эпоса О+, построенная и представленная в терминах АФП. Выявленные формальные понятия и семантические связи между ними позволяют сделать следующие выводы.

1. Для произведений, относящихся к жанру тувинского героического эпоса, характерно прежде всего наличие богатыря, так как единицей решетки ЬК+ является формальное понятие (О+, {^1}). Это понятие - самое общее по отношению ко всем другим формальным понятиям этой решетки. Ведь по определению решетки, чем выше уровень расположения формального понятия в ЬК+, тем более общим по отношению к формальным понятиям, находящимся ниже в ЬК+, оно является.

2. Произведениям тувинского героического эпоса присущи признаки Горный ареал или Сюжет «Сватовство». Эти признаки входят в содержание формальных понятий ({1, 3, 4}, {а1, ^1}), ({1, 2}, {д1, с1}), расположенных в решетке ЬК+ уровнем ниже, чем формальное понятие (О+, {д1}), и выше всех других понятий.

3. Согласно формальному понятию ({1, 4}, {53, Я1, д1, /1}), для произведений героического эпоса, сказителем которых является Ооржак, специфичным является зачин «Эрте шагньщ эктинде, бурун шагньщ мурнунда».

Экспертами установлено, что указанные выводы соответствуют действительности, то есть являются филологически правильными. Каждый из указанных выводов - определенные знания о произведениях тувинского героического эпоса, представленных в К+. Очевидно, что увеличение числа произведений в К+ углубляет эти знания.

Рассмотрим теперь задачу бинарной классификации по прецедентам. Для этого сформируем отрицательный контекст К- = (О- М, I-), состоящий из трех литературных произведений, которые не относятся к жанру тувинского героического эпоса (табл. 4). Здесь = {«Чечен-Маанай и Тенек-Ту-лун», «Караты-Хаан биле Алдын-кыс», «Кыс-Ха-лыыр»} или с использованием порядковых номеров произведений = {5, 6, 7}. Следует отметить, что контекст К также допускает предобработку. Контекст К- порождает 7 формальных понятий, которые образуют решетку Ьк- (рис. 2). Единицей этой решетки является формальное понятие (О-{54}), а нулем - (0, М).

Контексты К+ = (О+, М, 1+), К- = (О-, М, I-) соответствуют двум классам О+ и О- произведений, разделенных по целевому бинарному признаку г = «произведение относится (не относится) к жанру героического эпоса». Пусть задано новое произведение х с множеством признаков Мх = {52, а1, д1, с2, /1}. Требуется для х определить класс, к которому его можно отнести.

(0, M)

Рис. 1. Решетка формальных понятий Lk+ Fig. 1. The formal Lk+ concept lattice

№ S1 S2 S3 S4 a1 a2 qi q2 C1 C2 C3 t1 t2 t3

1 1 1 1 1 1

2 1 1 1 1 1

3 1 1 1 1 1

4 1 1 1 1 1

Таблица 4

Контекст K- произведений тувинского фольклора

Table 4

The context K~ of Tuvan folklore works

В решетке Ьк+ множества признаков {¿з, а\, /1}, {а1, 41, С2>, (51, а2, <71, С1, /2>, {¿з, а1, 41, С1, /1>, {¿2, а1, д1, с2, /3>, {¿з, а1, д1, с2, /1> являются положительными гипотезами, а {^1>, (а1, д1>, {#1, С1> - фальсифицированными положительными гипотезами. В решетке Ьк- множества признаков {¿4>, {¿4, /2>, {54, а2, д2, Сз>, {54, а2, д2, Сз, /з>, {54, а1, #1, С1, /2>, {¿4, а2, д2, сз, /2} определяют отрицательные гипотезы.

G, {S4})

({5. 6}. {s4, t2}) ({5. 7}. {s4, a2, q2, c3})

Рис. 2. Решетка формальных понятий Lk Fig. 2. The formal Lk-concept lattice

По правилу бинарной классификации произведение х с набором признаков Мх = {¿2, а1, д1, с2, /1} будет отнесено к классу 0+, то есть к жанру героического эпоса, так как Мх включает положительную гипотезу {а1, д1, с2} и не содержит отрицательных гипотез. Если Мх = {¿4, /2}, то произведение х будет отнесено к классу 0~. При Мх = {^1} произойдет отказ от классификации. Применение метода скользящего контроля к используемому алгоритму

классификации показало его вполне удовлетворительное качество [14].

Программа FCACorpus в настоящее время успешно используется в научно-образовательном центре «Тюркология» Тувинского государственного университета для филологических и лингвистических исследований естественно-языковых текстов, представленных в Национальном корпусе тувинского языка. В дальнейшем предполагается расширить функциональные возможности программы FCACorpus с целью повышения эффективности используемых в ней алгоритмов.

Литература

1. Салчак А.Я., Байыр-оол А.В. Электронный корпус тувинского языка: состояние, проблемы // Мир науки, культуры, образования. 2013. № 6. С. 408-409.

2. Бавуу-Сюрюн М.В. Вопросы создания электронных ресурсов тувинского языка: некоторые итоги, неотложные задачи и перспективы // Новые исследования Тувы. 2016, N° 4. URL: http://nit.tuva.asia/nit/article/view/610 (дата обращения: 14.06.2017).

3. Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP. СПб: БХВ-Петербург, 2008. 384 с.

4. Богатырев М.Ю., Нуриахметов В.Р., Вакурин В.С. Методы анализа формальных понятий в информационных системах технической поддержки // Изв. ТулГУ: Технич. науки. 2013. Вып. 2. С. 25-36.

5. Кузнецов С.О. Автоматическое обучение на основе анализа формальных понятий // Автоматика и телемеханика. 2001. № 10. С. 3-27.

6. Ganter B., Wille R. Formal concept analyses: mathematical foundations. Springer Science and Business Media, 2012, 284 p.

7. Гуров С.И., Онищенко А.А. Классификация на основе АФП и бикластеризации: возможности подхода // Прикладная математика и информатика: тр. факульт. ВМК МГУ. 2011. Т. 38. С. 77-87.

8. Vlasov D.V. The methods of forming the theoretical concepts. Jour. of the Buryat State Univ., 2009, no. 6, pp. 37-41.

9. Биргоф Г. Теории решеток. М.: Наука, 1984. 568 с.

10. Meddouri N., Meddouri M. Classification methods based on formal concept analysis. CLA 2008, pp. 9-16.

11. Bykova V.V., Mongush Ch.M. On Algebraic Approach of R. Wille and B. Ganter in the Investigation of Texts. Jour. of Siberian Federal Univ.: Math. and Physics. 2017, no. 3, pp. 372-384.

12. Евтушенко С.А. Система анализа данных CONCEPT EXPLORER // КИИ-2000: сб. тр. VII Национальн. конф. по искусств. интеллекту М.: Физматлит, 2000. С. 127-134.

13. Орус-оол С.М. Тувинские героические сказания (текстология, поэтика, стиль). М.: МАКС Пресс, 2001. 422 с.

14. Воронцов К.В. Комбинаторный подход к оценке качества обучаемых алгоритмов // Математические вопросы кибернетики. М.: Физматлит, 2004. T. 13. С. 5-36.

№ S1 S2 S3 S4 ai a2 q1 q2 C1 C2 C3 t1 t2 t3

5 1 1 1 1 1

6 1 1 1 1 1

7 1 1 1 1 1

Software & Systems Received 15.06.17

DOI: 10.15827/0236-235X.030.3.487-495 2017, vol. 30, no. 3, pp. 487-495

ALGORITHMS OF CONCEPTUAL MODELING AND TEXT CLASSIFICATION IN THE TUVAN LANGUAGE CORPUS

V. V. Bykova 1, Dr. Sc. (Physics and Mathematics), Professor, [email protected] Ch.M. Mongush 12, Postgraduate Student, Lecturer, [email protected]

1 Siberian Federal University, Svobodny Ave. 79, Krasnoyarsk, 660041, Russian Federation

2 Tuvan State University, Lenina St. 36, Kyzyl, 667000, Russian Federation

Abstract. The corpus is an information-linguistic system based on the collection of digitized texts in some language. Nowadays, the corpus of Tuvan language includes official and business documents and Tuvan literary works.

Expanding of the Tuvan corpus and deepening of the text processing level are continuening. These works lead to the tasks of a natural language text analysis. The main tasks is classification by precedents and conceptual modeling.

In order to solve these problems, the paper uses an algebraic approach, which is called the analysis of formal concepts. The paper proposes algorithms and programs for constructing a conceptual model of literary works collection and solving the problem of a binary classification by precedents. There are methods of reducing computational complexity of the considered algorithms.

The paper presents the results of computational experiments, which confirm the effectiveness of the proposed methods for reducing computation complexity. Finally, there are the results of conceptual modeling and binary classification of Tuvan folklore works.

Keywords: corpus, formal concept analysis, conceptual models of texts, classification algorithm, algorithms of reducing a context dimension.

References

1. Salchak A.Ya., Bayyr-ool A.V. Electronic housing of tuvan language: condition, issues. Mir nauki, kultury, obra-zovaniya [The World of Science, Culture and Education]. 2013, no. 6, pp. 408-409 (in Russ.).

2. Bavuu-Syuryun M.V. Creating electronic resources on tuvan language: preliminary results, current challenges and prospects. Novye issledovaniya Tuvy [The New Research of Tuva]. 2016, no. 4. Available at: http://nit.tuva.asia/nit/arti-cle/view/610 (accessed June 14, 2017).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3. Barsegyan A.A., Kupriyanov M.S., Stepanenko V.V., Kholod I.I. Tekhnologii analiza dannykh: Data Mining, Visual Mining, Text Mining, OLAP [Data Analysis Technologies: Data Mining, Visual Mining, Text Mining, OLAP]. St. Petersburg, BHV-Peterburg Publ., 2008, 384 p.

4. Bogatyrev M.Yu., Nuriakhmetov V.R., Vakurin V.S. Methods of formal notion analysis in technical support information systems. Izvestiya TulGU. Tekhnicheskie nauki [News of the Tula State University. Technical Sciences]. 2013, iss. 2, pp. 25-36 (in Russ.).

5. Kuznetsov S.O. Machine Learning on the Basis of Formal Concept Analysis. Avtomatika i telemekhanika [Automation and Remote Control]. 2001, vol. 62, iss. 10, pp. 1543-1564.

6. Ganter B., Wille R. Formal concept analyses: mathematical foundations. Springer Science and Business Media Publ., 2012, 284 p.

7. Gurov S.I., Onishchenko A.A. Classification based on Formal Concept Analysis and biclasterization: the opportunities of the approach. Prikladnaya matematika i informatika: Tr. fakulteta VMKMGU [Applied Mathematics and Computer Science: Faculty of Computational Mathematics and Cybernetics of the Lomonosov MSU]. 2011, vol. 38, pp. 77-87.

8. Vlasov D.V. The methods of forming the theoretical concepts. Jour. ofthe Buryat State Univ. 2009, no. 6, pp. 37-41.

9. Birgof G. Teorii reshetok [Category Lattice]. Moscow, Nauka Publ., 1984, 568 p.

10. Meddouri N., Meddouri M. Classification Methods Based on Formal Concept Analysis. CLA 2008, pp. 9-16.

11. Bykova V.V., Mongush Ch.M. On Algebraic Approach of R. Wille and B. Ganter in the Investigation of Texts. Jour. of Siberian Federal Univ.: Math. and Physics. 2017, no. 3, pp. 372-384.

12. Evtushenko S.A. CONCEPT EXPLORER data analisys sistem. Proc. 7th National Conf. on Artificial Intelligence KII-2000. Moscow, Fizmatlit Publ., 2000, pp. 127-134 (in Russ.).

13. Orus-ool S.M. Tuvinskie geroicheskie skazaniya (tekstologiya, poetika, stil) [Tuvan Heroic Folk Tales (Textology, Poetics, Style)]. Moscow, Maks Press, 2001, 422 p.

14. Vorontsov K.V. A combinatorial approach to qualitative assessment of learning algorithms. Matematicheskie voprosy kibernetiki [Mathematical Problems of Cybernetics]. Moscow, Fizmatlit Publ., 2004, vol. 13, pp. 5-36 (in Russ.).

Примеры библиографического описания статьи

1. Быкова В.В., Монгуш Ч.М. Алгоритмы концептуального моделирования и классификации текстов в корпусе тувинского языка // Программные продукты и системы. 2017. Т. 30. № 3. С. 487-495. DOI: 10.15827/0236-235X.030.3.487-495.

2. Bykova V.V., Mongush Ch.M. Algorithms of conceptual modeling and text classification in the tuvan language corpus. Programmnye produkty i sistemy [Software & Systems]. 2017, vol. 30, no. 3, pp. 487-495 (in Russ.). DOI: 10.15827/0236-235X.030.3.487-495.

i Надоели баннеры? Вы всегда можете отключить рекламу.