Использование сильноструктурированных моделей при обработке слабоструктурированных данных

Зыкин Сергей Владимирович; Чанышев Олег Георгиевич

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ. РАДИОТЕХНИКА И СВЯЗЬ

УДК 519.72 с. В. ЗЫКИН

О. Г. ЧАНЫШЕВ

Омский государственный технический университет

Омский филиал Института математики СО РАН

ИСПОЛЬЗОВАНИЕ СИЛЬНОСТРУКТУРИРОВАННЫХ МОДЕЛЕЙ ПРИ ОБРАБОТКЕ СЛАБОСТРУКТУРИРОВАННЫХ ДАННЫХ

В работе рассмотрен один из подходов к решению проблемы автоматизации обработки £ полнотекстовой информации с использованием технологии обработки данных в базах ~ данных. Предложена оригинальная модель полнотекстовых данных и соответствующая адаптация технологии моделирования в базах данных.

5 о

Введение В данной статье предложена оригинальная модель

полнотекстовых данных, которая позволяет повы-Использование технологий баз (БД) данных при сить качество идентификации документов. Соответ- | обработке полнотекстовой информации неоднократ- ствующая этой модели схема БД сформирована на но применялось на практике (поисковые системы Go- основе зависимостей и может быть адапти рована для | ogle, Яндекс и т.д.). Однако используется при этом любой другой полнотекстовой модели данных. Кроме простейшая статистическая модель полнотекстовых того, в статье предложена оригинальная технология п данных и адаптированная ноднее модель (схема) базы анализа и декомпозиции обобщенного ключа в схеме данных. Результатом является низкое качество поис- БД , что позволяет реализовать важные свойства на ка документов по запросам пользователей. данных.

о

1. Формирование модели полнотекстовых данных

Методы искусственного интеллекта определяющим образом влияют на развитие средств автоматического извлечения и анализа информации в сети Интернет 11,2|. В настоящей статье представлены методы построения сетей, отражающих контекстную близость слов (лексем), разработанные в рамках исследований по методам создания иерархических семантических сетей естественно-языковых текстов. Описанные ниже //* -сеть и Н"-сети сами по себе являются базой для обработки запроса пользователя методом поиска связного множества предложений с максимальными весами, которое содержит все лексемы запроса (или их «нормы»).

Методы построения сетей основаны на «Ассоциативной модели реального текста» и ее приложениях [3 - 5|. Кратко представим основные положения модели.

Формальное представление текста. Пусть:

1Г- ¡нг)— множество лексем, в порядке появления в тексте.

¡2= (а),,(Ох.....(0Г..,(0Ы1) — множество частот, соответствующих лексемам из при любом¡¿N1-,

рг(',г Кг- 1г- — предложение,

А,= €СЛИ 1/,еР,и = ссли '<

Тогда: Мс= — матрица размерности NPxNL представляет текст, г де NP — число предложений.

Область существования лексемы ^осп, множество О' из <У( строк (предложений) матрицы Л1г,для кото-рых

Лексемы 1к. смежны, если СУг^О**®.

Порождающей строкой 5'= (дп,, .... б',ш1 / лексемы называется первая строка ее области существования, Не (1,2,...,№).

Если 0'= О . то /Д образуют постоянное сочетание. Каждое постоянное сочетание можно принять за новую лексему. Если С/сО', то/А есть атрибутивная лексема, а ^— ведущая.

За установление ассоциативных связей между предложениями текста о твечают независимые лексемы связи, обладающие тем свойством, что для каждой произвольной пары / , найдутся минимум два предложения, в которые они входят но отдельности.

Оставляя в силе все ранее введенные обозначения, полагаем, что множество /. составляют только независимые лексемы связи.

1.1. Ассоциативная мощность и доминанты

Новую меру важности слова, устраняющую недостаточность частотной, можно ввести, если рассматривать текст как задание тотального графа предметной области (без разделения на объекты и отношения) списками смежности имен узлов — предложениями. Единственной характеристикой узла (вершины) при таком представлении является его степень, равная числу других узлов, встречающихся сданным в различных предложениях.

Пусть ) — ма трица смежности лексем раз-

мерности NLxNL, ач = I, если /(и /( смежны, ач = 0 в противном случае.

Ассоциативная мощность /^лексемы равна числу других лексем, смежных с ней с вычетом суммы элементов порождающей строки (поправка, учитывающая только «личный» вкладлексемы в установлении связей в ориентированном графе):

1. ы,(<*,.,) -Ец-г»А

Вес предложения определяется как сумма ассоци-ативных мощностей входящих независимых лексем I связи (НАС).

Из множеств НАС отбираются доминантные лексемы (доминанты) но критерию У>0.5ДЯ(м1 где Ятох— максимальный ранг лексем текста. Проведенные эксперименты по классификации текстов [5] показали, что доминанты представляют наиболее семантически значимое подмножество НАС.

1.2. Кластеры доминант и доминантные сети текста

Критерий близости лексем определим следующим образом. Пусть ЩМ)— размер множества М. Лексема 1к близка к лексеме если

ЩОк\О1)/ЩОк)>0.5,

где \ — бинарная операция 'минус' в данном случае используется как операция вычитания множеств.

2.2.1. Н°-сеть

Поскольку смысл слова определяется прежде всего его кластером [6], строится иерархическая лексическая сеть (Н^сегь или сеть кластеров), в которой множества близких вершин — лексем объединяются в кластеры.

Для каждой доминанты (центр кластера) вчасгич-но упорядоченной но убыванию У последовательности ИЛС строится ее кластер, состоящий из близких доминант и атрибутивных лексем. Субдоминанты на основании критерия близости включаются либо непосредственно в кластер доминанты, либо через кластер близкой доминанты. Из близких лексем можно выделить подмножество непосредственно смежных с данной в каком-либо предложении (лексемы разделяет только пробел). При этом используется файл (выход морфопарсера шу51еш поисковой системы Яндекс), в котором построчно в порядке следования в тексте представлены все лексемы вместе с морфологической информацией и знаки препинания.

Связь между кластерами (центрами кластеров) реализуют их общие «неблизкие» лексемы.

Пусть 0, Од - центры и .....//*..... 1п'к) - их

неблизкие лексемы. Вес связи через ш = //1 лексему:

Ф^Щ %

1.2.2. Н°-сети

Вершины этой сети образуют элементы всего множества доминант. Каждая пара доминант связана ребрами, образуемыми общими смежными, но «неблизкими» доминантами (так же, как и устанавливаются связи между кластерами).

Сеть может быть представлена частично упорядоченным по убыванию веса связи списком пар смежных в Нр- сети дом инант. Последовательным перебором элементов этого списка строится множество путей с максимально возможным весом (для пары 11,1/ ищется от начала списка пара и т.ддо исчерпания списка). Для любой тройки (¡¿Г0""), где Гтп принадлежит множеству общих «неблизких», существуют, по крайней мере, два предложения, куда входят (!/""") и (¡¿Р0""), а возможно, и единственное, куда входят все три лексемы. Следовательно, можно каждый из путей представить упорядоченным или неупорядоченным множеством предложений вхождения, выбирая из множества {¡со"п} лексему с максимальной ассоциативной мощностью, а из вариантов предложений — предложения с максимальным весом.

Представляется, что такое множество путей является базой для гибкой интерпретации запросов пользователя, представляя наиболее адекватные содержанию ответы. В качестве иллюстрации приведем

результаты автоматического анализа лекции Кузнецова «Введение в СУБД: часть 4».

1. Кластер доминанты данных (обозначения: atr-атрибут, dom-доминанта, sub-субдоминанта, приставка нк означает неконтактиость, отделенность от данной словами либо знаками препинания):

(atr) баз 0.371, (atr) главным 0.057, (а!г)базы 0.228, (atr) сущность-связи 0.057, (dorn) модель 0.75, (dorn) модели 0.785, (dom-нк) реляционная 0.8, (dom-нк) субд 0.6, (dom-нк) проектирования 0.555, (dom-нк) реляционных 0.75, (sub) моделирование 0.75, (sub) моделей 0.75, (sub) ER-модели 0.6, (sub-нк) результате 0.666, (sub-нк) логического0.666,(sub-нк) производится 0.6, (sub-нк) семантических 0.8, (sub-нк) использовании 0.6, (sub-нк) практике 0.75, (sub-нк) проблему 0.666, (sub-нк) схема 0.666.

Пример представления предложениями пути: об-ласти>реляционных>проектирования.

<20> 6.1 Проектирование реляционных баз данных с использованием принципов нормализации. Сначала мы рассмотрим классический подход, при котором весь процесс проектирования производится в терминах реляционной модели данных методом последовательных приближений к удовлетворительному набору схем отношений.

<29> В основе классического процесса проектирования лежит метод нормализации, который опирается на декомпозицию (на основе проекции) отношения, находящегося в предыдущей нормальной форме, в два или более отношения, удовлетворяющих требованиям следующей нормальной формы.

<30> Наиболее важные на практике нормальные формы отношений основываются на фундаментальном в теории реляционных баз данных понятии функциональной зависимости.

< 165> 11есмогря на то, что процесс проектировании начинается с выделения некоторых существенных для приложения объектов предметной облас ти («сущностей») и выявления связей между этими сущностями, реляционная модель данных не предлагает какого-либо аппарата для разделения сущностей и связей.

2. Формирование схемы БД

Технология проектирования схемы БДдостаточно хорошо изучена в литературе [7, 8). Однако единая последовательность построения схемы от атрибутов и зависимостей до реализации обобщенного ключа (суперключа) нигде не представлена. Восиолним этот пробел, кратко изложив уже известные результаты, дополнив их новыми.

Этап 1. Для каждого документа выделяем содержащиеся в нем элементы данных.

Этап 2. Для выделенных на первом этапе атрибутов строим функциональные зависимости.

Определение. Пусть задана схема отношения R на совокупности атрибутов U = {Ar Ar .... AJ. Пусть X.YqU. Будем говорить, что X функционально определяет Y (Х—> Y), если в любой реализации г схемы R не могут присутствовать два кор тежа (, и€ г, такие что //Х/=и/Х/и (¡YjxufYJ.

Из этого множества удаляются транзитивные и частичные зависимости |7). Полученное множество зависимостей называется минимальным покрытием, обозначим его F.

Этап 3. Далее строим схему базы данных реляционного типа, удовлетворяющую требованиям третьей нормальной формы (ЗНФ), свойству соединения без потерь информации (ССБПИ) и сохраняющую зависимости. Построить минимальное множество связей

между отношениями БД.

В полученном на этапе 2 множестве /гобъединяют-ся зависимости с совпадающими левыми частями. Например, зависимости Х->А1 и Х->А} объединяются в зависимость X—>А Д.

Замечание. На практике зависимости Х-»А, и Х->А/ могут иметь различную область определения, тогда эти зависимости объединять нельзя.

Далее формируем отношения. Например, зависимость Л Д-^АДД, служит основанием для формирования отношения: <Имя_отпошения>(А^А1,АкА№). где А Д— первичный ключ отношения. Полученным отношениям присваиваются наименования. Если семантика атрибутов определена однозначно и функциональные зависимости построены без ошибок, то отношения будут иметь однозначную семантику и наименование отношения должно соответствовать этой семантике.

Такой способ формирования отношений гарантирует сохранение функциональных зависимостей и выполнение условий ЗНФ. При этом не гарантируется выполнение ССБПИ (зависимостьсоединения). Для проверки этого свойства формируем обобщенный ключ, который функционально определяет все атрибуты из множества С: множество атрибутов Х£(У, является обобщенным ключом для и, если X—>А,, и для любого УсХ (У-истинное подмножество X) выполнено У—■>А1,А2,...,Ая«е Я*.

Пусть X — обобщенный ключ. Если какое-либо о тношение содержит атрибуты X (в качестве ключа), то совокупность сформированных о тношений (схема БД) обладает свойством соединения без потерь информации (теорема 5.8 (7)). Если такого отношения нет, то выполняется проверка по алгоритму (7].

Если декомпозиция не обладает ССБПИ, то ее необходимо дополнить новым отношением, состоящим полностью из атрибутов обобщенного ключа. Такая операция гарантирует, что декомпозиция будет удовлетворять указанному свойству, но при этом порождаются дополнительные проблемы:

1. Совокупность а трибутов в обобщенном ключе X не обладает свойством однозначной семантической интерпретации: этому отношению нельзя присвоить однозначное имя. Решения:

а) выявляются потерянные функциональные зависимости на а трибутах X.

б) дополняются новые атрибуты, либо меняется семантика существующих атрибутов в X, для установления новых функциональных зависимостей на атрибутах X. После изменений, сделанных в пунктах а) и б), необходимо сделать соотве тствующие изменения на предыдущих этапах и снова вернуться к построению декомпозиции.

в) выявляется многозначная зависимость на атрибутах X и осуществляется декомпозиция отношения X (см. далее).

2. Если X интерпретируемо, то оно может быть не технологичным: на предприятии отсутствует служба, которая отвечала бы за сопровождение данных в этом отношении. Решение:

а) сформировать новую схему документооборота на предприятии.

б) признать, что получена не одна, а несколько БД, и они не могут быть интегрированы.

Многозначные зависимости. Дано: схема отношения К, определенная па совокупности а трибутов <У= {А,, Аг .... Ап), пусть УН и и \Л^пУ=0.

2=(Л(Й/иУу.

Определение. Множество IV мультиоп ределяет множество У в контексте (многозначная

зависимость), если для произвольной реализации г схемы К существует два кортежа таких, что

1,\Щ=12\Щ < то существует кортеж 1,, для которого выполнено:

у 13т=мп.

в силу симметрии существует кортеж </

у нч=у иг

Замечание. Множества атрибутов У и 2 обычно содержатся в обобщенном ключе, а множество Сможет оказаться за пределами обобщенного ключа X.

Основной признак (необходимый, но не лопаточный) наличия многозначной зависимости в X является следствием определения: дополнение одною кортежа в реализацию X приводит к необходимости дополнения еще нескольких кортежей.

После определения многозначной зависимости отношение, соответствующее обобщенному ключу X, декомпозируется на два отношения К, и Кр, содержащие атрибуты ИТ и Несоответственно. Основным признаком правильности определения множества IV является отсутствие возможности появления лишних кортежей в объединенной таблице: где сх — операция естественного соединения, т.е. таких кортежей, которые не имеют смысла в данной прикладной области. Это является гарантией, что после декомпозиции обобщенного ключа схема БД по прежнему удовлетворяет свойству соединения без потерь информации, по уже в рамках четвертой нормальной формы (4НФ).

В общем случае отношения и /?(1. являются частью существующих отношений Кт1111. сформированных пофункциональным зависимостям: /^/^//^„м

(совокупности отношений в скобках также должны удовлетворять свойству соединения без потери информации).

Такие отношения, Я, и/или И^ считаем существующими и удаляем их из схемы БД.

Завершающим построением этого этапа является установление связей между сформированными отношениями. Формальным основанием мя установления связей являются зависимости включения:

Определение. Пуст!, Ч\АУ ..., Ат\ и И^В.,..., В„| — схемы отношений (не обязательно различные), Ус

{Л,.....Ат) и IV с {В,.....Вр). М = И- тогда объект

ЯД VI с /?ДIV) называется зависимостью включения.

сслия^с^/Л/

В определении |У1 — мощность множества V, — проекция отношения Я, по атрибутам V.

Условие У= является необходимым для установления связи. Такой вид зависимостей включения называется типизированными.

Определение. Связь является избыточной, если задаваемые сю ограничения на значения атрибутов содержатся в других связях.

Необходимые и достаточные условия избыточной связи и алгоритм ее поиска рассмотрен в (9).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3. Схема БД

для обработки полнотекстовой информации

Рассмотрим общий перечень элементов данных (атрибутов):

1. Номер лексемы. 2. Лексема. 3. Номер-текста. 4. Адрес хранения текста. 5. Шифр раздела классификатора. 6. Наименование раздела классификатора. 7. Уровень соответствия лексемы разделу классифи-. катора. 8. Уровень соответствия текста разделу клас-I сификатора. 9. Характеристики хранения текста.

На выделенных атрибутах определены следующие функциональные зависимости: 1—>2; 3—>4,9; 5—>6; 1,5->7; 1,5->7. Не сложно убедиться, что выделенное множество зависимостей является минимальным покрытием.

На основании зависимостей строим отношения:

1. Словарь (Номер лексемы. Лексема).

2. Информационные ресурсы (Номер текста. Ал-рес хранения текста, Характеристики хранения текста).

3. Разделы классификатора (Шифр раздела. Наименование раздела классификатора).

Л. Соответствие лексем (Номер лексемы. Шифр разлела. Уровень соответствия лексемы разделу классификатора).

5. Соответствие текстов (Номер текста. Шифр ра злела. Уровень соответствия текста разделу классификатора).

Обобщенный ключ состоит из атрибутов 1, 3, 5. Свойство соединения без потерь информации на отношениях 1 - 5 в рамках третьей нормальной формы не выполнено. Однако существует многозначная зависимость 5-»-> 1,3, которая гарантирует выполнение указанного свойства в рамках четвер той нормальной формы.

Библиографический список

1. Майкевич, I I.В. От информационного пространства к пространству знаний. Онтологии в Интернет. 1998. http://www.dialog-21 .m/archlve_articlo.asp

2. Нарнньяни, А.С. Кентавр по имени ТЕОН : Тезаурус + Онтология http://www.dialoc|-21.nj/d)rections_rnalerlals.asp? dir_id = 2025

3. Чанышев, О.Г. Ассоциативная модель естественно-языкового текста //Вестник Омского государственного университета. - ОмскЮмГУ. 1997. - Вып. 4. - С. 17 -20.

4. Чанышев, О.Г. Ассоциативная модель реальн-оготекста и ее применение в процессах авгоиндексирования. // Тр. седьмой национальной конференции по искусственному интеллекту (КИИ'2000). - М.: Физико-математическая литература, 2000. — С. 430-438.

5. Чанышев, О.Г. О возможности построения онтологий на основе доминантных лексем: результаты автоклассификации текстов// Вестник Омского государственного университета. -Омск : Ом ГУ. - Вып. 3, 2004 г. - С.45- 47.

6. Bookstein, Л,. Klel.n S. Т. Clumping Properties oi Content-Bearing Words //JAS1S, No 2. 1998.

7. Ульман, Дж. Основы систем баз данных — М.: Финансы и статистика. 1983. - 334 с.

8. Кузнецов, С.Д. Основы баз данных. - М.: Интуит.ру. 2005. - 488 с.

9. Зыкин, С.В. Актуализация базы данных в OLAP-техноло-гии // Материалы Всероссийской конференции с международным участием «Знания -0|Гтологни — Теории» (ЗОНТ—07. -Новосибирск. 2007. - Т. 1. - С. - 73-79.

ЗЫКИН Сергей Владимирович, доктор технических наук, профессор кафедры «Автоматизированные системы обработки информации и управления» Омского государственного технического университета, заведующий лабораторией «Методы представления и преобразования информации» Омского филиала Института математики СО РАН. ЧАНЫШЕВ Олег Георгиевич, кандидат-технических наук, старший научный со трудник лаборатории «Методы представления и преобразования информации» Омского филиала Института математики СО РАН.

Статья поступила и редакцию 08.05.00 г. ® С. В. Зыкин, О. Г. Чанышев

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Зыкин Сергей Владимирович, Чанышев Олег Георгиевич

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Зыкин Сергей Владимирович, Чанышев Олег Георгиевич

Use of closcly-structured models at processing of semlstructurcd data

Текст научной работы на тему «Использование сильноструктурированных моделей при обработке слабоструктурированных данных»