Научная статья на тему 'Применение методов Data Mining для поиска знаний в структурированных текстах'

Применение методов Data Mining для поиска знаний в структурированных текстах Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
98
30
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Васильев Иван Владимирович

Рассмотрены подходы к созданию баз знаний, содержащих квалифицированные логические высказывания, полученные при помощи последовательного применения алгоритма кластеризации HICAP и метода характеристических многогранников.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Применение методов Data Mining для поиска знаний в структурированных текстах»

И.В.Васильев

Применение методов Data Mining для поиска знаний в структурированных текстах

Применение методов, позволяющих обнаружить закономерности в информационных массивах, не является в наши дни чем-то необычным. Технологии, основанные на использовании математических статистик, алгоритмов кластеризации, имеют собирательное название Data Mining (поиск знаний) и получили широкое распространении в различных научных направлениях [1].

Целью этой работы является определение подходов к поиску знаний в данных, представляющих собой результаты социологических исследований, проведенных в форме социологического опроса. Социологами накоплен большой объем информации 8 виде электронных библиотек [2]. В свою очередь, представленные в Internet подобные ресурсы, описанные спецификацией DDI (Data Documentation Initiative), могут быть объединены в межуниверситетские сети, предоставляя пользователям возможность поиска необходимой информации. Подобные хранилища являются идеальной средой для применения методов Data Mining.

В теории искусственного интеллекта употребляется определение знаний [3] как основных закономерностей предметной области. Знания интерпретируются как факты, понятия, взаимосвязи, оценки, правила, эвристики, а также стратегии принятия решений в той или иной области. В этой работе мы сузим приведенное определение, рассматривая в качестве знаний только взаимосвязи и модели, построенные на основе взаимосвязей.

Способы получения знаний о взаимосвязях в результатах социологических исследований при помощи коэффициентов Пирсона и Юнга сравнительно изучены [4]. Результатом применения этих методов является определение во множестве объектов (социологических анкет) отдельных подмножеств, элементы которых имеют большее сходство внутри группы, нежели с элементами, принадлежащими другим подмножествам. Общность в группе могут определять различные наборы атрибутов (ответы на вопросы). Их устойчиво повторяющиеся сочетания могут быть характерными знаниями для изучаемой выборки. Задача определения классов (кластеров) во множестве объектов носит название кластеризации, решение ее сопряжено с большой комбинаторной сложностью, для преодоления которой создаются специальные алгоритмы.

Алгоритм HICAP (Hierarchical Clustering with Pattern Preservation) [5] позволяет осуществлять иерархическую кластеризацию, отличительной особенностью которой

Г74

является возможность присутствия одних и тех же объектов в кластерах разных уровней. Существование уровней дает возможность строить иерархию кластеров, позволяя включать в кластеры помимо объектов еще и обнаруженные ранее кластеры. Алгоритм Н1САР изначально ориентирован на поиск кластеров в натуральных текстах, Применительно к структурированным текстам, к которым можно отнести результаты социологических исследований [6], он нуждается в некотором дополнении. Предлагается строить иерархию сочетаний атрибутов, участвующих в определении кластеров. Результатом этой операции могут быть пересекающиеся множества атрибутов, определяющие взаимосвязи, наблюдаемые в изучаемых данных.

Из недостатков алгоритмов кластеризации отметим то, что результат может иметь интерпретацию вида «значения атрибутов А,В,С имеют тенденцию часто повторяться в сочетаниях {ап Ъ], ск}. Определение

причинно-следственных отношений, присущих этим сочетаниям, возможно лишь при принятии во внимание семантики атрибутов. Вместе с тем, знания, выраженные высказываниями, соответствующими основным аристотелевым формам, очень перспективны в плане построения логических моделей, продукционных систем или семантических сетей.

Предложенный С.В.Чесноковым подход позволяет рассматривать представленные в виде матрицы результаты социологических опросов как тексты, содержащие эмпирические данные о самых разнообразных объектах [6]. Подход определяет методы проверки истинности суждений вида «при условии С, если В то А» при помощи характеристических многогранников, построенных в результате преобразования исходных данных. Исследователю предлагается математический аппарат, позволяющий формулировать и проверять логические гипотезы. В таблице приведены соответствия значений характеристических многогранников квалифицирующим суждениям по Аристотелю [6].

Применение метода характеристических многогранников совместно с алгоритмом кластеризации Н1САР позволит осуществить поиск знаний, имеющих вид квантифицированных высказываний, которые могут быть основой для моделей, позволяющих решать задачи прогноза, диагностики и управления [7]. Такие модели в свою очередь тоже являются информационными сущностями и могут храниться в базе знаний.

ВЕСТНИК ИрГТУ №1 (17) 2004

Квантифицирующие высказывания,

соответствующие значениям многогранников

■ Квалифицирующее суждение по Аристотелю Эквивалентное суждение о точности правила Ь —> а

а. Все Ъ суть а А{Ъ -> а) = 1

е. Все Ъ не суть а А(Ь а) = 0

1. Некоторые Ь суть а А(Ъ -> а) е (ОД]

о . Некоторые Ъ не суть а А{Ъ -> а) е [ОД)

Построение информационного пространства, пригодного для хранения знаний определенных ранее типов является областью активных дальнейших исследований. Определяется структура метаинформации, описывающей хранимые данные, знания, полученные в результате анализа данных, и методы анализа.

Выбор объектной модели, позволяющей хранить данные и их описания, сопряжен с трудностями, обусловленными множественностью семантик, присущих отдельным информационным сущностям. Создание базы знаний ставит перед разработчиком задачи, решение которых требует использования особенных подходов к проектированию информационных систем,'

особенности которых будут рассмотрены в дальнейшем.

Библиографический список

1. Сахаров А,А. Концепции построения и реализации информационных систем, ориентированных на анализ данных II Системы Управления Базами Данных, - 1996. - № 4. - С. 55-70

2. Ryssevik J. Musgrave S, The Social Science Dream Machine: Resource discovery, analysis and delivery on the Web. -http://www.nesstar.org/papers/iassist_0599.html (20 янв. 2004)

3. Гаврилова T.A., Червинская K.P. Извлечение и структурирование знаний для экспертных систем. - М.: Радио и связь, 1992. - 200 с.

4. Васильев И.В,Применение методов Data Mining для вторичного анализа социологических исследований II Труды всероссийской конференции "Математические и информационные технологии в энергетике, экономике, экологии", - Иркутск, 2003, - Т.1, - С. 171-179

5. Xiong Н„ Steinbach М., Pang-Ning Tan, Vipin Kumar HICAP: Hierarchical Clustering with Pattern Preservation

6. Чесноков С,В. Метаматрицы в логике натуральных текстов. - http://www.context.ru/articles/art-6.zip

7. Новорусский В.В, Основы теории систем и системы логического управления. (Формально-логические аспекты), -Новосибирск: Сиб.предприятие РАН, 1997. - 335 с.

В.В.Баяндин

Новые ингибиторы коррозии для нефтедобывающей промышленности

При разработке нефтяных месторождений из скважины на поверхность поступает нефтегазоводяная смесь, которая разделяется на нефть, нефтяной газ и пластовую воду, содержащие значительное количество сероводорода и углекислого газа.

Сероводород агрессивно влияет на бурильные, обсадные и насосно-компрессорные трубы, устьевое и промысловое оборудование, металлы корродируют до потери ими несущей способности. Наиболее опасно для труб устьевого оборудования и наземной коммуникации совместное содержание сероводорода и углекислого газа.

В качестве ингибиторов коррозии были испытаны тиазолидиноны в условиях, моделирующих коррозию стали при нефтедобыче. Тиазолидиноны были получены по двухстадийному однореакторному синтезу. На первой стадии при конденсации карбонильных соединений с 1,2-аминоспиртами при азеотропной отгонке воды бензолом были получены оксазолидины I, II.

О

ОН

R

NH2

R'

О

R

NH

н9о

I, И

Затем в тот же реактор, не выделяя оксазолидины в чистом виде, вводили тиогликолевую кислоту в эквимольном соотношении. Оксазолидины расщеплялись тиогликолевой кислотой с образованием М-(2~гидроксиэтил)-4-тиазолиди-нонов III, IV.

ВЕСТНИК ИрГТУ №1 (17) 2004 175

i Надоели баннеры? Вы всегда можете отключить рекламу.