Научная статья на тему 'Нейросетевой метод извлечения знаний на основе совместной встречаемости ключевых термов'

Нейросетевой метод извлечения знаний на основе совместной встречаемости ключевых термов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
279
65
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шеменков П. С.

Статья посвящена разработке нейросетевого метода автоматического извлече ния знаний из массивов полнотекстовых документов, основанного на пред ставление текстов в виде набора ключевых термов и его применению к анализу те матического состава информационной библиотеки. Мера близости текстов ос новывается на частотной составляющей термов, характеризующих документы.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Шеменков П. С.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Нейросетевой метод извлечения знаний на основе совместной встречаемости ключевых термов»

Нейросетевой метод извлечения знаний на основе совместной встречаемости ключевых термов

СТАТЬЯ ПОСВЯЩЕНА РАЗРАБОТКЕ НЕЙРОСЕТЕВОГО МЕТОДА АВТОМАТИЧЕСКОГО ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ МАССИВОВ ПОЛНОТЕКСТОВЫХ ДОКУМЕНТОВ, ОСНОВАННОГО НА ПРЕДСТАВЛЕНИИ ТЕКСТОВ В ВИДЕ НАБОРА КЛЮЧЕВЫХ ТЕРМОВ. РАССМАТРИВАЕТСЯ ЕГО ПРИМЕНЕНИЕ К АНАЛИЗУ ТЕМАТИЧЕСКОГО СОСТАВА ИНФОРМАЦИОННОЙ БИБЛИОТЕКИ. МЕРА БЛИЗОСТИ ТЕКСТОВ ОСНОВЫВАЕТСЯ ИХ НА ЧАСТОТНОЙ СОСТАВЛЯЮЩЕЙ.*

Шеменков П.С.,

Санкт-Петербургский Государственный университет телекоммуникаций им. проф. М.А. Бонч-Бруевича tss-13@yandex.ru

Доступность методов записи и хранения данных привели к бурному росту объемов хранимых данных. Эти объемы настолько внушительны, что человеку просто не по силам проанализировать их. Хотя необходимость проведения такого анализа вполне очевидна, ведь в этих “сырых данных"заключены знания, извлечение которых может дать критический толчок в научных исследованиях, в бизнесе и других областях. Нетривиальное извлечение неявной, прежде неизвестной и потенциально полезной информации из больших баз данных называется Разработкой Данных или Открытием Знаний. Для этой области информатики мы используем более явный синтетический термин — извлечение знаний. Извлечение знаний использует концепции, разработанные в таких областях, как машинное обучение (Machine Learning), технология баз данных (Database Technology), статистика.

Одним из основных подходов в "извлечение знаний из массива данных" является кластеризация. Кластеризация служит для объединения больших объемов данных в группы, которые характеризуются тем, что элементы внутри каждой группы имеют больше "сходства" между собой, чем между элементами соседних кластеров.

Кластерный анализ позволяет установить в данных мало различимые неизвестные закономерности, которые практически невозможно исследовать другими способами и представить их в удобной для пользователя форме.

Основная гипотеза формируется так: есть группа текстовых документов, которые образуют коллекцию Е, анализ которой осуществили эксперты и выявили семантические группы С.

• \хх,...хм

(1)

E {{x11,

Задачу автоматической таксономии коллекции Е можно рассматривать с помощью нейросетевого анализа, позволяющего получить набор таксономических групп С'.

Полагаем, что:

1) если С (Ху) = С'(x у), полученный результат извлечения знаний соответствует экспертной разбивке коллекции Е;

2) если С (Ху) > С'(xу), то констатируем "утерю" семантических данных;

3) если С (Ху) < С'(x у), констатируем приобретение знаний (семантических данных).

Нейросетевой метод извлечения знаний

Извлечение знаний является сложной процедурой, возникшей и развивающейся на базе достижений прикладной статистики, распознавания образов, методов искусственного интеллекта, теории баз данных.

Главным требованием, предъявляемым к методам извлечения знаний, является эффективность. Работа с очень большими базами данных вызывает определенные сложности, и в первую очередь это вызвано необходимостью систематизации и кластеризации исходных документов. Эти трудности можно преодолет, используя нейросетевой метод позиционирования данных.

Из существующего многообразия методов решения выявлено, что для извлечения знаний максимально соответствует алгоритм кластеризации методом самоорганизующихся нейронных сетей Кохонена.

Нейронная сеть, использующая метод обучения без учителя (unsupervised learning), не тре-

бует наличия обучающей выборки, применима к сильно сгруппированным данным; сама определяет количество получаемых кластеров, дает возможность настроить параметры сети по умолчанию. При этом увеличение количества текстов не влечет за собой экспоненциальный рост времени обработки, и интерпретация найденных кластеров осуществляется осмысленно в ключевых словах.

Этапы нейросетевого анализа

Полагаем, что избрана коллекция Е документов, подлежащих анализу. С целью осуществления анализа коллекции Е и установления семантической близости групп документов, осуществляется серия процедур:

• Кодирование данных

Процедура кодирования порождает образ каждого документа из анализируемой коллекции Е в виде вектора R в N-мерном евклидовом пространстве либо в виде вектора весов.

С этой целью множество документов коллекции Е сформируем в виде матрицы, строками и столбцами которой являются соответственно векторы документов. Отметим, что каждому слову текста, в самом общем случае, соответствует словоформа, которая характеризуется сущностью, позиционируемой в N-мерном пространстве признаков. Очевидно, что при N=1 сущность отождествляется с термом. В этом случае для весового позиционирования текста используем функцию вида:

W = TF x IDF (t ., dt) =

(2)

= TF (t dj) x IDF (t

TF—частота терма (term frequency) в документе,

TF =,

(3)

где t— число рассматриваемых употреблений терма; lt — общее число термов в документе; IDF — инверсная частота терма (inverse document frequency),

Экспериментальные исследования метода производились на основе данных 61-й научно-технической конференции профессорско-преподавательского состава, научньх сотрудников и аспирантов СПб ГУТ. При анализе результатов исследования использовалась как математическая оценка качества извлечения знаний, так и экспертная оценка качества полученных данных.

t

IDF (ti) = log 2

\D |

~DF,

(4)

где | D | — количество документов, содержащихся в коллекции Е, DFi — количество документов, содержащих терм t.

• Нормировка данных

Очевидно, что результаты нейроанализа не должны зависеть от выбора единиц измерения, поэтому веса, полученные с помощью функции W, подвергаем нормализации.

Операция нормализации выполняется по выражению:

TF X IDF (t, dj)

~ = (5)

(TF XIDF(t, dу))2

Результатом этой процедуры является формирование нормированного N-мерного вектора входного потока данных.

• Настройка нейронной сети

Результат обучения зависит как от размеров сети, так и от ее начальной конфигурации. Искусственная нейронная сеть Кохонена или самоор-ганизуюшряся карта признаков (SOM) была предложена Т. Кохоненом в начале 1980-хгодов.

SOM представляет собой двухслойную сеть. Каждый нейрон первого распределительного слоя соединен со всеми нейронами второго — выходного слоя, которые расположены в виде двухмерной решетки.

В выходном слое сети имеется фиксированное количество нейронов, которые в результате работы образуют топологически связанные группы, внутри которых векторы весов нейронов имеют близкие значения. Следуя этим представлениям, формируется тематическая карта, в которой тематическим линиям, представленным в анализируемом массиве текстов, соответствуют группы нейронов, причем документы с близкими тематическими линиями повествования формируют топологически близкие нейроны. Следуя этим представлениям, делаем вывод, что SOM позволяет формировать визуальное представление семантической структуры множества документов

При реализации вычислительных процедур по SOM задается конфигурация сетки, количество нейронов в сети и радиус обучения, численное значение которого определяет количество топологически близких групп, что, естественно, влияет на скорость обучения.

• Оценка качества кластеризации

Для оценки качества извлечения знаний предлагается использовать априорное знание о том, каким образом должны группироваться тексты в кластеры. Тем самым предполагая, что все кластеры будут состоять только из текстов выбранной тематики, представленных в наборе для кластеризации.

Для оценки качества кластеризации введем два понятия:

1. Полнота по кластеру — отношение количества документов, правильно приписанных к кластеру, к общему количеству документов этого кластера, имеющихся в коллекции Е.

2. Точность по кластеру — отношение количества документов, правильно приписанных к кластеру, к общему количеству документов, которые были приписаны к этому кластеру.

Качество вычисляем по следующей формуле: с

Y ^ Nl ’ (6)

Y T+Y N

где C — количество кластеров, N — количество текстов, правильно отнесенных к кластеру, T. — количество документов кластера в коллекции Е, Ns — количество документов в кластере.

Эксперимент

Для статистической обработки документов, выявления критериев и последующей кластеризации данных был разработан программный инструментарий Neuro-text, реализующий алгоритм нейронной сети Кохонена, скомпилированный в среде Borland Delphi Enterprise 7.0.

Программа позволяет пользователю:

• интерактивно настроить параметры извлечения данных, а также изменить параметры нейронной сети;

• запустить процесс кластеризации;

• получить дерево результатов (где корневые директории — кластеры, содержащие каждый свои документы);

• сохранить полученный результат в базе данных или в файле.

Для оценки качества предложенного подхода к извлечению знаний методом нейронных сетей был выбран сборник научных статей 61 научно-технической конференции профессорско-преподавательского состава, научных сотрудников и аспирантов 2009 г. СПб ГУТ (61 НТК ППС).

Коллекция материалов 61 НТК ППС представлена 270 научными статьями, общим объемом 150 печатных страниц. Выполнение программы осуществлялось на компьютере под управлением ОС Windows Vista (процессор Intel Core 2 Duo — тактовая частота 2,26 ГГц, оперативная память 2 Gb, HDD 120 Gb).

На первом этапе работы программы были получены частотные словари, при этом отобраны только термины, приведенные к словарной форме с помощью морфологической процедуры — стемминга, а также исключены стоп-слова.

Полученные данные из 270 документов с 5319 терминами были проанализированы с использованием нейронной сети Кохонена. Данная нейронная сеть имеет несколько настраиваемых числовых параметров: число нейронов, норма обучения, множитель для нормы обучения, радиус активности области нейрона-победителя, число производимых итераций, шаг модификации.

При оценке адекватности работы алгоритма выявлено, что нейросетевой метод показывает высокие результаты для разделов с четко очерченной тематикой, в то время как низкие результаты в основном приходятся на рубрики с небольшим числом документов и резко отличающейся лексикой.

Выводы и обсуждение результатов

Результаты экспериментов позволяют сделать вывод о возможности успешного применения автоматического метода извлечения знаний на большом массиве входных документов. При этом следует указать, что нейросетевой метод кластеризации текстовых документов, в которых представленные эталонные кластеры, полученные экспертами, обладают недостатками. В таких эталонных кластерах располагаются документы, обладающие различным показателем семантической связи, а кластеры не воспроизводят иерархически связанную сеть понятий, инициализирующих извлечение новых знаний.

Напротив, предлагаемый нейросетевой метод позволяет формализовать процесс извлечения знаний посредством установления статистически взаимосвязанных отношений словоформ в большом количестве анализируемых документов. Используя нейросетевой метод, констатировано, что выполняется неравенство С (Ху) < С'(xу), которое характеризует расширение представлений о изучаемом потоке входных данных — наборе текстовых документов. Следовательно оно является процедурой приобретение знаний в семантическом смысле. По результатам анализируемой коллекции Е установлено, что С'(x.у) = 1,258С(xу).

Полученный результат указывает на необходимость совершенствования экспертных оценок при формировании коллекции документов. Наряду с этим можно заметить, что формальные процедуры анализа текстовых документов, в своей основе обладая более строгими принципами выделения взаимной связанности отдельных документов и кластеров, построенных на их основе, являются прогрессивным инструментом в исследовании постоянно расширяющихся информационных ресурсов.

Литература

1. T. Kohonen. Self-Organizing Maps, Springer, 1995.

2. Головко ВА Нейронные сети: обучение, организация и применение/Под ред. проф. АИ.Галуш-кина. — М.: ИПРЖР, 2001.

3. Шеменков П.С. Векторная модель представления документов// 61 НТК ППС, СПб ГУТ, 2009.

4. Шеменков П.С., Макаров Л.М. Формирование сетевой интеллектуальной базы знаний// Сборник научных трудов Второго международного научного конгресса "Нейробиотелеком 2006". — СПб.: Политехника, 2006. — 388 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.