Применение нейронной сети Кохонена для классификации web-страниц информационно-поисковой системой сайтов

Андреева К.А.; Шайдуров Р.С.; Моргунов Е.П.

Секция

«ПРОГРАММНЫЕ СРЕДСТВА И ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ»

УДК 004.942

ПРИМЕНЕНИЕ НЕЙРОННОЙ СЕТИ КОХОНЕНА ДЛЯ КЛАССИФИКАЦИИ WEB-СТРАНИЦ ИНФОРМАЦИОННО-ПОИСКОВОЙ СИСТЕМОЙ САЙТОВ

К. А. Андреева1, Р. С. Шайдуров2 Научный руководитель - Е. П. Моргунов

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева

Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31 Е-mail: [email protected], [email protected]

Представлена реализация программного модуля информационно-поисковой системы сайтов, способного классифицировать web-страницы согласно их содержанию. Модуль основывается на самоорганизующихся картах Кохонена. Основной целью работы явилась оценка преимуществ и недостатков реализации нейронных сетей Кохонена в информационно-поисковой системе.

Ключевые слова: информационно-поисковая система, поисковый робот, нейронная сеть Кохонена, релевантность, самоорганизующиеся карты, Евклидово расстояние, кластеризация, классификация, контент.

APPLICATION OF A KOHONEN NEURAL NETWORK FOR WEB PAGES CLASSIFICATION BY THE INFORMATION RETRIEVAL SYSTEM

K. A. Andreeva1, R. S. Shaydurov2 Scientific supervisor - E. P. Morgunov

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected], [email protected]

This article describes the implementation of a software module that is able to organize vast document collections according to textual similarities. It is based on the self-organizing map (SOM) algorithm. The main goal of the work has been to evaluate advantages and disadvantages of Kohonen's neural network implementation in the search engine of information retrieval system.

Keywords: information retrieval system, search engine, Kohonen's neural network, relevance, self-organized maps, Euclidean distance, clustering, classification, content.

Одним из наиболее прогрессивных и всеохватывающих научных направлений на сегодняшний день является развитие и усовершенствование интернет-технологий, что вызывает постоянный рост числа пользователей Всемирной сети. Однако из-за этого возникает проблема релевантности в информационном поиске, а именно - существующие поисковые системы (Google, Яндекс, Mail.ru, Yahoo! и т. д.) не всегда релевантно удовлетворяют пользовательские запросы. Одним из возможных путей решения данной проблемы является усовершенствование работы поискового робота интеллектуальными методами, а именно - нейронными сетями.

В настоящей работе ставится задача изучения пригодности методов, алгоритмов и теорий построения нейронных сетей Кохонена для реализации программного модуля информационно-поисковой системы, классифицирующего индексируемые веб-страницы по их содержанию (контенту).

Нейронную сеть Кохонена также называют самоорганизующимися картами Кохонена, выполняющими обобщение предъявляемой информации на основе способа обучения «без учителя» (самоорганизации). Данный вид нейронных сетей более эффективен для применения в информационном

Секция «Программные средства и информационные технологии»

поиске именно благодаря способу своего обучения, так как достаточно проблематично сформировать всеохватывающие обучающие примеры для нейронной сети, обучающейся «с учителем», чтобы дать ей знания о всевозможных научных областях. Гораздо более удобно и менее трудозатратно использовать нейронную сеть, которая «сама себя» учит.

Объекты, которыми оперирует проектируемый программный модуль, - это тексты, части документов или веб-страниц, т. е. некоторые фрагменты текстов. Каждый из документов должен быть представлен в виде вектора терминов, понятного нейронной сети. Чтобы выделить множество терминов документа, необходимо провести его некоторую «чистку» (убрать цифровые символы, знаки пунктуации, «стоп-слова» - слова общей лексики, предлоги, союзы, частицы). Таким образом, отбрасываются слова, которые не должны влиять на результаты поиска, и остаются термины, непосредственно влияющие на отнесение документа в какую-либо категорию. Каждый термин - это один из признаков документа, а совокупность этих признаков является вектором (образом) всего документа [2].

Сеть Кохонена состоит из одного слоя нейронов. Число входов каждого нейрона равно размерности входного образа. Количество нейронов определяется той степенью подробности, с которой требуется выполнить кластеризацию (классификацию) набора документов. При достаточном количестве нейронов и удачных параметрах обучения сеть Кохонена может не только выделить основные группы образов, но и установить структуру полученных кластеров. При этом близким входным образам будут соответствовать близкие карты нейронной активности [1].

Обучение нейронной сети начинается с инициализации весов нейронов путем задания небольших случайных значений или же на основе обучающей выборки. После чего с помощью специальной функции рассчитывается выход каждого нейрона, и определяется нейрон-победитель, имеющий меньшее расстояние до вектора входа и относящий образ данного документа к некоторой категории.

Для вычисления расстояния каждого нейрона до вектора входа используется формула нахождения Евклидова расстояния:

^(х, т) = "=1(X - Щ )2,

где хг — г - элемент входного вектора Х, м>1 — г - вес нейрона-победителя Ж. В качестве победителя берется нейрон с минимальным Евклидовым расстоянием.

На текущем шаге обучения ] происходит модификация весов нейронов из окрестности нейрона-победителя Ж:

т] +1 = т] + а(]) • ЪС1 (]) • (хг — т]),

где а(]) - темп обучения нейронной сети [0...1], который уменьшается с течением времени; Нс1 (]) -функция соседства нейронов. Первоначально в окрестности Нс1 (]) любого из нейронов находятся все нейроны сети, в последствии эта окрестность сужается. В конце этапа обучения подстраиваются только веса самого ближайшего нейрона. Образы обучающей выборки предъявляются сети последовательно, и каждый раз происходит подстройка весов.

Данная упрощенная модель нейронной сети была реализована в информационно-поисковой системе в виде модуля для поискового робота, который по содержанию исходного текста относит его к какой-либо категории.

По результатам проделанной работы было выявлено, что нейронная сеть Кохонена может иметь свое применение в информационном поиске благодаря своей самоорганизации, простоте и быстродействию. Однако для ее успешного применения необходимо решить следующие задачи:

- сформировать адекватный и содержательный образ документа, так как непосредственно от него зависит удовлетворительность получаемых результатов;

- включить в работу сети механизм, присваивающий некоторую категорию тому или иному кластеру, если множество классов заранее неизвестно.

Библиографические ссылки

1. Кохонен Т. Самоорганизующиеся карты. 3-е изд. Шпрингер : Берлин, 2001. 432 с.

2. Кохонен Т. Самоорганизация больших коллекций документов. Карты Кохонена. Эльзевир, 1999. 574 с.

3. Маннинг К. Д., Рагхаван П., Шютце Х. Введение в информационный поиск : пер. с англ. М. : Вильямс, 2011. 528 с.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Андреева К. А., Шайдуров Р. С., Моргунов Е. П.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Андреева К. А., Шайдуров Р. С., Моргунов Е. П.

APPLICATION OF A KOHONEN NEURAL NETWORK FOR WEB PAGES CLASSIFICATION BY THE INFORMATION RETRIEVAL SYSTEM

Текст научной работы на тему «Применение нейронной сети Кохонена для классификации web-страниц информационно-поисковой системой сайтов»