Научная статья на тему 'Подходы к разработке и реализации системы распознавания навигационных и информационных веб-страниц, содержащих текстовые сообщения'

Подходы к разработке и реализации системы распознавания навигационных и информационных веб-страниц, содержащих текстовые сообщения Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
90
36
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Петров В. В.

В статье рассматриваются подходы к разработке системы распознавания текстовых документов на основе статистики относительного количества частей речи в анализируемом тексте. Приведена классификация систем распознавания образов, рассмотрены математические операции, проводимые в ходе функционирования предлагаемого алгоритма, а также его структура.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Петров В. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Подходы к разработке и реализации системы распознавания навигационных и информационных веб-страниц, содержащих текстовые сообщения»

Подходы к разработке и реализации системы распознавания навигационных и информационных веб-страниц, содержащих текстовые сообщения

Петров В. В., Академия ФСО России [email protected]

Аннотация

В статье рассматриваются подходы к разработке системы распознавания текстовых документов на основе статистики относительного количества частей речи в анализируемом тексте. Приведена классификация систем распознавания образов, рассмотрены математические операции, проводимые в ходе функционирования предлагаемого алгоритма, а также его структура.

1 Введение

Одной из форм обмена информацией между людьми являются документы, содержащие текст на том или ином языке. В настоящее время объём циркулирующих данных с каждым днём растёт. Связано это со стремительным развитием информационных технологий, где текстовые документы передаются в электронном виде, а обмен ими в кротчайшие сроки не вызывает затруднений.

Однако с ростом количества доступной человеку информации появляется проблема поиска необходимых сведений среди всего огромного разнообразия данных. Так очень часто возникают задачи обработки и фильтрации двух типов текстовых сообщений: навигационных и

информационных веб-страниц

циркулирующих в сети Интернет [Молчанов, Скурнович, 2015]. В настоящей статье под первым типом страниц понимаются вебстраницы с текстом, но предоставляющие пользователю возможность быстрой и удобной навигации по структурам сайтов или ссылки на текстовые документы. Под вторым типом - веб-страницы, содержащие непосредственно информацию о фактах или событиях в полном объеме (например, газетные или журнальные статьи, сообщения аналитических прессагентств и т.д.). [Молчанов, Скурнович, 2015]. Для решения данного рода задач разрабатываются

различные методы поиска и фильтрации информации. В большинстве случаев базируются данные методы на основе теории распознавания образов.

2 Класс разрабатываемой системы распознавания текстовых документов

Классификация систем распознавания образов представлена на рисунке 1 [Горелик, Скрипкин, 1977]. Разрабатываемая система распознавания относиться к классу сложных вероятностных параметрических систем распознавания с обучением, а в ее основе лежит дискриминантный анализ Фишера [Гайдышев, 2001.].

Рис. 1. Классификация систем распознавания образов

Дискриминантный анализ представляет собой надежный линейный метод распознавания данных с обучением. Для его использования необходимо задать некоторое число объектов, указав их принадлежность к так называемым обучающим группам (классам, кластерам, популяциям). Применению методов распознавания обязательно должны предшествовать исследования методами классификации без обучения (кластерного анализа или эмпирической классификации, когда, например, человек на основании своего опыта выполняет отнесение того или иного объекта классификации к определенному классу). Кластеры могут пересекаться, особенно если

обучение производится на основании эмпирической классификации. Когда не удается установить точную принадлежность объекта к некоторым стандартным описанным группам, рекомендуется образовать из таких объектов новые кластеры (новые классы).

Методы дискриминантного анализа, как и все методы распознавания (классификации) с обучением, вырабатывают некоторые решающие правила, позволяющие отнести предлагаемые объекты, а заодно и объекты, содержащиеся в обучающих группах (именно так оценивают качество классификации), к заданным выше классам.

Решающие правила могут быть получены:

- в виде вероятности отнесения к определенному классу при заданных обучающих выборках, как предполагает метод Байеса.

- в виде простых классифицирующих функций, как это сделано в линейном дискриминантном анализе Фишера.

- в виде дискриминантных функций, как это сделано в каноническом дискриминантном анализе.

- в виде некоторых характеристик (групповая ковариационная матрица, групповой вектор средних и определитель ковариационной матрицы), как это сделано в линейном дискриминантном анализе.

- в виде настроенных весов синапсов и смещений нейронов, как это сделано в случае обучаемой нейронной сети.

В рамках данной работы был выбран метод построения классифицирующих линейных функций.

3 Проектирование предлагаемой системы распознавания текстовых сообщений

Выбранный метод реализуется с помощью шагов алгоритма, который представлен на рисунке 2. Данный алгоритм включает в себя два основных этапа:

1. Обучение системы распознавания.

2. Этап классификации текстовых документов.

Исходными данными для работы системы на первом этапе является статистика использования частей речи в текстовых документах обучающей выборки, которая хранится в виде двумерного массива признаков. Таким образом, признаком х

выступает значение частоты встречаемости конкретной части речи в анализируемом текстовом документе [Молчанов, Скурнович, 2015]. На входе системы распознавания имеется два сформированных массива в соответствии с количеством классов текстовых сообщений. Строки массивов содержат значения, характеризующие встречаемость тех или иных частей речи в конкретном тексте.

Сначала происходит конкатенация двух этих массивов в один для осуществления процедуры нормирования в соответствии с выражением:

хпогт=?Ч_:£1 [¿-1...^,;-1...П ], (1)

где хг;- - исходное значение /-го признака /-го текстового сообщения из обучающей выборки, х} - среднее значение /-го признака в обучающем массиве, N - количество текстовых сообщений в обучающей выборке, п - количество столбцов, оу - среднее квадратическое отклонение значений /-го признака по обучающей выборке.

Рис. 2. Обобщенная схема алгоритма классификации текстовых документов

После получения массива нормированных значений признаков он делится на два подмассива, размеры которых соответствуют количеству текстовых сообщений в каждом классе. Далее осуществляется вычисление общей ковариационной матрицы V путем усреднения значений ковариационных матриц, сформированных на основе двух массивов, содержащих нормированные признаки текстовых документов различных классов. Ковариационные матрицы каждого класса вычисляются на основе выражения:

- *(<?) • Х(Л)

(2)

где Q - номер класса текстовых документов Х(д) - массив нормированных значений

признаков класса Q, Т - обозначает операцию транспонирования массива.

Вычисляется результирующая

ковариационная матрица в соответствии с выражением:

^ = + (3)

где N - количество текстовых сообщений в массиве /-го класса обучающей выборки (/ = {1;2})

На заключительном шаге этапа обучения производится формирование линейного решающего правила, в соответствии с которым в дальнейшем будет проводиться классификация текстовых файлов. Линейное решающее правило имеет вид:

гй = (х-\(%) + %))• -(4)

где X - нормированный вектор признаков распознаваемого текстового сообщения, У~г - обратная матрица ковариационной, Х^) -средние значения по всем признакам в массиве Q-го класса обучающей выборки.

Построение линейного решающего правила можно представить в виде задания в признаковом пространстве некоторой разделяющей поверхности, которая делит пространство на два полупространства. Данная разделяющая поверхность строится с таким расчетом, чтобы при проекции на нее образов текстовых сообщений разброс внутри классов был минимальным, и при этом расстояние между центрами классов было максимальным. Рисунок 3 иллюстрирует в общем виде правило построение разделяющей поверхности.

Рис. 3. Графическая интерпретация правила построения разделяющей поверхности

При проекции вектора признаков распознаваемого текстового сообщения на разделяющую поверхность можно говорить,

что оно относится к тому из классов, к среднему из которых он лежит ближе, т. е. «по ту же сторону» от полусуммы средних. Таким образом, на основе выражения (4) распознаваемое текстовое сообщение с вектором значений X будет отнесено к первому классу тогда и только тогда, когда У{х) >0. В противном случае решение будет принято в пользу второго класса.

При реализации второго основного этапа функционирования системы распознавания на ее вход последовательно подаются вектора значений признаков текстовых документов, принадлежность которых к тому или иному классу необходимо установить. На этапе распознавания фактически реализуется подстановка вектора признаков неизвестного текстового сообщения в уравнение разделяющей поверхности, вычисление функции и принятие решения в пользу конкретного класса в соответствии с правилом. Соответствие классов с видом страниц задаётся на этапе обучения: обучающая выборка, загруженная в первую очередь, будет восприниматься как первый класс. В программной реализации данной системы распознавания в соответствии с ее решениями текстовые документы

распределяются по двум отдельным каталогам.

4 Практическая реализация предлагаемой системы распознавания

Для реализации рассмотренного выше алгоритма было разработано программное обеспечение (ПО), реализующее этапы обучения и распознавания предложенной системы. На рисунке 4 представлена вкладка главного окна ПО, позволяющая пользователю управлять процедурой обучения.

И«* ¿Г2

Й Й з о ф &

ат.»»««.»*. .¿г**" у

Рис. 4. Окно вкладки «Обучение» разработанного программного обеспечения

При функционировании ПО, на ее вход должны загружаться массивы, содержащие статистику применяемых частей речи (рисунок 5) в текстовых документах. Формирование таких таблиц обеспечивает ранее разработанной авторами ПО «МогрЫш». Основными задачами данного ПО являются преобразование веб-страницы в текстовый документ и определение частоты встречаемых в документе частей речи.

Рис. 5. Таблица, содержащая статистику использования частей речи в текстовых документах

Сначала система проходит обучение на массивах обучающей выборки, куда были включены веб-страницы текстовых сообщений двух классов: навигационных и информационных. Как было сказано выше, к навигационным относятся веб-страницы, содержащие лишь заголовки статей и ссылки для перехода на другие страницы (рис. 6).

Рис. 6. Пример навигационной страницы

К информационным же относятся страницы, содержащие полную информацию по какой-либо конкретной теме (рисунок 7).

Рис. 7. Пример информационной страницы

По окончании этапа обучения формируется линейное решающее правило, относительно которого в дальнейшем и осуществляется классификация текстовых сообщений.

После обучения системы в ПО реализуется этап распознавания. Для этого на вход подаётся таблица (рисунок 5), сформированная на основе веб-страниц, принадлежность которых к определенному классу необходимо установить. Затем разработанное ПО обеспечивает распределение веб-страниц по указанным пользователем каталогам.

С целью проверки работоспособности ПО был проведён эксперимент с тестовой выборкой. В данную выборку были включены 50 информационных и 50 навигационных страниц. Они в случайном порядке последовательно подавались на вход системы распознавания. Результаты проведённого эксперимента показали, что при данной реализации системы распознавания и использовании всей совокупности признаков, вероятность общей ошибки на данный момент достигает значения 0,16.

5 Выводы

Анализ результатов работы ПО, реализующего предлагаемый алгоритм распознавания, позволяют выделить направления дальнейших исследований в рамках решения данной и подобных ей задач, а именно:

1. Нахождение наиболее информативных признаков путём перебора их возможных комбинаций. Это позволит выработать линейное решающее правило с наименьшей вероятностью ошибки. Для этого необходимо обучать систему с помощью всех возможных сочетаний признаков.

2. Развитие системы распознавания путём решения задачи классификации относительно большего числа классов.

3. Использование других методов системы распознавания образов, которые могли бы решать схожие задачи, но с большей эффективностью.

Список литературы

Молчанов А. Н., Скурнович, А. В. 2015. Математическая модель текста на естественном языке, учитывающая свойство когерентности [Электронный ресурс]. // Электронное научное издание «Науковедение» - Москва : Науковедение. -Т.7, № 1(26). - 18 с. - Режим доступа: http://naukovedenie.ru/PDF/ 70TVN115.pdf, доступ свободный.

Молчанов А. Н., Скурнович, А. В. 2015. Алгоритм распознавания веб-страницы, оценивающий когерентность размещенного на ней текста [Электронный ресурс]. // Электронное научное издание «Науковедение».

- Москва: Науковедение. - Т.7, № 1(26). - 14 с.

- Режим доступа: http://naukovedenie.ru/PDF/ 71TVN115.pdf, доступ свободный.

Горелик А. Л., Скрипкин В. А. 1977. Методы распознавания. Учебное пособие для вузов. Изд. 4. - Москва : Букинист. - 262 с.

Гайдышев И. 2001. Анализ и обработка данных: специальный справочник. - Санкт-Петербург : Питер. - 752 с.: ил.

i Надоели баннеры? Вы всегда можете отключить рекламу.