Научная статья на тему 'Извлечение данных из сети Интернет с использованием структурно-семантической кластеризации веб-страниц'

Извлечение данных из сети Интернет с использованием структурно-семантической кластеризации веб-страниц Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
671
74
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИЗВЛЕЧЕНИЕ ДАННЫХ / ВЕБ-СТРАНИЦА / ШАБЛОН / КЛАСТЕРИЗАЦИЯ / ИНТЕРНЕТ-МАГАЗИН

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Вдовин И. В., Овчинникова Р. Ю.

В статье рассматривается проблема извлечения неструктурированных данных из источников в сети Интернет с использованием метода управляемой экстракции данных из веб-страниц. Обосновывается актуальность избранной темы и ее практическая значимость для развития отрасли электронной коммерции. Предлагается методика построения шаблонов для извлечения данных с использованием структурно-семантической кластеризации веб-страниц. Раскрыто содержание и особенности реализации основных этапов методики. Представлены условия реализации и результаты эксперимента по оценке эффективности разработанной методики построения шаблонов. Сформулированы выводы относительно применимости методики для извлечения данных о товарах из веб-страниц интернет-магазинов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Вдовин И. В., Овчинникова Р. Ю.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Извлечение данных из сети Интернет с использованием структурно-семантической кластеризации веб-страниц»

Список литературы

1. Bogachkov I. V. Research characteristics of the Mandelstam - Brillouin scattering in specialized single-mode optical fibers // 2017 IEEE Conference Dynamics of Systems, Mechanisms and Machines (Dynamics). Omsk, Russia, 14-16 November 2017. DOI: 10.1109/Dynamics.2017.8239436.

2. Bogachkov I. V., Trukhina A. I., Kompaneets O. E. Experimental researches of Mandelstam - Brillouin backscattering features in «Panda» optical fiber // Systems of Signal Synchronization, Generating and Processing in Telecommunications (SINKHR0INF0-2017). Kazan, 2017. P. 1-6.

3. Smirnov A. S., Burdin V. V., Petukhov A. S., Drozdov I. R., Kuz'minykh Ya. S., Besprozvannykh V. G., Konstantinov Yu. // A. Birefringence in anisotropic optical fibres studied by polarised light brillouin reflectometry. Quantum Electronics. 2015. Vol. 45, no 1. P. 66-68.

4. Богачков И. В. Исследования спектра рассеяния Мандельштама-Бриллюэна в оптическом волокне «Panda» // Современные проблемы телекоммуникаций: материалы Рос. науч.-техн. конф. Новосибирск: Изд-во СибГУТИ, 2017. С. 180-185.

5. Богачков И. В. Изучение особенностей рассеяния Мандельштама-Бриллюэна в специализированных оптических волокнах // Сб. тр. VII Междунар. конф. по фотонике и информационной оптике. М.: НИЯУ МИФИ, 2018. С. 344-345.

6. Богачков И. В., Трухина А. И., Компанеец О. Е. Экспериментальные исследования особенностей рассеяния Мандельштама - Бриллюэна в оптическом волокне «Panda» // Системы синхронизации, формирования и обработки сигналов. М.: Медиа Паблишер, 2017. Т. 8, № 2. С. 23-25.

7. Bogachkov I. V., Trukhina A. I., Gorlov N. I. Research Characteristics of Mandelstam - Brillouin Scatter Spectrum in the Polarization Maintaining Fibers // IEEE 2018 14th International Conference on Actual Problems of Electronic Instrument Engineering Proceedings. Novosibirsk, 2018. Vol. 1. P. 198-203.

8. Богачков И. В. Изучение характеристик рассеяния Мандельштама-Бриллюэна в оптических волокнах «Panda» // Оптическая рефлектометрия - 2018: сб. тез. докл. 2-й Всерос. конф. Пермь, 2018. С. 12-15.

УДК 004.622

ИЗВЛЕЧЕНИЕ ДАННЫХ ИЗ СЕТИ ИНТЕРНЕТ С ИСПОЛЬЗОВАНИЕМ СТРУКТУРНО-СЕМАНТИЧЕСКОЙ КЛАСТЕРИЗАЦИИ ВЕБ-СТРАНИЦ

DATA EXTRACTION FROM THE INTERNET NETWORK WITH THE USE OF STRUCTURAL-SEMANTIC CLUSTERING OF WEB PAGES

И. В. Вдовин, Р. Ю. Овчинникова

Омский государственный технический университет, г. Омск, Россия

I. V. Vdovin1, R. Y. Ovchinnikova2

Omsk State Technical University, Omsk, Russia

Аннотация. В статье рассматривается проблема извлечения неструктурированных данных из источников в сети Интернет с использованием метода управляемой экстракции данных из веб-страниц. Обосновывается актуальность избранной темы и ее практическая значимость для развития отрасли электронной коммерции. Предлагается методика построения шаблонов для извлечения данных с использованием структурно-семантической кластеризации веб-страниц. Раскрыто содержание и особенности реализации основных этапов методики. Представлены условия реализации и результаты эксперимента по оценке эффективности разработанной методики построения шаблонов. Сформулированы выводы относительно применимости методики для извлечения данных о товарах из веб-страниц интернет-магазинов.

Ключевые слова: извлечение данных, веб-страница, шаблон, кластеризация, интернет-магазин.

DOI: 10.25206/2310-9793-2018-6-4-106-113

I. Введение

В условиях современных темпов развития интернет-технологий, обеспечивающих функционирование отрасли электронной коммерции, успех функционирования отдельных интернет-проектов, связанных с реализацией различных товаров и услуг, во многом зависит от их обеспечения эффективными инструментами для сбора и обработки информации из веб-источников. При этом важным фактором, определяющим возможности практического применения систем извлечения данных, является уровень их автоматизации [1-3]. Постоянно изменяющиеся технологии разработки веб-сайтов, растущее разнообразие способов представления информации на веб-страницах, объем и изменчивость контента требуют применения научного подхода к вопросам извлечения информации о товарах из источников в сети Интернет.

В настоящее время для сбора информации в сети Интернет широко применяется метод управляемой экстракции данных из веб-страниц. Последний представляет собой процесс автоматического извлечения информации из источника с использованием шаблонов, построенных для конкретных атрибутов данных целевой информации. Обязательным требованием для применения такого подхода является присутствие на сайте вебстраниц с однотипной вёрсткой [4].

Необходимость совершенствования методов извлечения данных на основе управляемой экстракции информации из веб-страниц вызвана рядом причин. Во-первых, потребностью в расширении теоретических представлений об управляемой экстракции информации из веб-страниц. Во-вторых, необходимостью анализа преимуществ и недостатков существующих подходов к интеллектуальному извлечению данных из веб-источников. В-третьих, потребностью в повышении эффективности сбора данных о товарах в сети Интернет путем применения современных методов поиска значимой информации на веб-страницах.

Научному исследованию вопросов интеллектуального извлечения данных из веб-источников посвящены труды отечественных и зарубежных ученых. Теоретические предпосылки интеллектуального анализа данных были заложены в трудах Кодда Э.Ф., Митчелла Т.М., Вапника В.Н., Червоненкиса А.Я., Бреймана Л., Фридмана Д., Стоуна Ч., Олшена Р., Пиатецкого-Шапиро Г. и др.

Среди российских авторов вопросам поиска значимой информации на веб-страницах посвящены труды Дю-ка В.А., Гогунского В.Д., Коляды А.С., Агеева М.С., Вершинникова И.В., Доброва Б.В., Чиркина Е.С., Сурковой А.С., Буденкова С.С., Косинова Д.И., Сытника А.А., Папшева С.В., Салина В.С. и др.

Однако общие методические подходы к решению проблем автоматизации извлечения данных о товарах интернет-магазинов на основе управляемой экстракции информации из веб-страниц исследованы недостаточно, что определяет актуальность теоретических и практических работ в данном направлении.

II. Постановка задачи

В ходе исследования особенностей применения метода управляемой экстракции информации из веб-страниц для извлечения структурированных данных о товарах из источников в сети Интернет было установлено, что основным фактором, ограничивающим эффективность использования рассматриваемого подхода на практике, является необходимость вручную совершать следующие действия:

1. Осуществлять тщательный подбор группы веб-страниц, используемых в качестве примеров для автоматического построения шаблонов извлечения данных. При этом в силу ограничений, обусловленных применяемым алгоритмом генерации шаблонов:

- в качестве примеров веб-страниц для последующей разметки следует выбирать только те, что содержат информацию о товарах, которые принадлежат к одной и той же ассортиментной группе, а значит, обладают максимально схожим (одинаковым) набором атрибутов данных;

- при автоматическом формировании правил извлечения для одного атрибута данных требуется минимум два примера размеченных веб-страниц с одинаковой структурой данных и вёрсткой.

2. Проводить разметку предварительно отобранных веб-страниц сайта интернет-магазина, используя для этого интерфейс системы.

Вышеуказанные действия пользователя являются настройкой системы на извлечение данных с сайта конкретного интернет-магазина. Недостатки такого подхода, выражающиеся в росте количества времени, необходимого для извлечения данных о товарах с сайта, а также увеличении трудоемкости с расширением ассортимента извлекаемых товаров, обусловлены применяемой методикой формирования шаблонов (правил) извлечения данных.

Таким образом, задача совершенствования системы извлечения данных, построенной на основе метода управляемой экстракции информации из веб-страниц, заключается в разработке методики автоматического построения шаблонов для извлечения данных, которая должна соответствовать следующим требованиям:

1) обеспечивать высокое качество построения шаблонов;

2) минимизировать ручной труд пользователя, связанный с настройкой системы на сайт интернет-магазина;

3) должна быть интегрируемой в существующие системы сбора структурируемой информации из источников в сети Интернет, функционирующие на основе управляемой экстракции данных из веб-страниц.

III. Теория

В основе разработки методики построения шаблонов для извлечения данных из веб-страниц лежат результаты анализа научных трудов, посвященных исследованию различных подходов к решению данной задачи [4-12]. Кроме того, необходимыми теоретическими допущениями являются следующие утверждения, характеризующие особенности структуры и технологии создания интернет-магазинов:

1. Неотъемлемым элементом сайта интернет-магазина является каталог товаров, который, как правило, хорошо структурирован и построен по иерархическому принципу. При этом каждый уровень иерархии каталога может содержать товары, принадлежащие к одной и той же (близкой) ассортиментной группе, а значит, имеющие одинаковый (или схожий) набор атрибутов данных. Последнее создает необходимые условия для автоматического подбора схожих с образцом примеров веб-страниц для дальнейшего построения шаблонов извлечения данных.

2. В основе построения большинства сайтов интернет-магазинов лежит подход, состоящий в использовании «повторяющихся структур данных», что на практике выражается в применении шаблонов веб-страниц, каскадных таблиц стилей CSS, стандартных форматов хранения различного контента (например, .FLV, .PNG, .PDF, .GIF), а также типовых структур для обозначения универсальных указателей ресурсов (URL-адресов). Это открывает широкие возможности применения методов интеллектуального анализа данных к обработке вебстраниц и их отдельных элементов.

Предлагаемая методика базируется на сочетании таких методов, как:

- анализ объектной модели документов (построение DOM-дерева веб-страницы и анализ структуры его отдельных элементов);

- семантический анализ фрагментов текста веб-страниц, содержащих значимую информацию, обрамляемую соответствующими участками HTML-кода (семантический анализ атрибутов данных о товарах интернет-магазина);

- кластеризация веб-страниц, основанная на анализе путей в древовидной DOM-структуре веб-страниц, семантической близости элементов веб-страниц, анализе структуры URL-адресов веб-страниц.

Методика построения шаблонов для извлечения данных с использованием структурно-семантической кластеризации веб-страниц включает в себя следующие этапы:

1) выбор пользователем примеров веб-страниц сайта;

2) разметка пользователем примеров веб-страниц;

3) построение шаблонов (правил) извлечения данных;

4) кластеризация веб-страниц сайта;

5) отбор примеров веб-страниц из кластеров;

6) верификация шаблонов извлечения данных.

Далее рассмотрим особенности реализации каждого из вышеназванных этапов рассматриваемой методики построения шаблонов атрибутов данных.

На первом этапе пользователю системы извлечения данных достаточно выбрать по одной веб-странице из любой товарной категории интернет-магазина, которые, как было отмечено выше, могут значительно отличаться набором обязательных атрибутов данных о товарах. При этом не требуется соблюдать правило об обязательном минимуме наличия двух примеров веб-страниц с одинаковой структурой данных и однотипной вёрсткой, для автоматического построения шаблонов извлечения информации, что сокращает трудозатраты на разметку примеров веб-страниц.

Как уже было отмечено выше, пользователь вручную производит разметку предварительно отобранных примеров веб-страниц сайта, используя для этого интерфейс системы извлечения данных. При этом важным остается необходимость последовательного выделения всех значимых, с точки зрения задач, решаемых пользователем, атрибутов данных о товарах, которые совместно определяют общую структуру извлекаемой информации.

Поскольку рассматриваемая методика построения шаблонов для извлечения данных о товарах из интернет-магазина в целях сокращения объема ручного труда допускает использование только одного примера вебстраницы с информацией о товаре, отличающейся уникальным набором атрибутов (характеристик товара), то процесс автоматического создания (генерации) шаблонов включает в себя две взаимосвязанные фазы:

- построение шаблонов атрибутов данных (формирование правил извлечения целевой информации из вебстраниц);

- верификацию шаблонов атрибутов данных (подтверждение пригодности правил извлечения данных путем проведения проверки с использованием дополнительных примеров веб-страниц, полученных по итогам кластеризации элементов сайта интернет-магазина).

Третий этап методики реализует фазу формирования правил извлечения целевой информации из вебстраниц. При этом основным требованием к построению шаблонов атрибутов данных о товарах остается соблюдение соответствия - каждому атрибуту принадлежит отдельный шаблон.

За автоматическое построение шаблонов в системе извлечения данных отвечает «генератор шаблонов», алгоритм работы которого на первой фазе процесса создания шаблонов атрибутов данных включает в себя следующие этапы:

1) представление структуры веб-страницы, выбранной пользователем в качестве примера, в виде элементов DOM-дерева;

2) поиск вхождений искомых атрибутов данных о товаре в структуру DOM-дерева веб-страницы;

3) построение структурно-семантической модели шаблона для каждого атрибута данных о товаре и его значения. Такая модель представляет собой список, включающий следующие основные элементы:

- xpath-выражение, определяющее место атрибута данных в структуре DOM-дерева веб-страницы;

- стилевой идентификатор или класс тега ^="имя", dass="имя"), содержащего заданный пользователем атрибут данных. Такой элемент необходим для семантической идентификации атрибута данных;

- содержимое тега, которое служит целью при построении шаблона атрибута данных и определяется пользователем системы в процессе разметки примера веб-страницы.

Полученные на данном этапе шаблоны должны быть проверены (верифицированы) на нескольких альтернативных примерах веб-страниц с целью установления возможности их использования для сбора структурированной информации о товарах интернет-магазина.

Этап кластеризации веб-страниц сайта имеет существенное значение не только для рассматриваемой методики построения шаблонов, но и для процесса извлечения структурированных данных о товарах в целом, поскольку в процессе кластеризации формируется массив целевых веб-страниц интернет-магазина, содержащих значимую, с точки зрения пользователя, информацию.

Существующие алгоритмы кластеризации призваны разделять весь массив веб-страниц сайта на подмножества (кластеры), которые являются однородными внутри, но при этом четко отличающиеся друг от друга [13]. Большое значение для алгоритма кластеризации имеет выбор метрики, которая определяет степень сходства или различия объектов между собой. Поскольку изменение метрики способно значительно повлиять на результаты кластеризации, ее часто определяют как базовый инструмент кластерного анализа [14].

В рамках предлагаемой методики построения шаблонов в качестве исходных данных для кластеризации предлагается рассматривать URL-адреса веб-страниц, основной характеристикой которых следует считать их структуру. Последняя в случае интернет-магазинов часто отражает иерархию (глубину вложенности) каталога товаров.

Учитывая, что URL-адреса представляют собой строки разной длины, в качестве метрики целесообразно использовать расстояние Левенштейна [15], которое устанавливает разницу между двумя строками по количеству перестановок, которые необходимо произвести, чтобы превратить одну строку в другую [16].

Итогом кластеризации веб-страниц интернет-магазинов с широким ассортиментом товаров и хорошо структурированным каталогом становится система иерархически связанных кластеров, что позволяет целенаправленно извлекать структурированные данные о товарах из отдельных ассортиментных групп, не затрачивая время на поиск требуемой информации на каждой веб-странице сайта.

Автоматический отбор веб-страниц по итогам кластеризации предполагает формирование ограниченной группы дополнительных примеров веб-страниц методом случайной выборки из наиболее подходящего кластера. В случае необходимости диапазон отбора примеров веб-страниц можно расширить также и на смежные кластеры, более удаленные по иерархии от основного.

Верификация шаблонов для извлечения данных осуществляется автоматически путем их непосредственного применения к веб-страницам, отобранным по результатам кластеризации. При этом основной целью является

извлечение требуемой информации из примеров веб-страниц в полном объеме, то есть в отношении каждого из заданных пользователем атрибутов данных система должна установить наличие или отсутствие соответствующего контента (текста, изображения) на странице, используя параметры, определенные в шаблоне.

В случае если в процессе верификации система определяет, что по шаблону можно извлечь данные из примеров веб-страниц (целевой контент найден), то такой шаблон признается пригодным для использования в ходе дальнейшего сбора информации с сайта. Если же по шаблону целевой контент на странице системой не обнаружен, то требуется уточнение параметров его структурно-семантической модели. При этом происходит поиск вхождений семантических элементов шаблона в структуру анализируемой веб-страницы и переопределение xpath-выражения. В результате создается альтернативный шаблон для извлечения данных, который также подлежит верификации. Если альтернативный шаблон автоматически создать не удается, то требуется участие пользователя (разметка дополнительного примера веб-страницы).

IV. Методология и алгоритм проведения эксперимента

Оценка эффективности представленной методики проводилась в рамках экспериментального исследования, целью которого была практическая проверка возможности методики обеспечить построение валидных шаблонов для извлечения данных о товарах из сети Интернет при минимизации времени на ручную разметку вебстраниц пользователем.

Для проведения эксперимента экспертным путем были выбраны 10 интернет-магазинов. Отбор производился с учетом необходимости иметь в выборке сайты отличающиеся друг от друга количеством и ассортиментом реализуемых товаров, общим числом веб-страниц и глубине их иерархической вложенности, структурой каталога товаров, вёрсткой и визуальным оформлением.

Основными критериями оценки результативности методики были выбраны:

- время ручной настройки пользователем системы извлечения данных на конкретный сайт;

- полнота и точность извлечения данных о товарах из веб-страниц целевого сайта.

В качестве показателя, отражающего устойчивость алгоритма к изменениям вёрстки на исследуемом сайте, выбрано количество примеров веб-страниц, размеченных пользователем с целью построения шаблонов атрибутов данных, при извлечении структурированной информации о товарах из одной ассортиментной группы интернет-магазина.

Следует отметить, что «полнота» (recall) и «точность» (precision) представляют собой показатели, которые применяются при оценке большинства алгоритмов извлечения информации из веб-страниц. Часто они используются сами по себе, а иногда в качестве основы для некоторых производных метрик [17].

Полнота извлечения данных оценивается как доля собранных автоматизированной системой товарных позиций, принадлежащих к заданной пользователей ассортиментной группе, относительно всей совокупности товара из этой категории в тестовой выборке (кластере).

Точность извлечения данных в пределах некоторой ассортиментной группы - это доля товарных позиций действительно принадлежащих к данной категории товаров относительно всех товаров, которые система извлечения данных отнесла к заданной ассортиментной группе.

Эксперимент по оценке результативности методики построения шаблонов проводился по следующему алгоритму:

1) из одной товарной категории каждого анализируемого сайта интернет-магазина выбирался пример вебстраницы для ручной разметки пользователем;

2) для каждого сайта интернет-магазина измерялось время ручной настройки системы пользователем. Оно складывалось из времени на поиск подходящего примера веб-страницы для создания шаблонов извлечения данных и времени на разметку веб-страницы (или веб-страниц). Пример выполнения разметки веб-страницы интернет-магазина представлен на рис. 1;

3) количество веб-страниц, размеченных пользователем в процессе обработки каждого сайта интернет-магазина, фиксировалось;

4) по итогам кластеризации веб-страниц сайта фиксировалось количество полученных кластеров;

5) по итогам обработки целевого кластера извлеченные структурированные данные о товарах записывались в файл отчета;

6) методом экспертной оценки определялись полнота и точность извлечения данных из веб-страниц целевого кластера.

Рис. 1. Пример оформления рисунка

На рис. 1 представлен пример заполнения экранной формы генератора шаблонов целевой информацией о товаре, содержащийся на веб-странице интернет-магазина. Пользователем в соответствующие поля вносятся все необходимые атрибуты данных и указываются их значения. Совокупность указанной информации служит основой для конструирования шаблонов, требуемых для дальнейшего извлечения данных со страниц сайта, имеющих схожий тип вёрстки.

V. Результаты эксперимента Основные результаты проведенного эксперимента изложены в табл. 1.

ТАБЛИЦА 1

РЕЗУЛЬТАТЫ ИЗВЛЕЧЕНИЯ ДАННЫХ ИЗ ВЕБ-СТРАНИЦ ИНТЕРНЕТ-МАГАЗИНОВ

№ п/п Домен сайта Время ручной настройки (мин) Число размеченных страниц (шт.) Число кластеров (шт.) Число страниц в целевом кластере (шт.) Число извлеченных товарных позиций (шт.) Полнота извлечения данных (%) Точность извлечения данных (%)

1 nature-arabic.ru 4 1 1 1190 515 98 59

2 city-mobile.ru 6 2 8 126 109 97 95

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3 ^сЬ^тосИк! т 5 1 6 65 36 88 85

4 e-xpedition.ru 4 2 3 452 136 93 98

5 trifena.net 4 1 19 45 45 100 100

6 zooline.ru 5 1 56 116 110 100 99

7 trendoptom.ru 4 1 1 332 305 97 63

8 specmed-uniform. т 5 1 64 43 43 100 100

9 artandkids.ru 6 1 34 38 38 100 100

10 color-kit.ru 5 1 23 67 65 100 97

Из таблицы следует, что среднее время ручной настройки пользователем приложения на конкретный сайт, включающее поиск подходящего примера веб-страницы и разметку последней, составило менее пяти минут. При этом в большинстве случаев для сбора данных о товарах избранной ассортиментной группы понадобился только один пример веб-страницы.

Итоги кластеризации веб-страниц сайтов показывают наличие двух альтернативных подходов к хранению информации о товарах на серверах интернет-магазинов:

- первый подход связан с выделением одного или ограниченного количества директорий, в которых, как правило, располагаются все веб-страницы, содержащие информацию о товарах интернет-магазина. В результате кластеризации образуется один или несколько крупных кластеров, включающих значительное количество веб-страниц, имеющих близкую структуру URL-адресов, но принадлежащих при этом к различным товарным группам. Примерами таких сайтов являются: nature-arabic.ru, trendoptom.ru, city-mobile.ru;

- второй подход предусматривает структурированное хранение веб-страниц на сервере интернет-магазина. При этом каждой товарной группе выделяется своя директория, путь к которой отражает структура гиперссылки (и^Ь-адреса) соответствующей веб-страницы. В этом случае кластеризация веб-страниц сайта обычно завершается созданием множества кластеров, которые иерархически связаны между собой и имеют относительно небольшое количество веб-страниц в своем составе. К интернет-магазинам, реализующим данный подход к хранению веб-страниц, относятся: zooline.ru, specmed-uniform.ru и artandkids.ru.

Экспертная оценка результатов извлечения структурированных данных о товарах из веб-страниц десяти интернет-магазинов позволила оценить значения показателей полноты и точности сбора информации для каждого сайта, представленного в табл. 1. При этом необходимо заметить следующее:

- максимальные значения полноты и точности извлечения данных были достигнуты при анализе сайтов интернет-магазинов, которые используют второй из вышеупомянутых подходов к хранению информации о товарах на своих серверах (trifena.net, specmed-uniform.ru, artandkids.ru). Это связано с тем, что структурированное хранение веб-страниц в соответствии с каталогом товаров интернет-магазина повышает результаты процесса кластеризации, то есть способствует точному выделению кластера, который содержит все товары, относящиеся к выбранной пользователем ассортиментной группе, но при этом не содержит продуктов из других категорий, имеющих, как правило, иной набор атрибутов данных. Последнее, в свою очередь, создает необходимые условия для успешной верификации созданных шаблонов для извлечения данных из веб-страниц и дальнейшего результативного сбора структурированной информации о товарах;

- снижение показателя точности извлечения данных из веб-страниц ряда сайтов (nature-arabic.ru, trendoptom.ru) объясняется тем, что выделенный кластер на ряду с целевыми веб-страницами содержал те, что относятся к другим категориям товара, что, в свою очередь, привело к попыткам приложения применить созданный шаблон для извлечения данных о товарах с другим набором атрибутов. В ряде случаев такие попытки завершались получением структурированной информации, но в большинстве случаев не приводили к успеху. При этом общее время на обработку целевого кластера возрастало.

VI. Выводы и заключение

В статье обоснован подход, обеспечивающий повышение эффективности управляемой экстракции информации из веб-страниц в процессе извлечения структурированных данных о товарах из источников в сети Интернет. Предложена методика построения шаблонов для извлечения данных с использованием структурно-семантической кластеризации веб-страниц, раскрыто содержимое основных этапов методики, отмечены особенности реализации каждого этапа.

В ходе проведения экспериментальной оценки разработанной методики построения шаблонов было проанализировано 10 различных сайтов интернет-магазинов. Анализ результатов эксперимента позволяет сделать вывод о применимости предложенной методики построения шаблонов для извлечения данных в процессе сбора информации о товарах в сети Интернет.

Полученные в ходе эксперимента результаты подтверждают, что, благодаря использованию структурно-семантической кластеризации веб-страниц, в большинстве случаев для создания правил извлечения данных о товарах, имеющих общий набор атрибутов, достаточно одного примера веб-страницы. Последнее способству-

ет снижению затрат ручного труда со стороны пользователя; сокращению времени, необходимого на настройку системы извлечения данных на конкретный веб-сайт, а также повышению общего уровня автоматизации процесса извлечения структурированной информации из веб-страниц.

Список литературы

1. Чиркин Е. С. Некоторые проблемы автоматизированного извлечения данных из веб-страниц // Интернет и современное общество: сборник научных статей XVI Всерос. объединен. конф., 9-11 октября 2013 г. Санкт-Петербург, 2013. С. 291-294.

2. Вдовин И. В. Актуальные вопросы автоматического извлечения данных из веб-страниц // Перспективы развития информационных технологий: материалы XXIII Междунар. науч.-практич. конф. 30 января 2015 г. Новосибирск, 2015. С. 11-16.

3. Вдовин И. В. Применение технологии Web Mining к извлечению научных данных в сети Интернет // Информационные технологии в науке и производстве: материалы всерос. молодеж. науч.-техн. конф. Омск, 9-10 февраля 2015 г. Омск: Изд-во ОмГТУ, 2015. С. 10-14.

4. Батыгин В. Автоматический сбор данных по примерам. URL: http://download.yandex.ru/company/ experi-ence/subbotnik/Avtomaticheskij_sbor_dannih_po_primeram_Vladimir_Batygin.pdf (дата обращения: 10.04.2018).

5. Chakrabarti S. Mining the Web: discovering knowledge from hypertext data // Morgan Kaufmann. 2003. 345 p.

6. Kushmerick N. Wrapper induction: Efficiency and expressiveness // Artificial Intelligence. 2000. 118 (1-2). P. 15-68.

7. Kushmerick N. Wrapper verification // World Wide Web Journal. 2000. 3 (2). P. 79-94.

8. Muslea I., Minton S., Knoblock C. Hierarchical wrapper induction for semistructured information sources // Autonomous Agents and Multi-Agent Systems. 2001. P. 1-28.

9. Wong T., Lam W. Learning to adapt web information extraction knowledge and discovering new attributes via a Bayesian approach // Knowledge and Data Engineering, IEEE. 2010. 22 (4). P. 523-536,

10. Hao Q., Cai R., Pang Y., Zhang L. From One Tree to a Forest: a Unified Solution for Structured Web Data Extraction // In SIGIR. 2011. P. 775-784.

11. Liu B. Web Data Mining: Exploring Hyperlinks // Contents and Usage Data, Springer. 2007. 643 p.

12. Bar-Yossef Z., Rajagopalan S. Template Detection via data mining and its applications // In proc. Of WWW'2002. 2002. P. 580-591.

13. Суркова А. С. , Буденков С. С. Построение модели и алгоритма кластеризации в интеллектуальном анализе данных // Вестник Нижегородского университета им. Н. И. Лобачевского. 2012. № 2 (1). С. 198-202.

14. Jain A., Murty M., Flynn P. Data Clustering: A Review // ACM Computing Surveys. 1999. № 3 (31). P. 265-323.

15. Расстояние Левенштейна. URL: https://ru.wikipedia.org/wiki/Расстояние_Левенштейна (дата обращения: 15.04.2018).

16. Мосалев П. М. Обзор методов нечеткого поиска текстовой информации // Вестник Московского государственного университета печати. 2013. № 2. С. 87-91.

17. Батыгин В. Извлечение информации. URL: https://compscicenter.ru/media/slides/introdatamining_ 2011_autumn/2011_11_11_introdatamining_2011_autumn.pdf (дата обращения: 20.04.2018).

i Надоели баннеры? Вы всегда можете отключить рекламу.