Aлгоритм получения сети ссылок веб-страниц на основе поиска в ширину

Пахомов И.А.; Юдин Е.Б.

УДТС 519? 034 471 5 004 7

алгоритм получения сити ссылок ВСБ-страмиц на с с110 б с поиска d ииэиму

И. А. Пахомов1, Е. Б. Юдп:"

Omckuíí государственный технический у иивврситот, Омск, Росс ¡¿я 'Институт математики им. С Л. Соболева СО РАН, Омск, Россия

4ННОЧ1ПШ1Я - РЯССМЛТРНЯЯЮТГЯ ДОТфОСЫ IfifГПРЧеНИЯ ^фф^к'ГТтнПГТН ТТОИГКЯ ИНфпрМЛТШН R ГРТ1Т ТТн-itpm»i uyie.M сбора и 1Ж1ема1ш<1шш ланныл u cjfiyKxvpe, содержании и взаимосвязи веб-рес} рииь. Рассматриваются программны* средства для осуществления сбора данных - веб-роботы. Приводится описание реализованного в ходе работы веб-рооота: его компонентов, функций, принципа работы и получаемых результатов. Ирносдптся алгоритм, используемый для сбора данных. основаппыи па реализации классического алгоритма поиска в ширину. Представляются результаты анализа данных, собранных в ходе работы веб-рооота. а также характеристики веб-графа, сформированного роботом на их основе. Проводится сравнение результатов с данными о сети веб-ресурсов, полученными другими авторами. Привозятся характеристики скорости сбора данных программой и делаются выводы о возможностях ее |i:irniii[icHiiw i.iя ни.п чнннм íiii ipp .iciальимх pu ikiашк.

Á 1к>чесие cnoea: Btó-ipaji, аеи-рибл. извлечение Be6-cip>Ki\|í, извлечение веб-кошен] а.

j. воедызш

В настоящее Бремя исследование сети ВеЪ [WbB) является важнейшим элементом при решегаш актуальных проблем современности проблем терроризма (вербовка через сайты с экстремистской тематикой), распространения суицидальных настроений средщ подростков. проблем поиска релевантной информации (по заданной тематике) Причем объем дянньтх ггочлен-рироианный r се~и растет пьтгтрьтми тештат.ш и чрлчаьтчаЯкую ияячогтк для огуптегтштения ^фпективнот регтетгя погтан-енчьпе ^адач приопретяктт япгрогм яна.тта гтрут-1>ры спи Веб.

Исследование Deo берет свое начало с ко ни а XX века [L. 2]. Так. исследуя сеть страниц домена ункверситетг Нотр-Дам ГСША) авторы A. Baiobasi. R. Albert. Н. Jcong выявили. что распределение стсиснсй связности (числи нпцвдептцых связен) в сети имеет степей:юн характер (а не подтгшяется классическому пусссоповскому рас пределекню; [1], а диаметр сета значительно меньше ожидаемого (правило сиесга руколежапш»). В разное время появляются данные о структуре разшгшых подсетей Веб. выполпешпле разными исследователями [3-5].

На данный момент можно i онорнхь об o4>upmjjchhom направлении а науке но нс^едоаакню есш Weü. кошрое получило ва звание Wcb-MmLog [б. 7]. D обшем и целом. процесс извлечения любых данных включает в себя несколько процессов. которые условно можно объединить в лва этгпа: сбор необходимого объема данных п приведение их к определенному типу [8]. анализ полученных данных и выполнение моделирования. В данной работе предлагается алгоритм, позволяющей осуществлять поиск ннформацнн в сети Веб поиском по сстн в ширину | У |. прн этом учитываются только ссылки нп корневые страницы рсо-реов с доменами второго уровня.

В общем, процесс извлечения любых данных включает з себя несколько процессов, которые условно можно объединить в два этапа: сбор необходимого ооьема данных и приведение их к определенному типу, анализ полученных данных и выполнение моделирования. В данной работе предлагается алгоритм, позволяющий осуществлять поиск информации з сети из основе алгоритма поиска в ширину, при этом учитываются только ссылки па корневые страницы ресурсod с домепами второго уровня.

П. ПОСТАНОВКА ЗАДАЧИ

Основной задачей в выявлении структурной информации о сети Web является сбор данных, чем больше объем собранным данных, тем адекватнее можно получил, модель ссылочной структуры Веб а следовательно, провести более точный н глубокий анализ. Модель основывается на ссылочной взаимосвязи между различными интернет ресурсами, и именно ссылки одних источников ннформацнн на другие являются главным элементом поиска для собираемых данных. Обор данных необходимо выполнять з автоматическом режиме с использованием. так называемых, поисковых роботов, нлн «веб-паукамн» В данной работе будет описываться реализация авторами веб-паука как серверного приложения, осуществляющего автоматический поиск и первоначальную обработку информации с заданными параметрами на языке РНР.

Принцип действия всех веб-пауков основан на переборе страниц Интернета и поиске в их содержании данных. соответствующих определенным заданным условиям поиска, определенным фильтром (в данной работе фильтр будет отключен для увеличения скорости обработки данных). Фильтром может служить ограничение области поигкг. котла производите? поиск ссылок я пределах тотткко одного сайта доменной об.тагти ятд. или учет lo.ihHU|щ-.у]и1ж с счктгкгп-гнуннцим информационным t одсрх/1нигм

В процессе сбора данные (коюуые a раисма iptusaeMou сшуации являются ссылками на аеС-ресурсы с сошке* if i кун)1 ii.им углокиим поиски cu^ijkíihhtrvi) индгксируилги и i4ix]mhxkiiih к хранил и г ir Индексации iijiohf-кодик и с: целью ги;-|гмй1и:«ции получаемых ,i>ihh-»ix и обеспечения ко-сиожноггн носледующет мпделирокл-ння и выполнении аналша. а гаю&е учета фалда писешения кширешых ресурсов.

Ш. Алгоритм сюра данных

Процесс сбора данных основывается на алгоритме поиска в ширину (см. рис. I).

Разработанный скрипт ишет ссылки в структуре вео-с1ранип. переходит по каждой из найденных ссылок на другой ресурс, где снова происходит пепех ссылок. Поиск ссылок в ве5-документе основывается на переборе строк текста разметки страницы и выделении е них ссылок с использованием регулярных выражении. 3 процессе работы учитываются только ссылки на другие всо-рссурсы. в содержании которых была найдена целевая информация (прн включенном фильтре), а относительные ссылки Енутрн всб-ресурса игнорируются.

Входные дойные могуч сыть получены нз файла или базы данных н содержать одну нлн более ссылки, если сеть необходимость продолжить сбор доеных на основе уже имеющихся ссылок н кх ключей. После получения программой входных данных, а также ограшпеиил па количество результатов, начинается сбор дашплх. Найдешгые веб ссылки сохраняются в файл н сазу даш:ых в шще записей <ключ - ссылка»: и ключ, и ссылка являются уникальными Также, при необходимости, сохраняются ребра графа в виде «ключ - ключ».

Данный процесс выполняется циклично, пока пе Ьудет достигнуто заданное пользователем ограшгчегше па количество паидешгых результатов или не пайдепы все ссылки пространства доменной области при наложешш на нее ограничений прн поиске.

Входные данные:

&а?Шгк - коллекция пар "[ключ] - ссылка", стартовое множество ссылок для осуществления поиска (может содержать одну ссылку нлн более)

г/1ахИ<ки1х - целое число, ограничивающее максимальное число найденных ссылок Выходные данные:

лт/$йля/7/ - результирующая коллекция пар "[ключ] -> ссылка", сформированная в результате поиска: сЛ£ю!1е<11!т - коллекция л ар "ключ_1 - ключ_2". содержащая ключе двух ссылок для построения ребра графа, где ключ_1 - адрес страницы, на которой найдена ссылка, определяемая значением поля ключ_2.

/Начало работы программы

urisResult = startUrls

//Цикл сбора ссылок и формирования графа

linkKev - U// переменная для определения текущего номера ссылки for пэ всем ссылкам в urisResult

/.'получить ссылки сп страницы pageURL pa?eU3L = uflsRcsv.lt [linkKcy] 7 /'/получить коллекцию ссылск (без повторений). загруженных со страницы pageURL links>romPaee - getLmksKrooiPage (pageURL) //Если ссылок не найдено, т.е. коллекция linksFromPage пуста if (ernptyflinksFrntriPage))

/■Перейти на следующую ссылку из коллекции urisResult ImkKey - linkKev + 1 else /'Иначе, если па странице pageL. RL оылп пандеиы ссылки

//Цикл индексации ссылок и добавления ребер графа

for го кятгдпА ггигсй link из найденных ггылок я linksFrnrnPage

//если link ке оыла найдена ранее

if urisResult. coutam.0(lmk| key |) — false /'доЬашгть ссылку и ребро графа в peo^TiLTiipyioinyio коллекцию

urUResul:.add(linl:[key]) edge sResi ill arid (linkTCey; key) else ■'/иначе добавить tcj^ko ребро edgeGK.esult.adi (linkKey key) cnclior //Конец цгала индексации ссылск и доЬавлешы ребер графа /По достижении ограничения на количество собранных ссылок грекратшь ¡r(4iyr^m1sRrsiJl) > maxRrsiills) luruk eudfor //Конец цикла сбора ссылок и формирования графа Конец рс-.ооты программы_

Рис. 1. А я ори ш ра6с1ы модуля сбора л<шшх

IV. Результаты экстшгимпггов Для проведепия эксперимента была выбрала сеть ссылок сбор которых начат с главной страшщы сайга ОмГТУ. В результате работы программы был сформирован массив ребер, отображающий пары ключей для связанных между собой ссылок, и на основе данного массива был построен веб-граф, вершинами которого явля-юго. ссылки .ча найденные ресурсы.

Веб-граф, сформированный на основе лслученных данных о сети ссылок веб-странкц. собранных в результате анализа, содерлагг 106/56 узлов н 300313 связей РасиределеглЕе стеиегш связности его узлов представлено на рис. 2 слева, а для сравнения справа приводятся данные о сети веб-страниц университета Нотр-Дам (325729 уялоя, 1497И4 гяязеР)

Рис. 2. Распределение степени связности (масштаб осей логарифмический) для полученных данных ссылок вебстраниц р ходе чкгперичекта (глеиа) и сети уиияергите-а Ндтр-Дята (еттраяа) (треугольниками ог>г>чня^ено распределение голугтепени исходящих дут чнядратат.то - распределение пдттустепени входящих дут кружками —

pacupeücj.eHue сгеисик связное ш у^лов)

V. ВЫВОДЫ Н ЗАКЛЮЧЕНИЕ.

Представленная программа для сбора веб-данных позволяет получать граф ссылок веб-страниц в окрестности заданного узла. Программа использует алгоритм, основанный на классическом алгоритме поиска в ширину в графе. В описанных экспериментах по анализу веб-сети исследуется сеть ссылок, сформированная начиная с сайта hrtp:/'omgm.ru'. Разработанная программа позволяет: получать сеть ссылок веб-сграннц в виде графа (узлами сети являются ссылки на корневые станицы сайтов, имеющих домены второго уровня); остановить и продолжить сбор данных в любой момент (без потерн данных): получать URL ресурса по номеру вершины графа. С кодом программы можно ознакомиться по адресу: liltps:1.' github .сош/ utnio il/PHP-Spictr.

Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 16-31-60023 мол_а_дк.

СПИСОК ЛИТЕРАТУРЫ

1. Albeit R.. Jeong Н... Barabsi A-L Diameter of the world-wide web. 1999. 401. P 130-131

2. Cooley R_, Mobaiher В., Snvastava J. Web miuuig: information and pattern discovery // The 3 World Wide Web Took with Artificial Intelligence // Proceedings.. Ninth IEEE International Conference. 1997. P. 558—567.

3. World-Wide-Web data URL: hUp ,'i'wnwi nil fdu-H^twmkiii i'suuici:s/www,'wivw (lat

4 Stanford web graph. URL: https://sMp.stiinford.edu','data;web-Stariford.txt.gz

5. Google web graph. URL: https://snap.Stanford.edu.;data/web-Google.txt gz

6. Bhupendra Kirniar Malviya.. Jitendra Agrawal A Study on Web Usage Mining Theory and Applications // CSNT 2015, Fiftli International Conference. TFFF 2015. P. 935-939.

7. King D. Introduction to the Mining. Analysis and Visualization of Web Content and. Usage Mini track // HICSS 2016. IEEE, Jan 2016 P. 3727-372S.

8. Sharaia S Web Crawling Approaches in Search Engines // Computer Science & Engineering. June 2008.

9. Jeyalatha S.. Vijayakumar B. Design and implementation of a web structure mining algorithm using breadth fir-it search strategy for academic search application H K1TST 2011, IEEE. Dec. 2011. P. 648 - 654

Aлгоритм получения сети ссылок веб-страниц на основе поиска в ширину Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Пахомов И. А., Юдин Е. Б.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Пахомов И. А., Юдин Е. Б.

Текст научной работы на тему «Aлгоритм получения сети ссылок веб-страниц на основе поиска в ширину»