Научная статья на тему 'О задачах применения web-mining'

О задачах применения web-mining Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
927
157
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДАННЫЕ / DATA / ОБРАБОТКА ДАННЫХ / DATA PROCESSING / ВЭБ-ТЕХНОЛОГИИ / WEB TECHNOLOGIES

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Лиференко А. В., Бежитский С. С.

Веб-технологии интеллектуального анализа данных открывают пути не только на сбор данных, но также поднимают много проблем, связанных с безопасностью данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ABOUT WEB-MINING PROBLEM APPLICATIONS

Web data mining technology is opening avenues on not just gathering data but it is also raising a lot of concerns related to data security.

Текст научной работы на тему «О задачах применения web-mining»

Секция «Информационно-экономические системы»

УДК 81.3.06

О ЗАДАЧАХ ПРИМЕНЕНИЯ WEB-MINING

А. В. Лиференко Научный руководитель - С. С. Бежитский

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева

Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

Е-mail: [email protected]

Веб-технологии интеллектуального анализа данных открывают пути не только на сбор данных, но также поднимают много проблем, связанных с безопасностью данных.

Ключевые слова: данные, обработка данных, вэб-технологии.

ABOUT WEB-MINING PROBLEM APPLICATIONS

A. V. Liferenko Scientific supervisor - S. S. Bezhitskiy

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected]

Web data mining technology is opening avenues on not just gathering data but it is also raising a lot of concerns related to data security.

Keywords: data, data processing, web technologies.

В настоящее время все пользователи веб-услуг пользуются большим количеством информации, взятой из интернета, отсюда появилась необходимость в автоматическом анализе информации. С развитием Всемирной паутины в глобальную информационную инфраструктуру, обычные пользователи теперь являются как потребителями информации, так и ее создателями и распространителями. Поэтому для эффективного структурирования задач поиска, решения и анализа, беспорядочно организованной информации в сети предназначено новое направление в методологии анализа данных -WebMining.

WebMining появился из таких дисциплин как обнаружение знаний в базах данных, эффективный поиск информации, искусственный интеллект, машинное обучение и обработка естественных языков [1].

Из-за многообразия и избытка информации пользователи сети Интернет часто сталкиваются с проблемами анализа и поиска необходимой информации. Можно выделить некоторые проблемы работы с информацией во Всемирной паутине:

• Поиск значимой информации. Далеко не все представленные пользователю ссылки несут нужную информацию и крайне труден поиск неиндексированной информации.

• Обнаружение новых знаний. Среди всего множества полученной информации сложно извлечь полезные знания.

• Персонализация информации. Возникает сложность с осмыслением полученных знаний, понятия идей, вложенных автором.

• Изучение потребителя или индивидуального пользователя. Пользователь не всегда получает именно ту информацию, которую хочет получить.

Для решения этих проблем используются различные технологии. К ним относятся: базы данных, информационный поиск, обработчики естественных языков и др. Технология WebMining направлена как на прямое, так и на косвенное решение перечисленных проблем.

WebMining - технология, использующая методы DataMining для исследования и извлечения информации из Web-документов и сервисов [2].

Актуальные проблемы авиации и космонавтики - 2015. Том 1

DataMining - технология добычи и поиска в данных, скрытых и полезных для бизнеса закономерностей. Данная технология включает в себя три основных этапа: исследование, построение модели и ее проверку.

Поиск закономерностей осуществляется с помощью различных видов программного обеспечения для интеллектуального анализа. Интеллектуальный анализ данных подразумевает решение одной или нескольких задач: классификации, распознавания, прогнозирования, оценивания, ассоциации или кластеризации. Например, задача классификации является одной из самых распространенных. В силу того, что информация в Интернете разнородная, то классы объектов классификации носят далеко не четкие границы и могут описываться в терминах нечеткой логики. При решении вопросов формирования классификаторов возникают задачи оптимального формирования баз нечетких правил для классификации [3].

Выделяют следующие этапы WebMining: поиск ресурсов - получение данных из источников; извлечение информации - извлечение информации из найденных Web-ресурсов; обобщение - обнаружение общих шаблонов в отдельных и пересекающихся множествах сайтов; анализ и интерпретация результатов [4].

Поиск ресурсов означает поиск различных Web-источников по ключевым словам. Данный этап разделяют на: поиск документов и поиск сервисов.

Большинство работ по поиску ресурсов сводится к автоматическому созданию поисковых индексов Web-документов. Наиболее популярными роботами считаются WebCrawler и AltaVista.

Далее, после обнаружения ресурсов, из них должна быть извлечена информация, подвергаемая анализу и обобщению. На этапе обобщения к извлеченной информации применяются методы DataMining. На этом этапе важную роль играет человек. На последнем этапе он должен будет интерпретировать полученные результаты.

Помимо WebMining существуют такие интернет-технологии, как Information Retrieval - IR (получение информации) и Information Extraction - IE (извлечение информации).

Технология IR заключается в получении документов из Интернета, актуальных, важных запросу пользователей. Но часто полученные документы включают в себя как полезную, так и наоборот, не полезную информацию. В этой технологии для классификации документов используют методы DataMining. Заметим, что WebMining является частью технологии IR.

Основное отличие IE технологии от IR заключается в том, что она работает документом и ищет в нем необходимую информацию, а IR работает с множеством документов, извлекая необходимый документ. Различные методы и технологии могут использоваться совместно.

В литературе [2] выделяют следующие категории WebMining: WebContentMining (извлечение Web-контента), WebStructureMining (извлечение Web-структур), WebUsageMining (анализ использования Web-ресурсов).

Примерами использования WebMining являются компания Netflix и всемирно известный поисковик Google.

WebMining это весьма перспективное направление анализа интернет-ресурсов для оптимизации структуры веб-сайтов, получения знаний о посетителях сайта, автоматического поиска и структуризация информации из интернета.

За предоставленную идею написания данной работы благодарю Бежитского Сергея Сергеевича.

Библиографические ссылки

1. WebMining - добыча знаний из WorldWideWeb [Электронный ресурс] // Businessdataanalytics.ru. 2008, декабрь. URL: http://www.businessdataanalytics.ru/WebMining.htm (дата обращения: 25.12.2014).

2. Анализ данных и процессов : учеб. пособие / А. А. Барсегян, М. С. Куприянов, И. И. Холод, М. Д. Тесс, С. И. Елизаров. 3-е изд., перераб. и доп. СПб. : БХВ-Петербург, 2009. 512 с.: ил. + CD-ROM (Учебная литература для вузов).

3. Бежитский С. С., Брестер К. Ю., Семенкин Е. С. Исследование эффективности механизмов самоадаптации генетического алгоритма в задачах многокритериальной оптимизации // Теория и практика системного анализа : тр. I Всерос. науч. конф. молодых ученых. Т. II. Рыбинск : РГАТА им. П. А. Соловьева, 2014. С. 62-70.

4. WebMining: основные понятия [Электронный ресурс] // Basegroup.ru. 20.06.2010. URL: http://www.basegroup.ru/library/web_mining/basic_conceptions/ (дата обращения: 25.12.2014).

© Лиференко А. В., 2015

i Надоели баннеры? Вы всегда можете отключить рекламу.