Секция «Информационно-экономические системы»
УДК 81.3.06
О ЗАДАЧАХ ПРИМЕНЕНИЯ WEB-MINING
А. В. Лиференко Научный руководитель - С. С. Бежитский
Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева
Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
Е-mail: [email protected]
Веб-технологии интеллектуального анализа данных открывают пути не только на сбор данных, но также поднимают много проблем, связанных с безопасностью данных.
Ключевые слова: данные, обработка данных, вэб-технологии.
ABOUT WEB-MINING PROBLEM APPLICATIONS
A. V. Liferenko Scientific supervisor - S. S. Bezhitskiy
Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected]
Web data mining technology is opening avenues on not just gathering data but it is also raising a lot of concerns related to data security.
Keywords: data, data processing, web technologies.
В настоящее время все пользователи веб-услуг пользуются большим количеством информации, взятой из интернета, отсюда появилась необходимость в автоматическом анализе информации. С развитием Всемирной паутины в глобальную информационную инфраструктуру, обычные пользователи теперь являются как потребителями информации, так и ее создателями и распространителями. Поэтому для эффективного структурирования задач поиска, решения и анализа, беспорядочно организованной информации в сети предназначено новое направление в методологии анализа данных -WebMining.
WebMining появился из таких дисциплин как обнаружение знаний в базах данных, эффективный поиск информации, искусственный интеллект, машинное обучение и обработка естественных языков [1].
Из-за многообразия и избытка информации пользователи сети Интернет часто сталкиваются с проблемами анализа и поиска необходимой информации. Можно выделить некоторые проблемы работы с информацией во Всемирной паутине:
• Поиск значимой информации. Далеко не все представленные пользователю ссылки несут нужную информацию и крайне труден поиск неиндексированной информации.
• Обнаружение новых знаний. Среди всего множества полученной информации сложно извлечь полезные знания.
• Персонализация информации. Возникает сложность с осмыслением полученных знаний, понятия идей, вложенных автором.
• Изучение потребителя или индивидуального пользователя. Пользователь не всегда получает именно ту информацию, которую хочет получить.
Для решения этих проблем используются различные технологии. К ним относятся: базы данных, информационный поиск, обработчики естественных языков и др. Технология WebMining направлена как на прямое, так и на косвенное решение перечисленных проблем.
WebMining - технология, использующая методы DataMining для исследования и извлечения информации из Web-документов и сервисов [2].
Актуальные проблемы авиации и космонавтики - 2015. Том 1
DataMining - технология добычи и поиска в данных, скрытых и полезных для бизнеса закономерностей. Данная технология включает в себя три основных этапа: исследование, построение модели и ее проверку.
Поиск закономерностей осуществляется с помощью различных видов программного обеспечения для интеллектуального анализа. Интеллектуальный анализ данных подразумевает решение одной или нескольких задач: классификации, распознавания, прогнозирования, оценивания, ассоциации или кластеризации. Например, задача классификации является одной из самых распространенных. В силу того, что информация в Интернете разнородная, то классы объектов классификации носят далеко не четкие границы и могут описываться в терминах нечеткой логики. При решении вопросов формирования классификаторов возникают задачи оптимального формирования баз нечетких правил для классификации [3].
Выделяют следующие этапы WebMining: поиск ресурсов - получение данных из источников; извлечение информации - извлечение информации из найденных Web-ресурсов; обобщение - обнаружение общих шаблонов в отдельных и пересекающихся множествах сайтов; анализ и интерпретация результатов [4].
Поиск ресурсов означает поиск различных Web-источников по ключевым словам. Данный этап разделяют на: поиск документов и поиск сервисов.
Большинство работ по поиску ресурсов сводится к автоматическому созданию поисковых индексов Web-документов. Наиболее популярными роботами считаются WebCrawler и AltaVista.
Далее, после обнаружения ресурсов, из них должна быть извлечена информация, подвергаемая анализу и обобщению. На этапе обобщения к извлеченной информации применяются методы DataMining. На этом этапе важную роль играет человек. На последнем этапе он должен будет интерпретировать полученные результаты.
Помимо WebMining существуют такие интернет-технологии, как Information Retrieval - IR (получение информации) и Information Extraction - IE (извлечение информации).
Технология IR заключается в получении документов из Интернета, актуальных, важных запросу пользователей. Но часто полученные документы включают в себя как полезную, так и наоборот, не полезную информацию. В этой технологии для классификации документов используют методы DataMining. Заметим, что WebMining является частью технологии IR.
Основное отличие IE технологии от IR заключается в том, что она работает документом и ищет в нем необходимую информацию, а IR работает с множеством документов, извлекая необходимый документ. Различные методы и технологии могут использоваться совместно.
В литературе [2] выделяют следующие категории WebMining: WebContentMining (извлечение Web-контента), WebStructureMining (извлечение Web-структур), WebUsageMining (анализ использования Web-ресурсов).
Примерами использования WebMining являются компания Netflix и всемирно известный поисковик Google.
WebMining это весьма перспективное направление анализа интернет-ресурсов для оптимизации структуры веб-сайтов, получения знаний о посетителях сайта, автоматического поиска и структуризация информации из интернета.
За предоставленную идею написания данной работы благодарю Бежитского Сергея Сергеевича.
Библиографические ссылки
1. WebMining - добыча знаний из WorldWideWeb [Электронный ресурс] // Businessdataanalytics.ru. 2008, декабрь. URL: http://www.businessdataanalytics.ru/WebMining.htm (дата обращения: 25.12.2014).
2. Анализ данных и процессов : учеб. пособие / А. А. Барсегян, М. С. Куприянов, И. И. Холод, М. Д. Тесс, С. И. Елизаров. 3-е изд., перераб. и доп. СПб. : БХВ-Петербург, 2009. 512 с.: ил. + CD-ROM (Учебная литература для вузов).
3. Бежитский С. С., Брестер К. Ю., Семенкин Е. С. Исследование эффективности механизмов самоадаптации генетического алгоритма в задачах многокритериальной оптимизации // Теория и практика системного анализа : тр. I Всерос. науч. конф. молодых ученых. Т. II. Рыбинск : РГАТА им. П. А. Соловьева, 2014. С. 62-70.
4. WebMining: основные понятия [Электронный ресурс] // Basegroup.ru. 20.06.2010. URL: http://www.basegroup.ru/library/web_mining/basic_conceptions/ (дата обращения: 25.12.2014).
© Лиференко А. В., 2015