Научная статья на тему 'СБОР ИНФОРМАЦИИ ДЛЯ РЕКОМЕНДАТЕЛЬНЫХ СИСТЕМ'

СБОР ИНФОРМАЦИИ ДЛЯ РЕКОМЕНДАТЕЛЬНЫХ СИСТЕМ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
149
13
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СОВМЕСТНАЯ ФИЛЬТРАЦИЯ / ФИЛЬТРАЦИЯ НА ОСНОВЕ КОНТЕНТА / ГИБРИДНАЯ ФИЛЬТРАЦИЯ / СИСТЕМЫ РЕКОМЕНДАЦИЙ / ОЦЕНКА / COLLABORATIVE FILTERING / CONTENT-BASED FILTERING / HYBRID FILTERING / RECOMMENDATION SYSTEMS / EVALUATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Инамова Д.Б., Чиркина М.А.

В данной статье рассматриваются различные характеристики и возможности различных методов сбора информации для рекомендательных систем.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Инамова Д.Б., Чиркина М.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

INFORMATION COLLECTION FOR RECOMMENDATION SYSTEMS

This article discusses the various characteristics and capabilities of the various methods of collecting information for recommender systems.

Текст научной работы на тему «СБОР ИНФОРМАЦИИ ДЛЯ РЕКОМЕНДАТЕЛЬНЫХ СИСТЕМ»

УДК 004.896

Инамова Д.Б. студент магистратуры 2 курса направление «Информационные системы и технологии»

Чиркина М.А., к техн. н.

доцент

кафедра «Информационно-вычислительные системы» Пензенский государственный университет архитектуры и строительства Россия, г. Пенза

СБОР ИНФОРМАЦИИ ДЛЯ РЕКОМЕНДАТЕЛЬНЫХ СИСТЕМ

Аннотация

В данной статье рассматриваются различные характеристики и возможности различных методов сбора информации для рекомендательных систем.

Ключевые слова

Совместная фильтрация, фильтрация на основе контента, гибридная фильтрация, системы рекомендаций, оценка.

Inamova D.B.

Master's student, 2nd year, direction "Information Systems and

Technologies"

Penza State University of Architecture and Construction

Russia, Penza

Chirkina M.A., Candidate of Technical Sciences, Associate Professor Associate Professor of the Department "Information and Computing

Systems"

Penza State University of Architecture and Construction

Russia, Penza

INFORMATION COLLECTION FOR RECOMMENDATION

SYSTEMS

Annotation

This article discusses the various characteristics and capabilities of the various methods of collecting information for recommender systems. Keywords

Collaborative filtering, content-based filtering, hybrid filtering, recommendation systems, evaluation.

Введение

Взрывной рост объема доступной цифровой информации и числа посетителей интернета создает потенциальную проблему информационной перегрузки, которая препятствует своевременному доступу к представляющим интерес материалам в Интернете. Информационно -поисковые системы, такие как Google, Mail и Yandex частично решили эту

проблему, но приоритизация и персонализация (где система сопоставляет доступный контент с интересами и предпочтениями пользователя) информации отсутствовали. Это увеличило спрос на рекомендательные системы больше, чем прежде. Системы рекомендаций - это системы фильтрации информации, которые занимаются проблемой информационной перегрузки путем фильтрации фрагмента интересующей информации из большого количества динамически генерируемой информации в соответствии с предпочтениями пользователя или интересом. Рекомендательная система имеет возможность предсказать, предпочтет ли конкретный пользователь элемент или нет на основе профиля пользователя.

Рекомендуемые системы полезны как для поставщиков услуг, так и для пользователей. Они снижают транзакционные издержки при поиске и выборе товаров в среде интернет-магазинов. Доказано, что рекомендательные системы также улучшают процесс принятия решений и качество этих решений. В условиях электронной коммерции рекомендательные системы увеличивают доходы, поскольку являются эффективным средством продажи большего количества товаров. В научных библиотеках рекомендательные системы поддерживают пользователей, позволяя им выйти за рамки поиска по каталогу. Поэтому невозможно переоценить необходимость использования эффективных и точных методов вынесения рекомендаций в рамках системы, которая обеспечит соответствующие и надежные рекомендации для пользователей.

Существующие решения

В последнее время были разработаны различные подходы для построения рекомендательных систем, которые могут использовать либо совместную фильтрацию, фильтрацию на основе содержимого, либо гибридную фильтрацию. Метод совместной фильтрации является наиболее развитым и наиболее часто реализуемым. Совместная фильтрация рекомендует элементы, идентифицируя других пользователей с похожим вкусом; она использует свое мнение, чтобы рекомендовать элементы активному пользователю. В различных прикладных областях внедрены совместные рекомендательные системы. GroupLens - это архитектура, основанная на новостях, которая использует совместные методы, помогая пользователям находить статьи из массивной базы данных новостей. Ringo -это онлайн-система фильтрации социальной информации, которая использует совместную фильтрацию для создания профиля пользователей на основе их рейтингов в музыкальных альбомах. Amazon использует тематические алгоритмы диверсификации для улучшения своей рекомендации. Система использует метод совместной фильтрации для преодоления проблемы масштабируемости путем создания таблицы подобных элементов в автономном режиме с помощью матрицы элемент к элементу. Затем система рекомендует другие продукты, которые похожи на совершенные покупки онлайн, в зависимости от истории покупок пользователей. С другой стороны, методы, основанные на содержимом, сопоставляют ресурсы содержимого с

пользовательскими характеристиками. Методы фильтрации на основе контента обычно основывают свои прогнозы на информации пользователя, и они игнорируют содействие других пользователей, как в случае совместных методов. Fab в значительной степени полагается на рейтинги разных пользователей для создания обучающего набора, и это пример системы рекомендаций на основе контента. Другие системы, которые используют контентную фильтрацию, чтобы помочь пользователям найти информацию в Интернете, это Letizia. Система использует пользовательский интерфейс, который помогает пользователям в Интернете; он способен отслеживать шаблон просмотра пользователя, чтобы предсказать страницы, которые могут быть заинтересованы ему. Pazzani et al разработал умного агента, который пытается предсказать, какие веб-страницы заинтересуют пользователя, используя простой Bayesian классификатор. Агент дает возможность пользователю выделять обучающие случаи, оценивая их как попадающие в точку или нет. Дженнингс и Хигучи описывают нейронную сеть, которая моделирует интересы пользователя в среде новостей Usenet.

Несмотря на успех этих двух методов фильтрации, было выявлено несколько недостатков. Некоторые из проблем, связанных с методами контентной фильтрации, - это ограниченный контент-анализ, сверхспециализация и разреженность данных. Кроме того, объединенные подходы демонстрируют проблемы с начальным запуском, разрешающей способностью и масштабируемостью. Эти проблемы обычно снижают качество рекомендаций. Для смягчения некоторых выявленных проблем была предложена гибридная фильтрация, которая сочетает в себе две или более технологии фильтрации по-разному, чтобы повысить точность и производительность систем рекомендаций. Эти методы объединяют два или более подхода к фильтрации, чтобы использовать свои сильные стороны, одновременно сглаживая их общие недостатки. Они могут быть классифицированы на основе их действий и называться, например, утяжеленный гибрид, смешанный гибрид, коммутационный гибрид, гибридный гибрид с комбинацией функций, каскадный гибрид, гибридный гибрид с расширенными функциями и гибридный мета-уровень. Совместная фильтрация и подходы к фильтрации на основе контента широко используются сегодня, внедряя методы на основе контента и совместной работы по-разному, а результаты их предсказания позже объединяют или добавляют характеристики контент-ориентированной совместной фильтрации и наоборот. Наконец, может быть разработана общая унифицированная модель, включающая как контентные, так и общие свойства фильтрации. Проблема разреженности данных и начального запуска решается путем объединения рейтингов, признаков и демографической информации об элементах в каскадной гибридной рекомендательной методике в 3-й Международной конференции по обнаружению знаний и интеллектуальному анализу данных. В материалах 13-й международной конференции по управлению информацией и знаниями был предложен гибридный подход

совместной фильтрации для использования объемной таксономической информации, предназначенной для строгой классификации продуктов, для решения проблемы разреженности данных в рекомендациях CF, основанный на генерации профилей путем вывода оценки популярных тем. Гибридный рекомендательный метод также предлагается Газантаре и Прагель-Бенетте, и они используют контент-профиль отдельного пользователя, который используется для прогнозирования, чтобы найти похожих пользователей. В материалах конференции ACM, совместная фильтрация была объединена с агентом фильтрации информации. Здесь авторами предложена структура интеграции контент-ориентированных агентов фильтрации и совместной фильтрации. Гибридный рекомендательный алгоритм используется многими приложениями, в результате появляется новое затруднение контентной фильтрации и довольно обычное затруднение совместной фильтрации. Cunningham и другие предложили простой и понятный метод объединения контентной и совместной фильтрации. В "WebSell" интеллектуальные продавцы-консультанты для всемирной паутины была предложена музыкальная система рекомендаций, которая объединяла информацию о расстановки тегов, подсчетах игр и социальных отношениях. Чтобы определить количество близких друг к другу людей, которые могут быть автоматически подключены на социальной платформе, Lee и Brusilovsky встроили социальную информацию в алгоритм совместной фильтрации. В материалах семинара по рекомендательным системам ACM SIGIR была предложена байесовская модель смешанных эффектов, которая интегрирует рейтинги пользователей, пользователей и компоненты в единые рамки.

Этапы систем рекомендации

Этап сбора информации

На этом этапе собираются соответствующие сведения о пользователях для создания профиля пользователя или модели для задач прогнозирования, включая атрибут пользователя, поведение или содержимое ресурсов, к которым пользователь обращается. Система рекомендаций не может точно функционировать до тех пор, пока профиль/модель пользователя не будут хорошо сконструированы. Система должна собрать как можно больше информации от пользователя, чтобы обеспечить соответствующую рекомендацию. Рекомендательные системы полагаются на различные типы входных данных, один из наиболее качественных входных данных - это обратная связь, которая включает какой-либо ответ пользователя на интересующую его информацию, а также существует скрытая обратная связь, которую можно обнаружить через поведение пользователя в браузере. Гибридная обратная связь также может быть получена путем сочетания как явной, так и неявной обратной связи. Гибридная обратная связь также может быть получена путем сочетания явной и неявной обратной связи. В платформе электронного обучения профиль пользователя представляет собой набор персональных данных, связанных с конкретным пользователем. Эта информация включает в себя когнитивные навыки, интеллектуальные

способности, стили обучения, интерес, предпочтения и взаимодействие с системой. Профиль пользователя обычно используется для получения необходимой информации и для построения модели пользователя. Таким образом, профиль пользователя описывает простую модель пользователя. Успех любой рекомендательной системы во многом зависит от ее способности представлять текущие интересы пользователя. Точные модели незаменимы для получения важных и верных рекомендаций от любых методов прогнозирования.

Явная обратная связь

Система запрашивает пользователя через системный интерфейс, чтобы узнать его оценку элементов, для того чтобы построить и улучшить свою модель. Точность рекомендации зависит от количества оценок, предоставленных пользователем. Единственным недостатком этого метода является то, что он требует усилий от пользователей, а также пользователи не всегда готовы предоставить информацию. Несмотря на то, что явная обратная связь требует больше усилий со стороны пользователя, она по-прежнему рассматривается как предоставление более надежных данных, поскольку она не предполагает извлечение предпочтений из действий, а также обеспечивает прозрачность процесса рекомендаций, что приводит к несколько более высокому качеству рекомендаций и большей уверенности в верных рекомендациях.

Неявная обратная связь

Система автоматически определяет предпочтения пользователя, отслеживая различные действия пользователей, такие как история покупок, история навигации, и время, затрачиваемое на некоторые веб-страницы, ссылки, за которыми следует пользователь, содержание электронной почты и нажатия кнопок. Неявная обратная связь снижает нагрузку на пользователей, определяя их предпочтения по поведению в системе. Метод, хотя и не требует усилий от пользователя, но он менее точен. Кроме того, утверждалось, что данные о косвенных предпочтениях на самом деле могут быть более объективными, поскольку нет никакой предвзятости, возникающей из-за того, что пользователи отвечают социально желательным образом, и нет никаких проблем с самооценкой или какой-либо необходимости поддерживать образ для других.

Гибридная обратная связь

Сильные стороны как неявной, так и явной обратной связи могут быть объединены в гибридную систему, чтобы свести к минимуму их слабые стороны и получить наиболее эффективную систему. Это может быть достигнуто путем использования неявных данных в качестве проверки явного рейтинга или позволяя пользователю давать отзывы только тогда, когда он хочет выразить явный интерес.

Заключение

Рекомендательные системы открывают новые возможности поиска персонализированной информации в Интернете. Это также помогает

облегчить проблему информационной перегрузки, которая является очень распространенным явлением в информационно-поисковых системах, и позволяет пользователям иметь доступ к продуктам и услугам, которые недоступны для пользователей в системе. Различные алгоритмы обучения, используемые при создании моделей рекомендаций и показателей оценки, используемых для измерения качества и производительности алгоритмов рекомендаций были обсуждены. Эти знания расширят возможности исследователей и послужат дорожной картой для совершенствования современных методик рекомендаций.

Использованные источники:

1. Антопольский А., Майорович Т., Чугунов А. Формирование электронного документного пространства и перспективы создания Российской ассоциации электронных библиотек// Информационные ресурсы России. 2005. № 1 (83). С. 2-5.

2. Арлазаров В^, Емельянов Н.Е. Организационное управление и искусственный интеллект (Ред.) // Сборник трудов ИСА РАН. М, Едиториал УРСС, 2003. - 448 с.

3. Арлазаров В.Л., Емельянов Н.Е. Документооборот. Прикладные аспекты (Ред.) // Сб. трудов ИСА РАН. М„ Едиториал УРСС, 2004. 184 с.

4.Ермаков А.Е. Неполный синтаксический анализ текста в информационно -поисковых системах // Компьютерная лингвистика и интеллектуальные технологии. Труды Междун. семинара Диалог'2002. В двух томах. Т. 2. Прикладные проблемы. М, Наука, 2002.-С. 180-185.

5. Жигалов В. А. Об опыте разработки системы построения ЕЯ-интерфейсов к базам данных. // Труды Международного семинара Диалог'98, Казань, 1998. С. 801 808.

i Надоели баннеры? Вы всегда можете отключить рекламу.