Научная статья на тему 'Спецификация генерации новостей через RSS на примере работы агрегатора Яндекс. Новости'

Спецификация генерации новостей через RSS на примере работы агрегатора Яндекс. Новости Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
2254
167
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГЕНЕРАЦИЯ НОВОСТЕЙ / АГРЕГАТОР НОВОСТЕЙ / RSS / МЭШАП / ЯНДЕКС.НОВОСТИ

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Храмова Наталья Николаевна

Автор статьи рассматривает проблему увеличения потока информации и предлагает способ, позволяющий удобнее ориентироваться в информационном поле. Автор рассматривает и описывает степень актуальности проблемы генерации новостной информации и степень ее изученности, описывает сущность функционирования и принцип работы агрегаторов новостей на примере подробного рассмотрения сервиса Яндекс.Новости. Дает характеристику технологии RSS, структурирует перечень необходимых условий для возможности интернет-издания стать партнером портала, в состав которого входит агрегатор новостей.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Спецификация генерации новостей через RSS на примере работы агрегатора Яндекс. Новости»

Н. Н. Храмова

СПЕЦИФИКАЦИЯ ГЕНЕРАЦИИ НОВОСТЕЙ ЧЕРЕЗ RSS НА ПРИМЕРЕ РАБОТЫ АГРЕГАТОРА ЯНДЕКС.НОВОСТИ

Автор статьи рассматривает проблему увеличения потока информации и предлагает способ, позволяющий удобнее ориентироваться в информационном поле. Автор рассматривает и описывает степень актуальности проблемы генерации новостной информации и степень ее изученности, описывает сущность функционирования и принцип работы агрегаторов новостей на примере подробного рассмотрения сервиса Яндекс.Новости. Дает характеристику технологии RSS, структурирует перечень необходимых условий для возможности интернет-издания стать партнером портала, в состав которого входит агрегатор новостей.

Ключевые слова: генерация новостей, агрегатор новостей, RSS, мэшап, Яндекс.Новости.

В научной среде поле вытеснения традиционных сетевых изданий автоматизированными агрегаторами новостей имеет нулевую степень исследования, так как проблема необходимости генерации контента из разрозненных источников в единый практически не рассматривалась.

В современном мире роль информации приобретает существенное значение. Вектор ценности от материальных ресурсов смещается к информационным. Также увеличивается и объем информации: по оценке западных аналитиков, как сообщается в журнале «За науку» (выпуск №22(1812)), раньше количество информации удваивалось каждые 4 года, а к 2020 году этот процесс будет занимать предположительно 72 дня. Следовательно, увеличивается и количество новостей. В условиях возрастающего пласта информации появляется ценность свободного времени, в следствии чего современный образованный человек ощущает необходимость избирательного подхода к информации: просматривать не весь контент, а только избранное. Человек старается сделать процесс поиска информации рациональным, отфильтровывая ненужные и неактуальные данные. На фоне этого возникает важнейшая потребность - фильтрация информации.

Одним из популярных источников получения информации в последнее время стал Интернет. Чтобы размещать новости в Интернете, существуют специальные интернет-площадки - новостные сайты, которые специализируются на размещении контента с новостями.

В результате появления большого числа подобных сайтов, и, как следствие, объема контента, появляется потребность агрегации нескольких источников, отражающих основные новости, охватывающие все области: тематические, географические и другие. Потребление обработанного агрегированного контента значительно экономит время читающего, так как агрегированная информация — это наиболее важная и актуальная информация, которая охватывает несколько источников и собрана в одном месте. Это послужило катализатором создания новостных лент и технологии RSS.

RSS представляет собой международный стандартизированный формат данных, с помощью которого происходит трансляция новостной информации с одного сайта на другой. Данный процесс можно осуществить, используя генератор новостей (rss-агрегатор или mushap). RSS-агрегатор представляет собой клиентскую программу (например, встроенную в браузер), веб-приложение или веб-сайт, на котором происходит автоматический сбор сообщений из источников - интернет-изданий. Примером наиболее популярных агрегаторов являются классические агрегаторы Google News и Яндекс.Новости, а также Rambler.Новости и Новости Mail.ru. Задача этих ресурсов - представить новостную картину дня на основе данных с сайтов-партнеров. Чтобы стать сайтом-партнером и получить возможность попадания в новостную ленту агрегатора, необходимо выполнение нескольких условий. Таким образом, мною был скомпанован перечень необходимых требований, соблюдая которые издание может стать партнером:

• информация на сайте должна располагаться в свободном доступе без необходимости регистрации для просмотра;

• содержание информации должно носить новостной характер и соответствовать требованиям законодательства;

• информация на сайте-партнере должна обновляться с определенной периодичностью;

• данные для передачи должны состоять из определенных атрибутов (заголовок, описание, ссылка и другие) и быть в формате RSS.

Сотрудничество с агрегатором новостей позволяет сайту повысить свою аудиторию, индекс цити-руемости и другие показатели, положительно влияющие на сайт в целом. Кроме перечисленных классических агрегаторов существует ресурс MediaMetrics (http://mediametrics.ru/). Данный инструмент представляет собой рейтинг новостей, который строится на основе количества переходов на страницы указанных новостей из различных соцсетей ^асеЬоок, Вконтакте, Одноклассники и другие).

С точки зрения пользователя, агрегатор новостей можно настроить в соответствии с собственными интересами на основе множества параметров: по тематике, по времени и дате, по важности либо времени сортировки и другим.

Для того, чтобы лучше разобраться в принципах работы агрегатора новостей и специфики генерации контента, рассмотрим процесс функционирования на примере агрегатора Яндекс.Новости. Все сервисы Яндекса основаны на технологиях, очень часто на сложных и сверхточных. Разработчики и администраторы подобных сервисов нацелены на совершенствование технологий, находясь в диалоге с пользователем, а также с участниками рынка, то есть с теми, кто создает контент, который впоследствии обрабатывается агрегатором. Сервис Яндекс.Новости - особенный сервис по сравнению с другими сервисами данный компании, так как он взаимодействует с медиасредой и в некоторой степени влияет на нее. Медиасреда, в свою очередь, влияет на тот сервис, который видят пользователи Яндекса. Следует отметить, что сам агрегатор в данном случае не является игроком медиасреды, он является «зеркалом» медиасферы. Любой агрегатор не является отдельным самостоятельным СМИ, а является ресурсом, помогающим развиваться другим СМИ, а с точки зрения аудитории - технологией, позволяющей отслеживать информацию. С ростом аудитории, которое происходит в последнее время по информации Романа Иванова, руководителя отдела коммуникационных сервисов компании Яндекс, взаимное влияние агрегатора и медиа становится всё более заметным: происходит усиление прозрачности всего процесса для рынка и информационных партнеров.

Для того чтобы сервис работал качественно, необходимо его автоматизировать. Человеческий фактор при формировании топа анонсов новостей может стать виновником перепостов в ту или иную сторону, поэтому Яндекс.Новости полностью автоматизированы и исключают субъективный характер. Особое внимание следует обратить на партнеров, так как все новости - это продукт партнеров. Они проделывают большую работу и предварительно самостоятельно фильтруют, ранжируют свой новостной контент в соответствии с условиями созданного формата и единых требований, установленных для всех партнеров.

Модель агрегатора Яндекс.Новости можно представить следующим образом: с одной стороны пользователями являются читатели, с другой стороны - издания. Издания обеспечивают быструю оперативную трансляцию контента, отправляя на сервис 40 тыс. сообщений в сутки, и получая взамен 4 млн переходов на свои сайты от читателей агрегатора новостей. Читатели узнают новости на сервисе (15 млн человек в сутки), проранжированные по установленным правилам и обработанные роботом.

В данном тройственном союзе у всех участников есть свои цели: СМИ заинтересованы в популярности своего издания. Первоисточники, то есть информационные агентства, хотят приоритетного размещения своих сообщений и подавления рерайтеров, а оптимизаторы, которые сотрудничают с сервисом от лица издания, заинтересованы в прозрачности правил размещения, чтобы достичь цели, поставленной СМИ. Читатели в данном процессе хотят быстро узнавать о происходящем в мире, при этом получать ссылки на новости от знакомых источников, который вызывает у них доверие. Кроме того, выявлена потребность в первоисточнике новости. Интересами самого агрегатора Яндекс.Новости в данном случае выступают расширение аудитории и повышение ее лояльности, которой можно достичь, предоставляя качественный сервис, а также увеличение базы данных. Кроме этого, портал заинтересован в привлечении новых поставщиков интересной информации и сохранении существующих. Этого можно добиться путем предоставления выгодной для партнеров модели сотрудничества.

Суть любого агрегатора - предоставление релевантного новостного ответа. Алгоритм, формирующий топ новостных анонсов, настроен на следующие свойства сообщений:

• оперативность

• информативность

• цитируемость

• первоисточник

Таким образом, те источники, сообщения которых доминируют по вышеперечисленным показателям, и будут показываться читателям в первую очередь.

Новостной контент, присылаемый издательствами сервису агрегации, тоже должен отвечать определенным требованиям. Сообщение должно соответствовать формату, то есть необходимо присылать только новости и аналитику, не включая необработанные пресс-релизы, рекламу, программы и другие структурные элементы. Должны соблюдаться технические требования: доступность сайта, отдельные адреса для каждого сообщения и определенно установленный язык сообщения. С точки зрения требований законодательства необходимо нахождение в правовом поле и обязательным является выполнение следующих условий: соответствие защите прав интеллектуальной собственности, противодействие терроризму, защита чести, достоинства, репутации и так далее.

При отправке новостной информации сервису-агрегатору информационный партнер может столкнуться с различными проблемами. Наиболее часто встречающимися являются непопадание заметки в сюжет, что может быть обусловлено техническими неисправностями сайта, желание изменить заголовок или текст заметки с помощью администраторов сервиса. Это не входит в возможности, поэтому в подобном случае необходимо исправлять неточность на собственном сайте и экспортировать новость повторно. Кроме того, проблемой может стать прохождение долгого времени от момента помещения сообщения в экспортный файл до момента публикации на сервисе. Всё это обусловлено техническими особенностями работы агрегатора новостей: время итерации до публикации может занимать до 40 минут, это обозначено тем, что в процессе обработки новостное сообщение проходит через большое количество алгоритмов и любая обработка занимает время. Попадание в агрегатор перепечатки собственной заметки сводится к минимуму. Здесь фигурирует термин «дубликат». Дубликатами считаются документы, сильно совпадающие с оригинальным сообщением. Дубликаты автоматически определяются роботом до формирования сюжета. Поэтому такие новости не участвуют в поиске по сервису и не попадают в сюжет. Из каждой группы дубликатов остается по одному сообщению, которое называют «мастером». Оно может быть представлено на странице сюжета и в результатах поиска. «Мастер» определяется по времени публикации новости, по сравнительному анализу текстов, а также по количеству цитирований и их анализу.

Основными продуктами агрегатора Яндекса являются:

• страница сюжета,

• новостной блок на главной странице Яндекса,

• главная страница Новостей, страницы рубрик,

• поиск по новостям.

Поиск по новостным сообщениям охватывает наименьшую аудиторию по сравнению с остальными продуктами сервиса, но тем не менее данная аудитория является очень ценной, так как в значительной степени состоит из журналистов, PR-специалистов и профессионалов в этой области.

Подробнее следует остановиться на основном продукте - сюжете. Его идея заключается в том, чтобы дать читателям возможность выбора и показать событие с разных точек зрения - от разных источников. Не претендуя на конкуренцию с новостными сайтами, на странице сюжета показывается наиболее полная и многогранная картина. Сюжет часто бывает не точный и развивается с течением времени. Идеальный сюжет должен отражать изменения и временную линию развития события. Для более полной картины кроме новостной информации в сюжет добавляются ссылки на аналитические материалы по соответствующей теме, интервью, обзоры и так далее.

Создание сюжета происходит автоматически и состоит из нескольких этапов. Сначала происходит кластеризация новостных сообщений. Раз в 5 минут робот проверяет обновления и считывает RSS файлы от всех партнеров, получая таким образом новость. Затем робот автоматически создает группы сообщений, к которым, по его мнению, на основе запрограммированного алгоритма относятся новости, освещающие одно и то же событие. На основе анализа текста строится матрица близости документов. После того, как построен кластер, необходимо построить аннота-

цию. Она состоит из 3-4 строк и кратко отражает основную фактуру событий кластера. Аннотирование сюжета включает в себя выбор заголовка и фрагментов сообщений. После этого происходит выбор основного заголовка сюжета, который и будет показываться на главной странице в топе анонсов. На последнем этапе происходит выбор статей и интервью, которые не являются новостями, но относятся к сюжету. Ссылки на них будут присутствовать в сюжете.

Самым важным этапом из перечисленных является определение заголовка сюжета. Именно он отражает то, как агрегатор видит все обработанные новости из разных источников, и то, каким образом новость будет подаваться многомиллионной аудитории. Существуют специальные требования при выборе заголовка. Он должен быть максимально понятным, информативным и отражать актуальное положение дел. Заголовок не должен содержать оценочных суждений, мнений и игры слов, а также фактов, не свойственных сюжету.

Важным является и создание анонса сюжета, при создании которого основной целью является максимальная информативность. Анонс строится автоматически, путем выбора ключевых слов, из всех сообщений сюжета выделяются наиболее значимые объекты: имена людей, названия организаций, географические объекты, даты и числа и так далее. Аннотация подбирается таким образом, чтобы по максимуму передать содержание сообщений всего сюжета.

В данном рассматриваемом поле существует понятие «ядерность» лексики. Например, новости «Один из политиков анонсировал возобновление поставок электроэнергии в Крым» и «Один из политиков порадовал крымчан скорым возобновлением поставок электроэнергии» имеют разную лексическую окраску. Слово «порадовал» во втором примере робот определяет как редков-стречающееся, из-за чего новость с подобным заголовком в сюжете будет располагаться ниже остальных. Кроме этого фактора при ранжировании в сюжете учитываются такие показатели, как цитирование источника в сюжете, дата публикации и вес источника.

Любое новостное сообщение также автоматически роботом относится к двум рубрикам: тематической и географической. Тематическая определяется на основе специализации издания, рубрикации источника и анализа материала. География сообщения определяется путем выделения из его текста основных географических единиц, затем происходит автоматическое определения релевантных для сюжета географических объектов. Основная цель робота при выполнении этого процесса - получить из множества сообщений все новости рубрики и региона.

Чтобы сервис смог «прочитать» полученную новость, файл, оформленный в формате RSS, должен иметь следующие атрибуты, которые позволят роботу обрабатывать данные:

• <title> - заголовок сообщения, будет показываться в анонсе.

• <link> - URL сообщения или ссылка, по которой перейдет пользователь кликая по заголовку в агрегаторе, является уникальным идентификатором.

• <author> - фамилия и имя автора, позволяет просмотреть все материалы автора.

• <category> - рубрика, позволит роботу более точно определить тематическую принадлежность сообщения.

• <enclosure> - элемент для иллюстраций, аудио- или видеоконтента, содержит ссылку на данный контент.

• <pubDate> - время публикации материала, отображается в агрегаторе рядом с заголовком.

• <yandex:full-text> - полный текст сообщения, который полностью не отображается в агрега-торе, но участвует в кластеризации и служит материалом для создания аннотаций.

Таким образом, можно сделать вывод, что на сегодняшний день агрегаторы новостей работают почти автоматически, без участия человека, при этом они уверенно набирают популярность, тем самым вытесняя сетевые издания, а также существенно облегчают работу с новостями, делая ее более удобной и быстрой.

Список литературы

1. Дубинский, А. Г. Проблема автоматизации поиска информации в глобальной сети [Текст] / А. Г. Дубинский // Проблемы автоматизации информационных технологий. - Днепропетровск, 1999. - С. 40-48.

2. Кураленок, И. Е. Оценка систем текстового поиска [Текст] / И. Е. Кураленок, И. С. Некрестьянов // Программирование. - 2002. - № 4. - С. 226-242.

3. Рябинков, А. Повышение эффективности поиска в сети Интернет путем анализа геопространственного контекста веб-страниц [Текст] / А. Рябинков // Информационные технологии. - Москва, 2005. - № 11. - C. 11.

4. Сурин, А. И. Основы WEB-технологий [Текст] / А. И. Сурин, А. Русак, С. А. Брик, П. Храмцов. - М.: ИТУИТ.РУ, 2003. - 512 с

5. Интеллектуальные технологии в Сети, Полный Гид По Семантическим Технологиям. Часть 2 [Электронный ресурс]. - URL: http://miw.by/post/470.

6. Официальный сайт Яндекс, Информация для СМИ [Электронный ресурс]. - URL: https:// yandex.ru/support/news/info-for-mass-media.xml.

7. Официальный сайт Яндекс, Экспорт новостей [Электронный ресурс]. - URL: https://news. yandex.ru/export.html.

8. Статистика сайта Яндекс Экспорт новостей [Электронный ресурс]. - URL: https://stat. yandex.ru/Russia/News.

9. Официальный сайт MediaMetrics, Информация о рейтинге [Электронный ресурс]. - URL: http://mediametrics.ru/info/.

10. Введение в Web 2.0. Семантический Web [Электронный ресурс] // ИИНТУИТ. - URL: http:// www.intuit.ru/studies/courses/606/462/lecture/10399.

N. N. Khramova

DATA GENERATION NEWS VIA RSS ON THE EXAMPLE OF AN AGGREGATOR YANDEX.NEWS

The author considers the problem of increasing the flow of information and provides a way to easily navigate in the information field. The author examines and describes the degree of urgency of the problem of generation of news and extent of its study, describes the essence of the functioning and operation of the news aggregators on the example of a detailed review of the service Yandex.News. The characteristic of technology RSS, structures the list of necessary conditions for the possibility of online publication to become a partner portal, which includes a news aggregator.

Keywords: the generation of news, news aggregator, RSS, mashup, Yandeks.Novosti.

References

1. Dubinsky, A. G. (1999) Problema avtomatizaciipoiska informacii v global'noj seti [=The problem of automation of information retrieval on the WAN], Dnepropetrovsk, pp. 40-48. (In Russ.).

2. Kuralenok, I. E. and Nekrestyanov, I. S. (2002) Otsenka sistem tekstovogo poiska, Programmirovanie [=Evaluation systems text search, Programming], no. 4, pp. 226-242. (In Russ.).

3. Ryabinkov A. (2005) Povyshenie ehffektivnosti poiska v seti Internet putem analiza geoprostranstvennogo konteksta veb-stranits, Informatsionnye tekhnologii [=Improving the efficiency of the search on the Internet by analyzing geospatial context of web pages, Information technologies], Moscow, no. 11, p. 11. (In Russ.).

4. Surin A. I., Rusakov, A., Brik, S. A. and Hramtsov, A. P. (2003) Osnovy WEB-tekhnologij [=Basics of WEB-technologies], Moscow, ITUIT, 512 p. (In Russ.).

5. Intellektual'nye tekhnologii v Seti, Polnyj Gid Po Semanticheskim Tekhnologiyam. Chast' 2 [=Intelligent Network technology, complete guide to semantic technology. Part 2], available at: http:// miw.by/post/470, accessed 07.10.2015. (In Russ.).

6. Ofitsial'nyj sajt YAndeks, Informatsiya dlya SMI [=The official website Yandex, information for the media], available at: https://yandex.ru/support/news/info-for-mass-media.xml, accessed 07.10.2015. (In Russ.).

7. Ofitsial'nyj sajt Yandeks, Ehksport novostej [=The official website Yandex, Export news], available at: https://news.yandex.ru/export.html, accessed 07.10.2015. (In Russ.).

8. Statistika sajta Yandeks Ehksport novostej [=Site stats Yandex News feeds] available at: https:// stat.yandex.ru/Russia/News, accessed 07.10.2015. (In Russ.).

9. Ofitsial'nyj sajt MediaMetrics, Informatsiya o rejtinge [=The official website MediaMetrics, information on the rating of], available at: http://mediametrics.ru/info/, accessed 07.12.2015. (In Russ.).

10. IINTUIT, Vvedenie v Web 2.0. Semanticheskij Web [=IINTUIT, Introduction to Web 2.0. Semantic Web], available at: http://www.intuit.ru/studies/courses/606/462/lecture/10399, accessed 07.10.2015. (In Russ.).

Храмова Наталья Николаевна - магистрант факультета журналистики Челябинского государственного университета. [email protected]

i Надоели баннеры? Вы всегда можете отключить рекламу.