Научная статья на тему 'О методе ранжирования новостных источников в Интернете'

О методе ранжирования новостных источников в Интернете Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
358
126
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Горбунов Андрей Леонидович

В статье рассмотрен основанный на механизме дисперсионного анализа метод ранжирования онлайновых новостных источников, используемых в практике конкурентной разведки авиакомпаний.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «О методе ранжирования новостных источников в Интернете»

2005

НАУЧНЫЙ ВЕСТНИК МГТУ ГА серия Информатика. Прикладная математика

№ 92(10)

УДК 681.31.324

О МЕТОДЕ РАНЖИРОВАНИЯ НОВОСТНЫХ ИСТОЧНИКОВ В ИНТЕРНЕТЕ

А.Л. ГОРБУНОВ

Статья представлена доктором технических наук, профессором Соломенцевым В.В

В статье рассмотрен основанный на механизме дисперсионного анализа метод ранжирования онлайновых новостных источников, используемых в практике конкурентной разведки авиакомпаний.

1. Особенности работы маркетинговых подразделений авиакомпаний

с источниками новостей в Интернете

Каждый рабочий день в отделе маркетинга любой крупной авиакомпании начинается с анализа новостей - одного из базовых элементов конкурентной разведки. Интерес обычно представляет информация по нескольким темам из нескольких десятков источников [1-12].

Сегодняшний новостной поток чрезвычайно интенсивен, на отбор из этого потока требуемой информации и ее анализ уходит масса людских и временных ресурсов - этим обусловлен повышенный спрос на системы автоматической категоризации новостей, которые обычно работают на основе методов кластеризации и нейросетевых технологий. Однако применение этих подходов во многих случаях только усугубляет проблему: кластеризация часто дает логически необъяснимые результаты, а нейросетевые инструменты плохо работают на массивах неоднородных данных, которые характерны для Интернета.

На практике работа с новостями складывается из 2 этапов - этапа автоматического или полуавтоматического отбора новостей (и, возможно, их первичной категоризации с помощью поисковых систем) и этапа просмотра с точной категоризацией новостных материалов «вручную», которая осуществляется экспертами-аналитиками.

При этом уменьшение доли ручного труда связано не столько с категоризацией самих новостей, сколько с категоризацией их источников, которая в данном контексте эквивалентна полезности для целей конкурентной разведки. Задача категоризации источников остается актуальной даже тогда, когда автоматическая категоризация самих новостей работает успешно, так как не исчезает проблема выбора: какие из уже категоризированных документов стоит обрабатывать в первую очередь, какие - во вторую и т. д. От ранжирования источников по критерию информативности зависит объем работы эксперта-аналитика, так как при наличии такого ранжирования он не тратит свое время на ознакомление с малоинформативными документами. В данной статье предлагается метод снижения этого объема с использованием элементов дисперсионного анализа (Analysis of Variance - ANOVA) - известного аппарата из инструментария математической статистики.

2. Методы категоризации и классификации новостных источников

Индикатором уровня спроса на решения, связанные с автоматической категоризацией новостной информации в Интернете, служит появление онлайновых ньюс-сервисов от лидеров IT-индустрии - Google и Microsoft («Google News» и «MSN Newsbot» соответственно).

Построенные по схожему принципу (полностью автоматическая категоризация новостей из нескольких тысяч источников в Интернете по ряду базовых разделов плюс текущие горячие темы) они обеспечивают оценки новостных потоков, усредненные без участия человека, что позволяет надеяться на их беспристрастность и объективность. Microsoft, кроме того, обещает

оперативную (в течение 10 минут) настройку на интересы пользователя.

Персонализация новостных сервисов, являясь развитием в правильном направлении, все же требует при реализации известной деликатности, а также имеет ряд проблемных моментов объективного характера. Второе связано с тем, что предпочтения пользователей новостных сервисов часто весьма мобильны, а потому велика погрешность при их автоматическом определении. Первое же хорошо известно по намерению покинуть сайт, где происходит заметное по тем или иным признакам исследование поведения посетителя. В целом полностью автоматическая и при этом эффективная персонализация не реализуема, поскольку наилучшим механизмом персонализации в любом случае является сам пользователь.

Поэтому при совершенствовании процедур категоризации новостной информации представляется разумным и целесообразным сосредоточение внимания не столько на вопросах полностью автоматической персонализации, сколько на инструментах, обеспечивающих комплексную эффективность новостного сервиса. Примером такого подхода может служить автоматическая категоризация онлайновых источников новостей - как дополнение к категоризации новостей как таковых - позволяющая вычленять в их множестве категории по степени информативности освещения тех или иных тем.

Интерес исследователей к автоматической категоризации обусловлен, с одной стороны, актуальностью характерной для эпохи Интернета задачи упорядочивания больших объемов неоднородных данных, а с другой - высокой стоимостью решения этих задач традиционными, «ручными» методами. В структуре Yahoo работу по категоризации сайтов выполняют более 200 профессиональных редакторов, распределяя веб-ресурсы по иерархии, включающей более 500 тыс. категорий, а американская Национальная Медицинская Библиотека тратит на цели «ручной» индексации журнальных статей более 2 млн. долларов ежегодно.

За последнее десятилетие появилась большее количество публикаций, посвященных вопросам автоматической категоризации и классификации. К числу наиболее разработанных математических инструментов, широко используемых для решения данных задач, относятся методы нейронных сетей и в особенности - самоорганизующиеся карты Кохонена [8], метод опорных векторов [3], Байесовские сети, методы кластеризации, которые тесно связанны с классической теорией информационных поисковых систем.

Так, например, в поле традиционных для информационного поиска методов лежит подход, основанный на концепции «мегадокумента», который предлагает Frommholz [5] для решения проблемы текстовой категоризации: все документы некоторой категории объединяются в общий мегадокумент, а категоризируемый документ рассматривается как вектор запроса к коллекции мегадокументов. Лидирующий в списке результатов поиска по этому запросу мегадокумент считается категорией, к которой принадлежит документ-запрос.

Lam, Ruiz и Srinivasan [9] разработали «инверсный» по отношению к классическому поиску метод, когда инструментарий самообучающейся автоматической категоризации с обратной связью применяется для улучшения поисковых процедур. Такой подход дает качество поиска, сравнимое с результатами применения «ручной» категоризации.

Moens и Dumortier [11], сравнив результаты ручной категоризации профессиональными индексаторами блока из 930 новых журнальных статей с результатами присвоения этим статьям тематических дескрипторов с помощью нескольких методов автоматической категоризации сделали вывод об эффективности использования классификатора с применением критерия /2 для его обучения на ограниченных учебных выборках. Критерий / 2 используется для обобщения позитивных и негативных примеров каждой категории с целью выработки весового вектора, который отражает степень связи слов и их комбинаций с категорией.

Hung и Wermter [7] описывают самоорганизующуюся динамически растущую нейронную сеть для кластеризации текстов, которая способна работать на массивах нестандартизован-ных и нестационарных данных, трактуя внутреннюю структуру данных как иерархию. Эта сеть имеет ряд уникальных свойств, таких как самоадаптацию параметров и иерархическое обучение. Утверждается, что разработка позволяет осуществлять эффективную автоматическую кате-

горизацию реальных данных с высокой степенью разнородности.

Calvo и Williams [2] сравнили производительность нескольких самообучающихся алгоритмов на задачах категоризации объявлений о существенных событиях эмитентов на Австралийской Фондовой Бирже. Исследователи произвели тестирование методов для двух задач: категоризация по маркетинговой чувствительности, которая отражает степень воздействия объявления на рыночную ситуацию, а также категоризация по типу объявления. Результаты эксперимента показали возможность достижения для полноты и точности категоризации уровня 88% для первой задачи и 86-процентной точности и 74-процентной полноты для второй. При этом разные алгоритмы продемонстрировали разный уровень эффективности в зависимости от типа задачи и массива обрабатываемых данных.

Luo и Huang [6] описывают автоматическую категоризацию мультимедийного новостного потока, основанную на анализе текстовых заголовков с применением Байесовой сети.

Среди публикаций не встречается постановка вопроса категоризации источников. Использование аппарата ANOVA в автоматической категоризации не выходит за рамки обычной оценочной постановки задач. Так Liere и Tadepalli [10] с помощью методов ANOVA сравнивают два алгоритма автоматической классификации веб-данных.

3. Модель процедур обработки новостей с использованием аппарата ANOVA

Пусть представленная выше процедура обработки новостной информации из онлайновых источников описывается следующими параметрами.

Требуется найти новости по темам Ti, i=1..I, исследуя источники новостей Sj, j=1..J в электронном виде. Поиск осуществляется по характерным для тем Ti ключевым словам Wim, m=1..M. Каждому из ключевых слов методом экспертной оценки поставлен в соответствие нормализованный коэффициент Uim, , отражающий важность данного слова в контексте темы. Результат поиска новостей по теме Ti в источнике Sj представляется в виде:

M

R. =У N. . ■ U. ,

п.1 / j imj im ’

m=1

где Nimj - количество форм ключевого слова Wim по теме i , обнаруженных в источнике j. (В качестве N могут быть использованы иные оценки, например, частота встречаемости слов, частота взвешенная тем или иным способом и т.д.).

Тогда процесс обработки новостной информации в целом может быть изображен в виде матрицы «источник-тема» (табл. 1):

Сеансы поиска новостей - это измерения, которые дают реализации случайных Щи, k=1...K.

Величину Rij можно интерпретировать как количественную оценку отклика элемента Sj информационной среды (Интернета) на новостные поводы, связанные с темой Ti.

Классическая постановка задачи дисперсионного анализа [4] предполагает, что Rjjk представима в виде: R.k = a. + b. + y .к, где ai - в данном контексте некоторый «естественный», средний уровень отклика информационной среды на новостной повод, связанный с темой Ti; bj

- доля отклика, привносимая элементом Sj, которая, вообще говоря, может зависеть от ai; bj отражает специфику редакционной политики источника Sj, тематические предпочтения журналистов данного источника и т.д.; yijk - случайная составляющая k-й реализации Rij (ошибка измерения). yijk являются независимыми, одинаково распределенными случайными величинами, имеющими нулевое математическое ожидание.

Пусть Cij = ai + bij, Сi* = -j ^ Cj , С* j = — ^ Cj , C„ = J ^ Cj = — ^ Сi* = — ^ С* j .

j 1 V 1 j

Кроме того, пусть a= с** , b = Cj* - С** , g = C*j - C** , dj = Cj - Cj* - C*j + c** .

Таблица 1

T1 T2 T3 . . .

S1 R11 R12 R13 . . .

S2 R21 R22 R23 . . .

S3 R31 R32 R33 . . .

Очевидно, Cjj = a+ b + g + dj .

Fisher [4] показал, что:

• есть наилучшее приближение функции Cij от аргументов i и j постоянной величиной;

• + fii есть наилучшее приближение функции Cij функцией, зависящей лишь от i;

• + gj есть наилучшее приближение функции Cj функцией, зависящей лишь от j;

• + fii + g есть наилучшее приближение функции cij суммой функций, из которых одна зависит лишь от i, а другая - лишь от j.

Базовая модель дисперсионного анализа классически интерпретируется [4] как задача оценивания J судьями выступлений I спортсменов, причем каждый участник соревнований выступает K раз. В этом случае ai - истинный показатель мастерства спортсмена с номером i, bij -систематическая ошибка, вносимая в оценку мастерства i-го спортсмена судьей с номером j, Rjk

- оценка выставляемая j -м судьей i-му спортсмену после выполнения k-й попытки, уцк - соответствующая случайная погрешность. При этом функция g трактуется как систематическая ошибка, допускаемая j -м судьей по отношению ко всем спортсменам, а функция dj выражает «взаимодействие» i-го спортсмена и j -го судьи (положительное значение dj означает «подсужи-вание», т.е. систематическое завышение j-м судьей оценок Щк i-го спортсмена, отрицательное значение dj означает «засуживание», т.е. систематическое снижение оценки).

Очевидна прямая ассоциация классической интерпретации с задачей освещения J источниками новостей I тем. «Подсуживание» в новом контексте означает повышенное внимание новостного источника с номером j к новости с номером i, «засуживание» - обратную ситуацию, когда j’-й источник публикует мало информации по i-й теме. Тогда сумма a + b используется как показатель интереса, проявляемого информационным пространством Интернета к теме Tt. Величина gj может трактоваться как показатель полноты освещения любых тем новостным источником Sj, т.е. применяться в качестве критерия ранжирования источников вне зависимости от тем Ti. Наконец функция dj может ассоциироваться со степенью внимания, оказываемого источником Sj теме Ti и использоваться для автоматического ранжирования источников новостей по степени информативности в отношении различных тем.

Последний тип ранжирования представляет наибольший интерес. В работе маркетинговых и PR-отделов достаточным оказывается вычленение с помощью критерия dj трех категорий: «Наиболее информативные источники по теме Ti» - категория 1, «Средне информативные источники по теме Ti» - категория 2, «Слабо информативные источники по теме Ti» - категория

3. Верхние die и нижние dtH границы категорий определены выражениями:

din = dnin 9 d3e = d> H dnin + \dn ax - drnn| / 1 9 d>e = di n dnax- \dn ax - drnn\ / 1 9 d1e d ax

4. Ранжирование с помощью статистических оценок a, b /и d

Предположив, что ошибки yijk малы по сравнению с а и b, а число «измерений» информационного отклика K достаточно велико, можно в целях ранжирования ограничиться сравнением статистических оценок для a b /и d(первый этап ANOVA), не прибегая к сравнениям их дисперсии, которые составляют содержание последующих этапов классической процедуры дисперсионного анализа. Предположение о малости yijk оправдано, если в качестве Sj используются серьезные, авторитетные источники новостей, зарекомендовавшие себя как надежные поставщики новостной информации в течение длительного периода времени.

Увеличение K повышает точность статистических оценок для a b /и d однако должно быть ограничено разумным пределом, поскольку на больших интервалах времени вероятны существенные изменения редакционной политики источников, которые приводят к качественным изменениям bjj. Приемлемый размер интервала наблюдения для сбора ежедневной статистики составляет обычно несколько месяцев. Истинные значения величин a, b, g и dj неизвестны и выражаются в терминах неизвестных функций Cj. Несмещенная и имеющая минимальную дисперсию линейная оценка для cij выражается формулой:

С Яу* к 2 Яук ■

К к

Так как а, Д, у и ^- линейные функции от элементов матрицы || ец ||, то несмещенные линейные оценки этих функций, имеющие минимальную дисперсию, получаются в результате

замены аргументов ец соответствующими: а = Я***, Д = Я.** - Я***, У}- = Я* ;* — Я***,

8у = Яу* — Яг** — Я*]* + Я*** , где Я*** = т 2 Яук , Яг** = 2 Яук , Я*]* = 2 Яук , наконец,

ук и ]к .к

Я.* = 12 Яук ■ Таким образом, для отнесения источников новостей к категориям типа «Наиболее информативные по теме 7/», «Средне информативные по теме Т» и т.д. можно воспользоваться матрицей «источник-тема» вида:

8. 4 4

8п 4 4

4 4 4

где столбцы соответствуют темам, строки - источникам. Ранжирование источников Sj по информативности при освещении тем 7 производится сравнения величин 8 1 из /-го столбца.

Используя в качестве элементов такой матрицы величины а, Д, у, можно аналогичным образом получить иные упомянутые выше рейтинги источников и тем. Ранжирование по критерию а + Д приводит к категоризации не источников новостей, а освещаемых тем. Сравнение

такого рейтинга с аналогичным для других типов СМИ (бумажных, электронных) может дать интересную аналитику для оценки поведения медиа-пространства в целом в связи с тем или иным информационным поводом. Критерий у позволяет сравнивать «усредненную» информативность источников вне зависимости от информационных поводов. Такой рейтинг окажется

более полезным для категоризации новостных источников, нежели основанный на критерии 8, в ситуации, когда Т1 недостаточно «интересны» для онлайнового информационного пространства и продуцируют слабый отклик.

5. Ранжирование с помощью дисперсионных отношений

Подход к ранжированию Sj и 7 с использованием статистических оценок для а Р, уи 8 адекватен невозмущенному состоянию новостного информационного пространства, т.е. состоянию отсутствия сильных информационных поводов. При наличии таких поводов погрешности Уф, очевидно, увеличатся и появится необходимость в выполнении последующих этапов классической процедуры дисперсионного анализа, т.е. вычисления дисперсий эмпирических распределений величин а Д, уи 8 определения дисперсионных отношений для сочетаний факторов и проверки гипотез о влиянии факторов и их сочетаний на отклик информационного пространства. Эта процедура хорошо описана во многих изданиях по математической статистике, например, в книге Шеффе [1]. Так, например, если требуется проверить гипотезу равномерного освещения тем новостными источниками, то рекомендуется вычислить дисперсионное отношение где

1 Z (R. - R*)2

IJ (к -1) 1-г - -

,32 =—к— Zf

3 (I - 1)(J -1) - 11

При нормальном распределении ошибок уцк отношение F3 подчиняется F-распределению с параметрами f3 и f0. Пусть x - такое число, для которого вероятность события {F3>x} равна значению е, называемому уровнем значимости. Задав этот уровень и вычислив x=x(e;f3,fo), полученное F3 сравнивают с х: гипотеза отвергается, если F3 превышает х.

6. Ранжирование с учетом востребованности новостных источников

Кроме критериев категоризации онлайновых источников новостей по степени информативности в отношении той или иной темы, во многих ситуациях могут оказаться полезными дополнительные критерии ранжирования источников, связанные со степенью их востребованности, которая ассоциируется с определениями «известный», «популярный», «авторитетный» и т. п. Как правило (хотя и не обязательно) широкая известность источника новостей является функцией от качества подготовки новостной информации (оперативность, полнота, точность), поэтому первоочередной просмотр материалов именно известных источников очевидно целесообразен.

Степень известности новостного источника в Интернете можно измерить, фиксируя посещаемость и число гиперссылок, указывающих на данный источник. Эти параметры доступны наиболее распространенным системам поиска и статистики посещаемости. Поскольку сервисы автоматической обработки новостной информации обычно формируются как побочный продукт такого рода систем (к примеру, тот же news.google.com) оправданно предположить, что эти параметры имеются в распоряжении.

Пусть посещаемость определяется параметром V (количество хостов/уникальных пользователей/хитов за некоторый интервал времени, обычно за сутки), а число гиперссылок, указывающих на данный сайт - параметром L. Тогда ранжирование источников новостей с учетом их востребованности осуществляется с помощью матрицы «источник-тема», элементами которой являются функции Dj, которые зависят от 8, V и L. Пусть V- = — Z v,, L =1Z L't -

K k K k

статистические оценки математического ожидания параметров V и L, усредненные на интервале наблюдения; а V-k =■=——, L 'k = -— - параметры V и L, нормированные по набору ново-

Z Vlk Z Llk

3 3

стных источников с целью обеспечения сравнимости. Так как d может принимать как положительные, так и отрицательные значения, то при ранжировании источников по степени информативности в отношении отдельных тем удобнее пользоваться оценками, смещенными в диапазон

значений, начинающийся с нуля: 8. - min §-...

У 1 У

Тогда D примут следующий вид:

(<£. - min 8.) V Т

D. = 4 - min4 — =-----------2------------ZjZ -

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2

ЛИТЕРАТУРА

1. Шеффе Г. Дисперсионный анализ / Пер. с англ. - М: Мир, 1963.

2. Calvo R., Williams K. (2002). Automatic Categorization of Announcements on the Australian Stock Exchange. [On-line]. Available: http://www.ted.cmis.csiro.au/adcs2002/papers/calvo- wil-liams.pdf

3. Cristianini N., Shawe-Taylor J. (2000). An Introduction to Support Vector Machines. Cambridge University Press, 2000.

4. Fisher R. Statistical methods for research workers. Edinburgh, 1925.

5. Frommholz I. (2001). Automatic Categorization of Web Documents. [On-line]. Avail-able:http://www.is.informatik.uni-uisburg.de/teaching/seminars/dido/2001-01-16-frommholz-slides. pdf

6. H. Luo, Q. Huang (2002). Automatic categorization design for broadcast news. Proc. SPIE Vol. 4676, Storage and Retrieval for Media Databases 2002, p.p. 285-295.

7. Hung C. ,Wermter S. (2004). A Dynamic Adaptive Self-Organising Hybrid Model for Text Clustering. [On-line]. Available: http://www.his.sunderland.ac.uk/ps/hungc_clustering.pdf

8. Kohonen T. (2001). Self-organizing maps. Springer-Verlag, 2001.

9. Lam W., Ruiz M., Srinivasan P. (1999). Automatic Text Categorization and Its Application to Text Retrieval. IEEE Transactions on Knowledge and Data Engineering. November/December 1999 (Vol. 11, No. 6), pp. 865-879.

10. Liere R., Tadepalli P. (2004). Active Learning with Committees: Preliminary Results inCom-paring Winnow and Perceptron in Text Categorization. [On-line]. Available: http://www. rdrop.com/ ~lierer/conald98.ps

11. Moens M., Dumortier J. (2004). Automatic Categorization of Magazine Articles. [On-line]. Available: http://wwwis.win.tue.nl/infwet99/proceedings/moens.html

12. Lamb R., King J., Kling R. (2003). Informational Environments: Organizational Contexts of Online Information Use. Journal of the American Society for Information Science and Technology. Vol. 54, No. 2., pp. 97-114. NY: John Wiley & Sons.

THE METHOD OF ONLINE NEWS SOURCES RANKING

Gorbunov A.L.

The method of online news sources ranking that is based on the well-known mathematical mechanism of ANOVA is offered.

Сведения об авторе

Горбунов Андрей Леонидович, 1959 г.р., окончил Азербайджанский институт нефти и химии им. Азизбекова (1981), доцент МГТУ ГА, автор 30 научных работ, область научных интересов - информационный поиск.

i Надоели баннеры? Вы всегда можете отключить рекламу.