Научная статья на тему 'Применение метода анализа однородности для визуализации и анализа данных библиометрии и наукометрии'

Применение метода анализа однородности для визуализации и анализа данных библиометрии и наукометрии Текст научной статьи по специальности «Математика»

CC BY
169
41
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
классификация / анализ однородности / визуализация графов / classification / homogeneity analysis / visualization of graphs

Аннотация научной статьи по математике, автор научной работы — Гордеев Р. Н., Бурилин А. В.

Для составления очень точных прогнозов при решении задач регрессии и классификации доказали свою состоятельность ансамбли деревьев, в особенности случайный лес. Основная, возможно, необоснованная критика этого подхода состоит в том, что данные методы действуют как черные ящики и не дают дополнительной информации относительно объектов, не участвовавших в обучающей выборке. В данной работе рассмотрена многоклассовая классификация и показано, что анализ однородности, который используется главным образом в психометрии, может быть применен для обеспечения эффективной визуализации ансамбля деревьев, в том числе визуализации новых наблюдений, не вошедших в обучающую выборку. Наблюдения и правила (узлы) ансамбля деревьев помещены в двудольный граф, соединяющий каждое наблюдение со всеми правилами (узлами), которым оно удовлетворяет. Расположение графа в этом случае выбирается согласно минимизации суммы квадратов длин ребер при определенных ограничениях.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE HOMOGENEITY ANALYSIS APPLICATION TO VISUALIZE AND ANALYSE BIBLIOMETRICS AND SCIENTOMETRICS DATA

The ensembles of trees, especially random forest have proved themselves to produce accurate predictions for solving regression and classification tasks. Perhaps unjustified, the main criticism of this approach is that these methods act as black boxes and do not provide additional information on the objects that are not participating in the training set. This paper considers a multi-class classification and shows that the homogeneity analysis used mainly in psychometrics can be used to provide effective visualization of the ensemble of trees, including visualization of the new observations that were not included in the training set. Observations and rules (nodes) of the ensemble of trees are placed in a bipartite graph connecting each observation with all the rules (nodes) that satisfies it. The location of the graph in this case is chosen according to minimizing the sum of edges lengths squares with certain limitations.

Текст научной работы на тему «Применение метода анализа однородности для визуализации и анализа данных библиометрии и наукометрии»

: : : Исследование 1 : : : объект: - Virus.MSOffice.Shiver.d группа 1 : : : Исследование 2.2 : : : объект: - Backdoor.Win32.Danton.33 группа 3

группа 1: H1=0.1994410569 группа 2: H2=0.2458238058 группа 3: Н3=0,2543826219 Hmin=H1 автор - 1 группа 1: H1=0.2588223 группа 2: H2=0.2889311 группа 3: H3=0.2331365 Hmin=H3 автор - 3

: : : Исследование 2.1 : : : объект: - Email-Flooder.Win32.Dmb.01 группа 3 : : : Исследование 3 : : : объект: - Virus.DOS.Urod.773 группа 1

группа 1: H1=0.2804855 группа 2: H2=0.2545328 группа 3: H3=0.2043345 Hmin=H3 автор - 3 группа 1: H1=0.0667409 группа 2: H2=0.0828924 группа 3: H3=0.0827067 группа 4: H4=0.0836350 Hmin=H1 автор - 1

Рис. 4

Результаты исследования (рис. 4) показывают, что во всех четырех случаях автор был определен верно.

Однако данный метод имеет свои недостатки: все образцы исследуемого кода должны быть написаны на одном языке и с использованием одного компилятора для получения объективных результатов, к тому же требуется как минимум два образца кода, написанного автором ВК, причем исключительно им одним. Преимущества состоят в том, что способ определения автора ВК основан на сугубо математических выкладках (непредвзятая оценка без учета субъективного фактора исследователя). Кроме того, при выборе из небольшого числа авторов доступен на каждом компьютере и не требует никаких специальных программ.

В заключение необходимо ответить, что данный метод не может использоваться в качестве доказательства причастности того или иного человека к созданию ВК (решающую роль должна играть экспертная оценка), однако он может помочь существенно сузить круг вероятных авторов ВК.

Литература

1. Goel A., Okumoto K., Time-dependent Error - Detection Rate Model For Software Reliability And Other Performance Measures, IEEE Trans. On Software Eng., 1979, Vol. SE-28, no. 3.

2. Касперский Е.В. Компьютерные вирусы: что это такое и как с ними бороться. М.: СК Пресс, 1998.

3. Wilding E., Virus Bulletin, July, 1989.

4. Компьютерные вирусы за 5 лет, URL: http://news.pro-ext.com/sec/12582.html (дата обращения: 08.10.2012).

5. Боэм Б., Браун Дж. [и др.]. Характеристики качества программного обеспечения. М.: Мир, 1981.

6. Холстед М.Х. Начала науки о программах. М.: Финансы и статистика, 1981.

References

1. Goel A., Okumoto K., IEEE Trans. On Software Eng., 1979, SE-28, no. 3.

2. Kaspersky E.V., Kompyuternye virusy: chto eto takoe i kak s nimi borotsya [Computer viruses: what is it and how to cope with them], Moskva, SK Press, 1998.

3. Wilding E., Virus Bulletin, July, 1989.

4. Kompyuternye virusy za 5 let [Computer viruses in 5 years], available at: http://news.proext.com/sec/12582.html (accessed 8 October 2012).

5. Boehm B.W., Brown J.R., Kaspar H., Lipow M., MacLeod G.J., Merritt M.J., TRW Series on Software Technology. Vol 1: Characteristics of Software Quality, North Holland, 1978.

2. Halsted M.H., Elements of Software Science, Amsterdam, Elsevier North-Holland, 1977.

УДК 519.6, 004.9

ПРИМЕНЕНИЕ МЕТОДА АНАЛИЗА ОДНОРОДНОСТИ ДЛЯ ВИЗУАЛИЗАЦИИ И АНАЛИЗА ДАННЫХ БИБЛИОМЕТРИИ

И НАУКОМЕТРИИ

(Работа выполняется в рамках НИР «Разработка универсального программного комплекса интерактивного отображения, обработки и управления большими массивами данных на основе методик и алгоритмов построения связей между объектами» (ГК 14.514.11.4036), проводимой в ходе реализации ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технического комплекса России на 2007-2013 годы»)

А.В. Бурилин, ст. преподаватель; Р.Н. Гордеев, к.ф.-м.н., доцент («Интегрированные системы», Тверской государственный университет, ул. Желябова, 33, г. Тверь, 170100, Россия, [email protected], [email protected])

Для составления очень точных прогнозов при решении задач регрессии и классификации доказали свою состоятельность ансамбли деревьев, в особенности случайный лес.

Основная, возможно, необоснованная критика этого подхода состоит в том, что данные методы действуют как черные ящики и не дают дополнительной информации относительно объектов, не участвовавших в обучающей выборке.

В данной работе рассмотрена многоклассовая классификация и показано, что анализ однородности, который используется главным образом в психометрии, может быть применен для обеспечения эффективной визуализации ансамбля деревьев, в том числе визуализации новых наблюдений, не вошедших в обучающую выборку.

Наблюдения и правила (узлы) ансамбля деревьев помещены в двудольный граф, соединяющий каждое наблюдение со всеми правилами (узлами), которым оно удовлетворяет. Расположение графа в этом случае выбирается согласно минимизации суммы квадратов длин ребер при определенных ограничениях.

Ключевые слова: классификация, анализ однородности, визуализация графов.

THE HOMOGENEITY ANALYSIS APPLICATION TO VISUALIZE AND ANALYSE BIBLIOMETRICS AND SCIENTOMETRICS DATA Burilin A V., senior lecturer; Gordeev RN., Ph.D., associate professor (Integrated systems, Tver State University, Zhelyabova St., 33, Tver, 170100, Russia, aburilin@naumen. ru, rgordeev@naumen. ru)

Abstract. The ensembles of trees, especially random forest have proved themselves to produce accurate predictions for solving regression and classification tasks. Perhaps unjustified, the main criticism of this approach is that these methods act as black boxes and do not provide additional information on the objects that are not participating in the training set.

This paper considers a multi-class classification and shows that the homogeneity analysis used mainly in psychometrics can be used to provide effective visualization of the ensemble of trees, including visualization of the new observations that were not included in the training set.

Observations and rules (nodes) of the ensemble of trees are placed in a bipartite graph connecting each observation with all the rules (nodes) that satisfies it. The location of the graph in this case is chosen according to minimizing the sum of edges lengths squares with certain limitations.

Keywords: classification, homogeneity analysis, visualization of graphs.

В данной работе рассматривается проблема классификации данных и их визуального представления, а также предложен эффективный алгоритм, позволяющий значительно сократить количество вычислений, требуемых при малых изменениях анализируемых данных, возникающих в связи с добавлением или удалением какой-либо информации.

Для многоклассовой классификации с К классами положим, что (Хь 71), ..., (Х„, 7„) - п наблюдений прогнозирующей переменной ХеН, а 7е{1, ..., К} - переменная ответа класса. Прогнозирующая переменная X является вектором размерности р и может содержать непрерывные или факторные переменные.

Визуализация малоразмерных вложений данных может принимать различные формы: от неконтролируемого обучения до контролируемого уменьшения размерности или малоразмерных вложений данных, таких как анализ соседних компонентов [1] и схожих методов [2]. Однако авторы преследуют несколько иные цели: рассмотреть существующий алгоритм, точнее, класс алгоритмов, включающих случайный лес и вложенные деревья классификации, и разработать эффективные методы визуализации для членов этого класса.

Ансамбли деревьев показали, что могут делать достаточно точные прогнозы, а случайный лес -возможно, один из лучших самообучающихся машинных алгоритмов в том смысле, что точность его предсказаний очень близка к истинному значению даже без особой настройки параметров.

Рассмотрим случайный лес [3], вложенные деревья решений [4] и некоторые новые методы, например ансамбли правил [5].

Некоторые из существующих работ по визуализации деревьев [6] и ансамблей деревьев были всесторонне освещены в [7] и включают исследование рельефных графиков и графиков слежения, используемых, например, для определения устой-

чивости деревьев и переменных, выбранных в качестве критерия классификации.

Так называемые матрицы близости часто используются для маломерных вложений наблюдений в классификации [3, 8, 9]. Вопросы неконтролируемого обучения с применением случайного леса рассмотрены в работе [10]. Каждая запись в матрице близости отражает долю деревьев в ансамбле, для которого пара наблюдений находится в одном и том же узле. Недостатком указанных методов визуализации является то, что исходные узлы дерева не отображаются, поскольку происходит потеря информации за счет агрегации в матрице близости. Кроме того, это затрудняет добавление новых наблюдений.

В данной работе авторы будут применять методы анализа однородности для визуализации ансамблей деревьев. В этом подходе наблюдения и правила (узлы) формируют двудольный граф. Минимизация квадратов длин ребер в таком графе приводит к очень интересным малоразмерным проекциям данных.

Размещение правил (узлов) и наблюдений на одном графике позволяет лучше интерпретировать проекции, а также точнее определять границы классов и отражать прогнозирование используемого ансамбля деревьев. Если количество классов классификации мало, можно показать, что обычное правило классификации ближайшего соседа для малоразмерных вложений данных позволяет производить прогнозирование с точностью, аналогичной точности прогнозирования при использовании случайного леса.

В данном исследовании применяется метод анализа однородности для визуализации больших массивов наблюдений и правил на одном графике.

Анализ однородности

Матрица индикаторов. Анализ однородности был разработан в прикладных науках для исследо-

вания и прогнозирования социальных процессов и визуального представления данных с факторными переменными. Положим, что есть / факторных переменных к=1, ...,/ каждая с уровнем фактора 4. Данные могут быть представлены в виде бинарной матрицы, если закодировать каждую из к=1, ..., / переменных в виде пх4 матрицы бинарного индикатора 0(К), в которой к-я колонка содержит 1 для всех наблюдений, имеющих уровень фактора к для переменной к. Эти матрицы могут быть объединены в матрицу пхт О=(О(1), ..., О1^), где т=Е^4 - общее количество фиктивных переменных.

Каждый из листьев дерева может быть представлен бинарной переменной, индикатором, в котором 1 означает, что наблюдение попадает в лист дерева, 0 - не попадает. Рассматривая листья как обобщенные фиктивные переменные, можно аналогично построить матрицу индикаторов О для ансамблей деревьев. Для данного ансамбля деревьев с общим количеством узлов т пусть листья Р, будут гиперплоскостями пространства Н, соответствующими листу j, j=1, ..., т. Наблюдение попадает в лист Р, тогда и только тогда, когда ХеР,. Результаты ансамбля деревьев с т листьями во всех деревьях можно объединить в матрицу индикаторов О размерности пхт, где Оу=1, если 1-е наблюдение попадает в j-й лист, и 0 в против-

IX если X,. е Р., ном случае: = ^

" [0, если X, г .

Эта матрица очень похожа на матрицу индикаторов анализа однородности. Построковая сумма матрицы О идентична числу Р факторных переменных анализа однородности, более того, построковая сумма О для ансамблей деревьев равна числу деревьев, поскольку каждое наблюдение попадает только один раз в лист в каждом дереве. Далее не будем считать построковую сумму постоянной, это позволит сделать некоторые обобщения без чрезмерного усложнения обозначений и вычислений. Единственное предположение заключается в том, что суммы по строкам и колонкам матрицы О строго положительны, то есть каждое наблюдение попадает по крайней мере в один узел, а каждый узел содержит по крайней мере одно наблюдение. Кроме того, будем полагать, что корневой узел, содержащий все наблюдения, входит в набор правил. Это гарантирует, что двудольный граф, соответствующий О, является связанным.

Двудольный граф и анализ однородности. Анализ однородности можно рассматривать как формирование двудольного графа, в котором каждое из п наблюдений и каждое из т правил или фиктивных переменных представлены узлом графа. Между наблюдением и правилом (узлом) существует ребро тогда и только тогда, когда наблюдение удовлетворяет правилу. Другими сло-

вами, между наблюдением / и правилом j существует ребро тогда и только тогда, когда Оу=1.

Таким образом, нужно расположить наблюдение как можно ближе ко всем правилам, которые его содержат. И, наоборот, правило должно находиться как можно ближе к наблюдению, которое оно содержит.

На рисунке 1 представлен пример отображения выборки авторов, принадлежащих различным областям знаний, и их статей. В данном случае статьи (малые узлы графа) являются наблюдениями, а авторы (большие узлы графа) - правилами. Некоторые авторы могут иметь совместные статьи, то есть при классификации статей могут формироваться группы, которые не только отражают принадлежность той или иной статьи к определенному роду знаний, но и показывают связи между различными видами знаний. Так, например, фиолетовым (цифра 3) и желтым (маркер 1) отмечены соответственно математик и физик; таким образом определено, что виды знаний весьма тесно связаны, а совместные статьи этих авторов образуют отдельный кластер, который ошибочно содержит и отдельную статью по физике. Анализ однородности пытается минимизировать сумму квадратов длин всех ребер. На картинке представлен граф при фиксированном положении правил. Каждая статья располагается в центре относительно всех правил, которые к ней применяются. Цвет статей соответствует различным классам. Физико-математические статьи, например, обозначаются красным (литера А), статьи на стыке информатики и математики - зеленым (литера С).

Пусть и - матрица размером пхд, содержащая координаты п наблюдений во вложении размерности д, Я - матрица тхд проецируемых правил.

Обозначим через и /-ю строку матрицы и, а через Я, у'-ю строку матрицы Я. Анализ однородности выбирает проекцию, минимизируя квадраты длин

ребер: argminUR 2

U - Я

i,j:G,,= 1 ||U i 2 ■

(1)

UTWU=1q eTnU=0,

Пусть еп - п-мерная колонка-вектор, содержащая одни единицы, а 1, - д-мерная единичная матрица. Чтобы избежать тривиальных решений, дополнительно накладываются ограничения [11] вида

(2) (3)

где W - положительно определенная весовая матрица.

Таким образом, анализ однородности соответствует нахождению вложения размерности д (где д обычно равно 2) как наблюдений, так и правил, таких, что сумма квадратов длин ребер является минимальной. Далее будем взвешивать выборки количеством правил, с которыми они связаны, таким образом, W будет диагональной матрицей с элементами Wп=E;■Gy, поэтому W=diag(GGT) является диагональной частью ■■т. В стандартном анализе однородности каждая выборка является частью точно такого же количества правил, поскольку соответствует уровням фактора, и весовая матрица W=f1n, таким образом, будет единичной матрицей, умноженной на число f факторной переменной. Для большинства ансамблей деревьев также справедливо, что W=T1n является диагональной матрицей, поскольку каждое наблюдение попадает в такое же количество Т листьев, где Т -количество деревьев в ансамбле.

Основные результаты

Отображение правил. Если координаты и наблюдений остаются постоянными, то расположения правил Я в задаче (1) при ограничениях (2) могут быть легко найдены, поскольку ограничения не зависят от Я. Каждая проекция правила Я,, '=1, ..., т, находится в центре относительно всех наблюдений, которые содержит правило:

Ei G,.,.U i

R t = ij i , R=diag(GTG)-lGTU,

E, G

(4)

где diag(M) - диагональная часть матрицы М, в которой все элементы, не принадлежащие диагонали, равны 0.

Значения матрицы и могут быть найдены методом наименьших квадратов или путем решения задачи с собственными значениями.

Задача оптимизации (1) при ограничениях (2) может быть решена либо оптимизацией позиций и для п реализаций, либо оптимизацией позиций Я для т правил, при этом в каждом случае остальные параметры остаются неизменными. Оптимизация относительно позиций правил Я при заданных фиксированных позициях и реализаций

решена в (4). Оптимизация относительно U при ограничениях (2) решается методом наименьших квадратов аналогично (4):

U=diag(GGTylGR, (5)

помещая каждую реализацию в центр всех правил, которые ее содержат [12].

В отличие от следующего подхода, основанного на вычислении собственных значений, вычисления состоят только из умножения матриц. А поскольку G в большинстве случаев является разряженной матрицей, это может значительно улучшить эффективность вычислений.

Целевая функция задачи (1) может быть альтернативно записана в виде

Si,j:G„ = 1 |Ui - Rj|2 = Zi

+ Ej||Rj\ 12 Ei Gj-2Sj. tr(UTGijRj) =

= tr(U T diag (GGT )U) + tr (RT diag (GT G) R) -

-2 tr (U T GR), где tr(M) - след матрицы M Обозначим Du = diag(GGT), Dr = diag(GT G).

Тогда исходная задача может быть сведена к задаче вида

argтахи tr(UT (GD;'GT )U) (6)

при ограничениях UT DuU = 1 , eT U = 0.

Далее, используя разложение по собственным векторам и (4), получим решение:

i..2Zj Gj +

T

U = D;mV,

r = d:-gtu .

(7)

(8)

где У=(ух, ..., V,) - матрица, состоящая из первых д собственных векторов матрицы А := Б;1'2STn (GD;1GГ )SЯБ;1'2. Фиксированные позиции правил и новые наблюдения. После получения раскладки графа (8) упрощается второй шаг и фиксируется положение правил в точках полученных решений. В этом случае анализ однородности будет иметь очень полезное свойство: можно элементарно добавлять новые наблюдения на график без пересчета всего решения. Минимизировать сумму квадратов длин ребер (1) при фиксированных позициях правил весьма просто: наблюдение помещается в центр всех правил, которые к нему применяются. В матричном виде решение выглядит так:

U = diag(GG )-1 GR = DM-1GR .

(9)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Простой пример приведен на рисунке 1. На нем представлены статьи (наблюдения) и авторы (правила), полученные на основе анализа структуры данных системы цитирования elibrary.ru. Правила являются бинарными индикаторами, отражающими одну или несколько характеристических черт (в данном исследовании это авторство статьи).

Для размещения наблюдений предлагается следующий подход.

1. Находим положение правил, минимизируя сумму квадратов длин ребер, при ограничениях (2) и (3).

2. Фиксируем положение правил и размещаем все наблюдения и, минимизируя снова сумму квадратов длин ребер: каждое наблюдение размещается в центре всех правил, которые к нему применяются, используя (9).

3. Добавляем новое наблюдение и вычисляем его расположение, используя (9).

В примере, приведенном на рисунке 2, показано предсказание новых наблюдений в двухмерных проекциях. Раскрашенные наблюдения соответствуют обучающим наблюдениям с известными кодами цвета (класса области знаний). Светло-фиолетовым (обозначено литерой А') изображена статья по физике, авторами которой являются физик, математик и информатик. Статья при этом правильно классифицирована и отнесена к области знаний «физика», поскольку это ближайшая обучающая группа. Справа аналогично классифицируется изображенная серым узлом (обозначено литерой Е') статья по медицине, написанная медиком, специалистом в области ИТ и биологом. Однако она была неверно отнесена к области знаний «химия» (розовый цвет, группа Е).

Пример

Применим анализ однородности для оценки действий экспертов, рецензирующих статьи в научных журналах. И, кроме того, попробуем проанализировать некоторые другие интересные характеристики, полученные в ходе эксперимента.

Данные о результатах экспертизы статей, принимаемых в рецензируемые журналы по астрофи-

зике, были собраны Нури и Роландом в 2002-2006 годах. Всего получена информация о 5 745 оценках статей 696 экспертами. При каждой оценке возможен один из трех вариантов: оценить положительно, оценить отрицательно, отправить на доработку.

При анализе этих данных встает вопрос о том, можно ли установить связь между оценкой статьи и принадлежностью эксперта определенному научному центру. Это позволит сделать ряд определенных выводов, касающихся предвзятой оценки своих коллег, насколько одинаково оценивают статьи эксперты из одного научного центра, существуют ли среди экспертов определенные подгруппы. Также необходимо выяснить, есть ли связь между национальностью эксперта и его оценками статей.

Все эксперты принадлежали одному из восьми научных центров: первый будем обозначать светло-голубым, второй - темно-синим, третий - желтым, четвертый - зеленым, пятый - красным, шестой - оранжевым, седьмой - коричневым, восьмой - черным.

Классификатор - случайный лес со 100 деревьями и параметрами, настроенными на обучающей выборке. Принадлежность эксперта тому или иному научному центру определяется при помощи случайного леса с ошибкой примерно в 10 %. Двухмерные вложения выбраны для выявления связей между научными центрами и для определения экспертов, ведущих себя отлично от своих коллег.

Многомерное шкалирование. Для визуализации результатов анализа, полученных при помощи случайного леса, обычно применяют многомерное шкалирование близостей [3, 8]. Близость двух наблюдений определяется как соотношение деревьев в случайном лесе, для которого оба наблюдения попадают в листовой узел. Матрица близостей в наших обозначениях может быть вычислена при помощи следующего выражения: TЛGGT, где Т -количество деревьев в ансамбле. Расстояние, определяемое как 1, меньше, чем близость. Тогда матрица расстояний вычисляется при помощи выражения 1Л-T-1GGT или монотонного преобразования, такого, как квадратный корень [10]. Здесь используется неметрическое многомерное шкалирование, а именно isoMDS [13-15], которое делает результаты инвариантными относительно любого монотонного преобразования расстояний. генерирует двухмерные вложения для всех наблюдений, в данном случае экспертов, которые можно видеть слева на рисунке 3.

Хотя это дает представление о близости между институтами, все же научные центры не располагаются, как когерентные блоки, и особенно это заметно на экспертах из 7-го и 8-го научных центров (черный и коричневый), которые весьма широко разбросаны.

Рис. 3. Применение анализа однородностей для выявления групп экспертов

Анализ однородности. Справа на рисунке 3 представлены результаты обработки тех же данных при помощи анализа однородности. При этом G является матрицей размерности пхт, в которой каждый из т столбцов соответствует листовому узлу случайного леса. Значение 0 соответствует случаю, когда эксперт не попал в лист, 1 - попал. Теперь заметно, что все научные центры имеют свои точки притяжения и располагаются более компактно, формируя треугольник, как показано на рисунке 3 справа. На нем отчетливо видны достаточно сильные взаимосвязи некоторых из научных центров. При использовании этого подхода неверная классификация составляет примерно 19 % и есть еще над чем работать (для случая использования метода ближайшего соседа в двухмерных вложениях).

Однако даже эти результаты дают весьма интересную картину. Так, можно сказать, что эксперты из институтов 2, 3, 7, 8 примерно одинаково оценивают все статьи, в то время как эксперты из 4-го и 6-го институтов некоторые статьи оценивают одинаково, а относительно других статей их мнения расходятся.

На основании изложенного отметим, что метод однородности для визуализации и классификации данных заключается в вычислении начальных расположений правил на основе обучающей выборки и в формировании начальных групп наблюдений на базе метода наименьших квадратов. Далее фиксируется расположение правил, относительно которых располагаются поступающие новые наблюдения. Классификация новых наблюдений производится на основе принципа «ближайшего соседа» по отношению к классам наблюдений, сформированным обучающими данными.

Данный подход позволяет избежать полного пересчета всей модели при добавлении в нее новых наблюдений и увеличить скорость работы алгоритма.

Возможности подхода продемонстрированы на модельном примере, оценивающем связи институ-

тов на основе действий экспертов, рецензирующих статьи.

Литература

1. Goldberger J., Roweis S., Hinton G. and Salakhutdinov R., Neighbourhood Components Analysis, in Advances in Neural Inf. Proc. Syst., 2005, Vol. 17, pp. 513-520.

2. Sugiyama M., Dimensionality Reduction of Multimodal Labeled Data by Local Fisher Discriminant Analysis, Journ. of Machine Learning Research, 2007, no. 8, 1061 p.

3. Breiman L., Random Forests, Machine Learning, 2001, no. 45, pp. 5-32.

4. Breiman L., Bagging Predictors, Machine Learning, 1996, no. 24, pp. 123-140.

5. Friedman J. and Popescu B., Predictive Learning via Rule Ensembles, The Annals of Applied Statistics, 2008, no. 2, pp. 916954.

6. Breiman L., Friedman J., Olshen R., and Stone C., Classification and Regression Trees, Belmont: Wadsworth, 1984.

7. Urbanek S., Visualizing Trees and Forests, in Handbook of Data Visualization, Berlin, Heidelberg: Spinger, 2008, pp. 243264.

8. Liaw A. and Wiener M., Classication and Regression by RandomForest, R News, 2002, no. 2, pp. 18-22.

9. Lin Y. and Jeon Y., Random Forests and Adaptive Nearest Neighbors, Journ. of the American Statistical Association, 2006, no. 101, 578-590.

10. Shi T. and Horvath S., Unsupervised Learning With Random Forest Predictors, Journ. of Computational and Graphical Statistics, 2006, no. 15, pp. 118-138.

11. De Leeuw J. and Mair P., Homogeneity Analysis in R: The Package Homals, Journ. of Statistical Software, 2008, no. 31, pp. 1-21.

12. Michailidis G. and De Leeuw J., The Gifi System of Descriptive Multivariate Analysis, Statistical Science, 1998, no. 13 (4), pp. 307-336.

13. Borg I. and Groenen P., Modern Multidimensional Scaling: Theory and Applications, NY: Springer, 1997.

14. Kruskal J., Nonmetric Multidimensional Scaling: A Numerical Method, Psychometrika, 1964, no. 29, pp. 115-129.

15. Kruskal J. and Wish M., Multidimensional Scaling, Beverly Hills: Sage Publ., 1978.

References

1. Goldberger J., Roweis S., Hinton G., Salakhutdinov R.,

Advances in Neural Inf. Proc. Syst., 2005, Vol. 17, pp. 513-520.

2. Sugiyama M., Journ. of Machine Learning Research,

2007, no. 8, 1061 p.

3. Breiman L., Machine Learning, 2001, no. 45, pp. 5-32.

4. Breiman L., Machine Learning, 1996, no. 24, pp. 123-140.

5. Friedman J., Popescu B., The Annals of Applied Statistics,

2008, no. 2, pp. 916-954.

6. Breiman L., Friedman J., Olshen R., Stone C., Classification and Regression Trees, Belmont, Wadsworth, 1984.

7. Urbanek S., Handbook of Data Visualization, Berlin, Heidelberg, Spinger, 2008, pp. 243-264.

8. Liaw A., Wiener M., R News, 2002, no. 2, pp. 18-22.

9. Lin Y., Jeon Y., Journ. of the American Statistical Association, 2006, no. 101, pp. 578-590.

10. Shi T., Horvath S., Journ. of Computational and Graphical Statistics, 2006, no. 15, pp. 118-138.

11. De Leeuw J., Mair P., Journ. of Statistical Software, 2008, no. 31, pp. 1-21.

12. Michailidis G., De Leeuw J., Statistical Science, 1998, no. 13 (4), pp. 307-336.

13. Borg I., Groenen P., Modern Multidimensional Scaling: Theory and Applications, NY, Springer, 1997.

14. Kruskal J., Psychometrika, 1964, no. 29, pp. 115-129.

15. Kruskal J., Wish M., Multidimensional Scaling, Beverly Hills, Sage Publ., 1978.

i Надоели баннеры? Вы всегда можете отключить рекламу.