Научная статья на тему '"MULTIWAY DATA ANALYSIS" И ОБЩАЯ ЗАДАЧА РАНЖИРОВАНИЯ ЖУРНАЛОВ'

"MULTIWAY DATA ANALYSIS" И ОБЩАЯ ЗАДАЧА РАНЖИРОВАНИЯ ЖУРНАЛОВ Текст научной статьи по специальности «Экономика и бизнес»

CC BY
92
17
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Прикладная эконометрика
Scopus
ВАК
Область наук
Ключевые слова
ВЕСА ПОКАЗАТЕЛЕЙ / WEIGHTS OF INDICATORS / АГРЕГИРОВАНИЕ ВЕСОВ / AGGREGATION OF WEIGHTS / МЕТОД ГЛАВНЫХ КОМПОНЕНТ / PRINCIPAL COMPONENT ANALYSIS / ДЕКОМПОЗИЦИЯ ТАКЕРА / TUCKER DECOMPOSITION / MW АНАЛИЗ / RANKING / RATING / MULTI-WAY DATA ANALYSIS

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Рубинштейн А.Я., Слуцкин Л.Н.

В работе представлен принципиально новый алгоритм ранжирования (на примере экономических журналов), в котором использован "Multiway data analysis" применительно к результатам социологического опроса представителей экономического сообщества. Созданный алгоритм обеспечивает определение весовой функции агрегирования частных рейтингов с учетом статистически выявляемых различий между респондентами и весов журналов, отражающих латентные соотношения между всеми составляющими процесса измерения характеристик журналов. Его центральным элементом является итеративная процедура определения ядра журналов и выделения на ее основе подмножества экспертов, оценки которых позволяют определить агрегированные рейтинги журналов с их последующей кластеризацией. Практическим итогом выполненного исследования является методологическое и инструментальное обоснование ранжирования российских экономических журналов и выделение на этой основе пяти категорий периодических изданий.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

"Multiway data analysis" and the general problem of journals'' ranking

The paper presents a principally new ranking algorithm (on the example of economic journals) which applies methods of multiway data analysis to a sociological survey of representatives of the economic community. The algorithm provides determination of the weight function for aggregation of private ratings, taking into consideration both statistically discovered differences between the respondents and the journals weights. It also reflects latent relationships between all the components of measurement process of journals characteristics. The algorithm central element is an iterative procedure of determination of the journals core and extracting on its basis a subset of experts, whose estimates allow determining the journals aggregated ratings with subsequent clustering. The research practical result is methodological and instrumental justification of Russian economic journals ranking and selection on its basis the five categories of periodical publications.

Текст научной работы на тему «"MULTIWAY DATA ANALYSIS" И ОБЩАЯ ЗАДАЧА РАНЖИРОВАНИЯ ЖУРНАЛОВ»

Прикладная эконометрика, 2018, т. 50, с. 90 -113. Applied Econometrics, 2018, v. 50, pp. 90-113.

А. Я. Рубинштейн, Л. Н. Слуцкин1

«Multiway data analysis» и общая задача ранжирования журналов

В работе представлен принципиально новый алгоритм ранжирования (на примере экономических журналов), в котором использован «Multiway data analysis» применительно к результатам социологического опроса представителей экономического сообщества. Созданный алгоритм обеспечивает определение весовой функции агрегирования частных рейтингов с учетом статистически выявляемых различий между респондентами и весов журналов, отражающих латентные соотношения между всеми составляющими процесса измерения характеристик журналов. Его центральным элементом является итеративная процедура определения ядра журналов и выделения на ее основе подмножества экспертов, оценки которых позволяют определить агрегированные рейтинги журналов с их последующей кластеризацией. Практическим итогом выполненного исследования является методологическое и инструментальное обоснование ранжирования российских экономических журналов и выделение на этой основе пяти категорий периодических изданий.

Ключевые слова: ранжирование; рейтинг; веса показателей; агрегирование весов; метод главных компонент; декомпозиция Такера; MW анализ. JEL classification: A11; A12; A14; C38.

Введение

Различные сопоставления, выбор приоритетов и ранжирование объектов — важная часть любой системы управления и государственного регулирования. Влияют они и на поведение экономических агентов, домохозяйств и индивидуумов. Примером здесь может служить ранжирование банков и кредитных организаций, где ошибочные рейтинги увеличивают риски принятия неверных решений и их негативных последствий.

Всевозможные рейтинги присутствуют и в нашей повседневной жизни. Мы постоянно слышим о писателях, артистах, художниках и музыкантах, которых молва или СМИ расставляют на соответствующие ступени пьедестала общественного признания; нам регулярно сообщают о рейтингах телевизионных программ и радиопередач; путешествуя, мы узнаем о рейтингах отелей и ресторанов; мы знаем о ранжировании в спорте, рейтингах теннисистов, шахматистов и футбольных команд; наконец, нам постоянно сообщают рейтинги политиков. Табель о рангах — любимая игра политологов, журналистов и простых обывателей.

И если в давние времена такое ранжирование происходило во многом спонтанно, отражая в той или иной степени общественное мнение, то двадцатый век сделал массовыми институциональные процедуры определения «лучших»: многочисленные конкурсы музыкантов,

1 Рубинштейн Александр Яковлевич — Институт экономики РАН, Москва; arubin@aha.ru. Слуцкин Лев Наумович — Институт экономики РАН, Москва; levslutskin@yandex.ru.

артистов, спектаклей и кинофильмов, писателей и журналистов; международные и националь- § ные премии; спортивные турниры, выявляющие победителей в прямом состязании. Появи- ^ лись и профессиональные агентства, создающие и пересматривающие рейтинги для разного ^ рода экономических организаций и суверенных государств. Ранжирование захватило бук- ^ вально все сферы человеческой деятельности, накрыв плотной волной науку и образование. ,-с

И нынче здесь «правит бал» наукометрия. Ее создателями считаются Юджин Гарфилд Ï и Дерек Джон де Солла Прайс. Еще в 1950-х годах в журнале Американской ассоциации со- g действия развитию науки была опубликована первая статья, посвященная индексу цитирования (Garfield, 1955), а почти сорок лет спустя ее автор стал создателем Института научной информации (ISI) и, наверное, самой известной информационной базы Web of Science. Он же 4 ввел в наукометрию разработанные им в библиографических целях первые индексы цитирования для статей, опубликованных в научных журналах — «Science Citation Index» (SCI), и индексы цитирования по общественным наукам «Social Sciences Citation Index» (SSCI)2. Другому основателю этого количественного подхода, английскому историку науки Д. Прайсу, принадлежит опубликованная в 1963 году книга «Малая наука, большая наука», переведенная в 1966 году на русский язык (Прайс, 1966). Эта книга, где речь идет о методах измерения продуктивности ученых, стала основой современной наукометрии, а ее автор в 1970-х годах активно участвовал в формировании американской программы «Индикаторы науки», задачей которой были сбор соответствующих показателей.

С тех пор «индекс цитируемости» все больше и больше истолковывается как показатель продуктивности того или иного ученого. «Созданный ради сугубо научно-библиографических целей индекс цитирования превратился в одно из вспомогательных средств администрирования в науке. ... Несмотря на предупреждения основателей наукометрического подхода о том, что величина цитирований не позволяет говорить о большей или меньшей продуктивности ученого, этот показатель превращается в ту административную дубинку, которая не только ранжирует ученых по этому показателю, но и оценивает их вклад в научные разработки» (Идеи и числа., 2016, с. 99).

В России оценки публикационной активности начинают прямо или косвенно определять карьерный рост, доступ к грантам и зарплаты для большинства ученых и преподавателей. Введение же «эффективного контракта» узаконило стимулирующую часть оплаты их труда, которая при отсутствии обоснования гипотезы о связи качества публикаций с их цитированием стала непосредственно зависеть от наукометрических показателей. Адаптируясь к насаждаемой в стране системе управления наукой и высшей школой, где таким показателям отведена главенствующая роль, сотрудники исследовательских институтов и преподаватели университетов вынуждены все в большей степени обращать внимание на свои «биб-лиометрические успехи» . Отметим при этом невысокую культуру цитирования. Рискнем

2 Подробнее об этом см. (Идеи и числа..., 2016, с. 93-103).

3 В результате реформы РАН, создания ФАНО и фактического подчинения ему академических институтов, главным результатом научной деятельности институтов, как известно, стали число опубликованных статей в журналах, индексированных в РИНЦ или зарубежных базах данных, а также всевозможные «хирши». К сожалению, другие виды научных публикаций, например, монографии, сборники научных статей и выступлений на конференциях, ФАНО, а вслед за ним и руководство институтов, не учитывает. В сущности, содержательные результаты научных исследований оказались за пределами интересов руководителей ФАНО. Их полностью заменили всевозможные таблицы с количественными показателями, базирующимися, в основном, на данных РИНЦ.

предположить даже, что многие российские исследователи цитируют «не смыслы, а имена» (гало-эффект). Безудержное цитирование Маркса и руководителей коммунистической партии в советские времена трансформировалось в новый феномен «цитирования ради цитирования» и неоправданный приоритет ссылок на зарубежных авторов как представителей «настоящей науки».

В какой-то мере отечественные экономисты (возможно, и не только они) стали жертвой «закона Гудхарта» (Goodhart, 1975) . Данный феномен отмечают многие исследователи: «Когда индексы, рейтинги, публикации и базы данных служат мерилом результативности отдельных ученых, преподавателей и целых коллективов в хорошо нам знакомой академической среде, акторы начинают подстраиваться к новым требованиям: объективные и прозрачные системы расчета показателей вызывают множественные эффекты — от простого вала публикаций до разного рода фальсификаций» (Волкова, 2016, с. 58). Из-за избыточного внимания «менеджеров науки» к индексам цитирования и на фоне развития российской информационной базы цитирования (РИНЦ) важную роль стали играть показатели публикационной активности ученых и педагогов; появились среди них и «чемпионы» с некачественными статьями (Муравьев, 2013; Балацкий, Екимова, 2015б).

Сам набор таких показателей оказался достаточно ограничен: число публикаций, число цитирований и среднее число цитирований в расчете на одну публикацию, индекс Хирша (h-index), индекс Прайса, а также различные их комбинации . Это относится и к базе данных РИНЦ, и к известным международным базам: Web of Science (WoS), SCImago Journal Rank (SJR Scopus), Social Science Research Network (SSRN), Research Papers in Economics (RePEc), Source Normalized Impact per Paper (SNiP), отличающимся от РИНЦ совокупностью индексируемых объектов, но практически совпадающими с ней по своему аналитическому инструментарию.

Проблема ранжирования коснулась и научных журналов. Здесь важную роль играют показатели, характеризующие научный уровень изданий, в которых авторы публикуют свои статьи. При этом опять же без всяких обоснований используется гипотеза о связи научного уровня журнала и качества публикуемых статей с количественными показателями, основанными на цитировании. Наибольшую популярность в России и других странах получило семейство «импакт-факторов» (двухлетний и пятилетний импакт-фактор, различные их модификации), индекс Херфиндаля, а также многочисленные комбинации этих индикаторов, включая композитный Science Index.

При этом библиометрические данные, в основе которых лежат цитирование и пристатей-ные списки литературы, указывают, да и то косвенно, лишь на «знание» той или иной работы другими авторами и являются нечувствительными непосредственно к содержанию статей и научному уровню журналов, где они опубликованы. Поэтому попытки использования

4 По своему содержанию этот закон очень близок «критике Лукаса», согласно которой наблюдаемое поведение экономической системы испытывает на себе влияние проводимой экономической политики. С учетом этого эконометрические модели, построенные на основе ранее проводимой политики, становятся ненадежными для оценки ее последствий. То же самое можно сказать и в отношении библиометрических оценок результатов деятельности научных работников.

5 Следует отметить, что в последнее время, помимо индекса Хирша ф), ставшего уже классическим, все чаще используются его модификации: g-индекс (Egghe, 2006) и р-индекс (РгаШар, 2010). Подробнее об этом см. (Балацкий, Юревич, 2016).

этих показателей для определения отношения «лучше-хуже» почти всегда оказываются §

в плену произвола интерпретации и постоянно критикуются специалистами (Seglen, 1997; ^

Адлер и др., 2011; Waltman, 2016; Идеи и числа., 2016). Аналитический обзор исследова- ^

ний по данной теме представлен в статье (Рубинштейн, 2016). ^

Настоящая работа, хотя и продолжает исследования одного из ее авторов по проблемам ^

классификации российских экономических журналов (Рубинштейн, 2014, 2016; Рубинштейн £

и др., 2017), имеет главной целью изучение более широкого класса явлений и выходит дале- § ко за границы ранжирования журналов. Речь идет о проблеме упорядочения любой системы объектов по набору их характеристик и способу измерения каждой из них. В определенном

смысле это относится к ряду вопросов теории общественного выбора и алгоритмам авто- 4 матической классификации. В данной работе рассмотрена журнальная проблематика с использованием полученных ранее результатов.

1. Постановка задачи

Анализ основных работ по классификации российских экономических журналов на основе библиометрической информации (Федорец, 2009; Муравьев, 2013; Балацкий, Екимо-ва, 2015в) позволяет реконструировать задачу ранжирования и предложить ее формальную постановку. Если имеется совокупность сравниваемых объектов и набор измеряемых характеристик, по каждой из которых их можно упорядочить, то указанная задача сводится к нахождению агрегированного критерия (рейтинга), на основе которого осуществляется ранжирование этих объектов.

1.1. Двумерная наукометрическая модель

Оставляя в стороне проблемы выбора совокупности объектов, обоснования их характеристик, измерения и соответствия используемых характеристик целям исследования, в упрощенном варианте задачи предполагается, что в качестве наблюдений используются сами анализируемые объекты. Если задано значение /-го признака (характеристики) для к-го объекта, то это означает, что имеется к-ое наблюдение для/-го признака. Иначе говоря, можно считать, что задана двумерная матрица F = (fjk), где — значение /-го признака для к-го объекта6; к — номер наблюдения (объекта), к £ [1, К]; / — номер признака, j £ [1, J].

Тогда критерий ранжирования (в данном случае агрегированный рейтинг журналов) представляет собой взвешенную сумму значений заданных признаков рассматриваемых объектов:

J

ккх /к, (!) где Як — агрегированный рейтинг к-го объекта; Ь — вес /-го признака.

6 Исходя из необходимости сопоставления используемых показателей, они, как правило, рассматриваются в стандартизованной форме, в виде отношения разности фактической и средней величины показателя к стандартному отклонению (Муравьев, 2013).

Определение агрегированного рейтинга основано на определении соответствующей весовой функции — вектора весов Ь , который в большинстве случаев ранжирования журналов выбирается достаточно произвольно, исходя из качественных соображений (Муравьев, 2011, 2013; Балацкий, Екимова, 2015а, б, в; Проект НИУ ВШЭ по экспертному ранжированию российских научных журналов, 2015 ). Наиболее часто предполагается, что все признаки, характеризующие анализируемые объекты, имеют одинаковый вес 3, =1. Правда, встречаются и такие случаи, когда допускается, что один признак доминирует, тогда ему присваивается наибольший вес.

Отметим также, что использование статистических методов выявления весовой функции Ь ,, отражающих внутренние закономерности, присущие массиву данных (), вызывает определенные трудности. Сошлемся здесь на А. Муравьева: «эксперименты с использованием метода главных компонент, основной альтернативы предложенному алгоритму, оказались в целом неудовлетворительными в виду сложности (неоднозначности) интерпретации выделенных компонент» (Муравьев, 2013, с. 139). Ничего неожиданного здесь нет, поскольку трудно представить, что из показателей цитируемости можно вывести содержательные суждения о качестве публикаций или научном уровне журналов.

Имея в виду общую задачу ранжирования объектов, ситуацию можно существенно улучшить, если используемый принцип — «наблюдениями являются анализируемые объекты» — заменить другим положением о том, что «имеется совокупность наблюдений, не совпадающая с объектами и позволяющая измерять набор характеристик для каждого из них». Речь идет о другом классе задач, связанных с упорядочением конечного множества объектов, каждый из которых описывается одинаковым для всех объектов набором признаков при наличии фиксированного числа наблюдений, позволяющих измерять значения признаков из заданного набора для каждого объекта. В этом более общем случае можно считать, что задана трехмерная матрица V = (у^), где \ — номер наблюдения в их общем массиве, i £ [1,1]; , — номер признака, характеризующего каждый объект, ] £ [1, J]; к — номер объекта в их общем списке, к £ [1, К].

Решение задачи ранжирования сводится к нахождению для каждого к-го объекта величины агрегированного критерия, представляющего собой усредненную по всем наблюдениям взвешенную сумму значений характеристик объектов:

где Як — значение агрегированного критерия; Ь , — вес ,-й характеристики объектов.

Отметим, что выражение (2) для агрегированного критерия является общим для разных наборов признаков, характеризующих объекты. В частности, оно может применяться и для рассмотренного выше случая, когда в качестве объектов анализируются журналы (i = 1),

7 http://grant.hse.ru/public/data/brochure.docx (по состоянию на 07.10.2015).

1.2. Трехмерная экспертная модель

(2)

а в качестве признаков — набор библиометрических показателей или публикационная ак- §

тивность исследователей за один год или фиксированный отрезок времени. В этом случае ^

матрица V оказывается двухмерной и равной F = (fjk). Для ранжирования журналов мо- ^

жет применяться и качественно иной набор признаков, например, индексы ближних и даль- ^

них взаимодействий в сетевых структурах, рассчитанные на основе кросс-цитирований ^

^аЬтап, Yan, 2014; Алескеров и др., 2016)8. К

Подчеркнем также, что могут рассматриваться и разные типы наблюдений, например, § статистика для используемого набора признаков или социологические опросы респондентов, позволяющие измерять указанные признаки. Однако во всех случаях решение задачи

обусловлено определением вектора весов (Ь). При этом социологические опросы обеспе- 4 чивают существенно большее число наблюдений.

2. Данные и методология исследования

В качестве примера использования социологических исследований рассмотрим опросы экономистов — участников третьего Российского экономического конгресса (РЭК-2016, декабрь 2016), Московского экономического форума (МЭФ-2017, март 2017) и XVIII Апрельской международной научной конференции по проблемам развития экономики и общества (апрель 2017). В целом, в опросах приняли участие 1059 респондентов, в том числе 675 участников РЭК-2016, 252 участника МЭФ-2017 и 132 участника XVIII Апрельской международной научной конференции по проблемам развития экономики и общества9. Эти опросы проводились с использованием специального сервиса Google Forms на основе единой анкеты, содержащей 30 вопросов. Среди них можно выделить три группы вопросов.

Первая группа относится к характеристикам журналов:

j1. Какие отечественные журналы публикуют наиболее интересные для Вас статьи?

Поставьте, пожалуйста, соответствующие баллы в таблице (0 — без оценки, 1 — самая низкая оценка, 3 — высшая оценка).

j2. Какие российские журналы, на Ваш взгляд, считаются в экономическом сообществе наиболее престижными?

Оцените, пожалуйста, каждый журнал (0 — без оценки, 1 — самая низкая оценка, 3 — высшая оценка).

j3. Оцените, пожалуйста, научный уровень российских журналов

(0 — без оценки, 1 — самая низкая оценка, 3 — высшая оценка).

8 В основе этого метода ранжирования журналов лежит сетевой подход, в соответствии с которым рассматривается сеть, вершинами которой являются журналы, а на ребрах содержится информация о числе ссылок одного журнала на другой. Данный подход основан на алгоритме PageRank, разработанном создателями Google (Brin, Page, 1998).

9 Указанные опросы проводились в рамках исследовательского проекта, разрабатываемого совместно сотрудниками Института экономики РАН и Национального исследовательского университета «Высшая школа экономики» под эгидой Новой экономической ассоциации в 2016-2017 гг.

Вторая группа относится к характеристикам респондентов:

ql. Оцените, пожалуйста, важность для российских экономистов знания экономико-математического аппарата.

Поставьте, пожалуйста, 0 или 1 (0 — не важно, 1 — важно). q2. Имеете ли Вы степень кандидата (PhD) или доктора наук? Поставьте, пожалуйста, 0 или 1 (0 — не имею, 1 — имею). q3. Владеете ли Вы иностранными языками? Поставьте, пожалуйста, 0 или 1 (0 — не владею, 1 — владею). q4. Читаете ли Вы зарубежные журналы?

Поставьте, пожалуйста, 0 или 1 (0 — не читаю, 1 — читаю).

Третья группа позволяет установить «связь» респондентов с журналами: g. В каких российских журналах публикуетесь чаще лично Вы?

В графе каждого журнала поставьте, пожалуйста, 0 или 1 (0 — нет публикаций, 1 — есть публикации).

Ответы на указанные вопросы анкеты позволяют, наряду с упомянутой матрицей V, сформировать две бинарные матрицы W, G, элементы которых соответствуют значениям показателей, характеризующих респондентов и связи респондентов с журналами:

W = (wq), G = (gk), (3)

где i — номер респондента, i £ [1,1059]; q — номер показателя, характеризующего каждого респондента, q £ [1, 4]; k — номер журнала, k £ [1, 26] . При этом матрицы W и G состоят из единиц и нулей: wiq = 1, если ответ i-го респондента на q-й вопрос соответствует 1; gk =1, если i-й респондент ответил, что публикует свои статьи в журнале с номером k.

Сформированные матрицы V, W, G позволяют содержательную задачу ранжирования экономических журналов свести к многомерному статистическому анализу, позволяющему выявить скрытые взаимосвязи между указанными признаками, обуславливающие построение интегрального критерия (агрегированного рейтинга), на основе которого могут быть сопоставлены журналы и проведено их ранжирование. Подчеркнем, что решение этой задачи разбивается на несколько связанных между собой этапов анализа.

Во-первых, особенностью настоящего исследования является статистический подход к определению весовой функции. Во-вторых, принципиальным является положение о том, что среди респондентов необходимо выделить группу экспертов, удовлетворяющих заданным требованиям, чьи оценки могут быть использованы в определении частных (см. раздел 3.1) и интегрального критерия ранжирования журналов. В-третьих, полученный вектор значений интегрального критерия Rk должен быть подвергнут кластерному анализу с последующим определением однородных групп журналов с близкими значениями интегрального критерия внутри каждой из них и статистически значимыми различиями между ними.

3. Обобщенная экспертная модель |

I

Предпосылкой к использованию методов многомерного статистического анализа послу- ^ жил полученный в результате социологического опроса большой объем эмпирических дан- ^ ных — трехмерная матрица V, образующая своеобразный информационный параллелепи- ^ пед, содержащий более 82.5 тыс. чисел, каждое из которых может быть представлено тре- £ мя координатами: проекциями на оси респондентов 7, 7 £ [1,1059], признаков у, / £ [1, 3] § и журналов k, k £ [1, 26].

к

3.1. Метод главных компонент

Использование эмпирических данных для определения весовой функции обусловлено возможностями факторного анализа, позволяющего выявить некоторые скрытые соотношения между измеряемыми показателями. Речь идет о частных рейтингах, характеризующих интерес респондентов к публикациям журналов (/1), их общественный престиж (/2) и научную значимость (/3). Предложенный подход основан на использовании некоторой модификации метода главных компонент для трехмерной матрицы V = (у^к), являющейся аналитическим выражением информационного параллелепипеда, и ее трансформации в двумерную матрицу F = (f у) (рис. 1, 2).

к

Рис. 1. Информационный параллелепипед данных социологического опроса

Для этого воспользуемся стандартной процедурой понижения размерности трехмерной матрицы V. На основе указанных данных для любого журнала с номером k можно сформировать посредством сечения трехмерной матрицы V соответствующую двумерную матрицу Vк = (у/). Совокупность таких матриц позволяет создать их пул в результате последовательного расположения друг за другом матриц Vк . Полученная таким образом объединенная матрица F = (f у), где 7 £ [1, О], содержит три столбца, характеризующие частные рейтинги/1/2;у3, и О строк, где В = ЫМ = 1059 X 26 = 27534 (рис. 2).

Матрица F = (f/) позволяет статистически выявить главную компоненту и определить факторные нагрузки Ь1; Ь2; Ь3 для частных рейтингов у; /2; /3, определяющие весовую функцию агрегирования. Полученная таким методом весовая функция позволила решить задачу ранжирования (Рубинштейн и др., 2017).

ь 1 2 3 ...Ш1 2 3 ... та1 2 3 ... ТО1 2 3 ... ЮВВ

Рис. 2. Графическое представление двухмерной матрицы F

3.2. Обобщение экспертной модели

Вместе с тем, определение вектора весов В = (Ь1; Ь2; Ьз) с помощью метода главных компонент нельзя назвать «безгрешным» способом построения весовой функции. Дело в том, что при трансформации трехмерной матрицы V в двумерную F происходит потеря ценной информации (КгоопепЬещ, 2008), связанной со скрытыми соотношения между измеряемыми показателями.

В этом смысле рассмотренная выше трехмерная экспертная модель является лишь частным случаем, когда, по умолчанию, предполагается, что ответы респондентов на вопросы анкеты имеют одинаковый вес, т. е. модель не учитывает возможные различия между ними и использует при агрегировании только веса характеристик журналов. Это предположение, в сущности, имеет ту же природу «произвольного выбора», что и рассмотренное выше предположение о равенстве весов характеристик журналов.

Строго говоря, нет никаких оснований по-разному относиться к различиям в весах характеристик журналов и в весах ответов респондентов, на основе которых, собственно, и измеряются эти характеристики. Поэтому более точные решения может обеспечить обобщенная экспертная модель, учитывающая веса всех составляющих единого процесса измерения соответствующих характеристик журналов. Она может быть представлена в следующем виде:

где Як — значение агрегированного критерия; у. — вес ]-й характеристики журналов, j £ [1, J]; х1 — вес /-го респондента, / £ [1,1].

Понятно, что практическая реализация этой модели требует определения векторов х, у и г, характеризующих, соответственно, веса респондентов, характеристик журналов и самих журналов10, отражающие соотношения между измеряемыми показателями, информация о которых, предположительно, содержится в трехмерной матрице V = (V:). Отметим,

10 Далее будет показана возможность и необходимость применения весов журналов (гк), которые используются для выделения их ядра в итеративном алгоритме ранжирования.

(4)

что возможность решения этой задачи на основе статистических методов — Multiway data s analysis (в дальнейшем, MW анализ) — появилась относительно недавно. §

Появление MW анализа как обобщения факторного анализа и метода главных компонент, можно назвать рубежным моментом для многих задач, где анализируются большие масси-

4. MW анализ ^

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

¡5

п I

вы чисел. Первые применения этого нового раздела многомерной статистики появились £ в психометрии, а затем в распознавании образов, интеллектуальном анализе данных (data mining) и т. п. (Kolda, Bader, 2009). Хотя ряд работ в данном направлении был опубликован 4 в первой половине прошлого века, принято считать, что основоположником этого раздела многомерной статистики был Л. Такер (Tucker, 1966) .

Предположим, что имеется массив данных V и три оси i, j, k, характеризующие различные аспекты этих данных. Так, в нашем случае, мы имеем ось респондентов i , ось характеристик журналов j и ось самих журналов k. Таким образом, массив V можно представить в виде трехмерной матрицы с элементами vijk, которая представляет собой обобщение понятия прямоугольной матрицы на три измерения. Трехмерная матрица V является элемен-

nlXJXK 12

том эвклидова пространства R .

4.1. Декомпозиция Такера

Такер поставил перед собой задачу представить элементы трехмерной матрицы V = (vijk) размерности IX J X K в виде

s t u

Vjk = 222 mimna,lbjrnckn +ejk , (5)

l=1 m=1 n=1

где aa, bjm, ckn — элементы матриц A, B, C размерностей IX s , J X t, K Xu соответственно; (eijk) — трехмерная матрица ошибок. Значения o)imn образуют трехмерную матрицу й размерности s X t X u . Другими словами, элемент vijk Е V равен, с точности до ошибки, сумме всевозможных произведений элементов i-й строки матрицы A, j-й строки матрицы B и k-й строки матрицы C, умноженных на соответствующие элементы матрицы й. Трехмерная матрица й и матрицы A, B, C либо задаются априорно исследователем, либо определяются из решения некоторой оптимизационной задачи13 (Tucker, 1966). При этом предполагается, что значения s, t, u должны быть меньше (и, желательно, гораздо меньше), чем соответствующие размеры I, J, K исходной трехмерной матрицы V. Таким образом, решается задача снижения размерности матрицы V с первоначальной размерности IX J X K на суммарную размерность матриц A, B, C и трехмерной матрицы й, равную

I • s + J-t + K-u + s-t-u . (6)

11 Отметим, что понятийный аппарат MW анализа в его современной форме был разработан только к концу прошлого века (Kiers, 2000).

12 Данная конструкция легко обобщается на случай произвольного числа осей (Kolda, Bader, 2009).

13 Возможно сочетание обоих методов.

В этом и следующем подразделах мы рассмотрим некоторые частные случаи представления (5).

Хотя декомпозиция Такера (5) по существу является обобщением факторного анализа на случай трех измерений, с точки зрения методологии нахождения решения оптимизационной задачи она ближе к методу главных компонент. Поэтому в более поздней литературе по MW анализу (Kroonenberg, 2008; Kiers, 2000) декомпозиция Такера чаще всего рассматривается именно в контексте последнего метода. Важно отметить, что, в отличие от факторного анализа и метода главных компонент, факторные матрицы A, B и C ищутся одновременно по всем трем осям.

Чтобы лучше понять декомпозицию Такера, рассмотрим двумерный массив данных. Предположим, что имеются J признаков и I наблюдений, I > J. Тогда, применив метод главных компонент, получим следующее матричное равенство:

VB = A, (7)

где V — IX J матрица центрированных наблюдений, B — J X J матрица весов, A — I X J матрица, образованная J главными компонентами. Запишем равенство (7) в виде

V = AB- = AB', (8)

где B' — матрица, транспонированная к B.

Если теперь отбросим последние J' компонент (J' < J), то элемент v{j матрицы V можно записать как

j ■

v

j

Hl m=1

где J = J — J .

Sa. b' +£.., (9)

m jm ij ' V s

Таким образом, получили декомпозицию Такера с матрицей W, равной единичной матрице IJ,, размера J''.

С другой стороны, условие минимизации суммы квадратов ошибок в (9) при нормированных векторах (bjj) ' ,...,(bJ j) ' , j = 1,..., J , возвращает нас к первым J'' собственным векторам выборочной ковариационной матрицы S = n~lVV (Bishop, 2006).

Метод Такера для числа осей, больше двух, имеет то преимущество над представлением исходного массива в виде слоев, что при последнем данные, соответствующие различным индексам, рассматриваются как гомогенные, в то время как рассмотрение трехмерных матриц позволяет выявить индивидуальные латентные свойства каждого слоя.

4.2. Основные определения MW анализа14

После публикации статьи Такера (Tucker, 1966) появился ряд работ (De Lathauwer et al., 2000; Kiers, 2000; Kolda, Bader, 2009 и др.), в которых был разработан формальный математический аппарат, унифицирующий и во многом упрощающий изложение основных идей Такера.

14 Все приведенные ниже определения относятся к матрицам трех измерений. Читатель без труда сможет обобщить их на матрицы более высоких размерностей.

Сначала введем понятие °-произведения векторов: если a, b — векторы размерностей I §

и J соответственно, то a ° b будет матрицей размерности IX J с элементами atbj . Анало- ^

гично, для трех векторов a, b, c, a ° b ° c есть трехмерная матрица Vразмерности I X J X K, ^

где K — размерность вектора с, с элементами ^

Vk = a,bfk. (10) 1

э

В 1970 году были опубликованы две работы: (Carroll, Chang, 1970) и (Harshman, 1970), g в которых рассматривались модели, названные впоследствии СР-моделями, которые являются частным случаем декомпозиции Такера (5). СР-модель записывается в виде

г=2'

a(r> о br) о c(r) + e, (11)

где a(r\ b(rc(-1 — r-е столбцы матриц A, B и C. Легко видеть, что декомпозиция (11) получается из (5) при s = t = u и W, равной единичной трехмерной матрице, т. е. трехмерному кубу размерности s с единицами на главной диагонали и нулями на остальных местах. Если трехмерная матрица ошибок e = 0 , то число s называется рангом V. В (Kolda, Bader, 2009) факторные матрицы A = [a(1), a(2),..., a(s)], B = [b(1), b(2),..., b(s)] и C = [c(1), c(2),..., c(s)] определяются как главные компоненты трехмерной матрицы Vпо каждой из трех осей.

В приложениях к задаче ранжирования объектов будут рассматриваться трехмерные матрицы первого ранга. Из представления (11) при s = 1 следует, что трехмерная матрица V размерности IX J X K имеет ранг 1, если найдутся векторы a = Ц,..., аг) ', b = (bJ,..., bj) ', c = (cj,..., cK) ' такие, что

V = a о b о c. (12)

Векторы a, b и c будут (обобщенными) главными компонентами V. Из (12) следует, что любой элемент vijk Е V можно записать в виде произведения

vyk = aibjck. (13)

Таким образом, вместо первоначального набора IX J X K чисел, определяющих трехмерную матрицу V, обычно получаем значительно меньшее число, равное I + J + K . Заметим, что трехмерную матрицу ранга s можно представить в виде суммы s трехмерных матриц первого ранга.

Из формулы (13) следует, что если V = a о b о c , то V = (1Ja) о (12b) о (13c), при условии, что 1j 1213 = J. В качестве альтернативной записи для трехмерной матрицы первого ранга используется представление

V = 1xa о b о c, || a ||=|| b ||=|| c ||=1, 1>0 15. (14)

Легко видеть, что

1 =

222*. <15>

,=i j=\ k=\

15 Умножение трехмерной матрицы на число определяется так же, как и для обычных матриц, т. е. как умножение каждого элемента трехмерной матрицы на это число.

Теорема 1. Если трехмерная матрица V ранга 1 имеет ненулевые элементы (V Ф 0), то векторы а, b, c в представлении (12) определяются однозначно с точностью до умножения на константы 12 и 13 такие, что 111213 = 1.

Доказательство. В действительности, покажем, как можно восстановить векторы а, b и с, исходя из элементов V. Предположим, что viyk Ф 0 для некоторых i, j, k . Можно считать, что at = bj =1. Отсюда следует, что

Ck = vpk, k = 1,2,...,K. (16)

Рассмотрим вектор (v1 jk , V2jk Vjk , - VIjk ) = (a1Ck , a2Ck , . -Ck , . . ., aiCk ) . В этом случае

ат = V (уркГ , т = 1,2,...,I. (17)

Аналогично, _

Ьт = Vтк )-1, т = 1,2,...,3. (18)

Из (13) следует, что в представлении (12) неотрицательной трехмерной матрицы первого ранга (V > 0), т. е. трехмерной матрицы с неотрицательными элементами, можно считать, что координаты всех трех векторов а, Ь и с неотрицательны. В дальнейшем всегда будем предполагать, что если трехмерная матрица V неотрицательна, то векторы а, Ь и с имеют неотрицательные координаты. Следующее свойство положительных трехмерных матриц первого ранга будет играть важную роль в задаче ранжирования объектов. Речь идет о порядковом свойстве положительных трехмерных матриц первого ранга.

Предположим, что V > 0 . В таком случае ранжирование элементов , 7 = 1,2,...,I, при фиксированных] и к, не зависит от] и к и полностью определяется ранжированием элементов вектора а в представлении (12). Аналогичный результат получается по осям ] и к при фиксированных /; к и /;] соответственно.

4.3. Оптимизационная задача

Для удобства дальнейшего изложения воспользуемся понятием «нормы» для трехмерной матрицы V, представляющей собой квадратный корень из суммы квадратов всех ее элементов (Kolda, Bader, 2009):

i|V|l=Mfvk- (19)

V =1 j=1 k=1

Тогда расстояние между трехмерными матрицами V и V' равно норме разности между ними:

iiv-V'i=j2 2 2 (vjk - v*)2. (20)

V i=1 j=1 k=1

Исходя из этого, будем далее моделировать исходную трехмерную матрицу V, используя § СР-модели. Естественно, что для задачи ранжирования в качестве модельной трехмерной ^

/у ^

матрицы V следует взять трехмерную матрицу, имеющую ровно одну главную компонен- °

I

ту по каждой оси, т. е. трехмерную матрицу первого ранга. ^

Допустим, что трехмерная матрица V задана по трем осям: наблюдения, признаки и объ- ^

15

Э

векторы размерностей I, J, К соответственно. §

*

екты с соответствующими размерностями I, J и K. В таком случае V = x ° y ° z , где x, y, z —

IIV-F||=

2 2 2 Vk - xiyizk )2 (21)

1=1 j=i k=\

по всем возможным векторам х' , у ' и г' 16.

В (КгоопепЬе^, De Leeuw, 1980) доказано, что оптимизационная задача всегда имеет решение. В предыдущем подразделе показано, что векторы х, у, г в (21) определены с точностью до умножения на скаляры 11, 12 и 13 такие, что 111213 = 1. Является ли решение V (с точностью до умножения на скаляры) оптимизационной задачи (21) единственным? Из работы фе Lathauwer, е! а1., 2000) следует, что, по всей видимости, в общем случае это не так.

Следующая лемма показывает, что ранжирование объектов, представленное вектором г, не зависит от масштаба измерений наблюдений.

Лемма 1 (независимость ранжирования объектов от масштаба). Если векторы х, у, г являются решением оптимизационной задачи для трехмерной матрицы V, то векторы х, у, 1г (1> 0 ) являются решением оптимизационной задачи для трехмерной матрицы V' = IV .

Доказательство. Предположим, что векторы х, у, 1г не являются решением оптимизационной задачи для трехмерной матрицы V' . В таком случае найдутся векторы х', у', г ', для которых

V

222(¿v -x'yjzk)2 < 222(¿v)2. (22)

1=1 j=1 k=l \ 1=1 j=1 k=l

Отсюда следует, что i

222(Vjk -l-1 x'jjzk)2 < 222(Vjk- xj)2. (23)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Пусть V > 0, что типично для задач ранжирования объектов. Из порядкового свойства положительных трехмерных матриц первого ранга следует, что если ^ — номера объектов, так что г^ < г^ , то любой респондент 7, 7 = 1,.. .,1, по любому признаку у, у = 1,...,J, оценит объект с номером ^ не ниже, чем объект с номером ^.

Формулировка оптимизационной задачи. Для заданной трехмерной матрицы V размерности IX J X К требуется найти такую трехмерную матрицу первого ранга V, чтобы расстояние || V — У\\ между Vи V было минимальным. Это означает, что необходимо найти векторы х, у и г, V = х ° у о г , которые минимизировали бы выражение

i=1 j=1 k=1 \ 1=1 j=1 k=1

16 В отличие от метода главных компонент, при решении оптимизационной задачи (21) центрирование исходных данных не является обязательным и остается на усмотрение исследователя (Tucker, 1966). Подробное обсуждение этого вопроса можно найти в (Bro, Smilde, 2003).

Таким образом, трехмерная матрица V" = x' ° y' ° 1-1 z дает лучшее приближение к V, чем V' .

Решение оптимизационной задачи (21) можно рассматривать как оценку параметров следующей статистической модели:

Vjk = xiy]zk +8jk, 1 < i < 1, 1 < j < J, 1 < k < K, (24)

где e jk — взаимно независимые нормальные ошибки с одинаковой дисперсией, eiJk ~ N(0; о ), а xt, yj, zk, о — неизвестные параметры модели, которые требуется оценить. Из теоремы 1 следует, что если существуют i, j, k такие, что E(Vjk) Ф 0, то параметры модели (24) определяются однозначно, с точностью до умножения на константы 11, 12 и 13 такие, что 111213 = 117.

Оценивая модель методом максимального правдоподобия, получим оценки X, y, z векторов параметров х, y, z, которые являются решением оптимизационной задачи (21). Оценка максимального правдоподобия для 5 дается формулой

I J K I J K

222'ej 222(vjk- X>yA)2 ~2 i=1 /=1 k=1 i=1 /=1 k=1 о2 =- -

I X J X K I X J X K

Качество модели определяется по формуле

I J K

l|2

R2 = 1--= ! = -M k=

||V-V||2 Л Л Л ( _)2 '

i=1 j=1 k=1

где e = V -V, _ — среднее арифметическое vpk по всем i, j и k, а V — трехмерная матрица размерности IX J X K со всеми элементами, равными _ .

Все вычисления производились в статистическом пакете R18. Для решения оптимизационной задачи был применен BFGS-алгоритм , который часто используется в вычислительных методах для нахождения точек максимума/минимума нелинейных функций (Fletcher, 1987). Для решения проблемы пропущенных значений (респонденты отвечали не на все вопросы) авторами была написана специальная программа на языке R.

5. общий итеративный алгоритм

Исходя из задач исследования, посвященного ранжированию экономических журналов, не менее важной и методологически сложной является упомянутая выше проблема отбора экспертов, чьи оценки можно было бы считать доминантами «интуитивного знания»

17 Если E(vijk) > 0 для всех i, j, k, то модель (24) можно сделать идентифицируемой, записав ее, например, в виде vijk = 1xiyjzk +ejjk со следующими ограничениями на параметры: ||х|| = ||y|| = ||z|| = 1; 1, х,y, z > 0.

18 Различные применения языка R для решения задач в MW анализе описаны в статье (Leibovici, 2010).

19 Название алгоритма является акронимом, составленным из первых букв фамилий его создателей: Broyden, Fletcher, Goldfarb, Shanno.

экономистов о значимости анализируемых научных изданий. Построение такой выборки §

из общей совокупности наблюдений, удовлетворяющей заданным требованием, обуслов- ^

лено разными ситуациями. ^

Если речь идет о задаче ранжирования объектов на основе социологических опросов, ^

то таким требованием является наличие некоторого подмножества респондентов, которых ^

можно было бы причислить к группе экспертов, обладающих соответствующими личными £

характеристиками, чьи оценки следует считать основанием для ранжирования. При этом за- § данные требования могут распространяться как на характеристики респондентов, так и на параметры их связи с объектами ранжирования.

5.1. Выборка экспертов

Подчеркнем, что в данном исследовании статус эксперта присваивается респондентам, обладающим не только необходимыми личными характеристиками (соответствующие ответы на вопросы анкеты ^^ q2, q3, q4]), но и публикующим свои статьи в авторитетных журналах (ядро), совокупность которых, в свою очередь, зависит от их рейтингов. Поэтому выделение указанной совокупности респондентов (из общего массива) и журналов (из общего списка) надо рассматривать в качестве взаимообусловленного процесса, имеющего итеративный характер. Процесс этот продолжается до тех пор, пока результаты двух последовательных итераций не становятся тождественными.

Отметим также, что кроме личных характеристик респондентов (матрица W = (^)) и их связей с объектами ранжирования (матрица О = (g к)), в итеративном процессе участвуют еще три вектора, полученные на основе MW анализа. Речь идет о векторах х = (х7), у = (у) и г = (гк), определяющих, соответственно, веса респондентов, характеристик журналов и самих журналов. В этом смысле предлагаемый алгоритм ранжирования, основанный на применении обобщенной экспертной модели и MW анализа, выгодно отличается от использованного в прежних исследованиях метода главных компонент (Рубинштейн и др., 2017). В рамках последнего рассматривается фактически частный случай, когда веса респондентов и журналов предполагаются равными единице: xi =1 и гк =1 для всех 7 £ [1,1] и к £ [1, К]. Представляется, что использование в расчетах статистически выявляемых весов респондентов является принципиально новым шагом в задачах подобного рода, позволяющим учитывать существующие между респондентами различия.

5.2. Итеративная процедура

Перед непосредственным описанием алгоритма введем для удобства изложения ряд дополнительных обозначений. Во-первых, условие принадлежности респондентов к группе экспертов, чьи характеристики соответствуют исходно заданным требованиям, обозначим в виде вектора ж = (ж), где

[1, если 2жз^ 4 =1, м>. = \

если 2з4 =

Во-вторых, с учетом того, что список авторитетных журналов (ядро) формируется в зависимости от их рейтингов, которые, как уже отмечалось, сами зависят от выделения ядра журналов, условие публикаций статей респондентов в авторитетных журналах следует устанавливать для каждой итерации ', обозначая его в виде вектора ^ = (gti), где

gti =1, если gik = 1 хотя бы для одного к Е с1ш1ег/, где с1ш1ег/ — кластер авторитетных журналов, полученных на '-й итерации, и

gti = 0, если gik = 0 для всех к Е с1ш1ег/.

В-третьих, учитывая, что на каждой '-й итерации выделения группы экспертов число респондентов сокращается, размерность исходной трехмерной матрицы V = (у^к) также меняется, а именно, остаются только наблюдения со значениями i, при которых = 1. Соответственно, меняются матрица V' = (у'рк) и вектора х' = (х\), у' = (у^), г = (г'к), полученные на основе MW анализа при решении оптимизационной задачи для этой матрицы.

5.3. Общий алгоритм

В качестве начальной итерации рассмотрим подматрицу исходной трехмерной матрицы V0 = (у°к) со значениями i, для которых wi = 1. Для этой итерации можно считать, что векторы х° = (х0), у0 = (у10), г0 = (г0), полученные при решении оптимизационной задачи (21) для V , определяют, соответственно, веса респондентов, характеристик журналов и самих журналов. Воспользовавшись вектором весов журналов , можно выделить их «ядро». В него войдут те журналы, которые при разбиении (с помощью двухэтапного кластерного

анализа20) весов на две группы попадут в верхний кластер cluster1 (). Теперь можно описать общий алгоритм итеративного процесса.

1. Рассчитывается вектор ^ на основе кластера журналов cluster1 (г).

2. Формируется подматрица Vм"1 = (у'*к 1) трехмерной матрицы V' = (у'к) со значениями i, при которых g' = 1 .

3. Решается оптимизационная задача (21) для трехмерной матрицы V'к = (у'*к ) и определяется тройка векторов (х'+1, у'+1, г'+1).

4. Рассчитываются рейтинги журналов для итерации '+1:

( N Ь N / N

ТЖ^хГ^ /Ж, к = 1,...,к.

^ И 1=1

Таким образом, при расчете вектора рейтингов журналов Я'+1 будут учитываться только те респонденты, у которых gti = 1.

5. Если вектор рейтингов журналов Я+1 оказывается равным вектору Я' в предыдущей итерации, работа алгоритма заканчивается. Результатом являются рейтинги журналов

п' п' п' Я1 , Я2,..., ЯК .

20 В качестве меры расстояния между двумя кластерами было выбрано изменение логарифма правдоподобия при объединении их в один кластер.

I

с;

ск

Таблица 1. Ранги экономических журналов по итерациям

Журналы Итерации / Ранги Кластер

I II III IV

Журнал Новой экономической ассоциации 2 1 1 1 А1

Вопросы экономики 1 2 2 2

Экономический журнал ВШЭ 3 3 3 3 А2

Прикладная эконометрика 5 4 4 4

Экономика и математические методы 7 5 5 5

Российский журнал менеджмента 8 7 6 6

Квантиль 15 6 7 7

Экономическая политика 12 9 8 8 А3

Мировая экономика и международные отношения 4 8 9 9

Пространственная экономика 10 10 10 10

Проблемы прогнозирования 9 11 11 11

Форсайт 11 13 12 12

Вестник Института экономики РАН 6 12 13 13

Общественные науки и современность 16 14 14 14 В1

Российский экономический журнал 13 15 15 15

Экономическая наука современной России 19 16 16 16

Журнал институциональной теории 20 17 17 17

Журнал экономической теории 21 19 18 18

Финансы 14 18 19 19

Экономист 17 21 20 20 В2

Общество и экономика 22 20 21 21

Финансы и бизнес 25 22 22 22

Проблемы теории и практики управления 18 23 23 23

Мир перемен 26 24 24 24

Научный вестник ИЭП 23 25 25 25

Вопросы государственного и муниципального 24 26 26 26

управления

6. обсуждение результатов

Выполненные расчеты продемонстрировали сходимость представленного алгоритма: на его четвертой итерации рейтинги журналов совпали с результатами третьей итерации. При этом в ядро журналов сначала вошли 8 изданий, а в группу экспертов, удовлетворяющих заданным характеристикам, 347 респондентов. На следующей итерации ядро увеличилось до 14 журналов, а количество экспертов сократилось до 140. На заключительной, четвертой итерации ядро составило 11 экономических журналов, число экспертов — 126 респондентов.

Отметим, что на всех стадиях итеративного процесса в ядро постоянно входил блок из шести журналов: «Журнал Новой экономической ассоциации», «Вопросы экономики», «Экономический журнал ВШЭ», «Прикладная эконометрика», «Экономика и математические методы», «Мировая экономика и международные отношения». Причем, в отличие от первой итерации, на заключительном этапе итеративного процесса из группы авторитетных

журналов были исключены «Вопросы прогнозирования» и «Вестник Института экономики РАН», но вошли другие пять изданий: «Российский журнал менеджмента», «Квантиль», «Экономическая политика», «Пространственная экономика» и «Форсайт».

Рассмотрим теперь, как менялись в итеративном процессе ранги журналов — места в их общем списке, упорядоченном по величине рейтинга. При этом на заключительной итерации, как и в прежнем исследовании (Рубинштейн и др., 2017, с. 23-24), была использована процедура кластерного анализа и выделены пять групп журналов (табл. 1).

Данные этой таблицы свидетельствуют о том, что по мере увеличения номера итерации различия в рангах сокращаются. Следует отметить также, что состав первого кластера сформировался уже на первой итерации, а на второй итерации принял окончательный вид. Состав второго кластера менялся. С 8-го и 15-е места «Российский журнал менеджмента» и «Квантиль» передвинулись на второй итерации на седьмое и шестое место, а затем на третьей итерации поменялись местами.

Наибольшие изменения наблюдались в третьем кластере, журнал «Экономическая политика» поднялся с 12-го места на 8-е, «Мировая экономика и международные отношения» опустился с 4-го места на 9-е, а «Вестник Института экономики РАН» — с 6-го на 13-е место. В четвертом и пятом кластере все существенные изменения произошли уже во второй итерации, в которой, с точностью до перестановки нескольких соседних журналов, состав кластеров полностью сформировался.

Сопоставим теперь результаты расчетов по ранжированию журналов, полученные на основе трехмерной экспертной модели и ее обобщения с использованием MW анализа. Рассмотрим в связи с этим таблицы 2 и 3.

7. Заключение

Результаты выполненного исследования продемонстрировали эффективность разработанного принципиально нового алгоритма и вычислительной программы обработки эмпирических данных, отличающихся от ранее предложенного подхода к ранжированию журналов (Рубинштейн и др., 2017). Речь идет о применении методологии MW анализа, позволяющего учитывать статистически выявляемые различия между респондентами и веса журналов, отражающие скрытые соотношения между всеми составляющими процесса измерения характеристик журналов.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Сопоставление двух методов позволяет утверждать, что новый алгоритм обеспечивает определенное улучшение в решении задачи ранжирования журналов. Так, кажется вполне логичным перемещение журнала «Мировая экономика и международные отношения» с последнего места группы А3 в группу А2, с двенадцатого места на девятое, с опережением при этом журналов «Пространственная экономика» и «Проблемы прогнозирования». Вполне объяснимым является также некоторое ухудшение позиции журнала «Квантиль», перемещение с пятого места (по предыдущему алгоритму) на седьмое место в той же группе А2.

По-видимому, новый алгоритм обеспечивает несколько больший уровень репрезентативности полученных рейтингов журналов вследствие того, что при их расчете учитываются разные веса респондентов, немного сглаживающие требования, на основе которых выделяется группа экспертов. Этим же, наверное, можно объяснить и увеличение (по сравнению со старым алгоритмом) группы А2 с четырех до пяти журналов в результате перемещения

Таблица 2.

Ранжирование на основе метода главных компонент

№ Журналы Рейтинг Кластер

1 Журнал Новой экономической ассоциации 2.360 А1

2 Вопросы экономики 2.312

3 Экономический журнал ВШЭ 2.064

4 Прикладная эконометрика 1.810 А2

5 Квантиль (РЭШ) 1.738

6 Экономика и математические методы 1.724

7 Российский журнал менеджмента 1.699

8 Проблемы прогнозирования 1.679 АЗ

9 Экономическая политика 1.671

10 Форсайт 1.552

11 Пространственная экономика 1.509

12 Мировая экономика и международные отношения 1.442

13 Общественные науки и современность 1.441 В1

14 Вестник Института экономики РАН 1.412

15 Экономическая наука современной России 1.359

16 Российский экономический журнал 1.343

17 Журнал институциональной теории 1.314

18 Журнал экономической теории 1.274

19 Экономист 1.255

20 Финансы 1.235

21 Проблемы теории и практики управления 1.213 В2

22 Финансы и бизнес 1.188

23 Мир перемен 1.154

24 Общество и экономика 1.124

25 Научный вестник ИЭП 1.082

26 Вопросы государственного и муниципального управления 1.024

Таблица 3.

Ранжирование на основе М\¥ анализа

№ Журналы Рейтинг Кластер

1 Журнал Новой экономической ассоциации 2.122 А1

2 Вопросы экономики 2.090

3 Экономический журнал ВШЭ 1.803 А2

4 Прикладная эконометрика 1.587

5 Экономика и математические методы 1.528

6 Российский журнал менеджмента 1.524

7 Квантиль (РЭШ) 1.500

8 Экономическая политика 1.414 АЗ

9 Мировая экономика и международные отношения 1.394

10 Пространственная экономика 1.347

11 Проблемы прогнозирования 1.335

12 Форсайт 1.299

13 Вестник Института экономики РАН 1.275

14 Общественные науки и современность 1.205 В1

15 Российский экономический журнал 1.171

16 Экономическая наука современной России 1.162

17 Журнал институциональной теории 1.112

18 Журнал экономической теории 1.051

19 Финансы 1.041

20 Экономист 0.987 В2

21 Общество и экономика 0.982

22 Финансы и бизнес 0.964

23 Проблемы теории и практики управления 0.951

24 Мир перемен 0.917

25 Научный вестник ИЭП 0.885

26 Вопросы государственного и муниципального управления 0.868

А. Я. Рубинштейн, Л. Н. Слуцкин

в эту группу «Экономического журнала ВШЭ». Ясно, что и общие сдвиги в ранжировании обусловлены различиями весов респондентов и являются результатом смены позиций ряда журналов (табл. 2).

Подчеркнем, что социологические измерения общественного мнения, дающие большой объем исходной информации, и применение обобщения метода главных компонент для многомерных матриц — методологии MW анализа — создают принципиально новые возможности не только для исследований, посвященных ранжированию журналов, но и для многих других задач, связанных с упорядочением совокупности объектов, с фиксированным набором их характеристик, при наличии определенного числа наблюдений, позволяющих измерять значения признаков из заданного набора для каждого объекта.

Список литературы

Адлер Р., Эвинг Дж., Тейлор П. (2011). Статистики цитирования. Игра в цыфирь, или как теперь оценивают труд ученого (сборник статей о библиометрике). М.: МЦНМО.

Алескеров Ф. Т., Багдаева Д. Н., Писляков В. В., Стерлигов И. А., Швыдун С. В. (2016). Значимость основных российских и международных экономических журналов: сетевой анализ. Журнал Новой экономической ассоциации, 2 (30), 195-205.

Балацкий Е. В., Екимова Н. А. (2015а). Проблема манипулирования в системе РИНЦ. Вестник УрФУ. Серия «Экономика и управление», 14 (2), 166-178.

Балацкий Е. В., Екимова Н. А. (2015б). Рейтингование участников российского рынка экономических исследований. Журнал институциональных исследований, 7 (3), 102-121.

Балацкий Е. В., Екимова Н. А. (2015в). Опыт составления рейтинга российских экономических журналов. Вопросы экономики, 8, 99-115.

Балацкий Е. В., Юревич М. А. (2016). Несбалансированность наукометрических РИНЦ-показателей российских экономистов. Журнал Новой экономической ассоциации, 2 (30), 176-180.

Волкова О. Н. (2016). Влияют ли революции в визуальной культуре на учетные практики. Журнал Новой экономической ассоциации, 1 (29), 54-82.

Идеи и числа. Основания и критерии оценки результативности философских и социогуманитар-ных исследований. (2016). М.: Прогресс-Традиция.

Муравьев А. А. (2011). О российской экономической науке сквозь призму публикаций российских ученых в отечественных и зарубежных журналах за 2000-2009 гг. Экономический журнал Высшей школы экономики, 15 (2), 237-264.

Муравьев А. А. (2013). О научной значимости российских журналов по экономике и смежным дисциплинам. Вопросы экономики, 4, 130-151.

Прайс Д. (1966). Малая наука, большая наука. Наука о науке. Сборник статей. М.: ВИНИТИ.

Рубинштейн А. Я. (2014). О Журнале Новой экономической ассоциации и других экономических журналах: итоги опроса читателей. Журнал Новой экономической ассоциации, 3 (23), 175-187.

Рубинштейн А. Я. (2016). Ранжирование российских экономических журналов: научный метод или «игра в цыфирь»? Журнал Новой экономической ассоциации, 2 (30), 162-175.

Рубинштейн А. Я., Бураков Н. А., Славинская О. А. (2017). Сообщество экономистов и российские журналы (социологические измерения vs библиометрии). М.: ИЭ РАН.

¡ I

Федорец О. В. (2009). Коллективная экспертиза научных журналов: методика агрегирования экс- ^ пертных оценок и построения рейтинга. Управление большими системами, 27, 12-35. |.

Bishop C. M. (2006). Pattern recognition and machine learning. Springer.

Brin S., Page L. (1998). The anatomy of a large-scale hypertextual web search engine. Computer Networks andICDNSystems, 30, 107-117.

Bro R., Smilde A. K. (2003). Centering and scaling in component analysis. Journal of Chemometrics, 17 (1), 16-33. I

Carroll J. D., Chang J. J. (1970). Analysis of individual differences in multidimensional scaling via an ^ N-way generalization of Eckart-Young decomposition. Psychometrika, 35, 283-319.

De Lathauwer L., De Moor B., Vandewalle J. (2000). On the best Rank-1 and Rank-(Rj, R2,..., RN) ap- 4 proximation of higher-order tensors. SIAM Journal on Matrix Analysis and Applications, 21, 1324-1342.

Egghe L. (2006). Theory and practice of the g-index. Scientometrics, 69 (1), 131-152.

Fletcher R. (1987). Practical methods of optimization (2nd ed.). John Wiley & Sons.

Garfield Eu. (1955). Citation indexes for science. Science, 122 (3159), 108-111.

Goodhart C. A. E. (1975). Problems of monetary management: The UK experience. Papers in Monetary Economics. Reserve Bank of Australia, Vol. I.

Harshman R. A. (1970). Foundations of the PARAFAC procedure: models and conditions for an explanatory multimode factor analysis. UCLA Working Papers in Phonetics, 16, 1-84.

Kiers H. A. L. (2000). Towards a standardized notation and terminology in multiway analysis. Journal of Chemometrics, 14, 105-122.

Kolda T. G., Bader B. W. (2009). Tensor decompositions and applications. SIAM Review, 51 (3), 455-500.

Kroonenberg P. (2008). Applied multiway data analysis. Wiley Publishing.

Kroonenberg P., De Leeuw J. (1980). Principal component analysis of three-mode data by means of alternating least squares algorithms. Psychometrika, 45, 69-97.

Leibovici D. G. (2010). Spatio-temporal multiway decompositions using principal tensor analysis on k-modes: The R package PTAk. Journal of Statistical Software, 34 (10), 1-34.

Prathap G. (2010). The 100 most prolific economists using the p-index. Scientometrics, 84, 167-172.

Price D. J. de Solla. (1951). Quantitative measures of development of sciences. Archives Internationales d'histoire des Sciences, 14, 85-93.

Seglen P. (1997). Why the impact factor of journals should not be used for evaluating research. British Medical Journal, 314 (7079), 498-502.

Tucker L. (1966). Some mathematical notes on three-mode factor analysis. Psychometrika, 32 (3), 279-311.

Waltman L., Yan E. (2014). PageRank-related methods for analyzing citation networks. In: Y. Ding, R. Rousseau, D. Wolfram (eds.), Measuring Scholarly Impact: Methods and Practice, 2014, 83-100.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Waltman L. (2016). A review of the literature on citation impact indicators. Journal of Informetrics, 10 (2), 365-391.

Поступила в редакцию 14.03.2018; принята в печать 08.04.2018.

Rubinstein A., Slutskin L. «Multiway data analysis» and the general problem of journals' ranking.

Applied Econometrics, 2018, v. 50, pp. 90 -113.

Alexander Rubinstein

Institute of Economics of the RAS, Moscow, Russian Federation; arubin@aha.ru Lev Slutskin

Institute of Economics of the RAS, Moscow, Russian Federation; levslutskin@yandex.ru

«Multiway data analysis» and the general problem of journals' ranking

The paper presents a principally new ranking algorithm (on the example of economic journals) which applies methods of multiway data analysis to a sociological survey of representatives of the economic community. The algorithm provides determination of the weight function for aggregation of private ratings, taking into consideration both statistically discovered differences between the respondents and the journals weights. It also reflects latent relationships between all the components of measurement process of journals characteristics. The algorithm central element is an iterative procedure of determination of the journals core and extracting on its basis a subset of experts, whose estimates allow determining the journals aggregated ratings with subsequent clustering. The research practical result is methodological and instrumental justification of Russian economic journals ranking and selection on its basis the five categories of periodical publications.

Keywords: ranking; rating; weights of indicators; aggregation of weights; principal component analysis; Tucker decomposition; multiway data analysis.

JEL classification: A11; A12; A14; C38.

References

Adler R., Jeving Dzh., Tejlor P. (2011). Statistiki citirovanija. Igra v cyfir', ili kak teper' ocenivajut trud uchenogo (sbornik statej o bibliometrike). M.: MCNMO (in Russian).

Aleskerov F. T., Badgaeva D. N., Pislyakov V V., Sterligov I. A., Shvydun S. V. (2016). An importance of Russian and international economic journals: A network approach. Journal of the New Economic Association, 2 (30), 193-205 (in Russian).

Balatsky E. V., Ekimova N. A. (2015a). The problem of manipulation in the RSCI system. Bulletin of Ural Federal University. Series Economics and Management, 14 (2), 166-178 (in Russian).

Balatsky E. V., Ekimova N. A. (2015b). Ranking the participants of economic studies market in Russia. Journal of Institutional Studies, 7 (3), 102-121 (in Russian).

Balatsky E., Ekimova N. (2015c). The experience of ranking Russian economic journals. Voprosy Economiki, 8, 99-115 (in Russian).

Balatsky E. V, Yurevich M. A. (2016). The misalignment of Russian economists' scientometric indicators in RISC. Journal of the New Economic Association, 2 (30), 176-180 (in Russian).

Fedorec O. V. (2009). Kollektivnaya ehkspertiza nauchnyh zhurnalov: metodika agregirovaniya ehkspert-nyh ocenok i postroeniya rejtinga. Upravlenie bol'shimi sistemami, 27, 12-35 (in Russian).

Idei i chisla. Osnovanija i kriterii ocenki rezul'tativnosti filosofskih i sociogumanitarnyh issledovanij. (2016). M.: Progress-Tradicija (in Russian).

Muravyev A. A. (2011). Economic science in Russia through the lens of publications of Russian economists in national and international journals over 2000-2009. The HSE Economic Journal, 15 (2), 237-264 (in Russian).

Muravyev A. (2013). On scientific value of Russian journals in economics and related fields. Voprosy s Economiki, 4, 130-151 (in Russian). |

Prajs D. (1966). Malaja nauka, bol'shaja nauka. Nauka o nauke. Sbornikstatej. M.: VINITI (in Russian). ^

Rubinstein A. Y. (2014). On the Journal of the New Economic Association and other economic jour- i nals: Results of a readers' survey. Journal of the New Economic Association, 3 (23), 175-187 (in Russian). ^

Rubinstein A. Y. (2016). Ranking of Russian economic journals: The scientific method or «numbers g game»? Journal of the New Economic Association, 2 (30), 162-175 (in Russian). |

Rubinshtein A. Y., Burakov N. A., Slavinskaya O. A. (2017). Community of economists and Russian ^ economic journals (sociological measurements VS bibliometric). M.: Institute of Economics of the Russian ^ Academy of Sciences.

Volkova O. N. (2016). Do visual culture revolutions affect accounting practices? Journal of the New

Economic Association, 1 (29), 54-82 (in Russian).

Bishop C. M. (2006). Pattern recognition and machine learning. Springer.

Brin S., Page L. (1998). The anatomy of a large-scale hypertextual web search engine. Computer Networks andICDNSystems, 30, 107-117.

Bro R., Smilde A. K. (2003). Centering and scaling in component analysis. Journal of Chemometrics, 17 (1), 16-33.

Carroll J. D., Chang J. J. (1970). Analysis of individual differences in multidimensional scaling via an N-way generalization of Eckart-Young decomposition. Psychometrika, 35, 283-319.

De Lathauwer L., De Moor B., Vandewalle J. (2000). On the best Rank-1 and Rank-(Rj, R2,..., RN) approximation of higher-order tensors. SIAM Journal on Matrix Analysis and Applications, 21, 1324-1342.

Egghe L. (2006). Theory and practice of the g-index. Scientometrics, 69 (1), 131-152.

Fletcher R. (1987). Practical methods of optimization (2nd ed.). John Wiley & Sons.

Garfield Eu. (1955). Citation indexes for science. Science, 122 (3159), 108-111.

Goodhart C. A. E. (1975). Problems of monetary management: The UK experience. Papers in Monetary Economics. Reserve Bank of Australia, Vol. I.

Harshman R. A. (1970). Foundations of the PARAFAC procedure: models and conditions for an explanatory multimode factor analysis. UCLA Working Papers in Phonetics, 16, 1-84.

Kiers H. A. L. (2000). Towards a standardized notation and terminology in multiway analysis. Journal of Chemometrics, 14, 105-122.

Kolda T. G., Bader B. W. (2009). Tensor decompositions and applications. SIAM Review, 51 (3), 455-500.

Kroonenberg P. (2008). Applied multiway data analysis. Wiley Publishing.

Kroonenberg P., De Leeuw J. (1980). Principal component analysis of three-mode data by means of alternating least squares algorithms. Psychometrika, 45, 69-97.

Leibovici D. G. (2010). Spatio-temporal multiway decompositions using principal tensor analysis on k-modes: The R package PTAk. Journal of Statistical Software, 34 (10), 1-34.

Prathap G. (2010). The 100 most prolific economists using the p-index. Scientometrics, 84, 167-172.

Seglen P. (1997). Why the impact factor of journals should not be used for evaluating research. British Medical Journal, 314 (7079), 498-502.

Tucker L. (1966). Some mathematical notes on three-mode factor analysis. Psychometrika, 32 (3), 279-311.

Waltman L., Yan E. (2014). PageRank-related methods for analyzing citation networks. In: Y. Ding, R. Rousseau, D. Wolfram (eds.), Measuring Scholarly Impact: Methods and Practice, 2014, 83-100.

Waltman L. (2016). A review of the literature on citation impact indicators. Journal of Informetrics, 10 (2), 365-391.

Received 14.03.2018; accepted 08.04.2018.

i Надоели баннеры? Вы всегда можете отключить рекламу.