Анализ данных формальными методами оценки показателей критериев рейтингования в процессе аккумулирования сведений о деятельности профессорского-преподавательского состава

Федосеев Алексей Эдуардович

АНАЛИЗ ДАННЫХ ФОРМАЛЬНЫМИ МЕТОДАМИ ОЦЕНКИ ПОКАЗАТЕЛЕЙ КРИТЕРИЕВ РЕЙТИНГОВАНИЯ В ПРОЦЕССЕ АККУМУЛИРОВАНИЯ СВЕДЕНИЙ О ДЕЯТЕЛЬНОСТИ ПРОФЕССОРСКОГО-ПРЕПОДАВАТЕЛЬСКОГО СОСТАВА

УДК 519.8

Алексей Эдуардович Федосеев,

аспирант, Белгородский государственный национальный исследовательский университет(НИУ БелГУ) Тел.: 8 (908) 786 40 25 Эл. почта: fedoseev@bsu.edu.ru

В статье рассматривается разработка формальных методов оценки показателей критериев рейтингования. Показана математическая модель, позволяющая связать между собой количественные характеристики критерия рейтингования, измеренные даже в различных шкалах, с интуитивным представлением о них. Приведено решение проблемы оценки критерия рейтингования.

Ключевые слова: экспертные оценки, рей-тингование, оценка показателей рейтинга, задача выбора и принятия решений, формальные методы оценки.

Alexey E. Fedoseev,

Post-graduate student, Belgorod State National Research University (BelSU) Tel: +7-908-786-40-25 E-mail: fedoseev@bsu.edu.ru

DATA ANALYSIS BY FORMAL METHODS OF ESTIMATION OF INDEXES OF RATING CRITERION IN PROCESS OF ACCUMULATION OF DATA ABOUT WORKING OF THE TEACHING STAFF

The article considers the development of formal methods of assessing the rating criterion exponents. The article deals with the mathematical model, which allows to connect together quantitative rating criterion characteristics, measured in various scales, with intuitive idea of them. The solution to the problem of rating criterion estimation is proposed.

Keywords: expert estimation, rating, estimation of indexes of rating, task of choice and deciding, formal methods of estimation.

1. Введение

При внедрении в университете рейтинга деятельности профессорско-преподавательского состава и структурных подразделений университета, возникает задача эффективного анализа данных в процессе аккумулирования сведений об их деятельности по утверждённым Учёным советом университета критериям. В данном процессе ставится центральная задача в разработке формальных методов оценки работы по показателям критериев рейтингования (ПКР).

Заранее предусматривается, что при утверждении каждого критерия для него определены показатели и шкала, по которым будет оцениваться работа экспертами. На этапе подготовки исходных данных, создается матрица расстояний между ПКР. Входными данными являются множество показателей, определяющие критерии и свойства этих показателей. При математической обработке в них выявляются эмпирические закономерности, которые для эффективного использования при обработке, представляются в виде так называемой стандартной информации или, по-другому, в виде прямоугольной таблицы «объект-свойство» размерностью М х Ы, разделенной еще на К таблиц. Строки таблицы «объект-свойство» соответствуют анализируемым показателям, определяющим критерий, столбцы - значениям, отображающим свойства этих показателей, а каждая таблица объединяет в пределах себя показатели одного класса.

2. Начальный этап

Будем считать, что исходные данные, получены в результате анализа поданной информации, заданы в натуральном пространстве. Это означает, что компоненты описаний показателей (т.е. признаки таблицы «объект-свойство») в общем случае имеют различный физический смысл, измерены в различных шкалах и вообще могут быть несопоставимы между собой по диапазонам значений. Иными словами, натуральное пространство признаков существенно неоднородно, и непосредственно не допускает введения на нем метрики для формальной оценки степени сходства или различия сравниваемых показателей. Поэтому натуральную таблицы «объект-свойство» подвергнем нормировке, в результате чего приведем ее к стандартному виду, при котором математическое ожидание и дисперсия значений каждого признака в стандартной таблице «объект-свойство» равны нулю или единице.

Для оценки с помощью ЭВМ сходства или различия показателей, представленных в таблицы «объект-свойство», введем формальную меру сходства (различия), в терминах которой ЭВМ будет сравнивать показатели между собой. Введение такой меры в современных методах обработки эмпирических данных опирается на гипотезу компактности. В общем случае гипотеза компактности постулирует возможность разбиения большого числа показателей на небольшое число сильно различающихся «подмножеств», внутри которых показатели «похожи» в том или ином, но объективно существующем отношении.

Описание показателей будем рассматривать как векторы в Ж-мерном пространстве признаков Ем. Рассмотрим гипотезу компактности, которая утверждает, что задача обнаружения и обработки эмпирических данных, как задача обнаружения в них эмпирических закономерностей, должна обладать следующими двумя принципиальными свойствами:

- должна иметь решение таблицы «объект-свойство»;

- компактности выражаются в том, что точки, отображающиеся в Еы одного класса, расположены в Еы ближе друг к другу, чем к точкам, отображающимся в ЕЖобъект исследования другого класса.

Гипотеза компактности в изложенной геометрической постановке позволяет нам в наиболее естественной форме ввести меру различия объект исследования, как расстояние между точками (векторами), отображающими сравниваемые объект исследования в пространстве признаков Е [1].При этом в одних и тех

же терминах удается сформулировать как понятие расстояние Б(хг, х2) между показателями Х] и х2, заданными их описаниями, так и понятие расстояния от показателя до класса показателей 2:

В(х, 2) = М{Я(Х у)Уу £ б}, (1)

_ 22) = = шЯДхь х^ £ б1, х2 £ б2}, (2)

Поскольку все признаки показателей выражены в слабых качественных шкалах, в частности шкалах наименований и порядка, для сравнения показателей будем использовать расстояние Хемминга:

А (Д

1 N

(3)

1=1

в котором различие показателей выражается числом несовпадений свойств сравниваемых объектов. Так как в случае качественных шкал признаки бинарные, т. е. их значения принимают только два уровня типа «Да» и «Нет» (1 или 0), расстояние Хемминга Вк равно единице для показателей, описание одной из которых является отрицанием описания другой, т. е. когда все свойства сравниваемых показателей взаимно противоположны. Б = 0 для объектов, где все свойства совпадают, из числа включенных в описание.

Размеры таблицы «объект-свойство» могут достигать величин в десятки и сотни признаков. Поэтому главной задачей прикладного анализа эмпирических данных является задача сжатия содержащейся в таблице «объект-свойство» информации эмпирических закономерностей. Чем больше массив исходных данных удается представить в виде существенно меньшего, тем с большей вероятностью можно говорить о том, что выявлена некоторая закономерность. Сжатие содержащейся в таблице «объект-свойство» информации может достигаться тремя основными способами:

• путем группировки объекта в классы, близкие в некотором отношении;

• путем группировки признаков в сильно связанные агрегаты;

• путем группировки признаков в такие агрегаты, которые присущи объектам только данного конкретного класса и не присущи объектам других классов.

При этом первые два способа считаются основными, а третий, комбинированный, поскольку любая

таблицы «объект-свойство» допускает только две интерпретации: либо как распределение признаков в М-мер-ном пространстве объектов, либо как распределение объекта исследования в ^мерном пространстве признаков. В нашей работе будем интерпретировать таблицы «объект-свойство», как распределение признаков в М-мерном пространстве объектов.

Для этого будем использовать матрицу расстояний М х М, где М -число показателей в исходной таблицы «объект-свойство». Ее элементами будут выступать расстояния от каждого показателя, вычисленные по исходной таблице «объект-свойство» при помощи уже описанной формулы Хемминга Бй(х„ х) ,, ] = {1, 2, ..., М}.

Задача агрегирования элементов произвольной природы занимает одно из центральных мест в прикладном анализе эмпирических данных.

3. Агрегирования показателей

Решением задачи агрегирования показателей является такое разбиение множеств показателей на непересекающиеся подмножества (блоки, агрегаты, классы), в которых содержатся только сходные, близкие друг другу в некотором объективно существующем отношении показатели. Если под элементами будем понимать признаки показателей, то в данной задаче в качестве исходных данных используется корреляционная матрица, а в качестве решения будет выступать перечень агрегатов, т. е. перечень групп, сильно коррелирующих друг с другом признаков. Поскольку в нашей задаче под элементами понимаются сами показатели, то в задаче агрегирования в качестве исходных данных используется матрица близостей, а в качестве решения выступает перечень классов, т. е. перечень групп показателей, примыкающих друг к другу в пространстве признаков [2].

В математической постановке задача агрегирования формируется как задача диагонализации матрицы связей, под которой понимается матрица близостей.

Содержательно диагонализация матрицы связей означает такую перестановку ее строк и столбцов, чтобы в результате вдоль главной диагонали матрицы связей образовывались блоки -квадратные подматрицы, в которых значения (уровни) связей между элементами были бы по возможности

наибольшими, а вне этих блоков - наименьшими.

Решение задачи диагонализации матрицы связей базируется на двух основных подходах: эвристическом и вариационном.

Эвристический подход, в рамках которого точная, в математическом смысле, постановка задачи отсутствует, формирует методы агрегирования по аналогии и на основе человеческих представлений о процедуре и качестве разбиения элементов на блоки.

При вариационном подходе в методе решения задачи агрегирования сохраняется только второй аспект эвристического подхода: задается (выбирается) некоторый функционал качества разбиения элементов на блоки, причем такой, чтобы лучшему, в интуитивном понимании, варианту агрегирования элементов соответствовало бы экстремальное значение функционала качества. Тогда задача диагонализации матрицы связей сводится к задаче формирования (конструирования) такой процедуры последовательной перегруппировки элементов в блоках, в результате работы которой достигается экстремум функционала качества, поэтому вариационный подход определяется непосредственно как оптимизационный.

Поскольку вариационный подход в отличие от эвристического позволяет найти глобальный минимум, то именно его будем применять в задаче агрегирования показателей.

Агрегирование показателей осуществляется при помощи оптимизационного алгоритма «краб» [3]. Этот алгоритм предназначен для агрегирования элементов, заданных матрицей расстояний между ними и является результатом формализации некоторых человеческих представлений о качестве разбиения элементов исходного множества. Его работа состоит из двух этапов. На первом этапе осуществляется объединение элементов друг с другом. Для этого строится кратчайший незамкнутый путь или минимальное остовое дерево, представляющее собой взвешенный граф без петель, вершинами которого являются агрегированные элементы, а ребра проведены между ближайшими относительно друг друга элементами. В результате кратчайший незамкнутый путь соединяет все элементы исходного множества, и при этом сумма длин, входящих в кратчайший незамкнутый

X .. X

путь ребер, минимальна. Построением кратчайшего незамкнутого пути заканчивается первый этап работы нашего алгоритма.

На втором этапе работы алгоритм последовательно разрезает ребра кратчайшего незамкнутого пути, начиная с самого большого, и вычисляет для каждого разрезания значение функционала качества, получаемого при данном разрезании разбиения элементов исходного множества. Процесс разрезания прекращается, и алгоритм завершает работу, когда значение функционала качества, пройдя максимум, снова начнет уменьшаться.

Первое предпочтение формализуется при помощи оценки средней длины внутренних ребер подмноже ства, что образует величину общей меры близости внутренних точек классификации [4]:

í . м -1 Л

1 к 1

*=-£ £

к^ мg-1 £

(4)

К -1

g=2

где dг

О = -

К-1

(6)

г=2

где гт

- наименьшее из примыкающих к dg ребер g-го и ^-1)-го подмножеств.

Четвертое предпочтение формализуется при помощи оценки равномерности распределения элементов по подмножествам:

к

Н = КК П Мг/М, (7)

г=1

которое изменяется в диапазоне от нуля до единицы.

Качество разбиения элементов на подмножества в алгоритме оценивается функционалом вида Ь = Ьп(БИ / GR), при помощи которого формализуются человеческие представления о качестве разбиения и агрегирования элементов.

В итоге была проведена оптимизация показателей, воздействующих на критерий. Теперь нам необходимо определить степень воздействия каждого показателя на критерии. Учитывая, что постановка задачи связана с большой неопределенностью, необходимо прибегнуть к методу экспертных оценок.

4. Экспертиза

Выбор методики экспертизы вытекает из самой задачи. Количество экспертов определяется из следующего выражения:

к = Z2(р)¥2 /

'Е2

(8)

где г^ - длина /-го ребра в £-м подмножестве, - число элементов, агрегируемых в £-ом подмножестве.

Второе предпочтение формализуется при помощи оценки средней длины ребер, соединяющих подмножество в кратчайший незамкнутый путь между собой:

1 К

В =-- £ dg, (5)

- длина ребра в кратчайшем незамкнутом пути между g-м и ^-1) подмножествами. При этом, чем больше расстояние между подмножествами, тем больше Б.

Третье предпочтение формализуется при помощи оценки среднего градиента (перепада расстояний между элементами подмножеств): 1 к

Т £ 4

~1 г = 2

зависимости определяют искомый коэффициент эксперта. Упомянутую зависимость будем строить в виде мультипликативной либо аддитивной взвеси:

КЭ = Ки ■

где Z(p) - аргумент интервала вероятности, V - коэффициент вариации, Е - относительная ошибка выбора.

Из выражения (8) следует, что количество экспертов - К должно быть тем больше, чем согласованность их мнений (больше коэффициент вариации и выше требования к точности оценок (меньше ошибок)), а также, чем больше вероятность Р, с которой гарантируется выполнение. Поэтому в практике экспертного опроса количество экспертов зависит от конкретных условий. Обработку полученных результатов целесообразно провести в три этапа.

Первый этап связан с ранжированием экспертов, т.е. с выявлением степени доверия к высказываемым ими мнениям. На втором этапе с учетом весовых коэффициентов экспертов оценивается значимость той или иной характеристики. На третьем выявляется вопрос о степени согласованности мнений экспертной группы. Если мнения экспертов не согласованы, то предлагается увеличить количество экспертов.

На первом этапе производится ранжирование экспертов по степени авторитетности их суждений. Необходимо провести расчет весовых коэффициентов на основе квалификации, а также их специализации и знакомства с проблемами. Названные степени воздействия показателей на критерий выражаются коэффициентами, которые в виде некоторой функциональной

. Ка, ■ Кз1,1 = 1, п, (9) где КЭI - весовой коэффициент /-го эксперта,

Ки - коэффициент его квалификации, Кы - коэффициент его специализации, К31 - коэффициент его знакомства с проблемой, п - число экспертов.

Первый из коэффициентов определяется по формальному признаку, два оставшихся путем самооценки.

Для облегчения работы экспертов предлагается оценивать степень воздействия показателей на критерий в виде рангового ряда, где меньшему числу соответствует большая степень влияния [5]. После введения ранговых весов происходит их обработка - получение обратных величин исходным ранговым коэффициентам

к0у/=¡п, з=¡т, (10)

КзЦ

где Кзу - ранговый коэффициент знакомства /-го эксперта степени воздействия показателей на критерий, п - число экспертов, т - количество показателей на критерий.

Далее коэффициенты подвергаются операции нормирования с целью превращения их в удельные веса

К =

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

знг/

К

(11)

£ К

1=1

Операция мультипликативного взвешивания нарушает условие нормирования коэффициентов, что требует вторичную нормализацию. Причем, в отличие от предыдущих шагов, нормирование необходимо выполнить не по столбцам, а по строкам, то есть:

КД =

щ

к

£ Кз,;

(12)

где КДу - нормированный коэффициент /-го эксперта по /-ой показателю, Кзу - денормированный коэффициент.

Только после этого окажется возможным сравнивать одноименные оценки различных экспертов. В итоге, получаем так называемые дифференциальные коэффициенты экспертов, позволяющие интерпретировать степень их авторитета.

г

Задача второго этапа состоит в определении весовых коэффициентов показателей, показывающих их «важность». Причем в отличие от задачи ранжирования экспертов, интерес представляют лишь интегральные коэффициенты, по которым можно судить о степени внимания к тем или иным показателям. Этот факт является главным в определении схемы обработки экспертных данных, которую условно можно представить в виде совокупности следующих шагов:

- приведение ранговых оценок к нормированным коэффициентам;

- взвешивание нормированных оценок коэффициентами экспертов;

- формирование дифференцированных нормированных оценок;

- получение интегральных нормированных оценок.

Первый шаг выполняется по тем же правилам, что и обработка коэффициентов знакомства экспертов. Сначала находятся преобразованные коэффициенты и далее они подвергаются операции нормирования по столбцам.

Второй шаг:

Koij — KHij ' КЭГ

i е {n}, j — 1, m, (13)

где K01

K

3ij

- взвешенный весовой коэффициент /-го объекта полученный на основе г-го эксперта,

- дифференциальный весовой коэффициент /-го эксперта по г-ой подсистеме.

к =

к.

£ к»

(14)

На четвертом шаге формируются искомые интегральные нормированные оценки объектов:

£ K ¿—i i

KM = -

, i = 1, n,

(15)

сообразно выполнить по результатам определения возможной степени воздействия показателей на критерий. Уровень согласованности считается высоким, если v < 0,33.

Найдем вариант с наибольшим значением результата, т.е. целью выбора является maxe,. Таким образом, выбор оптимального варианта производится с помощью критерия

E0{Ei0 I Ei0 е E Л ei0 = max ei}, (16)

I

Чтобы прийти к однозначному и по возможности наиболее выгодному варианту, введем оценочные (целевые) функции (16). При этом матрица решений ||е^|| сводится к одному столбцу. Каждому варианту Е, приписывается, таким образом, некоторый результат ei2, характеризующий, в частности, все последствия этого решения. Процедуру выбора представляем по аналогии с применением критерия (14). Наилучший результат ei2 имеет вид:

max ei 2 = max(min eJj + max eJj), (17)

i i j 1 j 1

Для формирования результата будем исходить из требований выбора (14).

Возникает необходимость применения минимаксного критерия Вальда:

max ei 2 = max(min etj), (18)

при

Третий шаг связан с дифференцированием взглядов экспертов на важность ранжированных объектов с учетом их компетенции. Нормировка оценок, полученная на втором шаге, выполняется по строкам:

ZMM = max ei2 ' (19)

ел = min eij > (20)

справедливо соотношение:

E0 _ {Ei 0

= max min e¡y}, (21)

ЕЕ кД

1=11=1

На третьем этапе проверяется согласованность мнений экспертов при помощи дисперсий, коэффициентов вариации. Для этого полученные оценки необходимо рассматривать как выборку случайных величин. Оценку степени согласования экспертов целе-

где 2тт - одиночная функция минимаксного критерия.

Правило выбора решения в соответствии с минимаксным критерием интерпретируется следующим образом:

Матрица решений ||е/|| дополняется еще одним столбцом из наименьших результатов ег]- каждой строки. Далее выбираются те варианты Ег2, в строках которых стоят наибольшие значения ег2 этого столбца.

5. Заключение

Благодаря данной методике мы провели оптимизацию показателей, выявили из них основные, что позво-

лит оперировать уже этими данными как знаниями. Представленный формальный метод оценки ПКР позволит в дальнейшем принимать решение по оценке уже самих критериев. Решение проблемы оценки ПКР сведено к классической задаче выбора и принятия решения. Показанную математическую модель, можно реализовать в виде программного алгоритма, который позволит связать между собой количественные характеристики показателей критериев, измеренные в различных шкалах, с интуитивным представлением о них.

Литература

1. Блейхут Р., Теория и практика кодов, контролирующие ошибки. М., «Мир», 1986 - 576c.

2. Компанец Л.Ф., Краснопромина А.А. , Малюков Н.Н., Математическое обеспечение научных исследований в автоматике и управлении. Киев: «Высшая школа», 1992 - 287с.

3. Препарата Ф., Шеймос М. Вычислительная геометрия: Введение, Пер. с англ. - М.: «Мир», 1989 - 478c.

4. Ципилева Т.А., Вариационные системы: Учебное пособие. Томск: Томский межвузовский центр дистанционного образования, 2004 -162с.

5. Королева Н.А., Методика выявления основных свойств документов системы менеджмента качества, Орел: №4 2010 «Образование и общество», научный информационно-аналитический журнал ст.32-36.

References

1. R. Bleykhut, The Theory and the practice of codes, supervising mistakes. M., «Mil», 1986 - 576c.

2. Kompanets L.F. Krasnopromina A.A. Malyukovn.N. Software of scientific researches in automatic equipment and management. Kiev: «Vysshaya shkola», 1992 - 287s.

3. Preparata F. Shejmos M. Computing geometry: Introduction. Per. s angl. - M.: «Mir», 1989 - 478c.

4. Tsipileva T.A. Variation systems: the textbook. Tomsk: Tomskij mezh-vuzovskij centr distancionnogo obra-zovaniya, 2004 - 162s.

5. Koroleva N.A., Technique of detection of the main properties of documents of quality management system, Orel: №4 2010 «Obrazovanie i obshchestvo», nauchnyj informacionno-analiticheskij zhurnal st. 32-36.

и

=i

Аннотация научной статьи по математике, автор научной работы — Федосеев Алексей Эдуардович

Похожие темы научных работ по математике , автор научной работы — Федосеев Алексей Эдуардович

DATA ANALYSIS BY FORMAL METHODS OF ESTIMATION OF INDEXES OF RATING CRITERION IN PROCESS OF ACCUMULATION OF DATA ABOUT WORKING OF THE TEACHING STAFF