Научная статья на тему 'Прикладное использование методов обработки данных в политическом анализе'

Прикладное использование методов обработки данных в политическом анализе Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
83
13
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАССИФИКАЦИЯ / CLASSIFICATION / МЕТОД БЛИЖАЙШИХ СОСЕДЕЙ / NEAREST NEIGHBOR / АЛГОРИТМ ИЕРАРХИЧЕСКОЙ КЛАССИФИКАЦИИ / HIERARCHICAL CLASSIFICATION ALGORITHM / МЕТОД ВАРДА / WARD'S METHOD / МЕТОД ГЛАВНЫХ КОМПОНЕНТ / PRINCIPAL COMPONENT ANALYSIS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ломаев Ю. С., Сидорина Ю. В.

Зачастую актуальной задачей является определение по характерным чертам принадлежности объекта к определённому классу как в промышленной и космической отрасли, так и в социальных сферах. Для этого могут быть использованы такие прикладные методы обработки данных, как кластерный и факторный анализы.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ломаев Ю. С., Сидорина Ю. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

USING DATA PROCESSING TECHNIQUES IN POLITICAL ANALYSIS

Significant task is often to define characteristic features of accessory to a certain class of object in industrial and aerospace industries, and in social spheres. Such methods of application data as cluster and factor analysis may be used.

Текст научной работы на тему «Прикладное использование методов обработки данных в политическом анализе»

References

1. Kushnareva T. V., Lipinskiy L. V. Algoritm geneticheskogo programmirovaniya dlya avtomatiziro-vannogo formirovaniya derev'ev prinyatiya resheniya [Genetic Programming Algorithm for Automated Decision Tree] // Reshetnev reading : Proceedings of the XVIII International scientific conference. Krasnoyarsk: Siberian State Aerospace University, 2014. Vol. 2. P. 84-86.

2. Gibridnyy evolyutsionnyy algoritm avtoma-tizirovannogo formirovaniya derev'ev prinyatiya resheniya [Hybrid evolutionary algorithm for the automated design of decision trees] / Lipinski L. V., Kushnareva T. V., Popov E. A., etc // Bulletin of the Siberian State Aerospace University. ak. MF Reshetnev. Issue. 5 (57), Krasnoyarsk, 2014, рp. 85-92.

3. Koza J. R. (1992), Genetic Programming: On the Programming of Computers by Means of Natural Selection. MIT Press.

4. Deyper N., Smith G. Prikladnoy regressionnyy analiz [Applied Regression Analysis]. M. : Dialectics. 2007. 912 p.

5. Kushnareva T. V. O primenenii derev'ev prinyatiya resheniya v zadachakh meditsinskoy diagnostiki [The application of a decision tree for purposes of medical diagnosis] P827 Prospectus // Free-2015: scientific materials. Conf., dedicated to the 70th anniversary of the Great Victory (15-25 April 2015) [Electronic resource] / Ed. E. I. Kostoglodova. Electron. dan. Krasnoyarsk. : Sib. Feder. University Press, 2015. Direction of natural science - mathematics, computer science: modeling and optimization of complex systems. S. 31-32.

© HnnHHCKHH .H. B., KymHapeBa T. B., 2015

УДК 004.89

ПРИКЛАДНОЕ ИСПОЛЬЗОВАНИЕ МЕТОДОВ ОБРАБОТКИ ДАННЫХ В ПОЛИТИЧЕСКОМ АНАЛИЗЕ

Ю. С. Ломаев, Ю. В. Сидорина

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: [email protected]

Зачастую актуальной задачей является определение по характерным чертам принадлежности объекта к определённому классу как в промышленной и космической отрасли, так и в социальных сферах. Для этого могут быть использованы такие прикладные методы обработки данных, как кластерный и факторный анализы.

Ключевые слова: классификация, метод ближайших соседей, алгоритм иерархической классификации, метод Варда, метод главных компонент.

USING DATA PROCESSING TECHNIQUES IN POLITICAL ANALYSIS

Yu. S. Lomaev, Yu. V. Sidorina

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected]

Significant task is often to define characteristic features of accessory to a certain class of object in industrial and aerospace industries, and in social spheres. Such methods of application data as cluster and factor analysis may be used.

Keywords: classification, nearest neighbor, hierarchical classification algorithm, Ward's method, principal component analysis.

Рассматривается задача классификации с применением методов анализа и обработки данных. В качестве примера рассмотрим голосование Конгресса США (1984 год). По результатам голосования конгрессменов необходимо построить классификатор для идентификации принадлежности каждого конгрессмена к политическим партиям. Имеются 16 критериев голосования. Каждый конгрессмен отвечает на

критерий «да» (1), «нет» (0) или «затрудняюсь» (-) [1]. Общее количество конгрессменов О„ i = 1, ..., 435.

Фрагмент голосования Конгресса США приведён на рис. 1.

В качестве метода заполнения пропущенных данных используется метод ближайших соседей [2]. Для пустых ячеек получаем определённые значения.

Решетнеескцие чтения. 2015

1 Защита детей 2 Водное распред еленне 3 Бюджет 4 Замора живани е з.п. 5 Поддер жка Сальва Б Релнгно зные группы 7 Запрет антиспу тниковы S Помощь в Никаpar 9 М-Ракет ы 10 Иммигра нты 11 Сокращ ение Synfuels 12 Расход ы на образов 13 Судебна я реформ 14 Преступ ность 15 Беспош линный экспорт 1Б Акт с ЮАР

врачам дора школах х тестов уа корпора ции ание а

1 0 1 0 1 1 1 0 0 0 1 1 1 1 0 1

2 0 1 0 1 1 1 0 0 0 0 0 1 1 1 0

3 1 1 1 1 0 0 0 0 1 0 1 1 0 0

4 0 1 1 0 1 0 0 0 0 1 0 1 0 0 1

5 1 1 1 0 1 1 0 0 0 0 1 1 1 1 1

Б 0 1 1 0 1 1 0 0 0 0 0 0 1 1 1 1

7 0 1 0 1 1 1 0 0 0 0 0 0 1 1 1

Рис. 1. Фрагмент голосования Конгресса США

Результатом заполнения данных являются десятичные числа. Теперь можно приступать к основной задаче - определению количества классов (партий). Для реализации этой задачи возможно использование агломеративного алгоритма иерархической классификации. Рассматриваемый алгоритм заключается в представлении всех экземпляров (конгрессменов) в признаковом пространстве (критерии голосования) и расчёте расстояния между данными экземплярами [3]. Определение расстояния между экземплярами производилось при помощи евклидовой метрики по следующему принципу (для примера 2-х точек имеющейся выборки):

D,} =

(X - X} )2 + (у - У} )2 +... + (tt -1} )2 + +(шг - Ш} )2 + (кг - к} )2 + (nt - П} )2,

где I, ] - точки; х, у, ..., т, к, п - признаки. В качестве правила объединения множеств использовался метод Варда (между кластерами берется прирост суммы квадратов расстояний объектов до центров кластеров, получаемый в результате их объединения). Результатом работы алгоритма является графическое представление иерархии - дендрограмма (рис. 2).

Рис. 2. Классификация экземпляров в виде дендрограммы

Очевидно, что выделяются 2 кластера (партии). Принадлежность каждого объекта к конкретному классу: 1 класс - 189 объектов, 2 класс - 246 объектов. Однако такую классификацию трудно представить наглядно, поэтому необходимо сокращение признакового пространства. Первоначально рассматри-

ваются исходные критерии голосования: социальная защита детей, водное распределение, бюджет, акт об экспорте с ЮАР. Преступность связана с образованием, поддержка странам сливается во внешнеполитическую направленность. В итоге возможно уменьшение размерности признакового пространства до 10. Однако в дальнейшем из собственных умозаключений проблематично сделать вывод об уменьшении признакового пространства. В этом случае используется метод главных компонент (МГК) [4].

Перед использованием МГК рассматривались 10 независимых факторов (признаков). В результате работы МГК были рассчитаны вклады факторов. Они соответственно равны:

ЕУ(Уаг 1(защита детей)) = 7.42957, ЕУ(Уаг2(образование)) = 1,42148, ЕУ( Уаг3(бюджет)) = 1,12795, ЕУ(Уаг4(внешняя политика)) = 0,861574, ..., ЕУ( Уаг 10 (судебная реформа)) = 0,13238.

Далее отбираются только факторы с собственными значениями, равными или большими 1 (критерий Кайзера). Получается, что данным требованиям отвечают только первые 3 критерия. Таким образом, пространство признаков сократилось до трехмерного. В итоге получена наглядная иллюстрация классификации конгрессменов по политическим партиям (критерии защиты детей и образования при срезе составляющей бюджета, рис. 3).

Рис. 3. Объекты 01 выборки в двумерном пространстве

Согласно данным по заседанию Конгресса США [5], политический состав был следующий: республиканцы - 242, социал-демократы - 193. Таким образом, в процентном соотношении ошибочная классифика-

ция составила 0,958 %. При этом зашумлённость данных составила 4,14 %.

Прикладные методы обработки данных необходимы для проведения политического анализа и прогнозирования с целью получения знаний из имеющейся информации.

Библиографические ссылки

1. URL: http://archive.ics.uci.edu/ml/datasets/Congre-ssional+Voting+Records.

2. Злоба Е., Яцкие И. Статистические методы восстановления пропущенных данных // Computer Modelling & New Technologies. 2002. Vol. 6, № 1. С. 51-61.

3. Классификация и кластер / под ред. Д. В. Рай-зина. М. : Мир, 1980. 393 с.

4. Визуализация многомерных данных / под ред. А. Ю. Зиновьева. Красноярск : Изд. КГТУ, 2000. 168 c.

5. URL: http://archive.ics.uci.edu/ml/machine-learning-databases/voting-records/house-votes-84.names.

References

1. URL: http://archive.ics.uci.edu/ml/datasets/Congre-ssional+Voting+Records.

2. Zloba Ye., Yatskiye I. Statisticheskiye metody vosstanovleniya propushchennykh dannykh // Computer Modelling & New Technologies. 2002. Vol. 6. No. 1, pp. 51-61.

3. Klassifikatsiya i klaster / pod red. Rayzina D. V. M. : Mir, 1980. 393 s.

4. Vizualizatsiya mnogomernykh dannykh / pod red. Zinov'yeva A. Yu. Krasnoyarsk : Izd. KGTU, 2000. 168 c.

5. URL: http://archive.ics.uci.edu/ml/machine-learning-databases/voting-records/house-votes-84.names.

© Ломаев Ю. С., Сидорина Ю. В., 2015

УДК 519.87

О МНОГОКРИТЕРИАЛЬНОМ САМОКОНФИГУРИРУЕМОМ ЭВОЛЮЦИОННОМ АЛГОРИТМЕ ДЛЯ АВТОМАТИЗИРОВАННОГО ФОРМИРОВАНИЯ АНСАМБЛЕЙ

НЕЙРОСЕТЕВЫХ МОДЕЛЕЙ*

Е. Д. Лосева, Л. В. Липинский

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: [email protected]

Разработан комплексный подход к автоматизированному формированию ансамблей (коллективов) нейро-сетевых моделей, позволяющий решать задачи прогнозирования, классификации, отбора информативных признаков с учетом многокритериальной оценки эффективности. Также разработан и применен альтернативный подход к формированию коллективного решения, в котором будут учтены решения отдельных его членов. Исследование эффективности было проведено на множестве тестовых задач: его работоспособность была установлена.

Ключевые слова: многокритериальная оптимизация, самоконфигурируемое генетическое программирование, ансамбли нейросетевых моделей.

ABOUT SELF-CONFIGURING MULTI-OBJECTIVE EVOLUTIONARY ALGORITHM FOR AUTOMATED DESISGN ENSEMBLES OF NEURAL NETWORK MODELS

E. D. Loseva, L. V. Lipinskiy

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected]

The complex approach for automated formation of ensembles (collectives) of neural network models is developed. This method allows to solve problems of prediction, classification, feature selection with multi-criteria evaluation of effectiveness. Also the alternative approach to the formation of a collective solution is developed in which the solutions of its individual members are considered. The study of an effectiveness with different test tasks is conducted: the performance efficiency is established.

Keywords: multi-objective optimization, "Self-configuring" genetic programming, ensembles of the neural network models.

* Работа выполнена в рамках и при финансовой поддержке проекта RFMEFI57414X0037.

i Надоели баннеры? Вы всегда можете отключить рекламу.