Визуализация произвольных данных методом упругих карт

А. Ю. Зиновьев; А. А. Питенко

росов пакета MATLAB 5.2. Для сравнения разработанного алгоритма с алгоритмом обучения Левенберга-Марквардта использовался модуль Neural Toolbox пакета MATLAB 5.2. При этом в качестве модели НС, обучавшейся на основе алгоритма Левенберга-Марквард-та, использовался двухслойный перцептрон, содержавший на первом слое столько нейронов, сколько и признаков, а на втором слое - 1 нейрон. В качестве цели обучения была задана среднеквадратическая ошибка 0.01, максимальное количество циклов обучения - 500.

Результаты экспериментов показывают, что время обучения НС на основе алгоритма Левенберга-Марк-вардта, в целом, существенно больше чем время обучения НС на основе алгоритма эвристической классификации, но при этом алгоритм Левенберга-Марквардта обеспечивает меньшие вероятности принятия ошибочных решений. Поэтому на практике применять разработанный метод эвристической классификации следует тогда, когда вероятность принятия ошибочных решений не будет превышать заданное значение.

Эвристический алгоритм, предложенный в настоящей работе, является приемлемым для решения многих практических задач (обладает универсальностью), хотя его конкретные реализации, зависящие от правила вычисления значения порога , могут иметь более узкие области применения. Можно сделать вывод о том, что

эвристический алгоритм целесообразно применять в тех случаях, когда признаки достаточно информативны и граница между классами не очень сложная.

ПЕРЕЧЕНЬ ССЫЛОК

1. Дубровин В.И. Идентификация и оптимизация сложных технических процессов и объектов. - Запорожье: ЗГТУ, 1997. -92 с.

2. Суббот/н С.О. Нейронш мереж1 керують якютю // Пульсар,

1999, № 12, С. 8 - 10

3. Дубровин В.И., Субботин С.А. Построение адаптивных систем диагностики на основе нейронных сетей с латеральным торможением // Радюелектрошка. ¡нформатика. Управлш-ня, 1999, № 2, С. 110 -114

4. Дубровин В.И., Субботин С.А. Построение систем диагностики на основе карт самоорганизации Кохонена / 6-я Всероссийская конференция "Нейрокомпьютеры и их применение", Москва 1б - 18 февраля 2000: Сборник докладов. - М.: Издательское предприятие журнала "Радиотехника", 2000. - С. 464 - 467

5. Дубровин В.И., Субботин С.А. Нейросетевое моделирование и оценка параметров нелинейных регрессий / 6-я Всероссийская конференция "Нейрокомпьютеры и их применение", Москва 16 - 18 февраля 2000: Сборник докладов. -М.: Издательское предприятие журнала "Радиотехника",

2000. - С. 118 - 120

6. Dubrovin V.I., Subbotin S.A. Choice of neuron transfer functions and research their influence for learning quality of neural networks / Proceedings of International Conference on Modern Problems of Telecommunications, Computer Science and Engineers Training TCSET'2000. - Lviv - Slavsko, 2000. - pp. 114 - 115

7. Neural Network Toolbox User Guide / Beale M., Demuth H. -Natick: Mathworks, 1997. - 700 p.

Надшшла 03.03.2000 П1сля доробки 21.04.2000

УДК 681.32:007

ВИЗУАЛИЗАЦИЯ ПРОИЗВОЛЬНЫХ ДАННЫХ МЕТОДОМ УПРУГИХ КАРТ

А. Ю. Зиновьев, А. А. Питенко

Описывается технология визуализации произвольных данных. Рассматривается представление данных и алгоритм построения упругой карты, моделирующей данные. Предложены различные способы проектирования многомерных данных на двумерную сетку. Продемонстрировано применение методов визуализации произвольных данных на примере картографирования экономических таблиц.

Описано технолог1ю в1зуал1зацп будь-яких даних. Роз-глядаеться уявлення даних та алгоритм побудови пружно'( карти, що моделюе дат. Запропоновано р1зт способи про-ектування багатом1рних даних на двум1рну с1тку. Про-демонстровано застосування метод1в в1зуал1зацп будь-яких да них на прикладг картографування економгчних таблиць.

The technology of any data visualization is described. The data representation and algorithm of construction of an elastic map simulating the data is considered. The various ways of projecting multidimensional data on a two-dimensional grid are offered. The application of methods to mapping of economical tables is discussed.

1 ВВЕДЕНИЕ

В самых разных областях человеческой деятельности (в медицине, биологии, экономике и т.д.) исследователи сталкиваются с необходимостью осмысления больших таблиц данных, собранных в результате наблюдения за свойствами объектов той или иной природы. Как правило, такие таблицы содержат информацию о состоянии нескольких сотен или тысяч объектов, по каждому из которых известны значения определенного набора интересующих исследователя свойств. Число таких свойств (признаков) может также достигать нескольких сотен. Естественно, среди исследуемых объектов могут найтись такие, некоторые свойства которых неизвестны или недоступны для измерения. Такие объекты называются неполными данными или данными с пробелами.

Традиционным приемом при анализе таких таблиц является их представление, когда каждому исследуемому объекту сопоставляется точка в некотором аб-

страктном многомерном пространстве данных. Размерность этого пространства равна числу свойств-признаков в наборе, который характеризует состояние каждого из объектов. Значение каждой из координат точки в пространстве данных равно значению соответствующего признака, так что близким (в той или иной метрике) точкам в пространстве данных соответствуют объекты со сходными свойствами.

Таким образом, таблица данных представлена как облако точек в многомерном пространстве. Следует заметить, что такая картина не совсем верна в случае неполных данных. Так, например, если для объекта неизвестно значение только одной из координат, то его правильнее представлять как прямую, параллельную соответствующей координатной оси. Если на значение отсутствующего признака наложены априорные ограничения, то прямая превращается в отрезок. В случае когда число неизвестных признаков более одного, то объект представляется в виде т-мерной плоскости (т -число неизвестных признаков), параллельной т координатным осям, или, соответственно, многомерным прямоугольным параллелепипедом.

Об анализе (осмыслении) набора данных можно говорить как о красивом, наглядном и компактном их описании. На сегодняшний день известно два основных способа такого описания. Первый из них заключается в том, что точки данных разбиваются на несколько больших классов (кластеров), затем в классах ищутся более мелкие подклассы и т.д. В конечном итоге таблица данных описывается как иерархическая система кластеров в облаке точек.

Второй способ - сокращение размерности описания данных. Дело в том, что человеческий мозг неспособен к эффективному анализу объектов размерности более

трех, поэтому возникает необходимость в построении различных сечений многомерных данных, причем эти сечения малой размерности, как правило, выбираются так, чтобы максимально полно сохранить информацию об имеющихся в наборе данных закономерностях. Такой подход, например, характерен для традиционного линейного факторного анализа, когда в качестве такого сечения выбирается пространство, натянутое на несколько главных собственных векторов корреляционной матрицы (главных компонент).

Под визуализацией данных можно понимать такой способ описания данных, когда размерность их описания сокращается до двух измерений. В этом случае данные можно изображать, например, в виде точек на экране монитора компьютера. Если в процессе сокращения размерности будет сохранена существенная часть закономерностей, присущих данным (разбиение на классы, отношения соседства), то исследователь получает возможность наглядно представить себе исходный набор многомерных данных, сделать выводы об их распределении.

Для визуализации многомерных данных применяется метод, заключающийся в построении вложенного в многомерное пространство данных двумерного многообразия, называемого картой, которое определенным способом моделирует или аппроксимирует данные (то есть большая часть точек данных лежит в окрестности карты). После этого точки данных с помощью определенной процедуры переносятся или проецируются на карту (см. рис. 1). После того, как найдены положения всех образов точек данных на карте, каждому объекту из набора данных можно поставить в соответствие пару координат, характеризующих положение образа на двумерной карте.

Рисунок 1 - Процедура проекции данных на карту

Слева на рисунке 1 показано облако точек данных в пятимерном пространстве (показана проекция на первые две координатные оси), и карта, моделирующая эти данные. Белый кружок с линией отображает процесс проецирования многомерных данных на двумерное многообразие. Справа - двумерная карта с нанесенными на нее образами данных "развернута" и каждому объекту соответствует теперь только две координаты образа на карте.

Сама идеология построения моделирующих карт впервые была предложена Кохоненом [1]. Им же был разработан алгоритм построения самоорганизующихся карт (80М), который с успехом применяется на практике. В дальнейшем алгоритм 80М совершенствовался в нескольких направлениях и на данный момент известно большое количество его модификаций. В данной статье предлагается принципиально новый алгоритм построения карт, названных упругими, свойства которых отличны от 80М. Кроме этого, описываются различные способы непрерывного проектирования данных на карту (а не только в узлы, как это было предложено Кохоненом), что позволяет посмотреть на принципы визуализации данных в ином ракурсе. Также приведен пример картографирования экономических показателей двухста крупнейших российских предприятий по данным журнала "Эксперт".

2 ПОСТАНОВКА ЗАДАЧИ

Проблема визуализации многомерных данных может быть разбита на несколько задач. Сформулируем эти задачи на математическом языке.

Рассматривается пространство Еп , в котором задано конечное множество точек X, которое интерпретируется как набор произвольных данных, полученных в результате наблюдений за состоянием исследуемой системы. Результат одного измерения (или набор признаков для

одного объекта) изображаются точкой хг (г = 1...Ы, N

- количество точек в X) в Яп. Расстояние между точками - обычное евклидово.

1) Построение карты

В целях исследования множества X оно аппроксимируется двумерным многообразием. Можно указать два основных способа построения такого моделирующего многообразия. Во-первых, можно построить какое-либо стандартное линейное многообразие (например, плоскость двух главных компонент) и искать малые отклонения от него. Такой подход можно назвать квазилинейным.

Нами используется принципиально нелинейный способ. В Еп размещается двумерная прямоугольная сетка О, расположение узлов которой т1] , удовлетворяет опре-

деленным требованиям. Для упругой карты этими требованиями являются: а) близость узлов сетки к данным; б) не слишком сильная "растянутость" сетки; в) не слишком сильная изогнутость сетки.

Будем считать, что на прямоугольной сетке изначально задана "внутренняя" ортонормированная система координат u, v так, что целым положительным значениям координат соответствуют вершины сетки. Эти целые значения и используются в качестве значений индексов i, j для rij (1 < i < n.\ , 1 < j < «2, где n^ , «2 -число узлов сетки по горизонтали и вертикали).

После того, как сетка G размещена в многомерном пространстве, она доопределяется с помощью той или иной процедуры интерполяции между узлами до многообразия, которое обозначим через M . Самой простой такой процедурой является какой-либо вариант триангуляции, в результате чего получается кусочно-линейное многообразие M.

2) Проектирование данных

Для того, чтобы можно было бы представлять X с помощью двумерного многообразия M, необходимо построить отображение P: x е X ^ r е M , которое будем называть правилом проектирования или проектором. Для рассматриваемых задач желательно, чтобы проектор обладал следующими качествами:

а) проектор должен сохранять отношения соседства,

то есть желательно, чтобы близким точкам в Rn соответствовали близкие точки на карте;

б) проектор, по крайней мере, в некоторой конечной окрестности сетки должен быть однозначным;

в) проектор должен быть по возможности непрерывным, чтобы плавным изменениям состояния системы в X соответствовали непрерывные изменения положения образа в M .

г) проекция должна не слишком сильно отличаться от ближайшей вершины сетки G или, если доопределена карта, то от ближайшей точки карты.

Создателем SOM Кохоненом был применен самый очевидный и в некотором смысле естественный вариант проектирования - кусочно-постоянный. При этом каждой точке из X сопоставляется та вершина сетки, которая является ближайшей к этой точке:

k и k ij k ij 2

P: x ^ r , x е X , r е G , (x - r ) ^ min .

Достоинством такого проектирования являются его логическая прозрачность и простота, очевидный его недостаток - разрывность, что не позволяет подробно изобразить картой структуру X. Тем не менее, такой вид проектирования успешно применяется на практике для раскраски карт Кохонена и может изображать разбиение данных по кластерам, размеры кластеров и их взаимное расположение.

Для применяемой нами технологии построения упругих карт кусочно-постоянный способ проектирования малопригоден, поскольку, в отличие от 80М, каждый из узлов сетки О, вообще говоря, не располагается в центре локального сгущения точек данных. Напротив, упругая карта представляет собой более-менее равномерно натянутую на данные сетку, и поэтому существенная часть данных может быть расположена в промежутках между узлами. В этой статье рассмотрены два варианта кусочно-линейного непрерывного проектирования многомерных данных на двумерную карту.

3 ПОСТРОЕНИЕ УПРУГОЙ КАРТЫ

Основой для построения упругой карты является двумерная прямоугольная сетка О , вложенная в многомерное пространство, аппроксимирующая данные и обладающая регулируемыми свойствами упругости по отношению к растяжению и изгибу.

Расположение узлов сетки ищется в результате решения вариационной задачи на нахождение минимума следующего функционала:

в = --4 + х -

И

В2

т

вз .

и- ^ Ш1П ,

т

(1)

где |Х| - число точек в X ; т - число узлов сетки (в случае прямоугольной сетки т = «1 ■ «2); X, и - коэффициенты упругости, отвечающие за растяжение и изогнутость стеки соответственно; В1 , В2 , В3 - слагаемые, отвечающие за свойства сетки, именно: и\I2

В1 = II

- является мерой близости рас-

¡1 X £ К:,

положения узлов сетки к данным. Здесь Кц - подмножества точек из X, для которых узел сетки тч является ближайшим (таксоны):

чек К/, ближайших к данному узлу сетки. При фиксированном разбиении на таксоны, функционал в квадратичен по переменным т:/ , поэтому задача нахождения его минимума сводится к решению системы линейных уравнений с матрицей размерами тхт , причем коэффициенты самой матрицы системы зависят только от

положения узлов т:/;

2) Производится новое разбиение множества X на таксоны, соответствующее новым положениям узлов сетки.

Общий критерий В уменьшается при каждой итерации алгоритма, он естественно ограничен снизу нулем, а число разбиений конечного множества X по таксонам конечно. Следовательно, алгоритм сходится.

При построении карты возникает общая для всех оптимизационных задач проблема нахождения глобального минимума функционала в . Предлагается следующий подход для ее решения. Карта строится следующим образом:

1) Первоначально карта располагается в плоскости первых двух главных компонент. Ее размеры выбираются равными порядка 1/2 - 1/3 от длины двух главных полуосей эллипсоида рассеяния.

2) К положениям узлов добавляется малый случайный шум для того, чтобы вывести расположение узлов из одной плоскости и избежать возникновения различных вырождений матрицы системы;

3) При нахождении минимума функционала в параметры X, и меняются от больших значений (порядка 10) к малым (порядка 0,01). В результате карта в начале расчета очень "жесткая", ее кривизна невелика, в результате чего моделируются самые общие особенности распределения точек данных. При уменьшении коэффициентов упругости карта становится "мягкой" и ее узлы располагаются к точкам данных гораздо ближе. Такой метод можно назвать методом отжига.

х ^ тч, ||т:/ - XI ^ ш1п , К:/ = \ х е Х|х ^ т:/

В2 = 1||тг/ - т1'1 + Ц2 + ¿И - т: + 1Ц2

мера растя-

нутости сетки;

В3 = ¿112 т:/ - тч/~ 1 - т

ч - т:'1 -1 _ т:'1 +1|2+1|2т:/ _ т:- 1'1 - т: +1'/||2

1/ {]

- мера изогнутости (кривизны) сетки.

Алгоритм решения вариационной задачи напоминает метод динамических ядер. На каждом шаге алгоритма:

1) Квадратичный функционал в минимизируется при заданном разбиении множества X на подмножетства то-

В результате в пространстве данных располагается более-менее равномерная (в отличие от 80М, где расположение узлов соответствует локальным сгущениям данных) сетка О, аппроксимирующая данные. После проектирования данных на сетку, расстояния между образами и их скоплениями на карте отражают соответствующие особенности распределения данных в многомерном пространстве.

4 ПРОЕКТИРОВАНИЕ МНОГОМЕРНЫХ ДАННЫХ НА ДВУМЕРНУЮ СЕТКУ

После построения сетки О , которая является точечной аппроксимацией множества X, она должна быть доопределена до многообразия. Самым простым способом

является выбор какого-либо способа триангуляции, один из вариантов которой показан на рисунке 2.

k 0 l

плоскость, натянутую на вектора m = r -r и n = r -Образом x окажется точка r* = r° + um + vn , где

12 3 u

/ / / /

/ / / / /

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

/ / / /

/ /

r

6

r

0/

r

/3

r.....

5 u = ( x - 0 2 0 r , m ) ■ n - ( n, m ) ( x - r , m -

2 2 2 m n - ( m, n)

2 v = ( x - 0 2 0 r , n ) ■ m - ( n, m ) ( x - r n )

2 2 2 m n - ( m, n)

u

В случае, если u > 0, v > 0, u + v < 1 то ближайшей

v

Рисунок 2 - Вариант триангуляции сетки

Слева на рисунке 2 показан один из вариантов триангуляции сетки. Справа - выбранный способ нумерации узлов, окружающих ближайший к данной точке данных узел.

В результате в многомерном пространстве данных располагается двумерное кусочно-линейное многообразие, на котором соседние вершины соединяются ребрами, а ребра ограничивают плоские грани сетки.

В качестве одного из самых очевидных способов проектирования многомерных данных на двумерную сетку можно предложить нахождение ближайшей точки карты (а не только ближайшей вершины, как в случае 80М). Задача состоит в нахождении ближайшей к данной точке данных х точки кусочно-линейного многообразия М. Заметим, что ближайшая точка карты может оказаться на грани сетки, на ребре или в вершине сетки. Таким образом, пространство вокруг карты разбивается на области, где ближайшей точкой карты является точка грани, ребра или вершина.

Прежде всего, определим ближайшую к х вершину сетки и обозначим ее радиус-вектор как г0 , а окружающие ее вершины перенумеруем изображенным на рисунке 2 образом.

Помимо ближайшей вершины г° , можно выбрать еще две наиболее близкие к х вершины гк и г из ближайшего окружения г° , причем таким образом, чтобы вер-0 к I

шины г , г , г являлись вершинами грани карты при выбранном способе триангуляции. Таким образом мы определяем ближайшее ребро и ближайший треуголъ-ник (грань) карты.

Алгоритм нахождения ближайшей точки карты заключается в следующем:

1. Выполняется ортогональное проектирование х на

точкой карты является точка г* . Иначе

2. Выполняется ортогональное проектирование на

ближайшее ребро, натянутое на вектор т = гк - г0 . При этом

0 . (x - r0, m ) = r + u m , u = --j—-

m

и если 0 < и < 1 - ближайшей точкой карты является г** . Иначе ближайшей точкой карты является вершина

0

r

Другой вариант кусочно-линейного проектора. Для случая моделирования конечного множества точек данных с помощью самоорганизующейся кривой (SOC) [2] был предложен вариант центральной проекции на одномерную сетку. Точки данных сначала ортогонально проектируются в плоскость трех вершин на сетке - ближайшей к заданной точке данных и двух ее соседей, после этого на плоскости выполняется центральное проектирование, в качестве центра проекции O выбирается точка пересечения серединных перпендикуляров к ребрам ломанной, непосредственно прилегающих к ближайшей к точке данных x вершине (см. рис. 3).

Можно перенести этот вариант проектирования на случай двумерной карты, если считать, что проектирование поочередно выполняется сначала для одной, а потом для другой координатной линии двумерной сетки. Таким образом, можно определить значения внутренних координат u , v для точки проекции.

Рисунок 3

0

r

V

Справа на рисунке 3 показан способ нахождения центральной проекции точки х на ломаную, которая является одной из координатных линий и, V двумерного многообразия М . Слева на рисунке 3 изображен способ нахождения координат на карте образа точки х .

Следует заметить, что для описанных выше алгоритмов (как при построении карты, так и при проектировании) не является принципиальным наличие в данных пробелов. В случае, если по какой-либо точке данных известен не полный набор признаков, то вычисление всех необходимых расстояний от точки данных до карты выполняется в пространстве меньшей размерности, где для выбранной точки данных известны все координаты. Таким образом, на карте находят свое положение также и неполные данные, что позволяет использовать изложенные алгоритмы в качестве средства восстановления пробелов в данных. Хотя практика показывает, что точность восстановления данных при таком способе невысока, тем не менее пользователь может получить представление о месте данных с пробелами среди всей совокупности данных.

5 ИСПОЛЬЗОВАНИЕ КАРТЫ ДЛЯ АНАЛИЗА РАСПРЕДЕЛЕНИЯ ДАННЫХ

После того как карта построена, ее можно "развернуть" (см. рис. 1) и наносить разного рода слои информации. В результате карта приобретает разные раскраски, дающие представление об исходном распределении данных. Такие раскраски могут быть построены с использованием богатого арсенала средств и методов ГИС. Таким образом, открывается новое широкое поле деятельности для использования ГИС-технологий для картирования информации самого разного происхождения.

Во-первых, на карте можно изобразить сами данные. При этом можно отображать различные разбиения на подмножества данных, в соответствии со значением того или иного признака.

Во-вторых, на карте можно изобразить произвольные функции координат, поскольку каждой точке с координатами и , V на двумерной карте соответствует точка в многомерном пространстве данных. Самыми простыми раскрасками являются раскраски, отражающие значение той или иной координаты в точках размещения карты. Кроме этого, на карте можно отображать такие координатные функции, как плотность распределения данных в пространстве или плотность того или иного подмножества данных. Сама плотность может быть рассчитана с помощью какой-либо непараметрической оценки. Кроме собственно плотностей подмножеств интерес могут представлять раскраски, отвечающие значению относи-

тельных плотностей подмножеств на фоне общего распределения.

В-третьих, на карте можно изображать различные свойства самого моделирующего многообразия. Например, можно получить раскраски, отражающие значения метрических коэффициентов карты или ее кривизны, свидетельствующие о мере ее растянутости и изогнутости на разных участках. Также интерес представляет такая раскраска карты, на которой цветом отражены расстояния от точки карты до ближайшей точки данных в многомерном пространстве. Такая раскраска позволяет оценить степень близости моделирующей карты к точкам данных в разных областях пространства.

Наконец, весьма плодотворной может оказаться идея составления по множеству X нескольких карт (которые можно по аналогии с начертательной геометрией образно назвать "главными проекциями множества"). Первая из таких карт визуализирует сами данные, вторая "главная проекция" визуализирует погрешности аппроксимации данных (то есть разности между положениями точек данных и их образами на карте) и позволяет оценить точность описания данных первой картой, и так далее. Последовательность таких "главных проекций" позволяет моделировать данные с высокой точностью, что, в случае неполных данных, позволяет правдоподобно восстанавливать пропущенные или ремонтировать недостоверные данные.

6 ПРИМЕНЕНИЕ МЕТОДОВ ВИЗУАЛИЗАЦИИ ПРОИЗВОЛЬНЫХ ДАННЫХ к

КАРТОГРАФИРОВАНИЮ ЭКОНОМИЧЕСКИХ

ТАБЛИЦ

В качестве примера применения описанной технологии нами была предпринята попытка применить методы визуализации произвольных данных к картографированию таблицы крупнейших российских предприятий, взятой из журнала "Эксперт-200" [3]. Файлы исходных данных были получены с официального сайта журнала http: / / www. expert.com.

Исходная таблица содержала информацию об экономическом положении двухста крупнейших российских предприятий, ранжированную в порядке убывания валового объема производства продукции. Изначально таблица содержала следующие поля-признаки (часть из них является независимыми признаками, часть рассчитывается по явным формулам):

1) Название предприятия;

2) Регион местонахождения предприятия;

3) Отрасль, к которой относится предприятие;

4) Валовый объем производства продукции в 1998 году;

5) Валовый объем производства продукции в 1997 году;

6) Темпы роста предприятия

7) Валовый объем производства в 1998 году, выра-

женный в долларовом эквиваленте;

8) Балансовая прибыль предприятия;

9) Прибыль предприятия после налогообложения;

10) Прибыльность предприятия;

11) Число работающих на предприятии;

12) Производительность труда.

Шумским [4] уже была предпринята попытка визуализации таблицы предприятий, взятой из журнала "Эксперт" за 1997 год. В этой работе были использованы традиционные самоорганизующиеся карты Кохонена и диаграммы Хинтона. Там же было предложено использовать в качестве координат пространства данных отношения некоторых независимых признаков из таблицы. Было предложено четыре таких координаты.

Нами было решено расширить пространство исходных данных еще одним измерением, в результате чего был получен набор независимых факторов (табл. 1).

В результате была составлена таблица из двухсот записей с пятью полями. Часть записей содержала неполную информацию (по отдельным признакам информация отсутствовала).

Данные были предварительно нормированы по фор- (х{ - М\ -муле х1 = —— у , где Х{ , XI , М, О - новое, старое

значения фактора, среднее значение и дисперсия признака соответственно.

Карта, с помощью которой осуществлялась визуализация множества данных, была построена по описанному выше алгоритму построения упругих карт. Первоначальная сека содержала 10 узлов по вертикали и 10 по горизонтали. Для нахождения локального минимума функционала применялся описанный выше метод отжига. Параметры ц и X медленно (так чтобы при каждом изменении карта успевала перейти в близлежащий локальный минимум) менялись от значений ц = 5 , X = 5 до ц = 0, 1 , X = 0, 1 .

После построения упругой карты данные из пространства факторов были спроектированы на карту с помощью описанной выше процедуры нахождения ближайшей точки карты в случае кусочно-линейной интерполяции между узлами.

В качестве иллюстрации анализа экономических данных ниже приведены раскраски полученной карты по координатным полям, а также слой рассчитанной плотности данных в точках карты. На раскрасках большими точками с номерами выделена группа предприятий, принадлежащих нефтегазовой промышленности. Такое выделение позволяет проанализировать место той или иной отрасли промышленности среди других предприятий.

Таблица 1

N Обозначение Значение Условное

фактора

название

1 Ьа_У01998 Логарифм Размер

валового объема

производства

продукции в 1998

году

2 ТЕМР Валовый объем Темп роста

производства

продукции

в 1998 году

Валовый объем

производства

продукции

в 1997 году

3 РК0Р1Т_БЛЬ Балансовая Балансовая

прибыль прибыль

предприятия

Валовый объем

производства

продукции

в 1998 году

4 РК0Р1Т_КЛЬ Прибыль Чистая

предприятия прибыль

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

после

н алогообло жен ия

Валовый объем

производства

продукции

в 1998 году

5 РИОБиСПУ Прибыль Производи-

тельность

предприятия

после

н алогообло жен ия

Число

работающих на

предприятии

г;

б;

в;

1) Раскраска по факторам

На рисунке 4а изображено значение фактора LG_VO1998 в точках карты. При этом более светлым участкам соответствуют более высокие показатели фактора. Самый яркий цвет соответствует первым 10% предприятий с самым большим валовым объемом производства. Для примера кружками с цифрами выделены предприятия нефтегазовой промышленности. Цифрам соответствуют следующие названия предприятий:

1 - ОАО "Газпром";2 - Нефтяная компания "ЛУКойл"; 3 - Башкирская топливная компания; 4 - Нефтяная компания "Сургутнефтегаз"; 5 - Тюменская нефтяная компания; 6 - "Татнефть"; 7 - Нефтяная компания "Славнефть"; 8 - Нефтяная компания "Роснефть"; 9 - Оренбургская нефтяная компания "Онако"; 10 - Центральная топливная компания; 11 - Нефтяная компания "Коми-ТЭК".

Рисунок 4б изображает раскраску по показателю TEMP. Как видно из рисунка 4б, область крупнейших предприятий не пересекается с областью наиболее высоких темпов роста. В правом нижнем углу карты,

например, располагаются предприятия пищевой промышленности, цветной металлургии и другие быстро развивающиеся отрасли.

На рисунках 4в, 4г, 4д показаны раскраски по факторам РКОР1Т_БАЬ, РКОР1Т_КАЬ, РИОБиСПУ. Раскраски этих факторов схожи, что указывает на корреляцию последних трех признаков. Вместе с этим различия в раскраске позволяют выделить предприятия, которые выпадают из корреляционной зависимости.

2) Раскраска по плотности данных

На рисунках 5а, 5б, 5в показана раскраска карты по плотности данных, оцененной с помощью какой-либо непараметрической оценки. Существует два способа оценить плотность данных. Во-первых, можно рассматривать двумерное распределение точек на карте. Во-вторых, можно рассчитать плотность точек в исходном и-мерном пространстве, и изображать на карте значения этой плотности в точках расположения карты. На рисунках изображено применение первого способа. Более темным участкам соответствуют более высокие значения плотности.

Рисунок 5а изображает двумерное распределение общей плотности данных. На рисунке 5б - распределение плотности предприятий нефтегазовой промышленности. Рисунок 5в отражает удобную для оценок относительную плотность предприятий нефтегазовой промышленности (то есть отношение первых двух плотностей).

На рисунке 6 отражено расстояние от каждой из точек карты до ближайшей точки данных. Более темным участкам соответствуют большие расстояния. Видно, что в целом данные достаточно плотно прилегают к карте, за исключением участка в левом верхнем углу (впрочем, точки данных там отсутствуют и темный цвет указывает на то, что точки в левом верхнем углу карты расположены в многомерном пространстве достаточно далеко от основного массива данных).

Беглый взгляд на рисунки позволяет сделать, например, такие выводы. Предприятия нефтегазовой промышленности являются лидерами по объему валового производства, но темпы роста этой области промышленности невелики по сравнению, например, с пищевой промышленностью. Предприятия нефтегазовой промышленности распадаются на две группы, которые существенно отличаются по прибыльности производства. В целом, набор таких рисунков могут служить удобным средством анализа для специалистов в макроэкономике.

дьи р-' о о

ло

в)

Рисунок 5

В. Н. Крищук, Г. Н. Шило, Н. П. Гапоненко: МНОГОСТУПЕНЧАТЫЕ ИНТЕРВАЛЫ ПРИ РАСЧЕТЕ ЭКСПЛУАТАЦИОННЫХ ДОПУСКОВ

Ж"

о

I

Рисунок 6

7 ЗАКЛКЛЕНИЕ

Разработана и опробована на практике технология визуализации или картографирования многомерных данных (в которых могут содержаться пробелы) с помощью вложенных в пространство данных двумерных многообразий, названных упругими картами. И алгоритм построения этих многообразий, и общая идеология визуализации данных с их помощью существенно отличается от общепринятой на сегодняшний день технологии 80М. Особенностью технологии также явля-

ется возможность непрерывного проектирования данных на карту, что существенно повышает точность представления данных.

Еще раз стоит отметить, что описанная технология открывает перспективы для использования всего арсенала методов и средств, накопленных в ГИС-техно-логиях для картирования данных самой различной природы, без привязки к географическим координатам. Можно сказать, что вместо географической карты в описанной технологии используется подложка, образованная структурой самих данных.

Статья выполнена при поддержке гранта для молодых ученых №1М0034 Красноярскогокраевого фонда науки.

ПЕРЕЧЕНЬ ССЫЛОК

1. Kohonen T. Self-Organizing Maps. Springer Verlag, 1995.

2. Горбань А. Н., Россиев А. А. Итерационный метод главных кривых для данных с пробелами // Проблемы нейрокибер-нетики: Труды 12 Международной конференции по нейро-кибернетике. Ростов-на-Дону: Издательство СКНЦ ВШ, 1999. С. 198-201.

3. "Эксперт-200": ежегодный рейтинг крупнейших компаний России // Журнал "Эксперт". 1999. №36.

4. Шумский С. А., Кочкин А. Н. Самоорганизующиеся карты финансовых индикаторов 200 крупнейших российских предприятий // Материалы Всероссийской научной конференции "Нейроинформатика-99". Москва, 1999. Часть 3. С.122-127.

Надшшла 15.02.2000 Шсля доробки 21.02.2000

УДК 519.863

МНОГОСТУПЕНЧАТЫЕ ИНТЕРВАЛЫ ПРИ РАСЧЕТЕ ЭКСПЛУАТАЦИОННЫХ ДОПУСКОВ

В. Н. Крищук, Г. Н. Шило, Н. П. Гапоненко

Рассмотрена трехуровневая модель формирования допусков при производстве и эксплуатации электронных аппаратов. Используются эквивалентные параметры многоэлементных моделей. Получены условия компенсации внешних воздействий в многоэлементных моделях.

Розглянута трьохр1внева модель формування допуств при виробництв1 i експлуатацп електронних апарат1в. Викори-стовуються еквiвалентнi параметри багатоелементних моделей. Отримат умови компенсацИ зовтштх впливiв у багато-елементних моделях.

The three-level model of forming tolerances is considered when producing and maintaining electronic devices. Equivalent parameters of multiple models are used. The conditions of compensation of exposures in multiple models are obtained.

ВВЕДЕНИЕ

В большинстве случаев отклонения параметров электрорадиоэлементов задаются при нормальных условиях окружающей среды. В процессе эксплуатации электронных аппаратов внешние воздействия приводят к изменению номинальных отклонений параметров и ухудшению показателей аппаратуры. Оценки показывают, что изменения отклонений могут достигать 30-50% их номинального значения при использовании электрорадиоэлементов общего назначения. Для прецизионных элементов этот показатель может увеличиваться до 70150%.

Учет этих особенностей на стадии разработки электронных аппаратов может осуществляться путем представления параметров в виде интервалов, границы которых являются интервальными величинами [1,2].

Визуализация произвольных данных методом упругих карт Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — А. Ю. Зиновьев, А. А. Питенко

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — А. Ю. Зиновьев, А. А. Питенко

Текст научной работы на тему «Визуализация произвольных данных методом упругих карт»