Вопросы структуризации экономики. №3, 2012 Материалы IV Международной НПК по СТО в Махачкале
Сегментация рынка труда (потенциал современных методов анализа данных)
45.
Аннотация: Представлен подход к сегментации рынка труда методом самоорганизующихся карт признаков. Преимущества предложенного подхода в том, что он предоставляет уникальную возможность наблюдения за процессами, происходящими на рынке труда в режиме реального времени.
Ключевые слова: сегментация рынка труда, метод самоорганизующихся карт признаков, интеллектуальный анализ данных, кластеризация, нейронные сети.
Maltsev A.V. Labor market segmentation (potential of modern methods of the analysis of data)
Approach of labour market segmentation with the use of self organizing map method is represented. Advantage of the method is in the unique possibility to observe processes of labour market in real-time mode. Key words: labour market segmentation, self organizing map method, intelligent data analysis, clustering, neural network.
Математические методы проведения подобной аналитической работы с использованием методов многомерного анализа данных логико-алгебро-геометрического направления являются современным и удобным способом решения задачи сегментации рынка труда. Это наиболее действенный количественный инструмент исследования социальных и социально-экономических процессов, описываемых большим числом характеристик. К ним относится: кластерный анализ, распознавание образов, факторный анализ, построение деревьев решений. В настоящее время все большую популярность в прикладных областях знания набирает парадигма «Data Mining». Термин «Data Mining» («Глубокого анализа данных») обозначает не столько конкретную технологию, сколько сам процесс поиска корреляций, тенденций, взаимосвязей и закономерностей посредством различных математических и статистических алгоритмов: кластеризации, создания субвыборок, регрессионного и корреляционного анализа [1]. Цель этого поиска - представить данные в виде, четко отражающем процессы, а также построить модель, при помощи которой можно прогнозировать процессы, критичные для планирования и принятия управленческих решений. Особенно ценной является возможность получения доступа к ранее недоступной для социолога области эмпирических массивов - данным из производственных баз данных. Существующие сегодня прикладные пакеты статистического анализа данных, в особенности аналитические платформы, позволяют реализовать возможности «Data Mining» в рамках процесса «Knowledge Discovery in Databases» или «Извлечения знаний из баз данных». Преимущество предлагаемой методики в ее адаптивности к изменениям экономики, нововведениям в области управления коммерческими и государственными структурами [2].
Сегментация рынка - деление (дифференциация) любого рынка на отдельные части (сегменты) с учетом множества критериев и факторов. Выявление структуры и скрытых закономерностей рынка часто может быть выполнено на основе решения задачи кластеризации. Кластеризация - это процесс разбиения множества объектов на заданное или неизвестное число кластеров на основании некоторого математического критерия качества кластеризации. В результате решения задачи кластеризации выявляется скрытая структура изучаемых процессов явлений, и обнаруживаются неочевидные закономерности их существования или протекания. Кластерный анализ - это способ группировки многомерных объектов, основанный на представлении результатов отдельных наблюдений точками подходящего геометрического пространства с последующим выделением групп как «сгустков» этих точек (кластеров, таксонов). «Кластер» (cluster) в английском языке означает «сгусток», «гроздь винограда», «скопление звезд» и т.д. Метод исследования получил развитие в последние годы в связи с возможно-
Мальцева Анна Васильевна
к.соц.н., зав. лаб. Мат.обеспечения социальных и психологических исследований, доцент кафедры математических методов в социальных науках, ФГБОУ ВПО «Алтайский государственный университет»
Вопросы структуризации экономики. №3, 2012 Материалы IV Международной НПК по СТО в Махачкале стью компьютерной обработки больших баз данных. Многообразие алгоритмов кластерного анализа обусловлено множеством различных критериев, отражающих те или иные аспекты качества автоматической группировки. При этом практически все методы характеризуются высокой вычислительной сложностью и чувствительностью к точности задания априорной информации о количестве кластеров или максимально допустимом размере кластера, о предполагаемой структуре кластеров [3].
Предполагаемая выборка объектов исследования O(участники рынка труда: вакансии или клиенты службы занятости) может быть сформирована в результате отбора некоторых представителей генеральной совокупности. Использование методов Data Mining осуществляется для выборки данных, содержащих П записей. Из нее формируется к классов (групп объектов); число классов может быть, как выбрано заранее, так и не задано (в последнем случае оптимальное количество кластеров должно быть определено автоматически). Решение задачи кластеризации предполагает, на основании анализа параметров объекта P,...,Pm (данных об участниках рынка из баз данных), выделение схожих объектов и представление результата в форме, удобной для восприятия. Набор P,...,Pm может включать переменные разных типов (количественные, качественные, порядковые). Решением задачи кластерного анализа является разбиение, удовлетворяющее некоторому условию оптимальности. Этот критерий может представлять собой некоторый функционал, выражающий уровни желательности различных разбиений и группировок. Этот функционал часто называют целевой функцией. Задачей кластерного анализа является задача оптимизации, т.е. нахождение минимума целевой функции при некотором заданном наборе ограничений [4]. Кластерный анализ включает в себя следующие этапы: 1) получение репрезентативной выборки, формирование системы переменных и выделение наиболее информативных признаков; 2) вычисление некоторой меры близости между объектами (признаками). Это означает переход от таблицы «объект-признак» к
таблице «объект-объект» S = S-- (таблице «признак-признак» R =
У ПХП
), где S-- - мера
кхк у
близости между объектами О, и О, (Г- - мера близости между объектами Р и Р ); 3) при-
1 ] и 1 ]
менение конкретного метода кластерного анализа; 4) проверка достоверности и интерпретация полученных результатов. Каждый из перечисленных этапов играет важную роль при использовании кластерного анализа для решения прикладных задач [4].
В рамках решаемой задачи наиболее полезно применить методы позволяющие проводить разделение на не пересекающие классы с произвольным их числом. Кластеризация методом Кохонена в данном случае имеет ряд преимуществ: возможно решение задач большой размерности, число кластеров может быть не задано, формируют наглядное двумерное отображение множества объектов и т.д. Метод анализа с использованием самоорганизующихся карт признаков (СКП) Кохонена, являющихся разновидностью неуправляемых нейросетей, позволяет автоматизировать все действия по поиску закономерностей. Главной причиной использования СКП для исследовательского анализа данных и извлечения знаний является то, что данный метод не требует никаких априорных предположений о распределении данных; позволяет обнаруживать в наборах данных неизвестные ранее структуры или образы при помощи обучения без учителя. Технология СКП представляет собой набор аналитических процедур и алгоритмов, позволяющих преобразовать традиционное описание множества объектов, заданных в многомерном (п>3) пространстве признаков плоской базы данных, в двумерную карту, устроенную таким образом, что близким объектам в многомерном пространстве отвечают рядом стоящие точки (их образы) на карте. В результате трудно анализируемые в совокупности многомерные объекты получают простой и наглядный вид на двумерной карте, которая сохраняет их основные свойства (топологию и распределение в многомерном пространстве). Применение технологии СКП дает ряд преимуществ: обнаружение групп объектов с одинаковыми характеристиками (далее - кластеров) по их локализованному расположению на специально создаваемой карте кластеров; проверка содержательного описания обнаруженных групп по специфическим особенностям, обнаруженным на карте признаков, а также на проекциях карты
Вопросы структуризации экономики. №3, 2012 Материалы IV Международной НПК по СТО в Махачкале кластеров на каждый признак в отдельности; выявление неявных связей и закономерностей между признаками; проведение оценки объектов в динамике, оценка изменений как в целом по структуре кластеров, так и по отдельности; позиционирование на карту новых объектов для придания им статуса (рейтинга); прогнозирование значений одних признаков объектов через другие; фильтрация объектов за счет поисковых уникальных критериев, формируемых в терминах СКП [4].
Карты Кохонена позволяют также представить полученную информацию в простой и наглядной форме путем нанесения раскраски, а также визуализировать результаты кластеризации, в том числе и многомерные. Карта Кохонена состоит из сегментов прямоугольной или шестиугольной формы, называемых ячейками. Каждая ячейка связана с определенным выходным нейроном и представляет собой «сферу влияния» данного нейрона. Распределение векторов весов нейронов карты получается так же, как и в обычной сети Кохонена, то есть на основе конкурирующего обучения. Объекты, векторы признаков которых оказываются ближе к вектору весов данного нейрона, попадают в ячейку, связанную с ним. Тогда распределение объектов на карте в целом соответствует распределению векторов весов нейронов. Следовательно, если объекты на карте расположены близко друг к другу, то и векторы признаков этих объектов близки и наоборот, если ячейки с объектами находятся далеко друг от друга, то и векторы их признаков различаются сильно. Хотя расстояние между объектами уже позволяет сделать выводы о степени их сходства или различия, но важна информация о том, в чем проявляется это сходство и различие, по каким признакам они различаются в наибольшей степени, а по каким - в наименьшей и т.д. Таким образом, есть два важных фактора: положение объекта на карте (расстояние до других объектов) и цвет ячейки. Очевидно, что при таком способе визуализации на одной карте можно использовать расцветку только по одному признаку, т.е. для значений нескольких признаков, следует строить отдельные карты по каждому из признаков [1].
Методика предполагает свою реализацию только на базе производственных баз данных с процедурой импорта сведений из них по заданному алгоритму в среду аналитической платформы «Deductor», и последующий запуск специального сценария обработки и анализа с применением описанных выше математических приемов. Аналитические платформы позволяют осуществлять широкий спектр полезных действий по предварительной предобработке импортированного массива данных. На описываемом подготовительном этапе анализа проводится проверка соответствия типов переменных (полей) заданным характеристикам и осуществляется подготовка меток полей к последующему анализу и интерпретации. Операция осуществляется путем импорта полного имени меток переменных из соответствующих справочников производственной базы данных, к которым относятся справочники, поясняющие весь диапазон возможных значений меток переменных, например, «Образование», «Отношение к занятости», «Причина увольнения», «Характер работы» «Причина закрытия карточки профессионального учета» и др. Полный текст методики проведения сегментации официальной части открытого рынка труда включает алгоритм анализа и сопутствующие таблицы расшифровки используемых переменных [1].
Литература:
1. Мальцева А.В. Социологический анализ рынка труда: классические теории и новейшие технологии: монография. - Барнаул: Изд-во Алт. гос. ун-та. 2010;
2. Мальцева А.В. Использование современных методов и технологий анализа данных для принятия управленческих решений (на примере решения задачи сегментации рынка труда) // Вестник Евразийской академии административных наук. - 2010. - №4(13);
3. Мальцева А.В. О результатах применения частной методики сегментации рынка труда // Вестник Самарского государственного университета. - 2010. - №7(81);
4. Мальцева А.В., Чудова О.В., Шилкина Н.Е. Сегментация рынка труда: теория и методика: монография. - Барнаул: Изд-во АзБука. 2010.