Научная статья на тему 'Оценка устойчивости находимых эмпирических закономерностей в технологии data mining на примере кластеров'

Оценка устойчивости находимых эмпирических закономерностей в технологии data mining на примере кластеров Текст научной статьи по специальности «Экономика и бизнес»

CC BY
90
71
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Оценка устойчивости находимых эмпирических закономерностей в технологии data mining на примере кластеров»

качественные и количественные характеристики территории. Так, например в населенных пунктах с численностью жителей менее 50 тыс. человек, не могут быть реализованы услуги театра; отдаленность населенного пункта (села, поселка, города) от центра (краевого или областного) может сказаться на доступности к современным средствам связи или на возможности к реализации услуг индустрии красоты и развлечений, а также финансовых услуг.

Рынок услуг территории формируется под воздействием факторов, имеющих принципиальные отличия от условий действия на товарном рынке. Производство услуг требует избирательного отношения к ресурсному обеспечению, которое предоставляет конкретная территория, так как сфера услуг имеет жесткую привязку к месту производства.

Учитывая, что современная структура народного хозяйства претерпевает изменения, и сфера услуг оказывает все возрастающую роль в экономике государства, как с позиции формирования внутреннего продукта, так и по социальной значимости таковых отраслей, следует обратить внимание на формирование структуры экономики с учетом особенностей конкретной территории. То есть, если влияние факторов территории таково, что реализация промышленного комплекса на данной местности невозможна, например транспортные издержки и издержки на рабочую силу или экономическая инфраструктура, тогда следует отдать предпочтение развитию предприятий сферы услуг на данной территории. Это может положительно сказаться на имидже населенного пункта, т.е. он примет какой-то конкретный облик, будет определено его явное назначение. Выявление конкурентных преимуществ или наоборот превращение недостатков с одной стороны в достоинства с другой, позволит формировать имидж территории. Это в свою очередь будет способствовать решению вопросов инвестирования и в целом благополучного проживания населения.

Таким образом, территориальный рынок услуг может явиться определяющим фактором развития конкретного города или поселка.

Москаленко Ю.С., Яшманов А.В.

ОЦЕНКА УСТОЙЧИВОСТИ НАХОДИМЫХ ЭМПИРИЧЕСКИХ ЗАКОНОМЕРНОСТЕЙ В ТЕХНОЛОГИИ DATA MINING НА ПРИМЕРЕ КЛАСТЕРОВ

В интеллектуальных информационных системах знания о проблемной области представлена различными особыми формами информации, как правило, в явном виде. К одной из важнейших категорий знаний относятся эмпирические закономерности — существенны е и постоянно повторяющиеся, неочевидные, практически полезные и доступные интерпретации взаимосвязи информационных единиц, необходимые для принятия решений в различных сферах человеческой деятельности.

В развитие сложившейся классификации, мы относим к эмпирическим закономерностям следующие важные на практике информационные шаблоны: последовательности, ассоциации, кластеры, опорные множества и предикторы. Методы и средства, связанные с поиском этих информационных единиц представлены современной технологией Data Mining (DM). Основные этапы DM - технологии включают в себя свободный поиск (discovery), валидацию, прогностическое моделирование и анализ исключения.

На стадии свободного поиска осуществляется глубинный анализ данных (фактов) с целью нахождения скрытых закономерностей. В процессе валидации выполняется «отсев» неустойчивых, случайных закономерностей, проверка значимости найденных информационных шаблонов. Прогностическое моделирование предназначено для предсказания неизвестных значений (outcome prediction) и прогнозирование развития процессов (forecasting). На последнем этапе анализируются исключения или аномалии, выявленные (deviation defection) в найденных закономерностях. Как правило, в процессе свободного поиска выявляется весьма представительное множество шаблонов, потенциально претендующих на их включение в состав значимых эмпирических закономерностей. На примере кластеров проанализируем как решается проблема валидации традиционными средствами и как альтернативу рассмотрим предлагаемый подход.

Кластеризация — это разбиение множества объектов на заданное или неизвестное число классов в соответствии с некоторыми критериями. Нацеленность алгоритмов кластерного анализа на определенную структуру группировок объектов в пространстве признаков может приводить к неоптимальным или даже неправильным результатам, если гипотеза о типе группировок неверна. Традиционно, в качестве критериев кластеризации используют две различные по своей сути группы показателей: оценочные индексы Меззиха (внешний критерий значимости кофенетический

коэффициент С окала-Ральфа, мера воспроизводимости) и структурные характеристики кластеров (степень близости элементов внутри класса, средняя длина ребер графа ¿-го кластера и т.д.). Это приводит, во-первых, к тому, что имеющейся совокупности данных (фактов) «навязывают» неприсущую им структуру и, тем самым, искажают реальную интерпретацию шаблона. Во-вторых, такой подход приводит к задаче многопараметрической оптимизации и известным проблемам (например, локальностям), связанных с ее решениями.

Альтернативой описанному традиционному подходу может служить процедура, основная идея которой сводится к следующему. Пусть имеется множество =(а},а2, состоящее из п объектов.

Система К=(К1,...,Кт) непустых подмножеств Я,е 9? называется разбиением множества Л, если всякий объект содержится в одном и только одном множестве К, (¡=1, ...,т) т.е.:

т

у«, =« и я,п^ = 0,а*]).

/=1

Множества К},...,Лт называются классами разбиения /?. В множестве всех разбиений на естественно определить разбиение, лежащие «между». Например, если разбиение £ получается из разбиения К объединением некоторых его классов, а разбиение Т ~ аналогичным образом из то разбиение £ лежит между К\\Т (это обозначается как [Д5,7] ).

С другой стороны, ЛДГ соответствуют отношениям эквивалентности р,ст,т соответственно. Исходя из этого, разбиение £ лежит между разбиениями Я и Т тогда и только тогда, когда релт (7 а ру~>т. В терминах «между» крайними разбиениями будут тривиальное — состоящее

ровно из одного объекта и универсального — состоящего из всех объектов множества . Индикаторами соответствующих отношений эквивалентности являются матрицы смежности. Поэтому для оценки «похожести» разбиений естественно ввести расстояние между ними как некоторую индикаторную функцию, определяемую по величине разности соответствующих матриц смежности. В этом случае вычислительная проблема становится тривиальной и задача состоит в том, что на множестве получаемых разбиений (кластеров) организовать процедуру последовательной оценки следующего разбиения по отношению к предыдущему с помощью найденного между расстояния. Если это расстояние £ сохраняет свое минимальное значение £ и <§' = £±Д , Л-константа, характеризующая устойчивость кластера на некотором наперед заданном интервале, то разбиения попавшие в этот интервал и есть искомые. Нетрудно заметить, что предлагаемый подход инвариантен к характеру распределения объектов в множестве Л и не опирается на какие-либо навязываемые из вне топологические ограничения на кластеры.

Андрюхин A.B., Антипина Е.А., Попов А.И.

МАРКЕТИНГОВЫЕ МЕРОПРИЯТИЯ ДЛЯ РАЗВИТИЯ МОЛОДЁЖНОГО ПРЕДПРИНИМАТЕЛЬСТВА В ГОРОДЕ БОЛЬШОЙ КАМЕНЬ

На сегодняшний день прослеживается тенденция развития малого и среднего бизнеса на территории городского округа (ГО) закрытого территориального образования (ЗАТО) Большой Камень, создаются условия для становления молодёжного предпринимательства.

Одним из крупнейших проектов для формирования условий развития малого и среднего бизнеса является создание в 2007 году Центра содействия молодежному предпринимательству и самозанятости (Центра) на территории ГО ЗАТО Большой Камень в качестве специализированной подсистемы Информационного центра с элементами Бизнес - инкубатора. Основная идея данного

i Надоели баннеры? Вы всегда можете отключить рекламу.