Научная статья на тему 'Современные количественные методы экономического анализа: самоорганизующиеся карты Кохонена (СОК)'

Современные количественные методы экономического анализа: самоорганизующиеся карты Кохонена (СОК) Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
360
60
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
Экономический анализ / количественные методы / самоорганизующиеся карты Кохонена (СОК)

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Лочмеле Р. Р.

Использование количественных методов исследования, в том числе систематических статистических оценок, стали одной из основных тенденций в экономике в первой половине ХХ века. В последнее время наряду с классическими статистическими методами при исследовании рынков особое развитие получили современные методы нейронных сетей, одним из типов которых являются самоорганизующиеся карты (сети Кохонена). Автор раскрывает суть подхода Кохонена, доказывает целесообразность его использования, а также обозначает сферу его применения.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Лочмеле Р. Р.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Современные количественные методы экономического анализа: самоорганизующиеся карты Кохонена (СОК)»

Лочмеле Р.Р.

Современные количественные методы экономического анализа: самоорганизующиеся карты Кохонена (СОК)

Одна из характерных тенденций экономической науки в первой половине 20 в. - возрастающая роль количественных методов исследования, включая систематические статистические оценки. Отражением значимости количественных методов исследования как новых методов экономического анализа являются Премии Банка Швеции в области экономической науки памяти Альфреда Нобеля, присужденные Р.Фришу и Я.Тинбергену, Т.Хаавелмо, Дж.Хекману и Д.Мак-Фаддену. Значимым, с точки зрения указанной тенденции, представляется тот факт, что лауреатами первой Нобелевской премии по экономике 1969 года стали Рагнар Фриш и Ян Тинберген за их новаторские работы в области построения экономических моделей и интеграции экономической теории и статистических методов анализа. Идеи Р.Фриша получили дальнейшее развитие в работах Трюгве Хаавелмо, лауреата Нобелевской премии по экономике 1989 года. Т.Хаавелмо показал, что использование теории вероятностей, встраивание стохастических категорий при анализе поведения экономических агентов является необходимым условием придания математической строгости описанию экономических теорий и процессу их дальнейшей проверки. Методологический вклад Джеймса Хекмана и Дэниела Мак-Фаддена, лауреатов Нобелевской премии по экономике 2000 года, основывается на тесном взаимодействии экономической теории с эмпирическими исследованиями. Микроэконометрические методы, разработанные Хекманом и Мак-Фадденом, входят в состав стандартного инструментария исследования не только экономистов, но и других исследователей в области общественных наук. Характерная особенность развития экономической науки во второй половине 20 в. - интеграция экономической теории с более сложными методами классического статистического анализа, другими количественными методами и моделями (теория игр, линейное программирование и др.), а также с современными методами нейросетевых технологий (нейронные сети, обучаемые с учителем и без учителя), нечеткой логики и генетических алгоритмов. Особо следует отметить такое явление, как процесс постепенной интеграции экономической теории с методами фрактальной геометрии и теории хаоса, которые выступают в качестве подмножества более общей дисциплины - теории сложности. Данная тенденция представляет собой следствие появления в рамках современной экономической теории новой нелинейной парадигмы. На смену доминировавшей линейной парадигме, согласно которой каждое воздействие вызывает пропорциональную реакцию, приходит понимание того, что рынки редко бывают столь упорядоченными. Многие ученые и аналитики согласны с тем, что рынки реагируют нелинейно. В контексте вопроса об эмпирической валидности экономических моделей становится очевидным преимущество новой парадигмы. Нелинейное обобщение (учет нелинейности и сложности рассматриваемых систем) обеспечивает более полное и реалистичное понимание рынков и экономики в целом.

Осуществление в настоящее время систематического фиксирования наблюдений относительно функционирования различных элементов экономической системы и, таким образом, доступность огромного количества баз данных открывает большие возможности для эмпирического экономического анализа.

Как было отмечено выше, в последние годы наряду с классическими статистическими методами при исследовании рынков особое развитие получили современные методы нейронных сетей. Существует два класса нейронных сетей: сети,

обучаемые с учителем и без учителя. Нейронные сети, обучаемые с учителем, представляют собой средство для извлечения из набора данных информации о взаимосвязях между входами и выходами сети. Т.е. сеть обучается устанавливать взаимосвязи между заданной входной информацией и результатами. Эти взаимосвязи могут быть переведены в математические уравнения для обеспечения принятия решений в будущем. Нейронные сети, обучаемые без учителя, служат средством для решения задачи классификации, организации и визуального представления больших объемов данных. Одним из примеров данного класса нейронных сетей являются самоорганизующиеся карты (сети Кохонена). Самоорганизующиеся карты (СОК) представляют собой автоматизированные методы визуального анализа данных и выявления закономерностей в больших объемах информации. При этом акцент делается на вопросах выявления новых структур и паттернов (образов) в массивах данных, а также извлечения новых знаний из имеющейся информации или опыта. Особенность самоорганизующихся карт заключается в том, что этот метод исследования не требует никаких априорных предположений о распределении данных. Данный подход, автором которого является Тейво Кохонен, профессор Академии наук Финляндии, первый президент Европейского Нейросетевого Общества, существует с 80-х годов 20 в. и в настоящее время широко применяется в маркетинге, финансах и многих других областях. Особую роль самоорганизующиеся карты играют в условиях динамично меняющихся рынков, когда закономерности, найденные вчера, часто не работают завтра, а также в условиях отсутствия выявленных закономерностей.

Главное отличие нейронных сетей, обучаемых без учителя, от нейронных сетей, обучаемых с учителем, заключается в том, что при построении самоорганизующихся карт обучающие данные содержат только значения входных переменных. Т. е. сеть Кохонена учится понимать саму структуру данных. Одно из возможных применений сетей Кохонена - разведочный анализ данных (распознавание и установление близости кластеров). Другая возможная область применения - обнаружение новых явлений. Сеть Кохонена распознает кластеры в обучающих данных и относит все данные к тем или иным кластерам. Если после этого сеть встретится с наблюдениями, не похожими ни на один из известных образцов, то она не сможет классифицировать такой набор и, как следствие, выявит его новизну. Таким образом, построение сетей Кохонена в процессе анализа данных позволяет решить следующие основные задачи:

1. кластеризация данных (на базе информации, выводимой в окне Частоты выигрышей, где для каждого нейрона подсчитывается, сколько раз он выигрывал при обработке обучающих примеров, можно определить, разбивается ли топологическая карта на отдельные кластеры);

2. визуализация данных (наличие взаимосвязей становится очевидным в результате нелинейного проецирования многомерного пространства данных на двумерную Топологическую карту);

3. снижение размерности данных;

4. обнаружение новых взаимосвязей в больших наборах многомерных данных.

Оценка результатов, полученных с помощью сетей Кохонена, проводится по трем основным аспектам:

1. количество полученных кластеров (оптимальное число кластеров зависит от исходных данных, целей исследования и предназначения топологической карты);

2. качество кластеризации (высокое качество кластеризации достигается, если в результате процесса кластеризации выделяется набор кластеров, которые значительно отличаются друг от

3. устойчивость результатов кластеризации. При оценке устойчивости результатов кластеризации необходимо ответить на следующие вопросы:

• будет ли получена сходная топологическая карта, если для ее обучения использовать другие данные?

• что произойдет, если к данным добавить помехи или, наоборот, уменьшить их?

• что произойдет, если добавить или исключить выбросы?

Оценка результатов, полученных с помощью сетей Кохонена, представляет собой основу для выбора карты, наилучшим образом соответствующей поставленной цели исследования.

Результаты проводимого мной исследования рынка загородного жилья Подмосковья с помощью статистических и нейросетевых методов выступают в качестве наглядной иллюстрации возможностей и перспектив использования классических статистических и современных нейросетевых методов, в целом, и самоорганизующихся карт, в частности, для анализа данных. Цель проводимого исследования - выявление особенностей процесса ценообразования на рынке загородного жилья Подмосковья.

На процесс ценообразования оказывают влияние, прежде всего, особенности самого рынка загородного жилья Подмосковья, одной из характерных черт которого является неоднородность объектов недвижимости. Это легко заметить при анализе баз данных предложений о купле-продаже объектов загородного жилья Подмосковья: так, например, существуют земельные участки размером 3 - 150 соток с домом площадью 20 - 1000 кв.м, стоимость которых 2,5 - 1500 тыс. долларов. Таким образом, неоднородность обуславливает необходимость выделения среди всей совокупности объектов загородного жилья определенных групп (кластеров), что способствует более успешному исследованию рынка и облегчает разработку и применение моделей ценообразования для различных категорий объектов загородного жилья. Исходя из особенностей рынка загородного жилья Подмосковья в качестве основных задач исследования были определены две задачи: выделение кластеров (групп) объектов загородного жилья и описание моделей ценообразования для соответствующих кластеров. Для решения этих задач - задачи классификации и задачи регрессии - был проведен анализ эмпирических данных (объявления о продаже объектов загородного жилья Подмосковья в газете «Квартира. Дача. Офис»). - газете «Квартира. Дача. Офис» все объявления о продаже загородного жилья изначально распределены по трем категориям «Коттеджи», «Дома», «Дачи» (подобная категоризация представлена в большинстве печатных и Интернет баз данных по объектам загородного жилья). Необходимо отметить, что решение по вопросу отнесения конкретного объекта недвижимости к одной из трех категорий принимается непосредственно человеком, заполняющим купон объявления. В случае отсутствия данной информации в купоне решение принимается сотрудниками редакции газеты на основе представленного описания объекта недвижимости. Это означает, что не сформулированы определенные правила классификации объектов недвижимости по категориям «Коттеджи», «Дома», «Дачи». В связи с этим первым этапом исследования в рамках решения задачи классификации явилась проверка обоснованности выделения среди объектов загородного жилья Подмосковья данных трех категорий. Проверка проводилась с помощью модуля Дискриминантный анализ и Множественная регрессия (на базе системы Статистика/STATISTICA) и построения нейронных сетей, обучаемых с учителем, (на базе системы Статистика Нейронные сети/ STATISTICA Neural Networks) для решения задачи классификации и регрессии. Не очень хорошие результаты дискриминантного анализа и полученные коэффициенты детерминации для моделей регрессии, показывающие долю общего разброса, объясненного построенной регрессией, позволили подвергнуть сомнению кластеризацию объектов загородного жилья Подмосковья на категории «Коттеджи», «Дома», «Дачи». В связи с этим вторым

этапом исследования в рамках решения задачи классификации явилось проведение кластерного анализа для обоснованного выделения групп (кластеров) среди всей совокупности объектов загородного жилья Подмосковья. Выявленный нелинейный характер зависимости в системе данных определил необходимость и обоснованность использования самоорганизующихся карт при решении задачи кластеризации. Результаты построенных сетей отслеживались в окне Частоты выигрышей и Топологическая карта. Информация в окне Частоты выигрышей, в котором сеть запускалась по всем наблюдениям из обучающегося множества и при этом подсчитывалось, сколько раз каждый элемент сети выигрывал, позволила отметить, где на топологической карте формируются кластеры объектов недвижимости. Сначала кластеры помечались символическими именами («Кластер 1», «Кластер 2» и т.д.). Большие значения частот выигрышей указывали на центры кластеров на топологической карте. После того, как было зафиксировано распределение трех центров кластеров, средствами окна Топологическая карта проводилось тестирование с целью выяснения смысла кластеров. Для этого все наблюдения из обучающего множества тестировались в окне Топологическая карта, в соответствии с чем им присваивались имена отмеченных кластеров. Затем отдельно исследовались группы данных с присвоенными именами конкретных кластеров с целью проведения содержательной интерпретации кластеров. На базе полученных результатов содержательной интерпретации с учетом значений частот выигрышей все кластеры были сгруппированы относительно трех центров кластеров. Выделенные три агрегированные кластера объектов загородного жилья Подмосковья отличаются, прежде всего, по площади дома, площади земельного участка и цене. Средние значения по этим показателям для трех кластеров следующие:

Кластер I - площадь дома 407 кв.м, площадь земельного участка 25 соток, цена 380 тыс .$

Кластер II - площадь дома 317 кв.м, площадь земельного участка 15 соток, цена 153 тыс.$

Кластер III - площадь дома 130 кв.м, площадь земельного участка 10 соток, цена 80 тыс.$

Выявленные кластеры также отличаются «содержательным наполнением», с точки зрения наличия гаража, бассейна, охраны, телефона, бани. Процентное распределение объектов загородного жилья Подмосковья по кластерам следующее: Кластер I - 10-15%, Кластер II - 30-40%, Кластер III - 45-60%. Характеристики кластеров для всего исследуемого периода (ноябрь 2000г. - декабрь 2001г.) во многом совпадают. Это свидетельствует о том, что в структуре данных (объектов загородного жилья Подмосковья) не произошло значительных изменений. Представляет интерес также сравнение процентного распределения объектов по кластерам с процентным распределением по категориям «Коттеджи», «Дома», «Дачи» (как представлено в газете "Квартира Дача Офис"): «Коттеджи» - 40-60%, «Дома» - 25-50%, «Дачи» - 5-15%. Исходя из субъективного мнения продавцов 40-60% из них владеют коттеджами и только 5-15% - дачами. Очевидно, это является одним из проявлений асимметричной информации на рынке недвижимости.

Полученные в ходе исследования знания о структурах и связях в наборе данных могут быть использованы для определения особенностей ценообразования на объекты загородного жилья Подмосковья, выявления перспективных сегментов рынка, отслеживания клиентских предпочтений и решения многих других задач управления.

Результаты проведенного исследования рынка загородного жилья Подмосковья позволяют сделать вывод о том, что наиболее эффективное применение самоорганизующихся карт (сетей Кохонена) для анализа данных (в качестве аналитического инструмента исследования и метода визуального представления

информации) обеспечивается сочетанием нейронных сетей, обучаемых без учителя, с традиционными статистическими методами, нейронными сетями, обучаемыми с учителем, методами нечеткой логики и генетическими алгоритмами.

Современные количественные методы исследования позволяют получать строгие выводы на основе анализа эмпирических данных, содержащих нечисловые переменные и пропущенные значения, строить модели при отсутствии четко определенного набора входных переменных, осуществлять нелинейное моделирование. Данные характеристики современных методов анализа данных наряду со сравнительной простотой в использовании часто делают их незаменимыми при исследовании сложных систем экономических отношений. Перспективность интеграции экономической теории с современными количественными методами и моделями подтверждается эффективностью применения нейросетевых технологий, методов нечеткой логики и генетических алгоритмов в таких областях, как технический анализ, портфельная теория, анализ банкротств, формирование архивов данных и ряде других. Однако данное соединение носит пока больше прикладной характер.

Специфика имеющихся данных о функционировании различных элементов экономической системы обуславливает необходимость разработки новаторских методов выявления новых структур в массивах данных и усовершенствования способов обобщения и визуального представления больших объемов информации. Анализ революционных научных открытий, произведенных на стыке экономической теории и статистических методов исследования, позволяет утверждать о том, что будущее экономической науки неразрывно связано с развитием и использованием современных количественных методов анализа данных. При этом интеграция теории и методов должна носить более фундированный характер и создавать основу для будущих открытий в области экономической науки и становления новой теории экономического анализа.

Библиография:

1. Дебок Г., Кохонен Т. Анализ финансовых данных с помощью самоорганизующихся карт / Пер. с англ. М., 2001.

2. Занг В.-Б. Синергетическая экономика. Время и перемены в нелинейной экономической теории. М., 2000.

3. Нейронные сети. STATISTICA Neural Networks / Пер. с англ. М., 2000.

4. Петерс Э. Хаос и порядок на рынках капитала. Новый аналитический взгляд на циклы, цены и изменчивость рынка / Пер. с англ. М., 2000.

5. Lindbeck A. The Sveriges Riksbank (Bank of Sweden) Prize in Economic Sciences in Memory of Alfred Nobel 1969-2000 // The Nobel Prize: The First 100 Years - Imperial College Press and World Scientific Publishing Co. Pte. Ltd., 2001.

i Надоели баннеры? Вы всегда можете отключить рекламу.