Разработка информационной системы для социологических исследований с использованием стратифицированной фрактальной модели

Массель Людмила Васильевна; Васильев Иван Владимирович

Л.В.Массель, И.В.Васильев

Разработка информационной системы для социологических исследований с использованием стратифицированной фрактальной модели

Современные исследования в социологии базируются на информационных технологиях, особенно в областях, связанных с количественным анализом данных. Созданы программы, помогающие социологам планировать анкетирование, хранить и обрабатывать результаты социологических опросов, например, «Да-система 4.0» [1|. В то же время остается актуальной разработка программ, решающих задачи качественного анализа данных. Следует отметить, что определения качественного анализа в области информационных технологий (ИТ) и в социологии различаются. В нашем случае мы будем придерживаться определения, взятого из области ИТ, где под качественным анализом понимается оперирование информацией, качественно описывающей состояние изучаемой системы, полученной в результате предварительной обработки исходных количественных данных. Подобного рода анализ подразумевает наличие определенных информационных моделей, эвристик и т.п.

Социологами накоплен большой объем информации в виде блоков данных - результатов различных исследований, для хранения которых создаются специальные электронные библиотеки [2]. В свою очередь, представленные в Internet подобные ресурсы обеспечивают пользователям возможность поиска статистических данных, необходимых в исследовательских или образовательных целях, Реализованный совместными усилиями Norwegian Social Science Data Services (NSD), UK Data Archive и Danish Data Archive (DDA) проект NESSTAR (Networked Social Science Tools and Resources) позволил объединить разрозненные данные в виртуальные библиотеки данных (Virtual Data Libraries). В результате реализации программы NESSTAR была выработана единая спецификация метаданных, описывающих научные социологические информационные ресурсы, что создает необходимые предпосылки для подключения к виртуальной библиотеке новых источников. Виртуальные библиотеки социальных научных исследований помимо отчетов хранят исходные данные как в виде таблиц, так и в виде многомерных кубов.

Предложенная Б.Инмоном [3] концепция Dataware House (хранилищ данных) допускает возможность создания распределенных СУБД с виртуальным ядром, обеспечивающих пользователям доступ к широкому спектру показателей. Существует классификация, подразделяющая показатели на классы детализованных

данных (простые данные в табличном виде), агрегированных показателей (результат группировки данных в многомерные гиперкубы), а также сферу закономерностей [4]. Реализуемые проектом NESSTAR возможности позволяют рассматривать эту систему как хранилище данных.

Особенный интерес в приведенной выше классификации представляют функции хранилища данных, относящиеся к сфере закономерностей. К ним могут относиться методы анализа, определяющие интеллектуальные возможности системы, результаты эмпирических исследований, а также модели, построенные на основе эмпирических данных и позволяющие решать задачи прогнозирования применительно к объекту исследования.

Целью представляемой работы является определение подходов к построению информационной системы, способной объединить в хранилище данных (ХД) разнородные результаты социологических исследований (как данные, так и знания). Дополнительным требованием к реализуемому проекту является требование поддержки спецификации научных социологических данных, предложенной участниками проекта NESSTAR в рамках интернациональной программы Data Documentation Initiative (DDI). Документирование данных с использованием стандартов DDI открывает перед проектом перспективы участия в международном обмене данными и позволяет еще на этапе проектирования учесть чужие ошибки на пути создания эффективного алгоритма поиска данных, Поскольку ХД, помимо собственно данных, должно содержать значения и описания применяемых статистических методов, а также эмпирические знания, полученные в результате анализа исходной информации, возникает потребность в хранении метаданных - как сложных структур, так и простых индексов, ценность которых во многом определяется качеством описания.

Для хранения метаданных, описывающих данные, методы анализа и эмпирические знания, авторами были предложены объектные конструкции, выбор структуры которых осуществлен с использованием стратифицированной фрактальной модели [6]. Стратифицированная фрактальная модель и основанный на ее использовании фрактальный подход к построению информационных технологий базируются на представлении всей имеющейся информации о реальном мире в

виде информационного пространства, которое может быть расслоено на информационные миры, объединяющие однотипные информационные объекты. В свою очередь, каждый информационный объект также может быть расслоен. Методологически фрактальный подход позволяет рассматривать информационные объекты в разных масштабах, интегрировать однотипные объекты и осуществлять переход от одного информационного мира (слоя) к другому при условии сохранения инвариантов объектов. Согласно фрактальному подходу, процесс построения информационной технологии заключается в разработке способов описания информационных объектов и их отображений, а реализация этих способов дает инструментальные средства поддержки конкретной информационной технологии.

Ниже будут приведены примеры отображений и рассмотрены некоторые аспекты применения фрактального подхода к проектированию информационных систем.

Большинство социологов, публикации которых встречаются в печати, сами не занимаются анкетированием в силу высокой стоимости и организационной сложности этого этапа работы [5]. Необходимую информацию они получают, проводя так называемые вторичные исследования, основанные на изучении собранных ранее данных. Эффективность подобных исследований зависит от того, насколько успешно исследователь решит проблемы:

достаточности информации; обеспечения нормальности распределений; анализа «неправильно» построенных вопросов [7].

Проблема достаточности информации обусловлена необходимостью поиска результатов одного или нескольких исследований, посвященных интересующей социолога тематике. Чем уникальнее изучаемое социологом явление, тем сложнее найти интересующую информацию, тем не менее, даже неполные, но достоверные данные способны уменьшить объемы собственной работы по сбору информации.

Проблема нормальности распределений связана с квотными и репрезентативными свойствами выборки. Результаты исследований, проведенных в студенческой среде, не могут быть распространены на общество в целом, поскольку может наблюдаться отклонение в возрастной квоте; данные экспресс-опроса могут показаться нерепрезентативными из-за большой статистической погрешности.

Анализ «неправильно» построенных вопросов может быть сопряжен с трудностями интерпретации результатов. Интересующая социолога информация может быть представлена в логически инвертированном виде или включена как составная часть в ответы неальтернативного вопроса.

Результаты социологических исследований часто включают в себя ответы на неальтернативные вопросы. Отличительной особенностью подобных вопросов является предоставляемая респонденту возможность одновременного выбора нескольких ответов. Анализ значений подобных вопросов предоставляет исследователю определенную комбинаторную свободу. Ниже предлагаются несколько способов преобразования неальтернативных вопросов в более удобную для статистических исследований форму.

Отдельные ответы, Данный способ предполагает анализ встречаемости в ответах респондентов отдельных вариантов, Достигается это путем преобразования вопроса с N вариантами ответов в N простых односложных вопросов с вариантами ответов «Да» или «Нет».

Комбинации ответов. Способ, позволяющий исследовать сочетания вариантов в ответах респондентов. По аналогии с предыдущим методом происходит преобразование одного вопроса в 2м простых односложных.

Полные сочетания ответов. Метод, реализуемый по умолчанию большинством статистических пакетов, В результате преобразования происходит кодирование встречающихся сочетаний ответов. Комбинаторная сложность исследований не меняется.

Каждый из этих способов может быть эффективен для решения определенных задач, Так, при маркетинговом исследовании, посвященном изучению сопутствующих товаров, применим метод анализа комбинаций ответов, а для частотного изучения социальных проблем подходит анализ отдельных вопросов. Использование концепции хранилищ данных позволяет предоставлять исследователям помимо обычных данных еще и нетипичные агрегированные показатели, полученные в результате преобразований неальтернативных переменных.

Для применения фрактального подхода определим сущности [9], которые будут использованы позже.

Вопрос - элемент результата социологического исследования. Парадигма социологического исследования подразумевает наличие ответов на вопрос. В зависимости от типов ответа вопросы могут быть альтернативными, неальтернативными и свободными.

Ответ - выбранный респондентом вариант или множество вариантов, характеризующих отношение респондента к изучаемому социологом явлению.

Применение хранилищ данных, допускающих разные представления имеющейся информации, создает предпосылки для эффективного применения методов интеллектуального анализа (Data Mining) данных, позволяющих автоматически «просеивать» поступающие данные с целью поиска закономерностей в распределениях ответов на статистически связанные вопросы

[4].

В теории искусственного интеллекта в качестве рабочего принимается определение знаний [10] как основных закономерностей предметной области, позволяющих человеку решать конкретные производственные, научные и другие задачи, т.е. знания интерпретируются как факты, понятия, взаимосвязи, оценки, правила, эвристики (фактические значения), а также стратегии принятия решений в той или иной области (стратегические знания).

Любая закономерность, найденная в результатах хранимых социологических исследований, таким образом, может быть трактована как знание. В качестве примера знаний можно рассмотреть часто встречаемые в литературных источниках качественные показатели, характеризующие статистическую связь переменных и аномалии в распределения вопросов [11]. Эти показатели основаны на наблюдении за превышением статистических параметров пороговых значений, В зависимости от результата формируются качественные оценки, свидетельствующие о наличии или отсутствии связи [12].

Решение задачи анализа распределений вопросов методом полного перебора переменных не всегда возможно, поскольку существует опасность роста комбинаторной сложности в случае применения неальтернативных переменных. Для упрощения процедуры поиска ниже предлагаются несколько эвристик:

экспертная декомпозиция изучаемых переменных;

интерактивный отсев гарантированно независимых сочетаний;

метод рекомбинаций.

Экспертная декомпозиция предполагает предварительный выбор экспертом некоторого подмножества особенно перспективных переменных, комбинация которых может представлять интерес,

Интерактивный отсев гарантированно независимых сочетаний. Суть метода заключается в том, что на статистическую зависимость проверяются парно связанные переменные, т.е. если связаны переменные А-В и В-С, то проверяется гипотеза о статистической связи переменных А-С и соответственно А, В и С.

В свою очередь, переменные, статистически не связанные между собой, наверняка не будут взаимосвязаны и в комбинации с еще несколькими переменными.

Рекомбинационный метод предусматривает как автономный, так и интерактивный режим работы. В основе этого метода лежит принцип, подобный тому, который применяется в генетических алгоритмах. Формируется хромосома, И-й ген которой является признаком присутствия в сочетании И-ой переменной [12].

Эксперт формирует начальную популяцию (гипотезы) о связности переменных, вероятнее всего связанных между собой, и «запускает» процесс эволюции или поиска решения, Отличительной особенностью

является то, что критерием жизнеспособности особи или полезности сочетания является функция, определяющая превышение порогового значения величины связности сочетания.

Критерием остановки эволюции может быть отсутствие в течение определенного времени новых особей, В то же время возможны мутации, т.е. случайные изменения особей, позволяющие расширить область поиска, Автоматизированный режим работы подразумевает формирование начальной популяции на основе анализа парных сочетаний статистически зависимых переменных, выявленных при помощи коэффициента Пирсона. Представляется, что этот метод позволяет выявить все статистически связанные переменные, но его отрицательной чертой является большая комбинаторная сложность.

Решение задачи поиска статистически связанных переменных позволяет перейти ко второй стадии интеллектуального анализа данных - анализу распределений значений статистически связанных переменных,

Для последующего применения фрактального подхода в разделе, связанном с интеллектуальным анализом данных, выделим следующие сущности.

Переменная - математический термин, соответствующий сущности «Вопрос» из предыдущего раздела статьи. Свойством переменной является выбранное респондентом значение.

Значение переменной - выбранные респондентом варианты ответов.

Статистическая зависимость переменных -сущность, возникающая в случае превышения критерием связности (коэффициента Пирсона) некоего порогового значения.

Статистическая связь значений переменных -явление, признаком которого является высокое значение индикативного параметра (коэффициента Юнга).

Кроме того, к сущностям можно отнести методы (алгоритмы) получения индикативных параметров, свойствами которых могут быть их пороговые значения.

Следует отметить, что задача создания информационной системы, реализующей функции хранилища данных и осуществляющей интеллектуальный анализ данных, связана с решением проблем, появление которых обусловлено в том числе и разницей в терминологии, технологии и методологии, применяемых в различных областях. Поэтому от правильного выбора информационных объектов, которыми будет оперировать создаваемая система, во многом зависит успешность проекта. Под критериями успешности понимается широта спектра решаемых задач, удобство работы с программным продуктом, а также возможности дальнейшего развития программного продукта в рамках первоначально выбранной архитектуры.

Предлагаемый подход, основанный на использовании стратифицированной фрактальной модели, рассматривает процесс создания информационной сис-

темы как определение совокупности информационных объектов и типов их отображений.

При этом существующие объекты могут принадлежать к различным информационным слоям (мирам); корректное отображение объектов в другие миры играет значимую роль в повышении эффективности программного продукта,

Процесс информационного моделирования осуществляется в несколько шагов. На этапе инфологиче-ского моделирования анализируется предметная область, выделяются информационные объекты (сущности) и связи между ними. Далее проводится аналогия с терминологией информационных систем и строится транзитная область, позволяющая связать разные предметные области,

На рис. 1 изображена схема информационной системы, включающей хранилище данных, оперирующее терминами информационных систем, механизмы поиска знаний, а также базу знаний, оперирующую сущностями предметной области, Ключевую роль в этой схеме играет транзитная область, обеспечивающая отображение данных и знаний разных предметных областей.

Специфика создаваемой информационной системы состоит в том, что она интегрирует как минимум три предметные области: социологию, математическую статистику и информационную технологию. Одна и та же сущность может быть в одной предметной области вопросом, во второй - переменной, 8 третьей - клас-

сом. Рис, 2 иллюстрирует переход от сущностей математической статистики к сущностям информационных технологий (или, другими словами, переход от «математического» мира к миру информационных технологий), Показаны схемы возможного представления связанных переменных социологического исследования в терминах объектно-ориентированного программирования (переход от мира «социологических терминов» к миру программ) [8].

Изображенные на рис. 2 справа геометрические фигуры соответствуют различным классам, Прямоугольники соответствуют сущностям первого рода -переменным-вопросам социологического исследования. Области, объединяющие несколько сущностей первого рода, соответствуют сущностям второго рода - знаниям, результатам изучения сущностей первого рода.

Объект-связь между объектами-переменными обладает свойствами, характеризующими:

1. Математический характер объекта (наименование примененного метода, вероятностная оценка связи),

2. Социологические аспекты (место проведения опроса, характеристики выборки).

3. Специфику, обусловленную особенностями реализации информационной системы.

Для хранения результатов социологических опросов используются реляционные структуры. Спецификация имеющихся в хранилище данных выполняется в

Рис I. Архитектура разрабатываемой информационной системы

транзитной области (см. рис. 1). Под спецификацией здесь понимается идентификация данных по тематике, квотным и территориальным признакам. Таким образом, транзитная область выполняет также роль репози-тария в ХД [6].

Реализация базы знаний также требует предварительного информационного моделирования. После определения сущностей и построения инфологических моделей в каждой из предметных областей строится

результирующая инфологическая модель уже в терминологии информационной системы.

На рис, 3 приведена результирующая инфологическая модель в виде диаграммы отношений (связей) сущностей. Некоторые из участвующих в диаграмме объектов имеют названия из разных предметных областей («Вопрос» - «Переменная»), кроме того, они обладают разнородными свойствами. Таким образом, используя эти информационные объекты, исследова-

КпассС объект 1

Рис 2. Последовательность перехода от терминологии предметной области к терминам информационных систем

ВопросА

Вопрос В

Переменная 1

Переменная 2

Вопрос С

Переменная 3

Содержит М-

Наблюдается

тель может одновременно работать в нескольких предметных областях. Например, результаты применения математических методов будет интерпретированы в социологических терминах, поставленная социологом новая задача будет легко формализована математиком, а результат пополнит объектную базу знаний, как, например, «новая связь переменных».

Необходимо отметить, что помимо функций хранилища данных, свойственных системам поддержки принятия решения (СППР), информационная система должна решать и задачи ввода данных, более присущие системам обработки информации. (СОД). Учитывая этот аспект, можно определить требования, которые было бы желательно удовлетворить при создании информационной системы:

многопользовательские возможности системы (клиент-сервер);

возможность мобильного использования системы с минимальным набором аналитических возможностей;

возможность работы с базой знаний в режиме дополнений;

возможность работы с базой знаний в справочном режиме;

возможность передачи вычислительных функций серверу;

возможность распараллеливания операций сервером.

Решить поставленную задачу можно при помощи современных методов проектирования, используя эффективные СУБД, применяя технологии построения развиваемых распределенных приложений [14].

В заключение отметим, что применение фрактального подхода при разработке информационной системы позволяет корректно связать терминологию разных предметных областей, таких как информационные технологии, математика и социология. Корректно построенная объектная модель изучаемых в предметной области отношений может быть ядром базы знаний, выполняющей функции транзитной области для связи определений, взятых из социологии и области математических методов. Объектное представление знаний -эвристик и знаний - математических методов предоставляет широкие возможности по дальнейшему развитию информационной системы в рамках выбранной технологии. Статистический анализ может быть применен к содержимому хранилища данных, содержащему, помимо фактических результатов, еще и агрегирован-

ные (вычисляемые) показатели, формируемые из фактических данных.

Перечисленные особенности рассматриваемого подхода к созданию информационной системы будут способствовать созданию перспективного программного продукта для социологических исследований.

Библиографический список

1. ДА-система. Искусство анализа данных, http://www.context.ru (20 янв,2004),

2, Ryssevik J. Musgrave S. The Social Science Dream Machine: Resource discovery, analysis and delivery on the Web. -http:/Mww.nesslar.org/papers/iassist_0599,htinl (20 янв.2004).

3, W.H. Inmon. Definition of a Data Warehouse . -http://www.billinmon.com/library/articles/dwdef.asp (5 янв.2004).

4. Сахаров А,А, Концепции построения и реализации информационных систем, ориентированных на анализ данных / A.A. Сахаров // Системы Управления Базами Данных. - 1996. - № 4. - С, 55-70.

5. Джарол Б. Мангейм, Ричард К. Рич. Политология. Методы исследования: Пер. с англ./ Общ.ред, и вступ.ст. А.К. Соколова, - М,: Издательство "Весь Мир", 1999.

6, Массель ЛВ. Фрактальный подход к построению информационных технологий II Информационная технология исследования развития в энергетике / ЛД, Криворуцкий, ЛВ, Массель. - Новосибирск: "Наука". Сиб. Издательская фирма РАН, 1995, - С. 40-67.

7. Stewart D.W. Secondary Research. - Newbury Park, Calif,: Sage, 1984.

8, Татарова Г,Г, Методология анализа данных в социологии (введение) / Учебное пособие для вузов, - М,: Издательский Дом "Стратегия", 1998, - 224 с,

9. Петер Пин-Шен Чен, Модель "сущность-связь" - шаг к единому представлению о данных / Петер Пин-Шен Чен II Системы Управления Базами Данных, - 1995, - № 3. -С. 137-158.

10, Гаврилова Т.Д., Червинская K.P. Извлечение и структурирование знаний для экспертных систем, - М,: Радио и связь, 1992. - 200 с.

11. Ядов В.А, Стратегия социологического исследования. Описание, объяснение, понимание социальной реальности. - М,: Добросвет, 2001, - 596 с,

12, Васильев И,В,Применение методов Data Mining для вторичного анализа социологических исследований II Труды всероссийской конференции "Математические и информационные технологии в энергетике, экономике, экологии". - Иркутск, 2003. - Т.1. - С. 171-179.

13. Буч Г., Рамбо Д„ Джекобсон A, UML - Руководство пользователя. - М.: ДМК, 2000, - 432 с,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

14, Болдырев Е.А. Современные архитектуры и технологии построения программных комплексов / Под ред, ЛВ, Массель. - Иркутск: ИСЭМ СО РАН, 2001, - 54 с.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Массель Людмила Васильевна, Васильев Иван Владимирович

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Массель Людмила Васильевна, Васильев Иван Владимирович

Текст научной работы на тему «Разработка информационной системы для социологических исследований с использованием стратифицированной фрактальной модели»