Научная статья на тему 'Интеллектуальный анализ данных в гуманитарных областях'

Интеллектуальный анализ данных в гуманитарных областях Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
305
104
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Интеллектуальный анализ данных в гуманитарных областях»

Таблица 2

Энергия активации реакций нитрорадикалов с С—Н-связью органических соединений КЧКН^КН+Ъ' при Т=333 К

R¡H E (кДж/моль)

CH2NO2 MeCHNO2 Me2C4NO2 Me3CNO2

EtMeCH-H 60,2 66,7 70,6 59,3

Me3C-H 54,3 60,6 64,4 53,5

H rfH 63,4 70,1 74,1 62,5

CX 58,4 64,9 68,7 57,6

ó 58,6 65,1 68,9 57,8

ex 52,2 58,4 62,1 51,4

со 48,6 54,6 58,2 47,8

CH2=CHCH2-H 51,6 57,4 60,8 50,9

CH2=CHCH-HMe 43,9 49,4 52,6 43,2

CH2=CHC-HMe2 39,8 45,1 48,2 39,2

Z-MeCH=CHCH-HMe 41,6 46,9 50,1 40,9

Me2=CHCH-HMe 44,9 50,4 53,7 44,2

Me2C=CMeC-HMe2 33,4 38,4 41,3 32,8

CH,=CHCMe-HCH=CH, 27,8 32,4 35,2 27,2

Me2NH2C-H 44,9 50,8 54,3 44,2

(CH2=CHCH2)3N 30,9 36,0 39,1 30,2

В результате публикации в Интернете программы оценки реакционной способности радикальных реакций химики-исследователи, химики-технологи, студенты, аспиранты и преподаватели вузов получат возможность оценивать такие реакции в жидкой и газовой фазах в режиме он-лайн.

Список литературы

1. Кондратьев В.Н. Константы скорости газофазных реакций. - М.: Наука, 1970.

2. Денисов Е.Т. Новые эмпирические модели реакций радикального отрыва. // Успехи химии. - 1997. - Т. 66. - № 10. -С. 953.

3. Денисов Е.Т., Туманов В.Е., Денисова Т.Г., Дроздова Т.И., Покидова Т.С. Реализация банка кинетических констант радикальных жидкофазных реакций на IBM PC. - Черноголовка, 1992. (Препринт ИХФЧ РАН). - 38 с.

4. NIST Standard Reference Database 19A. Positive Ion Energetics. Ver. 2.02. 1994.

5. Туманов В.Е., Денисов Е.Т. База данных по энергиям диссоциации связей углеводородов и их производных. // Нефтехимия. - 2003. - Т. 43. - № 1. - С. 65-67.

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ В ГУМАНИТАРНЫХ ОБЛАСТЯХ

В.А. Дюк, д.т.н. (Санкт-Петербургский институт информатики и автоматизации РАН); В.В. Фомин, д.т.н. (Российский государственный педагогический университет им. А.И. Герцена, г. Санкт-Петербург)

Многие приложения современных методов анализа данных относятся к гуманитарным областям, имеющим сложную системную организацию. Попытаемся обобщить представления о специфике данных в таких областях.

«Будущее анализа данных может привести к большому прогрессу, к преодолению реальных трудностей, к оказанию большой помощи всем областям науки и техники. Будет ли это так? Это зависит от нас, от нашего желания встать на каменистый путь реальных проблем вместо гладкой дороги нереальных предпосылок, произвольных критериев и абстрактных результатов, не имеющих реалистической направленности...» - эти слова Дж. Тьюки [1], сказанные еще в 1962 году, остаются актуальными и в наши дни.

Согласно классификации статистических методов анализа данных, принятой в [2], выделяют четыре области: статистика (числовых) случайных величин, многомерный статистический анализ, статистика временных рядов и случайных процессов, статистика объектов нечисловой природы.

Современные специалисты в области анализа данных концентрируют свое внимание на исследовании объектов нечисловой природы, которые можно отнести к одному из важных классов так называемых НЕ-факторов.

Вместе с тем, акцент в прикладном статистическом анализе только на объектах нечисловой природы является далеко не полным. Когда мы имеем дело с предметными областями со сложной системной организацией (например в медицине), перед исследователем в первую очередь встает вопрос о том, какие признаки (атрибуты, показатели, переменные) следует включить в план статистического эксперимента. Доступных для измерения (фиксации) признаков может быть довольно много. Нередко в современных исследованиях их количество измеряется десятками, сотнями и даже тысячами, и заранее невозможно предугадать их потенциальную полезность. Таким образом, здесь мы имеем дело с еще одним мощным НЕ-фак-тором - высокой размерностью и неопределенностью исходного описания объектов.

Более того, часто при подготовке экспериментальных данных исследователь испытывает серьезные затруднения в формулировке целевых критериев статистического анализа (здесь мы не касаемся достаточно тривиальных постановок задач дескриптивной статистики). Например, известно много фактов значительного расхождения диагностических оценок различных специалистов в медицине и психологии, принадлежащих даже только одной научной школе. Этот НЕ-фактор,

по-видимому, целесообразно определить как «нечеткость внешних критериев».

Также имеет смысл выделить в самостоятельный «НЕ-фактор» наличие в описаниях сложных объектов большого количества «шумящих», не имеющих ценности переменных, способных затушевывать полезные закономерности в структурах экспериментальных данных. С другой стороны, имея в виду технологическую сторону многомерных математических статистических процедур, негативную роль может играть присутствие в описаниях объектов исследования большого числа дублирующих переменных.

Кроме отмеченной ранее разнотипности признаков, с которыми приходится иметь дело при описании объектов со сложной системной организацией, принципиальной особенностью является неоднородность классов объектов, которые формируются на основании тех или иных внешних критериев. Указанные объекты часто относятся к так называемым эквифинальным системам, для которых одинаковые внешние проявления обусловлены различными внутренними механизмами. Этот НЕ-фактор обозначим как неоднородность классов.

Получению данных, связанных с трудоемкими и растянутыми во времени экспериментами, часто сопутствуют осложнения в виде значительного количества пропущенных значений (пропусков). Примеры подобных экспериментов особенно часто встречаются в медицинских исследованиях, которые, бывает, занимают месяцы и даже годы. Естественно, что за столь длительный период возникает целый ряд объективных и субъективных причин возникновения описываемой ситуации (человеческий фактор, отказ приборов и др.). Кроме того, продолжительность во времени процесса получения исходной информации может приводить к другой, не менее негативной ситуации - появлению резко отклоняющихся значений (выбросов) у того или иного измеряемого показателя (практически независимо от его природы).

Еще один НЕ-фактор удобно проиллюстрировать на примере современных молекулярно-гене-тических исследований. Здесь мы затронем пока только один аспект, характерный для задач функциональной геномики (или протеомики). Новейшие биологические микрочипы позволяют одновременно оценивать в биопробе экспрессию десятков тысяч генов. В то же время число объектов в эксперименте редко достигает порядка нескольких сотен. Таким образом, число столбцов в выборках данных (число анализируемых переменных) способно в десятки и более раз превышать количество строк. Возникает необычная ситуация для традиционного многомерного анализа. С одной стороны, данных много, но, несмотря на это, указанную ситуацию следует интерпретировать как малую выборку. Рассмотренный НЕ-фактор

целесообразно обозначить как «количество признаков превышает число объектов».

Относительно самостоятельный раздел прикладной статистики относится к анализу последовательностей чисел и символов. Здесь специалисты отмечают, что несколько основных моделей, используемых при таком анализе, оказались плохо совместимыми друг с другом по базовым посылкам. Например, для числовых рядов Фурье анализ требует отсутствия непериодических составляющих, методы Бокса чувствительны к виду одномерных распределений и т.д. Алгоритмы поиска закономерностей в последовательностях символов основываются на переборах, которые можно реализовать только в очень ограниченных вариантах, либо опираются на сильные эвристические допущения.

Вместе с тем существенные свойства процессов, происходящих в системах со сложной системной организацией, нередко выражаются в виде паттернов с изменяющимся периодом. Более того, такие паттерны могут представлять собой не непрерывную четкую последовательность чисел или символов, а иметь внутренние области-джокеры. Вид паттернов с джокерами и интервалы между ними в начале реального исследования неизвестны - это очередной НЕ-фактор.

Другой НЕ-фактор, относящийся к области распознавания последовательностей символов в ряде актуальных задач (например, распознавание генов в последовательности ДНК, поиск регуля-торных сигналов, предсказание функций белков) с помощью статистических методов, связан с проблемой представления исходных данных в виде таблицы объект-признак. Частично эту проблему в настоящее время пытаются решать посредством специальных алгоритмов так называемого выравнивания последовательностей. Однако эти алгоритмы являются эвристическими и принципиально не способны учитывать то, что внутри образцов последовательностей могут быть вставки (причем неизвестной природы) в самых разных местах и самых различных размеров. Назовем отмеченный НЕ-фактор «Проблемы представления информации в виде таблиц объект-признак».

Еще одна важная особенность данных в предметных областях со сложной системной организацией - структурная асимметрия классов объектов исследований. Эта асимметрия выражается в том, что каждый распознаваемый класс имеет структурные особенности, которые могут сильно различаться. Например, один класс многомерных объектов может обладать сравнительно простой геометрической структурой в пространстве признаков, другой, наоборот, может быть полиморфен в сильной степени.

Таким образом, современная прикладная статистика имеет дело с данными, характеризующимися следующим набором НЕ-факторов:

• высокая размерность данных;

• разнотипность данных;

• неопределенность исходного описания;

• нечеткость внешних критериев;

• большое количество «шумящих» и дублирующих признаков;

• неоднородность классов объектов;

• пропущенные значения;

• резко отклоняющиеся значения (выбросы);

• значительное превышение количества признаков над числом объектов;

• существенность непериодических паттернов с джокерами при описании последовательностей чисел и символов;

• проблемы представления данных в виде таблиц объект-признак;

• структурная асимметрия классов объектов исследований.

Обобщение с точки зрения целевых, дескриптивных и структурных особенностей позволяет выделить основные характеристики предметных областей со сложной системной организацией: нечеткость целевых показателей и критериев; неопределенность, неточность, разнотипность и неизвестная размерность описаний; полиморфность эквифинальных состояний исследуемых систем; наличие русел и джокеров разного, заранее неизвестного формата с неизвестной локализацией. Очевидно, поиск, описание и структурирование закономерностей в предметных областях с подобными характеристиками требуют особых математических и алгоритмических подходов.

Список литературы

1. Tukey J.W. The Future of Data Analysis, Ann. Math. Stat. 33, 1, 1-67 (1962).

2. Орлов А.И. // Заводская лаборатория. - 1990. - Т. 56. - № 3. - С. 76-83; - 1995. - Т. 61. - № 3. - С. 43-52.

СОПРОВОЖДЕНИЕ ИНФОРМАЦИОННОГО ОБЕСПЕЧЕНИЯ СИСТЕМ АДМИНИСТРАТИВНО-ОРГАНИЗАЦИОННОГО УПРАВЛЕНИЯ

В.П. Селезнев, к.т.н. (Государственный университет по землеустройству, г. Москва); В.В. Соколовский, к.т.н. (МКБ «Факел», г. Москва)

Для управления ресурсами и процессами больших систем административно-организационного управления (АОУ) в составе их средств автоматизации разворачиваются информационные компоненты, а также аналитические инструменты, которые необходимы для их формирования. Таковыми управлениями являются задания на производственную деятельность, программы реформирования или совершенствования деловых процессов, планы текущего ресурсного обеспечения, а также другие решения аналогичного содержания.

Сопровождение средств программного обеспечения в больших системах АОУ с длительным периодом жизни является основной и наиболее ответственной фазой их жизненного цикла.

К числу важных задач, которые должны решаться в процессе сопровождения информационных компонент подсистемы управления развитием, относятся следующие:

• поддержка инструментов хранения информационных ресурсов в состоянии, адекватном текущему состоянию самой системы АОУ и ее окружению;

• сбор, фильтрация и накопление в информационных системах данных, которые необходимы для управления деловыми процессами системы, а также ее функциональными элементами;

• поддержка в актуальном состоянии описаний системы АОУ, в том числе ее организаци-

онного построения и деловых процессов, а также данных о распределении различного рода ресурсов и материальных средств между субъектами системы и их организационными образованиями;

• развитие информационных систем с целью сбора дополнительных данных, необходимых для создания новых инструментальных средств и обеспечения функционирования обновленных деловых процессов, согласованное с планами развития самой системы и ее деловых процессов;

• поддержка в актуальном состоянии метаданных информационных ресурсов системы АОУ.

В работах по сопровождению информационных ресурсов наибольшую сложность представляют вопросы поддержки их целостности при изменении нормативно-правовых основ регулирования предметов ведения рассматриваемых систем АОУ, структурного построения этих систем и их взаимодействия с объектами внешней среды, состава, а также организационного построения деловых процессов.

Указанные и подобные изменения можно преодолевать с минимальными затратами только в том случае, если их возникновение принимается во внимание на этапе разработки соответствующих программных решений, а реализованные решения включают в себя механизмы, позволяющие описывать поколения данных и оперировать ими.

i Надоели баннеры? Вы всегда можете отключить рекламу.