Таблица 2
Энергия активации реакций нитрорадикалов с С—Н-связью органических соединений КЧКН^КН+Ъ' при Т=333 К
R¡H E (кДж/моль)
CH2NO2 MeCHNO2 Me2C4NO2 Me3CNO2
EtMeCH-H 60,2 66,7 70,6 59,3
Me3C-H 54,3 60,6 64,4 53,5
H rfH 63,4 70,1 74,1 62,5
CX 58,4 64,9 68,7 57,6
ó 58,6 65,1 68,9 57,8
ex 52,2 58,4 62,1 51,4
со 48,6 54,6 58,2 47,8
CH2=CHCH2-H 51,6 57,4 60,8 50,9
CH2=CHCH-HMe 43,9 49,4 52,6 43,2
CH2=CHC-HMe2 39,8 45,1 48,2 39,2
Z-MeCH=CHCH-HMe 41,6 46,9 50,1 40,9
Me2=CHCH-HMe 44,9 50,4 53,7 44,2
Me2C=CMeC-HMe2 33,4 38,4 41,3 32,8
CH,=CHCMe-HCH=CH, 27,8 32,4 35,2 27,2
Me2NH2C-H 44,9 50,8 54,3 44,2
(CH2=CHCH2)3N 30,9 36,0 39,1 30,2
В результате публикации в Интернете программы оценки реакционной способности радикальных реакций химики-исследователи, химики-технологи, студенты, аспиранты и преподаватели вузов получат возможность оценивать такие реакции в жидкой и газовой фазах в режиме он-лайн.
Список литературы
1. Кондратьев В.Н. Константы скорости газофазных реакций. - М.: Наука, 1970.
2. Денисов Е.Т. Новые эмпирические модели реакций радикального отрыва. // Успехи химии. - 1997. - Т. 66. - № 10. -С. 953.
3. Денисов Е.Т., Туманов В.Е., Денисова Т.Г., Дроздова Т.И., Покидова Т.С. Реализация банка кинетических констант радикальных жидкофазных реакций на IBM PC. - Черноголовка, 1992. (Препринт ИХФЧ РАН). - 38 с.
4. NIST Standard Reference Database 19A. Positive Ion Energetics. Ver. 2.02. 1994.
5. Туманов В.Е., Денисов Е.Т. База данных по энергиям диссоциации связей углеводородов и их производных. // Нефтехимия. - 2003. - Т. 43. - № 1. - С. 65-67.
ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ В ГУМАНИТАРНЫХ ОБЛАСТЯХ
В.А. Дюк, д.т.н. (Санкт-Петербургский институт информатики и автоматизации РАН); В.В. Фомин, д.т.н. (Российский государственный педагогический университет им. А.И. Герцена, г. Санкт-Петербург)
Многие приложения современных методов анализа данных относятся к гуманитарным областям, имеющим сложную системную организацию. Попытаемся обобщить представления о специфике данных в таких областях.
«Будущее анализа данных может привести к большому прогрессу, к преодолению реальных трудностей, к оказанию большой помощи всем областям науки и техники. Будет ли это так? Это зависит от нас, от нашего желания встать на каменистый путь реальных проблем вместо гладкой дороги нереальных предпосылок, произвольных критериев и абстрактных результатов, не имеющих реалистической направленности...» - эти слова Дж. Тьюки [1], сказанные еще в 1962 году, остаются актуальными и в наши дни.
Согласно классификации статистических методов анализа данных, принятой в [2], выделяют четыре области: статистика (числовых) случайных величин, многомерный статистический анализ, статистика временных рядов и случайных процессов, статистика объектов нечисловой природы.
Современные специалисты в области анализа данных концентрируют свое внимание на исследовании объектов нечисловой природы, которые можно отнести к одному из важных классов так называемых НЕ-факторов.
Вместе с тем, акцент в прикладном статистическом анализе только на объектах нечисловой природы является далеко не полным. Когда мы имеем дело с предметными областями со сложной системной организацией (например в медицине), перед исследователем в первую очередь встает вопрос о том, какие признаки (атрибуты, показатели, переменные) следует включить в план статистического эксперимента. Доступных для измерения (фиксации) признаков может быть довольно много. Нередко в современных исследованиях их количество измеряется десятками, сотнями и даже тысячами, и заранее невозможно предугадать их потенциальную полезность. Таким образом, здесь мы имеем дело с еще одним мощным НЕ-фак-тором - высокой размерностью и неопределенностью исходного описания объектов.
Более того, часто при подготовке экспериментальных данных исследователь испытывает серьезные затруднения в формулировке целевых критериев статистического анализа (здесь мы не касаемся достаточно тривиальных постановок задач дескриптивной статистики). Например, известно много фактов значительного расхождения диагностических оценок различных специалистов в медицине и психологии, принадлежащих даже только одной научной школе. Этот НЕ-фактор,
по-видимому, целесообразно определить как «нечеткость внешних критериев».
Также имеет смысл выделить в самостоятельный «НЕ-фактор» наличие в описаниях сложных объектов большого количества «шумящих», не имеющих ценности переменных, способных затушевывать полезные закономерности в структурах экспериментальных данных. С другой стороны, имея в виду технологическую сторону многомерных математических статистических процедур, негативную роль может играть присутствие в описаниях объектов исследования большого числа дублирующих переменных.
Кроме отмеченной ранее разнотипности признаков, с которыми приходится иметь дело при описании объектов со сложной системной организацией, принципиальной особенностью является неоднородность классов объектов, которые формируются на основании тех или иных внешних критериев. Указанные объекты часто относятся к так называемым эквифинальным системам, для которых одинаковые внешние проявления обусловлены различными внутренними механизмами. Этот НЕ-фактор обозначим как неоднородность классов.
Получению данных, связанных с трудоемкими и растянутыми во времени экспериментами, часто сопутствуют осложнения в виде значительного количества пропущенных значений (пропусков). Примеры подобных экспериментов особенно часто встречаются в медицинских исследованиях, которые, бывает, занимают месяцы и даже годы. Естественно, что за столь длительный период возникает целый ряд объективных и субъективных причин возникновения описываемой ситуации (человеческий фактор, отказ приборов и др.). Кроме того, продолжительность во времени процесса получения исходной информации может приводить к другой, не менее негативной ситуации - появлению резко отклоняющихся значений (выбросов) у того или иного измеряемого показателя (практически независимо от его природы).
Еще один НЕ-фактор удобно проиллюстрировать на примере современных молекулярно-гене-тических исследований. Здесь мы затронем пока только один аспект, характерный для задач функциональной геномики (или протеомики). Новейшие биологические микрочипы позволяют одновременно оценивать в биопробе экспрессию десятков тысяч генов. В то же время число объектов в эксперименте редко достигает порядка нескольких сотен. Таким образом, число столбцов в выборках данных (число анализируемых переменных) способно в десятки и более раз превышать количество строк. Возникает необычная ситуация для традиционного многомерного анализа. С одной стороны, данных много, но, несмотря на это, указанную ситуацию следует интерпретировать как малую выборку. Рассмотренный НЕ-фактор
целесообразно обозначить как «количество признаков превышает число объектов».
Относительно самостоятельный раздел прикладной статистики относится к анализу последовательностей чисел и символов. Здесь специалисты отмечают, что несколько основных моделей, используемых при таком анализе, оказались плохо совместимыми друг с другом по базовым посылкам. Например, для числовых рядов Фурье анализ требует отсутствия непериодических составляющих, методы Бокса чувствительны к виду одномерных распределений и т.д. Алгоритмы поиска закономерностей в последовательностях символов основываются на переборах, которые можно реализовать только в очень ограниченных вариантах, либо опираются на сильные эвристические допущения.
Вместе с тем существенные свойства процессов, происходящих в системах со сложной системной организацией, нередко выражаются в виде паттернов с изменяющимся периодом. Более того, такие паттерны могут представлять собой не непрерывную четкую последовательность чисел или символов, а иметь внутренние области-джокеры. Вид паттернов с джокерами и интервалы между ними в начале реального исследования неизвестны - это очередной НЕ-фактор.
Другой НЕ-фактор, относящийся к области распознавания последовательностей символов в ряде актуальных задач (например, распознавание генов в последовательности ДНК, поиск регуля-торных сигналов, предсказание функций белков) с помощью статистических методов, связан с проблемой представления исходных данных в виде таблицы объект-признак. Частично эту проблему в настоящее время пытаются решать посредством специальных алгоритмов так называемого выравнивания последовательностей. Однако эти алгоритмы являются эвристическими и принципиально не способны учитывать то, что внутри образцов последовательностей могут быть вставки (причем неизвестной природы) в самых разных местах и самых различных размеров. Назовем отмеченный НЕ-фактор «Проблемы представления информации в виде таблиц объект-признак».
Еще одна важная особенность данных в предметных областях со сложной системной организацией - структурная асимметрия классов объектов исследований. Эта асимметрия выражается в том, что каждый распознаваемый класс имеет структурные особенности, которые могут сильно различаться. Например, один класс многомерных объектов может обладать сравнительно простой геометрической структурой в пространстве признаков, другой, наоборот, может быть полиморфен в сильной степени.
Таким образом, современная прикладная статистика имеет дело с данными, характеризующимися следующим набором НЕ-факторов:
• высокая размерность данных;
• разнотипность данных;
• неопределенность исходного описания;
• нечеткость внешних критериев;
• большое количество «шумящих» и дублирующих признаков;
• неоднородность классов объектов;
• пропущенные значения;
• резко отклоняющиеся значения (выбросы);
• значительное превышение количества признаков над числом объектов;
• существенность непериодических паттернов с джокерами при описании последовательностей чисел и символов;
• проблемы представления данных в виде таблиц объект-признак;
• структурная асимметрия классов объектов исследований.
Обобщение с точки зрения целевых, дескриптивных и структурных особенностей позволяет выделить основные характеристики предметных областей со сложной системной организацией: нечеткость целевых показателей и критериев; неопределенность, неточность, разнотипность и неизвестная размерность описаний; полиморфность эквифинальных состояний исследуемых систем; наличие русел и джокеров разного, заранее неизвестного формата с неизвестной локализацией. Очевидно, поиск, описание и структурирование закономерностей в предметных областях с подобными характеристиками требуют особых математических и алгоритмических подходов.
Список литературы
1. Tukey J.W. The Future of Data Analysis, Ann. Math. Stat. 33, 1, 1-67 (1962).
2. Орлов А.И. // Заводская лаборатория. - 1990. - Т. 56. - № 3. - С. 76-83; - 1995. - Т. 61. - № 3. - С. 43-52.
СОПРОВОЖДЕНИЕ ИНФОРМАЦИОННОГО ОБЕСПЕЧЕНИЯ СИСТЕМ АДМИНИСТРАТИВНО-ОРГАНИЗАЦИОННОГО УПРАВЛЕНИЯ
В.П. Селезнев, к.т.н. (Государственный университет по землеустройству, г. Москва); В.В. Соколовский, к.т.н. (МКБ «Факел», г. Москва)
Для управления ресурсами и процессами больших систем административно-организационного управления (АОУ) в составе их средств автоматизации разворачиваются информационные компоненты, а также аналитические инструменты, которые необходимы для их формирования. Таковыми управлениями являются задания на производственную деятельность, программы реформирования или совершенствования деловых процессов, планы текущего ресурсного обеспечения, а также другие решения аналогичного содержания.
Сопровождение средств программного обеспечения в больших системах АОУ с длительным периодом жизни является основной и наиболее ответственной фазой их жизненного цикла.
К числу важных задач, которые должны решаться в процессе сопровождения информационных компонент подсистемы управления развитием, относятся следующие:
• поддержка инструментов хранения информационных ресурсов в состоянии, адекватном текущему состоянию самой системы АОУ и ее окружению;
• сбор, фильтрация и накопление в информационных системах данных, которые необходимы для управления деловыми процессами системы, а также ее функциональными элементами;
• поддержка в актуальном состоянии описаний системы АОУ, в том числе ее организаци-
онного построения и деловых процессов, а также данных о распределении различного рода ресурсов и материальных средств между субъектами системы и их организационными образованиями;
• развитие информационных систем с целью сбора дополнительных данных, необходимых для создания новых инструментальных средств и обеспечения функционирования обновленных деловых процессов, согласованное с планами развития самой системы и ее деловых процессов;
• поддержка в актуальном состоянии метаданных информационных ресурсов системы АОУ.
В работах по сопровождению информационных ресурсов наибольшую сложность представляют вопросы поддержки их целостности при изменении нормативно-правовых основ регулирования предметов ведения рассматриваемых систем АОУ, структурного построения этих систем и их взаимодействия с объектами внешней среды, состава, а также организационного построения деловых процессов.
Указанные и подобные изменения можно преодолевать с минимальными затратами только в том случае, если их возникновение принимается во внимание на этапе разработки соответствующих программных решений, а реализованные решения включают в себя механизмы, позволяющие описывать поколения данных и оперировать ими.