№ 1(19)2009
И. И. Попов
Использование семантических подходов в экономических моделях
Информационные технологии являются важным фактором экономической эффективности производства, управления, науки, и это неоспоримо. Десятки наименований программных продуктов составляют обширный рынок средств поддержки бизнес-процессов в экономической деятельности. Автор статьи останавливается на наиболее характерных аспектах взаимосвязи информатики и экономики, трактуя информатику как совокупность теоретических и прикладных знаний, связанных с обработкой, хранением и распределением информации.
«Математика — часть физики», — утверждает Владимир Арнольд [1], вторя Давиду Гильберту. И в том немалая доля истины. Известно, однако, что математика произросла на почве повседневной хозяйственной (экономической) необходимости: измерение площадей и объемов (геометрия); определение времен года, чтобы сеять и убирать урожай (небесная механика), страхование сделок и перевозок (теория вероятностей).
Тем не менее, именно в физике математика проявляет «невероятную и необъяснимую эффективность» [1]. Например, абстрактные построения Бернарда Римана и Николая Лобачевского более чем через 100 лет необъяснимым образом оказались в основе физических теорий, по которым развиваются звезды, появляются квазары, черные дыры и прочее. Кстати, физические (натурные) эксперименты, в том числе воображаемые, могут убедительно воздействовать даже на математиков [2]. Так, в XIX столетии, ряд фундаментальных теорем из области теории функций были открыты Ри-маном на основе несложных экспериментов, касающихся потока электричества в металлических листах.
Перейдем же к информатике. Известно, что первоначальными областями применения вычислительной техники и программного обеспечения были инженерно-технические расчеты (в основном, в оборонном приложении). Притом одной из первых считается машина ЭНИАК (ENIAC, Electronic Numerial Integrator
and Computer (электронный цифровой интегратор и вычислитель). Создатели ЭНИАК — американские ученые Джон Мочли и Преспер Экерт— работали над машиной в 1943-1945 годы. Предназначалась она для расчета траекторий полетов снарядов и представляла собой сложнейшее для середины XX века инженерное сооружение длиной более 30 м, объемом 85 м3 и массой 30 т. В ЭНИАК были использованы 18 000 электронных ламп, 1500 реле, машина потребляла около 150 кВт мощности.
Разработанный в 1950-е алгоритмический язык инженерных вычислений Fortran также не предусматривал возможности обработки данных сложной структуры или хотя бы символьной информации. С появлением в 1960-е языка программирования КОБОЛ (COBOL — COmmon Business Oriented Language), предназначенного для обработки больших массивов экономических, управленческих, статистических и других данных, агрегированных в комплексы или структуры (записи и файлы), началось широкое применение вычислительных машин для решения задач в экономике и управлении народным хозяйством.
Между тем, связь между информатикой в целом и экономикой гораздо глубже, нежели между информатикой и инженерными приложениями. Поясним это на простых примерах.
Так, первая ОС — операционная система (OS/360 фирмы IBM, 1964), по признанию разработчиков, была построена в подражание бюрократической структуре с вертикальными
96
№ 1(19)2009
и горизонтальными связями, в которой все операции регламентированы, и где «клерки» обрабатывают и передают друг другу «документы» в соответствии со строго определенными правилами и условиями переходов. Тем самым вычислительная машина становилась фабрикой по переработке потоков информации с множеством конвейеров, на которых происходит сборка, регулирование и выпуск продукции. Внедрение ОС привело к фантастическому повышению производительности вычислительной установки — до 1500 заданий в смену.
И другой пример. Разработчикам и пользователям баз данных (БД) и автоматизированных информационных систем (АИС) хорошо знакомо понятие транзакция — выполнение комплекса согласованных изменений в различных массивах информации, до завершения которых БД остается в подвешенном состоянии (конфликт в содержании различных компонент массивов). Однако подобные процессы были известны, например, финансовым и банковским работникам задолго до появления БД и АИС. Это проводка, или внесение последовательности синхронных изменений в различные бухгалтерские журналы, книги и документы при выполнении, в частности, снятия суммы со счета. Собственно, проводка — это и есть транзакция, если воспользоваться вариантом перевода с латыни.
Более того, существует экстремистская точка зрения, согласно которой на сегодняшнем этапе развития (постиндустриальное, информационное общество) именно экономических процессов вроде бы уже и нет, а остаются только информационные. В частности, встраивание информационных систем в бизнес-процесс как неотъемлемую часть производственной или управленческой структуры (реинжиниринг бизнес-процессов — BPR, Business Process Reengineering) превращает эти процессы в чисто информационные. Электронные биржи и продажи через Internet «превращают деньги в информацию» [3].
Трудно полностью разделять подобные убеждения, но следует признать сильную интеграцию информационных и экономических процессов и понятий.
В частности, информация все чаще рассматривается как товар с особыми свойствами (например, моральное старение превалирует над физическим износом). Заметим, однако, что этими же свойствами может обладать и любой традиционный товар (даже рассчитанный на длительное применение). Кроме того, нельзя отрицать, что товар — это тоже информация (автомобиль, скажем, может многое «порассказать» о своем владельце).
О семантике
экономико-математических моделей
Когда впервые были поставлены и решены задачи оптимизации информационных потоков и распределения информационных массивов по совокупности центров или хранилищ [6], первоначально использовались традиционные и распространенные экономико-математические методы и теория исследования операций — системы массового обслуживания, линейное программирование, сетевые модели [4].
Трудности такого положения состояли в отсутствии семантики в основе этих моделей. Например, элемент потока в теории массового обслуживания не обладает какими бы то ни было признаками, определяющими его поведение (тяготение к тем или иным центрам обслуживания).
Если вдуматься, то можно прийти к выводу, что та же проблема возникает и при решении «чисто экономических» задач.
Рассмотрим типичную задачу линейного программирования:
Найти
max (min) (C ■ X) при Ах X > B,
где C, X — векторы размерности n;
A — матрица mxm;
B — вектор размерности m.
Здесь решающую роль играет матрица А,за-дающая структуру системы (aj — потребность /-го предприятия в j-м продукте, притягательность /-го товара для j-го типа потребителей).
Откуда берутся эти данные? Обычно это результаты статистических исследований, кото-
97
№ 1(19)2009
I
0 €
1 »
а € о
1!
«о «о о
4!
0 с
1 »
а
I х
рые в реальности подвержены неожиданным и необъяснимым изменениям.
Между тем, при исследованиях документальных информационных потоков было обнаружено явление концентрации-рассеяния информации, также описывающееся обычно некоторой матрицей W, состоящей из вероятностей попадания документа изу-го источника к /-му потребителю информации.
В работе [6], в частности, была рассмотрена теоретико-множественная модель рассеяния информации, в которой вводилось простейшее семантическое описание элементов информационных потоков и их профилей в форме множеств терминов (или дескрипторов). Эта модель развита в дальнейшем в работе [4]. Вероятность Шу оказывается в этом случае несложной функцией (близкой к гиперболической зависимости) от степени пересечения (релевантности):
5, = |А, П 6,1
профилей исходного потока (Б,) и конечного потребителя(А,).
С целью прояснения возможностей применения семантических подходов к моделированию экономических процессов и систем вкратце рассмотрим теоретико-множественную модель информационных процессов.
Теоретико-множественное описание информационных объектов и процессов
Основные элементы теоретико-множественных моделей. Теоретико-множественное моделирование информационных процессов предполагает ввод в рассмотрение следующих понятий (рис. 1):
• универсальный словарь О, или множество лексических единиц (слов, дескрипторов — односложных или составных), терминов индексирования, классификационных рубрик (МКИ, ББК и т. д.). Универсальный словарь содержит все термины, прототипом его может являться тезаурус ИС, рубрикатор УДК или другая структура (рис. 2). Подмножествами О являются любые рассматриваемые объекты (профили, сообщения, запросы). В реальных системах может содержаться 104-106 терминов (дескрипторов);
О—универсальный словарь; А,В — информационные профили; 5—пересечение профилей; V '/■ 'у '*< V 'ш — документы, сообщения; а.*, (3*—пересечения сообщения с профилем; 6* — взаимное пересечение сообщений
Рис. 1. Основные объекты теоретико-множественных моделей информационных объектов и процессов
• информационные профили — А, В,..., подмножества О(А, Б с О) — лексические совокупности, описывающие информационные потребности, профили интересов, тематику биб-лиотекили баз данных. Являются относительно стабильными («долгоживущими», слабо изменяющимися) объектами значительного объема (103-104 терминов);
• сообщения (документы, запросы и пр. — 11, Iк, У,, I, с О) — случайные, «недолговечные» образования небольшого объема (порядка 101-102 терминов);
• релевантность, семантическая/тематическая близость, в теоретико-множественном описании — степень пересечения терминологических множеств. Рассматривается на следующих уровнях:
□ взаимная релевантность профилей 5 = |А П Б|;
□ релевантность сообщения профилю а* =|А П 1/|, р* =|Б П 1,1 и т. д.;
□ взаимная релевантность сообщений
ь^И п 1,|.
Представления документа как множества терминов не противоречит современным тенденциям в развитии информационно-поисковых систем. Использование пакетов прикладных программ (ППП) информационно-поисковых систем приводит к тому, что, с точки зрения потребителя, каждый документ, загруженный в базу данных ППП, является или множеством терминов, или совокупностью множеств терминов:
98
№ 1(19)2009
• заголовка;
• реферата первоисточника;
• дескрипторов индексирования документа. На рис.2 приводятся примеры некоторых из
классификаторов и тезаурусов, являющихся источниками лексико-семантических единиц для описания информационных объектов и процессов.
Н — электричество(раздел) Н05 — специальные области электротехники (класс) Н05Н — плазменная техника (подкласс) Н05Р1-00—получение плазмы (группа) Н05Н1-02—устройства для удержания плазмы (подгруппа) Н05Н1-04—устройства с использованием магнитных полей (подгруппа)
Н05Н1-06—устройства для сжатия канала плазм (подгруппа) Н05К—печатные схемы (подкласс)
и — {/1 , •••/ /Ь —/ 1 п0 }/ где /к е ¿о,для всех к, причем |£0| — п0.
Прообразом ¿0 могут являться: поисковый массив ИПС, отраслевой справочно-инфор-мационный фонд, массив библиотеки и т. д.
6 — прикладная наука, медицина, техника 681 — точная механика 681.1
681.5 — автоматика, техническая кибернетика
681.51 — системы автоматизированного управления 681.51.4—стохастические САУ
681.51.8 — информационные системы
«о о с
ê
а — Международная классификация изобретений (МКИ)
6—Универсальная десятичная классификация (УДК)
cathehol USE pyrocatechol
CATIONS
UF — positive ions BT1tons
BT2 charged particles NT1 hydrogen 1 ions plus NT2 protons
NT3 delayed protons NT1 hydrogenions 3 plus RT chemical states RT electrolysis RTton beams RT ion exchange materials
в—ТезаурусINIS
Рис. 2.
INFORMATION RETRIEVAL see also information storage UF document retrieval BT information science TT computer applications RT information analysis information storage
INFORMATION RETRIEVAL SYSTEM EVALUATION BT evaluation information retrieval system TT computer application evalution
г—Тезаурус IMSPEC:
BTx—вышестоящие термины; RT—ассоциативные термины; NTx—нижестоящие термины
Фрагменты классификаторов и тезаурусов
Информационные потоки и их некоторые характеристики. Всякое множество сообщений (/к с О, для всех к) является информационным потоком:
I —{/1...../к...../п}.
Подобно универсальному словарю, может быть введен универсальный массив (поток) 10, содержащий все сообщения:
Ассоциативные матрицы информационного потока. Интересной характеристикой всякого информационного массива является матрица вероятностей:
Pi . • Pij : • Pi d'
P= Pii : ■ Pj : • PiD (P'j ) DxD
, Pdi . • PDj : PDD
99
№ 1(19)2009
элементы которой задают вероятности:
M[b:bj]
--Pa, cov„ = Pr
Pa
Pn =P,'
где Р, — совместное появление /-го и у-го термина в документе, случайно извлеченного из массива (/^у);
Р,, =Р, — появление/-го термина в документе, безотносительно к окружению (/ = у).
Множество диагональных элементов Р образует частотный словарь массива документов. Простейшая ассоциативная матрица потока Р является источником важной информации, определяющей большинство свойств потока £0.
В рассмотрение могут быть введены также и другие ассоциативные матрицы термин-термин, например, ковариационная и корреляционная матрицы:
cov = (coVj)D х D, cor = (cor,), corj
cov,,
л/covv
cov,,
i
0 €
1 »
a € о
1!
При построении ковариационной (как и ве-роятностной)матрицы потокрассматривается в качестве совокупности случайных бинарных векторов {1к}, компонентами которых являются случайные числа Ь,. Случайный вектор I имеет вид:
b ) b
bD
Ковариационный момент величин bi и b,согласно общему определению:
cov(b„ b) = cov,=M[b;b;] - M[bi\M[bj\,
g где M—оператор математического ожидания.
a §
«о о
S3 §
с
Известно, что если случайная величина X с вероятностью p принимает значение 1,а с вероятностью 1 — p — значение 0 (ноль), то M[x] = p. Таким образом,
Элементарный профильный информационный поток. Оператор формирования.
Рассмотрим важный случай профильного гипергеометрического потока I"■ Данный поток является моделью реально существующих потоков/массивов документов, сгруппированных по тематической близости.
Введем в рассмотрение оператор формирования профильного информационного потока (элементарный/скалярный, а в дальнейшем — совокупные, векторные аналоги), или пару объектов:
У"] = [А, а],
где А — информационный профиль, являющийся подмножеством О (А с О); а — пороговое значение как критерий вхождения документа (сообщения) I, в потокI".
Процедура (критерий) формирования профильного потока (или релевантности сообщения профилю) имеет вид:
I, € I",если I, П А >а.
Профильным информационным потоком (элементарным) назовем множество выходных сообщений I", образующееся при прохождении некоторой совокупности сообщений £ (как правило, входным потоком является универсальный поток 10) через элементарный оператор:
La =V [о]( U).
(1)
На выходе оператора V"], вне зависимости от вида входного потока, наблюдаются только релевантные профилю А сообщения.
Среди прочих элементарных операторов формирования потока могут быть выделены:
• пустой оператор (0), или задерживающий все сообщения:
0 = 0(£), для всех £ с 10;
• тождественный (единичный) оператор, не изменяющий потока:
100
P
j
I
№ 1(19)2009
- — 1 (-), для всех - с -0;
• оператор случайной выборки сообщений из входного потока
-'—р,(-), для всех - с 1-0
(Оператор ^ осуществляет сжатие входного потока без изменения его статистических характеристик; коэффициент сжатия ^ не более единицы. Очевидно, что пустой и единичный операторы — крайние случаи оператора случайной выборки, для первого ^ = 0, для второго 1 .)
Операторы концентрации-рассеяния. Определим далее важное понятие оператора концентрации-рассеяния сообщений.
Пусть заданы фиксированные потоки V[aN\, V[bM\• Оператором концентрации-рассеяния является матричный оператор размерности Мх№
W[bм, т, аN — W[b, т, а],
такой, что
V[cм\ — W[b, т, a\хV[aN\, (2)
где V[cм\с V[bм\ (3)
для любых т.
Здесь т — множество управляемых параметров (как правило, переменных операторов), посредством изменения которых могут быть получены различные операторы, удовлетворяющие условию (3). Потоки (операторы) V[aN\, V[bM\ являются базовыми операторами W[b, т, a\•
Матрица вида:
W[b, a\ — Що^ ® V[bм\,
является оператором полной концентрации-рассеяния, поскольку для любых т справедливо:
W[b, т, о\ с W[b, т, о\.
Соотношение (2) задает управляемое преобразование совокупного векторного потока
в иной векторный поток; кроме того, оператор W[b, т, о\ символизирует структуру матричного потока, промежуточного между входным и выходными потоками описываемого процесса.
Процессы концентрации-рассеяния сообщений — наиболее распространенные из информационных процессов. Примерами таких процессов, в частности, являются:
• распределение сообщений, генерируемых поставщиками информации, по некоторой совокупности изданий. Базовый оператор характеризует потенциальное распределение сообщений, обусловленное профилями интересов взаимодействующих элементов. Управляемыми параметрами являются стратегии взаимодействия, выбираемые с учетом технологических, географических, экономических аспектов процесса;
• распределение потока изданий по потребителям информации (управляемые параметры — стратегии подписки) и т. д.
• последовательно-параллельное соединение операторов (выражение, приведенное к операциям над операторами концентрации-рассеяния) позволяет описать сколь угодно сложные конфигурации информационных потоков (процессов).
Операторы концентрации-рассеяния могут быть заданы с помощью некоторых операторных выражений, например,
W[b, т, о\ — (ЩЬм\ ® V[gк\) х ® V[aN\), где т — ^[д^), V[dк\>;
W[b, т, а\ — (ЩЬм\ # V[cм\) ® # V[aN\), где т — см\), (рис. 3);
W[b, т, о\ — # V[cMк\) х (^т\ # где т = V[dкN\>•
В выражениях (2), (3) (и аналогичных) значками #, х, ® обозначены операции «прямого произведения векторов», «матричного произведения», «покомпонентного сцепления» многомерных (вектор-матричных) операторов формирования потоков [4].
101
№ 1(19)2009
У2М vyfoj Wej
т
i
0 €
1 »
а € о
1! т «о «о
0
1
0 с
1 »
а
I §
4<к
Vhi
Рис. 3. Структура оператора концентрации W[Ь, т, а] = W[Ь, т1, с] х W[с, т2, а], (4) где т = <т1, т2>.
Количественная форма описания потоков и операторов. Элементарному информационному массиву в количественной форме соответствует число (скаляр) сообщений в массиве — £
Элементарному потоку соответствует функция интенсивности потока (обычно рассматриваются стационарные потоки постоянной во времени интенсивности — X).
Совокупным потокам (массивам) могут соответствовать многомерные объекты, в том числе:
• вектор (для векторного потока)
1 г
W[b,m,a]
1
— входной поток оператора;
— выходной поток; У[ся], У[</м] — управляющие
параметры оператора(т)
X = (\и ..., х,7 ..., Хм) матрица
(Xi)M
'X" :• N : X1N
X= X ,1 :• X , :. X iN
X M1 :• X Mj :■ X MN y
=( X
ij ) MN .
Элементарный оператор V[a] формирования потока в количественной форме есть вероятность v[a] того, что сообщение, входящее в L0, войдет в выходной поток La (1).
Если Х0 — интенсивность потока L0, a Xa — интенсивность некоторого La, то
б
рассеяния (я); символическое обозначение (б)
Xa = v[a]Xo,
что является количественным аналогом (1).
Легко видеть, что для v[a] соблюдаются условия:
V[a] С V[b] ^ v[a] < v[b];
V[a] = 1 ^v[a] = 1;
V[a] =0 ^ v[a] = 0;
V[a] = V[a] = ^ (ц,< 1).
Совокупному потоку, например векторному V[aM], соответствует вектор вероятностей:
V[aM] = (^m],..., ^m],..., ^иЫ).
Оператор V[aM] считается жестким, если
M
Е v, [aM ] = 1.
i=1
Жесткий оператор задает декомпозицию потока L0 и, следовательно, любого подмножества La с L0 на M непересекающихся множеств, содержащих все сообщения.
Количественная форма операций над операторами. Для случая гипергеометрического профильного потока количественная форма оператора формирования может быть построена аналитически. То же самое можно сказать об операциях объединения и сцепления элементарных операторов.
Пусть заданы 2 векторных оператора V[aN], V[bM]. Выберем из них по одной компоненте:
102
№ 1(19)2009
е Vj[aN\ — [А, о\; Vi[bм\ е Щ^, ^[Ьи\ — [В,, Ь\.
В дальнейшем опускаем индексы, обозначая элементарные операторы таким образом, что
V[a\ — [А, а\; VI
[В, р].
Обратимся к рис. 4 как обобщающему ранее приведенный — рис. 1.
Рис. 4. Количественное представление операторов формирования и операций над ними
Простейшие информационные потоки. Гипергеометрический поток. Подобно простейшему потоку в теории массового обслуживания [5\, могут быть введены простейшие информационные потоки, одним из которых является так называемый гипергеометрический поток.
В этом случае все сообщения имеют одинаковую длину, и универсальный поток -0 представляет собой совокупность всех сочетаний из О терминов по /. Таким образом, здесь |-0| —П0 — СО •
Название «гипергеометрический» объясняется тем очевидным обстоятельством, что, если / — некоторое сообщение, входящее в -0, то случайные величины:
а* — |А П /|, р* — |В П /|
1А П /\
а*> а,
и, следовательно, войдет в
V, [ом\ — v[a\—Р(а * >а) —
/ Са
= Е ~
Е Ж
С /-а*
А
СО
Аналогично
— у[Ь\ — Р(Р* > р) — / / Ср* -С-р*
— Е ф( Р *) — ^ °
р *—р, р *—р,
СО
(5)
Выражения (5) задают аналитически количественные значения элементов векторов операторов формирования потоков, как функции от величин /, а, р, А, В.
Пусть
где ф(а *) и ф(р *) — вероятности появления со- | ответствующихзначений, причем 0<а *< /, ^
0<р* </. Л
Здесь и далее будут использованы обозначения:
О1—0,1А1—А, 1В1—В, е* — 1А П В П /|, 5 —А П В|, I — |||.
На первый взгляд, гипергеометрический поток имеет мало общего с реальными информационными потоками. Однако, во-первых, здесь пока определен непрофильный поток, а в дальнейшем все операции будут проводиться с профильными потоками (1). А, во-вторых, поток, содержащий равновероятные комбинации допустимых терминов, является аналогом белого шума (сигнала, содержащего все частоты), гипотетического сообщения, передающего бесконечно большое количество информации. Очевидно, сообщение / из -0 будет удовлетворять условию:
распределены по гипергеометрическому закону:
ф( о *
Са -С'
л г
СО
-; ф( р *
С р С
-р *
СО
У[х\ — V[b\ # V[a\•
Определим количественную форму у[х\ этого оператора.
103
№ 1(19)2009
Это, очевидно, вероятность того, что для случайного сообщения / одновременно выполняются условия:
А П а* и В П /|>р*.
В данном случае переменные а* и р* распределены по двумерному гипергеометрическому закону, причем вероятность совместного появления заданных значений а* и р* есть:
Пусть
• о, — событие релевантность сообщения профилю А;
• Ь, — релевантность сообщения профилю В,;
• о, Л Ь, — совместное наступление событий о, и Ь..
По теореме умножения вероятностей:
л Ь) — рф^ро),
Ф(а *, р *) — -
шт( а *,р *)С е хС а -е Е 5 А— 5
Е0 хСр'—е* хС1—а*—р*+е*
х
/- а * -О—А—В+5
I
»О
0 €
1 »
а € о
1!
«о «о о
4!
0 с
1 »
а
И §
СО
Отсюда
у[Х\ — р(а* > а;, р* > р) — // = Е Еф(а *, р *).
а * — а; р * — р,
Оператор концентрации-рассеяния. Полезным результатом является построение количественной формы оператора концентрации-рассеяния. Пусть векторные операторы V[aN\, V[bM\ являются базовыми для оператора концентрации-рассеяния, тогда оператору полной концентрации-рассеяния:
W[b,a\ — ^Ь^ ® V[aN
соответствует матрица w[b,
М х N
... М1;
w[b, о] — ...
ММ1 ...
MN
каждый элемент которой м,;[Ь, о\ есть (условная) вероятность того, что сообщение, входящее в поток — (случайным образом выбранное из —), будет релевантно профилю В,:
w¡j[b/ о\ — Р(р* > р,|а* > а,).
где Рф.о — условная вероятность Ь, при наступлении о, откуда
Р(Ь:\о1 )
Р(о; Л Ь,)
р(о;)
Поскольку wij[b,a\ — р^о),
й\ — р(р* > р,|а* > а) — //
Е Еч(а *, р*)
а * — а ; р * — р,
Еф(а *)
а —а;
Данное соотношение является аналитическим выражением для м,[Ь, о\, как функции от величин О, |А;|, |В ,|, /, 5 ¡¡, а;, р, (здесь снова указаны индексы элементарных потоков).
Для случая, когда базовые операторы являются жесткими, каждое сообщение компоненты входа — войдет только в одну из компонент -Ь и
N
Ем ; [Ь,о\ — 1, 1, 2,..., М
;—1
(условие аддитивности оператора W[b, о\).
Пусть Х" — некоторый векторный входной поток оператора W[b, о\, тогда его преобразование данным оператором в ХЬ соответствует выражению:
N
ХЬ —Ем; [Ь,о\Х,/ = 1,2.....М,
;—1
или в матричной форме:
XI3 — w[b, о\ х\а.
104
№ 1(19)2009
Данное выражение есть количественный аналог (3).
Рассмотрим последовательное соединение операторов концентрации-рассеяния (рис. 5б).
Рис. 5. Последовательное соединение операторов концентрации-рассеяния W[c, Ь] и 1У[Ь, а] (я); символическое обозначение (б)
Пусть имеется пара аддитивных операторов W[cк, Ьм] и W[ЬM, ом] (в количественной форме соответственно ш[с, Ь] = (ш[с, Ь])кхм, ш[Ь, а] = = №у[Ь,а])и х Ы), с общим базовым потоком (оператором) У[ЬМ]. Оператор W[cк, Ьм] задает преобразование:
м
К =ЕШк,[с, Ь]-ХЬ, к =1,2.....К,
Из приведенных выше соотношений следует, что
м N
Хск =Еши[с, Ь]Еш,[Ь, а ]Х"., к =1,2.....К,
,=1 у=1
или в матричной форме:
Хс = ш[с, Ь] х ш[Ь,а] х а". (6)
Соотношение (6) является количественным аналогом (4).
Моделирование информационного обмена
Если рассматривать замкнутый цикл информационного обмена в некоторой глобальной системе (системе информационного обмена — СИО), то здесь, очевидно, могут быть выделены потребители-поставщики информации (ППИ), взаимодействующие между собой в рамках некоторой внешней среды, которую, в основном, составляют информационные системы (ИС).
ППИ обмениваются информацией, создавая «восходящий» информационный поток, обрабатываемый в ИС и возвращаемый ППИ в качестве «нисходящего» (в дальнейшем будет рассмотрена также возможность непосредственного взаимодействия ППИ).
Рассмотрение СИО как системы, в которой взаимодействуют ИС и ППИ, является организационной декомпозицией системы (рис. 6 а).
Кроме того, исходя из формы деятельности ИС и ППИ, может быть осуществлена и функциональная декомпозиция системы, — на основной (ОД) и информационный (ИД) типы деятельности (рис. 6б).
Рис. 6. Декомпозиции системы информационного обмена: организационная (я); функциональная (б)
Организационные элементы СИО и их взаимодействие. Организационная декомпозиция СИО приводит к построению множества п организационных элементов (физически и/или административно и/или территориально объединенных совокупностей элементов основной и информационной деятельности):
Е =[Е1.....Е,..., Еп].
Могут быть выделены две структурные разновидности элементов (п = М + ЭД:
• потребители-поставщики информации (ПП), включающие ОД N элементов);
• элементарные информационные системы (ЭИС), не содержащие ОД (М элементов).
При рассмотрении организационной декомпозиции данное различие не принимается во внимание, и информационный обмен трак-
105
или Хс = W[cк, Ьм] • ХЬ.
№ 1(19)2009
туется как преобразование совокупного информационного ресурса, которым располагают все ОЭ (п-мерный векторный поток):
г/=[ V/,..........у?п ].
X Е
Ша
; у?
Ш рр \Ш Р1 "ск "ск
Ш1Р Ш " "ск "ск
(8)
в совокупный поток информационного обеспечения, утилизируемый всеми ОЭ (размерности п):
ХЕ = [ХЕ, ,..., ХЕ, ХЕп ].
Взаимодействие организационных элементов системы информационного обмена может быть представлено в операторном виде следующим образом.
Оператором сети коммуникаций организационных элементов (СК) является оператор концентрации-рассеяния Шск(т), описывающий процедуру концентрации-рассеяния потока У? (рис. 7):
ХЕ =Шск( т) х У?.
(7)
где X соответствует совокупному потоку информационного обеспечения ОД (размерности 14);
ХЕц — поток информации, ассимилируемой множеством ЭИС (размерность М); У5 — исходный N — мерный поток; У?? — М-мерный информационный ресурс множества ЭИС;
Шсркр — оператор концентрации-рассеяния, соответствующий непосредственному взаимодействию ПП размерности N х 4; ШсРК — размерности N х М описывает взаимосвязи выходных ЭИС с входами ПП; "сК — размерности МхN соответствует взаимодействию выходов ПП с входами ЭИС; шсК — коммуникации ЭИС между собой (размерности М (М).
I
0 €
1 »
а € о
1!
«о «о о
4!
0 с
1 »
а
I £
1 — выходы организационных элементов;
2 — входы организационных элементов;
3 — потребители-поставщики информации; 4—элементарные ИС (ЭИС);
5 — оператор сети коммуникаций
Рис. 7. Взаимодействие организационных и функциональных элементов
Взаимодействие функциональных элементов системы информационного обмена. Перейдем к построению операторов, описывающих конечную взаимосвязь элементов основной деятельности и характеризующих структуру ИД.
Поскольку п ОЭ включает N потребителей-поставщиков информации (ПП/ППИ) и М элементарных ИС (ЭИС), то можно провести соответствующую декомпозицию операторов (потоков) X Е,УЕИ,^ск:
Операторное соотношение (7) теперь может быть переписано в виде:
X Ш рр "ск Ш Р1 "ск х У5
.Х Е5 Ш р "ск ШII "ск У5 Е15
Можно показать, что
X =(ИР хУЕ)и(С хУ? Хе? =(И£ хУЕ)и(^К хУ£
(9) (10)
106
5
5
Е5
Е5
№ 1(19)2009
Поскольку информационный ресурс, подлежащий распространению ЭИС, образуется только из сообщений, принятых ЭИС, справедливо равенство:
YS -'eis
-XF
(11)
и известными уравнениями, с межотраслевым балансом [5]:
(E - A) х X = (E - A)-1 = E-
Y; X = P х Y;
A + A2 + A3
связанными £
S: S:
P
Если выполнить последовательность подстановок (9) в (10), используя (11), можно получить решение системы относительно X в форме операторного ряда:
x=(wpp u(Wck xWck)u(Wck xWckxw&)и
U(WPK x(WIK)2 xW&)U (12) U(WH x(WIk)3 xWCK)u..)xYs.
Компоненты правой части (12) соответствуют непосредственному взаимодействию ПП, их взаимодействию через ЭИС, через однократно и многократно коммутированные.
Информационной сетью назовем операторный ряд вида:
WN = WK u(W«k)2 U(WK)3..., (13)
отражающий взаимодействие только ЭИС.
В частности, если многократное взаимодействие элементов слабо выражено, оценкой (13) может являться WN = W "к.
Таким образом, оператор системы информационной деятельности WSAA, соответствующий взаимодействиютолько элементов основной деятельности (ППИ),
X = WslA(m)xYS, (14)
может быть представлен как
WSIA(m) = Wp U(WCPK х(U U WN)x WdK), (15)
где 1MM — оператор, единичный относительно операции матричного умножения (матрица М х М, диагональные элементы которой равны 1, остальные — 0).
Внимательный читатель, вероятно, уже заметил аналогию между выражениями (13)-(15),
где А — матрица прямых затрат;
Р — матрица полных затрат;
X — вектор входов;
У — выходов;
Е — единичная матрица.
Аналогично сумме бесконечно убывающей геометрической прогрессии, матричный ряд для Р сходится, если норма матрицы А меньше 1:
ЦАЦ < 1.
Представление матрицы полных затрат в виде сходящегося матричного ряда аналогично оператору информационной сети (13). Рассмотрим пример сети коммуникаций, поясняющий элементы операторного ряда (12).
Пример структуры сети коммуникаций. Дадим интерпретацию введенных определений применительно к сети коммуникаций, включающей (кроме каналов непосредственной коммуникации) издательства, библиотеки, специализированные информационные центры.
Перечислим вначале основные средства преобразования соответствующего исходного потока в поток информационного обеспечения основной деятельности:
• поток публикаций описывается М] -мерным оператором, а в количественной форме имеет вид:
V ....." ]....." JMJ)
• совокупный массив библиотек задается МВ-мерным оператором (оператором комплектования библиотек) в количественной форме:
* —(^В.....;.....М);
• массив специализированных информационных центров задается МС -мерным опера-
№ 1(19)2009
тором (комплектования центров), в количественной форме:
=( 'С.....'С.....М)
I
0 €
1 »
а € о
1!
«о «о о
4!
0 с
1 »
а
I £
а §
«о
о §
с
Понятно, что формальные определения библиотек и информационных центров изоморфны. Однако различно их содержание, поскольку профили и библиотек (В) и профили центров (С) формируются по различным принципам (например, по территориальному и отраслевому).
Перечисленной совокупности средств коммуникации, (а также непосредственной, частной коммуникации) соответствует упорядоченное множество операторов концентрации-рассеяния (рис. 8):
• оператор непосредственной коммуникации, который задает преобразование:
X = Ш, х У5;
• оператор преобразования исходного потока в поток публикаций:
V = Ш2 х У5;
• оператор информирования посредством публикаций:
X = Ш6 х V!;
• оператор преобразования потока публикаций в совокупный библиотечный массив:
Ъ = Ш5 х V,;
(16)
• оператор преобразования потока публикаций в совокупный массив информационных центров:
^ = Ш4 х V,; (17)
• оператор библиотечного обслуживания:
X = Ш8 х 1В. (18)
Строго говоря, соотношения (16), (17) описывают приращение информационных масси-
вов за счет потока изданий, а (18) — формирование информационного обеспечения за счет фрагмента библиотечных массивов. Совершенно аналогично могут быть определены операторы: Ш7 — обмен информацией между библиотеками и центрами; Ш9 — справоч-но-информационное обслуживание; Ш3 — депонирование сообщений.
У | Поставщики информации
Потребители информации
0
Рис. 8. Пример графа структуры сети коммуникаций
Рассмотренная структура может быть расширена введением более подробныхдополни-тельных декомпозиций (издания периодические, непериодические; центры — отраслевые, подотраслевые, региональные); соответственно могут быть введены операторы взаимодействия библиотек (МБА) и другие.
108
С
Для рассматриваемой ситуации система коммуникаций организационных элементов описывается клеточной матрицей:
№1 №б №8 №9
№2 0 0 0
0 №5 0 0
№3 №4 №7 0
(19)
размерности
(Ы + MJ + Мв + Мс) х (Ы + MJ + Мв + Мс), где п = Ы + MJ + Мв + Мс.
Проведем декомпозицию (19) по аналогии с (8), получая следующие клеточные подматрицы Шж:
• непосредственные взаимодействия потребителей-поставщиков информации (матрица Ш1 размерности N х Ы):
Я»
№ 1(19)2009
X Е = Яск (т)хУ^
Здесь
ШК =Ж ш Ш]х
п» хШ^ хШСК
хШ)и(п6 хПз);
Ш Ш Ш]х
0 0 0 ш2
х Ш5 0 0 х 0
ш4 ш7 0 Шз
[Ш8 хШ5 иШ9 хШ4 0 0]х
= (Ш8 хШ5 хШ2)и(Ш9 хШ4 хШ2). Далее, поскольку
• коммуникации поставщиков с издатель- ' 0 0 0 0 0 0
ствами и центрами информации (матрица ШС'К (ШСК )2 = Ш5 0 0 х Ш5 0 0
размерности (MJ + Мв + Мс) х Ы): ш4 ш7 0, Ш7 0,
0 0 0
(Ш/ = 0 0 0 ,
ш1Р = Шск = Ш2 0 Ш ; то Ш5 хШ7 0 0,
«о о с
£
15
а:
• в^1ходы информационных систем на потребителей (матрица ШЦ размерности N х (М] + Мв + Мс)):
=(Юб \W8\W9 );
• взаимосвязи компонент ИС в данном случае
Ш11
ШСК
ШК х (шск )2 х шСК= [Шб ш Ш9 ] х
0 0 0 ш2
х 0 0 0 х 0
Ш5 хШ7 0 0, Шз
-Мв- Ь Мс) х М + Мв + Мс)): Ш2
= [Ш9 хШ7 хШ5 0 0]х 0
0 0 0^ Шз
Ш5 0 0
Ш4 Ш7 0, = Ш9 хШ7 хШ5 хШ2
Рассмотрим каналы коммуникаций, которые выделяются в данной системе, если раскрыть выражение:
И поскольку (ШСК) =0 при к> 2, прочие члены ряда (1з) в данном случае отсутствуют.
109
»
J
ск
№ 1(19)2009
I
0 €
1 »
а € о
1!
«о «о о
4!
0 с
1 »
а
I х
а §
«о
о §
с
В результате получаем:
Ш51А = "1 и(Ш6 хШ2 иШ9 хШ3)и
и(Ш8 хШ5 хШ2)и(Ш9 хШ4 хШ2)и и(Ш9 хШ7 хШ3 хШ2).
Данное матричное выражение демонстрирует всю совокупность имеющихся в рассматриваемом случае каналов коммуникаций (реализации), в том числе
• простые: (непосредственные коммуникации), Ш5 — комплектование библиотек и т.д.;
• составные: Ш6 х Ш2 (издание — подписка); Ш5 х Ш2 (издание — комплектование библиотек);
• полные: Ш8 х Ш5 х Ш2 (издание — комплектование информационных центров — библиотечное обслуживание).
Анализ количественной формы оператора концентрации-рассеяния
Теоретико-множественная модель
рассеяния документальных потоков
Поставим вопрос, насколько адекватны модели, построенные на основе операторов концентрации рассеяния в количественной форме? Напомним вначале основные моменты, связанные с законом рассеяния информации (или законом Брэдфорда).
Рассматривается совокупность информационных массивов (потоки изданий, отраслевые информационные фонды, каталоги библиотек, многотомный энциклопедический словарь). Выбирается некоторая тематическая рубрика (профиль), к которой относится часть статей (документов) каждого из информационных массивов.
Если в качестве информационных массивов рассмотреть М изданий, то количество статей по выбранной тематике, соотнесенное, например, с названиями журналов, образует следующий ряд величин:
'ъ ■■■'¡, ■■■, 'м-
Эта последовательность не обнаруживает каких-либо закономерностей, связывающих } и ' (что естественно), однако дело меняется, если осуществить упорядочение изданий по убыванию частот или продуктивностей:
'ъ ^ ■■■' ■■■, 'м-
Произвольный номер издания / здесь заменяется рангом г, или порядковым номером в последовательности по убыванию продуктивности, и эта отсортированная последовательность образует так называемое ранговое распределение, в котором обнаруживается отрицательная взаимосвязь между рангом г и частотой 'г (рис. 9).
Рис. 9. Экспериментальный вид закона Брэдфорда в билогарифмических координатах 1 и его аппроксимаций: (2) однопараметрической (!п £ = !п С - !п г); (3) двухпараметрической (!п Ъ = !п С - ^ !п г)
110
№ 1(19)2009
Эта взаимосвязь может быть приближенно описана одним из выражений:
'= — • '= С
'г г ' г /
г1 г
отображающих аппроксимацию с двумя (С, 7) и одним (С) параметрами соответственно. Причем второе из них, будучи более простым, является формулой гиперболической зависимости 'г от г. В связи с этим принято говорить, что закон Брэдфорда удовлетворяет гиперболическому ранговому распределению.
Закон Брэдфорда приобретает более наглядную форму, если от обычных (г, ') координат перейти к билогарифмическим (1п г, 1п ') (рис. 9). Тогда в аналитической форме выражения для 'г приобретают вид:
1п 'г = 1п С -11п г, 1п 'г = 1п С - 1п г.
Для построения данных аппроксимаций можно воспользоваться методом наименьших квадратов, минимизируя выражение:
Д=
D
=Е (in fr
r=1
inC + 4 -in r)2.
Перейдем далее к рассмотрению теоретико-множественной модели рассеяния информации.
Пусть задан совокупный поток V[jМ] = [/м, цм], описывающий множество издательств по профилю:
!М = {!1, ..., ! ..., !м} и критерию релевантности:
цм = {ц, Ц,..., цм}, а также рубрикатор V[tR] = [Гк, 8Я] профилей:
Т* = {Т.....Тк.....Т„}
и критериев релевантности Ая = {8и 8К,..., 8Я}.
Оператор концентрации-рассеяния в количественной форме (рис. 9а) для базовых операторов VjМ], V[tR] есть матрица вероятностей w[t,j], элемент ] которой есть вероят-
ность того, что сообщение к-го тематического потока появится в j-м издании:
^кМ = Р(Ц > Ц-1 б* > 8К) =
1 1
Е Еф(8*, Л *)
8*=8к Ц*=Ц j
ln
f (in
111
S:
Еф(8 *)
8 *=8,-1
где rf = \/ п Jj\, 8* = |/ П Tk\, и аргументами выражения являются /, rp, |Jj|, 8k, \ Tk\, Sjk = Jj П Tk|.
Если зафиксировать Tk, 8K (рассматривается k-я рубрика) и потребовать выполнения сим-метризирующих соотношений:
Г = r, \Jj\ = J, для всехj, то Wjk[t,j] будет зависеть только от Sjk = |J П Tk| = S:
wJk[tjj| = P(S) = Pj.
Рассмотрим последовательность изданий, упорядоченных по убыванию Sjk = Sj (рис. 10 б):
S1 = Smax, S2, ..., ^ ..., SM- 1, SM = Smin,
которой соответствует убывающая последовательность значений вероятностей Pj (рис. 10в):
P1 = Pmax, P2, ..., P(V ..., PM- 1,PM = Pmin.
Примеры зависимостей между Pj и Sj для различных соотношений между r, 8, /, рассчитанные по соответствующим формулам и представленные в форме:
приведены на рис. 11 а—г.
Анализ семейства кривых показывает, что хотя они плавно переходят друг в друга с изменением 8 и ц, их можно разбить на 2 группы.
1. ц « 8, причем ц и 8 близки к I. При таких значениях графики представляют собой гиперболы (в билогарифмических координатах — почти прямые линии). Абсолютная линейность
pi
Рис. 10. Модель рассеяния: a — структура оператора w[t,j]; б — упорядочение изданий по S; в — расчет Pj = P(Sj) = Wjk [t, j]
имеет место при ц = 8 = / (на рис. 11 а приводятся графики для указанных соотношений 8, г|, /). Равенство 8 и | общему числу дескрипторов / соответствует высокой специализации изданий и жесткому описанию тематических направлений. Характерно, что угол наклона графика к оси ординат уменьшается с ростом / (на рис. 11 а кривым а, Ь, с соответствуют значения /=3,4,5), т. е. | чем точнее (большим числом дескрипторов) о описаны сообщения, тем меньше рассеяние. ^ 2. Кривые второй группы разделяются натри § подгруппы:
| а) | >8 и ц«/ —профиль публикации полностью покрывается профилем издания и час-^ тично профилем рубрики;
б) 8 >|, 8«/;
О
в) 8 = 1, 8 < /, | < / — общий случай рассея-и ния.
| В любом случае зависимости имеют вид, от-§ личный от строго гиперболического. Рассмот-| рение семейства полученных кривых показы-§ вает, что величина ядра распределения (отрез-| ка кривой, отклоняющегося от строго гиперболи-а ческой зависимости) определяется значениями параметров 8 и причем ядро тем больше, 2 чем заметнее расхождение 8 и При постоян-| ной разности (8-1) величинаядраувеличива-^ ется с возрастанием / (рис. 11 б, где 8 = 3, | = 5;
кривым а, b, с соответствуют значения l = 5, 7,10).
Графики на рис. 11 в построены при следующих значениях: l =10, 8 =5, i =3 (a), i = 4 (b), 1 = 5 (с). Вне зависимости от конкретных значений 8, r|, l при приближении 8 и/или i к l происходит уменьшение рассеяния, т. е. увеличивается угол наклона прямолинейного участка графика к оси абсцисс. Характерно, что даже при достаточно больших l и 8 (или |) основной вид кривой (угол наклона прямолинейного участка к оси абсцисс) определяется минимальной из величин 8, |.
Кривые на рис. 11г построены при l =10, 8 = 3, | = 3 (а); 8 = 5 (b), 8 = 7 (с). Таким образом, увеличение max<8, |> приводит лишь к весьма незначительному уменьшению рассеяния. В то время как величина ядра определяется разностью 8 и угол наклона в основном связан с min <8, |>.
Сравнение диаграмм (рис. 10 и 11) демонстрирует качественное сходство наблюдаемых и вычисляемых закономерностей. В работе [6] было показано, что при определенных предположениях (D >> T,J >> l) модель рассеяния демонстрирует высокую адекватность экспериментальным распределениям (по критерию Колмогорова).
№ 1(19)2009
«о о с
£
S: S:
Рис. 11. Влияние параметров модели на рассеяние
Еще раз о семантике экономических моделей
Возвращаясь к экономико-математическим моделям, легко обнаруживаем, что если товарам, потребностям, производствам, регионам, отраслям и прочим фигурантам экономической деятельности приписать семантические характеристики (хотя бы в простейшей форме профилей или множеств терминов/дескрипторов), то проблема определения элементов таких матриц, как А, приводится к проблеме точ-
ности подобного описания, поскольку элементы установятся функциями релевантности, например, товаров и потребностей Бу
Существуют реальные предпосылки для внесения семантики в постановку экономико-математических задач. В то время как в информационно-поисковых системах для описания продуктов и потребностей используются классификаторы информации и тезаурусы (рис. 2), в системах управления экономической деятельностью давно известны аналогичные структуры (табл. 1,2).
Таблица 1
Фрагмент Гармонизированной системы для товарной номенклатуры внешнеэкономической деятельности (Harmonized Commodity System)
Раздел Подраздел Содержание рубрики
2200.00 Напитки алкогольные и безалкогольные, уксус
2201.00 воды, включая минеральные, натуральные или искусственные, газированные, без добавления сахара или других подслащающих веществ, неароматизированные лед и снег
2202.00 воды, включая минеральные и газированные, с добавлением сахара или других подслащающих или ароматических веществ; безалкогольные напитки — прочие, за исключением фруктовых или овощных соков, классифицируемых в товарной позиции 20.09
2204.00 вина виноградные натуральные, включая крепленые; сусло виноградное, кроме классифицируемого в товарной позиции 20.09
113
№ 1(19)2009
Раздел Подраздел Содержание рубрики
2208.00 спирт этиловый неденатурированный крепостью менее 80%; крепкие спиртные напитки, ликеры и прочие алкогольные напитки; прочие смешанные спиртовые полуфабрикаты, используемые для изготовления напитков
2208.30 виски
2208.40 ром и тафия
2208.50 джин и можжевеловая настойка
2208.90 прочие
2209.00 уксус и его заменители, полученные из уксусной кислоты
Таблица 2
Фрагмент Общероссийского классификатора продукции (ОКП)
I
0 €
1 »
а € о
1!
«о «о о
4!
0 с
1 »
а
I £
а §
«о
о §
с
Раздел Подраздел Содержание рубрики
600 000 Резисторы постоянные
601 000 резисторы постоянные непроволочные
602 000 резисторы постоянные проволочные
606 000 резисторы постоянные проволочные и фольговые
610 000 Резисторы переменные и прочие
611 000 резисторы переменные непроволочные
615 000 резисторы переменные проволочные и фольговые
619 000 резисторы прочие
619100 резисторы полупроводниковые
619 900 резисторы разные
620 000 Конденсаторы
621 000 конденсаторы постоянной емкости керамические
623 000 конденсаторы постоянной емкости на основе стекла
628 000 конденсаторы прочие
628 100 конденсаторы постоянной емкости бумажные
628 200 конденсаторы постоянной емкости тонкопленочные с неорганическим диэлектриком
628 300 конденсаторы постоянной емкости с газообразным диэлектриком и вакуумные
628 600 конденсаторы переменной емкости
Итак, для того чтобы начать работу по обогащению и модернизации экономико-математических моделей с учетом семантики экономических объектов и процессов, какие-либо значимые препятствия отсутствуют.
СПИСОК ЛИТЕРАТУРЫ
1. Арнольд В. И. Речь на парламентских слушаниях в Государственной думе/Известия. 2002.6 дек.
2. Курант Р., Робине Г. Что такое математика: элементарный очерк идей и методов. М.-Л. ОГИЗ, 1947.
3. Надточий А. И. Мировые деньги и информация / Научно-методические проблемы наукоемких технологий образования // Межвузовекий еборник научно-методичееких трудов. 2001. № 6.
4. Попов И. И. Информационные ресурсы и системы: Реализация, моделирование, управление. М.: ТПК «Альянс», 1996.
5. Попов И. И., Партыка Т. Л. Математические методы М.: Форум-Инфра-М, 2005.
6. Попов И. И., Романенко А. Г. Моделирование информационных систем, теория и приложения: Итоги науки и техники. Т. 5. М.: ВИНИТИ, 1981.
114