УДК 681.3
ЧИСЛОВАЯ ПРОЕКЦИЯ СЕМАНТИЧЕСКОЙ ИНФОРМАЦИИ
Е.А. Ганцева, В.А. Каладзе, Г.В. Каладзе, А.С. Марар
Предложены информационная структура, предназначенная для размещения семантического текста, адекватная его смысловой структуре, и ее количественная проекция
Ключевые слова: семантическая информация, информационная структура, проецирование
В большинстве прикладных задач проводится подбор предпочтительных стратегий, что, в конечном счёте, приводит к необходимости привлечения математического аппарата и информационно-вычислительных технологий. Решения ищут обычно в форме математического описания: построения математических моделей, создания контуров управления, использования методов математической статистики, а также наполнения информационных баз и последующего манипулирования ими. Однако такой, на первый взгляд, широкий спектр возможностей далеко не всегда приводит к желаемым результатам - ибо все эти методы решения ограниченно применимы из-за скудности количественной информации, а порой и невозможности её получения.
Легко видеть, что области определения таких методов являются множествами числовых пространств. И эту числовую информацию о рассматриваемых процессах исследователи добывают прямыми или косвенными способами, часто не заботясь о точности и надежности из-за высокой её «стоимости», иногда в прямом смысле. Получение количественной информации, становясь самоцелью, нередко приводит к искажению постановок задач и вычурным методам решения.
Существует достаточно большое число задач, которые исследователи легко и понятно формулируют в рамках своей профессиональной лексики, т.е. в словесной (семантической) форме. Смысловая структура таких задач при квалифицированной постановке обычно легко
Ганцева Екатерина Александровна - ВГТУ, канд. техн. наук, доцент, e-mail: [email protected] Каладзе Владимир Александрович - МИКТ, д-р техн. наук, ст. науч. сотрудник, e-mail: [email protected] Каладзе Гай Владимирович - МИКТ, канд. техн. наук, ст. преподаватель, e-mail: [email protected] Марар Александр Степанович - Кабинет экологической медицины докторов Марар, врач высшей категории, e-mail: [email protected]
Необходимо создать такой общий метод, с помощью которого все истины могли бы быть сведены к некоторому виду вычислений.
Готфрид В.Лейбниц. Dissertatio de arte combinatoria
просматривается. Однако отсутствие адекватного аппарата не позволяло перейти к численной постановке подобных задач. Нами предложен один из возможных вариантов информационной структуры, отражающий смысловые особенности таких постановок. Для получения возможности применения математического аппарата в исследовании этих задач предложен также и способ проецирования этой информационной структуры на числовое пространство, т.е. построения структурированного числового множества с заданным отношением эквивалентности.
Описываемый в этой работе подход был уже применён для решения конкретной научной проблемы [1, 2]. Возможно, в других областях знания могут потребоваться модификации отдельных его положений, однако многое указывает на универсальность этого подхода. Важной особенностью является его замкнутость (решает задачу от постановки до анализа результатов). В нем присутствуют процедуры классификации простейших понятий - факторов (слов), формирования смысловых массивов (фраз) и текста - основного семантического множества с установленной смысловой структурой; а также определения значений числовых характеристик фраз и текста, их преобразования и получения сравнительных оценок. Кроме того, возможны получение оценок, устойчивости состояний и проведение исследований комбинаторных свойств исходной структуры [3]. Безусловно, это не означает прямолинейности подхода, когда произвольный текст будет представлен количественными характеристиками, на которых будет основано получение уточненного описания проблемы или путь улучшения её состояния.
Первая часть настоящей работы посвящена конструированию информационной структуры для размещения семантического текста, органично соответствующей его смысловой структуре. Далее работа ориентирована на синтез
проективных методик из семантического факторного пространства Ф в числовое факторное пространство Подчеркнём, что только в рамках данной постановки нас интересует именно проективный характер предлагаемых методик, но это вовсе не исключает их возможной изоморфности.
На первом этапе имеющаяся семантическая информация представляется в структурированном виде, где чётко определены элементарные понятия - слова (факторы), в терминах которых будет полностью записана вся имеющаяся информация. Здесь факторы, независимые переменные, располагаются в ранжированной последовательности
а1>а2 > ••• > а„ > ¿1 > —, (1)
где > знак предпочтения, в соответствии с их значимостью в рамках данной задачи. Установив минимальный уровень значимости, можно выделить главные компоненты Ф - первые п членов в (1). Выбор критерия значимости в этой процедуре иерархической классификации, несомненно, является основным и индивидуальным для каждой конкретной задачи.
Далее факторы, составляющие фразу, объединяются в смысловые массивы, внутренняя иерархическая структура которых определяется упорядоченной записью факторов в соответствии с отведённым им местом в (1). Так составленные смысловые массивы (1=1, ..., т) записываются в форме квадратной матрицы М', (¡=1, ..., п), главную диагональ которой полностью занимают главные факторы а, в соответствии с (1). Остальные, дополнительные факторы Ьь, входящие в смысловой массив, располагаются в матрице произвольно относительно главных факторов, после чего на незаполненные места помещаются нулевые элементы. Например,
М
2
% ¿2
М
3 _
Мп =
¿1
«1 ¿1 ...¿к 0 а2 0 .0
«1 ¿1 ¿3
0а20 а
¿2 0
3 -1
или иным образом.
0......0а„_,
Размерность смысловых массивов ограничивается максимальным количеством главных факторов. Таким образом, получаем набор из т квадратных матриц, образов фраз, каждая размерностью не более п, при этом п жёстко закрепляется условиями конкретной задачи. Так составленные матрицы наделяем понятием «клетки», по аналогии с терминологией жорда-новых форм [4], которой и далее будем придерживаться. Вместе с тем будем использовать
терминологию и принципы анализа в конечномерных пространствах [5].
Полученные клетки-матрицы объединяем, располагая следующую на продолжении главной диагонали предыдущей. Доопределим незаполненные места в составляемой форме нулевыми элементами для придания ей вида квадратной матрицы
^ \
/
М1'
0
М2'
V 0
М'
1 'т
Так сформированную матрицу основного текста, на главной диагонали которой располагаются клетки-матрицы, определяющие фразы, назовем псевдожордановой формой и обозначим через уО. Несомненное преимущество такой формы представления семантической информации в наглядности и в том, что в ней структурно закреплена обособленность фраз (смысловых массивов), из которых состоит весь текст. Причём каждая фраза представлена полным своим содержанием с выделением главных слов (компонент). Подобная структура - удобный способ представления и хранения информации в компактной форме, что позволяет использовать компьютерные технологии для смыслового преобразования текста. В некоторых приложениях требуется представить исходную задачу в виде последовательности независимых подзадач без искажения сути рассматриваемой задачи. Тогда, пользуясь несомненной сепарабельностью исходной структуры, уО можно считать дизъюнктным объединением выделенных ассоциаций фраз - глав, которые обозначим уО1, уО2, ..., уОр. Следовательно, не нарушая общности поставленной задачи, всё сказанное относительно основного текста будет относиться и к главам. Кроме того, такая форма хранения информации удобна для перегруппировки своих элементов и составления различных подформ в рамках локальных задач.
Несмотря на внешнюю линейность формы, выбранной нами для компактной записи семантического множества, уО-форма определяет связное размещение информации с учётом смысловой структуры конкретного текста на примере разреженных матриц. Использование в ней результатов классификации и ранжирования элементов записываемого текста позволяет учитывать нелинейную взаимосвязь обрабатываемой информации. Введение межклеточных кодов на основе непрерывнозначной логики
[6, 7] позволит количественно интерпретировать любую сложную структуру. В отдельных случаях можно будет для целей кодирования использовать и нечёткую логику [8], однако при этом могут возникнуть сложности с последующей интерпретацией кодов.
Полученную семантическую информационную структуру можно проецировать в количественную форму, т.е. выразить ее в числовых величинах, используя присвоение «веса» - некоторой количественной характеристики каждому ее элементу. Построение такой числовой проекции открывает возможности формализации задач, в классических ситуациях, не выходящих за рамки семантических постановок, и получения количественных результатов их решения, при использовании адекватного математического аппарата, в т.ч. операций из раздела алгебры матриц. В основу такого перехода к числовому аналогу положена позиционная классификация слов во фразе. Вначале формируется характеристическая функция фразы, отражающая влияние главных слов в n-позиционной структуре клетки-фразы. Затем полученная характеристическая функция интерпретируется в весовую функцию, значения которой оценивают «весомость» конкретного слова фразы в зависимости от ее состава, т.е. смысла.
Таким образом, мы получаем два числовых аналога yG-формы. Один - это диагональная матрица, элементами которой являются значения «весов» фраз текста. Другой - числовая матрица, по форме напоминающая жорданову, элементы клеток которой представляют собой числовые выражения позиционных характеристик слов в соответствующих фразах. Каждый из этих двух типов матриц имеет своё назначение, представляя собой числовую проекцию исходной информационной формы. Диагональная матрица, которую назовём числовым следом информационной структуры: trace yG = Т, является её канонической (простейшей в некотором смысле) формой [9]. В медицинских приложениях нашего метода [10] trace yG играет ведущую роль при выборе предпочтительных стратегий. Другой числовой аналог, по форме близкий к матрице Жордана, может быть легко приведён к канонической форме с сохранением эквивалентности по отношению исходной структуре. В [9] определены условия инвариантности и единственности нормальной (канонической) формы для любой матрицы как элемента множества с заданным отношением эквивалентности.
Числовые аналоги информационной формы являются её стационарной (пассивной) характеристикой, однако, используя их при сравнении её состояний для различных условий, можно получать динамические оценки. Вариационный подход, несомненно, является основой для поиска предпочтительных стратегий и стратегий выбора фазового смещения исходного состояния в сторону эталона или в иное устойчивое состояние. Здесь важной задачей является поиск и оценка устойчивых и резонансных состояний уС-формы, которые отслеживаются через их числовые аналоги, рассматриваемые как линейные операторы [11].
Следовательно, информационная форма в каждой фазе определяет состояние конкретной проблемы, а соответствующий числовой образ представляет полную количественную оценку этого состояния [12]. Переход к числовым матрицам удобен тем, что к ним можно применять весь арсенал методов и операций из алгебры матриц, в том числе получать численные оценки сравнения их с другими матрицами. Вместе с тем следует проводить линейные преобразования числовых следов, чтобы не нарушилась их адекватность исходной уС-форме.
Сопоставление матрицы с ориентированным графом даёт возможность значительно расширить возможности исследования информационной структуры, используя её комбинаторные свойства. Кроме того, такой подход позволяет наглядно оценить ее инварианты. Применение аппарата графов к блочным разложениям неотрицательных матриц можно найти в работе В. Птака и И. Седлачека [13]. Удобна также увязка рассматриваемых уС-форм с конечными марковскими цепями, что позволит решать вопросы поиска предпочтительных состояний в алгоритмической форме, поскольку цепь в упорядоченном множестве -это линейно упорядоченное подмножество (и, несомненно, область нашего рассмотрения), тогда по лемме Цорна существуют максимальные цепи. Здесь можно использовать известный факт, что граничная вершина графа эквивалентна существенному состоянию марковской цепи.
Обратимся теперь к кодированию элементов уС-формы как к предварительному этапу получения их числовых характеристик. Проведённая в пространстве факторов-слов процедура выделения главных компонент установила иерархические соответствия (1) для категорий главных слов, например, подлежащее и сказуемое. Код представляет собой шкалу с п позици-
ями, отражающую иерархию (1) главных компонент: \а1 \а2 | ... | Оп |
Л1 Л2 ... Лп где верхняя строка - позиционная структура фразы, нижняя - позиционный код фразы, а Л -логическая переменная.
Например, каждая позиция заполняется двоичными символами в зависимости от наличия или отсутствия данной категории слов во фразе. Далее, используя переход от двоичной системы счисления к десятичной, можно установить отношения соответствия, оценивающие целую часть «веса» фразы. Таким образом, каждая фраза приобретает числовую характеристику, определяющую её весомость среди других, которая оценивает «вклад» данной фразы в смысловое содержание текста.
Наличие дополнительных слов во фразе определяет мантиссу её «веса» по следующему, правилу: каждое такое слово оценивается в равной доле, как и любое другое дополнительное слово данной фразы, т.е. равным и=1/(п2-п) единицы веса. Присвоение такой величины оправдано тем, что влияние всех дополнительных слов во фразе не должно превышать влияния самого «лёгкого» главного слова, т.е. единицы «веса». Затем числовые характеристики дополнительных слов складываются, и результат записывается после запятой, разделяющей целую и дробную части «веса».
Тогда формирование фразы можно описать к количественной форме через суперпозиции составляющих её слов:
Ж = [к1а1+к2а2 + ...+кпап]1о + и5, (2) где 5 - количество дополнительных слов, [Ь]10 -десятичное выражение величины Ь.
Коэффициент к, может принимать значение "0" при отсутствии главного слова ¡-го типа во фразе и "1" при его наличии.
Применение предлагаемого подхода в исследовании патологического состояния пациента методами гомеопатической медицины [1, 2, 10] является иллюстрацией работы предлагаемых методик.
Симптом - информационная единица (слово), определяющая элементарные области патологического состояния (ПС). Опишем особенности количественной оценки клетки информационной матрицы, представляющей описание патологического признака (1111). 1111 -минимальное смысловое понятие (фраза), подлежащее количественной оценке, поскольку ПП - агрегат (динамическая форма синдрома) [1] является наименьшей составляющей ПС. В основу перехода от качественного представле-
ния информации к количественному положена позиционная классификация 1111 [14], которая описывает формирование состава агрегата.
Таким образом, главный симптом а, в зависимости от его положения в системе позиционной классификации - а1 (Этиология), а2 (Модальность), а3 (Характеристика), а4 (Локализация) [1], может быть представлен следующим образом.
1. Височная головная боль - локализация,
а4.
а1 Э
а2 М
а3 Х
Л
0 0 0 1
2. Жгучая головная боль - характер, а3.
| Э I м' I Х I Л I
0 0 10
3. Головная боль, ухудшающаяся при движении - модальность, а2.
| Э I М' I Х I Л I 0 10 0
4. Головная боль, ухудшающаяся при резкой перемене погоды - этиология, а1.
| Э I М I Х I Л I 10 0 0
В зависимости от присутствия главных симптомов в агрегате его код примет вид.
1. Височная головная боль а4 жгучего характера а3
| Э I М I Х I Л I 0 0 11
2. Височная головная боль а4, ухудшающаяся при движении а2.
| Э I М I Х I Л I 0 10 1
и т.п.
Далее формируется «вес» - количественное выражение агрегата, полученное переходом к десятичной записи двоичного представления его кода [2].
Опишем для примера несколько агрегатов, включающих в себя как главные, так и дополнительные симптомы. Заметим при этом, что для п=4 значение и в выражении (2) равно 0.08, а при п=3 значение и=1/6=0.167.
Пример 1: головная боль в затылке а4, давящего характера а3, ухудшающаяся при физической нагрузке а2, возникающая после приема алкоголя а1; боль в шее Ь1, сонливость Ь2. а1 а2 а3 а4
1 1 1
Ь Ь7
1
1 1 Вес агрегата - 15.16.
Пример 2: головная боль в лобной области а4, пульсирующего характера а3, ухудшающаяся при ветре а2; раздражительность b1, общая слабость b2, боль в глазу b3, покраснение глаза
b4.
I а1 | а2 | а3 \ а4 \ 0 111
I bi I b2 I b3 I b4 I 1111
Вес агрегата 7.67.
Основной вес агрегату придают главные симптомы. Необходимые заключения о свойствах используемых информационных и количественных структур рассмотрим на этом же примере [10].
Расположение IIII в информационной матрице определяется по аналогии с построением жордановой формы матрицы оператора. Для того, чтобы получить нормальную (каноническую) форму матрицы в классификации подобия матриц, описывающей патологическое состояние пациента, следовало бы по классической схеме воспользоваться полной системой инвариантов [9]. Но в нашей ситуации, переходя непосредственно к trace yG, принимаем её за нормальную форму yG, а проверки на эквивалентность не требуется, поскольку её построение происходило с учётом именно этого условия. Заметим, что в нечисловых полях строгое построение нормальной формы представляет собой сложную задачу и связано с рассмотрением изотропных векторов.
Представив известные по литературным источникам и клиническим примерам патологические состояния в предложенной информационной и количественной форме, можно получить формальные ПС. Путем сравнения формальных ПС с индивидуальными можно поставить пациенту диагноз и назначить лечение.
В N-мерном факторном пространстве симптомов рассмотрим различные описания подпространства патологического состояния PS (размерности S) пациента через систему патологических признаков S-, i=1,...,m (размерности j, но не выше 4), описываемых в yG клетками MJ. Однако для каждого конкретного пациента размерность реального подпространства PS может расти (в случае ухудшения состояния и, соответственно, увеличения числа появляющихся симптомов) или уменьшаться (в случае улучшения состояния). Размерность же множества MJ, даже при добавлении новых факторов, не может быть выше 4, как показано в [1]. При этом справедливы соотношения
М] ПМ]к = 0, М] = М/+1 при]=4. (3)
Таким образом, можно считать, что базис, в котором существует М], определяет корневое подпространство оператора уС. Корневым подпространством оператора уС в пространстве Ф является пространство минимальной размерности, в котором может быть описан ПП как элемент этого пространства. Сужение информационной матрицы, представляющей ПС на всём факторном пространстве симптомов Ф, на каждое корневое подпространство, описывает независимый ПП, в базисе этого подпространства представимого клеткой М], причём )гтМ] < 4. Это и позволяет вычленять отдельные фрагменты из общей картины ПС.
Исторически известное начало этого направления хронологически располагается в 1666 году, когда Г.В. Лейбниц в своей работе «Рассуждения о комбинаторном искусстве» подчеркнул необходимость создания аппарата количественной обработки смысловой информации. В прошлом веке многие, например, Тьюринг, Шеннон пытались подойти к решению этой величайшей проблемы, но они сумели в основном определить только теоретические основы проблемы. Одно из важнейших практических решений в этом направлении выдвинули авторы так называемых логических вычислительных устройств, создавшие компьютеры, у которых в «железе» были заложены логические приёмы обработки информации, вводимой не в символьной форме, как у нынешних ЭВМ, а в формализованном виде - это машины «Днепр», «Проминь», «МИР». Но развитие отечественной информационно-вычислительной техники было направлено по дороге, протоптанной американскими умельцами, создавшими высокоскоростные с огромной памятью арифмометры, которыми, собственно, и являются современные компьютеры. Эта тупиковая цивилизация вычислительных ящеров не имеет будущего, т.к. она может развиваться только количественно, лишь наращивая свои мощности, а качественной эволюции она не подлежит. Поэтому вновь стали появляться альтернативные проекты [15] машин, позволяющих проводить логические преобразования информации наряду с её количественной (числовой) обработкой. Их реализация позволит в полной мере на практике заявить о себе тем разделам математики, которые в настоящее время считаются сугубо теоретическими. Нынешний стиль программирования вряд ли от этого пострадает, т.к. современные макроязыки оперируют встроенными в них логическими блоками как
своими элементами. Только пока эти элементы воплощены в Soft, а не в Hard, что значительно снижает производительность обработки и беспрерывно требует повышения мощностей, но машины на примитивной основе (как, например, паровые), сколько их ни совершенствуй, имеют свой предел компетентности и, в конечном счёте, будут заменены более жизнеспособными.
Необходимые пояснения
Дизъюнктное объединение множеств - семейство попарно непересекающихся множеств.
Жорданова нормальная форма является универсальной канонической формой матрицы, в случае самосопряженности исходной матрицы она эквивалентна диагональной.
Импримитивность - неразложимость.
Изоморфный - взаимнооднозначный.
Изотропный - имеющий одинаковые свойства по всем направлениям.
Инвариант - отбражение j, рассматриваемой совокупности М, с известным отношением эквивалентности, в другую совокупность К, постоянное на классах эквивалентности М, т.е. для хМ отношение j(M) - инвариант х. Полная система инвариантов разделяет любые два неэквивалентных элемента рассматриваемого множества.
Позиционный код - код, основанный на принципе поместного значения его элементов.
Сепарабельность - отделимость.
Характеристическая функция - индикатор, такая функция, что fA(x)=1, если . е A; fA(x)=0, если . g A.
Литература
1. Каладзе В.А. Информационное представление патологического состояния в псевдожордановой форме / В.А.Каладзе, A.C. Марар // Высокие технологии в технике, медицине и образовании: Межвуз. сб. науч. тр. - Воронеж, 1998. - С. 161-168.
2. Каладзе В.А. Весовая характеристика патологического признака/ В.А. Каладзе, A.C. Марар // Информаци-
онные аспекты медицины: Межвуз. сб. науч. тр. - Воронеж, 2000. - С. 12-17.
3. Проблемы разработки интеллектуальных систем многальтернативного моделирования [Текст] / С.Л. Подвальный, Т.М. Леденева, А.Д. Поваляев, Е.С. Подвальный // Вестник Воронежского государственного технического университета. - 2013. - Т. 3.1. - № 9.- С. 19-23.
4. Белицкий Г.Р. Нормы матриц и их приложения / Г.Р. Белицкий, Ю.И Любич. - Киев: Наукова думка, 1984.157 с.
5. Шилов Г.Е. Конечномерные пространства. - М.: Наука, 1969.-324 с.
6. Голота Я.Я. Непрерывнозначная логика// РЖМ. -1983. - № 2. Реф. А46. Деп. ВИНИТИ № 5152-82 от 14.10.82.-74 с.
7. Голота Я.Я. Логика развивающихся не вполне определённых систем / Я.Я Голота, A.A. Денисов // РЖМ. - 1986. - № 8. Реф. 8А60 Деп. ВИНИТИ, №3002-13 от 20.04.86. - 74 с.
8. Заде Л. Понятие лингвистической переменной и его применение к принятию приближенных решений. - М: Мир, 1976. - 149 с.
9. Белицкий Г.Р. Нормальные формы, инварианты и локальные отображения. - Киев: Наукова думка, 1979. -354 с.
10. Каладзе В.А. Основы информационно-математического аппарата для субъективно- симптоматической диагностики / В.А. Каладзе, Г.В. Каладзе // Информационные технологии моделирования и управления: Межвуз. сб. науч. тр. - Воронеж, 1998. -С. 51-54.
11. Голубицкий М. Устойчивые отображения и их особенности / М. Голубицкий, В. Гийемин. -М: Мир, 1977. -290 с.
12. Подвальный С. Л. Многоальтернативность как основа обеспечения интеллектуальности систем управления [Текст] / С.Л. Подвальный, Т.М. Леденева // Вестник Воронежского государственного технического университета. - 2012. - Т. 8. - № 11. - С. 17-23.
13. Птак В. Об индексе импримитивности неотрицательных матриц / В. Птак, И. Седлачек // Чехосл. матем. журнал. -1958. -Т. 8, № 4. -С. 496-501.
14. Каладзе В.А. Кодирование патологических признаков и матриц патологического состояния / В.А. Каладзе, A.C. Марар // Современные проблемы информатизации: IV Междунар.электр.науч. конф. - Воронеж, 1999. -С. 145-146.
15. Podval'Ny S.L., Ledeneva T.M. Intelligent modeling systems: Design principles // Automation and Remote Control. 2013. 74 (7), pp. 1201-1210
16. Подвальный, С.Л. Многоальтернативные системы: обзор и классификация [Текст] / С.Л. Подвальный // Системы управления и информационные технологии. -2012. - Т. 48. - № 2. - С. 4-13.
Воронежский государственный технический университет Международный институт компьютерных технологий (г. Воронеж) Кабинет экологической медицины докторов Марар (г. Воронеж)
NUMERICAL PROJECTION OF THE SEMANTIC INFORMATION
E.A. Gantseva, V.A. Kaladze, G.V. Kaladze, A.S. Marar
Are offered information structure intended for accommodation of the semantic text, adequate to his semantic structure, and her quantitative projection
Key words: semantic information, information structure, projection