Научная статья на тему 'Мера информационной мощности тезауруса и её применение'

Мера информационной мощности тезауруса и её применение Текст научной статьи по специальности «Математика»

CC BY
196
41
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТЕЗАУРУС / ИНФОРМАЦИЯ / МОЩНОСТЬ ТЕЗАУ-РУСА / МЕРА ТЕЗАУРУСА / УРОВНИ ТЕЗАУРУСА / СИНТАКСИС / СЕМАНТИКА / INFORMATION / THESAURUS POWER / THESAURUS MEASURE / THESAURUS LEVELS / SYNTAX / SEMANTICS

Аннотация научной статьи по математике, автор научной работы — Парамонов И.Ю., Смагин В.А.

Предложен подход к количественной оценке тезауруса информационных систем. В качестве количествен-ной характеристики рекомендуется использовать меру инфор-мационной мощности тезауруса, которая определяется через энтропию и её моменты, функцию распределения энтропии. Под тезаурусом понимается совокупность возможных действий технической или эргатической системы для достижения по-ставленной цели. Структура тезауруса включает несколько уровней. Первому уровню, синтаксическому, последовательно может подчиняться несколько семантических уровней. Члены синтаксических уровней сопоставляются с «существительны-ми», а члены семантических уровней с «прилагательными». Предложен количественный показатель оценивания тезауру-са случайная величина его информационная мощность. Она может оцениваться моментами энтропии. На основе моментов может быть построена и функция распределения величины мощ-ности тезауруса. Приведены простейшие примеры прикладного информационного характера.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Парамонов И.Ю., Смагин В.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Measure of Information Power of the Thesaurus and Its Application

An approach to the quantitative assessment of the the-saurus of information systems is proposed. As a quantitative mea-sure of the characteristics recommended to use in-formational power thesaurus, which determined by entropy and its moments, entropy distribution function. By thesaurus understood as a set of possible actions or ergatic technical system to achieve a certain goal. Thesau-rus structure includes several levels. The first level, called syntax, the sequence may submit multiple semantic levels. Members of the syn-tactic levels compared with the “nouns”, and members of the seman-tic level with “adjectives”. A quantitative measure of estimating a thesaurus is a random variable its information capacity. It can be evaluated moments entropy. On basis of moments can be constructed and the power function of the distribution of the thesaurus. Simple examples of applied informational character presented.

Текст научной работы на тему «Мера информационной мощности тезауруса и её применение»

Мера информационной мощности тезауруса и её применение

Парамонов И. Ю., Смагин В. А. ВКА им. А. Ф. Можайского Санкт-Петербург, Россия va_smagin@mail.ru, ivan_ paramonov@mail.ru

Аннотация. Предложен подход к количественной оценке тезауруса информационных систем. В качестве количественной характеристики рекомендуется использовать меру информационной мощности тезауруса, которая определяется через энтропию и её моменты, функцию распределения энтропии. Под тезаурусом понимается совокупность возможных действий технической или эргатической системы для достижения поставленной цели. Структура тезауруса включает несколько уровней. Первому уровню, синтаксическому, последовательно может подчиняться несколько семантических уровней. Члены синтаксических уровней сопоставляются с «существительными», а члены семантических уровней - с «прилагательными». Предложен количественный показатель оценивания тезауруса - случайная величина - его информационная мощность. Она может оцениваться моментами энтропии. На основе моментов может быть построена и функция распределения величины мощности тезауруса. Приведены простейшие примеры прикладного информационного характера.

Ключевые слова: тезаурус, информация, мощность тезауруса, мера тезауруса, уровни тезауруса, синтаксис, семантика.

Введение

Поступательное прогрессивное развитие техники связано с непрерывным возрастанием её сложности. «XVIII столетие - век часов, XIX столетие - век паровой машины, XX столетие - век управляющих, или следящих, систем». Наш XXI век можно назвать веком информационных систем. Благодаря развитию статистической механики и теории связи появилось понятие энтропии, с которым связано понятие «количество информации» [1]. В рамках статистической теории связи первично понятие энтропии [2, 3].

Прогресс развития техники связан с процессом становления и совершенствования цивилизации. К. Марицас отмечает: «Цивилизация - выживание слабого. Являясь слабым и беззащитным живым существом на планете, человек в то же время обладает самым большим мозгом. Многие животные и растения также биологически уязвимы. 99 % живых существ в свое время исчезли. А человек создал цивилизацию и при этом уцелел» [4].

Человек для общения использует знаковую систему, а всё человечество - множество языков. К ним восходит понятие тезауруса, по-гречески - сокровище [4-6]. В [8] под тезаурусом предлагается понимать информацию более нижнего уровня, которая необходима для рецепции и/или генерации информации на более высоком уровне. Наиболее краткое определение: «Тезаурус - словарь, стремящийся охватить лексику данного языка» [9]. Тезаурус имеет синонимы: свод, собрание, словарь, уложение. Вопрос. Можно ли назвать систему команд вычислительной машины её тезаурусом?

В рамках информатики и искусственного интеллекта - почему бы нет. Поэтому введём расширенное определение. Информационный тезаурус - словарь совокупности действий и связей между ними (семантики) информационно-управляющей технической или эргатической системы. Примеры подобного расширения трактовки данного термина имеются в технической литературе. Это обусловлено необходимостью выполнять научные исследования при наличии множества неопределённостей.

Цель предлагаемой статьи - доказать целесообразность использования понятия тезауруса в научно-технических исследованиях. Для этого вводится критерий и показатель мощности информационного тезауруса. Приводятся примеры расчётов.

Простой тезаурус и его мера

Введём понятие мощности тезауруса. Критерий мощности тезауруса определяется его информационным потенциалом. Показателем может служить полная энтропия множества элементов. Пусть множество элементов тезауруса состоит из п элементов. Каждый элемент отождествляется только с одним существительным и не имеет ни одного прилагательного, как это рассматривается в [10]. Пусть вероятность выбора любого элемента из совокупности одинакова

и равна р = — . В этом случае средняя величина энтропии

п

на один элемент и для всех элементов будет равна

H\-)-1 ,„ (I 1-(l -11 ln (l - 1 |;

n ) n ( n ) ( n ) ( n,

M(n) = nH\ -

(1)

Величина энтропии будет зависеть не только от количества элементов, но и от основания логарифма. Для определённости будем использовать натуральный алгоритм, единицей измерения при этом будет нит.

Для аппроксимации величины мощности каким-либо распределением вероятности определим также второй начальный момент, среднеквадратическое отклонение энтропии и величину коэффициента вариации тезауруса:

,, 11=-1 г,„г1 ц2 г—-1V,„г—-1 "

CT(n) =

-1-1 н i -

(2)

1Ше11ееШа1 Теекпо^1е$ оп ТгатроМ. 2016. N0 4

П(и) = а(и)/ М(и).

(3)

На рис. 1 приведены графики функций (1)-(3). По виду кривых следует, что параметры распределения случайной величины мощности увеличиваются с ростом количества элементов тезауруса и. Предельная величина коэффициента вариации монотонно стремится к п(да) = 1. Для аппроксимации распределения случайной величины мощности тезауруса проще всего воспользоваться при п< 1 нормальным, а при 1 - экспоненциальным законами распределения. Рассмотрим пример.

Р1(х) Р2(х) 0.5 Ь

0 20 х

Рис. 3. Функции распределения

0 20 40 60 80 100 п

Рис. 1. Графики функций М (и), а(и), п(и)

Пример 1. Пусть имеются два тезауруса, один с и = 10, второй - с и = 50. В соответствии с рис. 1 параметры распределений будут равны: а = М(10) = 3,251; а = а(10) = 2,084; Ь = М(50) = 4,902; а = а(50) = 3,853. Оба коэффициента вариации меньше единицы. Требуется объединить оба тезауруса в один для двух значений с коэффициентом корреляции г = 1 и г = 0,3. Для выполнения операции суммирования воспользуемся формулой для двумерного распределения [11]:

р( х, у) =-1 ,-ехрх

2пахауV1-г

(

1

(

2^/l—

(х - а)

- 2г

(х - а)(у - Ь) , (у - Ь)

а х а,

у у

которая для суммирования приводится к формуле

( х-а-Ь)2

Р( х) =

1

2(а2 +2гаха у +а2 )

2пах + 2га х а у

В нашем случае для двух разных значений параметров и коэффициента корреляции представим их как р1(х) и р2(х). На рис. 2, 3 представлены графики функций плотности вероятностей и функций распределения суммарной мощности тезаурусов при указанных значениях параметров.

Рассмотренный в данном разделе тезаурус назовём простым синтаксическим тезаурусом. Следует отметить, что такой тезаурус может быть расширен по горизонтали. Это можно объяснить тем, что его основные члены могут быть дополнены производными членами. Но и такой тезаурус остаётся также синтаксическим, хотя и становится более сложным, потому что дополнительные члены тезауруса по-прежнему являются, по Карнапу [12], не «прилагательными», а только «существительными».

Сложный тезаурус и его мера

Уточним определение тезауруса для сложной системы. Информационный тезаурус - словарь возможных действий и связанных с ними семантических свойств этих действий для определения и выбора поведения управляющей технической или эргатической системы. Структура тезауруса иерархическая. Она включает в себя один синтаксический уровень и несколько семантических уровней, подчиняющихся синтаксическому. На рис. 4 условно изображена иерархическая структура сложного тезауруса.

Рис. 2. Функции плотности

Рис. 4. Иерархическая структура сложного тезауруса

Согласно [12], синтаксический уровень отражает «существительные» члены, а все семантические уровни - «прилагательные» свойства определённого уровня иерархии тезауруса.

Формально условная траектория движения по пути на графе может быть представлена таким последовательным выбором шагов: Р(И), Р(И1 /И), Р(И' /И1 /,И),...Р(Ик/,...,/И1 /И),

где Р(И) - вероятность выбора определённого «подлежащего» члена тезауруса, Р(И,,/И) - условная вероятность выбора «прилагательного» ,-го уровня тезауруса при условии, что «подлежащий» член синтаксического уровня был выбран. Затем последовательно определяют условные вероятности выбора для «прилагательных» семантических свойств И), •••, Ик.

Определённая траектория случайного процесса следования означает выбор определяющего поведения управляющей системы. Показатель этого выбора - вероятность или некоторая другая мера неопределённости выбора.

Пример 2. Синтаксический уровень тезауруса содержит четыре элемента, выбор каждого из них равновероятен с вероятностью 0,25. Каждому элементу этого уровня подчиняются пять элементов первого семантического уровня, выбор каждого из них также равновероятен с вероятностью 0,20. Тогда вероятность выбора любой одной полной траектории составляет Р(И)Р(Hi / И) = 0,05 . Величина средней полной энтропийной мощности данного двухуровнего тезауруса составляет И2 = 4(И0 + 5И1) = 12,248 нит. Здесь И0, И1 - величина энтропий одного элемента синтаксического и одного - семантического уровней.

Если тезаурус имеет два семантических уровня, причём второй уровень содержит пять равновероятных для выбора элементов, тогда величина средней полной энтропийной мощности тезауруса составляет И 3 = 4( И + 5( И + 5^)) = = 62,248 нит. Можно записать формулу для определения средней полной энтропийной мощности четырёхуровнего тезауруса с произвольными значениями величин ветвления на его уровнях:

И 4(и, т, к) = и( И0 + т( И1 + к (И2 + уИ3))) нит. (4)

Формула (4) легко обобщается для произвольного числа уровней тезауруса. При этом с увеличением числа уровней и ветвлений в них энтропийная мощность тезауруса возрастет лавинообразно.

Для нахождения нормальной функции распределения величины мощности тезауруса следует найти и среднеква-дратическое отклонение величины мощности. Полагая, что

суммарная дисперсия тезауруса подчиняется принципу аддитивности слагаемых дисперсий, найдём выражение для дисперсии, соответствующей выражению (4):

Б4(и, т, к) = и(Б0 + т(Б1 + к(Б2 + ''Б3))) нит,

где Б - дисперсия, а ее индекс отражает уровень тезауруса.

Пример 3. Для двухуровнего тезауруса средняя величина мощности равна И2 = 4(И0 + 5И^ = 12,248 нит, дисперсия мощности - Б2 = 4(^0 + 5^1) = 13,004 нит 2, среднеквадра-тическое отклонение 3,606 нит, коэффициент вариации 0,294. Плотность вероятности величины мощности тезауруса принимает вид

Р( х) =

1

л/2л 3,606

_ ( х-12,248)2 2(3,606)2

Пример 4. Имеются две противоборствующие стороны: К и С. По результатам разведки К и опроса четырёх экспертов составлена таблица, отражающая вероятность выбора одного из четырёх средств противодействия.

В таблице указаны вероятности выбора средств (левые столбцы) и соответствующие им значения энтропии (правые столбцы). По минимуму энтропии выбирают эксперта и средство противодействия. Наименьшей энтропией обладает первый эксперт и средство № 4.

Заключение

Под тезаурусом в статье понимается совокупность возможных действий технической или эргатической системы для достижения определённой поставленной цели. Структура тезауруса включает несколько уровней. Первому уровню, названному синтактическим, последовательно может подчиняться несколько семантических уровней. Согласно [12], члены синтаксического уровня сопоставляются с «существительными», а члены семантических уровней - с «прилагательными».

Простым критерием тезауруса может быть количество его членов. Однако в прикладных информационных исследованиях он малопригоден. Предлагается другой количественный показатель оценивания тезауруса - случайная величина - информационная мощность тезауруса. Она может оцениваться моментами энтропии. На основе моментов может быть построена и функция распределения величины мощности тезауруса. В прикладных информационных научных исследованиях могут использоваться методы теории вероятностей. Приведены простейшие примеры прикладного информационного характера.

Таблица

Вероятности выбора средств противодействия

Средства противодействия Эксперты

1 2 3 4

Р И Р И Р И Р И

№ 1 0,10 0,325 0,25 0,562 0,18 0,471 0,15 0,423

№ 2 0,20 0,500 0,15 0,423 0,32 0,627 0,25 0,562

№ 3 0,60 0,673 0,55 0,688 0,47 0,691 0,45 0,688

№ 4 0,10 0,325 0,05 0,199 0,03 0,135 0,15 0,423

Литература

1. Винер Н. Кибернетика или управление и связь в животном и машине / Н. Винер; пер. с англ. - М.: Сов. радио, 1958. - 216 с.

2. Тарасенко Ф. П. Введение в курс теории информации / Ф. П. Тарасенко. - Томск: Изд-во Томск. ун-та, 1963. - 240 с.

3. Темников Ф. Е. Теоретические основы информационной техники / Ф. Е. Темников, В. А. Афонин, В. И. Дмитриев. - М.: Энергия, 1971. - 424 с.

4. Maritsas C. D. Civilization and natural selection / C. D. Ma-ritsas. - Arsenidis: Athens, 2003. - 332 с.

5. Пустовойтов В. П. Тезаурус / Пустовойтов В. П., Пу-стовойтов В. В. URL: ikt.vomovsks.ru/sites/default/files/ 1Тезаурус_0Лосх (дата обращения 10.11.2015).

6. Луков В. А. Тезаурусный подход: исходные положения / В. А. Луков, Вл. А. Луков // Информ. гум. портал «Знание. Понимание. Умение». - 2008. - № 9 - Комплексные ис-

следования: тезаурусный анализ мировой культуры. URL: http://www.zpu-journal.rU/e-zpu/2008/9/Lukovs_Thesaurus_ Approach (дата обращения 9.12.2015).

7. Шрейдер Ю. А. Об одной модели семантической теории информации / Ю. А. Шрейдер // Проблемы кибернетики / под ред. А. А. Ляпунова. - М.: Наука, 1965. - Вып. 3. -С. 233-240.

8. Чернавский Д. С. Синергетика и информация / Д. С. Чер-навский. - М.: Знание, 1990. - 48 с.

9. Советский энциклопедический словарь. - М.: Сов. Энциклопедия, 1982. - 1600 с.

10. Moles A. The orie de rinformation et perception esthetique / A. Moles. - Paris: Flammarion, editeur, 1958. - 352 p.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

11. Гнеденко Б. В. Курс теории вероятностей / Б. В. Гне-денко. - М.: ГИФМЛ, 1951. - 408 с.

12. Carnap R. An Outline of a Theory of Semantic Informat ion / R. Carnap, Y. Bar-Hillel // MIT Res. Lab. Electron., Tech. Rept. - 1952. - № 247. - P. 147-157.

Measure of Information Power of the Thesaurus and Its Application

Paramonov I. J., Smagin V.A. A. F. Mozhaysky Military Space Academy, St. Petersburg, Russia va_smagin@mail.ru, ivan_ paramonov@mail.ru

Abstract. An approach to the quantitative assessment of the thesaurus of information systems is proposed. As a quantitative measure of the characteristics recommended to use in-formational power thesaurus, which determined by entropy and its moments, entropy distribution function. By thesaurus understood as a set of possible actions or ergatic technical system to achieve a certain goal. Thesaurus structure includes several levels. The first level, called syntax, the sequence may submit multiple semantic levels. Members of the syntactic levels compared with the "nouns", and members of the semantic level - with "adjectives". A quantitative measure of estimating a thesaurus is a random variable - its information capacity. It can be evaluated moments entropy. On basis of moments can be constructed and the power function of the distribution of the thesaurus. Simple examples of applied informational character presented.

Keywords: information, thesaurus power, thesaurus measure, thesaurus levels, syntax, semantics.

References

1. Wiener N. Kibernetika ili upravlenie i svjaz'v zhivotnom i mashine [Cybernetics or Control and Communication in the Animal and the Machine], Moscow, Sovetskoe radio, 1958, 216 p.

2. Tarasenko F. P. Vvedenie v kurs teorii informacii [Introduction to Information Theory], Tomsk, Izdatelstvo Tomskogo universiteta, 1963, 240 p.

3. Temnikov F. E., Afonin V. A., Dmitriev V. I. Teoreticheskie osnovy informacionnoj tehniki [Theoretical Foundations of Information Technology], Moscow, Jenergija, 1971, 424 p.

4. Maritsas C. D. Civilization and natural selection, Arsenidis, Athens, 2003, 332 p.

5. Pustovojtov V. P., Pustovojtov V. V. Tezaurus [Tezaurus]. Available at: ikt.vomovsks.ru/sites/default/files/1Tezaurus_0. docx (accessed 10.11.2015).

6. Lukov V. A., Lukov Vl. A. Thesaurus Approach Assumptions [Tezaurusnyj podhod: ishodnye polozhenija], Znanie. Poni-manie. Umenie [By knowing-set. Understanding. Skill], 2008, no. 9. Available at: http://www.zpu-journal.ru/e-zpu/2008/9/Lu-kovs_Thesaurus_Approach (accessed 9.12.2015).

7. Shrejder Ju.A. On a Model of Semantic Information Theory [Ob odnoj modeli semanticheskoj teorii informacii], Prob-lemy kibernetiki [Cybernetics problems] /ed. A.A. Ljapunova, Moscow, Nauka, 1965, Is. 3, pp. 233-240.

8. Chernavskij D. S. Sinergetika i informacija [Synergetics and Information], Moscow, Znanie, 1990, 48 p.

9. Sovetskijj enciklopedicheskij slovar' [Soviet Encyclopedic Dictionary], Moscow, Sovetskaya entsiklopedija, 1982, 1600 p.

10. Moles A. Theorie de l'information et perception esthetique, Paris, Flammarion, e'diteur, 1958, 352 p.

11. Gnedenko B. V. Kurs teorii verojatnostej [The Course in Probability Theory], Moscow, GIFML, 1951, 408 p.

12. Carnap R., Bar-Hillel Y. An Outline of a Theory of Semantic Information, MIT Res. Lab. Electron, Tech. Rept., 1952, no. 247; Brit. J. PhilSci. 1953, 4, pp. 147-157.

i Надоели баннеры? Вы всегда можете отключить рекламу.