Научная статья на тему 'Использование тезаурусов при построении мультилингвистических моделей распределенных информационных систем'

Использование тезаурусов при построении мультилингвистических моделей распределенных информационных систем Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
236
35
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МУЛЬТИЛИНГВИСТИЧЕСКАЯ МОДЕЛЬ / ТЕЗАУРУС / ЧАСТОТНЫЙ СЛОВАРЬ / MULTILINGUAL MODEL / FREQUENCY DICTIONARY / THESAURUS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Карасева Маргарита Владимировна, Селиванова Марина Анатольевна, Зеленков Павел Викторович, Шукшина Екатерина Евгеньевна

Предложена модификация существующих моделей распределенных информационных систем, основанных на тезаурусах. Модификация направлена на решение проблемы мультилингвистичности представления информации в современных системах. Показаны две модели: первая основана на мультилингвистическом тезаурусе, вторая на частотном мультилингвистическом тезаурусе.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Карасева Маргарита Владимировна, Селиванова Марина Анатольевна, Зеленков Павел Викторович, Шукшина Екатерина Евгеньевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The use of thesauruses for building multilingual models of the distributed informational systems

The paper offers the modification of the existed models of the distributed informational systems based on thesauruses. The modification is aimed at problems of multilingual informational presentation in modern systems solutions. Two models are shown: the first one is based on multilingual thesauruses, the second one is based on frequency multilingual thesauruses.

Текст научной работы на тему «Использование тезаурусов при построении мультилингвистических моделей распределенных информационных систем»

пуклая поверхность мениска - эллипсоид вращения). Все поверхности - конического сечения, удобные в изготовлении и контроле.

Рис. 6. Графики продольной сферической аберрации, астигматизма и дисторсии

В заключение отметим, что наибольшее распространение в мире (особенно США) получили системы Ричи-Кретьена с корректором Гаскойна, напоминающим линзу системы Шмидта [2], основным недостатком которого является хроматизм, вносимый корректором Гаскойна. На снимках, полученных спутником веоБуе-1 и опубликованных на различных интернет-ресурсах, также присутствует заметный хроматизм. Предложенная нами оптическая система имеет пренебрежимо малый хроматизм и плоское поле размером 1,4°. В качестве светоприемной аппаратуры можно использовать ПЗС линейки различной длины, при этом важно, чтобы размер пикселя соответствовал размеру кружка рассеяния, создаваемого оптической системой.

Библиографический список

1. Максутов, Д. Д. Астрономическая оптика / Д. Д. Максутов. Л. : Наука. Ленингр. отд-ние, 1979.

2. Попов, Г. М. Современная астрономическая оптика / Г. М. Попов. М. : Наука, 1988.

S. A. Veselkov

OPTICAL SYSTEM OF HIGH RESOLUTION FOR EARTH-IMAGING FROM SPACE

The space-photographyc targets of the Earth with ultra-high resolution optical system are reviewed. The data received by detailed pre-calculation of the telescope in especial optimizing program are given.

Keywords: satellite, resolution, telescope, spectral range, orbit.

© Веселков С. А., 2009

УДК 681.5

М. В. Карасева, М. А. Селиванова, П. В. Зеленков, Е. Е. Шукшина

ИСПОЛЬЗОВАНИЕ ТЕЗАУРУСОВ ПРИ ПОСТРОЕНИИ МУЛЬТИЛИНГВИСТИЧЕСКИХ МОДЕЛЕЙ РАСПРЕДЕЛЕННЫХ ИНФОРМАЦИОННЫХ СИСТЕМ

Предложена модификация существующих моделей распределенных информационных систем, основанных на тезаурусах. Модификация направлена на решение проблемы мультилингвистичности представления информации в современных системах. Показаны две модели: первая основана на мультилингвистическом тезаурусе, вторая - на частотном мультилингвистическом тезаурусе.

Ключевые слова: мультилингвистическая модель, тезаурус, частотный словарь.

В настоящее время разработано множество моделей для представления распределенных систем вычисления и (или) обработки информации. К ним, в частности, относятся информационные системы, корпоративные информационные системы и интенсивно развивающиеся системы поддержки принятия решения [1]. Однако большинство моделей распределенных систем строятся на основе одноязычного представления информации или учитывают многоязычие неявно [2].

Одним из перспективных направлений при разработке новых моделей является применение словарей, или тезаурусов. При этом необходимо отметить, что в современных системах подобные словари очень редко встречаются представленными в мультилингвистической реализации.

Авторский подход, отраженный в работах [2; 3], направлен в первую очередь на решение проблемы муль-тилингвистического представления информации в инфор-

мационно-управляющих системах, поскольку в современных условиях даже небольшие корпоративные информационные системы, как правило, работают в мультилинг-вистическом режиме.

Рассмотрим следующее определение мультилингви-стического тезауруса Т слов Т сформированное на базе положений, представленных в работе [4], где I - языковое множество, а ] - терм в языковом множестве, отвечающие следующим условиям:

1) имеется непустое подмножество Т0 с Т, называемое множеством дескрипторов;

2) имеется симметричное, транзитивное рефлексивное отношение К с Т х Т, такое что

*11 * ^2 Л *11Щ2 ^ (/11 6 Т0) V (/ц 6 T0),

*11 6 Т0 ^ ($ *,■ 6 Т0)(/,К/,1).

При этом отношение К называется синонимическим отношением, а слова / , / , отвечающие этому отношению,

- синонимическими дескрипторами;

3) имеется транзитивное и несимметричное отношение К с Т0 х Т0, называемое обобщающим отношением.

В случае если два дескриптора /.1, /2 удовлетворяют отношению /,1К/.2, то полагается, что дескриптор / более общий, чем дескриптор / .

Элементы множества Т\Т называются множеством аскрипторов.

Таким образом, информационную систему с применением тезауруса можно представить в виде четверки (Т, Б, М, 5 ), где Т - мультилингвистический тезаурус с дескрипторным множеством Т0; Б. - коллекция разноязычных документов; М. - множество разноязычных вопросов; 5:®2Б - отображение, сопоставляющее каждому независимому от языковой принадлежности вопросу множество разноязычных документов.

Пусть описание любого документа с1. 6 Б. может быть представлено в виде

М) = { *.l, Ъ ■, У

и удовлетворяет условию: никакие два дескриптора не встречаются в одном / (й), если они удовлетворяют отношению К.

Можно также считать, что каждый вопрос т. 6 М представляется в форме, аналогичной описанию разноязычных документов.

Множество описаний вопросов и документов частично упорядочено отношением включения (<) следующим образом:

6 Б.,

11 ’ 12 15

/ 1 (Дл) < /. (¿.2)» (V/; 6 / 1 Ц)) х х(э/"6 /. у, 2))(/’к/’) V (/; - /;).

т. е. каждый дескриптор из ¡.(¿п) представляет собой обобщение дескриптора из //¿д) или идентичен дескриптору из

Отношение < позволяет сформулировать ответ Q на вопрос т. 6 М. в виде

Q = 5(т) = К-: л,6 ц л т < ^ (<.)}.

Пусть Б ..., Бп - локальные информационные системы, где Б = (Т, Б.., М.,, 5.), ] = 1, ..., п. Объединим системы

З1, ., Бп в одну систему Б, которую в дальнейшем будем называть распределенной информационной системой, базирующейся на глобальном тезаурусе Т = и Т..

Итак, пусть у нас имеется распределенная информационная система Б = (Т, Б,М, 5) с синонимическим отношением К и обобщающим отношением К. Тогда последовательность информационных систем можно определить следующим образом:

Б.= (Т., Б, м., 5.) где Т1 6 Т,Б. 6 Б1, М. 6 М1; 5. - сужение 5 на М ; "} = 1,п . Кроме того, отношения К. = К п (Т. х Т]) и К. = К п (Т0. х Т,,..), где Т0. - множество дескрипторов системы Б.

.

Необходимо отметить, что множества Т и Б. могут пересекаться.

Также покажем возможность существования подсистемы, которая позволяет формализовать отношение предпочтения одной системы перед другой.

Пусть Б1 = (Т1, Б11, М11, 51) и Б2 = (Т2, Б12, М12, 52) -информационные системы. Система Б1 является подсистемой Б2 (Б1 с Б2), если:

1) (Т с Т2) л (К1 =К2 п (Т01 х Т01)) л (К =К, п (Т х Т1));

2) Бп с Б12;

3) (Ми сМ12)л<1= <2(Мц хМц));

4) 51(т/) = 52 (т..) п Б11, т1 6 МЛ.

Очевидно, что локальные информационные системы являются подсистемам распределенной информационной системы.

Ввиду того что множество разноязычных документов, например, в распределенной системе поддержки принятия решения является объединением множеств разноязычных документов локальных информационных систем, ответ на вопрос к распределенной системе можно выразить как результат некоторых операций над ответами от локальных систем.

Пусть т1 ={т1} - вопрос, содержащий один дескриптор, а 5(т1) - ответ на вопрос т. . В подсистеме Б. ответ на локальный вопрос т! = {т(} согласно описывается следующим образом:

5.(т) = 6 Б.лт < а1,(4)}

В свою очередь в распределенной системе Б глобальный ответ на вопрос т! = {т,}_ будет объединением локальных ответов 5(т1) = и5 (т1).

Ответ на произвольный вопрос т! = {т(1,..., тк } для любого языкового множества в распределенной системе выражается формулой

___ к ______ ______

5(т) = 15(т и), т п = {т а }.

1=1

В [4] показана справедливость этой формулы и ее согласованность с определением последовательности информационных систем в рамках произвольного языкового множества , однако необходимо отметить, что данная формула может быть модифицирована и для случая, когда имеется произвольное количество языковых множеств.

Итак, распределенная информационная система обладает свойством включения, если множество вопросов частично упорядочено отношением и выполняется условие

{тц, т12} с М( л тц < т12 ^ 5(тц) з 5(т12) .

Свойство включения позволяет формулировать цепь ответов на цепь вопросов, уточняя ответы более специализированными вопросами.

При реализации систем поддержки принятия решений находит место и более интересная модель распределенной системы, основанная на частотных мультилинг-вистических тезаурусах.

Для работы с обобщенной распределенной мульти-лингвистической информационной системой, а также для работы с мультилингвистическими системами поддержки принятия решений, вводятся веса, которые будут описывать информационное содержание терма в каждом языковом множестве [4].

Покажем работу предлагаемой модели для произвольного языка . (количество языков в обработке зависит от имеющегося мультилингвитического словаря и представленного в нем языкового многообразия) [5]. Вес м/. соответствует объему информации, относящейся к дискрип-

тору /., т. е. / (¿) = {<*,, м >, <*, м >, ..., </,, м. >} и

. . . 1. 1. 2. 2. к. к.

выполняются условия:

1) /Л * ^ л ^ ("М. 6 [051])(/у М ) 6 *1 (Д. ) ^"^„1 6

^ОДШ^ М.) 6 /] (а1);

2) Цм!= 1.

= 1

Описание мультилингвистических документов также удовлетворяет свойству включения. Дадим определение подобия вопросов и описаний документов.

Пусть /($,.), /(Д ) - описания мультилигвистических документов. представленных в .-м языковом множестве:

(Лу ) = {< *11. ,М11. >,

<Чц ,wl2а■ > ,-= <Ц.,м1к1. >}

*(<^ц ) = {< *21_/ ,М21/ >, < *22/ ,

М22,- > < *2к2. ,М2к2. >}-

Описание .(¿1) подобно описанию *(¿0) с точностью р(0 < р < 1), если

1. Ц.- ) < ^ (^2. ) л "М1 у Р < X ^,

<*1 у ,М1 у >6*() „[*2„ 61] (*1„,)]

где I. (*19) = {*2,. : *1 л 1 < „ < к2} при 1 <. < к1 . Если

/.(^.) и *.(¿2.) удовлетворяют этому условию, то пишется ¿М.)< t(d2).

г V с .Л 2г

Отношения подобия, доказательство которых очевидно, также можно представить в мультилингвистическом виде:

- если (*. (¿11) <Р1 (¿2.)) л (Р1 > Р 2), то

t/(¿1.) <Р21/ (й?2.);

- если (*. (¿11) <Р1 (¿2.)) л (*. (¿2. ) <Р2 (¿3. )) , то

(dll■) <Р t/■ ^ ), (Р < Р1Р2).

Представляет интерес величина, характеризующая коэффициент подобия, или меру корреляции пар мультилингвистических векторов, удовлетворяющих отношению <.

Для векторов /.(¿10), ¡.^ ), таких что < t/.(d2/), мера

корреляции будет

^(*! (¿и ),(¿2. )) =

= X т1п(м11], X ^),

«Чц М )6t/■ (¿ц. ) „Й*61^ )]

где 1 (*и] ) = К. '■t1i/Kt2s/ л 1 < 5 < к2 } при 1 < . < к1 .

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Мера т фактически оценивает пересекающуюся информацию, заключенную в описании документов

Таким образом, распределенная мультилингвистичес-кая информационная система на тезаурусе с весами представляется четверкой (Т, Б,М , 5), где Т- тезаурус с деск-

] ] б х[0 1]

риптовым множеством Т0 с Т ; 5М. х[0,1] ® 2 / ’ , сопоставляющей каждой паре (вопрос, точность подобия) множество пар (документ, мера корреляции).

Ответом системы на вопрос т. с требуемой точностью р = с называется множество

Q = =

(¿.д)^ 6 Б. л т] <с (¿]) ла = I = ^(m/.,//. (¿.)) |

с Б. х [0,1].

В определении ответа Ж = 5(т.,с) отношение подобия <с осуществляет выбор мультилингвистических документов, точность подобия которых не менее с. Мера корреляции ^(mj ,tj (й})) показывает, какая часть инфор-мац ии в до кументе соответствует ответу на вопрос.

В заключение рассмотрим одно из фундаментальных свойств ответа, связанное с точностью р и мерой корреляции т вопроса к описанию мультилингвистических документов, включенных в ответ. Покажем его следующим образом: если документ 6 Б^ с мерой корреляции а включен в ответ, т. е. (¿. ,а) 6 5(т. ,с), то верно неравенство а > с. Обратное утверждение неверно. Также необходимо отметить, что если р1 > р2, то 5(т. ,р1 ) с 5(т. ,р2 ).

Таким образом, по сравнению с исходными моделями распределенных информационных систем [6; 7] представленные мультилигвистические модели позволяют составлять мультилингвистические ответы даже на одноязычные запросы более гибко и с учетом неопределенности описания как мультилингвистических документов, так и самих запросов [8].

Библиографический список

1. Мультилингвистическая технология поиска данных для подготовки и принятия решения в информационно-управляющих системах / П. В. Зеленков, П. М. Лохмаков, И. В. Ковалев, С.С. Огнерубов // Прогр. продукты и системы. 2007. №> 2. С. 32-33.

2. Карасева, М. В. Метапоисковая мультилингвистичес-кая система / М. В. Карасева, П. В. Зеленков, И. Н. Карцан // Вестник СибГАУ 2007. Вып. 3 (16). С. 130-131.

3. Зеленков, П. В. Современные поисковые системы в сети Интернет: анализ принципов работы и классификация / П. В. Зеленков, И. Н. Карцан, И. Н. Кожевников // Вестник НИИ СУВПТ : сб. науч. тр. / НИИ систем упр., волновых процессов и технологий. Вып. 23. Красноярск,

2006. С. 221-227.

4. Дмитриев, А. К. Основы теории построения и контроля сложных систем / А. К. Дмитриев, П. А. Мальцев. Л. : Энергоатомиздат. Ленингр. отд-ние, 1988.

5. Оптимизация обработки данных в распределенных образовательных средах / И. В. Ковалев, П. В. Зеленков,

С. А. Яркова, С. Ф. Шевчук // Прогр. продукты и системы.

2007. №> 3. С. 70-71.

6. Зеленков, П. В. Инструментарий поисковых систем сети Интернет / П. В. Зеленков, И. Н. Карцан., П. М. Лох -маков // Вестник НИИ СУВПТ : сб. науч. тр. / НИИ систем упр., волновых процессов и технологий. Вып. 23. Красноярск, 2006. С. 103-118.

7. Метапоисковая мультилингвистическая система поиска узкоспециализированной информации / П. В. Зеленков, М. В. Карасева, И. Н. Карцан и др. М., 2007. Зарег. во Всерос. науч.-техн. центре, №9 50200701673, рег №9 ОФАП8891.

8. Мультилингвистическая модель распределенной системы на основе тезауруса / С. В. Рогов, П. Н. Зеленков, И. В. Ковалев, М. В. Карасева // Вестник СибГАУ 2008. № 1 (18). С. 26-28.

M. V Karaseva, M. A. Selivanova, P. V. Zelenkov, E. E. Shukshina

THE USE OF THESAURUSES FOR BUILDING MULTILINGUAL MODELS OF THE DISTRIBUTED INFORMATIONAL SYSTEMS

The paper offers the modification of the existed models of the distributed informational systems based on thesauruses. The modification is aimed at problems of multilingual informational presentation in modern systems solutions. Two models are shown: the first one is based on multilingual thesauruses, the second one is based on frequency multilingual thesauruses.

Keywords: multilingual model, frequency dictionary, thesaurus.

© Карасева М. В., Селиванова М. А., Зеленков П. В., Шукшина Е. Е., 2009

УДК 004.42

Е. М. Товбис

OLAP-ТЕХНОЛОГИЯ КАК СРЕДСТВО МОНИТОРИНГА ОБРАЗОВАТЕЛЬНОГО ПРОЦЕССА

Без тщательного мониторинга образовательного процесса в высшем учебном заведении невозможно всесторонне оценить достижения студента. В целях мониторинга предложено использовать технологию многомерного анализа данных OLAP. Рассмотрен пример внедрения OLAP-технологии в учебный процесс на уровне дисциплины.

Ключевые слова: мониторинг, OLAP, учебный процесс.

Мониторинг является средством оценки качества образования и повышения эффективности учебного процесса. Обобщая различные определения, под педагогическим мониторингом в данной статье будем понимать отслеживание результатов обучения путем организации системы контроля, сбора и обработки данных об учебном процессе, необходимых для анализа и прогноза ситуации. Введение мониторинга в учебный процесс позволяет получать актуальную информацию о его протекании, своевременно принимать меры в случае отклонений от планируемой траектории и предпринимать шаги по сохранению численности студентов.

Анализ публикаций [1-3] позволил выделить несколько основных способов мониторингового исследования образовательного процесса:

- опросные способы (экспертное оценивание, анкетирование с помощью специально подобранных вопросов);

- анализ результатов учебной деятельности, в том числе и статистический анализ;

- способы, основанные на тестировании.

Чем качественнее проводится мониторинг, тем большее количество данных накапливается в результате, а значит, тем труднее обходиться без автоматизированной системы. Компьютерный мониторинг позволяет значительно сократить время на обработку и анализ результатов наблюдений за учебной деятельностью. При этом удается избавиться от так называемых невыборочных ошибок, возникающих при традиционных методах получения информации вследствие неполучения ответа, получения ложного ответа или неверной регистрации ответов респондента. При условии корректного построения системы мониторинга и ее интеграции в учебный процесс удается избежать одной из основных проблем измерения -воздействия способа измерения на испытуемого.

Однако далеко не все автоматизированные решения способны полностью интегрироваться в сложившийся технологический процесс обучения. Их недостатком является и то, что большинство систем мониторинга и под-

i Надоели баннеры? Вы всегда можете отключить рекламу.