Научная статья на тему 'Активная модель мультиязычных запросов пользователя в информационно-управляющих системах'

Активная модель мультиязычных запросов пользователя в информационно-управляющих системах Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
153
39
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Карцан Игорь Николаевич, Кустов Денис Викторович, Яркова Светлана Анатольевна

Предлагается подход к использованию активной модели пользователя в информационно-управляющих системах, что позволяет еще на этапе их проектирования обеспечить персонализацию мультилингвистических поисковых систем.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Карцан Игорь Николаевич, Кустов Денис Викторович, Яркова Светлана Анатольевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The active model of multi-linguistic user's demands in information management systems

An approach to the employment of the user's active model in information management systems is proposed. It is provided a personal mode for the multi-linguistic search systems on the design stage.

Текст научной работы на тему «Активная модель мультиязычных запросов пользователя в информационно-управляющих системах»

предлагаемом решении соответствует уровню релевантности в каталожных системах ручной индексации.

В результате выполнения поисковой процедуры согласно алгоритму определения релевантности формируются вектора частот, определяющийся по формулам: docj = (wdocy ,wdoc2j ,...,wdocCj),

dwi = (wdici,wdic2,...,wdick), где вектор doc\ относится к терминам из документа, а dic.

- к терминам из частотного мультилингвитического словаря; wdic.. и wdoc. - частотные характеристики термов в словаре и документе соответственно.

Далее вектора приводятся к одной размерности по принципу встречаемости термов в обоих векторах. После приведения векторов к одной размерности е и упорядочивания их в порядке принадлежности к одному термину, необходимо составить вектор c:

^ = (rellj,rel2j,...,relej), где rel. - уровень релевантности документа, который можно определить следующим образом:

rel14

wdoc у + wdi c

После упорядочивания вектора с получим уровень релевантности каждого документа требуемой предметной области. Таким образом, могут быть реализованы упрощенные алгоритмы определения уровня релевантности. При выводе документов пользователя необходимо провести сортировку по вектору с.

К достоинствам системы можно отнести следующие моменты.

Использование частотного словаря позволяет производить поиск сразу на нескольких языках, например русском, английском и немецком.

Реализация метопоисковых принципов позволяет охватывать индексы трех самых популярных поисковых web-служб - Яндекс, Google, Rambler.

Реализация независимой от внешнего web-сервера проверки релевантности позволяет сократить объем нерелевантных ссылок в результатах поиска и существенно повысить качество обработки запросов пользователя.

Применение алгоритмов, базирующихся на частотных словарях, позволяет повысить степень релевантности документов запросу пользователя, а также уменьшить объем трафика пользователя при формировании собственной базы релевантных документов.

Библиографический список

1. Талантов, М. Поиск в Интернете: подводные камни / М. Талантов // КомпьютерПресс. 1999. № 9. С. 46-52.

2. Зеленков, П. В. Проблема развития метапоисковых технологий / П. В. Зеленков, Т. А. Ковалева // Вестник НИИ СУВПТ : сб. науч. тр. ; под общ. ред. проф. Н. В. Василенко. Красноярск : НИИ СУВПТ. 2004. Вып. 14. С. 95-103.

3. Ковалев, И. В. Автоматизация формирования информационно-терминологического базиса мультилинг-вистических обучающих технологий / И. В. Ковалев, П. В. Зеленков // Телекоммуникации и информатизация образования. 2005. N° 3 (28). С. 68-82.

M. V. Karasev, I. N. Kartsan, P. V. Selenkov

META-SEARCH MULTI-LINGUISTIC SYSTEM

Meta-search principles of information retrieval processes are considered. These principles are applied to the ranking of information for the user inquiry. The realization of meta-search multi-linguistic system «Zendex» is presented.

УЦК 004.05

И. Н. Карцан, Ц. В. Кустов, С. А. Яркова

АКТИВНАЯ МОДЕЛЬ МУЛЬТИЯЗЫЧНЫХ ЗАПРОСОВ ПОЛЬЗОВАТЕЛЯ В ИНФОРМАЦИОННО-УПРАВЛЯЮЩИХ СИСТЕМАХ

Предлагается подход к использованию активной модели пользователя в информационно-управляющих системах, что позволяет еще на этапе их проектирования обеспечить персонализацию мультилингвистических поисковых систем.

На сегодняшний день наиболее перспективным видом информационных систем (ИС) являются информа-ционно-управляющие системы (ИУС) в мультинациональных корпорациях. Это объясняется, в первую очередь, характерной тенденцией интеграции ранее разрозненных (например, по принципу физического места расположения подразделения) информационных источни-

ков корпорации в единую информационную базу. Упомянутые информационные системы, наряду с другими, обладают такими характерными свойствами, как центра-лизованность (в плане сосредоточения базы знаний ИС) и многоязычность документов, хранящихся в такой ИС. При этом для современных информационно-управляю-щих систем характерен значительный прирост объемов

многоязычной (мультилингвистической) информации, хранящейся в банках данных.

В процессе управления дискретными техническими и человеко-машинными системами предприятия необходимо осуществлять поиск и предоставлять пользователю - лицу, принимающему решения (ЛПР), все хранимые документы и данные, имеющие отношение к сложившейся производственной ситуации, предварительно упорядочив их по степени важности выдаваемой информации. Особую сложность приобретают вопросы своевременного предоставления управленческому персоналу документов, принадлежащих различным языковым множествам. Значительно возросшие требования к оперативности и качеству функционирования систем поиска муль-тилингвитсической информации, используемых ЛПР в различных экономических и производственных ситуациях, требуют разработки соответствующих алгоритмов.

Традиционно применяемые алгоритмы поиска муль-тилингвитсической информации ориентированы только на обработку существующей коллекции документов. Для этого разработаны достаточно эффективные процедуры [1]. Но требования к оперативности и качеству функционирования систем поиска мультилингвитсической информации, используемых лицом, принимающим решения в различных экономических и производственных ситуациях, значительно возросли. В такой ситуации использование только традиционных методов и их модификаций недостаточно, поскольку такая схема не позволяет оперативно и в достаточной мере оценивать меняющиеся приоритеты самого ЛПР, влияющего на процесс принятия решений.

В данной работе предлагается новый подход к использованию ранее хорошо зарекомендовавшей себя [2] адаптивной модели пользователя, в роли которого в случае ИУС выступает ЛПР. Такой подход позволяет увеличить эффективность традиционных процедур поиска релевантных ситуации документов в мультилингвистической коллекции документов за счет использования модели ЛПР и алгоритма ее адаптивной корректировки на каждом этапе работы с системой. При этом достигается более высокая проработка априорной информации и предоставляется возможность использования ее в традиционных системах поиска мультилингвитсической информации.

Коллекции многоязычной (мультилингвистической) информации. Очевидно, что, когда речь идет о банках данных мультинациональных предприятий и корпораций, основной задачей становится своевременное предоставление управленческому персоналу документов, принадлежащих различным языковым множествам, в процессе подготовки и принятия решения. При этом значительно возрастают требования к оперативности и качеству функционирования систем поиска мультилингвитсической информации, используемых лицом, принимающим решения (ЛПР) в различных экономических и производственных ситуациях.

Для обеспечения вышеуказанных требований к скорости оперирования мультиязычными документами разрабатываются различные способы представления таких документов и ранжирования их в рамках заданных коллекций.

В рамках рассматриваемого подхода применяется хорошо зарекомендовавшая себя [2] векторная модель данных. Любой документ представляется как вектор частот появления определенных терминов в нем. При таком подходе отношения между документами и терминами представляются в виде матрицы смежности А, элементом н. которой является частота появления термина г. в документе d^. Обозначим через т количество проиндексированных терминов в коллекции документов d, а через п - количество самих документов. В общем случае элементом н. матрицы А является некоторый вес, поставленный в соответствие паре документ-термин (й^ г). После того, как все веса заданы, матрица А становится отображением коллекции документов в векторном гиперпространстве.

Активная модель и профили ЛПР. Профиль ЛПР отражается на выборе рациональной стратегии поведения в сложных производственных ситуациях, зависит не столько от количественных соотношений, сколько от качественных формулировок. Выбор категории или профиля ЛПР зачастую определяется набором типовых ситуаций, которые возникают в системе управления только в том виде, в котором он был зафиксирован на практике.

При формировании профиля ЛПР учитывается ряд атрибутов, харакетризующий различные производственные ситуации, возникающие в процессе функционирования промышленного предприятия:

- наименование ситуации;

- описание причин ее возникновения;

- указание последствий, к которым она может привести;

- временные характеристики, определяющие время возникновения и окончания ситуации;

- наименование структурных подразделений предприятия, где возникла производственная ситуация;

- описание мероприятий, необходимых для ее успешного разрешения;

- указание производственных факторов, влияющих на процесс принятия решений;

- список документов, регламентирующих поведение ЛПР в сложившейся ситуации;

- перечень данных, поступающих от различных информационно-измерительных систем предприятия и используемых ЛПР в процессе выработки решения.

Необходимо отметить, что на ряде промышленных предприятий некоторые из указанных выше характеристик производственных ситуаций могут не использоваться управленческим персоналом в процессе принятия решения. Кроме того, ряд характеристик производственных ситуаций может оставаться не определенным экспертами в течение значительного промежутка времени. В этих случаях в разрабатываемой поисковой системе при формировании профиля ЛПР будут учитываться только известные (базовые) характеристики и не будут рассматриваться остальные.

В работе предложена новая схема моделирования ЛПР, основанная на инициализации начального профиля и его последовательной корректировке в процессе работы. При этом документы могут быть представлены как векторы латентного семантического пространства [2]. Для того чтобы следить и непрерывно анализировать возможные

изменения интересов ЛПР, предлагается ввести понятие временного измерения в латентном семантическом пространстве, тем самым рассматривая уже не само латентное семантическое пространство, а его модификацию -временное латентное семантическое пространство. Каждое измерение (за исключением временного) такого векторного пространства представляет собой условные вероятности при заданном классе Р(-| z). Документы представляют собой векторы с весовыми коэффициентами (координатами) Р^^, временное измерение полагаем равным нулю. Запросы ЛПР, равно как и сами документы, могут быть представлены в виде векторов во временном латентном семантическом пространстве. Кроме весов Р^^) у них есть дополнительное (временное) измерение (текущий вес), первоначально равное некоторой положительной величине, уменьшающейся с течением времени, исходя из предположения о падении актуальности определенной производственной ситуации (при отсутствии ее фигурирования в течение продолжительного времени). Если ЛПР инициирует запрос, связанный с определенной категорией из его текущего профиля, то вес данной категории может быть либо стабилизирован на определенное время, либо увеличен.

Согласно геометрии рассматриваемого латентного семантического пространства, запрос ЛПР, состоящий из терминов, проецируется в латентное семантическое пространство, при этом гиперповерхность 5, образованная запросом Q, является пересечением вероятностных поверхностей всех классов Нй, введенных на латентном семантическом пространстве, в которых с определенной вероятностью фигурирует данный термин:

Алгоритм адаптивной коррекции профиля ЛПР основан на неявной обратной связи с ним, которая реализуется на основе истории его запросов в конкретных производственных ситуациях [3]. На вход алгоритма поступает запрос ЛПР, на выходе - одна или более троек (триплетов) вида (С., W,, а), где С. - категория ЛПР, Ж. - текущий вес, а. - уровень изменчивости (смысл данной величины состоит в том, чтобы отразить насколько изменяются ин-

тересы ЛПР в рамках текущей производственной ситуации по отношению к прошлым ситуациям и, следовательно, запросам к БД ИУС). При этом профиль ЛПР организован таким образом, что его интересы разделены на два типа: краткосрочные (краткосрочный профиль) и долгосрочные (долгосрочный профиль). Как правило, емкость долгосрочного профиля больше емкости краткосрочного.

Таким образом, предлагаемый в работе подход к использованию активной модели пользователя в ИУС позволяет еще на этапе проектирования предусмотреть возможность персонализации таких систем. Очевидно, что использование активной модели пользователя (в роли пользователя в данном случае выступает ЛПР) имеет существенное значение при учете производственных факторов, влияющих на процесс принятия обоснованных решений, анализе последствий, к которым может привести та или иная ситуация (то или иное решение). Кроме того, в силу мультиязычности описываемой системы персонализация позволяет сократить время обучения ЛПР и обработки мультиязыковых запросов к системе. При этом непрерывная корректировка модели позволяет отслеживать изменения в предпочтениях ЛПР и вносить соответствующие корректировки в коллекции релевантных документов.

Библиографический список

1. Кустов, Д. В. Интеллектуализация информационных технологий в корпоративных системах / Д.В. Кустов, И. В. Ковалев, М. Ю. Слободин // Информационные ресурсы России. 2006. № 3(91). С. 31-34.

2. Кустов, Д. В. Адаптивная корректировка модели пользователя на основе методологии PLSA / Д.В. Кустов // Вестник университетского комплекса : сб. науч. тр. ; под общ. ред. проф. Н. В. Василенко. Красноярск : ВСФ РГУИТП, НИИ СУВПТ. 2004. Вып. 1(15). С. 45-54.

3. Кустов, Д. В. Адаптивная метапоисковая система / Д. В. Кустов, М. Ю. Слободин, С. С. Огнерубов // Инвентарный номер ФАП: 5955. Код программы по ЕСПД: 03524577.01366-01.

I. N. Kartsan, D. V. Kustov, S. A. Jarkova

THE ACTIVE MODEL OF MULTI-LINGUISTIC USER’S DEMANDS IN INFORMATION MANAGEMENT SYSTEMS

An approach to the employment of the user’s active model in information management systems is proposed. It is provided a personal mode for the multi-linguistic search systems on the design stage.

i Надоели баннеры? Вы всегда можете отключить рекламу.