Научная статья на тему 'Мультилингвистическая технология поиска данных для подготовки и принятия решения в информационно-управляющих системах'

Мультилингвистическая технология поиска данных для подготовки и принятия решения в информационно-управляющих системах Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
222
49
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Мультилингвистическая технология поиска данных для подготовки и принятия решения в информационно-управляющих системах»

тальные версии выдадут правильный результат. Оценка корректности результата происходит в точках контроля после окончания работы версий одного модуля и запуском следующего. В среде исполнения мультиверсионного программного обеспечения в качестве метода оценки правильности результата работы мультиверсий использован алгоритм голосования согласованным большинством. При данном подходе верным считается результат, полученный от большинства версий модуля, и именно этот результат служит входными данными версий следующего модуля.

Таким образом, надежность формируемого программного обеспечения значительно увеличивается и обеспечивается гарантия его работоспособности даже при логических ошибках отдельных программных компонент.

Описание среды исполнения мультиверсионного программного обеспечения

Пользователь среды исполнения мультиверси-онного программного обеспечения задает структуру формируемого мультиверсионного программного обеспечения. Он указывает используемые программные модули и взаимосвязь между ними. Удобный интерфейс позволяет пользователю при помощи мыши расположить модули в необходимом порядке и указать межмодульные связи.

Созданная структура мультиверсионного программного обеспечения может быть сохранена в отдельном файле. Пользователь имеет возможность загрузить структуру из файла, что упрощает работу с проектами, предполагающими доработку и дальнейшее развитие.

После определения списка модулей задаются параметры каждого модуля. Пользователь определяет тип возвращаемого модулем значения. В среде исполнения мультиверсионного программного обеспечения используются основные простые типы данных: int, float, double, bool и char. Результатом работы модуля может являться только одно значение, несколько значений, массив данных. Существует возможность добавлять, удалять новые параметры и менять значение и тип параметра. Время ожидания завершения работы модуля

также задается пользователем. В качестве единиц измерения используются миллисекунды.

Пользователь также указывает версии модулей, используемые при выполнении мультиверсионного программного обеспечения. Версиями модуля являются исполняемые файлы, имеющие расширение .exe и реализованные на начальном этапе формирования программного обеспечения. Пользователь может указать путь до исполняемого файла текущей версии модуля. Для этих нужд можно воспользоваться стандартным диалоговым окном, отражающим дерево каталогов, и указать путь к файлу версии модуля.

Среда исполнения мультиверсионного программного обеспечения является программным продуктом, устанавливаемым с диска. При установке запрашивается серийный номер, распространяемый отдельно от дистрибутива. Во время установки в отдельном системном файле сохраняются контрольные суммы файлов ядра программной системы и характеристики компьютера. При всех последующих запусках проверяется соответствие контрольных сумм, записанных в системном файле, с расчетными значениями. В случае их несовпадения выдается сообщение об ошибке, работа среды прекращается.

Среда исполнения мультиверсионного программного обеспечения является программной системой, выступающей в качестве инструмента проектировщика высоконадежного программного средства. Мультиверсионная методология введения программной избыточности, лежащая в основе повышения надежности программных средств, предполагает активное взаимодействие с пользователем на этапе формирования структуры разрабатываемого программного обеспечения. При помощи предлагаемой среды исполнения проектировщик получает возможность создавать и изменять данную структуру, вводить новые версии программных модулей и анализировать работу разрабатываемой программной системы. Это позволяет интерактивно формировать мультиверси-онное программное обеспечение и выбирать реализацию, отвечающую требованиям проектировщика.

МУЛЬТИЛИНГВИСТИЧЕСКАЯ ТЕХНОЛОГИЯ ПОИСКА ДАННЫХ ДЛЯ ПОДГОТОВКИ И ПРИНЯТИЯ РЕШЕНИЯ В ИНФОРМАЦИОННО-УПРАВЛЯЮЩИХ СИСТЕМАХ

И.В. Ковалев, П.В. Зеленков, С.С. Огнерубов, П.М. Лохмаков

Для современных информационно-управляющих систем (ИУС) характерен значительный рост объемов многоязычной (мультилингвистиче-ской) информации, хранящейся в банках данных предприятий и корпораций. В мультинациональ-

ных корпорациях требуется своевременное предоставление управленческому персоналу документов, принадлежащих различным языковым множествам, в процессе подготовки и принятия решения. Значительно возрастают требования к

оперативности и качеству функционирования систем поиска мультилингвитсической информации, используемых ЛПР в различных экономических и производственных ситуациях.

Известно, что в процессе управления дискретными техническими и человеко-машинными системами предприятия часто возникает необходимость найти и предоставить ЛПР все хранимые документы и данные (в общем случае подготовленные и выполненные на разных языках), имеющие отношение к сложившейся производственной ситуации, предварительно упорядочив их по степени важности выдаваемой информации.

Зачастую предлагаемые методы решения поставленных задач оказываются недостаточно эффективными, так как, во-первых, не позволяют осуществить поиск и сортировку больших объемов разнородной информации, характеризующей сложившиеся производственные ситуации, во-вторых, не обеспечивают возможность мульти-лингвистического поиска данных для подготовки и принятия решения в ИУС.

Указанное обстоятельство требует разработки новых эффективных моделей и алгоритмов поиска мультилингвистической информации, используемой при реализации поддержки принятия решений в ИУС современных предприятий и корпораций. Это обусловливает актуальность, экономическую целесообразность и практическую значимость данного исследования.

Необходимо разработать модельно-алгорит-мическое обеспечение систем мультилингвисти-ческого поиска данных в ИУС, позволяющее на ограниченном интервале времени, отведенном на принятие решения, определить данные и документы, которыми в возникшей ситуации должен руководствоваться ЛПР. При этом данные и документы должны быть упорядочены по степени важности предоставляемой информации. Как правило, с этой целью используются такие характеристики, как ранг документа и данного, определяющий степень важности их информационного содержания, и количество данных и документов, используемых в производственной ситуации.

В работе основное внимание уделено разработке новых математических моделей и алгоритмов реализации мультилингвистического поиска данных о ситуациях, возникающих в ИУС, и требующих подготовки и принятия решения в режиме реальных временных ограничений. Следует отметить, что в настоящее время ведутся активные работы по созданию новых алгоритмов поиска, ранжирования и определения релевантности информации как в глобальной сети Internet, так и во всевозможных локальных ИУС. При этом методики и алгоритмы, направленные на решение проблем сбора и обработки информации для разных предметных областей и категорий пользователей существенно различаются. Обычно для частных

или локальных тематических коллекций корпоративных ИУС используют модификации моделей или алгоритмов, разработанных для поисковых машин (сервисов) сети Internet. Однако в сети Internet существуют информационные ресурсы, построенные по принципу каталогов. Проблема работы с подобными тематическими коллекциями состоит в том, что для обеспечения надлежащего уровня релевантности отклика системы необходимо участие человека для проверки подлинности принадлежности документа к заявленной предметной области.

Рассмотрим новые алгоритмы поиска документов, определения релевантности документов и ранжирования информации в рамках полученной выборки из мультилингвистических информационных тематических коллекций, которые можно использовать как в системах типа каталог, так и в обычных поисковых сервисах системы Internet.

Итак, определим предметную область применения предлагаемых алгоритмов с учетом современной концепции интегрированного производства, обеспечивающей объединение большинства сложных дискретных технических и человеко-машинных систем производственного назначения в составе единой системы управления. В качестве тематических коллекций выступает корпоративная информация, находящаяся на внутренних серверах компании, причем размер компании неограничен. Возможно наличие нескольких информационных серверов. В качестве примера можно представить структуру следующего типа: имеется головной отдел компании и несколько филиалов. Для работы сотрудникам филиалов, как правило, достаточно информации, выложенной на их информационном сервере, однако периодически возникает потребность в информации, находящейся на других сайтах компании. Таким образом, для снижения расходов, связанных с Internet-трафи-ком, можно организовать трехуровневый поиск информации: на сервере филиала, на серверах компании, в сети Internet.

Экономия трафика происходит в результате поиска на собственных серверах компании (внутренний трафик). Очевидно, что при поиске информации на серверах компании вся информация имеет высокую степень релевантности независимо от способа ее получения. Используя Internet, мы несем затраты, связанные с избыточным поиском. При этом возникает еще одна проблема - низкий уровень достоверности информации. В работе предлагаются следующие мультилингвистические принципы построения поисковых агентов в ИУС.

Модели организации поисковых агентов

Данные модели предназначены для того, чтобы упорядочить полученные ссылки с множества сайтов как внутри одного языкового множества, так и для многомерного языкового множества.

Они применимы не только в рамках корпоративных серверов, но и позволяют расширить поиск за счет доступа в глобальные сети, например Internet.

Рассмотрим модель ранжирования информации сразу по нескольким языкам. После проведения поисковых операций в корпоративной сети и, возможно, за ее пределами необходимо вычислить вес ссылки на документ для более удобного и грамотного отображения результатов поиска пользователю. Таким образом, результат каждого запроса может быть представлен в виде r-мерного ранжированного вектора, который формируется на основе количества опрашиваемых сайтов; множества ссылок, выданных всеми опрошенными базами поисковых сервисов или внутренних ресурсов компании без дублей.

Ранг информационного ресурса по каждой предметной области определятся в процессе опроса каждого сайта с учетом количества релевантных документов, выданных опрошенным информационным ресурсом, количества нерелевантных документов и общим количеством документов.

Предлагаемая модель ранжирования позволяет проводить поиск и в пределах одного языкового множества. Вводя дополнительный индекс, отвечающий за предметную область, мы расширяем полученную модель, которая в этом случае будет производить поиск и ранжирование документов сразу по нескольким предметным областям. Отметим, что сумма всех неповторяющихся ссылок всех опрашиваемых предметных областей будет меньше или равна общей сумме ссылок без повторений, что связано с пересечением предметных областей или наличием так называемых смежных предметных областей. В предлагаемой модели все ранги должны быть не меньше чем единица.

Не менее важным агентом при специализированном поиске информации является агент определения релевантности.

Модель определения релевантности

Основой данной модели являются частотные мультилингвистические словари по предметным

областям. В рамках модели каждому терму (словоформе) в документе и запросе сопоставляется некоторый неотрицательный вес (для запроса на один поисковый сервис). Таким образом, каждый документ и запрос могут быть представлены в виде k-мерного вектора. Согласно векторной модели, близость документа к запросу оценивается как корреляция между векторами их описаний. Эта корреляция может быть вычислена, например, как скалярное произведение соответствующих векторов описаний.

Веса термов можно вычислять различными способами. Один из возможных подходов - использовать в качестве веса терма в документе нормализованную частоту его использования в рамках данного документа.

При определении релевантности с использованием мультилингвистических частотных словарей для вычисления веса терма целесообразно использовать частотную характеристику терма из словаря.

Предложенный алгоритм эффективно работает как на этапе формирования мультилингвисти-ческого частотного словаря (который в дальнейшем будет базисом модели), так и после того как он был составлен, и возникает необходимость в его актуализации или обновлении.

Рассмотренный в статье подход определения релевантности и ранжирования документов в ИУС в первую очередь опирается на семантическое содержание информационных ресурсов.

В настоящее время многие исследователи ведут работы по модификации алгоритмов и методов ранжирования информации, не учитывая, что ранг документа должен зависеть не только от положения документа в сети Internet, но и от его качества и тематического содержания.

Использование тематических частотных словарей позволяет решить эту проблему, снизив участие человека при определении релевантности документов и распределении документов по тематическим разделам в рамках информационных коллекций.

ПОДДЕРЖКА РЕШЕНИЯ ЗАДАЧИ ИДЕНТИФИКАЦИИ СУЩНОСТИ МЕТОДАМИ ИНФОРМАЦИОННОГО ПОИСКА

В.Л. Бердник,, А.В. Заболеева-Зотова

В данной статье рассматривается применение методов информационного поиска для задачи идентификации сущности. Необходимость решения задачи идентификации сущности встречается в маркетинговых исследованиях, когда требуется сопоставить между собой большие группы товаров конкурентов, единственной информацией о

которых является строка с определенными лингвистическими особенностями.

Под высказыванием идентификации сущности (далее - высказывание) будем понимать символьную строку конечной длины. Высказывание идентифицирует сущность либо группу семантически близких сущностей, воспринимаемых со-

i Надоели баннеры? Вы всегда можете отключить рекламу.