Научная статья на тему 'Разработка обучаемой специализированной информационно-поисковой системы'

Разработка обучаемой специализированной информационно-поисковой системы Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
145
38
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Разработка обучаемой специализированной информационно-поисковой системы»

Вероятность безотказной работы АПСК определяется вероятностью безотказной работы сервера, АРМ РО, сетевого оборудования (маршрутизатор, оптико-электронная линия связи и пр.):

Рапск 1 (1 Рсерв)(1 Рсо)(1 Рро) ,

где Рсерв - вероятность безотказной работы сервера тренажерной системы; Рсо - вероятность безотказной работы сетевого оборудования тренажерной системы; Рро - вероятность безотказной работы АРМ РО; п - количество АРМ РО.

Таким образом, предлагаемый подход учитывает особенности построения современных тренажерных систем и позволяет рассчитать надеж-

ность тренажерных систем, построенных на базе средств вычислительной техники и объединенных единой ЛВС для решения учебных задач.

Литература

1. Адамов А.Н. [и др.]. Информационно-управляющие человеко-машинные системы: Исследование, проектирование, испытания : справочник; [под ред. А.И. Губинского, В.Т. Евграфова]. М.: Машиностроение, 1993. 528 с.

2. Губинский А.И. Надежность и качество функционирования эргатических систем. М.: Наука, 1982. С. 250-258.

3. Римашевский А.А., Ильин В.А. «Командор»: информационные технологии в военно-морском образовании // Оборонный заказ. 2006. № 10. С. 3-8.

УДК 025.4.03

РАЗРАБОТКА ОБУЧАЕМОЙ СПЕЦИАЛИЗИРОВАННОЙ ИНФОРМАЦИОННО-ПОИСКОВОЙ СИСТЕМЫ

(Работа выполнена в рамках аналитической ведомственной целевой программы «Развитие научного потенциала высшей школы» на 2009-2011 гг., проект № 2.2.1.2/9852)

И.В. Попова, к.пед.н.; А.В. Субочев

(Магнитогорский государственный университет, ipopova@masu-inform.ru, science_masu@mail.ru)

В статье рассматриваются архитектура и принципы разработки обучаемой специализированной информационно-поисковой системы. Решение реализуется на базе свободно распространяемого ПО.

Ключевые слова: информационно-поисковая система, обучаемая система, морфология, индексация, MySQL, мониторинг.

В условиях информационного взрыва нередко используются нечистоплотные способы продвижения сетевых ресурсов, поэтому подборка качественных материалов по конкретной тематике становится нетривиальной задачей, поскольку популярные поисковые системы, возвращая пользователю тысячи низкорелевантных результатов, зачастую не могут сократить временные затраты на поиск информации.

Существует ряд систем, позволяющих повысить эффективность поиска информации, а именно: Яндекс.Сервер, Russian Context Server, Brief Driven Information Retrieval and Extraction for Strategy (BRIEFS), RCO Fact Extractor, Aot.ru., университетская информационная система РОССИЯ (УИС РОССИЯ) и др. Однако анализ таких программных средств (см. табл.) показал, что в настоящий момент нет системы, которая поддерживала бы возможность настройки на конкретную тему, а также осуществляла бы мониторинг обновления материалов на наиболее важных тематических ресурсах. Это определило целесообразность разработки новой обучаемой специализированной информационно-поисковой системы (ОСИПС), которая в процессе своей работы учитывает предпочтения пользователя, настраиваясь на особенности как предметной области, так и конкретных информационных ресурсов, а также

способна самостоятельно отслеживать появление новых материалов по заданной тематике.

Сравнительная таблица программных продуктов автоматизации информационного поиска

_Q S S s и - аа Сложность настройки ь

Наименование программного продукта оа н ка * ! S -в" ми s g и 1 кк Ö И g а £ « и де нд и о е по H с т с о S S о т С

RCO Fact Extractor + RCO Context Server Да/ Да Да/ Нет Высокая $4484

RCO Fact Extractor + Яндекс.Сервер Нет Да/ Нет Высокая $3540

Aot.ru + RCO Context Server Да/ Да Нет/ Да Высокая $1062

Aot.ru + Яндекс.Сервер Да/ Нет Нет/ Нет Высокая $100 + наличие рекламы

Brief Driven Information Retrieval and Extraction for Strategy (BRIEFS) Нет Да Высокая Не рас-сматрива-ется

УИС РОССИЯ (МГУ) Нет Нет Нет 0

АПИС Да Да Низкая 10201,29 руб.

Логическая структура информационно-поисковой системы показана на рисунке 1, где хорошо заметны две функциональные части - поиск информационных ресурсов и анализ найденных источников на факт появления новых событий. Качество поиска повышается за счет использования модуля морфологии.

Словари

Модуль обработки блоков

Модуль морфологии

Редактор | блоков на i

Обработка блока скриптом его страницы

L странице

Редактирование скриптов

I" Мастер I I Редактор ' I скриптс^ [_РЫР-кода J

Модуль поддержки форматов файла

4Библиотека форматов: HTML, DOC, TXT, PDF...

Рис. 1. Архитектура ОСИПС

Индексация в ОСИПС облегчает и ускоряет процесс поиска: машина индексации «путешествует» по сети и сохраняет все найденное с учетом поставленной задачи и заданными ограничениями. Глубина индексации системы на основе практики функционирования популярных поисковых сервисов была установлена равной семи уровням.

На сегодняшний день множество сервисов, предоставляющих услуги по поиску информации в сети Интернет без участия человека, используют системы морфологического анализа текста. Впервые данная технология, сочетающая в себе и скорость, и качество, была применена компанией Google в 2003 году. В ОСИПС морфологический модуль работает в соответствии со схемой, представленной на рисунке 2.

Словари

Инициализированные словари

Исходный текст, форма которого неизвестна

Форматизиро-ванный текст

Формирование результатов

^Текст, пригодный для поиска

PHP-интерпретатор Рис. 2. Схема работы морфологического модуля

В блоке инициализации модуля происходят подготовка и проверка целостности основных словарей морфологического аппарата системы. Реализована поддержка русского, английского и немецкого словарей. Формат файла словарей по-

зволяет хранить слова, правила изменения формы слова и определения существующей словоформы. Таким образом обеспечиваются универсальность словаря и в то же время малый объем и занимаемой оперативной памяти при загрузке модуля, и памяти жесткого диска при хранении. Блок обработки слов выполняет работу по поиску текущей словоформы и формированию всех других словоформ. Именно в него попадает обрабатываемый текст; на выходе формируется двухмерный массив, в котором в первоначальном порядке хранятся все передаваемые слова и их словоформы. Блок формирования результатов предназначен для отделения во входящем массиве нормальных форм слова от всех остальных словоформ.

В связи с тем, что к функциям разрабатываемой системы относится выделение нужного текста без потери скорости и траты лишних ресурсов, был выбран и реализован подход, при котором администратор системы обучает ее понимать конкретный источник информации один раз. На основе внесенных администратором данных система формирует правила, которыми в дальнейшем будет руководствоваться при отборе сведений из проверяемого источника информации. Данная методика позволяет избежать возможных ошибок, связанных с переносом системы на новое оборудование, а также решить проблему точной выборки ключевых слов в исходном документе.

Для обеспечения наибольшей стабильности и надежности модуль обработки блоков подразделяется на три части - обработка блока скриптами его страницы, редактирование скриптов, редактирование блоков на странице. Все части очень важны для системы, так как без какой-либо одной из них она теряет устойчивость к ошибкам и часть своих функциональных возможностей.

В случае использования ОСИПС для мониторинга обновления информации на заданных тематических ресурсах сотруднику следует периодически проверять корректность работы всех функций, а также просматривать и оценивать новые документы, найденные сервисом, на предмет их научности и нужности.

Перед инсталляцией ИПС должны быть выполнены следующие условия: на серверном компьютере уже должна быть установлена ОС Linux Ubuntu версии старше 9, желательно серверный вариант; установлены пакеты ПО Apache, MySQL, PHP, модули для Apache, для поддержки интерпретатора PHP.

ОСИПС использует БД на основе бесплатного ПО MySQL, распространяемого по лицензии GNU. Для нормальной работы системы достаточно шести таблиц: Article_data для хранения полученных данных из блоков; Articles для хранения целиком содержания блока; Site для хранения адресов тематических ресурсов; Indexs - база проиндексированных документов; Sourse - сайты, или страни-

цы, откуда нужно индексировать, то есть при попытке проиндексировать что-либо адрес этого начального документа должен находиться в этой таблице; Tags - записи, уточняющие тип данного блока и конкретизирующие соответствие элементов блокам.

Обработчик - это отдельный скрипт-файл, который выполняется при необходимости обработки конкретного тематического ресурса. В его задачи входят выборка обработчика для данного проверяемого источника, выборка нужного API для обработки, восстановление необходимых данных о текущей проверяемой странице, исполнение обработчика, слежение за ходом обработки, предоставление результатов обработки, завершение исполнения обработчика источников информации. Для работы с новыми информационными ресурсами ОСИПС, как правило, требуется новый обработчик. В связи с тем, что система предназначена для людей, не имеющих глубоких знаний в программировании, был создан специальный мастер скриптов, который позволит выбрать нужный пользователю результат и сформировать скрипт для обработки информационного ресурса. Мастер работает в двух режимах, ориентируя систему на поиск сведений в заголовке или тексте ресурса.

Результаты поиска ОСИПС представляет в виде отсортированного по релевантности списка ресурсов. В случае, когда ответы на запрос не получены, система предпринимает попытки каким-либо образом его изменить: проверить на орфографические ошибки, изменить порядок слов, сделать поиск менее строгим. Если по-прежнему поиск оказался безрезультатным, система показывает пользователю, что информация не найдена, и рекомендует выполнить действия, которые могут исправить положение, - изменить ключевые слова, их приоритет, уровень индексации и т.п.

В интерфейсе системы специально предусмотрено соответствующее окно для ввода источников информации. После заполнения полей на странице ресурсов отображаются данные тематического ресурса: название, приоритет, уровень и доступные действия (удалить, редактировать). Только после сохранения ресурса в системе можно перейти к его индексации. Для этого необходимо выбрать нужную запись в списке источников, указать уровень индексации и запустить процесс.

Для автоматического получения данных с известных ОСИПС источников нужно указать адрес ресурса и настройки получения информации. После добавления страниц необходимо указать поля, откуда будет извлечен текст. Для этого на строке источника следует выбрать пункт «Изменить блоки». Затем на специальной форме, где будет представлен выбранный источник, указать нужные для правильной работы системы поля. После выделения блоков необходимо написать или создать с помощью маркера код обработки источника.

После добавления всех известных на данный момент источников их проверяют на наличие новой информации с некоторой периодичностью. Как только требуется проверить актуальность информации, следует перейти на соответствующую страницу и выполнить сканирование.

Апробация разработанной системы проходила в отделе организации научных исследований Магнитогорского государственного университета. Установка ОСИПС сводится к копированию файлов на сервер отдела, импортированию файла-структуры БД и конфигурированию межсетевых настроек. В систему введены порядка двадцати основных интернет-источников, где выкладываются объявления о планируемых научных конференциях и семинарах, настроены обработчики. Использование системы позволило сократить время на поиск информации, а также на подготовку материалов для выкладки на сайт. Кроме того, ОСИПС легко интегрируется в существующую структуру отдела организации научных исследований и осуществляет серьезную поддержку в информационной деятельности Магнитогорского государственного университета.

Литература

1. Акимова Г. Аналитическая обработка разнородной текстовой информации. URL: http://www.bytemag.ru/articles/de-tail.php?ID=8965 (дата обращения: 3.07.2011).

2. Автоматическая обработка текста. URL: http://www. aot.ru (Проверено 3.07.2011).

3. Лексико-синтаксические шаблоны в задачах автоматической обработки текста. URL: http://www.dialog-21.ru/dialog 2007/materials/html/n.htm#_fln1 (дата обращения: 3.07.2011).

4. Национальный корпус русского языка. URL: http://ruscorpora.ru/index.html (дата обращения: 3.07.2011).

5. Попова И.В. [и др.] Совершенствование системы информационно-аналитической поддержки научных исследований в высшей школе на основе технологии открытых систем. Магнитогорск: МаГУ, 2010.

Вниманию авторов, читателей, подписчиков!

Оформить подписку на международный журнал «Программные продукты и системы» можно через Агентство «Роспечать» (индекс в каталоге 70799). Электронная версия журнала доступна на сайте

www.swsys.ru

Вниманию читателей предлагается оригинальное авторское видение метода качественного прогнозирования с применением принципов диалектической логики. По мнению редакционного совета, материал является дискуссионным и, безусловно, вызовет интерес у специалистов.

УДК 681.51 + 519.7

АВТОМАТИЗИРОВАННАЯ СИСТЕМА ПРОГНОЗИРОВАНИЯ НА ОСНОВЕ ЦИКЛА СМЕНЫ КАЧЕСТВЕННЫХ СОСТОЯНИЙ СИСТЕМЫ

Д.В. Бутенко, к.т.н.

(Волгоградский государственный технический университет, gindenburg@mail.ru)

Рассматриваются метод качественного прогнозирования на основе диалектической логики и построенная на его базе автоматизированная система качественного прогнозирования.

Ключевые слова: стратегическое прогнозирование, принятие решений, диалектическая логика, цикл Вэнь-Вана, И-Дзин, Книга перемен, управление сложностью.

Одним из показателей эффективности управления сложными системами является опережающая рефлексия относительно совокупности показателей внешних воздействий среды и внутренних изменений в самой системе. Прогнозирование, например, экономической ситуации компании и построение вариантов путей достижения цели являются актуальными задачами концептуального проектирования, востребованными бизнесом всех масштабов, всевозможными областями знаний, где необходимо решать эти задачи.

Ввиду крайней важности влияния качества и обоснованности прогноза на дальнейшую результативность процессов в самых различных видах деятельности актуально рассмотрение способов повышения эффективности решения задачи прогнозирования. В современной научной среде прогноз строится или на исследовании математических зависимостей параметров системы, или на основе статистических исследований, или при помощи экспертов. Нахождение решения по какой-либо проблеме сводится к оптимизации по целевому критерию на множестве известных существующих альтернатив в многокритериальном пространстве.

Однако для прогнозирования динамики состояний сложных систем, где взаимодействует большое количество процессов, направленных на достижение общей цели, для принятия решений в процессе управления необходимо знать, в первую очередь, каким будет качественное состояние этих систем в будущем при различных возмущающих воздействиях внешней среды.

Такие описания качественных состояний системы на определенные моменты времени можно назвать системоквантами информации. На основании этих сведений выбирается или создается стратегия поведения, по которой впоследствии строятся управленческие планы с различной степенью детализации. Для получения системокван-

тов будущих состояний системы при открытом множестве входящих параметров весьма затруднительно использовать математические методы, а мнения экспертов, располагающих такой информацией, необходимо подвергать тщательной и многоаспектной верификации. Как основу для получения прогноза качественных состояний сложных систем можно использовать механизм причинно-следственных отношений между системок-вантами как закономерностями развития систем. Получаемые при таком подходе сведения являются базой для работы с экспертной информацией и могут быть дополнены уточняющими данными математических расчетов.

Самым общим и обоснованным в этом плане подходом является система смены качественных состояний на основе отношений бинарной логики на примере цикла перемен Вэнь-Вана. Объектом в этом случае выступает универсум в своем метафизическом онтологическом становлении и развитии.

Каждое качественное состояние инвариантной системы может быть описано графически комбинациями прерывистых и сплошных линий. Линии истолковываются как знаки универсальных миро-устроительных сил активности (ян) и пассивности (инь) - соответственно прерывистая ■■ ■■ и сплошная ■■■■■ линии. На основании взаимопроникновения противоположностей (ян-инь) складывается противоречивое одновременное состояние и расчлененности, и единства в каждом явлении природы, в каждом ее предмете, что соответствует актуальным европейским научным представлениям о сущности и свойствах любой системы как некоторого целого.

Двойные, тройные и тому подобные комбинации противоположностей могут быть поняты как знаки более конкретных воплощений инь и ян во всех сферах бытия. Праисточником явлений и вещей и отправным системоквантом считается

i Надоели баннеры? Вы всегда можете отключить рекламу.