Автоматизированная обработка неструктурированной информации в перспективных автоматизированных системах военного назначения: концептуальные основы
Полковник в отставке И. И. БЫСТРОВ, доктор технических наук
Полковник запаса В.Н. КОЗИЧЕВ, доктор технических наук
Полковник A.B. ШИРМАНОВ, кандидат технических наук
АННОТАЦИЯ. Рассмотрены концептуальные основы автоматизированной обработки неструктурированной информации, представленной на естественном языке, в автоматизированных системах военного назначения. Приведенные основы направлены на обеспечение создания перспективных интеллектуальных информационных систем, в которых главной информационной единицей компьютерной обработки становятся знания. При создании таких систем широко используются технологии Big Data, а также логико-семантические и логико-математические методы извлечения знаний из потока неструктурированной информации и манипулирования ими с использованием лингвистических и семантических процессоров и баз знаний.
КЛЮЧЕВЫЕ СЛОВА: управления войсками, информационное обеспечение, машинная обработка, структурированная информация, неструктурированная информация, интеллектуальные информационные технологии.
SUMMARY. The article deals with conceptual bases of the automated processing of unstructured information presented in the natural language and within automated military systems. These bases are aimed at ensuring the creation of perspective intellectual information systems, where the knowledge becomes the main information unit of computer processing. In order to create such systems, it is necessary to widely use the Big Data technologies, as well as logical-semantic and logical-mathematical methods for obtaining the knowledge from the flow of unstructured information and manipulating them using linguistic and semantic processors and knowledge bases.
KEYWORDS: control of troops, information support, computer processing, structured information, unstructured information, intellectuall information technologies.
ИНФОРМИРОВАННОСТЬ должностных лиц (ДЛ) органов военного управления (ОВУ) приобретает решающее значение в ходе боевой подготовки и управления войсками и во многом определяется применением различного рода автоматизированных систем военного назначения (АС ВН) в деятельности ДЛ ОВУ. Качество информационного обеспечения определяется оперативностью, актуальностью, достоверностью и целым рядом других показателей, требования к которым в настоящее время значительно ужесточились.
Необходимо отметить, что на протяжении нескольких десятков лет в ходе разработки АС ВН действует правило: процесс может быть автоматизирован при условии, что он может быть определенным образом
вербально описан и формализован. В части информационного обеспечения это означает, что информация должна, во-первых, существовать, во-вторых, она должна быть пригодна к формализации и, в-третьих, она должна стандартным образом передаваться (приниматься). Эти ограничения обусловлены возможностями аппаратно-программных платформ, на базе которых создавались комплексы средств автоматизации (КСА) АС ВН и прежде всего возможностями средств и систем связи. Поэтому до настоящего времени для информирования должностных лиц ОВУ о действиях войск в различных звеньях управления используются табели срочных донесений, содержащие документы установленной формы, определяемой боевыми уставами и наставлениями по службе штабов. При этом структура документов, как правило, определяется с точностью до места расположения текста и служебных символов в документе, и, таким образом, информация структурирована в своем первоначальном виде, и это обуславливает возможность ее машинной обработки с целью обобщения, использования в качестве исходных данных для информационных и расчетных задач, моделирования боевых действий. При этом предварительная обработка данных такого рода информации может быть сведена к минимуму, вплоть до ее (обработки) отсутствия.
Информацию о более масштабных процессах, например о военно-политической обстановке, планах вероятного противника, сосредоточении войск и других масштабных действиях (например, развертывание группировки НАТО в Европе, действия противника на Ближнем Востоке, Корейском полуострове и в других «горячих точках») структурировать невозможно ни с точки зрения формы, ни сточки зрения ее содержания. Это связано с тем, что эта информация реально существует в виде материалов СМИ, аудио- и видео- документов, картографических документов, сводок, радиоперехватов, результатов прослушивания и других всевозможных форм. Эта информация в своем первоначальном виде не может быть структурированной. Существует проблема с ее машинной обработкой. Под машинной обработкой понимается возможность ввода информации в память компьютера и ее анализ в соответствии с заданными критериями. В качестве таких критериев могут быть рубрики (например, «состав группировки», «учения», «провокационные действия», «потери населения» и т. п.). При этом содержание рубрик может меняться. Еще пример обработки неструктурированной информации: если проанализировать содержание свежих открытых газет и журналов, то можно получить огромное количество информации, которая может заинтересовать военное ведомство. А если источником информации является глобальная информационная система (ГИС) Интернет, то можно с очень большой степенью достоверности получить информацию, близкую к разведывательной. Но, чтобы сделать это, необходимо уметь обрабатывать неструктурированную информацию.
Рассмотрим более детально подходы к обработке неструктурированной информации.
Основным отличием неструктурированной информации (НИ) от структурированной информации является отсутствие в НИ заранее определенной структуры. То есть правила поиска информации по месту ее расположения при обработке НИ не действуют. Кроме этого, отсутствуют заранее установленные правила для понимания смысла информации. Как же быть? Выход есть и включает следующие мероприятия:
научить компьютер воспринимать информацию практически из любого источника: печатного, рукописного, рисунков, электронного, аудио, видео и др. При этом качество нанесения информации в источнике может быть не идеальным;
научить компьютер распознавать образы — буквы, цифры, знаки препинания и т. д.;
научить компьютер понимать смысл каждого образа и складывать из этих образов предложения, абзацы, резюме, эссе, статьи, книги и т. п.;
научить компьютер производить отбор информации в соответствии с условиями (рубриками), заданными должностным лицом ОВУ;
научить компьютер настраиваться (обучаться) на обработку информации в зависимости от ее специфики и с учетом информационных потребностей ДЛ ОВУ
Перечисленные мероприятия составляют необходимые условия для обработки НИ.
Достаточное же условие для обработки НИ заключается в возможности аппаратно-программных платформ осуществлять техническую и программную поддержку вышеперечисленных необходимых условий. Проведение анализа возможностей современных аппаратно-программных платформ, обеспечивающих обработку НИ, выходит за рамки статьи. Ограничимся только развернутым замечанием. В 70-х годах прошлого столетия было практически доказано, что обработка данных в АС ВН может быть осуществлена только с применением концепции баз данных. Но эта концепция была реализована только тогда, когда объемы оперативной памяти стали исчисляться сотнями килобайт (103 байт), объемы внешней памяти исчислялись десятками мегабайт (106 байт), а тактовая частота компьютера исчислялась мегагерцами (106 герц). В настоящее время основные параметры ЭВМ возросли в разы и исчисляются терабайтами (1012 байт) для оперативной памяти, сотнями терабайт для внешней памяти и сотнями петагерц (1015) для тактовой частоты. Это в значительной степени способствовало совершенствованию информационных технологий и, в частности, позволило перейти от концепции баз данных к концепции баз знании . А в среднесрочной перспективе можно ожидать переход к концепции искусственного интеллекта. Предваряя вопрос о принципиальной возможности обработки неструктурированной информации, можно определенно полагать, что вычислительных возможностей современных средств обработки и передачи данных вполне достаточно для решения этой задачи. Таким образом, будем считать, что достаточное условие для организации обработки неструктурированной информации современными аппаратно-программными платформами выполняется.
Еще раз подчеркнем, что обработка НИ заключается не только в распознавании образов, но и в установлении смысла информации и обеспечении возможности ее использования в качестве исходных данных для решения информационных задач и проведения различного рода расчетов, в том числе моделирования боевых действий. Каждая задача решается на конкретном кортеже исходных данных, предусмотренном соответствующей программой, входящей в состав специального программного обеспечения (СПО) АС ВН. Таким образом, результатом обработки НИ могут стать структурированные данные, понятные программе СПО.
Эта задача является вполне самостоятельной и требующей своего решения. Ее решение не означает только перевода НИ из одной формы в
* База знаний — семантическая модель, предназначенная для представления в компьютере знаний, накопленных в определенных предметных областях.
другую. Это было бы алгоритмически слишком просто. На самом деле в ходе обработки НИ возникает коллизия, в результате которой из обрабатываемой НИ формируются данные, которые в исходной информации могут частично или полностью отсутствовать, но в соответствии со смыслом обработки именно эти данные требуются для успешной деятельности ОВУ. Например, ведется мониторинг информации, имеющей отношение к военным приготовлениям по материалам прессы, разведданным и другим источникам. А в результате этого мониторинга необходимо сформировать документы по управлению войсками. Эта задача может быть решена на основе действующих правил, которые должны учитываться при обработке НИ с целью разработки соответствующих документов. В основе решения этой задачи лежит технология баз знаний. В общем случае понятия правила, на основании которых принимаются решения по результатам обработки НИ, и знания можно считать синонимичными.
Следующим аспектом, непосредственно связанным с обработкой НИ, являются нерегулируемые в общем случае с точки зрения их объема потоки информации. Достаточно привести пример того, что источником информации может быть открытый Интернет или самые разнообразные формы закрытых интранетов*, используемых противником, к которым получен доступ в ходе вооруженного противоборства. Объемы информации в этом случае предсказать практически невозможно. Но это не может являться причиной отказа от обработки информации. Таким образом, имеет место информация не только неструктурированная, но еще и не предсказуемая по объему. Эта проблема тоже известна и имеет решение с помощью технологии больших данных {BigData), которая реализует различные инструменты, подходы и методы обработки как структурированных, так и неструктурированных данных, для того чтобы их использовать для конкретных задач и целей. По некоторым оценкам к категории Big Data относятся технологии обработки данных объемом свыше 100 гигабайт (109 байт) в день. Для ОВУ высших звеньев управления ВС РФ эта цифра является вполне реальной и соответствует объемам генерируемых данных. Обычно большие данные поступают из следующих источников: информационные системы и сети, в том числе интернет, СМИ, электронные архивы документов, телеметрии (показания датчиков, приборов и других устройств) и т. д. Все эти источники в том числе присущи военной информационной проблематике.
Объемы неоднородной и интенсивно поступающей цифровой информации обработать традиционными инструментами невозможно. Только машинный анализ данных позволяет выявить закономерности, которые не может увидеть человек. Это позволяет оптимизировать все сферы нашей деятельности — от государственного управления до производства и телекоммуникации.
Следует акцентировать внимание читателей и особо отметить, что технологии анализа больших данных используют специальные службы развитых стран. Об использовании этих методов для тотального мониторинга глобального интернета и поиска интересующей информации Агентством национальной безопасности США миру рассказал Эдвард Сноуден. Очевидно, что обнародованная им информация лишь частично раскрывает цели и методы работы подразделений спецслужб, занимающихся сбором разведданых в Интернете, сотовых сетях, и за более чем 3 года с момента обнародования информации Сноуденом эти методы значительно усовершенствовались. Сейчас можно лишь дога-
* Интранет — (англ. Intranet), это внутренняя частная сеть организации, которая построена на использовании интернет-протокола.
дываться о доступных спецслужбам США и других развитых стран возможностях анализа больших данных, но, несомненно, только одно — эта работа активно ведется.
Необходимо отметить, что технологии Big Data означают не только большой объем обрабатываемых данных, но и их смысловую сложность, вариантность, неоднородность и неструктурированность. При этом, как показывает анализ, до 80 % от всей входящей информации в ОВУ, подлежащей автоматизированной обработке, представляют собой неструктурированную информацию. Для восприятия и обработки больших объемов данных (тера-, петабайты и больше) необходимо предварительно структурировать и формализовать обрабатываемую информацию и обеспечить ее представление в требуемом формате. Для осуществления этих действий необходимо перейти от технологии обработки данных к технологии обработки знаний, извлекаемых из неструктурированной текстовой информации. Именно это обстоятельство является стимулом для создания перспективных интеллектуальных информационных систем (ИИС)\ в которых информационной единицей компьютерной обработки становятся знания.
Такие системы создаются, как правило, на базе широкого внедрения интеллектуальных информационных технологий (ИИТ), которые представляют собой логико-семантические и логико-математические методы и средства извлечения знаний из НИ и манипулирования ими с использованием специальных лингвистических и семантических процессоров и баз знаний (БЗ)1, которые представляют собой совокупность фактов и правил вывода, допускающих логический вывод и осмысленную обработку информации предметной области.
В арсенал ИИТ входят методы интеллектуального анализа данных (data mining)**, обработки естественного языка {natural language processing)***, интеллектуального анализа текста (text mining)****, которые направлены на поиск закономерностей с целью интерпретации неструктурированной информации и представления ее в структурированном виде.
Применение ИИТ основывается на знание-ориентированном подходе, который обладает способностью моделировать семантические свойства информации по заданным правилам (знаниям) и тем самым перейти от неструктурированной информации к структурированной, что позволит в конечном счете выявить требуемую информацию для реализации функций ОВУ.
Системы, реализующие знание-ориентированный подход, принято называть знание-ориентированными системами (ЗОС), в которых источниками знаний являются эксперты-аналитики и представительские тексты, описывающие предметные области.
Первый источник традиционен и достаточно хорошо изучен, для второго разработаны только отдельные методы онтологического моде-
* В различных источниках ИИС часто называют информационно-аналитическим системами.
1 Белоногов Г.Г., Калинин Ю.П., Хорошилов A.A. Компьютерная лингвистика и перспективные информационные технологии. М.: Русский мир, 2004.
** Data mining — совокупность методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
*** Natural language processing — общее направление искусственного интеллекта и математической лингвистики.
**** Text mining — направление в искусственном интеллекте, целью которого является получение информации из текстовых документов, основываясь на применении методов машинного обучения и обработки естественного языка.
лирования и компьютерной лингвистики, не связанные в единую интегрированную технологию автоматизированной обработки знаний.
Для придания ЗОС способностей по анализу НИ необходимо определить тип модели представления знаний в системе. Возможными моделями представления знаний являются продукционная модель, формально-логическая модель, фреймовая модель или семантико-се-тевая модель2. Общим для этих моделей является результат — синтез схемы ввода и обработки НИ. Знания, извлекаемые из НИ, можно рассматривать как объективный информационный объект, отражающий содержание исходной информации и процессы ее преобразования в конечный результат принятия решений.
Совокупность подходов, имеющих непосредственное отношение к логико-семантическим процессам понимания и осознания содержания НИ, опирается на понятия, определенным образом отражающие специфику данного процесса. К таким понятиям прежде всего относятся: предметная область, текст, знание.
При этом под предметной областью понимается информационная модель процессно-функциональной деятельности объекта информатизации. Применительно к Вооруженным Силам можно выделить, например, такие предметные области, как «управление войсками (силами)», «строительство вооруженных сил», «тыловое обеспечение», «боевая подготовка» и др. Их информатизация отображается в виде машинных процессов сбора, хранения и обработки информации, отражающей содержание. В большинстве случаев содержание автоматизируемой предметной области описывается множеством полнотекстовых документов на естественном языке (ЕЯ), которые после формализации представляются в понятной компьютеру форме. Роль средств, осуществляющих процесс формализации, выполняют специальные информационные и алгоритмические языки (ИЯ), которые обеспечивают однозначное описание содержания предметной области. Информационные языки являются специально разрабатываемым средством для формализации текста, таблиц, диаграмм, которые отражают взаимосвязь между понятиями и процедурами их восприятия компьютером. С помощью этих языков современный информационный контент предметной области из исходного неструктурированного состояния преобразуется в некоторый формализованный вид, который представляется структурированными данными и знаниями (например, в виде индексов и/или ключевых слов).
Текст является ключевым информационным объектом извлечения знаний при обработке НИ, представленной на естественном языке. Специфика текста заключается в том, что он представляет собой осмысленную знаковую систему, выраженную средствами ЕЯ, а такой информационный объект априори является источником знаний. Специфика текста как объекта логико-семантической обработки заключается в том, что он представляет собой содержание предметной области. Текст является наиболее полным представлением знаний субъекта о предметной области, аккумулирующим декларативные и процедурные знания. В качестве элементов текста выступают лексические элементы, понятия, отношения и их характеристики.
Центральным для создания ЗОС является понятие «знание». Применительно к ЗОС в прикладном плане целесообразно рассматривать две трактовки термина «знание».
Первая трактовка акцентирована на прагматических аспектах представления знаний и определяет знание как данные, характеризующие
2 Дубровин А.Д. Интеллектуальные информационные системы. Москва, 2010.
объекты, процессы и явления предметной области, представленные в формализованном виде, пригодном доя обработки в ЗОС.
Вторая трактовка термина «знание» акцентирована на содержательном аспекте неформализованного текста, когда знания представляются совокупностью понятий об объективности и действительности предметной области. Знания, извлекаемые из неформализованной информации, могут быть декларативными и процедурными. При структурировании знаний определяются факты (декларативные знания) и методы решения задачи (процедурные знания). Декларативные знания поступают в систему в процессе онтологического моделирования предметной области, и для их представления применяют системы классификации, словари, семантические сети, фреймы, продукции. Процедурные знания порождаются в процессе обработки информации (текстов). Концептуальной основой понятия знание является то, что оно возникает в результате продуктивного осмысления декларативной информации о сущностях предметной области и преобразования ее с помощью правил.
В отличие от традиционной модели обработки данных обработка знаний характеризуется следующими отличительными свойствами3:
наличие в базах знаний средств их семантической интерпретации (метазнаний*);
возможность устанавливать отношения между информационными смысловыми единицами (понятиями), позволяющие оценить в процессе анализа и синтеза знаний их семантическую близость;
данные, как правило, в смысловом отношении статичны, а знания динамичны и способны порождать новые знания.
В общем виде процесс обнаружения и извлечения в ЗОС информации, требуемой и доступной для принятия решений, происходит в результате преобразования данных и текста в знания на базе широкого использования средств их смысловой интерпретации, метаданных, метазнаний и технологий автоматического анализа содержания текстовых документов.
Для практического решения задач знание-ориентированной обработки информации требуются априорные общие знания о предметной области, а именно: знания об объектах, понятиях и отношениях между ними, связанные с целями формализации тематического содержания исходной информации. Выявление таких знаний осуществляется в ходе онтологического моделирования предметной области средствами компьютерной лингвистики.
Интегрированный ресурс общих знаний о предметной области, как правило, представляется в ЗОС в виде компонентов ее лингвистического и информационного обеспечения, которые в то же время являются компонентами онтологии предметной области. Методологическую основу построения компонентов лингвистического и информационного обеспечения ЗОС составляет теория и практика разработки онтологии предметной области и компьютерной лингвистики**.
3 Палагин A.B., Кривой С.Л., Петренко Н.Г. Знание-ориентированные информационные системы с обработкой естественно-языковых объектов: основы методологии и архитектурно-структурная организация // Управляющие системы и машины, 2009. № 3. С. 42—57; Шемаев В.Н., Замаруева И.В., Приймак М.В., Дубровский E.H. Знание-ориентированный подход к анализу естественно-языковой текстовой информации в интересах мониторинга и оценки ситуаций // Проблемы программирования — научный журнал. К.: ИПС НАНУ, 2000. № 1, 2. С. 601-614.
* Метазнания — это знания о структурах и способах получения знаний.
** Компьютерная лингвистика (также: математическая или вычислительная лингвистика) — направление искусственного интеллекта, которое ставит своей целью использование математических моделей для описания естественных языков. Компьютерная лингвистика пересекается с исследованием «искусственного интеллекта».
При этом онтология предметной области4 есть формализованное представление основных понятий и связей между ними, формируемое аналитиком на основе логико-семантического анализа содержания предметной области в результате изучения и извлечения знаний из исходных текстов (онтологических отношений). Такой процесс принято называть онтологическим моделированием.
Онтологическое моделирование в перспективных ЗОС, ориентированных на применение технологий Big Data, в настоящее время активно развивается, но находится на стадии формирования и решения проблемы семантической интероперабелъности. Онтологические отношения определяются соглашением о значении общих терминов, принятых для описания смыслового содержания информации, циркулирующей в ЗОС, и являются посредником между человеком и машинным уровнем обработки знаний в системе. На базе онтологического моделирования предметной области в ЗОС создаются машинные компоненты управления знаниями, метаданными и метазнаниями, что, собственно, и является основой систем и методов семантического анализа текстовой информации.
Опыт разработки лингвистического и информационного обеспечения ЗОС, связанных с обработкой полнотекстовых документов, показывает, что онтологическое моделирование предметной области является достаточно сложным процессом, поскольку процесс выявления онтологических отношений предметной области достаточно субъективен. Поэтому онтологическое моделирование отображает взгляд и смысловую интерпретацию предметной области аналитиком-разработчиком. Следует также отметить, что формирование онтологических отношений для ЗОС является интерактивным процессом, в ходе которого извлеченные и структурированные знания предметной области и онтологические отношения будут изменяться и расширяться за счет новых знаний, извлекаемых из исходных текстов документов в ходе их логико-семантической обработки (автоматизированной обработки НИ).
Технология автоматизированной обработки НИ представляет собой совокупность регламентированных процедур, операций, приемов сбора и семантического анализа текстовой информации и может быть представлена двумя обобщенными этапами:
первый этап — сбор и извлечение знаний из исходных текстов с формализацией их в виде лексико-семантических структур для создания компонентов лингвистического и информационного обеспечения ЗОС;
второй этап — хранение, обработка и манипулирование знаниями и данными в процессе решения задач.
Процесс извлечения знаний и формализации НИ осуществляется на основе предварительного структурирования исходной информации и решения задачи анализа исходного набора машиночитаемых документов на ЕЯ. Главной целью первого этапа является автоматизированное превращение неструктурированной информации из различных источников в структурированную систему знаний, пригодных для обработки в ЗОС. Для достижения этой цели из исходных полнотекстовых документов извлекается смысловое содержание для выявления знаний, их интерпретации и представления в системе. Полученные в результате
4 Gruber T.R. Towards Principles for the Design of Ontologies Used for Knowledge Sharing. In Inter. Journal of Human-Computer Studies. 1994. 43 (5/6): 907—928; Быстров И.И., Тарасов Б.В., Хорошилов A.A., Радоманов С.И., Гукасов В.M. Онтология и компьютерная лингвистика в автоматизированных информационных системах // Медицина и высокие технологии. 2015. № 4. С. 31—38.
* Интероперабельность — это способность продукта или системы взаимодействовать и функционировать с другими продуктами или системами без каких-либо ограничений доступа и реализации.
знания представляются в качестве компонентов информационного и лингвистического обеспечения ЗОС.
Процесс формализации знаний предполагает переход от знаний, выраженных в исходных текстах, к их аналогам, пригодным для создания представления знаний в машинной памяти в виде базы знаний и базы электронных документов. База знаний, являясь семантической моделью предметной области, представляет собой специально организованное хранилище систематизированных понятий, правил и фактов, необходимых для решения задач, связанных с семантическим поиском, хранением и обработкой структурированных или неструктурированных знаний, извлекаемых из исходной информации. В базе знаний размещаются конкретные факты и правила логического вывода , полученные в результате применения методов онтологического моделирования и компьютерной лингвистики текстов исходной информации.
Модель предметной области определяет форму представления знаний в системе и обеспечивает автоматизированную логико-семантическую обработку текстов, манипулирование знаниями и учет тематических потребностей пользователя за счет организации различных видов семантического поиска, выполняемого не на уровне слов или словоформ, а на уровне смыслового содержания обрабатываемых данных и содержания электронных документов. При этом качество баз знаний во многом определяет эффективность таких процессов, как автоматизация формирования хранилищ данных, знаний и массивов электронных документов, вводимых в систему, и создает условия для глубокого логико-семантического анализа текстов и обнаружения в них новых процедурных знаний, обеспечивающих решение широкого круга задач и позволяющих:
осуществлять машинное описание знаний с помощью алгоритмических и информационных языков;
организовывать машинное хранение элементов вводимой НИ;
создавать инструментальные средства, придающие системе знание-ориентированные свойства;
решать прикладные задачи пополнения знаний и их смысловой систематизации, построения объяснений результатов решения задач с созданием эффективного интерфейса между системой и пользователями на ЕЯ.
Проведенные исследования показали5, что при формировании технического облика ЗОС необходимо учитывать следующие общие требования.
Первое. ЗОС должна представлять собой комплексную систему, включающую подсистему онтологического моделирования, технические и программные средства лингвистического процессора для работы со знаниями и текстами документов.
Второе. В ЗОС должны применяться информационные языки, позволяющие понимать, анализировать информацию и описывать знания, содержащиеся в текстах.
* Логический вывод (лат. conclusio) — процесс рассуждения, в ходе которого осуществляется переход от некоторых исходных суждений (предпосылок) к новым суждениям — заключениям.
5 Белоногов Г.Г., Калинин Ю.П., Хорошилов A.A. Компьютерная лингвистика и перспективные информационные технологии. М.: Русский мир, 2004; Компьютерная лингвистика и автоматизированные информационные системы / Сборник. М.: ИПИ РАН, 2008; Быстров И.И., Козичев В.Н., Тарасов Б.В. Концептуальные основы автоматизированной обработки неструктурированной информации в перспективных системах управления // Системы и средства информатики. М.: ФИЦ «Информатика и управление» РАН, 2016. Т. 26. № 4. С. 162-170.
Третье. ЗОС должна обеспечивать отображение ЕЯ на машинный формально-логический язык с применением методов и средств онтологического моделирования и компьютерной лингвистики, позволяющих представлять правила логического вывода, обеспечивать обработку декларативных знаний, а также создавать условия для работы с процедурными знаниями.
Четвертое. В ЗОС должны применяться математические, программные, онтологические методы и средства обработки предметных знаний, проектирования компонентов информационного и лингвистического обеспечения.
Пятое. В ЗОС должна быть реализована система управления знаниями, поддерживающая различные типы моделей описания знаний и различные уровни работы с ними, а именно:
сбор и накопление структурированных данных с последующей их интерпретацией с применением метаданных;
сбор и накопление неструктурированных полнотекстовых документов с последующей формализацией смысла с учетом требований и особенностей программ их обработки;
структурирование и обработка накопленных данных и знаний в соответствии с требованиями решения различных классов прикладных задач;
корректировка и актуализация данных, знаний, средств интерпретации, формирование новых знаний и обеспечение отображения на рабочих местах пользователей.
Шестое. В ЗОС должен применяться такие средства (тезаурусы*, словари и т. п.) и способы организации знаний, которые соответствовали бы задачам автоматизации процессов поиска в массиве документов по различным критериям отбора, например поиск с максимальной точностью или полнотой.
Необходимо отметить, что конкретная реализация ЗОС основывается на научно обоснованных методологических положениях создания специальных процедур автоматизированного управления содержанием данных и знаний, их организации и хранения на основе принятых онтологической и лингвистической моделей. В общем виде ЗОС представляет собой информационную систему, способную манипулировать данными и знаниями и позволяющую реализовать технологическую цепочку:
онтологическое моделирование предметной области —> обработка текстов методами и средствами компьютерной лингвистики —► выявление и предоставление знаний —> обработка данных и знаний —> формирование семантически адекватных результатов обработки.
Процесс проектирования ЗОС можно представить в виде последовательности системного, алгоритмического и логического этапов, и поэтому в его основу могут быть положены следующие этапы. Этап 1 — «Постановка задачи», включает подэтапы: исследование тематического содержания предметной области автоматизации;
анализ класса решаемых задач в данной предметной области; выбор количественных и качественных критериев обработки НИ. Этап 2 — «Разработка компонентов информационного и лингвистического обеспечения ЗОС», включает подэтапы:
* Тезаурус (от греч. ©г|ат)р6<; — сокровищница): 1) словарь, в котором максимально полно представлены все слова языка с исчерпывающим перечнем примеров их употребления в текстах; 2) идеографический словарь, в котором показаны семантические отношения (родо-видовые, синонимические и др.) между лексическими единицами.
разработка модели системной интеграции знаний (понятий) предметной области со знаниями, извлекаемыми из текстов входной информации;
разработка модели формально-логического описания данных и знаний с использованием информационных и алгоритмических языков.
Этап 3 — «Разработка системы взаимосвязанных алгоритмов функционирования ЗОС», включает подэтапы:
разработка алгоритмов функционирования онтологического процессора;
разработка алгоритмов лингвистического процессора; разработка алгоритмов обработки данных и знаний; разработка алгоритмов взаимодействия системы с пользователем на уровне знаний решаемых задач.
Этап 4 — «Разработка архитектуры ЗОС», включает подэтапы: разработка интегрированной архитектуры и реализация знание-ориентированного онтологического и лингвистического процессоров;
разработка содержания компонентов лингвистического и информационного обеспечения (БЗ, словарей, классификаторов и т. д.);
разработка архитектуры реализации машины логического вывода, системы прикладного процессора, семантического поиска;
разработка структуры семантического интерфейса пользователя с системой на ЕЯ.
В заключение отметим, что имеющиеся к настоящему времени достижения в области онтологического моделирования и компьютерной лингвистики создают предпосылки автоматизированной обработки неструктурированной информации в интересах ДЛ ОВУ. Вместе с тем исследования показывают, что для построения реально применимых интеллектуальных систем недостаточно разработать некий набор программных приложений, а необходимо переделывать все традиционные базовые компоненты современных АС ВН на основе знание-ориентированного подхода. Рассмотренные в статье концептуальные основы являются базовыми аспектами методологии проектирования АС ВН с обработкой знаний, извлекаемых из неструктурированной информации.