Гипертекст как онтология соотношения знания и информации в сетевой форме моделирования естественного интеллекта

Одинцов Антон Николаевич

14. Сарабьянов, Д.В. Символизм в авангарде. Некоторые аспекты проблемы [Текст] / Д.В. Сарабьянов // Символизм в авангарде / отв. ред., сост. Г.Ф. Коваленко. - М., 2003. - С. 3-9.

15. Соловьев, В.С. Сочинения [Текст]. В 2 т. Т. 2 / В.С. Соловьев. - М., 1988.

16. Тертерян, И.А. Романтизм как целостное явление [Текст] / И.А. Тертерян // Человек мифотво-рящий. - М., 1988. - С. 14-50.

17. Шлегель, А.В. «Герман и Доротея» Гете [Текст] / А.В. Шлегель // Лит. манифесты западноевроп. романтиков / под ред. А.С. Дмитриева. — М., 1980. — С. 123— 124. — Рец. на кн.: Герман и Доротея / И.В. Гете.

УДК 165.0

А.Н. Одинцов

ГИПЕРТЕКСТ КАК ОНТОЛОГИЯ СООТНОШЕНИЯ ЗНАНИЯ И ИНФОРМАцИИ

в сетевой форме моделирования естественного интеллекта

В контексте классической теории познания естественный интеллект понимался как вместилище разнородной информации, благодаря которой человек способен действовать адекватно существованию, уменьшая неопределенность окружающего хаоса. Согласно данным представлениям, модель знания — это формализованная в соответствии с определенными структурными планами информация, которая сохраняется в памяти и может быть использована в ходе решения задач на основании заранее запрограммированных схем и алгоритмов.

Проблема построения первых машинных систем искусственного интеллекта трактовалась как необходимость снабжения компьютера информацией о действительности соразмерно знаниям человека об окружающем мире. Считалось, что, обладая количеством информации, достаточным для устранения неопределенности, такая машина способна прийти к формированию однозначного решения.

Однако естественному интеллекту свойственно субъективное отражение мира в процессе познания по типу моделей, где мозг «не запечатлевает поэлементно и пассивно вещественный инвентарь внешнего мира, но налагает на него те операторы, которые моделируют этот мир, отливая модель в последовательно уточняемые и углубляемые формы» [1, с. 287]. По утверждению Д.И. Дубровского, человеку неотъемлемо присуще свойство субъективной реальности, которая есть «динамический континуум сознаваемых состояний человека» [3, с. 84]. Это свойство дает естественному интеллекту способность к

адекватному информационному обмену даже в условиях «информационного дефицита», к обучению, познанию и творческому продуцированию новой информации.

В основе современного сетевого подхода к познанию, известного также как «коннекци-онистский», лежит идея о коммуникативной и контекстуальной структуре знания, функционирующего по сложным нелинейным принципам. При этом модель естественного интеллекта понимается как разветвленная сеть, все элементы которой являются «потенциально связанными между собой и одновременно участвующими в формировании ответа на стимуль-ную конфигурацию» [2, с. 134].

Как пример коннекционистских моделей естественного интеллекта можно рассматривать искусственные нейронные сети. Установлено, что такие структуры способны извлекать знания из данных и обнаруживать в них скрытые закономерности, что было недоступно классическому «компьютерному» интеллекту. При этом знания не передаются в полном объеме, а приобретаются через обучение. Кроме того, в искусственных нейронных сетях наличествует потребность в получении информации и отображении среды в модели, что может рассматриваться как условие возникновения искусственной субъективной реальности, так как такие модели формируются с позиции субъекта.

Однако, как справедливо отмечает Л.Н. Яс-ницкий, компьютерная нейронная сеть, обладая значительными когнитивными возможностями в решении определенного класса задач наподо-

бие естественного интеллекта, как и человек, «не способна объяснить, как она это делает» [9, с. 55]. Такая структура может рассматриваться как черный ящик, имеющий вход, выход и «какое-то почти таинственное, строго не определяемое внутреннее функционирование» [7, с. 190]. В связи с этим актуальными являются более глубокое эпистемологическое изучение информационной структуры знания в коннек-ционистских моделях познавательной деятельности человека и оценка их полезности.

Постановка этой задачи стимулировала развитие исследований нового подхода к моделированию сетевой информационной организации — гипертекста как способа соотношения знания и информации в искусственных интеллектуальных системах. На данном этапе развития науки эта концепция в наибольшей степени соответствует представлениям об информационном устройстве естественного интеллекта и может являться основой для построения самоорганизующихся систем, обладающих признаками ассоциативного мышления.

Концепция гипертекста основана на идее распределенной информационной структуры, элементы которой связаны по средствам унифицированных идентификаторов (частным случаем их является универсальный локатор ресурса, применяемый в глобальной сети «Интернет» для указания ссылок на информационные ресурсы). В таких моделях возможно связывание как целых блоков информации между собой, так и произвольных фрагментов. При этом связи не являются строго фиксированными и могут изменяться как при непосредственном вмешательстве извне, так и автоматически, некоторыми программными агентами.

Прообразом современного гипертекста является устройство автоматизации работы с документами «Мемекс». Идея его была предложена В. Бушем, исходившим из того, что, обрабатывая информацию, мозг оперирует данными через ассоциации, создавая паутину цепочек, в которые включены клетки головного мозга. В модели Буша используется вымышленный автомат «тетех». В него заносятся данные в виде «мемов» — фотографических проекций, имеющих уникальные индексы, а также в форме кода ассоциативных цепочек, объединяющие некоторые из документов. В результате этого появляется возможность восстановить не

только один источник, но и, по сохраненным ассоциациям, всю связанную с ним информацию. Подобный принцип запоминания, поиска и воспроизведения данных в ассоциативных цепочках реализован в современном компьютерном гипертексте.

Дальнейшее формирование компьютерных моделей гипертекста связано с работами Т. Бер-нерса Ли, создавшего протокол его передачи, описывающий принципы хранения знаний в распределенных информационных системах. В техническом плане его реализация представляет собой сетевую структуру, где информация представлена в виде информационных блоков, связанных индексными идентификаторами. В такой среде хранения и поиска каждый фрагмент информации обладает ссылками на другие, а образуемая при этом сетевая структура может непрерывно расширяться без изменения своей основы.

Как модель подобных представлений может рассматриваться глобальная сеть «Интернет», принцип организации которой имеет много схожих признаков с другими моделями распределенного хранения информации, например с нейронными сетями. Так, отдельный компьютер или сервер, включенный в глобальную сеть, в процессе работы активизирует и в некоторых случаях изменяет множество связей с другими узлами наподобие активного нейрона.

Интернет как модель гипертекстовой информационной организации — это динамическая самоорганизующаяся система, обладающая некоторой потенцией к интеллектуальной обработке данных. Это свойство обеспечивается программными агентами — поисковыми системами, являющимися неотъемлемой составляющей Сети. Такие поисковые агенты способны изменять «весовые коэффициенты» гипертекстовых связей между информационными узлами, увеличивая или уменьшая их значимость. В ходе этого процесса осуществляется категоризация и оценка ликвидности информации как ответа на поступивший запрос.

Отличительной особенностью функционирования глобальной сети «Интернет» является также свойство «асинхронного» информационного обмена, как в структурах режима реального времени, так и отложенной обработки. При этом недоступный в данный момент информационный узел включается в обработку под

влиянием изменившихся смысловых связей через некоторый промежуток времени. Таким образом, можно сделать вывод о непрерывной активности данной сетевой модели, в ней процесс организации и модификации информации происходит имманентно даже при отсутствии внешнего воздействия.

Такие изменения реализуются по принципу сложных обратных связей: унифицированный идентификатор объектов выполняет функцию управления по отношению к идущим информационным процессам и в то же время сам актуализируется под действием других таких идентификаторов. Совокупность этих идентификаторов представляет собой разветвленную самоорганизующуюся сетевую структуру, которая определяет отношение знания и информации в гипертекстовой модели.

Функционирование системы унифицированных идентификаторов объектов вполне может рассматриваться как некоторый аналог искусственной субъективной реальности, а концепция гипертекста — как один из возможных подходов к решению задачи моделирования познавательных способностей естественного интеллекта в искусственном. Такой подход не противоречит классическому пониманию знания как вместилища организованной по определенным правилам информации, но расширяет его, делает возможным создание искусственных моделей интеллекта, адекватных естественному прообразу.

Однако на данном этапе развития глобальная информационная сеть не может считаться в полной мере самоорганизующейся системой, а ее возможности по формированию знания из данных на несколько порядков ниже, чем у естественного интеллекта. Причиной этого является исторически сложившийся подход к накоплению и хранению в информационных сетях содержимого, предназначенного для понимания человеком, а не компьютером, что, в свою очередь, является существенным ограничением для формирования искусственной субъективной реальности.

При таком подходе роль «машины» сводится «к функциям хранения, транспортировки данных, их визуализации по указке человека» [6, с. 5]. Таким образом, компьютер, извлекая документ из Сети, не выполняет никаких интеллектуальных функций, он только отобража-

ет компилированный набор данных, оставляя работу со знаниями на человека.

Сеть «Интернет» фактически представляет собой хранилище информации и базу индексов, ключевых слов, сформированную всевозможными поисковыми системами. В процессе поиска необходимой информации человек получает всего лишь индексно связанные с поисковыми терминами данные. В этом случае учитывается только актуальный для данного запроса лексический или синтаксический контекст, но не происходит интерпретации и интеллектуального анализа.

В качестве решения данной проблемы была предложена концепция иного способа информационной организации, получившая название «семантический веб». В его основе лежит идея структурирования и преобразования информации, существующей в сети «Интернет», наподобие ее представления в естественном интеллекте с целью превращения наличествующих в сети разрозненных данных в знание.

Предполагается, что информация должна быть снабжена скрытыми контекстными метками, метаинформацией. Дополнительный слой метаданных предназначается для автоматизированной обработки машинными агентами, и помимо своего прикладного предназначения как структуры, определяющей отношения между элементами гипертекстовой модели, он восполняет недостающую структуризацию данных, приближает их к знаниям. При таком подходе метаинформация представляет собой модель контекста, который является неотъемлемым атрибутом информационного обмена в естественном интеллекте, и позволяет при решении каких-либо сложных интеллектуальных задач ограничиться только значимыми для данной проблемной области методами и процедурами. Как отмечает Т.В. Левашова, в системах, основанных на знаниях, такой контекст позволяет «избежать избыточности и оптимизировать извлечение знаний» [5, с. 34], а также более эффективно использовать ресурсы, осуществляя выбор наиболее релевантной для текущей ситуации или задачи информации.

При этом контекстные метки представляют собой «сеть ограничений», которая используется для категоризации и детерминации информации, значащей или полезной в рамках решаемой задачи, что позволяет «моделировать

и специфицировать задачи с нечеткой или неполной информацией, решать комбинаторные задачи» [5, с. 34].

Для описания контекстных конструктов при моделировании познавательных способностей естественного интеллекта в искусственных системах предполагается использовать онтологии, которые понимаются как совокупность данных и правил их использования, ограничивающих значения в рамках конкретной проблемной области. Онтология есть подробная спецификация структуры определенного контекста, обеспечивающая категоризацию информации.

В сфере сетевых технологий онтология определяется как документ или файл, формально задающий отношения между терминами, а их наиболее типичными видами в глобальной сети «Интернет» являются «таксономия и набор правил вывода» [10]. Такие онтологии отражают «соглашения о единых способах построения и использования концептуализаций» [4], используемых для классификации и описания отношений информации в сложных системах. Основные компоненты онтологии — классы или понятия, которые представляют собой абстрактные группы, коллекции или наборы объектов и образуют таксономическую иерархию. Они могут быть заданы явно либо как результат пересечения, дополнения или объединения других классов.

Еще одним компонентом онтологии являются отношения или свойства, атрибуты, на основе которых формируется тип взаимодействия между понятиями предметной области. При этом сами свойства по определению постоянны, не имеют индивидов и не могут, в свою очередь, иметь свойств. Составляющими онтологии также являются «экземпляры» или индивидуальные элементы, представляющие собой отдельно взятые данные. Они могут быть связаны друг с другом посредством некоторых отношений.

Условно можно выделить два типа он-тологий — специализированные (предметно ориентированные) и общие. Первые содержат описание определенной, как правило, узкоспециализированной области знаний. Вторые используются для представления понятий общих для множества областей. С.А. Яблонский определяет несколько расширенный вариант

классификации. Онтологии верхнего уровня содержат приблизительно 100—3000 концептов, в них включены «наиболее абстрактные категории, обладающие свойством универсальности, которые представляют базовое разбиение действительности на категории» [8]. При этом Яблонский отмечает, что онтологии этого уровня могут быть не лексикализованы, а следовательно, могут использоваться во многих областях и языках.

К следующему типу относятся онтологии среднего уровня (500—10 000 концептов), которые «представляют мир в целом, являясь в общем случае неаксиоматизированной областью» [Там же]. На данном уровне сложность представляет требование вывода слишком большого количества аксиом. В качестве решения этой проблемы выступает автоматизированный вывод аксиом из уже сформированных онтологий.

На нижнем уровне представлены онтологии предметной области (2000—20 000 концептов), которые описывают конкретные специфичные предметные области и содержат большое количество аксиом и правил.

Следует отметить, что изначально целью использования онтологий в информатике было решение определенных инженерно-конструкторских задач, поэтому их разработка осуществлялась не с точки зрения охвата и полноты предметной области, а с точки зрения применимости и достаточности для решения конкретных задач. Так, с точки зрения Т. Бернерса Ли, использование онтологий для описания представления знаний в Сети существенно повышает уровень ее «интеллектуальности» при обработке информации, приближает к выявлению фрагментов знания.

Онтологии связывают два важных аспекта моделирования искусственной познавательной деятельности — они определяют формальную семантику информации, позволяя обработку этой информации компьютером, и семантику реального мира, что дает возможность на основе общей терминологии связывать информацию, представленную в виде, требуемом для компьютерной обработки, с информацией, представленной в удобной форме для восприятия человеком.

Реализация данного подхода в поисковых агентах сети «Интернет» дает возможность со-

отнести информацию, представленную на конкретном ресурсе, со связанной с ней структурой знаний и правилами вывода. При этом в Сети происходят процессы упорядочения и обработки информации, которые сопровождаются выявлением и формированием новых ассоциативных цепочек с фрагментами информации, находящимися на других ресурсах. Применение таких гипертекстовых идентификаторов объектов также обеспечивает необходимую связанность отдельных данных в распределенной сетевой структуре, с их помощью могут быть определены как отдельные данные, отношения между ними, так и онтологические классы, их взаимосвязи и свойства. Одним из достоинств такого подхода является возможность описания одной предметной области с помощью разных онтологий. Их объединение позволяет исследовать задачу с различных точек зрения и с разной степенью детальности.

Таким образом, взаимодействие гипертекстовых онтологий на различных уровнях является наиболее близкой моделью процессов информационной обработки в естественном интеллекте. В рамках такого подхода реализуется модель представления знаний в глобальной динамической структуре, которая содержит в себе описание окружающего мира, внутренних информационных процессов и знания, что открывает возможности для создания интеллектуальных систем высокой степени сложности. Идеи построения искусственного интеллекта на основе принципов соотношения знания и информации в глобальной компьютерной сети в таком контексте выглядят наиболее перспективно. При этом ключевой является задача выявления способов объединения специализированных онтологий и описания единой базисной онтологии как универсального механизма соотношения знания и информации в сложных системах.

СПИСОК ЛИТЕРАТУРЫ

1. Бернштейн, H.A. Очерки по физиологии активности и физиологии движений [Текст] / H.A. Бернштейн. — М.: Медицина, 1966.

2. Величковский, Б.М. Когнитивная наука: Основы психологии познания [Текст]. В 2 т. Т. 1 / Б.М. Величковский. — М.: Смысл : Академия, 2006. - 448 с.

3. Дубровский, Д.И. Сознание, мозг, искусственный интеллект [Текст] / Д.И. Дубровский // Искусств. интеллект: междисциплин. подход / под ред. Д.И. Дубровского, В.А. Лекторского. — М.: ИИн-теЛЛ, 2006. — С. 75—89.

4. Калуцкая, А.П. Гранулярная онтология пространства для когнитивных мобильных роботов [Электронный ресурс] / А.П. Калуцкая, В.Б. Тарасов // Матер. XII Нац. конф. по искусственному интеллекту КИИ-2010. — Режим доступа: http://www.raai. org/resurs/papers/kii-2010/doklad/kalutsk_tarasov.pdf.

5. Левашова, Т.В. Модель контекста в системах интеллектуальной поддержки решений [Текст] / Т.В. Левашова // Тр. ИСА РАН. — 2008. — № 35. — С. 33—42.

6. Манцивода, А.В. Представление и обработка знаний в Интернете [Текст] / А.В. Манцивода, А.А. Малых // Информац. системы и логика. — Вып. 2. - Иркутск, 2005. - 104 с.

7. Шамис, А.Л. Пути моделирования мышления: Активные синергетические нейронные сети, мышление и творчество, формальные модели поведения и «распознавания с пониманием» [Текст] / А.Л. Шамис. - М.: КомКнига, 2006. - 336 с.

8. Яблонский, С.А. Лексические онтологии wordnet в технологиях semantic wеb [Электронный ресурс] / С.А. Яблонский // Программные продукты и системы. - 2009. - № 4. - Режим доступа: http:// www.swsys.ru/index.php?page= article&id=2359.

9. Ясницкий, Л.Н. Введение в искусственный интеллект [Текст] / Л.Н. Ясницкий. - М.: Академия, 2005. - 176 с.

10. Berners-Lee, T. The Semantic Web [Electronic resource] / T. Berners-Lee, J. Hendler, O. Lassila // Scientific American. - 2001. - May 17. - Режим доступа: http://www. scientificamerican.com/article. cfm?id=the-semantic-web.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Одинцов Антон Николаевич

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Одинцов Антон Николаевич

Текст научной работы на тему «Гипертекст как онтология соотношения знания и информации в сетевой форме моделирования естественного интеллекта»