также упростить создание и поддержку коммуникационных площадок коллективного и индивидуального общения профессиональных групп разработчиков и пользователей образовательных Интернет-ресурсов.
Немаловажным может оказаться и то обстоятельство, что с помощью различных технических реализаций открытой архитек-
туры порталов можно добиться единой интеграции служб и сервисов системы порталов в целом. К примеру, станет более доступным использование единых новостных лент, систем рассылки, систем тестирования, голосований и систем рекламы, а также упростится использование единого каталога образовательных ресурсов.
Литература
1. Иванников А.Д., Булгаков М.В., Гридина Е.Г. Современное состояние и перспективы развития системы федеральных образовательных порталов // Интернет-порталы: содержание и технологии: Сб. науч. ст. - Вып. 3 / Редкол.: А.Н. Тихонов (пред.) и др.; ГНИИ ИТТ «Информика». - М.: Просвещение, 2005. - 590 с.
2. Симонов А.В. Динамика и перспективы развития образовательных Интернет-ресурсов // Интернет-порталы: содержание и технологии: Сб. науч. ст. - Вып. 3 / Редкол.: А.Н. Тихонов (пред.) и др.; ГНИИ ИТТ «Информика» .- М.: Просвещение, 2005. - 590 с.
3. Иванников А.Д., Тихонов А.Н. Основные положения концепции создания системы образовательных порталов // Интернет-порталы: содержание и технологии: Сб. науч. ст. - Вып. 1 / Редкол.: А.Н. Тихонов (пред.) и др.; ГНИИ ИТТ «Информика». - М.: Просвещение, 2003. - 720 с.
4. Бабинский А.З., Букатов А.А., Шапиро В.А., Шаройко О.В. Определение базовых сервисов, разработка методики наполнения и методов реализации образовательных порталов // Интернет-порталы: содержание и технологии:. Сб. науч. ст. - Вып.1 / Редкол.: Тихонов А.Н. (пред.) и др.; ГНИИ ИТТ «Информика». - М.: Просвещение, 2003. - 720 с.
5. Мордвинов В. А. Аналитические средства и инженерные расчеты в практике проектирования ИС, порталов и картелей. Обеспечение качества сертифицируемых ПС в проектах: Метод. пособие. - М., ОФАП Минобразнауки РФ, 03.06.04., №3637.
6. Соловьев С.Ю. Служба тематических толковых словарей Glossary Commander, Copyright 20002007 «Web-and-Press», www.glossary.ru.
7. Боркус В. Практическое построение SOA: борьба с мифами // PCWeek/RE. - 2006. - № 48.
8. Силаев А.В. Применение синергетических подходов к исследованию информационных систем в образовании // Сб. тез. докл. участников V региональной научн.-практич. конф. «Профессиональная ориентация и методика преподавания в системе школа-ВУЗ», 22 апреля 2004г. - М.: МИРЭА, 2005. - Т. I. -С. 92-95.
СОВРЕМЕННЫЕ СРЕДСТВА ФОРМАЛИЗАЦИИ ДАННЫХ В СИСТЕМАХ ДИСТАНЦИОННОГО ОБРАЗОВАНИЯ
В. В. Соколовский, м. н. с.
Тел.: (903)109-75-86; E-mail: [email protected]) Государственная публичная научно-техническая библиотека России
http://gpntb.ru
Modern society become more demanded from the means of automated semantic processing the information (for example: systems of remote formation). Basis of such systems is a means offormalization of data, works with the formalized data and standards in the field of formalization of data.
Для того чтобы во всем мире независимые друг от друга разработчики могли разрабатывать системы, решающие различные задачи смысловой обработки, которые могли бы взаимодействовать между собой, необходимы стандарты в области взаимодействия систем. Системы должны уметь предоставлять результаты своей работы для решения других задач и, соответственно, использо-
вать результаты других систем для своих нужд.
К таким системам относятся решения, обеспечивающие процесс дистанционного образования, которые должны решать такие задачи, как хранение и корректная обработка информации о преподавателях, студентах, курсах, методических материалах, занятиях. Для целей хранения этой информации раз-
работан стандарт метаданных LOM (Learning Object Metadata standard).
Проблема обеспечения корректной работы с формализованными данными не исчерпывается разработкой стандарта метаданных. Данная работа является обзором основных проблем и решений в области хранения и автоматизированной обработки формализованных данных.
Рассмотрим механизмы и инструменты формализации данных при решении задачи контекстно-свободного поиска информации, являющейся одной из наиболее актуальных задач, решаемых с помощью методов семантического анализа. Постановку этой задачи можно формализовать как нахождение всех текстов из некоего массива, написанных на естественном языке и «похожих» на заданный текст-образец. В качестве характеристики подобия текстов между собой выбирается способ (включая и выбор формулы) для подсчета численной меры подобия. Обычно текстовые документы считаются в той мере подобными друг другу, в какой подобен их терминологический состав.
Текстовые документы на естественном языке можно формализовать в другом виде. С 1968 года начал развиваться подход, предлагающий использовать для представления смысла предложений на естественном языке падежные фреймы (case frame) [1]. При разборе предложения глагол выбирается за основу фрейма и связывается с агентом (тем, кто совершает действие), объектом, местом, временем действия и т.п. Таким образом, предложение, представленное падежным фреймом, можно представить в виде графа, в узлах которого находятся объекты, а ребра графа представляют собой отношения (из некоторого словаря отношений) между этими объектами.
Такой подход, связанный с автоматическим преобразованием текста на естественном языке к формальному графовому виду, практикует рабочая группа AOT (www.aot.ru), основываясь на гипотезе о том, что грамотная декомпиляция языковых механизмов позволит максимально приблизить человеческий язык к современному компью-
теру.
Мера подобия текстов, основанная на частотном анализе терминов, входящих в текстовый документ, хороша своей универсальностью, в отличие от меры подобия, основанной на анализе падежных фреймов или графов текста, использование которой накладывает ограничения на размеры и прочие характеристики текстов [2]. Частотный анализ терминов обладает также меньшей требовательностью к вычислительным ресурсам компьютера, чем синтаксический и семантический разбор предложений. Зато в тех случаях, когда анализ падежных фреймов текста применим, этот подход позволяет увеличить точность поиска.
Другим направлением развития методов поиска, в отличие от контекстно-свободного поиска, является поиск по формализованным данным, описывающим смысл текста (например, ключевые слова, предметные рубрики, аннотация).
Ключевые слова, рубрики, аннотация и другие метаданные, описывающие документ, составляются экспертами в описываемой области или даже автором документа. Качество метаданных, созданных экспертами в описываемой области, пока является недостижимым с помощью программ семантического анализа текста. В настоящее время, в общем случае, метаданные, создаваемые экспертами, описывают ресурс более качественно и точно, чем результаты применения процедур автоматического создания метаданных с использованием семантического анализа полнотекстовых источников. Поэтому достижимая при этом точность поиска по таким метаданным должна быть выше, чем точность поиска по полнотекстовым источникам.
Актуальными при поиске по метаданным являются проблемы интероперабельно-сти форматов метаданных, описанные в работе [3].
Работы по представлению структур понятий и ассоциаций в виде графов и семантических сетей велись с начала XX века [1]. Работы в этой области показали силу графов для моделирования ассоциативного смысла, но были ограничены чрезмерной общностью формализма - были формализованы только самые общие отношения. Исследования в области сетевых представлений часто фокусировались на спецификации этих отношений.
Само по себе представление отношений в виде графов имеет мало преимуществ пе-
ред исчислением предикатов - отличается только запись отношений между объектами. Сила сетевых представлений состоит в определении связей и специфических правил вывода, определяемых механизмом наследования. За счет реализации базовых семантических отношений как части формализма (а не как части знаний о предметной области) базы знаний позволяют автоматизировать работу и обеспечить большую общность и непротиворечивость.
Структуры, в которых набор базовых семантических отношений включает в себя семантические отношения слов на естественном языке, были названы падежными фреймами. Фреймы - это схема представления, ориентированная на включение в строго организованные структуры данных неявных (подразумеваемых) информационных связей, существующих в предметной области. Фреймы расширяют возможности семантических сетей, позволяя представлять сложные объекты не в виде семантической структуры, а в виде единой сущности (фрейма). Это также позволяет естественным образом представить стереотипные сущности, классы, наследование и значения по умолчанию.
Исследования этих идей привели к разработке философии объектно-ориентированного программирования. С 80-х годов XX века начались разработки сетевых языков для моделирования различных предметных областей. Один из таких языков называется концептуальными графами.
Современным воплощением идей концептуальных графов является Semantic Web (семантическая паутина). Semantic Web закреплен системой стандартов. Идеи Semantic Web активно пропагандирует Т. Бернерс-Ли, в свое время много вложивший в концепцию сети Интернет, ныне возглавляющий консорциум W3C по стандартизации веб-
технологий. Механизмы формирования и обработки смысловых определений уже существуют в Семантической паутине как один из технологических уровней, поддерживающих логику предикатов с помощью языка описания онтологий OWL, языка разметки онтологической информации RDF, языка запросов к RDF-документам SPARQL и языка описания правил RIF для систем логического вывода. Семантическая паутина -не набор метаописаний смысла документов, не коллекция аннотаций и определений, подготовленных людьми, она не предназначена для извлечения смысла из текстовых массивов, не нацелена на создание единой онтологии для всего Интернета. Семантическая паутина - схема описания знаний, система классификации и набор онтологий (подчас не связанных друг с другом).
Использование данных со скрытой семантикой сопряжено с рядом проблем. Проблема самодостаточности: если отсутствует неявно подразумеваемая в спецификациях и компьютерных алгоритмах семантика, данные нельзя интерпретировать, и как следствие, обмениваться ими могут только специально предназначенные для этого программы. Проблема дублирования: семантика обработки данных косвенным образом дублируется в коде каждой программы. Проблема интеграции: невозможно реализовать интеграцию разнородных данных, если их формат заранее неизвестен. Формат с открытой семантикой позволяет избежать их.
Помимо решения указанных проблем онтология позволяет достигнуть большей эффективности при поиске данных. Благодаря наличию формального описания логики хранимых данных и возможности вывода новых фактов достигается повышение полноты и точности поиска информации.
Литература
1. Люгер Д. Ф. Искусственный интеллект: стратегии и методы решения сложных проблем / Пер. с англ. / Д. Ф. Люгер. - 4 изд. - М.: Вильямс, 2005. - 864 с.
2. Соколовский В. В. Исследование качества автоматической классификации текстовых документов с использованием семантического графа документа [Электронный ресурс] // Материалы XII Междунар. конф. «Крым-2005». - М.: ГПНТБ России, 2005. - Режим доступа: http ://www.gpntb.ru/win/inter-events/crimea2005/disk/232.pdf.
3. Hammer J. Thalia: Test harness for the assessment of legacy information integration approaches [electronic resource] / J. Hammer, M. Stonebraker, O. Topsakal // In proceedings of 21st international conference on data engineering (ICDE), short paper track, Tokyo, Japan, April 2005. - Режим доступа: http://www.cise.ufl.edu/research/dbintegrate/ICDE2005.pdf.