ЯЗЫК XML ERDF В СОЗДАНИИ СТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ ДЛЯ СЕТИ ИНТЕРНЕТ
Ф.А. Ибрагимова, аспирант Научный руководитель: Г.М. Гаджиев НОУ ВПО «Социально-педагогическийинститут», г. Дербент
На сегодняшний день количество информации в сети Internet, доступной пользователю, огромно и с каждым днем она растет, найти в этом объеме нужную информацию становится весьма сложно. В статье рассматриваются пути решения этой проблемы, т.е. структурирование имеющейся информации и создание таковой в сети Internet. При этом, самым главным выступает подготовка квалифицированных специалистов в области информационных технологий, в частности обученных создавать структурированную информацию.
Ключевые слова: компьютерные технологии, мета-тэг, WWW Консорциум, семантическая сеть, XML, PDF, HTML, Интернет.
Переход к информационному обществу вносит изменения во все сферы жизнедеятельности человека. Требования, предъявляемые ранее к современному специалисту, отличны от тех, которые предъявляются к выпускнику вуза сегодня. Будущий профессионал должен:
• иметь беспрепятственный доступ к разнообразным источникам информации за счет профессионального использования ИКТ и технических средств;
• уметь своевременно, быстро и качественно обрабатывать большие объемы информации, оптимально выбирая ИКТ;
• уметь на основе имеющегося знания создавать новое и применять его к той или иной деятельности;
• обладать способностью к профессиональной мобильности, социальной активности;
• иметь компетентность в смежных областях;
• уметь быстро и эффективно принимать решения;
• иметь способность к постоянному самосовершенствованию, самореализации, саморазвитию [1].
В этой связи можно говорить об острой необходимости подготовки специалистов по упрощению работы в сети. Структурирование имеющейся информации, а также создание структурированной информации является весомым вкладом по упрощению работы в сети не только специалистами, но и обычными пользователями.
Обязательным условием успеха в сложившейсяситуации, на наш взгляд, является умение правильно распорядиться информацией в сети Интернет, для чего приходится решать комплекс задач, порой довольно непростых. Сначала следует отделить нужные данные от ненужных, актуальные от устаревших, достоверные от сомнительных. Затем отобрать для каждого только необходимое - необходимое именно ему, в рамках его жизненных обязанностей.
Складывается парадоксальная ситуация: информационный голод среди окружающего информационного изобилия. Для решения сложившейся проблемы требуется подход, позволяющий решить вопрос снабжения актуальной и необходимой информацией. Одним из способов решения этой непростой задачи можно назвать структурирование имеющейся информации. И еще более важной задачей является обучение структурированию данных в сети. Вот почему нами были проведены исследования именно в этой области.
Что только не пишут об Интернет в средствах массовой информации, какие эпитеты и ярлыки не навешивают - "информационная свалка", "глубокий колодец с малоизученным содержанием", "огромная и крайне запутанная сеть".
Недавно совместными усилиями компаний Alta Vista, Compaq и IBM были проведены исследования с целью создания "карты" Всемирной паутины. В ходе исследований проанализировано свыше 600 млн. уникальных web-страниц на предмет их взаимосвязанности. Результаты оказались впечатляющими! Сеть предстала не такой однородной и пронизанной связями, как казалось. Связаныдруг с другом перекрестными ссылками около 30% сайтов. Большинство их них сгруппированы в "созвездия", внутри которых ресурсы связаны перекрестными и взаимными ссылками, но ссылки очень редко ведут из этих "созвездий" наружу и также редко приводят пользователя извне внутрь сайтового "созвездия". Пока обнаружены четыре примерно равные по размеру области - созвездия. А 10% сайтов вообще изолированы от остальных 90%, так как гиперссылки, которые могут привести пользователя к этой десятой доли сайтов, на остальных ресурсах практически отсутствуют.
Уже сейчас даже профессионалу нелегко найти нужную ему информацию, ведь на сегодняшний день, по оценкам специалистов, количество доступных через Internet документов приближается к 1,5 млрд., и выловить из такой гигантской горы плевел жемчужное зерно - задача нелегкая. К тому же даже наиболее мощные поисковые системы охватывают по отдельности не более 16% имеющихся документов, совокупный же охват, то есть процент документов, проиндексированных хотя бы одной машиной, не превышает 40% всего объема информации. Оставшиеся 60% можно найти лишь случайно. А ведь любая информация в Internet должна быть легко и быстро доступна. Избыток информации - одна из самых глубоких проблем, стоящих перед системой современного знания. Какая информация важна, а какая нет? Как ее отбирать? Сейчас это делается интуитивно. Интуиция своего рода интеллектуальный фильтр, волшебство человеческого мозга. Но дорастет ли до такого уровня Internet?!
В принципе, качество доступа в информационную среду можно обеспечить, во-первых, адаптацией поисковых систем к условиям гиперроста объемов инициируемой в сеть информации.
Специалисты пытаются создать такую машину, которая отвечала бы этим требованиям. Например, компания PageLab Network, Inc. создала систему Subjex, которая ищет информацию не только по запросу, сформулированному в виде логического выражения, но и ведет диалог с пользователем, задает уточняющие вопросы, анализирует ответы на них, более точно указывает на действительно нужные пользователю в данном случае страницы.
Однако эти усилия дадут лишь кратковременный результат. Кардинально решить проблему поиска информации в Сети с использованием этого пути смогут лишь принципиально новые сверхбыстродействующие электронные устройства, такие как, например, квантовые компьютеры.
Во-вторых, внутренним обустройством самой Internet-среды, подразумевающим структурирование, перегруппировку основных узлов информации и консолидирование их по определенным темам. Другими словами, каждый сайт, даже еще не созданный, должен иметь свое определенное место в информационном пространстве Сети, отвечать жестко детерминированным международным требованиям и правилам [2].
Рассмотрим уже существующий и широко применяемый во всем мире способ представления информации в Сети на данный момент, HTML-стандарт.
HTML-стандарты меняются очень медленно - практически за всю историю Web было в сущности всего две версии HTML: HTML 2.0 и HTML 3.2 (HTML 1.0 устарел, а HTML 4.0, хотя и является сегодняшним стандартом, еще только-только начинает появляться на самых популярных сайтах). Когда HTML 3.2 был окончательно утвержден в январе 1997 г., он был в большей степени закреплением уже сложившейся практики, чем нововведением, поскольку почти все элементы, которые были в нем определены, уже почти год использовались неофициально. Просто разработка соглашения по спецификации заняла у World Wide Web Consortium (W3C) слишком много времени.
Поисковые машины возвращают слишком много ссылок - если только вы не стали специалистом в своих любимых поисковых машинах, изучив их схожий, но, тем не менее, раздражающе отличающийся нюансами синтаксис запросов, вы, несомненно, получите на сотни или тысячи ссылок больше, чем вам хватит времени и терпения просмотреть. Если вы необычайно удачливы или искусны, ссылка, которую вы ищете, может оказаться и на первой или второй странице результатов запроса - но не рассчитывайте на это. Проблема в том, что поисковые машины обычно могут всего лишь индексировать частоту слов, заголовков документов и, иногда, мета-тэгов, описывающих содержимое страницы. На самом деле необходим какой-то способ выделения важной части документа и передачи семантики документов, чтобы поисковые машины смогли игнорировать <белый шум> и сконцентрироваться на самом <сигнале>. Иногда поиск требует большей детализации, чем может обеспечить большинство поисковых машин. Например, как бы вы стали бы искать книги, написанные Полом Маккартни, и чем бы этот поиск отличался от поиска книг о нем, о "Beatles" или о "Wings"? Если бы словосочетание "Пол Маккартни" могло бы быть помечено тэгом <AUTHOR> для индикации его специфического значения, тогда такие тонко настроенные запросы могли бы иметь место [2].
Как же можно решить эту проблему?
По мнению СтефенаЭванчикаи его коллег по разработке структурированных интернет-страниц, на сегодняшний день одним из способов решения структурирования информации в сети Internet можно считать расширенный язык XML. «XML» расшифровывается как «Extensible Markup Language», отсюда смело можно сделать вывод, что это потомок HTML. Резонный вопрос: чем же не устраивал разработчиков HTML и что послужило толчком для создания нового языка? Достаточно вспомнить о предназначении HTML: визуальное представление данных. XML же разрабатывался для их структурирования, на что его предок рассчитан не был. HTML концентрируется на отображении данных и их внешнем виде, а XML - на описании данных и их структуре. Отсюда следует, что XML не является заменой HTML. Перед этими языками ставятся абсолютно разные задачи, хотя внешний вид кода схож [2].
В прагматическом плане коротко определить XML можно как кроссплатформенное, программно- и аппаратно-независимое средство для передачи информации.
Как и его предок, новый язык («новый» - в сравнении с HTML, так как XML был разработан года три назад) имеет свои тэги (tags), называемые нодами. Разница лишь в том, что HTML имеет четко определенные тэги (<a>, <p>, <h1> и т.д.), новые тэги появляются лишь по воле разработчиков стандартов и браузеров. В XML совсем другая картина: количество предустановленных (служебных) тэгов минимизировано, и программист волен использовать собственные тэги и собственную структуру документа для хранения данных.
Как же это возможно? Бирон П.В. и другие говорят об XML-языке так, просто XML-этомета-язык, используемый для определения других, специфических для отдельной области или индустрии в целом, языков. Для построения своего собственного языка XML (также именуемого "словарь") вы создаете специфическое описание типа документа (Document Type Definition, DTD), которое, по сути, является контекстно-независимой грамматикой. Другими словами, DTD обеспечивает правила, определяющие элементы и структуру вашего нового языка. Важно понимать, что любой браузер (или приложение) с XML-парсером может интерпретировать наш пример документа, <изучая> правила, определяемые DTD. Откровенно говоря, DTD не является таким уж необходимым. XML-парсеры могут выводить структурные правила языка (включая те, с которыми они никогда ранее не сталкивались) из контекста элементов в конкретном примере документа. Тем не менее, в более сложном словаре XML присутствие DTD более вероятно [3].
Для тех, кто знаком со стандартным обобщенным языком разметки (Standard Generalized Markup Language, SGML), - XML менее сложен, чем SGML, но более сложен, чем HTML. Гово-
рят, что XML соединяет в себе 80% преимуществ SGML и 20% усилий, затрачиваемых на работу с ним.
Практически параллельно с работами по стандартизации XML основатель WWW Консорциума Тим Бернерс-Ли сформулировал новое понятие - Semantic Web - то, каким он видит будущее глобальной сети, и инициировал исследования в этом направлении. В основе предполагаемого им будущего лежит способность машин не только читать, но и понимать содержание Интернет-ресурсов, причем достигнуть этого, по мнению Бернерса-Ли, мы должны не через создание программ искусственного интеллекта, моделирующих деятельность человека, а через использование средств выражения семантики данных и их связей.
Семантическая сеть позволит машинам ПОНИМАТЬ семантику документов и данных, но не человеческую речь или его сочинения о том, что означает эта структура.
Шрайбман Владимирсчитает, что мысл выражается посредством языка RDF, который кодирует его с помощью множества триплетов, где каждый триплет состоит из субъекта, глагола и объекта элементарного предложения. Такие триплеты можно записать с помощью тэгов языка XML. В языке RDF документ состоит из утверждений о том, что нечто (человек, веб-страница или что-либо еще) имеет определенное отношение (как то «быть сестрой», «быть автором») с некоторым определенным значением (другой человек, другая веб-страница). Подобная структура оказывается весьма естественной для описания подавляющего большинства машинно-обрабатываемых данных [4].
Семантическая сеть - это не просто инструмент для решения чьих-то индивидуальных задач, обсуждавшихся до сих пор. Правильно организованная Семантическая сеть может, помимо прочего, способствовать эволюции человеческого знания в целом.
Привсёвозрастающем объеме электронной информации давно и остро стоит задача ее представления в формате, понятном не только человеку, но и интеллектуальной программе. Этот текст является обзорной частью более общей работы, возникшей в результате нашего интереса к технологии RDF. Возможно, он будет интересен и полезен кому-нибудь еще. Самое главноеотличие RDF от XML заключается в том, что RDF предназначен для распределенных данных. Роботы могут собрать разные RDF, написанные разными людьми, и узнать вещи, которых не было явно ни в одном из документов.
Пример:
Из Документа #1 мы знаем, что у Джона есть отец, Ричард.
Вот второй документ (Документ #2):
@prefix : :henrich :hasBrother :han
{ ?a :hasFather ?b . ?b :hasBrother ?c . } => { ?a :hasUncle ?c }
Тут написано, что у Ричарда есть брат Хан. А нижняя строчка - это правило, которое говорит, что если у отца некоего человека А есть брат, то он дядя для персоны А. Объединяем Документ #1 и #2, соблюдаем правило, и вуаля: компьютер знает, что у Джона есть дядя Хан [5].
Таким образом, в условиях современного образования и внедрения инновационных технологий в учебный процесс, можно говорить о необходимости обучения студентов структурированию информации в сети Интернет. А языки XMLиPDF выступают как средства структурирования информации.
Литература
1. Петухова Т.П. Современная парадигма информационного общества как основа стратегии формирования информационной компетенции специалиста // Вестник ОГУ. 2005, 1.
2. Стефен Эванчик, Луис Вайцман, Элистер Льюис-Боуэн. КЛУБ ЗНАТОКОВ DATAWAREH-OUSE, OLAP, XML. XML: структурирование данных для Web //[электронный ресурс] http://www.developerworks.ru, 2008.
3. Бирон П.В., Малотра А. XMLSchemaPart 2: Datatypes // [электронный ресурс]
http://www.w3.org/TR/2000/WD-xmlschema-2-20000407, Апрель 2000.
4. Стин Декер, Сергей Мельник, Франк ван Хермелен и др. "Semantic Web: роли XML и RDF", "Открытые системы" // [электронный ресурс] http://osp.admin.tomsk.ru/os/2001/ 09/041.htm, Сентябрь 2007.
5. Шрайбман Владимир. Выражение семантики данных. RDF против XML // [электронный ресурс] [email protected], 2002.