Научная статья на тему 'Использование RDF для аннотирования содержимого текстовых документов'

Использование RDF для аннотирования содержимого текстовых документов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
143
33
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Гвоздинский Анатолий Николаевич, Губин Вадим Александрович, Паршиков Евгений Александрович

Показывается состояние проблематики доступа к данным, хранящимся в Internet, рассматривается проблема их поиска и анализа. Описываются и выделяются основные методы и концепции для повышения эффективности машинного поиска и анализа данных, хранящихся в Internet.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Гвоздинский Анатолий Николаевич, Губин Вадим Александрович, Паршиков Евгений Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

About Using of RDF for Annotation Content of Text Documents

The condition of problem accessing data that stored in Internet. Also problems of their search and the analysis are considered is shown. The basic methods and concepts for increase of efficiency of machine search and the analysis of data stored in Internet are described and allocated.

Текст научной работы на тему «Использование RDF для аннотирования содержимого текстовых документов»

Научная новизна. Результатом проведенного исследования является муравьиный алгоритм поиска оптимального маршрута в городе с заданными критериями оптимальности. Предложена модель взаимодействия всех участников дорожного процесса как единой системы, решающей сложные динамические задачи, не выполнимые без внешнего управления, контроля и координации.

Практическое значение. Результатом применения данного метода является нахождение оптимальных по задаваемым критериям маршрутов, их динамическое перераспределение. При этом если какой-либо участок пути оказывается "переполненным", то прокладывается обходной маршрут, пусть и более длинный. Когда же "трафик" уменьшается, все агенты вновь начинают "проходить" по оптимальному пути. А накопленные в ЦКС данные позволят выделить наиболее проблемные участки в городе.

Список литературы: 1. http://wikipedia.oig 2. National-geographic Роевой интеллект // http://www.national-geographic.ru/ngm/200708/article_139/ 3. Штовба С.Д. Муравьиные алгоритмы // Exponenta Pro. Математика в приложениях. 2003. №4. C. 70-75. 4. Thompson, Jonathan. Ant Colony Optimization. //http:// www.orsoc.org.uk/region/regional/swords/swords.ppt 5. Barker T. and Von Haartman M. Ant Colony Optimization. // http://courses.washington.edu/inde510/510/Ant Colony Optimization? .ppt.

Поступила в редколлегию 07.03.2008 Гвоздинский Анатолий Николаевич, канд. техн. наук, профессор кафедры искусственного интеллекта ХНУРЭ. Научные интересы: оптимизация процедур принятия решений в сложных системах управления. Адрес: Украина, 61166, Харьков, ул. ак. Ляпунова, 7, кв. 9, тел. 702-38-23.

Вертий Артём Владимирович, магистрант кафедры искусственного интеллекта ХНУРЭ. Научные интересы: электронная коммерция, мультиагентные системы. Адрес: Украина, 61166, Харьков, ул. Целиноградская, 36, к. 504.

УДК 519.7

А.Н. ГВОЗДИНСКИЙ, В.А. ГУБИН, Е.А. ПАРШИКОВ

ИСПОЛЬЗОВАНИЕ RDF ДЛЯ АННОТИРОВАНИЯ СОДЕРЖИМОГО ТЕКСТОВЫХ ДОКУМЕНТОВ

Показывается состояние проблематики доступа к данным, хранящимся в Internet, рассматривается проблема их поиска и анализа. Описываются и выделяются основные методы и концепции для повышения эффективности машинного поиска и анализа данных, хранящихся в Internet.

Актуальность исследования определяется тем, что в современном мире самой большой ценностью является информация, а самым большим хранилищем информации сегодня является всемирная сеть Internet. И на сегодняшний день очень остро стоит проблема поиска полезной информации в этом хранилище. По данным исследований сырые, неструктурированные данные составляют не менее 90% информации, с которой имеют дело пользователи. Найти в таких данных нечто ценное можно лишь посредством специализированных технологий.

Состояние проблемы. Как правило, в процессе поиска информации в Internet находят все что угодно, кроме того, что было действительно нужно. Это связанно с тем, что большинство информации во всемирной паутине хранится в виде слабоструктурированных текстовых документов, что значительно усложняет их поиск и анализ, в том числе и автоматизированный. На данный момент эту проблему решают с помощью концепций Semantic Web. Это означает, что вся информация должна быть аннотирована с помощью языков RDF или XML. Но как же быть с информацией, которая уже хранится в Internet? Перегонка этих данных под стандарт Semantic Web сегодня является одной из наиболее важных задач, которые решают специалисты для превращения Internet из свалки, которой он является сейчас, в строго структурированный банк данных и информации, поиск которой не будет занимать много времени. Но тут возникает проблема, как это сделать. Вручную обработка всей информации потребует очень много времени и астрономических вложений материальных и человеческих ресурсов. И сейчас на первый план вышла задача создания систем для автоматизированного аннотирования таких документов.

Сущность исследований. В настоящее время для поиска информации в Internet человек использует преимущественно автоматические поисковики. Но для таких поисковиков информация должна быть в строго структурированном виде. В работе рассматривается сущность слабоструктурированных тестовых документов, основные языки для аннотирования этих документов и основы Semantic Web.

Цель исследования. Проведение анализа современного состояния доступа к данным, находящимся в Internet, и технологий, которые предоставляют возможность облегчить обработку этих данных как машиной, так и человеком.

Согласно мнению социологов, человечество сейчас вошло в постиндустриальную эпоху, которая характеризуется тем, что наибольшей ценностью становятся знание и информация, а с развитием компьютеров электронный формат стал основным для хранения информации. Но сейчас ситуация сложилась так, что только 10-15% этой информации находится в структурированном виде в базах данных, хранилищах информации и т.д. Остальная же информация хранится в текстовых документах различного вида. Еще такие документы называют слабоструктурированными текстовыми документами. Основные их свойства следующие:

1. В них хранится какая-либо информация.

2. Эта информация находится в неявном виде.

3. Информация состоит из пар "концепт-значение".

4. Информация выделена из окружающего текста (средствами форматирования).

5. Нельзя четко определить, что является концептом, а что его значением.

На рис.1 показан пример такого документа. Человек, посмотрев на него, сразу видит, что здесь концепт, а что - его значение. К примеру пары: температура и ее значение "+23-28C". Но для машинной обработки очень сложно найти такие пары, а если они еще и не выделены из текста, то это просто невозможно. Один из минусов такого подхода для разбора документов заключается в том, что для корректного их анализа нам нужна большая выборка однотипных документов этого вида для «обучения» системы, но даже после этого возможны ошибки. После выделения таких пар мы можем приступить к аннотированию документа.

Температура: +23-25С Атмосферное давление: 744мм Влажность воздуха: 50-55 % Ветер: Ю 1-5метр/с Комфорт: +24-26 °С

Рис. 1. Пример слабоструктурированного текстового документа Первыми об аннотировании заговорили ученые из Консорциума W3 в контексте новой концепции по развитию сети Internet. Эта концепция получила название Semantic Web. Целью ее является реализация возможности машинной обработки информации, доступной сети Internet. Основной акцент концепции делается на работе с метаданными, однозначно характеризующими свойства и содержание ресурсов сети, в противовес использованию в настоящее время текстового анализа документов. На рис. 2 мы видим структуру Semantic Web. Для описания метаданных в Semantic Web предполагается использовать XML подобный язык RDF.

На сегодняшний день язык XML дает возможность пользователям создавать документы произвольной структуры, однако он ничего не говорит о том, что означает эта структура. Смысл выражается посредством языка RDF, который кодирует его с помощью деревьев глубины три, где каждое дерево состоит из субъекта (подлежащее), свойства (сказуемое) и объекта (дополнение). Объект можно назвать функцией свойства от субъекта. Например, утверждение «Небо голубого цвета» в RDF-терминологии можно представить следующим образом: субъект — «небо», свойство — «иметь цвет», объект — «голубой». Сегодня наиболее ярким примером использования RDF для аннотации веб-ресурсов является Dublin Core. Концепция Dublin Core хоть и появилась раньше RDF, но теперь это просто аннотации (метаданные) к любым объектам, записанным на RDF с помощью

онтологии Dublin Core. Цель Dublin Core — установить единый формат метаданных для облегчения поиска по автору, названию, году выпуска и т. д. Множество метаданных Dublin Core состоит из 15 элементов: Title, Creator, Subject, Description, Publisher, Contributor, Date, Type, Format, Identifer, Source, Language, Relation, Coverage, Rights.

Trust

Proof

Logic

Pules & Query

Ontology

RDF Model & Syntax

XML Query

XML Schema

XML

Namespaces

URI

Unicode

n

К

Рис. 2. Структура Semantic Web

Аннотирование документов помогает при работе с большим набором разнотипных документов. В случае обработки однотипных документов будут аннотироваться не только сами документы, но и их содержимое, что в итоге упростит задачу их автоматизированной обработки. Для этих целей, как и для аннотации документов, будет использоваться RDF. Его применение в этом случае оправдано универсальностью данного инструмента. RDF дает возможность описывать объекты практически в любом удобном для нас виде и, что важно, уже создано много программных интерфейсов для работы с форматом RDF.

Для аннотирования фрагментов текстовых документов можно использовать расширения системы описания метаданных Dublin Core. В нее добавим, кроме описания самого текстового документа, еще выделенные свойства форматирования для текстовых фрагментов. После проведения анализа можно выделить следующие значимые свойства форматирования: текст фрагмента; размер шрифта; цвет шрифта; цвет фона; жирность/курсив/подчеркивание; выравнивание; тип шрифта.

На основе этих новых добавленных свойств можно будет проводить анализ данного объекта и рассуждать о его принадлежности либо к классу концептов, либо к классу значений. Разделение на такие объекты позволит упростить поиск нужной нам информации.

Так как это направление находится только в начале своего развития, такое решение данной проблемы не претендует на оптимальность и завершенность. Но данное направление при должном его развитии может перерасти в новую глобальную концепцию развития поиска информации как в сети Internet, так и в простых хранилищах данных.

В заключение можно сделать следующие выводы: на сегодняшний день нет абсолютно верного решения проблемы поиска информации в слабоструктурированных текстовых документах. Концепция, предложенная в этой работе, является одной из самых перспективных, существующих на данный момент. И дальнейшее развитие идей будет происходить в данном направлении. Это развитие не обещает быть быстрым, но тот факт, что люди уже стали заниматься этой проблемой и уже сделаны первые шаги в этом направлении, вселяет в нас надежду на то, что указанная проблема может быть решена уже в ближайшем будущем.

Научной новизной данной работы является предложенная концепция перехода от аннотирования документов к аннотированию их содержимого. Показаны плюсы и минусы этого перехода. Предложен один из вариантов для RDF-аннотирования текстовых фрагментов слабоструктурированных текстовых документов.

Практическим значением полученных результатов является то, что их можно использовать для более качественного решения задачи поиска информации в Internet. Выделены возможные варианты для свойств текстовых фрагментов. Данная работа может быть использована как основа для дальнейших исследований на эту тему.

Список литературы: 1. Гаврилова В.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. СПб.: Питер, 2001. 526 с. 2. http://www.w3.org/TR/REC-rdf-syntax/ RDF Primer. W3C Recommendation 10 February 2004; 3. www.w3.org/TR/REC-xml-names/ XML W3C Recommendation 16 August 2006.

Поступила в редколлегию 21.03.2008 Гвоздинский Анатолий Николаевич, канд. тех. наук, профессор кафедры искусственного интеллекта ХНУРЭ. Научные интересы: оптимизация процедур принятия решений в сложных системах управления. Адрес: Украина, 61166, Харьков, ул. ак. Ляпунова 7, кв. 9, тел. 70238-23.

Губин Вадим Александрович, ст. преподаватель кафедры искусственного интеллекта ХНУРЭ. Научные интересы: интеллектуальный анализ текстовых данных. Адрес: Украина, 61054, Харьков, ул. Гв. Широнинцев, 23, кв. 286, тел .710-64-12.

Паршиков Евгений Александрович, студент кафедры искусственного интеллекта ХНУРЭ. Научные интересы: интеллектуальный анализ текстовых данных. Адрес: Украина, 61001, Харьков, пер. Аптекарский, 9, корп. 1, кв. 35, тел. 65-18-86.

УДК 519.713

З.В. ДУДАРЬ, М.В. ЗБИТНЕВА, А.В. КОТЕНКО

ОБРАБОТКА ЭЛЕКТРОННОЙ ПОЧТОВОЙ ИНФОРМАЦИИ ПОЛЬЗОВАТЕЛЯ С ПРИМЕНЕНИЕМ ИНТЕЛЛЕКТУАЛЬНЫХ АГЕНТОВ

Предлагается усовершенствованный метод обработки почтовой электронной информации пользователя с применением агентно-ориентированного подхода. Описывается архитектура многоагентной системы, а также алгоритм обработки электронной почтовой информации, с помощью которых реализуется предложенный метод обработки.

1. Введение

В развитых странах информация является важнейшим объектом производственной деятельности и потребления, поскольку оказывает значительное или даже решающее воздействие на направления и результаты прогресса в научной, технической, культурной и других сферах жизни этих стран [1].

Сказанное в полной мере относится также к деятельности отдельных организаций, фирм, учебных заведений, административно-управленческих органов и физических лиц, являющихся многоаспектными пользователями и производителями разнородной информации. Поэтому информация стала одним из наиболее значимых ресурсов человеческого сообщества и в государственном плане рассматривается как стратегический ресурс [2]. Одним из ключевых аспектов в деятельности человека является обмен информацией как между конкретными индивидуумами, так и между группами людей. За века человек придумал множество различных способов передачи информации, однако наиболее эффективным и распространенным стало письмо. Несмотря на давнее изобретение письма, оно не потеряло актуальности и сегодня, хотя и претерпело значительные видоизменения. Электронная почта является на сегодняшний день одним из самых удобных, доступных и быстрых способов передачи информации. Однако в связи с все возрастающим количеством информации, с которым приходится иметь дело, а также в связи с повсеместным распространением такого досадного явления как спам человеку приходится все труднее эффективно работать с информационными потоками. На помощь ему призваны придти автоматические средства обработки информации [3,4], которые смогут полностью либо частично совершить предобработку полученной информации, тем самым уменьшая затраты человека на выполнение чисто рутинных операций. Таким образом, обработка электронной почтовой информации является актуальной и важной темой в современном обществе.

i Надоели баннеры? Вы всегда можете отключить рекламу.