МАТЕМАТИЧЕСКИЕ И ИНСТРУМЕНТАЛЬНЫЕ МЕТОДЫ
проблема
структуризации
современных
информационных
ресурсов
Васина Елена Николаевна
кандидат технических наук, доцент кафедры информатики РЭУ им. Г. В. Плеханова. Адрес: ФГБОУ ВПО «Российский экономический университет имени Г. В. Плеханова», 117997, Москва, Стремянный пер., д. 36. E-mail: [email protected]
Козлова Ирина Владимировна
кандидат технических наук, доцент кафедры информатики РЭУ им. Г. В. Плеханова. Адрес: ФГБОУ ВПО «Российский экономический университет имени Г. В. Плеханова», 117997, Москва, Стремянный пер., д. 36. E-mail: [email protected]
В статье проведено исследование проблемы классификации информационного пространства документов на основе анализа его свойств и закономерностей развития. Рассматриваются основные понятия, используемые в системах классификации. Фиксируя закономерные связи между классами объектов, классификация служит, с одной стороны, для хранения и поиска информации, содержащейся в ней самой, а с другой - для проведения эффективного поиска информации или каких-либо объектов, содержащихся в информационных ресурсах. Приведен обзор методов и средств динамической структуризации информационных ресурсов в сети Интернет. Предложен подход для решения проблемы структуризации информационного пространства
the problem of modern information resources structuring
Vasina, Elena N.
PhD, Assistant Professor of the Department for Informatics of the PRUE.
Address: Plekhanov Russian University of Economics, 36 Stremyanny Lane, Moscow, 117997, Russian Federation. E-mail: [email protected]
Kozlova, Irina V.
PhD, Assistant Professor of the Department for Informatics of the PRUE.
Address: Plekhanov Russian University of Economics, 36 Stremyanny Lane, Moscow, 117997, Russian Federation. E-mail: [email protected]
The information space classification problem based on the analysis of its features and patterns of development is being studied. An overview of the methods and means of dynamic structuring of Internet information resources is given. The basic concepts in the classification systems are considered. Fixing connections between classes of objects, classification is used, on the one hand, for information storage and retrieval contained in itself, on the other - for effective information or any objects search. An approach to solve the problem of structuring the document's information space, based on thematic structures with pronounced relations between domain terms, is offered.
документов, основанный на построении тематических структур с явно выраженными отношениями между терминами предметной области.
Ключевые слова: проблема классификации, кластеризация, информационное пространство, информационные ресурсы, тематическая структура.
Keywords: classification problem, cluster analysis, information space, information resources, subject domain's thematic structure.
Стремительное развитие новых областей науки за последние десятилетия привело к созданию более детальных систем классификации и тематических рубрикаторов для новых научных направлений. Синергетические явления в развитии науки, приводящие к скачкообразным изменениям интереса ученых к новым научным направлениям, требуют оперативных изменений в существующих классификационных схемах, таблицах, введения новых рубрик.
Новые направления в обработке текстовой информации связаны с созданием динамических, адаптивных систем классификации как при обработке запросов пользователей, так и при структуризации новых информационных ресурсов. Опыт создания таких систем нашел отражение в ряде поисковых систем сети Интернет. Следующий этап развития классификационных систем связан с созданием информационной среды, содержащей интеллектуальные средства для работы с информацией.
В настоящее время к классификационным системам предъявляются различные требования: с одной стороны, структурирование документальной информации для широкого круга пользователей, а с другой - обеспечение оперативного доступа к новым научным направлениям, влияющим на ускорение научно-технического прогресса. Поэтому развитие существующих и разработка новых систем классификации научных направлений - одна из важнейших задач информатики.
Рассмотрим основные понятия, используемые в системах классификации.
Классификация (от лат. с1а$$1$ - разряд, класс и /аао - делаю, раскладываю) - система соподчиненных понятий (классов объектов) какой-либо области знания или деятельности человека.
Классификация, часто представляемая в виде различных по форме схем (таблиц) и используемая как средство для установления связей между этими понятиями или классами объектов, служит для ориентации в многообразии понятий или соответствующих им объектов. Фик-
сируя закономерные связи между классами объектов, определяя местоположение объекта в системе, указывающее на его свойства, классификация служит для хранения и поиска информации, содержащейся в ней самой. Другая задача классификации - проведение эффективного поиска информации или каких-либо объектов, содержащихся в информационных ресурсах.
Подлинно научная классификация должна выражать систему законов, присущих отображаемому в ней фрагменту действительности, которые отражают зафиксированные в классификации свойства и отношения объектов. Классификация изучаемых объектов - традиционный метод познания, в результате которого знания представляются в виде некоторой классификационной схемы. В ней изучаемые объекты группируются в классы по целесообразно выбранным признакам - основаниям классификации [4].
Проблема классификации - это проблема соотнесения наблюдаемого подобия с общей сущностью. Классифицирование - это метод познания системы, основанный на том, что сущность каждого объекта открывается через его сопоставление с подобными объектами путем отыскания его естественного места в системе. Иногда термином «классификация» обозначают процесс разнесения объектов по классам. В основе этого процесса лежит сравнение рассматриваемых объектов с эталонными представителями классов. Этот принцип составляет основу алгоритмов автоматической классификации документов.
Когда классификация представляет собой систему взаимосвязанных понятий, ее структура, как правило, представляется в виде перевернутого дерева: корню соответствует наиболее общее понятие, листьям - самые частные, а узлам разветвлений - остальные названия классов; отрезки, соединяющие вершины, выражают отношения подчинения, в которых находятся более или менее общие понятия.
Естественная классификация научных документов связана с созданием карт науки формальными методами информатики. Однако для большинства пользователей представляет интерес не детальное представление текущего развития науки, а интегрированные знания, содержащиеся в книгах и монографиях. Такому подходу удовлетворяют библиотечные системы классификации. В то же время классификация, базирующаяся на глубоких научных основах, не только представляет общую картину состояния науки или ее фрагмента, но и позволяет делать обоснованные прогнозы относительно новых фактов или закономерностей.
Многообразие и недостаточная упорядоченность новых понятий и терминов, документальных источников информации в условиях информационного взрыва затрудняют поиск и использование необходимых данных, что создает проблему информационного дефицита, за-
трудняя общественное развитие. Применение новых подходов и методов автоматической классификации с элементами интеллектуализации позволит построить более детальные многомерные классификационные схемы на качественно новом уровне.
Создание классификаций на основе баз данных
Современные тематические информационные ресурсы составляют сотни тысяч различных документов. Хранящиеся в виде различных баз данных, они широко используются для работы ученых как в различных организациях, так и в режиме открытого доступа в Интернете. Постоянное увеличение числа документов в информационных ресурсах требует динамических классификационных систем для работы широкого круга пользователей с различными информационными потребностями.
Одним из направлений создания такого рода классификационных систем в ХХ в. стало построение детальных карт развития отдельных направлений науки, вызвавшее большой интерес у ученых - ин-форматиков и науковедов. Первыми создателями карт науки на основании данных из SCI (Science Citation Index, ISI, USA) были С. Прате, Ю. Гарфилд и Г. Смолл [5, 7, 8]. Используя метод цитирования учеными в своих статьях работ предшественников, Ю. Гарфилд объединил статьи в кластеры, отражающие развитие различных научных направлений. Оказалось, что многие кластеры связаны друг с другом через ссылки на общие работы в прошлом. Для классификации научных направлений использовался также метод объединения статей на основе общего цитирования работ предшественников (co-citation method). Для создания современной карты науки [6] на основе базы данных Scopus использовалось более 2,1 млн высокоцитируемых статей из общего числа в 5,6 млн (2003-2006 гг.), которые были разделены на 80 тыс. категорий (кластеров) (рис. 1).
Рис. 1. Карта науки на основе базы данных Scopus
На рис. 1 кластеры отмечены окружностями, размер которых зависит от числа опубликованных работ, а их местоположение определяется отношением к основным наукам, обозначенным на дугах окружности. Чем кластер ближе к центру, тем более междисциплинарным является новое научное направление.
В работе С. А. Иванова «Основы классификации»1 представлены результаты исследования библиографических баз данных по теме «Фракталы и теория хаоса». По мнению автора, библиография является наиболее полной для данной тематической области, так как она включает все документы этого нового научного направления. Для индексации библиографических записей используются ключевые слова. Многоаспектность библиографии позволяет провести статистический лингвистический анализ слов и словосочетаний и оценить эффективность индексирования документов ключевыми словами и словосочетаниями.
Значимость такого анализа состоит в том, что он проводится не на произвольной выборочной совокупности документов, а на уникальном информационном объекте, включающем все известные документы новой предметной области. В этом случае можно говорить о проведении статистических исследований на генеральной совокупности объектов одной природы, а результаты таких исследований обладают наибольшей достоверностью.
Документы тематической области как информационного объекта, созданного социумом ученых, позволяют провести семантический анализ тематической области на основе названий документов и ключевых слов (словосочетаний), предназначенных для информационного поиска, и выявить закономерности краткого, конспективного представления новых научных знаний, содержащихся в документах.
Важно отметить, что такая задача существенно проще, чем создание систем классификации всего научного знания, но даже на этом примере можно увидеть реальные сложности задач классификации.
Семантический анализ множества слов в названиях документов и множества ключевых слов для индексирования во многом объяснил причины введения в библиографические описания документов ключевых слов. Ключевые слова создают тематические многоаспектные кластеры документов и, как следствие, позволяют произвести динамическую структуризацию информационного массива.
Различные научные направления, или тематики, возникают в разное время и находятся на разных уровнях развития, поэтому индексация ключевыми словами стандартизирует терминологическое описание отдельной области знания.
1 См.: Иванов С. А. Основы классификации : учебное пособие / под общ. ред. К. И. Курбакова. - М. : КОС»ИНФ, 2009.
Динамическая классификация в Интернете
В настоящее время в мировой информационной сети Интернет происходят процессы самоорганизации и структурирования различных видов документальной информации. В отличие от процессов структуризации традиционных документов в сети еще не сформировалась своя классификационная система для структуризации документальной информации.
Поисковые серверы при значительном увеличении числа разнообразных документов в сети Интернет, основанных на дескрипторных языках, показали свою несостоятельность. В работе С. А. Иванова1 приведено ранговое гиперболическое распределение (по оси абсцисс -упорядоченный ряд сайтов по мере уменьшения числа страниц, по оси ординат - число страниц на сайте) сайтов Интернета по числу страниц находящихся в них документов. Многие сайты имеют более 10 тыс. страниц (рис. 2).
Рис. 2. Ранговое распределение сайтов по числу имеющихся страниц
Это обусловлено несколькими причинами:
- быстрым развитием мировой информационной сети;
- с начала возникновения мирового ШШШ-информационного пространства не ставилась задача определения областей его применения;
1 См.: Иванов С. А. Основы классификации : учебное пособие / под общ. ред. К. И. Курбакова.
- хранением разнородной информации, ранее не определяемой в традиционных классификационных схемах.
В настоящее время исследования структуры мировой информационной сети только начинаются, в связи с этим предлагаются новые методы решения задач структуризации информации.
Использование информационных технологий совместно со стандартами описаний электронных документов должно создать среду для унифицированных методов обмена данными. В этом случае в сети появится возможность не только их визуализации, но и эффективной автоматической обработки программными комплексами.
Это направление связано с преобразованием документального информационного пространства в систему семантического уровня. Концепция семантического веба представляет собой расширение существующей сети Интернет, при котором информация будет представляться в четком и определенном смысловом значении, дающем возможность людям и компьютерам работать с более высокой степенью взаимопонимания и согласованности [2].
Для реализации концепции семантического веба используются синтаксические методы представления информации языковыми средствами XML. Универсальный синтаксис XML позволяет создавать технологии, предназначенные для работы с древовидной структурой документов, а также адаптивные интерфейсы поисковых серверов, в которых производится динамическая кластеризация результатов информационного поиска.
Появление такого понятия, как «папка поиска» (Custom Search Folders), представляет попытку сгруппировать результаты поиска в кластеры и представить их в наиболее удобном для пользователей виде.
Поисковый сервер iBoogie1 группирует результаты поиска и отображает их в виде, близком к экрану проводника Windows (рис. 3). Такой подход существенно уменьшает время просмотра найденных документов, а названия кластеров дают первое представление об их содержимом. Разделение документов по тематике достигается образованием кластеров второго и третьего уровней.
Vivisimo (Clusty) - еще одна метапоисковая система, использующая поисковые системы для предварительного отбора текстовой информации c последующей кластеризацией результатов поиска2. Алгоритмы работы Vivisimo основаны на использовании стандартной мо-
1 Поисковая система iBoogie [Электронный ресурс]. - URL: http://www.iboogie.com (дата обращения: 18.10.2013).
2 Поисковая система Clusty [Электронный ресурс]. - URL: http://www.clusty.com (дата обращения: 18.10.2013).
дели работы с ключевыми словами и кластеризации результатов поиска.
Аналогичный подход реализован на австралийском поисковом сервере Mooter, где визуализация результатов поиска достигается путем группировки результатов первичного поиска по категориям1. Для этих целей используется беспрецедентный тип искусственного интеллекта, основанный на психологическом моделировании полученной информации. К сожалению, эта система пока еще не вышла из этапа опытной эксплуатации.
Файл Правка Енд Избранное Сервис Справка
Клал ■ - j i i фпоиск 4J Избранное ^Журнал Lö- ■ j
Адрес Р|\М2_Систена_кгассификэиииипЬегпе^1Воод1е ■ MeteSeerch Document clustering Engine and Personaliled Search EngHes Directory.htm
^J (»•Переход J Ссылки "
iBoogie"
Web Directory Images News Add custom tab Ibrancimg processes Vuls 192d
Ssarch [Advanced -'Search
All results
H Branching process model
□ Species
□ Yule distribution
Stochastic models
Abundance of biological taxa yule 1924 Size distribution
Species abundance Distributions -mrMng beyond single prediction
□ Theory of branching processes
Q Mathemaical theory of evolution based Evolutionary processes and theory
□ Evolution
□ Rates
□ Biological process
□ Yule trees
□ Stochastic processes
Stochastic models Boston Q Phylogenles
□ Gene
□ Evoluionaiy processes
□ Literature
□ London
□ Studying
□ Abundance
a
Branching process model contains 34 results out of 171 found
Stochastic models and descriptive statistics for phvloaenetic ... □
In 1924 Yule observed that distributions of number of species per genus ...Branching Processes
Blrkh auser, Boston. Mathematical Reviews (MathSclNet): MR05b .„
http://projecteuciid.org/handie/euciid.ss/998929474.msn
Stochastic models and descriptive statistics for phvloaenetic trees.. □ In 1924 Yule observed that distributions of number of species per genus were Branching Processes with Biological Applications. Wiley, New York....
http://proJecteuclld.org/DlBn.../Summarlze/euclld.ss/99B929474 ■ AiiTh«w«b
Stochastic Models and Descriptive Statistics for Phvloaenetic Trees... 0 Abstract: Yule (1924 ) observed that distributions of number of species per genus were... 79 The Theory of Branching Processes (context) - HARRIS -1963 31 Mathematical Population...
http://citeseer.ist.psu .edu/aldous01 stoctiasic.htsil - usn
A Critical Branching Process Model for Biodiversity* □
Yule [24]proposed the basic model for speclatlons without extinctions.... second parameter Into the model There Is avast mathematical literature on branching processes, but...
http://www.lma.umn.edu/-iea/speciesrev2.pdf-msn
Chapter 22 DETECTING DIVERSIFICATION RATE VARIATION IN SUPERTREES □ Is the so-called equal-rates Markov (ERM) random branching process (Yule ,, tips and through time (e.g., Yule , 1924 ). Nevertheless, the two models are ...
http:/AM«i.phy1odiversitynefbmoore/pdfs/2004_supertree pdf.juiThiWeb
The mean, variance and limiting distribution of two statistics... □ ... common ancestral species called the root and each branching .. byreectingthe footprint left by evolutionary processes ... The most famous IstheYule model (Yule , 1924 ). The Yule http/Aww-timc .imag .fr/oilvler.Francols/bfJ.pdf .usn
| №TepHeT
Рис. 3. Динамическая кластеризация результатов поиска в поисковом сервере iBoogie
Подобные решения, используемые для визуализации и кластеризации самоподобных фрагментов информационного пространства, наглядно демонстрирует интерфейс, представленный службой
1 Поисковый сервер Mooter [Электронный ресурс]. - URL: http://www. mooterme-dia.com (дата обращения: 18.10.2013).
NewsIsFree1. На этом сайте состояние информационного пространства отображается в виде ссылок на источники и отдельные сообщения.
Системы классификации, основанные на кластерном анализе, могут самостоятельно выявлять новые признаки у информационных объектов и распределять их по новым группам. Сервис TouchGraph2 наглядно демонстрирует появление кластерных образований, сформированных подобием информационных объектов, в частности, вебсайтов (TouchGraph Google Browser) (рис. 4). Это направление динамической кластеризации и систематизации данных является наиболее перспективным для построения новых электронных систем классификации.
Рис. 4. Представление информационного пространства в TouchGraph
В настоящее время использование веб-пространства для получения необходимой информации, знаний достаточно проблематично. Действительно, традиционный веб переполнен неструктурированными ресурсами, поисковые системы не могут охватить все, что требуется,
1 Поисковая система NewsIsFree [Электронный ресурс]. - URL: http://www. newsisfree.com (дата обращения: 18.10.2013).
2 Поисковая система TouchGraph [Электронный ресурс]. - URL: http://www. touchgraph.com (дата обращения: 18.10.2013).
а «скрытый» веб, не охватываемый поисковыми системами, живет своей жизнью.
Вместо глобальной базы знаний как результата совместного творчества пользователей Интернета в настоящее время создан глобальный информационный хаос.
Структуризация информационного пространства документов
Классические системы классификации не получили широкого распространения для структуризации данных в сети Интернет. Первоначально в Интернете не предполагалась разработка новых классификационных систем, основные идеи по функционированию глобальной информационной сети были ориентированы на создание системы ссылок между сайтами, которые могли бы объединить близкие по тематике электронные документы (рис. 5).
Internet topology in 2001
Рис. 5. Топология ссылок в сети Интернет
Развитие стихийного процесса объединения документов сдерживалось тем, что классификационная деятельность требовала специальной подготовки и знаний. С такими объемами документальной и графической информации человечество ранее не сталкивалось. В связи с этим главной проблемой стало изучение реального информационного пространства документов, его основных закономерностей.
По мнению Д. В. Ландэ [2; 3], эволюция как Сети в целом, так и отдельных ее сегментов является примером стохастического процесса. В информационном пространстве возникают, формируются, растут и размножаются кластеры - группы взаимосвязанных документов. Они могут служить основой для создания новых динамических систем классификации, так как сами не являются устойчивыми во времени, по-
скольку возникают, исчезают, меняют свои контуры, мигрируют, а взаимодействие между ними носит стохастический характер.
Подход к решению проблемы структуризации сетевого информационного пространства должен состоять в формировании некоего порожденного пространства, обладающего достаточным уровнем упорядоченности и в определенном приближении адекватного исходному. Таким образом, ставится задача отображения неупорядоченного множества составляющих элементов сетевого информационного пространства в упорядоченное множество их образов, обладающее требуемой (например, иерархической) структурой.
Одним из вариантов практического решения данной проблемы являются рубрицированные каталоги веб-сайтов, классифицирующие только сайты, а не входящие в их состав документы, и использующие стандартные, не зависящие от времени наборы определенных рубрик. При этом ограничение состоит не в том, что рубрик недостаточно для полноценной структуризации сетевого информационного пространства, а в том, что они отражают не его реальные свойства, а субъективные представления пользователей о структуре предметной области. Отсюда следует, что внешняя статическая рубрикация не в состоянии отобразить реально существующие в данный момент кластеры.
По мнению авторов, динамическая структуризация сетевого информационного пространства может основываться на тематических структурах (ТС), построенных на терминологических сетях информационного пространства документов [1]. Отличие тематических структур от терминологических сетей состоит в наличии явно выраженных семантических отношений между терминами. Задача создания ТС решается на основе кластеризации терминологической сети, а семантические отношения между терминами определяются методами распознавания образов.
В заключение следует отметить, что без понимания семантических и статистических законов развития мирового информационного пространства, связанного с глобализацией информационных процессов в мире, разработка новых принципов построения классификационных систем представляется бесперспективной.
Список литературы
1. Васина Е. Н., Козлова И. В. Построение тематических структур предметных областей // Современные проблемы науки и образования. - 2013. - № 6. - URL: http://www.science-education.ru/113-11782 (дата обращения: 21.01.2014).
2. Ландэ Д. В. Семантический веб: воплощение идеи // Телеком. -2005. - № 6. - С. 60-65.
3. Ландэ Д. В. Фракталы и кластеры в информационном пространстве // Корпоративные системы. - 2005. - № 6. - URL: http://www.dwl.visti.net/art/frak/ (дата обращения: 18.10.2013).
4. Шрейдер Ю. А. Алгебра классификации // НТИ. - Сер. 2. -1974. - № 9. - С. 3-6.
5. Garfield E., Small H. The Geography of Science: Disciplinary and National Mapping // Current Contents. - 1986. - Vol. 343. - October 27. -P. 3-14.
6. Maps of Science [Электронный ресурс]. - URL: http://www.mapofscience.com (дата обращения: 18.01.2014).
7. Price D. J. D. Networks of Scientific Papers // Science. - 1965. -Vol. 149. - P. 510-515.
8. Small H. Maps of Science as Interdisciplinary Discourse: Co-Citation Contexts and the Role of Analogy // Scientometrics. - 2010. -Vol. 83 (3). - P. 835-849.
References
1. Vasina E. N., Kozlova I. V. Postroenie tematicheskikh struktur predmetnykh oblastey [Creation of Subject Domain's Thematic Structures], Sovremennye problemy nauki i obrazovaniya [Modern Problems of Science and Education], 2013, No. 6. (In Russ.). Available at: http://www.science-education.ru/113-11782 (accessed 21 January 2014).
2. Lande D. V. Semanticheskiy veb: voploshchenie idei [Semantic Web: an Embodiment of the Idea], Telekom [Telecom], 2005, No. 6, pp. 60-65. (In Russ.).
3. Lande D. V. Fraktaly i klastery v informatsionnom prostranstve [Fractals and Clusters in the Information Space], Korporativnye sistemy [Corporate System], 2005, No. 6. (In Russ.). Available at: http:// www.dwl.visti.net/ art/frak/ (accessed 18 October 2013).
4. Shreyder Yu. A. Algebra klassifikatsii [Algebra Classification], NTI, Ser. 2, 1974, No. 9, pp. 3-6. (In Russ.).
5. Garfield E., Small H. The Geography of Science: Disciplinary and National Mapping, Current Contents, 1986, Vol. 343, October 27, pp. 3-14.
6. Maps of Science [Elektronnyy resurs]. Available at: http://www. mapofscience.com (accessed 18 January 2014).
7. Price D. J. D. Networks of Scientific Papers, Science, 1965, Vol. 149, pp. 510-515.
8. Small H. Maps of Science as Interdisciplinary Discourse: Co-Citation Contexts and the Role of Analogy, Scientometrics, 2010, Vol. 83 (3), pp. 835-849.