Теоретические аспекты создания библиографической базы данных по строительной физике

Овсянников Михаил Сергеевич; Филонов Михаил Александрович; Ряполов Ярослав Игоревич

УДК 681.5, 004.5, 025.4.03

ОВСЯННИКОВ МИХАИЛ СЕРГЕЕВИЧ, ассистент,

[email protected]

ФИЛОНОВ МИХАИЛ АЛЕКСАНДРОВИЧ, ассистент,

[email protected]

РЯПОЛОВ ЯРОСЛАВ ИГОРЕВИЧ, студент,

[email protected]

Томский государственный университет,

634050, г. Томск, пр. Ленина, 36

ТЕОРЕТИЧЕСКИЕ АСПЕКТЫ СОЗДАНИЯ БИБЛИОГРАФИЧЕСКОЙ БАЗЫ ДАННЫХ ПО СТРОИТЕЛЬНОЙ ФИЗИКЕ*

В статье приводятся математические и информационные основы, положенные в основу автоматизированной базы научных статей и публикаций, разработанной для лаборатории строительной физики ТГАСУ. Рассматриваемое программное решение предназначено для автоматизированного сбора и обработки научных публикаций по строительной физике, опубликованных в сети Интернет.

Ключевые слова: строительная физика, библиографическая база данных, индексация, метаданные, web-mining.

OVSYANNIKOV, MIKHAIL SERGEYEVICH, assistant,

[email protected]

FILONOV, MIKHAIL ALEKSANDROVICH, assistant,

[email protected]

RYAPOLOV, YAROSLAV IGOREVICH, student,

[email protected]

Tomsk State University,

36 Lenin Avenue, Tomsk, 634050, Russia

THEORETICAL ASPECTS OF BIBLIOGRAPHICAL DATABASE IMPLEMENTATION FOR BUILDINGS PHYSICS

The article presents mathematical and informational bases of automated database of scientific papers and research documentation for laboratory of building physics of TSUAB. Described software designed for automatic web-mining, search and processing of scientific papers published in the Internet on subject of building physics.

Keywords: building physics, bibliographic database, indexing, metadata, web-mining.

* Статья подготовлена в рамках выполнения НИР «Восстановление логической структуры документа по его физическому представлению для автоматизированного наполнения веб-ориентированных информационных систем» (Государственный контракт № П1044) федеральной целевой программы «Научные и научно-педагогические кадры инновационной России» на 2009-2013 годы.

В настоящее время в строительных науках, как и во многих других отраслях знания, все более необходимым является отслеживание современных научных тенденций и ведущих разработок проектировочных и строительных компаний, а также производителей строительных материалов. Возможность поиска по каталогу научных публикаций, обновляемому автоматически и отслеживающему новейшие публикации, позволит всегда использовать актуальную информацию.

Для успешного функционирования лаборатории строительной физики Томского государственного архитектурно-строительного университета необходимо как получать актуальные сведения об испытуемых материалах и конструкциях, так и иметь возможность поиска по библиографической базе данных, содержащей статьи по тематике «Строительная физика». В рамках проекта по разработке соответствующей базы данных была поставлена задача разработки механизмов обработки электронных документов формата РББ с возможностью извлечения текста, оглавления, формул и списков литературы, а также разработки модуля полнотекстового поиска по базе документов. Для актуализации базы данных и отслеживания новых публикаций в сети Интернет была поставлена задача разработать интернет-робот для сбора и фильтрации электронных публикаций.

Кроме того, все больше ученых публикуют результаты своей работы в сети Интернет. Организация удобного доступа к научным документам значительно улучшает качество исследовательской деятельности. Проведенные исследования [1] показывают, что среднее число цитируемости у работ, доступных в сети, равно 7, в то время как недоступных - 2,74, что в 2,6 раз меньше. Исследования ясно дают понять - от доступности документа напрямую зависит его используемость. Улучшение доступности научной литературы поможет увеличить эффективность научной деятельности в целом.

Важную роль в развитии доступности научных статей в сети Интернет играют инструменты для создания библиографических баз данных - тематические архивы научных публикаций и инструменты для их заполнения. Создание и развитие подобных систем позволяют упростить процесс публикации статей для авторов, а также обеспечить удобный поиск.

Однако при создании библиографической базы данных встает вопрос об автоматизации процесса заполнения информации о добавляемой публикации. По существующим оценкам [2], чтобы занести в информационную систему 1 миллион документов, необходимо затратить около 60 человеко-лет. В связи с этим особую актуальность получают системы автоматизации построения метаинформации, описывающей оцифрованные документы.

Еще одной важной задачей является индексация документов в уже существующих архивах. Многие издательства, выпускающие научные журналы (например, «Вестник Томского государственного архитектурно-строительного университета»), выкладывают копии публикуемых работ на своих Интернет-ресурсах. Однако большинство из них не индексированы, что затрудняет поиск интересующей информации. Для решения этой проблемы необходимо создавать веб-агентов, целью которых является просмотр существующих архивов научных документов и составление поисковой базы данных.

Необходимо отметить, что подходы и методы для решения подобных задач в отечественной литературе описаны плохо. Целью данной работы является показать теоретические и практически аспекты создания и заполнения библиографической базы данных по строительной физике и организации поиска документов в ней.

В описываемой системе можно выделить следующие модули:

1. Веб-агент, осуществляющий поиск по архивам статей и заполняющий базу данных информацией.

2. Анализ документов на релевантность к описываемой теме.

3. Извлечение метаинформации, описывающей документ, и внесение ее в базу данных.

4. Организация доступа к базе данных по средствам веб-технологий.

Автоматизированный сбор статей

Для обеспечения актуальной библиографической базы данных необходимо обеспечить эффективные механизмы ее наполнения. Одним из наиболее очевидных решений является создание веб-приложения, обеспечивающего ручное добавление статей и тематических материалов в поисковую систему. Таким образом, наполнение базы данных будет решаться администрацией ресурса или самими пользователями. Плюсом данного решения является высокая релевантность добавляемых документов, поскольку материалы, добавленные специалистом в области строительной физики, гарантированно отвечают тематике базы данных. Кроме того, к каждому документу возможно добавлять текстовое описание и расширенные метаполя для облегчения задачи поиска. Так, использование механизма «тегов» позволит производить простую выборку без участия полнотекстового поиска. Для документов, представленных в виде изображений, а также различных изображений материалов и конструкций в виде иллюстрированных каталогов, это решение является единственным подходящим для обеспечения поиска. В то же время добавление электронных публикаций статей, монографий и справочников вручную, через веб-сайт поисковой системы, является трудоемким и не всегда оправданным решением. В случае, когда возможности ручного труда специалистов, обслуживающих базу данных, ограниченны, есть риск медленного наполнения поисковой базы и потери актуальности данных. Одним из способов организации автоматизированного процесса добавления является использование поисковых роботов - специализированных программных решений, отслеживающих появление новых электронных документов в сети Интернет и автоматически добавляющих их в базу. Существуют различные варианты организации процесса поиска и добавления в зависимости от источника документов:

1) автоматизированный поиск по всему Интернету и выделение документов по набору предопределенных критериев;

2) поиск документов на тематических ресурсах (например, архив журнала «Вестник ТГАСУ»);

3) использование поисковых систем общего назначения(Google, Yandex) для поиска документов PDF по набору ключевых слов.

Для реализации проекта для лаборатории строительной физики был выбран третий вариант как обеспечивающий максимальных охват тематических ресурсов, электронных библиотек, а также персональные сайты исследователей и отдельных лабораторий.

Для данного проекта был составлен набор ключевых слов и словосочетаний, отвечающий тематике «Строительная физика» и отдельно для тех направлений, которые представляют особый интерес (акустика, теплотехника, энергосбережение). С использованием специально разработанного поискового робота осуществляется периодичный опрос поисковых систем на наличие документов РББ, отвечающих требуемым критериям. Полученный список документов добавляется в очередь. В дальнейшем по мере скачивания данных документов производится их обработка, и извлеченные данные добавляются в поисковый индекс.

Для решения задачи релевантного наполнения библиографической базы данных может быть добавлен дополнительный этап обработки, предполагающий полуавтоматическое добавление документов в базу после экспертной оценки. В этом случае администратору поисковой системы предлагается оценить соответствие документа тематике «Строительная физика» и по необходимости внести дополнительное описание и метаинформацию для упрощения дальнейшего поиска.

Выделение метаинформации

Формат данных РББ является стандартом для публикации научных трудов в сети Интернет. Помимо визуального представления документа формат предполагает описание метаинформации о документе в специальных полях, таких как «заголовок», «автор», «дата публикации». Однако практика показывает, что метаинформация заполнена редко, а зачастую имеет неадекватные данные. Поэтому важно разрабатывать алгоритмы анализа и автоматического выделения метаинформации из РББ для построения поисковых индексов.

Задача автоматического выделения полной метаинформации документа в общем случае не имеет решения. Однако для заданного типа документов (например, для типа «научная статья») можно построить набор предположений, который бы с достаточной точностью правильно восстанавливал нужную метаинформацию. В качестве примера подобного предположения можно привести правило нахождения заголовка статьи, которое можно сформулировать так: «заголовок статьи располагается на первой странице и набран самым большим шрифтом». От качества набора правил восстановления напрямую зависит эффективность работы алгоритма.

Для выделения метаинформации из научных статей по теме «Строительная физика» был применен эвристический алгоритм, основанный на присвоении описывающих меток текстовым объектам. Таким образом, при помощи меток ставится соответствие между представлением данных (текстовые объекты РББ) и их функциями (например, «заголовок»). При этом одной форме данных может соответствовать несколько функций с различными вероятностями.

После анализа набора статей по тематике был составлен набор эвристик, выделяющих такую метаинформацию, как «авторы статьи», «название статьи», «оглавление».

Выделение заголовков из электронных документов

Приведенный выше подход хорошо работает на РББ-документах, содержащих полную информацию о шрифтовых метриках текста. Однако алгоритм дает сбой при недостаточно полном описании документа. В качестве примера могут служить РББ-документы, в которых используются встроенные шрифты разного размера (разница размеров шрифта различных частей текста уже закодирована в описании шрифта). Тогда при разборе таких документов машинным анализатором весь текст документа может иметь один и тот же размер шрифта. В настоящей системе реализован алгоритм выделения заголовков из текста без использования информации о шрифтовых метриках на основе скрытой марковской модели. По существу, использующийся алгоритм является модифицированным алгоритмом извлечения метаинфомации, который предложен в статье [3]. Структура используемой алгоритмом эвристики разработана на основе эвристики из статьи [4].

Перед началом работы алгоритма строится скрытая марковская модель, которая имеет следующую структуру:

- Множество состояний: состояние заголовка (говорит о том, что любое предложение, соответствующее этому состоянию, является заголовком), состояние предложения текста (говорит о том, что любое предложение, соответствующее этому состоянию, не является заголовком текста).

- Множество исходов: за исход принимается вектор, в котором каждая позиция соответствует определенной части речи (существительное, прилагательное, глагол и т. д.) и элементами которого являются доли слов с заданной частью речи в предложении (только в единицах процентов) от всего количества слов в предложении. Вектор исходов строится при помощи программы морфологического разбора КМЬ. В случае, когда нельзя однозначно определить принадлежность слова к какой-либо части речи, слово относится в класс слов с неопределенной частью речи (отдельная позиция в векторе исходов).

- Множество переходов между состояниями: полагается, что любое состояние может переходить в любое, в том числе и само в себя.

Полученная модель обучается алгоритмом Баума - Велха на некоторой выборке, где все заголовки выделены. Следует отметить, что стоит обучать различные модели с вышеописанной структурой для документов различного жанра (статья, монография и т. д.).

При работе алгоритма электронный документ представляется в виде последовательности векторов исходов, которые строятся на основе предложений текста при помощи программы морфологического разбора. Затем из полученной последовательности векторов исходов по алгоритму Витерби получается наиболее вероятная последовательность состояний модели. Затем осуществляется проход полученной последовательности состояний, и каждому пред-

ложению сопоставляется метка метаинформации в зависимости от того, какому состоянию оно соответствует (если состоянию заголовка - заголовок, иначе - предложение текста).

Выделение математической нотации

Индексирование документов, содержащих математические формулы, не может считаться полным, если математические символы не были обработаны и представлены в стандартизированной форме, которая бы позволила производить поиск и повторное использование информации в математических системах. Большинство документов, которые были созданы в прошлом и впоследствии оцифрованы, а также те документы, которые изначально создавались в цифровом виде, в лучшем случае хранятся в форматах, пригодных для печати, таких как Adobe PostScript. В этих форматах математические формулы не обозначаются специальным образом, что не позволяет легко находить их при компьютерном анализе. Несмотря на то, что существуют специальные форматы для хранения математических формул (такие, как MathML), документы, предназначенные для публикаций, внутренне хранятся без семантических описаний: формулы представлены в необработанном виде.

Однако при огромном количестве научной литературы, которая доступна в сети на сайтах журналов, домашних страницах авторов и в таких архивах, как ArXiv.org и CiteSeer [5] (на данный момент проект CiteSeer проиндексировал больше миллиона документов), вопросы повышения эффективности компьютерной обработки и анализа статей становятся актуальными для обеспечения научной деятельности. Но большинство поисковых машин не обрабатывают математические формулы, а представляют их как обычный текст. Пользователи системы едва ли получат полезную информацию при таком способе обработки математических выражений в исходном тексте. В разработанной системе математические формулы определяются и представляются в читаемом формате. Система предлагает два варианта обработки формул:

1) создание копии изображения фрагмента, на котором была обнаружена формула (в формате GIF);

2) интерпретация математических выражений и их трансляция в специализированные форматы (TeX, MathML).

Второй вариант является более предпочтительным, поскольку он предлагает более гибкий подход к представлению частей текста, где мы можем провести семантический анализ. Другим преимуществом данного варианта является то, что этот способ позволит скопировать выражение и использовать эту формулу в математических системах.

Для определения математических выражений производится анализ информации о символах, шрифтах и позиционировании на листе бумаги при помощи правил, описанных в [6]. Например, для документов, набираемых в системе TeX, гарнитурой для набора текста обычно является Times-Roman, в то время как для математических формул установлена гарнитура Computer

Modern Math Italic. Однако информация об именах шрифтов не всегда сохраняется в выходных PS-документах, так как эта информация является опциональной для словаря шрифтов PS-файлов. Однако даже в самом плохом случае алгоритм может определять изменения шрифта и, присвоив всем уникальным шрифтам в документе номера, построить предположения, какие из них применяются для набора математических выражений.

Каждая строчка начинается с символа или набора символов, которые были обнаружены в входе выполнения PostScript программы. В данном случае использовалась система TeX для набора формул, поэтому следующие предположения верны:

1. Имя функции набрано гарнитурой Computer Modern Math Italic.

2. Скобки набраны гарнитурой Computer Modern Roman.

3. Аргументы функции набраны гарнитурой Computer Modern Math Italic.

Здесь имена шрифтов не указаны, поэтому необходимо строить предположения о том, какие из гарнитур используются для математических выражений, а какие для набора текста.

Реализация алгоритма состоит из трех шагов:

1. Базовое восстановление текста документа PostScript.

2. Группировка текстовых блоков по типам.

3. Поиск особых структур выражений.

Базовое восстановление текста документа производится при помощи аналогичных механизмов. Однако для более полного восстановления были добавлены дополнительные операторы, которые обрабатывают создание векторных объектов и изменения масштаба генерируемого документа.

Правила группировки текстовых блоков по типам обсуждались в статье Фейтмана [7]. Алгоритм ищет блоки, которые могут содержать части математических выражений, а именно:

1. Открывающая скобка, за которой сразу идет закрывающая. Например, «()» или «[]».

2. Математические символы, такие как «+», «=», и символы греческого алфавита.

3. Символы, описанные жирным начертанием.

4. Числа, набранные шрифтом из семейства Roman (Times Roman, CMR);

5. Слова, которые часто встречаются в математических выражениях («cos», «sin»).

На этапе поиска особых структур математических выражений производится анализ определенных PostScript-команд, которые могут создавать специальные математические символы, такие как символ квадратного корня, знак интеграла, знаки деления.

Используя информацию о позиционировании граничного прямоугольника, все элементы сортируются по вертикальной координате, а затем по горизонтальной. К результирующему отсортированному списку объектов применяются правила преобразования, основанные на программах оптического распознавания математических выражений, которые восстанавливают формулы в их исходном виде.

Организация поиска по метаинформации

Для организации эффективного использования библиографической базы данных необходимо не только обеспечить наполнение, но и предоставить доступ к данным на основе поисковых механизмов.

Существует два основных аспекта организации поиска по базе документов. Первое - это создание и использование полнотекстовой поисковой системы. Каждый новый документ, добавляемый в систему, должен быть соответствующим образом обработан, и из него необходимо извлечь текстовое содержимое. В дальнейшем полученный текст обрабатывается поисковой системой и создается полнотекстовый индекс. При создании полнотекстового индекса могут быть учтены особенности конкретного языка для преобразования слов в нормальную форму. В частности, механизм стемминга позволяет усекать окончания у слов на основе специализированного словаря.

Ещё одним направлением организации поиска является обработка метаданных и хранение для документа метаполей. Использование метаданных позволяет хранить вместе с документом дополнительные сведения, такие как ключевые слова, теги, адрес в сети Интернет и т. п. При организации поиска есть возможность производить как отдельные запросы к разным метаполям, так и фильтрацию результатов полнотекстового поиска, например, по тегам. В совокупности данные поисковые механизмы позволяют получать релевантные результаты поиска по библиографической базе данных.

Для системы, разрабатываемой для лаборатории строительной физики ТГАСУ, была использована открытая библиотека Xapian для создания индекса и осуществления поиска. Ключевой особенностью данного поискового решения является поддержка как полнотекстового поиска на основе токенизато-ра с механизмом стемминга, так и поддержка метаполей с функциями многокритериального поиска и фильтрации. В основе поисковой системы является база данных типа Flint, поддерживающая один поток когерентной записи и множественные потоки чтения. Обновление индексов происходит в реальном времени, что особенно важно для обеспечения актуальности данных.

Документы, добавленные в библиографическую базу данных помимо добавления в поисковый индекс, добавляются и в реляционную базу данных. Это позволяет хранить сами документы в исходном формате без потери производительности и большого времени доступа к данным. В тех случаях, когда на индексируемые документы распространяются авторские права, препятствующие хранению индексированных документов, существует возможность создать только поисковый индекс, а оригинал статьи удалить из системы.

Заключение

В статье были рассмотрены математические и информационные основы, положенные в основу автоматизированной базы научных статей и публикаций, разработанной для лаборатории строительной физики ТГАСУ.

В рамках поставленной задачи создания автоматизировано наполняемой базы данных научных статей были разработаны методы и алгоритмы, обеспечивающие эффективное наполнение базы по заданной тематике.

Были использованы авторские подходы и методы для решения данной задачи, разработанные в рамках НИР «Восстановление логической структуры документа по его физическому представлению для автоматизированного наполнения веб-ориентированных информационных систем» в рамках ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 гг.

Кроме того, в статье приводятся теоретические аспекты, положенные в основу следующих модулей:

1. Веб-агент, осуществляющий поиск по архивам статей и заполняющий базу данных информацией.

2. Анализ документов на релевантность к описываемой теме.

3. Извлечение метаинформации, описывающей документ, и внесение ее в базу данных.

4. Организация доступа к базе данных посредством веб-технологий.

В статье также было рассмотрено программное решение, предназначенное для автоматизированного сбора и обработки научных публикаций по тематике «Строительная физика», опубликованных в сети Интернет.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Библиографический список

1. Lawrence, S. Online or invisible / S. Lawrence // Nature. - 2001. - Vol. 411. - №. 6837. -P. 521.

2. Crystal, A. Metadata and Search: Global Corporate Circle / A. Crystal, P. Land // DCMI 2003. Workshop, Seattle, Washington, USA (2003), Retrieved (April 3, 2004) from http://dublincore.org/groups/corporate/Seattle/

3. Seymore, K. Learning hidden Markov model structure for information extraction / K. Seymore,

A. McCallum, R. Rosenfeld // AAAI 1999. Workshop on Machine Learning for Information Extraction (1999).

4. Automatic document metadata extraction using support vector machines / H. Han, C.L. Giles, E. Manavoglu [etc.] // Proceedings of the 3rd ACM/IEEE-CS Joint Conference on Digital Libraries. International Conference on Digital Libraries. IEEE Computer Society Press, Washington, DC (2003). - Р. 37-48.

5. Giles, C.L. CiteSeer: An Automatic Citation Indexing System / C.L. Giles, K.D. Bollacker,

5. Lawrence // Proceedings of the third ACM conference on Digital libraries, Pittsburgh, Pennsylvania, United States. - 1998. - P. 89-98.

6. Fateman, R. How to find mathematics on a scannedpage / R. Fateman// Proc. SPIE Vol. 3967, Document Recognition and Retrieval VII. Daniel P. Lopresti; Jiangying Zhou (eds), December 1999. - Р. 98-109.

7. Optical character recognition and parsing of typeset mathematics / R. Fateman, T. Tokuyasu,

B.P. Berman [etc.] // Journal of Visual Communication and Image Representation. - 1996. -Vol. 7. - № 1. - Р. 2-15.

THEORETICAL ASPECTS OF BIBLIOGRAPHICAL DATABASE IMPLEMENTATION FOR BUILDINGS PHYSICS

Текст научной работы на тему «Теоретические аспекты создания библиографической базы данных по строительной физике»