Научная статья на тему 'Разработка автоматизированной системы сбора информации для автомобильного портала'

Разработка автоматизированной системы сбора информации для автомобильного портала Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
307
71
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВЕБ-ПОРТАЛ / АВТОМАТИЗИРОВАННЫЕ СИСТЕМЫ СБОРА И ОБРАБОТКИ ИНФОРМАЦИИ / AUTOMATED SYSTEMS FOR COLLECTING AND PROCESSING INFORMATION / DOM / ПАРСИНГ / PARSING / WEB-PORTAL

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шайдуров Р. С., Андреева К. А.

Представлена разработка автоматизированной системы сбора информации для наполнения контентом автомобильного портала. Приведены различные методы реализации АССОИ и их сравнение.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

IMPLEMENTATION OF THE AUTOMATED SYSTEM COLLECTING INFORMATION FOR THE AUTOMOBILE PORTAL

The article presents the development of an automated data collection system for filling automobile portal contents. The different methods of implementation of ASSOI and their comparison are also described.

Текст научной работы на тему «Разработка автоматизированной системы сбора информации для автомобильного портала»

Решетнеескцие чтения. 2015

Оценки точности аппроксимации движения

Кроме того, нами была проведена оценка вклада в изменение модуля вектора положения спутника ускорений, вызванных изменениями номинальной ориентации спутника в период нахождения в тени, и эффекта Ярков-ского на теневом и послетеневом участках траектории навигационных спутников. Все эти малые эффекты дают сантиметровые изменения в векторе положения спутников системы ГЛОНАСС, но для высокоточного прогнозирования они должны быть учтены в модели сил [3].

С использованием приведенной выше модели светового давления и с учетом всех перечисленных эффектов были построены эмпирические модели светового давления для всех спутников системы ГЛО-НАСС и определены корреляции между параметрами световой модели для каждого спутника.

Библиографические ссылки

1. Чувашов И. Н. Учет негравитационных эффектов в движении околоземных объектов // Экологиче-

ский вестник научных центров Черноморского экономического сотрудничества. 2013. Т. 3, № 4. С. 145-150.

2. Гаязов И. С. Использование высокоточных наблюдений геодезических и навигационных ИСЗ для решения задач геодинамики : дис. ... д-ра физ.-мат. наук. СПб. : РГБ, 2006. 217 с.

3. Чувашов И. Н. Учет негравитационных эффектов в движении объектов геостационарной зоны // Изв. вузов. Физика. 2013. Т. 56, № 6/3. С. 247-250.

References

1. Chuvashov I. N. Accounting for non-gravitational effects in the motion of near-Earth objects // Ecological Bulletin of Research Centers of the Black Sea Economic Cooperation. 2013. T. 3, no. 4, pp. 145-150.

2. Gayazov I. S. Using high-precision geodetic observations and navigation satellites for solving geodinamikM: thesis for the degree of Doctor of Physics and Mathematics. other sciences. SPb : RSL. 2006. 217 р.

3. Chuvashov I. N. Accounting for non-gravitational effects in the motion of objects geostationary zone // Math. Universities. Physics. 2013. T. 56, no. 6/3, pp. 247-250.

© Чувашов И. Н., Бордовицына Т. В., Кинзерский В. В., 2015

Оценки S, см T, см W, см

По предлагаемой модели 12 13 9

По данным СВОЭВП 20 50 10

УДК 004.942

РАЗРАБОТКА АВТОМАТИЗИРОВАННОЙ СИСТЕМЫ СБОРА ИНФОРМАЦИИ ДЛЯ АВТОМОБИЛЬНОГО ПОРТАЛА

Р. С. Шайдуров1, К. А. Андреева2

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31 Е-mail: [email protected], [email protected]

Представлена разработка автоматизированной системы сбора информации для наполнения контентом автомобильного портала. Приведены различные методы реализации АССОИ и их сравнение.

Ключевые слова: веб-портал, автоматизированные системы сбора и обработки информации, DOM, пар-синг.

IMPLEMENTATION OF THE AUTOMATED SYSTEM COLLECTING INFORMATION

FOR THE AUTOMOBILE PORTAL

R. S. Shaydurov1, K. A. Andreeva2

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected], [email protected]

The article presents the development of an automated data collection system for filling automobile portal contents. The different methods of implementation of ASSOI and their comparison are also described.

Keywords: web-portal, automated systems for collecting and processing information, DOM, parsing.

Автоматизированные системы сбора и обработки тематизации большого объёма данных. Получаемая информации (АССОИ) играют немалую роль при сис- информация со спутников обрабатывается АССОИ и

Программные средства и информационные технологии

представляется в виде системы ключевых параметров, схем и графиков, что способствует лучшему восприятию полученной информации.

Одним из основных этапов создания интернет-портала является наполнение его контентом. В настоящее время данный этап тяжело реализовать с помощью ручного заполнения, так как при современном темпе развития поток информации становится колоссальным. Для решения этой проблемы был придуман такой инструмент, как парсер сайтов. В данной статье под парсингом будет подразумеваться последовательный синтаксический анализ информации, размещенной на интернет-страницах.

Для реализации на своем портале автоматизированной системы сбора и обработки информации необходимо понимать принципы построения модели DOM (Document Object Model), так как собираемая информация будет представлена не в привычном для обычного пользователя виде, а в виде иерархического дерева веб-документа (см. рисунок) [2].

Для реализации АССОИ веб-портала был выбран язык программирования PHP 5.3.13 (Hypertext Preprocessor), СУБД MySQL 5.5 (My Structured Query Language), библиотеки на основе модели DOM.

В работе данного программного продукта можно выделить следующие основные этапы:

1. Получение исходного кода веб-страницы. Для реализации этого этапа была использована библиотека cURL (client Uniform Resource Locator), так как она более продвинутая и альтернативная встроенной функции file_get_contents, которая оказалась неэффективной при парсинге сайтов с защитой от копирайта. Полученный код размещался во временном текстовом файле.

2. Извлечение из html-кода необходимых данных. Получив код страницы и разместив его во временном

текстовом файле, необходимо обработать его. Главными задачами данного этапа являются отделение обычного текста от гипертекстовой разметки, построение иерархического дерева элементов документа, корректная обработка невалидного кода и вычленение необходимой информации [4].

Для реализации отделения нужной информации от гипертекста было опробовано несколько методов:

1. Использование регулярных выражений. Данный метод оказался самым сложным в реализации при обработке сложно структурированных страниц: время при обработке сложных документов регулярными выражениями существенно увеличивалось по сравнению с тем результатом, который давали готовые библиотеки, а также очень часто возникали ошибки при обработке невалидного кода [5]. В результате был сделан вывод, что использование регулярных выражений оправдывает себя при обработке небольших и сложных участков кода либо при комбинировании со специально созданными библиотеками.

2. Использование специальных библиотек. Были выбраны 3 библиотеки: PHP Simple HTML DOM Parser, PHPQuery, Nokogori. Самой простой и понятной в использовании оказалась PHP Simple HTML DOM Parser, но существенным недостатком явились постоянные «утечки» памяти, при которых скорость обработки информации оказывалась очень низкой. Для работы с большим набором данных библиотека оказалась непригодной. Более быстрой, но менее понятной и удобной оказалась библиотека Nokogori.

При встрече с невалидным кодом библиотека оказалась неспособной его обработать, что приводило к ошибкам, и это является существенным недостатком данной библиотеки. В результате был выбран парсер PHPQuery. который оказался самым быстрым и не обладал недостатками рассмотренных выше библиотек [1].

Принцип построения иерархического дерева веб-документа (.DOM-модель)

Решетнееские чтения. 2015

3. Фиксация результата. Результат работы программы заносится в БД. Для ускорения обработки информации, обрабатывая очередную страницу, система заносит в БД не только необходимые данные, но и все внутренние ссылки, встречающиеся на пути. После того как хранилище ссылок заполняется, программа последовательно посещает страницы сайта до тех пор, пока не обойдет их всех [3].

В результате программа обошла за 7,5 часов около 10 000 страниц и собрала около 500 000 необходимых записей. Весь обход происходил в однопоточном режиме, так как язык PHP не поддерживает многопо-точность. Для увеличения эффективности сбора информации за счёт уменьшения времени целесообразней использовать такие языки программирования, как Ruby или Python, так как неоспоримым преимуществом является наличие возможности распределения ресурсов в многопоточном режиме.

Библиографические ссылки

1. Альфред В. Ахо, Моника С. Лам, Рави Сети, Джеффри Д. Ульман. Компиляторы: принципы, технологии и инструментарий = Compilers: Principles, Techniques, and Tools. 2-е изд. М. : Вильямс, 2008.

2. Арноуд Ли Хорс. Откройте для себя ключевые особенности DOM уровня 3. Ч. 1. Операции и сравнение вершин, обработка текста и пользовательских данных // IBM developerWorks. Торронто, 2003.

3. Тинни Нг. Сериализация XML-данных. Сохранение XML-данных с помощью DOMWriter в XML для C++ Парсера // IBM developerWorks. Торронто, 2003.

4. Смит Б. Методы и алгоритмы вычислений на строках (regexp) = Computing Patterns in Strings. М. : Вильямс, 2006. 496 с.

5. Фридл Дж. Регулярные выражения. СПб. : Питер, 2001. 352 с.

References

1. Alfred V. Aho, Monica S. Lam, Ravi Network, Jeffrey D. Ullman. Compilers: Principles, Techniques and Tools = Compilers: Principles, Techniques, and Tools. 2nd ed. M. : Williams, 2008.

2. Arnaud Le Horse. Discover Key Features of DOM Level 3 Core, Part 1. Manipulating and Comparing Nodes, Handling Text and User Data // IBM developer Works, Torronto, 2003.

3. Tinny Ng. Serialize XML Data. Saving XML Data Using DOMWriter in XML for the C++ Parser // IBM developer Works, Torronto, 2003.

4. Smith Bill. Methods and algorithms for computing lines (regexp) = Computing Patterns in Strings. M .: Williams, 2006. 496 p.

5. Friedl George. Regular expressions. St. Petersburg : Peter, 2001. 352 p.

© Шайдуров Р. С., Андреева К. А., 2015

УДК 669.713.7

ИСПОЛЬЗОВАНИЕ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ ДЛЯ СОЗДАНИЯ ВИРТУАЛЬНОГО МУЗЕЯ ОБРАЗОВАТЕЛЬНОЙ ОРГАНИЗАЦИИ

С. Е. Юленков, С. В. Котельникова

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: [email protected]

Рассмотрены цели создания виртуального музея образовательной организации и информационные технологии, используемые для разработки таких проектов, языки программирования, этапы создания и тестирование.

Ключевые слова: виртуальный музей, экспонаты, гиперссылка, верстка сайта, валидность кода, кроссбрау-зерность.

THE USE OF INFORMATION TECHNOLOGY TO CREATE A VIRTUAL MUSEUM OF EDUCATIONAL ORGANIZATION

S. E. Yulenkov, S. V. Kotelnikova

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected]

The article deals with the purposes to create a virtual museum of educational organization and information technology used for development such projects, programming languages, stages of creation, testing and administration.

Keywords: virtual museum, exhibits, hyperlink, sitelayout, the validity ofthe code, cross-browser compatibility.

i Надоели баннеры? Вы всегда можете отключить рекламу.