Научная статья на тему 'Автоматизация получения данных из файлов приложений MS Word'

Автоматизация получения данных из файлов приложений MS Word Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
155
34
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бикчентаев А.А.

Исследованы способы извлечения данных из электронных документов формата MS Word для автоматической передачи в различные информационные системы и даны рекомендации по их применению.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

AUTOMATIC GETTING DATA FROM MICROSOFT WORD DOCUMENTS

The ways of getting data from MS Word documents for automatic transfer to information systems have been researched and the guidelines about these ways usage have been given.

Текст научной работы на тему «Автоматизация получения данных из файлов приложений MS Word»

Информационно-управляющие системы

Работы ведутся, и мы предполагаем, что разраба- Библиографические ссылки

тымшая авгоматкшроваввад система управления L Кытманов А. А. Единая автоматизированная

данными по научно-исследовательской активности система управления данными по научно-

студентов станет отправной точкой социального сти- исследовательской и учебно-методической активно-

мулирования к научной деятельности студентов и сти. Красноярск, 2008. URL: http://research.sfu-

преподавателей. kras.ru/yuong_proj/asu_prepod.

M. V. Barabanova, Yu. B. Kozlova Siberian State Aerospace University named after academician M. F. Reshetnev, Russia, Krasnoyarsk

THE PROBLEM OF ATTRACTION TO SCIENTIFIC ACTIVITY

Modern tendencies of the automated system usage for attraction to scientific activity and also for information processing simplification and accountancy compilling are observed.

© Барабанова М. В., Козлова Ю. Б., 2010

УДК 681.3.06

А. А. Бикчентаев

ОАО «Информационные спутниковые системы» имени академика М. Ф. Решетнева», Россия, Железногорск

АВТОМАТИЗАЦИЯ ПОЛУЧЕНИЯ ДАННЫХ ИЗ ФАЙЛОВ ПРИЛОЖЕНИЙ MS WORD

Исследованы способы извлечения данных из электронных документов формата MS Word для автоматической передачи в различные информационные системы и даны рекомендации по их применению.

В настоящее время при подготовке большого числа документов на предприятиях используются приложения, называемые текстовыми редакторами. При этом зачастую в качестве такой программы выбирается MS Word.

Одновременно с этим происходит повышение статуса электронных документов, признание их первичными, и все более активно используются электронные архивы и системы электронного документооборота.

Однако в процессе дальнейшей работы с полученными документами возникают трудности при использовании содержащихся в них данных.

Целью проведенной работы было исследование возможности решения этого вопроса для того, чтобы в дальнейшем повысить степень автоматизации процессов на ОАО «ИСС».

Одной из задач на ОАО «ИСС», относящейся к рассматриваемой проблеме, является внесение данных по технологической оснастке техпроцесса в базу системы АСТПП.

Задача заключается в следующем. В результате технологического проектирования получают документ - маршрутная карта техпроцесса (МК), содержащий необходимые технологу по подготовке производства (ПП) данные.

Структура документа МК определяется по ГОСТ 3.1118-82.

Технологу ПП в ходе решения поставленной задачи необходимо скопировать из этого документа и внести в систему АСТПП данные по каждой позиции оснастки в техпроцессе, а именно: номер операции, в которой она применяется, ее код и наименование.

В результате работы с документацией [1; 2] было выявлено два способа извлечения данных из документов MS Word:

- анализ документов и применение регулярных выражений [3] (подходит для любых файлов Word);

- использование данных из части документа CustomXML (для файлов Word начиная с версии 2007).

Способ 1. Использование регулярных выражений.

Условие, что документ, рассматриваемый в задаче, имеет регламентированную структуру, позволяет, применяя регулярные выражения, выделить из него строки, содержащие данные об оснастке. Эти строки маркированы в документе заглавной буквой Т в начале.

Далее продолжается разбор уже полученных строк. При этом возникает проблема выделения из содержимого строки кода и наименования оснастки. Для ее успешного решения необходимо для каждого вида оснастки задать свое регулярное отношение.

Способ 2. Использование Custom XML части.

В программах пакета MS Office, начиная с 2007 г., получают файлы в открытом формате MS Open XML. Это позволяет хранить в файлах таких программ опи-

Решетневские чтения

сания данных в виде специальной xml части (custom xml), с обеспечением доступа к ним, используя программу запуска соответствующего приложения.

Таким образом, необходимые данные могут быть извлечены из файла документа, если при его создании эти данные были внесены в custom xml часть.

Способ с использованием регулярных выражений может применяться при анализе структурированных документов, таких как технологические документы, спецификации, различные перечни и т. д. При этом, возможно, возникнет необходимость в дополнительных мерах, повышающих эффективность применения данного способа, таких, например, как унификация кодов оснастки для рассмотренного примера.

Второй способ может использоваться только в том случае, если документы создаются в автоматизированной среде, сохраняющей данные в custom xml части документа.

Библиографические ссылки

1. Библиотека MSDN: Open XML SDK 2.0 для Microsoft Office. URL: http://msdn.microsoft.com/ru-ru/library/bb448854.aspx.

2. Библиотека MSDN: Регулярные выражения. NET Framework. URL: http://msdn.microsoft.com/ ru-ru/library/hs600312.aspx.

3. Фридл Дж. Регулярные выражения. СПб. : Питер, 2001.

A. A. Bikchentaev

JSC «Academician M. F. Reshetnev «Information Satellite Systems», Russia, Zheleznogorsk AUTOMATIC GETTING DATA FROM MICROSOFT WORD DOCUMENTS

The ways of getting data from MS Word documents for automatic transfer to information systems have been researched and the guidelines about these ways usage have been given.

© Бикчентаев А. А., 2010

УДК 629.7.08

Л. К. Большаков Сибирский федеральный университет, Россия, Красноярск А. Б. Вершинин ОАО «Информационные спутниковые системы» имени академика М. Ф. Решетнева», Россия, Железногорск

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ТЕЛЕМЕТРИЧЕСКОЙ ИНФОРМАЦИИ В КОНТУРЕ НАЗЕМНОГО КОМПЛЕКСА УПРАВЛЕНИЯ

Описываются методы интеллектуального анализа данных, применимые к накопленной средствами наземного комплекса управления телеметрической информации. Производится обзор распространенных систем анализа данных, применяемых в космических приложениях.

Рост объемов телеметрической информации приводит к сложности ее обработки. Появляется необходимость автоматизации процесса обработки данной информации. Решение задачи автоматизации становится возможным благодаря использованию методов интеллектуального анализа данных (data mining).

Целью обзора систем методов интеллектуального анализа данных является оценка возможности их практического применения для поддержки принятия решений при управлении космическим аппаратом в нештатных ситуациях, а также мониторинг систем бортовой аппаратуры. Описывается возможность создания специального комплекса программ для решения задач прогнозирования возможности возникновения неисправностей на борту космического аппарата. А также рассматривается возможность внедрения комплекса программ в сектор обработки телеметрической информации, функционирующий на базе открытого акционерного общества ОАО «ИСС».

Проводится обзор и сравнение программных продуктов IMS, Orange и др.

IMS представляет собой инструмент, который в основном использует метод интеллектуального ана-лиза данных, называемый кластеризацией, приеняе-мый для извлечения модели нормального функционирования системы из архивных данных. Программа также работает с данными, поступающими в режиме реального времени. Данные формируются в предопределенную векторную структуру, в которой затем осуществляется поиск отклонений от модели нормального функционирования. IMS используется космическим агентством NASA.

Orange - программное обеспечение для анализа данных со встроенными средствами графической визуализации. Реализовано с помощью инструментария PyQt и QWt, является кросс-платформенным и свободно распространяемым. Также в докладе кратко описывается библиотека Qt, которая является инстру-

i Надоели баннеры? Вы всегда можете отключить рекламу.