Научная статья на тему 'Технология ведения и актуализации электронного словаря терминов автоматизированной информационной системы'

Технология ведения и актуализации электронного словаря терминов автоматизированной информационной системы Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
167
58
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Тютюнников Н. Н.

В статье рассмотрены вопросы создания системы словарей автоматизированной информационной системы. Описана разработанная автором технология ведения и актуализации электронного словаря терминов, который является центральной частью терминологического фонда, формируемого путем выписки терминов и определений из документов системы.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Технология ведения и актуализации электронного словаря терминов автоматизированной информационной системы»

3. Stauffer C, Grimson WEL. Adaptive background mixture models for realtime tracking // IEEE International Conference on Computer Vision and Pattern Recognition. - 1999. - Vol. 2. - P. 246-52.

4. Garcia-Martin A., Martinez J.M. Robust Real Time Moving People Detection in Surveillance Scenarios // Video Process. & Understanding Lab., Univ. Autonoma de Madrid. Madrid, Spain.

5. Vargas M., Toral S.L.; Milla J.M., Barrero F. A shadow removal algorithm for vehicle detection based on reflectance ratio and edge density // Dept. of Autom. & Syst. Eng., Univ. of Seville. - Seville, Spain. 2010.

ТЕХНОЛОГИЯ ВЕДЕНИЯ И АКТУАЛИЗАЦИИ ЭЛЕКТРОННОГО СЛОВАРЯ ТЕРМИНОВ АВТОМАТИЗИРОВАННОЙ ИНФОРМАЦИОННОЙ

СИСТЕМЫ

© Тютюнников Н.Н.*

Центральный научно-исследовательский институт экономики, информатики и систем управления, г. Москва

В статье рассмотрены вопросы создания системы словарей автоматизированной информационной системы. Описана разработанная автором технология ведения и актуализации электронного словаря терминов, который является центральной частью терминологического фонда, формируемого путем выписки терминов и определений из документов системы.

В целях эффективного и качественного информационного обеспечения решения стратегических и оперативных задач социального и экономического развития Российской Федерации в настоящее время создаются различные государственные, муниципальные и иные информационные системы, под которыми понимается совокупность содержащейся в базах данных информации и обеспечивающих ее обработку информационных технологий и технических средств [1].

Разработка таких систем осуществляется как автоматизированных систем, то есть систем, состоящих из персонала и комплекса средств автоматизации его деятельности, реализующих информационную технологию выполнения установленных функций [2]. При проектировании автоматизированной системы разрабатываются различные виды ее обеспечения, одним из которых является лингвистическое обеспечение. Оно включает в себя средства формализации естественного языка (систему словарей; правила формализации информации; методы и способы выделения, представления

* Ведущий научный сотрудник департамента Информационных технологий, кандидат технических наук, старший научный сотрудник.

содержания информационных сообщений) и информационные языки (языки общения пользователей и персонала с комплексом средств автоматизации автоматизированной системы; языки описания данных; языки манипулирования данными; языки проектирования и программирования).

Система словарей автоматизированной информационной системы является одним из востребованных пользователями ее компонентов. Примерами таких систем являются справочные правовые системы «Консультант Плюс», «Гарант» и другие [3], одной из составных частей которых является словарь терминов, позволяющий получать не только толкование интересующего понятия, но и находить документ, в котором оно раскрывается.

Ведение и поддержание в актуальном состоянии словаря терминов автоматизированной информационной системы является сложной задачей, требующей больших финансовых затрат и людских ресурсов.

Описываемая в данной статье информационная технология позволяет не только существенно сократить затраты, но и решить проблему автоматического поддержания словаря терминов в актуальном состоянии. Суть данной технологии состоит в создании в автоматизированной информационной системе терминологического фонда, формируемого путем выписки терминов и определений из поступающих в систему документов, и систематического электронного словаря терминов (ЭСТ), являющегося центральной частью такого фонда. Особенность построения ЭСТ состоит в том, что частные систематические словари из терминологического фонда входят в целом или в части касающейся в иерархическую структуру ЭСТ как его компоненты. Изменение частных словарей, терминологический объем которых в различных автоматизированных информационных системах составляет от 60 до 95 %, влечет за собой соответствующие изменения в ЭСТ.

Технология ведения и актуализации ЭСТ, основные этапы которой представлены на рис. 1, в общем случае включает в себя четыре группы работ, могущих выполняться и большинстве случаев выполняемых параллельно:

1. Библиографические работы, включающие в себя как библиографическую деятельность по удовлетворению потребностей в библиографической информации, так и библиографический поиск по нахождению и предоставлению документов на основании библиографических данных.

2. Терминологические работы, сводящиеся к выделению всей совокупности терминов с определениями и комментариями к ним, содержащихся в исходных документах.

3. Аналитические работы, представляющие собой анализ всей совокупности накопленной терминологии на предмет отбора отдельных терминов из разных документов по требуемым условиям.

4. Синтетические работы, обеспечивающие систематизированное и единообразное представление и толкование терминов в рамках всей системы терминов, уже содержащихся в ЭСТ на текущий момент времени.

Отслеживание публикации новых документов

Из готовлен и в электронных документов

Бибп иографическая

обработка, включение в докумв нталь ну ю БД

Пополнение те рм и но л огичес кого фонда

Анализ документов, выделение терминов с определениями и комментариями к ним

Отбор сооокупнмти терминов, проверка актуальности, оценка значимости

Систематизация терминов, установление связей между ними

г

Акту ал изация

ЭСТ

ч. У

»

>

Привязка термина

к рубрикатору.

первоисточникам.

областям

деятельности и т_д

>

\

/ Добавление

терминов

и остальных

компонентов

словарной статьи

ЭСТ --

Библиографические работы

Терминологические работы

Аналитические работы

Синтетические работы)

Рис. 1. Технология ведения и актуализации ЭСТ

Библиографические работы включают в себя:

- отслеживание выхода новых документов и изменений к ним по публикуемым перечням изменений в правовых информационно -поисковых системах или по другим официальным источникам;

- поиск и накопление документов, распространяемых в виде графических образов через средства массовых коммуникаций, а также осуществление работ по изготовлению электронных документов путем сканирования бумажных изданий;

- производство библиографической обработки документов по формированию их библиографической записи для добавления в каталоги документальной базы данных (БД).

Терминологические работы включают в себя:

- выделение из документов статей, разделов или глав, содержащих основные понятия или термины и определения, доведение их до вида загрузки средствами автоматизации, оформление смысловых связей терминов между собой;

- пополнение терминологического фонда путем автоматизированной загрузки в него терминологических статей, полученных из документов, проверка целостности и непротиворечивости всего загружаемого терминологического текста, установление ссылок и связей между всеми загруженными компонентами, доопределение остальных реквизитов терминологических статей, ведущихся в базе данных терминологического фонда.

Аналитические работы включают в себя:

- отбор систематической совокупности терминов, выявление их места в ЭСТ;

- проверка актуальности отобранных определений терминов, включающее в себя поиск первоисточника, из которого первоначально было взято определение при разработке указанного документа (это особенно актуально для словарей терминов без указания первоисточников), проверка действительности исходного нормативного документа и др.;

- оценка значимости отображенных определений терминов, включающая в себя расположение определений терминов в соответствии с уровнем утверждения нормативных документов и (или) «веса» официального издания и др.;

- проведение в случае необходимости локальной систематизации совокупности подготовленных терминологических статей, формулирование названий и при возможности номеров рубрик, соотнесение каждой рубрике набора статей;

- установление связей между терминами путем выделения в определении термина, обозначающее более общее понятие, выделения в комментарии к определению совокупности терминов, обозначающих более частные понятия, выделение в тексте терминологической статьи при необходимости других терминов, входящих в состав текущей или подчиненной рубрики.

Синтетические работы включают в себя:

- добавление подготовленных на предыдущем этапе терминологических статей в ЭСТ с учетом уже накопленных сведений;

- доопределение недостающих компонентов терминологических статей, таких как ранг термина, индикатор сокращения или аббревиатуры, параметры фрагментации статьи, термин по главному слову, гриф ограничения распространения, и др.;

- ведение в ЭСТ рубрикатора, внесение в него использованных сокращений, добавление использованных первоисточников и проведение других информационных работ, а также привязка новых терминологических статей к рубрикам рубрикатора, первоисточникам, областям деятельности и другим компонентам ЭСТ;

- актуализация ЭСТ путем формирования различных копий и фрагментов ЭСТ в формате баз данных, изготовления машинного носителя с программно-информационным изделием, содержащим актуальную версию ЭСТ, или публикации ЭСТ с внесенными изменениями в среде Интернет.

Применение описанной технологии и разработанного для ее использования программных средств в ряде научно-исследовательских и опытно -конструкторских работ на сегодняшний день позволило создать терминологический фонд нормативных правовых актов и нормативно-технических документов автоматизированной системы специального назначения, включающий в себя 25 тысяч терминологических статей. На его основе начато

построение электронного словаря терминов, объем которого в настоящее время достиг 5 тысячи терминов, и работы по систематизации существующего материала продолжаются. Электронный словарь терминов путем выписки из него в части касающейся позволил быстро разработать специализированные электронные словари терминов с узкоспециализированной лексикой, поставляемые в виде информационных изделий для комплексов и подсистем автоматизированной системы.

Таким образом, описанная в данной статье информационная технология ведения и актуализации электронного словаря терминов, являющегося центральной частью терминологического фонда, формируемого путем выписки терминов и определений из поступающих документов, позволяет решить задачу создания и ведения системы словарей автоматизированной информационной системы. Данная технология позволяет не только существенно сократить затраты на проведение терминологических работ, но и решить проблему автоматического поддержания электронного словаря терминов и специализированных словарей, формируемых на его основе, в актуальном состоянии.

Список литературы:

1. Федеральный закон РФ от 27.07.2006 г. № 149-ФЗ. Об информации, информационных технологиях и о защите информации. (В ред. Федерального закона от 06.04.2011 г. № 65-ФЗ). - М.: Консультант Плюс, 2011. - 9 с.

2. ГОСТ 34.003-90. Информационная технология. Комплекс стандартов на автоматизированные системы. Автоматизированные системы. Термины и определения. - М.: Изд-во стандартов, 1991. - 23 с.

3. Федотова Е.Л. Информационные технологии и системы. - М.: МД «Форум», ИНФРА-М, 2009. - 351 с.

ОБРАТНАЯ ЗАДАЧА ВЫПОЛНИМОСТЬ

КАК ИНСТРУМЕНТ АНАЛИЗА В ТЕОРИИ СЛОЖНОСТИ ВЫЧИСЛЕНИЙ

© Харитонов А.В.*

Новоуральский государственный технологический институт НИЯУ МИФИ,

г. Новоуральск

Показано, что задача 2^АТ принадлежит классу РСотрМе, ранее не выделявшемуся, а задача 3^АТ класса №С в общем случае принципиально не может иметь полиномиального решения.

* Старший преподаватель кафедры Автоматизированного управления, кандидат технических наук.

i Надоели баннеры? Вы всегда можете отключить рекламу.