Научная статья на тему 'АЛГОРИТМ АВТОМАТИЗИРОВАННОГО ПОИСКА ВЕДОМСТВЕННЫХ ДОКУМЕНТОВ НА ОСНОВЕ ИНВЕРСНОЙ ЧАСТОТЫ ПОЯВЛЕНИЯ ТЕРМИНОВ В ТЕКСТЕ'

АЛГОРИТМ АВТОМАТИЗИРОВАННОГО ПОИСКА ВЕДОМСТВЕННЫХ ДОКУМЕНТОВ НА ОСНОВЕ ИНВЕРСНОЙ ЧАСТОТЫ ПОЯВЛЕНИЯ ТЕРМИНОВ В ТЕКСТЕ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ведомственные документы / классификация документов / библиотечные классификации / реквизиты документов / номенклатура документов / departmental documents / classification of documents / library classifications / details of documents / nomenclature of documents

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Архангельский Алексей Алексеевич, Шемякин Виктор Николаевич

Статья посвящена проблеме совершенствования ведомственной классификации документов при использовании компьютерной техники. Приведены сведения о разных видах библиотечных классификаций, определены направления классификации ведомственных документов. Разработан алгоритм автоматизированного поиска документов на основе инверсной частоты появления терминов в тексте.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Архангельский Алексей Алексеевич, Шемякин Виктор Николаевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

AUTOMATED SEARCH ALGORITHM DEPARTMENTAL DOCUMENTS BASED ON INVERSE FREQUENCY THE APPEARANCE OF TERMS IN THE TEXT

The article is devoted to the problem of improving the departmental classification of documents when using computer technology. Information about different types of library classifications is given, the directions of the classification of departmental documents are determined. The algorithm of automated search for documents based on the inverse frequency of the appearance of terms in the text has been developed.

Текст научной работы на тему «АЛГОРИТМ АВТОМАТИЗИРОВАННОГО ПОИСКА ВЕДОМСТВЕННЫХ ДОКУМЕНТОВ НА ОСНОВЕ ИНВЕРСНОЙ ЧАСТОТЫ ПОЯВЛЕНИЯ ТЕРМИНОВ В ТЕКСТЕ»

Voytsekhovsky Stanislav Vitalievich, candidate of technical sciences, docent, head of chair, vka_kaf27_1@,mil.ru, Russia, Saint Petersburg, A.F. Mozhaysky's Military Space Academy,

Shulzhenko Anastasia Dmitrievna, candidate of technical sciences, head of the laboratory, [email protected], Russia, Saint Petersburg, A.F. Mozhaysky's Military Space Academy,

Levchik Eduard Stepanovich, applicant, [email protected], Russia, Saint Petersburg, A.F. Mozhaysky's Military Space Academy

УДК 004 (75)

DOI: 10.24412/2071-6168-2024-1-201-202

АЛГОРИТМ АВТОМАТИЗИРОВАННОГО ПОИСКА ВЕДОМСТВЕННЫХ ДОКУМЕНТОВ НА ОСНОВЕ ИНВЕРСНОЙ ЧАСТОТЫ ПОЯВЛЕНИЯ ТЕРМИНОВ В ТЕКСТЕ

А.А. Архангельский, В.Н. Шемякин

Статья посвящена проблеме совершенствования ведомственной классификации документов при использовании компьютерной техники. Приведены сведения о разных видах библиотечных классификаций, определены направления классификации ведомственных документов. Разработан алгоритм автоматизированного поиска документов на основе инверсной частоты появления терминов в тексте.

Ключевые слова: ведомственные документы, классификация документов, библиотечные классификации, реквизиты документов, номенклатура документов.

В процессе служебной деятельности используется большое количество документов. Если необходимо быстро найти какой-либо из них, то для этого следует организовать систематизированное хранение документов, то есть разделить их на группы (классы). Классификация непубликуемых документов в учреждениях отличается от классификации печатной продукции: книг, журналов, научно-технической информации и заявок на изобретения, патенты. К непубликуемым документам относятся директивы, приказы, распоряжения, протоколы и т. д.

Статья посвящена проблеме совершенствования ведомственной классификации документов в условиях перехода к электронному документообороту.

Актуальность темы статьи определяется необходимостью совершенствования ведомственной классификации документов, сохраняющей преемственность с существующими системами, при введении электронного документооборота.

В работе содержится решение задачи последовательности перехода от бумажного к электронному документообороту и указание групп документов, используемых для классификации ведомственных документов.

Целью статьи является разработка алгоритма поиска документов при использовании электронных баз данных.

Основное отличие данного материала заключается в подходе, при котором предлагается совместно использовать различные системы классификации документов, в том числе, сочетание классификаций и перечней, используемых в бумажном и электронном документообороте.

В текущих ведомственных документах отражается специфика работы, структуры, номенклатуры дел ведомства, которая может стать основой для их классификации.

Одним из хорошо развитых направлений классификации объектов, относящихся к печатной продукции, является группа библиотечных классификаций, которая может быть частично использована при систематизации документов.

Виды классификаций документов. В настоящее время применяются следующие системы классификации печатной продукции [1]: библиотечно-библиографическая классификация (ББК); универсальная десятичная классификация (УДК); «Государственный рубрикатор научно-технической информации» (ГРНТИ). Эти классификации связаны с использованием систематизации наук, отраслей производства, видов человеческой деятельности.

Библиотечно-библиографическая классификация является национальной классификационной системой Российской Федерации. Эта классификация признана экспертами Международного общества по организации знаний (ККО) и является одной из крупнейших универсальных классификационных систем, применяемых в современном мире [2]. Национальная классификационная система Российской Федерации подробно отражает историю, философию, экономику, географию России, культуру и искусство народов страны.

Универсальная десятичная классификация - международная классификация создана в Международном библиографическом институте в 1895-1905 годах [3].

Государственный рубрикатор научно-технической информации представляет собой иерархическую классификацию областей знания, принятую для систематизации всего потока научно-технической информации. На основе ГРНТИ построена система отраслевых и тематических рубрикаторов научно-технической информации.

На основе рубрикатора производится:

- определение тематического описания информационных служб, систем, ресурсов;

- систематизация материалов в информационных изданиях;

- индексирование документов и поиска их по рубрикам;

- адресации запросов в информационных сетях.

В состав ГРНТИ входят отдельные классификации по нескольким десяткам областей знания:

математика и вычислительные науки; механика; физика; астрономия, геодезия и космические исследования; география; геология; и т.д.

В Министерстве обороны Российской Федерации при организации библиотечной работы используются классификаторы ББК, УДК, ГРНТИ.

Направления классификации ведомственных документов. Библиотечные классификаторы разрабатывались для работы с книгами и периодическими изданиями. Поиск книг происходит по названию, автору, теме и прямой перенос таких систем классификации на работу с текущими документами затруднителен. Это связано со спецификой обработки документов, когда на письма или запросы необходим ответ. В некоторых случаях последовательность «запрос-ответ» повторяется многократно. В библиотечных классификациях часть функций необходимых для работы с текущими документами отсутствует.

Рассмотрим некоторые из возможных направлений классификации текущих документов, которые могут использоваться в дальнейшем при организации электронных баз данных для поиска документов.

В журнале, предназначенном для регистрации обычных входящих документов, 11 основных граф: название вида документа; дата поступления; индекс поступления; корреспондент; номер и дата документа; заголовок (краткое содержание); резолюция; исполнитель; срок исполнения; отметка об исполнении; номер дела.

Другим источником признаков классификации является номенклатура дел организации. Составление номенклатуры является элементом бумажного документообо-

рота, который является в своей основе классификатором с разделением документов на крупные группы. Номенклатура дел предназначена для группировки исполненных документов в дела, систематизации и учета дел, определения сроков их хранения.

Закрепленная в номенклатуре схема систематизации дел может быть использована при разработке схемы картотеки на исполненные документы, номенклатура дел также может применяться при построении информационно-поисковой системы по документам организации.

Перечень отдельных реквизитов документов также можно использовать для классификации документов и составления картотек [4]:

07 - код формы документа;

08 - наименование организации;

10 - наименование вида документа;

11 - дата документа;

12 - регистрационный номер документа;

13 - ссылка на регистрационный номер и дату документа;

14 - место составления или издания документа;

15 - адресат;

16 - гриф утверждения документа;

17 - резолюция;

18 - заголовок к тексту;

19 - отметка о контроле;

20 - текст документа;

21 - отметка о наличии приложения;

22 - подпись;

23 - гриф согласования документа;

24 - визы согласования документа.

Составление таких картотек в современных условиях производится на основе электронных баз данных (БД), что является элементом, подготавливающим переход к использованию системы электронного документооборота (СЭД).

Группы документов, соответствующих «Перечню видов документов, передаваемых при взаимодействии федеральных органов исполнительной власти, органов исполнительной власти субъектов Российской Федерации, государственных внебюджетных фондов в электронном виде», утвержденному распоряжением Правительства Российской Федерации от 2 апреля 2015 года № 583-р [5], можно использовать в качестве основы классификации документов.

В соответствии с изложенным, основными группами документов, которые могут использоваться, как источник для классификации, являются:

- группы документов, соответствующих «Перечню видов документов...», в данном примере - 19 групп (по содержанию);

- группы документов, соответствующих номенклатуре дел учреждения, для академии - 21 группа (по содержанию);

- группы документов, соответствующих системе классификации по реквизитам документов - 17 групп (по реквизитам).

Для использования в качестве признаков выборки в электронных базах данных приведенные классификации и перечни необходимо привести к единому виду, убрав повторяющиеся элементы классификации. Это позволит в дальнейшем разработать классификатор для данной группы документов и использовать электронные информационно-поисковые системы.

Комплекс электронных справочников (баз данных описаний документов), предназначенных для поиска документов и информации лежит в основе автоматизированного научно-справочного аппарата (НСА).

Автоматизированный НСА может базироваться на информационно-поисковой системе, создаваемой в текущем делопроизводстве организации, и прежде всего таких

ее элементах, как электронные справочные картотеки, номенклатуры дел, классификаторы (корреспондентов, структурных подразделений, названий видов документов и

др-)-

Основными полями электронной регистрационно-контрольной карточки (РКК) являются: автор (корреспондент), название вида документа, дата, индекс документа, заголовок (краткое содержание), резолюция, срок исполнения, отметка об исполнении, архивный шифр.

Поиск информации о документе может осуществляться как по одному полю РКК, так и по комбинации полей.

Поле РКК «номер дела по номенклатуре» является связующим поисковым реквизитом при переходе от поиска информации на уровне документа к поиску на уровне дела.

Основными поисковыми реквизитами номенклатуры дел являются: индекс дела, заголовок дела (тома, части), количество дел (томов, частей), срок хранения и статья по перечню.

На основе электронной номенклатуры дел в автоматизированном режиме осуществляется формирование описей дел.

В электронной описи содержатся реквизиты описания информации на уровне дела. Обязательными реквизитами описания являются: порядковый номер записи (номер дела), индекс дела, заголовок дела, указание на вид документа (подлинник, копия), крайние даты документов, количество листов в деле, аннотация документов.

В традиционном НСА виды и разновидности каталогов (систематический, тематический, именной и др.) связаны между собой системой отсылок, а в автоматизированном режиме формируется один электронный каталог, содержащий описание на уровне документа или дела.

Алгоритм автоматизированного поиска текстов на основе инверсной частоты. При сортировке текстов и выборе ключевых слов используются различные количественные оценки, одной из которых является мера инверсной частоты термина. В основе методики TF (Term Frequency) лежит определение частоты появления термина в массиве документов. Этот подход используется для расстановки ключевых слов в соответствии с их весами в тексте. Для удобства работы используется логарифм инверсной частоты - эта величина больше единицы [6].

Мера инверсной частоты появления термина [6] задается следующим выражением (1):

Wi = log(No/F) ; 0<wI<\ogN0, (1)

где Wi - мера инверсной частоты появления термина; No - общее количество документов информационного массива; Fi - количество документов информационного массива, содержащее определенный термин.

Такая мера разбивает все терминологическое пространство на множество частей m = log No со значениями весов по формуле (2):

0<wi < 1,1 < W2 <2,... (logNo) - 1 < woClogJVo. (2)

При этом в первой части массива находятся термины более общие для данного объема текстов.

Определение весов терминов внутри документа можно производить на основе логарифмической функции от количества упоминаний данного термина, что соответствует формуле (3):

Wi = log(5,) , (3)

где Si - количество упоминаний i -го термина.

В качестве примера определения весов приведен отрывок из технического текста:

«Информационные системы можно классифицировать по видам обрабатываемой информации:

- текстовые процессоры;

- графические процессоры и редакторы;

- экспертные системы;

- мультимедийные системы.

Обеспечение информационных систем подразделяется на следующие виды: информационное, техническое, математическое и программное, методическое, лингвистическое, правовое и организационное».

Термин «система» в данном тексте используется 4 раза, термин «процессор» 2 раза. При основании логарифма равном 2, получим, что вес термина «система» равен -2, а вес термина «процессор» - 1. Логарифмическая функция при использовании этой количественной оценки удобна при большом количестве терминов в текстах. Расстановка ключевых слов по весам используется при составлении алгоритмов поиска информации.

Рассмотрим пример построения алгоритма поиска документов с упоминанием данного термина, на основе меры инверсной частоты. В хранилище находятся 2048 документов, это множество разделено на 4 части по 512 документов, для каждой из которых определено значение инверсной частоты по данному термину, поиск проводится по термину «процессор». Количество документов, содержащих термин «процессор» в блоках из 512 элементов следующее: 128, 64, 32, 16, что соответствует инверсным частотам 2, 3, 4, 5.

Порядок поиска документов в блоках определяется по величине логарифма инверсной частоты по данному термину, начиная с меньшего значения.

вв од статистических данных для расчета инверсной частоты по заданному тернину

расчет инверсной частоты и порядка поиска по блокам массива документов

автоматический поиск: документов

продолжить поиск документов в других блоках массива

Сортировкадокументов для выдачи абонент}'

по дате, теме и т.д.

Схема алгоритма поиска документов по наличию в тексте данного термина

На рисунке показана схема алгоритма поиска документов по наличию в тексте данного термина. Рассмотрим пошагово работу представленного алгоритма. Порядок действий для расчета инверсной частоты по заданному термину принимает следующий вид:

- ввод статистических данных (объем массива, количество документов по заданному термину) для расчета инверсной частоты в различных блоках общего массива;

- расчет инверсной частоты по заданному термину в различных блоках;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- определение порядка поиска документов по отдельным блокам общего массива;

- поиск документов в блоке массива;

- просмотр документов;

- определение необходимости продолжения поиска документов в других блоках массива;

- продолжение поиска документов в другом блоке массива;

- окончание поиска документов.

Доля найденных документов при таком подходе зависит от распределения их по различным блокам. При нормальном или экспоненциальном распределении документов по отдельным блокам массива порядок поиска играет важную роль. В примере распределения, приведенном в тексте (128, 64, 32, 16), на первых двух шагах будет найдено 80% документов при нижней границе 20%. Такой подход к поиску документов является существенным при занесении документов по дате их появления, а поиске по другим признакам, например, по теме, автору и т.д. При равномерном распределении документов порядок поиска по блокам не важен.

Переход от традиционной системы раздельного хранения документов на бумажной основе к системе электронного документооборота может производиться постепенно.

Рассмотрим отдельные фазы такого перехода:

- документы хранятся на бумажной основе по системе номенклатуры дел, указатели в электронной форме содержат информацию о месте хранения документа;

- документы хранятся на бумажной основе и в электронном виде, указатели в электронном виде позволяют найти документ и получить копию документа в электронном виде;

- документы хранятся в электронном виде и имеется возможность получения копии документа на бумажном и электронном носителе.

Такой порядок перехода к электронному документообороту позволяет сохранить единство процесса работы с документами в различных формах.

Заключение. В качестве направлений классификации текущих документов предлагается использовать сочетание классификаторов, существующих (номенклатура дел) и вновь введенных, соответствующих «Перечню видов документов, передаваемых при взаимодействии федеральных органов исполнительной власти, органов исполнительной власти субъектов Российской Федерации, государственных внебюджетных фондов в электронном виде» утвержденному распоряжением Правительства Российской Федерации от 2 апреля 2015 года № 583-р [5].

В соответствии с изложенным, основными группами документов, которые могут использоваться, как источник для классификации, являются:

- группы документов, соответствующих перечню, утвержденному Распоряжением Правительства РФ от 2 апреля 2015 года № 583-р;

- группы документов, соответствующих номенклатуре дел учреждения;

- группы документов, соответствующих различным системам классификации;

- группы документов, соответствующих системе классификации по реквизитам документов.

Предложены возможные фазы перехода от документооборота на бумажной основе к системе электронного документооборота.

Положения, сформулированные в статье, достаточно обоснованы и соответствуют перечню, утвержденному РП РФ от 2 апреля 2015 года № 583 - р. Работа имеет прикладное значение, перечисленные системы классификации и их сочетания могут быть использованы для формирования признаков выборки документов в электронных базах данных.

Список литературы

1. Библиотечные классификационные системы [Электронный ресурс] URL: http://www.lib.swsu.ru (дата обращения: 13.01.2022).

2. Библиотечно-библиографическая классификация (ББК) - Национальная классификационная система Российской Федерации / Э.Р. Сукиасян. Москва: Литера, 2oi5. 36 с.

3. ГОСТ 7.9o-2oo7. Межгосударственный стандарт, Система стандартов по информации, библиотечному и издательскому делу. Универсальная десятичная классификация, структура, правила ведения и индексирования. М., 2oo7. 2o с.

4. Делопроизводство и документооборот: Учебное пособие (для студентов экономического факультета) / Сост. Т.В. Сиганова. Омск: Омский гос. ун-т, 2oo4. 71 с.

5. Перечень видов документов, передаваемых при взаимодействии федеральных органов исполнительной власти, органов исполнительной власти субъектов Российской Федерации, государственных внебюджетных фондов в электронном виде, утвержденный Распоряжением Правительства Российской Федерации от 2 апреля 2oi5 года № 583-р.

6. Информационные ресурсы и поисковые системы: учебное пособие / Н.В. Максимов, О.Л. Голицына, Г.В. Тихомиров, П.Б. Храмцов. М.: МИФИ, 2oo8. 4oo с.

Архангельский Алексей Алексеевич, канд. техн. наук, доцент, старший научный сотрудник лаборатории ВИ(НИ), [email protected], Россия, Санкт-Петербуг, Военно-космическая академия имени А. Ф.Можайского,

Шемякин Виктор Николаевич, канд. воен. наук, старший научный сотрудник лаборатории ВИ(НИ), Россия, Санкт-Петербуг, Военно-космическая академия имени А. Ф.Можайского

AUTOMATED SEARCH ALGORITHM DEPARTMENTAL DOCUMENTS BASED ON INVERSE FREQUENCY THE APPEARANCE OF TERMS IN THE TEXT

A.A. Arhangelsky, V.N. Shemyakin

The article is devoted to the problem of improving the departmental classification of documents when using computer technology. Information about different types of library classifications is given, the directions of the classification of departmental documents are determined. The algorithm of automated search for documents based on the inverse frequency of the appearance of terms in the text has been developed.

Key words: departmental documents, classification of documents, library classifications, details of documents, nomenclature of documents.

Aleksey Alekseevich Arhangelsky, candidate of technical sciences, docent, senior researcher at the laboratory, [email protected], Russia, St. Petersburg, Military Space Academy named after A.F.Mozhaisky,

Shemyakin Viktor Nikolaevich, candidate of military sciences, senior researcher at the laboratory, Russia, St. Petersburg, Military Space Academy named after A.F.Mozhaisky

i Надоели баннеры? Вы всегда можете отключить рекламу.