АЛГОРИТМЫ КООРДИНАТНОГО ИНДЕКСИРОВАНИЯ С УЧЕТОМ КЛАССИФИКАЦИОННЫХ ПРИЗНАКОВ-ТЕРМИНОВ ПО ПРЕДМЕТНОЙ ОБЛАСТИ

Жаксыбаев Дархан Оракбаевич; Барахнин Владимир Борисович

05.13.00 ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА

И УПРАВЛЕНИЕ

INFORMATICS, COMPUTER FACILITIES AND MANAGEMENT

2.3.5. МАТЕМАТИЧЕСКОЕ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ

ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ, КОМПЛЕКСОВ

И КОМПЬЮТЕРНЫХ СЕТЕЙ

MATHEMATICAL AND SOFTWARE OF COMPUTЕRS, COMPLEXES AND COMPUTER NETWORKS

DOI: 10.33693/2313-223X-2022-9-1-21-31

Алгоритмы координатного индексирования с учетом классификационных признаков-терминов

по предметной области

Д.О. Жаксыбаев1, a ©, В.Б. Барахнин2, 3 b ©

1 Евразийский национальный университет имени Л.Н. Гумилева, г. Нур-Султан, Республика Казахстан

2 Федеральный исследовательский центр информационных и вычислительных технологий, г. Новосибирск, Российская Федерация

3 Новосибирский государственный университет, г. Новосибирск, Российская Федерация

a E-mail: zhaxybayev6717-1@murdoch.in b E-mail: barakhnin@nanyang-uni.com

Аннотация. Библиотеки и лица, осуществляющие поиск в Интернете, все больше разочаровываются в результатах тематического доступа, отчасти из-за неуправляемости широкими наборами поисковых систем. Необходимость повышения точности и ограничения размеров поисковых запросов стала основным мотивом для написания этой работы. Цель этой статьи - исследовать алгоритмы координатного индексирования с учетом классификационных признаков-терминов по предметной области. Работа писалась с использованием метода материального моделирования. Использовались уже существующие модели, которые предлагают частичную координацию как основополагающую для подтверждения их эффективности на практике. Для анализа численных результатов использовался метод измерения. В представленном исследовании были представлены особенности и характеристики частичной координации. Кроме того, были изучены преимущества частичной координации. Предлагаемая авторами методология фокусируется на преимуществах «умного» запроса, который может быть выполнен в среде OPAC без дальнейших усилий со стороны пользователя; пользователь вводит свои ключевые слова, как и раньше, но «умное» координации ключевых слов в документах позволяет избежать неподходящих частичных совпадений. Порядок ранжирования документов по вопросу должен быть одинаково включен с теми непроверенными записями, в которых отсутствует частичная координация частичных документов.

Ключевые слова: пост-координация, частичная координация, тематический каталог, поисковая система, булевой запрос

f \ ССЫЛКА НА СТАТЬЮ: Жаксыбаев Д.О., Барахнин В.Б. Алгоритмы координатного индексирования с учетом классификационных признаков-терминов по предметной области // Computational nanotechnology. 2022. Т. 9. № 1. С. 21-31. DOI: 10.33693/2313-223X-2022-9-1-21-31

V J

DOI: 10.33693/2313-223X-2022-9-1-21-31

Coordinate Indexing Algorithms Taking Into Account the Classification Signs-terms

in the Subject Area

D.O. Zhaxybayev1, a ©, V.B. Barakhnin2, 3' b ©

1 L.N. Gumilyov Eurasian National University, Nur-Sultan, Republic of Kazakhstan

2 Federal Research Center for Information and Computational Technologies, Novosibirsk, Russian Federation

3 Novosibirsk State University, Novosibirsk, Russian Federation

a E-mail: zhaxybayev6717-1@murdoch.in b E-mail: barakhnin@nanyang-uni.com

Abstract. Libraries and Internet searchers are becoming increasingly frustrated with topical access results, in part because of the unmanageability of a wide range of search engines. The need to improve accuracy and limit the size of search queries was the main motivation for this study. The purpose of this article is to explore coordinate indexing algorithms taking into account the classification features-terms in the subject area. The study was written using the material modelling method (mathematical): pre-existing models were used, which offer partial coordination as fundamental to confirm their effectiveness in practice. The measurement method was used to analyse the numerical results. In the presented study, the features and characteristics of partial coordination were presented. In addition, the benefits of partial coordination have been studied. The methodology proposed by the authors focuses on the benefits of a "smart" query that can be executed in an OPAC environment without further effort on the part of the user; the user enters their keywords as before, but "smart" keyword coordination in documents avoids unsuitable partial matches. It was concluded that the order of ranking of documents on the subject should be included in the same way with those unverified records lacking partial coordination of partial documents.

Key words: post-coordination, partial coordination, subject directory, search engine, Boolean query

FOR CITATION: Zhaxybayev D.O., Barakhnin V.B. Coordinate Indexing Algorithms Taking Into Account the Classification Signs-terms in the Subject Area. Computational Nanotechnology. 2022. Vol. 9. No. 1. Pp. 21-31. (In Rus.) DOI: 10.33693/2313-223X-2022-9-1-21-31

ВВЕДЕНИЕ

Поиск пользователем каждой темы не был таким частым, как обычный поиск различных тем в эпоху картотеки, и, таким образом, не получил достаточного внимания в академическом или практическом плане. Однако создание онлайновых каталогов возродило интерес пользователей к поиску информации. Существует ОРАС (Online Public Access Catalog) библиотечный каталог, который представляет собой онлайн-базу данных материалов, хранящихся в библиотеке или группе библиотек. Однако с выходом последних версии ОРАС пользователи, осуществляющие поиск по темам, часто путались в различных ограничениях ранних ОРАС [Gavit, 2019].

В ответ на требования пользователей об улучшении доступа к этой теме исследователи предложили ряд очень сложных онлайновых проектов для публичного доступа. К ним относятся, в частности, онлайновые диссертации, различные структуры, расписания классов и группировка документов. Многообещающим созданием является сочетание

в системах вероятностного и булевого поиска в модели Okapi и проекте Cheshire. Однако поиск тем также оставляет место для изменений. Многие из вышеперечисленных идей остаются новаторскими, а другие имеют новое бремя для пользователей, которым необходимо овладеть расширенными функции компьютера для эффективного использования, где понимается, что большинство пользователей трудно удовлетворить даже обычные булевые запросы. По этим и другим причинам пользователям все еще трудно найти тему. Доклад К.Л. Боргман «Почему онлайн-каталоги все еще трудно использовать?» начался с последнего специального выпуска JASIS (Japan Analytical & Scientific Instruments Show), посвященного OPAC [Beaulieu, Borgman, 1996]. Редакторы специального выпуска признали предположение, что «несмотря на технологические достижения, исследования продолжают показывать, что эти системы неэффективны и трудны в использовании» [Kumar et al., 2018].

Наиболее часто встречающимися неудачами при поиске являются неудачи при тематическом поиске, т.е. вопросы объектов на запрос по количеству слов бывают средние

или длинные [loannakis et al., 2018]. Эти результаты вместе означают, что пользователи либо получают мало полезных результатов, либо переполняются результатами в ответ на заданный запрос. По мере снижения расходов на цифровые публикации в Интернете и онлайн-публикации быстро увеличивают количество и типы документов, доступных для поиска. Но увеличение количества документов, доступных для поиска, означает соответствующее увеличение размера результатов поиска, установленных для того, чтобы столкнуться с проблемой перегрузки тематикой пользователей при заданном уровне точности поиска. Пользователи считают, что поисковые запросы, такие как Alta Vista, индексирующие значительную часть публичного Интернета, приводят к неуправляемым наборам ответов [Лезин, Тузов, 2003]. Хуже того, подходы к индексированию в Интернете отдают предпочтение полному тексту по сравнению с другими методами индексирования. Несмотря на то, что некоторые результаты противоречат друг другу, существует множество свидетельств того, что полнотекстовый поиск приводит к более низким уровням точности, чем поиск, по ключевым словам, в обширных базах данных [Moffat et al., 2018]. Поэтому мы считаем, что увеличение объема результатов сделало бы полнотекстовый поиск документов, опубликованных в Интернете или в других больших базах данных документов, не практичным и неэффективным [Liu, Huai, 2020].

В этой вводной статье мы вводим новый подход, называемый частичной координацией, включающий сильные стороны двух тематических каталогов и методов поиска документов, т.е. предварительную координацию, а также пост-координационный и компьютеризированный поиск по ключевым словам. Мы предлагаем этот подход для заданного уровня, чтобы добиться большей точности. Это предложение основано на предположении М.Ф. Линча о том, что компьютеры должны помогать библиотекарям делать цифровой мир реальностью [Armitage, Lynch, 1968]. Ниже объективно оцениваются сильные и слабые стороны предварительной и последующей координации. А далее более подробно рассматриваются недостатки пост-координационной классификации различных форм вне контекстных или неточных совпадений. Также реализована групповая работа по компонентам и приведена подробная пояснительная иллюстрация, рассматриваются преимущества и ограничения частичной групповой работы, а статья заканчивается объяснением последствий и направлений будущего исследования. Последующая деятельность по данной вводной статье дает второстепенную научное исследования различных авторов и генерирует предварительную оценку.

1. КРИТИЧЕСКИЙ ОБЗОР

ПРЕД- И ПОСТ-КООРДИНАЦИЙ: ИХ СИЛЬНЫЕ И СЛАБЫЕ СТОРОНЫ

Библиографическая наука традиционно ориентирована на обеспечение хорошего доступа к записям с помощью предварительно координированных тематических слов. Предварительная координация определяется как фиксация в схеме карточного каталога цитат по каждому предметному заголовку, например, «Казахстан - История - Отечественная война». Для эффективного поиска релевантных подробностей по истории Отечественной войны и в войны Казахстана пользователю системы каталогов необходимо будет выбрать из множества потенциальных синонимов, которые применимы к данному определению, правильные слова, и выбрать

правильный порядок в составном предмете из множества слов (т.е. предмете, состоящем из более чем одного термина). Например, вы можете просмотреть алфавитный каталог «Казахстан - История - Отечественная война», чтобы найти соответствующие документы.

Последнее условие игнорируется компьютерами и ОРАС. Компьютер обнаружит документы с заголовком «Казахстан - История - Отечественная война» несмотря на то, что пользователь вводит слова вопроса в «неправильном порядке» - например, запрос «История отечественной войны». Известно, что пост-координация термины для составного заголовка предмета могут быть эффективны при упорядочивании в соответствии с любым запросом [Некрестьянов, 2000]. Пост-координация, традиционно в форме индексирования текста на языке ULL, широко признается как более реалистичная и пригодная для использования во многих сообществах, включая Всемирную паутину, и ее стоимость и надежность по сравнению с предварительной координацией остались неоспоримыми. Однако эти два подхода, рассмотренные ниже, имеют существенные преимущества и недостатки. В дальнейшем можно назвать предварительную координацию как процесс индексирования и восстановления информации. Когда мы обращаемся к пред-координации, мы хотим видеть, что каталогизаторы поставляют слова и порядок, и этот порядок на самом деле применяется в процессе извлечения. Аналогичным образом, при обращении к пост-координации мы планируем говорить о ситуации, в которой не задан ни один порядок между условиями и положениями, и пользователи не ожидают такого порядка условий. Мы концентрируем наш анализ на уровне, который облегчает конкретные сравнения, не отвлекаясь на конкретную реализацию системы.

Повышенная точность предварительной координации выигрывают от стандартизации срочных запросов и сбора умных срочных запросов. Стандартизация запросов предписывает в каталоге обеспечить, чтобы один и тот же составной объект всегда рассматривался одинаково, независимо от того, как он может быть выражен естественным языком [Barash et а1., 2020]. Улучшение порядка напоминает, когда различные синтаксисы с одним и тем же естественным языком терминов предмета могут передавать одно и то же понятие. Стандартизированное упорядочение слов устраняет расхождения в различных синтаксисах и дает пользователям простой способ поиска документов, независимо от того, как слова в естественном языке смешиваются, чтобы выразить одну и ту же идею. Это специфическое преимущество достигается также и при пост-координации, поскольку пост-координация обеспечивает регулярный поиск темы, независимо от предпочтений каталогизатора или пользователя, который цитирует термины темы.

Второе, часто забытое преимущество предварительной координации заключается в том, что стандартизация порядка повышает точность, если различные понятия могут быть выражены разными синтаксисами в одних и тех же словах. Например, «Войны (до) экономических кризисов» отличается от «Экономические кризисы (после) войн». В любом случае, одни и те же слова связаны разными причинами и последствиями. Теоретически, пред-координация может описывать структурированный порядок определения, если два слова в семантике взаимосвязаны. Например, если слова связаны «причинно-следственной» связью, то термин «следствие» всегда должен предшествовать термину «причина». Такая стандартизация позволила бы полностью отличить термин

«война-экономика» от термина «экономические войны» и лучше распределить документы по удаленным разделам карточного каталога, с тем чтобы избежать недоразумений по этому вопросу.

В пост-координации список вопросительных слов «война, экономика» соответствует документам по обеим темам. Более того, запросное слово с пост-координационным поиском подойдет к любому подмножеству тематических терминов документа, независимо от его места в тематическом заголовке. Произвольное подмножество терминов в тематическом заголовке может сильно отличаться от оригинального заголовка. Таким образом, точное преимущество пред-координационного стандартного порядка в пост-координации абсолютно утрачено. В большинстве пред-координационных сравнений это преимущество повышения точности обычно подчеркивается. Все эти преимущества несколько уменьшаются по правилу определенной записи в каталоге словаря как в алфавитном каталоге. Тем не менее, даже такие словарные каталоги, как LCSH (Library of Congress Subject Headings), находятся под сильным влиянием концепции классифицированных каталогов из-за преимущества алфавитного каталога для группировки связанных объектов» [Hosey et al., 2019].

Предварительно координированные схемы используют два механизма для описания значения термина. Порядок котировок - один механизм, а формулировка (инвертированная) - другой. Например, в заголовке LCSH «Искусство, Казахстанское» используется фраза, гарантирующая, что термин «Казахстанское» подходит только к смыслу искусства. Каталогизатор избегает фальшивого частичного совпадения со сложной темой, формируя предложение или используя кавычки между словами. В то время как структурированный и грамотный подбор срочных запросов обладает многими преимуществами в плане точности, обычная предварительная координация имеет несколько ограничений. Во-первых, точность документов, которые должны быть каталогизированы с использованием предварительной координации, ограничена. Большинство заголовков в LCSH имеют один заголовок без тематических подразделений [Jiang et al., 2020]. Это обязательное ограничение предварительной сортировки -не случайно, так как для нахождения тематической рубрики пользователи предварительного сортировки должны правильно угадывать каждое слово в его правильной последовательности. Только очень короткий заголовок темы, скорее всего, будет правильно угадан пользователем. Однако это ограничение на количество подразделов явно ограничивает возможную точность результатов поиска. В этой ссылке есть не только ограниченное количество подразделов, но и ограниченная форма семантики связей в подразделах LCSH.

Существует лишь несколько форм подразделов, например, форма и место терминов. Даже актуальные подразделения также представляют собой одно из немногих пар-тнерств, которые часто задаются шаблоном что является экономическим аспектом. Опять же, это ограничение не доступно для LCSH, но является важным ограничением предварительно координированного подхода. Во-вторых, обычные пользователи не описывают свои запросы в соответствии с подробными инструкциями. Даже в относительно простой системе LCSH порядок цитирования сложных объектов трудно представить [Chakraborty et al., 2020]. D. Steinberg, P. Metz [1984] обнаружили, что строка с объектами должна была быть лицензионной LC (Library of Congress), которую понимали только 28,2 процента пользователей. Возможно, из-за этих трудностей тематические поиски в эпоху предваритель-

но координированных картотечных каталогов были менее частыми, чем известные поиски. Эти результаты показывают, что усилия по улучшению результатов поиска не оказывают дополнительного воздействия на пользователей. Ключевым преимуществом координации является сокращение усилий пользователей по изучению формальностей, включая правила цитирования, для построения запросов. Однако преимущества регулярных или «умных» заказов теряются.

По сравнению с предварительной координации, наибольшие потери в эффективности связаны с потерей точности из-за «умного» запроса во избежание ненадлежащих частичных совпадений. Это дублируется, так как частичные совпадения являются еще более критичной проблемой при получении пост-координатных документов. При предварительной координации существует только частичное совпадение, если пользователь оценивает первые сроки в правильном порядке, а затем частично совпадает с более поздними сроками, которые он пропустил. При этом частичном совпадении пользователь автоматически не извлекает документы, а обеспечивает предварительно координированную иерархию тематических рубрик. Тематика и записи, необходимые пользователю, часто находятся ниже предполагаемого пользователем фрагмента заголовка темы. С другой стороны, частичное совпадение одного или нескольких ключевых слов фактически восстанавливает списки документов в пост-координатных схемах, и, кроме того, любой документ может быть получен, если любое из его не координированных условий темы совпадает с любым термином в некоординированных списках условий запроса. Такое большое количество некоординированных частичных совпадений может быть выражено в пониженной точности и большом наборе пост-координатных коллекций исследования ключевых слов [Thomas et al., 2019].

Соответственно, пост-координированный поиск может привести к более низкой точности, чем предварительно координированный поиск, при условии, что используются одни и те же тематические слова. Однако, поскольку процесс подбора ключевого слова отличается, когда задан авторизованный предварительно координированный тематический заголовок, и два метода поиска обычно не работают с одними и теми же тематическими терминами при подборе пост-ко-ординированных ключевых слов. В следующих параграфах рассматривались различия в подборе ключевых слов, которые могут на самом деле усугубить проблему ложных выпадении при пост-координированном поиске. Предполагается, что пользователь только выиграет от добавления дополнительных ключевых слов к документу в пост-координации. Добавление дополнительных слов приведет только к дальнейшей координации, которое призвано помочь пользователю. Добавление дополнительных требований к ключевым словам представляется логичным. Но если дополнительные ключевые слова запрашиваются сразу после другого термина или используется координация терминов, то добавление термина без координации дает больше шансов на совпадение вне контекста пост-координации.

Две особенности пост-координатного выбора ключевого слова по сравнению с выбором заголовка по своей природе не являются неправильными. Добавление все большего количества более узких слов для пост-координатного поиска, по ключевым словам, на самом деле имеет несколько преимуществ. Но они могут быть компенсированы уменьшением точности [Широков, 2007]. Эмпирический анализ этих компромиссов является целью будущих исследований.

Здесь не решаются эти проблемы, но хочется отметить, что проблема неправильных попаданий может быть усугублена методом подбора предметного слова. Кратко излагая, предварительная координация повышает точность, определяя последовательность и «умный» порядок. С другой стороны, командная работа снижает усилия потребителя и каталогизатора по подбору и запросу слов. Но такая работа не понимает преимуществ запроса терминов, что приводит к недостоверным частичным совпадениям. По мере увеличения количества материала в пост-координационном устройстве, количество фальшивых данных имеет тенденцию увеличиваться. В идеальном методе пост-координации пользователь избавится от необходимости определять термины заказов или от необходимости беспокоиться о синонимах, а не о поддельных частичных совпадениях информации.

2. ОСОБЕННОСТИ И ХАРАКТЕРИСТИКИ ЧАСТИЧНОЙ КООРДИНАЦИИ

Частичная координация как новый способ подавления неправильных частичных совпадений при поиске, по ключевым словам, с помощью смысла. Частичная координация отличается от пред-координации при замене порядка следования терминов на порядок следования терминов и от пост-координации для лучшего координация в контексте между запросами и текстами полностью различается. Частичная координация повышает координацию, определяя очень важные оценки для документов, когда конкретные комбинации зависимых слов совпадают с запросом и документом в сравнении с индивидуальными совпадениями в запросе и документе. Таким образом, слово может относиться к соответствию в правильном смысле, как существованию другого термина, но в отсутствие контекста это маловероятно.

Существует множество способов описания зависимостей терминов и десятков документов. Специфика терминологических зависимостей должна сопровождать либо предметные рубрики документов, либо запросы пользователей. Вы можете определить термины для запросов, а затем далее определить термины, которые определяют форму оценки, которую имеет документ в ответ на какие термины запроса он соответствует. В крайнем случае, пользователь определяет для N терминов запроса оценку за каждое из возможных частичных совпадений 2п - 1 или каталогизатор может определить ключевые слова документа и указать зависимость от терминов, которая определяет оценку этого документа по отношению к будущим запросам [Бахтурина, Сукиасян, 1992]. На данный момент исследуется последний подход в том смысле, что знание о зависимости - это тема каждого документа, а не вопрос каждого пользователя. Этот метод позволяет потребителю приложить наименьшее усилие. В нашем методе каталогизатору нет необходимости описывать непосредственно 2п - 1 потенциальные баллы. Вместо этого он предлагает подробное описание зависимости от термина. Функция подсчета баллов затем реализуется при поиске любого документа, измеряя оценку документа в соответствии с уникальными условиями предмета, найденными в вопросе пользователя.

Для каждого частично организованного текста каталогизатор указывает список терминов индекса. Список индексных терминов по-прежнему близок к пред- или пост-координатным терминам [Luong et а1., 2019]. Затем каталогизатор формирует выражения терминов и порядок следования

терминов, чтобы избежать неправильных частичных совпадений в пред-координате. Однако каталогизатор указывает зависимости от терминов вместо словосочетаний и порядка с частичной координацией. В частности, каждое предметное слово в тематическом заголовке документа описывается каталогизатором как зависящее от нуля, одного или нескольких «зависимостей». Если в определенном документе каталогизатор определяет, что тематический термин А зависит от зависимого термина В, то термин А этого документа будет ссылаться на соответствующий термин А вопроса только в том случае, если в запросе содержится термин В. На термины запроса могут ссылаться только термины-субъекты. Термины зависимости не являются точками доступа и не могут подходить к тексту терминов запроса.

Однако термин может также использоваться как термин для обозначения зависимости и как предметный термин. Предположим, например, что каталогизатор заявил, что предметный термин А имеет такую же зависимость, как и термин В. Затем каталогизатор отдельно определит, должно ли слово В быть включено в качестве темы и каковы должны быть его зависимости. Если каталогизатор желает включить в этот случай предмет В и заявляет, что он зависит от термина А, то он, по сути, не формирует в четком порядке предложение, состоящее как из терминов А, так и из терминов В. Поэтому каталогизатор имеет обычное право использовать термины текста в качестве предметных терминов [Kiss et al., 2020]. Кроме того, термин-субъект документа не формирует автоматически частичное совпадение с каждым содержащимся в нем запросом путем определения зависимостей термина. Скорее, он может лишь частично соответствовать запросам, которые содержат это слово и которые содержат зависимости этого термина.

Была рассмотрена статья в научном журнале о том, как государство взяло на себя задачу по развитию экологии. Предположим, что после координации мы используем следующие слова: «государственная программа по ликвидации последствий ухудшения экологии» пользователь, посылающий запрос «государственная программа по ликвидации последствий ухудшения экологии», затем, например, получит частичное совпадение и положительный результат от этого документа в рамках пост-координации. Аналогичным образом, если каждый термин запроса обрабатывался отдельно, то любой запрос, касающийся любого ухудшение или экологической отрасли, вернет этот документ, если только пользователь не знает, что эти два слова образуют слово «ухудшения экологии», если только эта фраза не может быть идентифицирована пользователем. Это пример двух слов, которые соответствуют значению предложения. Частично скоординировать тему документа с «экологией» и «ликвидации», каталогизатор исправит вышеуказанные проблемы, частично скоординировать тему «ухудшение» со словом «ликвидация» и «государство» соответственно

Термины «экология» и «ухудшение» скрываются друг за другом в этих зависимостях - то, что невозможно, когда необходим подлинный запрос, - чтобы ни один из этих терминов документа не соответствовал какому-либо запросу, если только запрос не включает оба термина. (Чтобы упростить дискуссию, рассматривается слова «экология» и «ухудшение» здесь и далее как одно предложение, при условии, что взаимная зависимость создает этот результат, и пользователям не придется предлагать их в качестве предложения.) Так что принятие не подходит, за исключением случаев, когда вопрос касается «ликвидации» И за словом

«государство» стоит выражение «экологическое ухудшение» Эта зависимость часто представляет собой связь между темой и подтемой, так что слово «государство» не подходит под его зависимость. Каталогизатор сформулирует частично организованный тематический заголовок с помощью простой табличной нотации [Ножов, 2003]. В табл. 1 приведен пример документа о правительственных захватах попыток ликвидировать нефтяные разливы.

Таблица 1

Пример поисковых запросов [Example of search queries]

Субъектные термины Зависимости

[Subject terms] [Dependencies]

Экология Ухудшение

[Ecology] [Worsening]

Ухудшение Экология

[Worsening] [Ecology]

Государство Экология, ухудшение, последствий

[State] [Ecology, deterioration, consequences]

Программа Ликвидации

[Program] [Liquidation]

Ликвидации Экология, ухудшение

[Liquidation] [Ecology, deterioration]

Для каждого текста генерируется таблица, подобная этой. Единственными точками доступа к документу являются слова, упомянутые в первой колонке. Это тематические заголовки слов для текста. Затем нулю, одному или нескольким терминам может быть присвоен каждый термин заголовка темы для определения того, в каком смысле термин документа будет относиться к соответствующему термину вопро-

са. Тема документа в первой колонке будет коррелировать с термином соответствующего запроса только в том случае, если запрос включает также зависимости термина документа, как показано в правой колонке. Любой термин может появиться только как термин темы, как термин зависимости или, как и то, и другое. Понятие не может зависеть от самого себя № et а1., 2019].

Термины «ликвидация» и «состояние» зависят каждый от термина «очистка», из табл. 1 видно, что термин «ликвидация» зависит от двух слов: «Экология» и «ухудшение». Даже если в запрос включено, например, «программа», этот документ не подходит под слово запроса, если только в запросе не содержится также «ликвидации». Таким образом, каталогизатор проиндексировал документ со списком терминов и указал дополнительные зависимости между терминами. Если термин имеет две или более зависимостей, то он зависит от всех этих терминов и подходит только в том случае, если в запросе есть все эти термины. Обратите внимание, что в вопросе порядок слов не имеет значения. Зависимость требует, чтобы где-то в вопросе существовал зависимый член (табл. 2).

Рассмотрим вопрос о «государственных программах банков», чтобы отразить участие в государственной программе банков. Используется слово «государство». Из терминов газеты, его зависимое слово - выражение «экологическое ухудшение» - в вопросе не фигурирует. Слово «государство», таким образом, не укладывается в фон и мало что добавляет к рейтингу. Переходим к следующему слову вопроса - «программа». Этот термин также фигурирует в указателе текста, но его зависимое слово - т.е. «ликвидация» - больше не появляется, так что можно избежать и термина вопроса. Наконец, слово «банк» вообще не появляется в индексе текста. Таким образом, балл за данный запрос в данной работе при частичном сотрудничестве, как и должно быть, равен нулю.

Таблица 2

Пост-координация и частичная координация терминов [Post-coordination and partial coordination of terms]

Термины [Terms] Пост-координация [Post-coordination] Частичная координация [Partial coordination]

Государство [State] 1 0

Программа [Program] 1 0

Ликвидация [Liquidation] 1 0

Экология [Ecology] 1 0

Ухудшение [Worsening] 1 0

Ухудшение экологии [Environmental degradation] 2 2

Государственная программа [State program] 2 0

Государственная ликвидация [State liquidation] 2 0

Программа ликвидации [Elimination program] 2 1

Государство экология ухудшение [State ecology deterioration] 3 2

Программа экология ухудшение [Program ecology deterioration] 3 2

Ликвидации экология ухудшение [Liquidation ecology deterioration] 3 3

Государство программа ликвидации [State eradication program] 3 1

Государство ликвидации экология ухудшение [State liquidation ecology deterioration] 4 4

Государство программа ликвидации экология ухудшение [State liquidation program ecology deterioration] 5 5

Частичные зависимости связи не являются переходными. Например, если пользователь, заинтересованный в приобретении программы по очистке от токсичных отходов у частной корпорации, вводит ключевые слова «частный сектор приобретает программу очистки от токсичных отходов». В качестве тематических терминов и в качестве двух ключевых слов запроса появляются «приобретение» и «очистка». «Приобретение» считается эквивалентом запроса, поскольку в вопросе указывается как само слово, так и зависимое от него слово - «очистка». А название вопроса «очистка» не совпадает, хотя оно и фигурирует в индексе документа в качестве тематического слова, его зависимое слово, т.е. слово «экология» - не совпадает. Поэтому термины зависимостей не являются переходными, поскольку в то время, как слово «приобретение» будет опираться на «очистка», а слово «ликвидация» - на «ухудшение экологии», то слово «принятие» не будет зависеть от «ухудшение экологии», если каталогизатор не прикрепит стрелки зависимости непосредственно к слову «экология».

Обоснование здесь заключается в том, что слово не выходит за рамки контекста в этом каталоге, до тех пор, пока и документ, и запрос берут на себя очистку, и, следовательно, дополнительный пункт в оценке этого документа - о правильной форме приемки. Однако очистка в вопросе и документе не является однотипной, поэтому слово «очистка» не подходит. Двумя большими преимуществами является отсутствие переходных процессов. Первое - это то, что баллы за определенные вопросы в этом документе важнее, чем баллы за какую-либо не связанную форму поглощения, если вы выставляется оценка за кого-то, кто заинтересован в поглощении ^ et а1., 2018]. Также имеет смысл рассмотреть различные документы, касающихся конкретного вопроса, так как этот документ о поглощении компании по очистке опасных отходов лучше подходит для запроса, чем документы, касающиеся поглощения других форм.

3. ПРЕИМУЩЕСТВА ЧАСТИЧНОЙ КООРДИНАЦИИ: ЧАСТИЧНАЯ КООРДИНАЦИЯ ПРОТИВ РАСШИРЕННОЙ БУЛЕВОЙ

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Частичная совместная работа повышает точность и за счет поддельных частичных совпадений снижает перегрузку данных. Большинство из запросов, использующего только слова из индекса документов, приводят к частично организованному снижению баллов по сравнению с пост-координацией. Например, вопрос о «захвате власти» дает нулевую оценку в частичной координации, но две оценки в пост-координации. Учитывая количество слов в индексе, добавление зависимостей может быть полезно только для более низких баллов. Надежда, конечно, состоит в том, что эти зависимости минимизируют количество и точность сравнительно менее важных документов. Все эти сокращения баллов кажутся эффективными только на первый взгляд. Одно из потенциальных возражений против этой так называемой реформы заключается в том, что использование тематических слов «государство» берет на себя ответственность каталогизатора, что позволяет частично совпадать вне контекста. Из страха перед такими плохими совпадениями хороший каталогизатор никогда не будет использовать такие слова в пост-координатной обстановке. Этот момент подчеркивает еще одно преимущество добавления зависимостей от терминов. Каталогизаторы, которые выбирают ключевые слова для пост-координатной установки, должны с осторож-

ностью относиться к добавлению этих терминов в индекс текста ^оп et а1., 2020].

Безусловно, слова «государство» и «поглощение» должны быть включены в индекс документов для усиления напоминаний. Частичное выравнивание позволяет каталогизатору включать следующие слова, которые улучшат напоминание, устраняя страх перед снижением точности путем их выравнивания вне контекста. Таким образом, частичное координации можно рассматривать не только как улучшение точности, но и как улучшение напоминания, давая каталогизаторам свободу использовать другие связанные слова, не опасаясь плохой точности. Частичная координация включает четыре вне контекстных совпадении. Определение понятия зависимости, определяемого с учетом причины его использования, является одним из следующих: упорядоченная ассоциация, выражение, вторичный субъект, ключевое слово. Частично координационные зависимости эффективно заменяют упорядоченные отношения, такие как связи темы и подтемы между индексными словами, без предположения потребителя о правильном порядке котировок. Это решает проблему вне контекстных совпадений из-за отсутствия упорядоченности терминов, как в случае с пред-координацией. Частичная командная работа не дает однозначного ответа на вопрос о полисемии. Однако другие формы контекста, предоставляемые частичной совместной работой, могут способствовать тому, что документ не достигнет высокого рейтинга, даже несмотря на то, что незначительный документ достигает ненулевого результата из-за полисемейного срока [Мигап et а1., 2010].

Внешнее значение совпадает с одним термином, который соответствует его фразе, путем определения взаимозависимости между многочисленными терминами фразы. И снова пользователю не нужно делать точных предложений в своем вопросе. Частичная координация часто позволяет каталогизатору, не опасаясь контекстной коммуникации, включить в индекс слова, которые описывают вторичные темы или другую информацию с большей полнотой. Это достигается просто путем указания зависимостей, при которых вторичные слова по своему значению зависят от первичных. В этом контексте эти вторичные слова вводятся для того, чтобы помочь классифицировать лучшие работы. Наконец, частичное сотрудничество помогает каталогизатору решать некатегорические проблемы путем включения узких терминов и более широких терминов большей глубины, при этом узкие термины основываются на более широких терминах. Например, если в этом документе пауки-птицееды фигурируют в качестве реквизита фильма ужасов, то название «пауки-птицееды» может зависеть от такого слова, как «пленка» или «реквизит»; другая статья будет каталогизирована иначе, если пауки-птицееды являются примером ядовитого хищника, а термин «пауки-птицееды» будет зависеть от термина «хищник».

Было указано понимание, что данные в табл. 1 и анализ вне контекстного совмещения подчеркивают способность частичной координации сдвигать кривую вызова прецизионности т.е. степень близости друг к другу независимых результатов измерений, для пост-координатного индексирования ключевых слов. Частичная координация, как видно выше, является мощным способом предотвращения контекстного совпадения и захвата способности к повышению точности без необходимости предварительной координации. Если мы сможем перенести бремя контекста с триггера на потребителя, то расширенные булевые запросы могут также

послужить основой для контекстно-чувствительной альтернативной модели. В традиционной булевой логике пользователь с булевым выражением «А и В» полагается на выражение «В». Проблема с этой формулировкой заключается в том, что вопреки пожеланиям пользователя А все еще зависит от В. С точки зрения предварительной координации это означает, что статус ведущего для любого из этих терминов сам по себе не предоставляется. Если пользователь хочет указать «(А и В) или А», что В представляет интерес только в смысле А, но что в любом случае А представляет интерес, это выражение будет упрощено только до «А». Это упрощение связано с бинарным существованием булевой логики.

Некоторые предложения расширяют концепцию булевых операторов до не бинарного случая. Для получения ранжирования документов необходимо присвоить вес словам документа или запроса. Описание булевых операторов затем расширяется до не бинарного случая, в то время как классификационная функция, которая может учитывать веса терминов, заменяется обычным булевым вызовом [Kanev, Terek-hov, 2020]. В принципе, пользователь может выражать свою контекстуальную зависимость в соответствии с каким-либо определением И и ИЛИ, однако неясно, что позволит сделать определение И и ИЛИ. Предположим, что пользователь заинтересован только в В согласно А, и в любом случае в А. Тогда хотелось бы, чтобы следующее ранжирование проводилось в соответствии с принципом ранжирования с учетом контекста: самый высокий рейтинг для текста с A и B в качестве индексных слов. Значение является средним для текста, в котором в качестве индексного слова используется только слово A для документа категории «только В».

Однако желаемое ранжирование не может быть получено для наиболее распространенной расширенной булевой концепции И как для ИЛИ, даже если в запросе также указаны веса терминов. В общем, открытым для рассмотрения является вопрос о том, как найти определения расширенных булевых операторов, которые в произвольно сложных случаях подчиняются интуитивно понятной контекстно-чувствительной теории ранжирования, или насколько сложными должны быть требуемые ранжирования, превращающиеся в эти пользовательские запросы. Поскольку пользователи борются с обычными булевыми запросами, кажется нерациональным, что пользователи формулируют сложные булевые запросы с весами терминов запроса, чтобы артикулировать значение и приводить к ожидаемому ранжированию документов [Gupta, Berberich, 2020]. Для сравнения, частичная работа в команде не вызывает у потребителя таких сложностей.

4. ЧАСТИЧНАЯ КООРДИНАЦИЯ,

ПОЛНОТЕКСТОВОЕ ИНДЕКСИРОВАНИЕ И ОБОБЩЕННАЯ ВЕРОЯТНОСТНАЯ МОДЕЛЬ

В последние годы в исследованиях по поиску информации доминирует полнотекстовое индексирование. Как отмечалось в настоящем документе, проблема ложных срабатываний в случае полного текста, как правило, является более серьезной. Но лишь в немногих исследованиях было специально противопоставлено полное текстовое индексирование с неполным текстом, и мы не проводили исследований, сравнивающих эффективность полнотекстового индексирования и поиска с управляемыми заголовками словарного запаса, присваиваемыми вручную. Полный текст позволяет использовать новые методы, повышающие напоминание

и/или точность. Терминологические предложения и вероятностные модели зависимости от терминов, рассмотренные ниже, представляют собой два подхода, применимых к полнотекстовому индексированию, которые более тесно связаны с понятием смысла. В любом случае несмотря на то, что обширные коллекции документов могут быть доступны в полнотекстовом виде, в настоящее время ни одна из библиотек не поставляет их и, скорее всего, в ближайшем будущем они не будут поставлять их в свои бумажные коллекции. Для сравнения, частичная координация является реальным улучшением для существующих ОРАС, так как в наличии полного текста нет необходимости.

Наиболее важной работой над предложением, предлагаемым в этом документе, является обобщенная вероятностная модель [Liu, Huai, 2020], которая возможна в полнотекстовом и не полнотекстовом варианте. В этой модели в каждом тексте вычисляется вероятность релевантности к запросу. Степень, в которой каждый термин индекса документа подразумевает вероятностную релевантность для запроса, зависит от наличия или отсутствия какого-либо другого слова в словаре или, по крайней мере, запроса в индексном документе. Например, для определения значимости документа индекса А и В, отделенного от соответствующей оценки документов, индексированных только одним или другим термином, используются совместные вероятностные оценки. С другой стороны, концептуальные термины могут включать в себя любое понятие значения, а не только слова. Хотя это подразумевается. Вероятностная модель в этом смысле тесно связана с нашей частичной координацией. Однако этот метод предполагает использование потенциально достоверных данных для отдельной оценки параметров соответствующих и не относящихся к делу документов.

Эта общая модель считалась не практичной, даже с данными обратной связи, из-за экспоненциального числа задействованных параметров [Kalinauskaite, 2018]. Модель древовидной членной зависимости является ограниченной версией этой модели, которая строго ограничивает число параметров [Endres et al., 2020]. В этой модели любое слово в словаре или запросе зависит не более чем от одного другого члена. Эта стратегия не только возможна, но и для определенных рекордных уровней была продемонстрирована возможность значительного повышения точности. Однако этот метод по-прежнему включает в себя входные данные для оценки параметров. Обратная связь была использована для получения положительных экспериментальных результатов. В отсутствие результатов обратной связи В.Б. Крофт предлагает эвристику для оценки подмножества [Croft, 1987]. Однако эти эвристики связаны с булевскими вопросами и были лишь незначительно эффективными. Было показано, что только ручная конструкция предложения пользователя обеспечивает адекватную детализацию для повышения эффективности рекуперации.

Для сравнения, компонентная синхронизация пытается повысить точность даже после первой итерации поиска -до обратной связи - так, чтобы большое количество ложных срабатываний не отпугнуло пользователей изначально [Guo et al., 2020]. Наша стратегия также освобождает пользователя от любой ответственности за подготовку предложения. Частичное сотрудничество предлагается в качестве дополнения к неполным ОРАС и полнотекстовым базам данных, таким как Всемирная паутина [Mehta et al., 2019]. Для ОРАС, которые зависят от предварительно координированных заголовков LC (Library of Congress) или других тем,

дополнительные ручные усилия, необходимые для предоставления частично координированных ключевых слов. Которые являются менее затратными по сравнению с усилиями, необходимыми для генерации заголовка LC. Кроме того, каталогизаторам (поле MARC (Machine-Readable Cataloging) 653) уже требуется больше неконтролируемых тематических слов. Вместо этого постепенные усилия по включению частично организованных слов минимальны.

5. ВЫВОДЫ

Существующие записи MARC (машиночитаемая каталогизация) с заголовками тем не потребовали бы пересмотра, если бы ОРАС применялся к ранжированию документов с частично координированными темами, так как ОРАС без терминологической привязки - это только частный случай с частично координированным заголовком. Как и при обычном поиске, по ключевым словам, порядок слов в заголовке LC будет пропущен. Одна из проблем, которая требует решения, заключается в том, что порядок ранжирования документов по вопросу должен быть одинаково включен с теми непроверенными записями, в которых отсутствует частичная координация частичных документов.

Литература

1. Armitage J.E., Lynch M.F. Some structural characteristics of articulated subject indexes // Information Storage and Retrieval. 1968. Vol. 4. Pp. 101-111.

2. Barash Y, Guralnik G., Tau N. et al. Comparison of deep learning models for natural language processing-based classification of non-English head CT reports // Neuroradiology. 2020. Vol. 62. No. 10. Pp. 1247-1256.

3. BeaulieuM., Borgman C.L. A new era for OPAC research: Introduction to the special topics issue on current research in online public access systems // Journal of the American Society for Information Science. 1996. Vol. 47. No. 7. Pp. 491-492.

4. Chakraborty A., Pawar A., Jang H. et al. A real-time feature indexing system on live video streams // 44th IEEE Annual Computers, Software, and Applications Conference. Madrid: Institute of Electrical and Electronics Engineers Inc. 2020. Pp. 42-50.

5. Croft W.B. Approaches to intelligent information retrieval // Information Processing & Management. 1987. Vol. 23. No.4. Pp. 249-254.

6. Endres T., Kranzdorf L., Schneider V., Renkl A. It matters how to recall - task differences in retrieval practice // Instructional Science. 2020. Vol. 48. No. 6. Pp. 699-728.

7. Gavit B.K. Web based library services // Library Philosophy and Practice. 2019. Vol. 2019. P. 2931.

8. Guo J., Fan Y., Pang L. et al. A deep look into neural ranking models for information retrieval // Information Processing and Management. 2020. Vol. 57. No. 6. P. 102067.

9. Gupta D., Berberich K. Optimizing hyper-phrase queries // 10th International Conference on the Theory of Information Retrieval. New York: Association for Computing Machinery. 2020. Pp. 41-48.

10. Hosey C., Vujovic L., St. Thomas B. et al. Just give me what I want: How people use and evaluate music search // Conference on Human Factors in Computing Systems. Glasgow: Association for Computing Machinery. 2019. P. 147770.

11. Ioannakis G., Koutsoudis A., Pratikakis I., Chamzas C. RETRIEVAL -an online performance evaluation tool for information retrieval methods // IEEE Transactions on Multimedia. 2018. Vol. 20. No. 1. Pp. 119-127.

12. Jiang J., Han R., Meng X., Li K. TSASC: Tree-seed algorithm with sine-cosine enhancement for continuous optimization problems // Soft Computing. 2020. Vol. 24. No. 24. Pp. 18627-18646.

13. Kalinauskaite D. Detecting information-dense texts: Towards an automated analysis // International Conference on Information Technologies. 2018. Vol. 2145. Pp. 95-98.

Дополнительные усилия, необходимые при составлении полного текста для выделения частично организованных тематических слов не используются, поскольку индексация полного текста вообще не требует ручного труда. Мы рассматриваем наше предложение в отношении полнотекстового индексирования двумя способами: во-первых, можно использовать автоматизированные методы, которые автоматически создают такие зависимости от терминов. Во-вторых, задачу включения дополнительных тематических слов при частичной кооперации можно разделить между читателями текстов. В настоящее время мы работаем над этими двумя идеями.

Предлагаемая в данной работе частичная координация сочетает в себе преимущества более умной пред-координации - т.е. большей точности - с основными преимуществами пост-координации - т.е. пользователь освобождается от ответственности за правила ученичества, такие как цитирование и помощь в частичном совпадении. Наше критическое исследование не контекстных совпадений и изучение частичной координации в контексте альтернативных методов показывает, что это многообещающий подход для улучшения точности и отзыва в OPAC и других развивающихся контекстах для поиска информации, такой как Всемирная паутина.

References

1. Armitage J.E., Lynch M.F. Some structural characteristics of articulated subject indexes. Information Storage and Retrieval. 1968. Vol. 4. Pp. 101-111.

2. Barash Y., Guralnik G., Tau N. et al. Comparison of deep learning models for natural language processing-based classification of non-English head CT reports. Neuroradiology. 2020. Vol. 62. No. 10. Pp. 1247-1256.

3. Beaulieu M., Borgman C.L. A new era for OPAC research: Introduction to the special topics issue on current research in online public access systems. Journal of the American Society for Information Science. 1996. Vol. 47. No. 7. Pp. 491-492.

4. Chakraborty A., Pawar A., Jang H. et al. A real-time feature indexing system on live video streams. 44th IEEE Annual Computers, Software, and Applications Conference. Madrid: Institute of Electrical and Electronics Engineers Inc. 2020. Pp. 42-50.

5. Croft W.B. Approaches to intelligent information retrieval. Information Processing & Management. 1987. Vol. 23. No.4. Pp. 249-254.

6. Endres T., Kranzdorf L., Schneider V., Renkl A. It matters how to recall - task differences in retrieval practice. Instructional Science. 2020. Vol. 48. No. 6. Pp. 699-728.

7. Gavit B.K. Web based library services. Library Philosophy and Practice. 2019. Vol. 2019. Pp. 2931.

8. Guo J., Fan Y., Pang L. et al. A deep look into neural ranking models for information retrieval. Information Processing and Management. 2020. Vol. 57. No. 6. P. 102067.

9. Gupta D., Berberich K. Optimizing hyper-phrase queries. 10th International Conference on the Theory of Information Retrieval. New York: Association for Computing Machinery. 2020. Pp. 41-48.

10. Hosey C., Vujovic L., St. Thomas B. et al. Just give me what I want: How people use and evaluate music search. Conference on Human Factors in Computing Systems. Glasgow: Association for Computing Machinery. 2019. P. 147770.

11. Ioannakis G., Koutsoudis A., Pratikakis I., Chamzas C. RETRIEVAL -An online performance evaluation tool for information retrieval methods. IEEE Transactions on Multimedia. 2018. Vol. 20. No. 1. Pp. 119-127.

12. Jiang J., Han R., Meng X., Li K. TSASC: tree-seed algorithm with sine-cosine enhancement for continuous optimization problems. Soft Computing. 2020. Vol. 24. No. 24. Pp. 18627-18646.

13. Kalinauskaite D. Detecting information-dense texts: Towards an automated analysis. International Conference on Information Technologies. 2018. Vol. 2145. Pp. 95-98.

14. Kanev A.I., Terekhov V.I. Evaluation issues of query result ranking for semantic search // 7th International Young Scientists Conference on Information Technology. 2020. Vol. 1694. No. 1. P. 012004.

15. Kiss A.N., Libaers D., Barr P.S. et al. CEO cognitive flexibility, information search, and organizational ambidexterity // Strategic Management Journal. 2020. Vol. 41. No. 12. Pp. 2200-2233.

16. Kumar R., Singh J., Singh B., Rana M.K. Usability of OPAC in university libraries // Library Philosophy and Practice. 2018. Vol. 1. Pp. 1-11.

17. Li W, Zhang S., Qi G. A graph-based approach for resolving incoherent ontology mappings // Web Intelligence. 2018. Vol. 16. No. 1. Pp. 15-35.

18. Liu C., Huai H. An improved full-text retrieval for elementary education resource database system // Journal of Physics: Conference Series. 2020. Vol. 1693. No. 1. P. 012053.

19. Luong D.D., Phuong V.Q., Tung H.D.T. A new indexing technique XR+ tree for bio informatics XML data compression // International Journal of Engineering and Advanced Technology. 2019. Vol. 8. No. 5. Pp. 1168-1173.

20. Mehta K., Foster I., Klasky S. et al. A codesign framework for online data analysis and reduction // The International Conference for High Performance Computing, Networking, Storage and Analysis. Denver: Institute of Electrical and Electronics Engineers Inc, 2019. Pp. 11-20.

21. Moffat A., Scholer F, Yang Z. Estimating measurement uncertainty for information retrieval effectiveness metrics // Journal of Data and Information Quality. 2018. Vol. 10. No. 3. P. 10.

22. Murzin F, Perfliev A., Shmanina T. Methods of syntactic analysis and comparison of constructions of a natural language oriented to use in search systems // Bulletin of the Novosibirsk Computing Center, Series: Computer Science. 2010. No. 31. Pp. 91-109.

23. Nori R., Palmiero M., Giusberti F. et al. Web searching and navigation: Age, intelligence, and familiarity // Journal of the Association for Information Science and Technology. 2020. Vol. 71. No. 8. Pp. 902-915.

24. Steinberg D., Metz P. User response to and knowledge about an online catalog // College & Research Libraries. 1984. Vol. 45. No. 1. Pp. 66-70.

25. Thomas P., Billerbeck B., Craswell N., White R.W. Investigating searchers' mental models to inform search explanations // ACM Transactions on Information Systems. 2019. Vol. 38. No. 1. P. 10.

26. Yi L., Yuan R., Long S., Xue L. Expert information automatic extraction for IoT knowledge base // Procedia Computer Science. 2019. Vol. 147. Pp. 288-294.

27. Бахтурина Т.А., Сукиасян Э.Р. Современная каталогизационная терминология. М.: Москва, 1992.

28. Лезин Г.В., Тузов В.А. Семантический анализ текста на русском языке: семантико-синтаксическая модель предложения // Экономико-математические исследования: математические модели и информационные технологии. СПб.: Наука, 2003.

29. Некрестьянов И.О Тематико-ориентированные методы информационного поиска. СПб.: Санкт-Петербургский гос. ун-т, 2000.

30. Ножов И.М. Морфологическая и синтаксическая обработка текста (модели и программы). М.: Москва, 2003.

31. Широков А.В. Разработка модели информационного портрета пользователя для персонифицированного поиска // Отчеты конкурса научных проектов в области информационного поиска «Интернет-математика» [Электронный ресурс]. URL: http://com-pany.yandex.ru/academic/grant/report2007.xml (дата обращения: 26.12.2020).

14. Kanev A.I., Terekhov V.I. Evaluation issues of query result ranking for semantic search. 7th International Young Scientists Conference on Information Technology. 2020. Vol. 1694. No. 1. P. 012004.

15. Kiss A.N., Libaers D., Barr P.S. et al. CEO cognitive flexibility, information search, and organizational ambidexterity. Strategic Management Journal. 2020. Vol. 41. No. 12. Pp. 2200-2233.

16. Kumar R., Singh J., Singh B., Rana M.K. Usability of OPAC in university libraries. Library Philosophy and Practice. 2018. Vol. 1. Pp. 1-11.

17. Li W, Zhang S., Qi G. A graph-based approach for resolving incoherent ontology mappings. Web Intelligence. 2018. Vol. 16. No. 1. Pp. 15-35.

18. Liu C., Huai H. An improved full-text retrieval for elementary education resource database system. Journal of Physics: Conference Series. 2020. Vol. 1693. No. 1. P. 012053.

19. Luong D.D., Phuong V.Q., Tung, H.D.T. A new indexing technique XR+ tree for bio informatics XML data compression. International Journal of Engineering and Advanced Technology. 2019. Vol. 8. No. 5. Pp. 1168-1173.

20. Mehta K., Foster I., Klasky S. et al. A codesign framework for online data analysis and reduction. The International Conference for High Performance Computing, Networking, Storage and Analysis. Denver: Institute of Electrical and Electronics Engineers Inc, 2019. Pp. 11-20.

21. Moffat A., Scholer F, Yang Z. Estimating measurement uncertainty for information retrieval effectiveness metrics. Journal of Data and Information Quality. 2018. Vol. 10. No. 3. P. 10.

22. Murzin F, Perfliev A., Shmanina T. Methods of syntactic analysis and comparison of constructions of a natural language oriented to use in search systems. Bulletin of the Novosibirsk Computing Center. Series: Computer Science. 2010. No. 31. Pp. 91-109.

23. NoriR., Palmiero M., GiusbertiF. et al. Web searching and navigation: Age, intelligence, and familiarity. Journal of the Association for Information Science and Technology. 2020. Vol. 71. No. 8. Pp. 902915.

24. Steinberg D., Metz P. User response to and knowledge about an online catalog. College & Research Libraries. 1984. Vol. 45. No. 1. Pp. 66-70.

25. Thomas P., Billerbeck B., Craswell N., White R.W. Investigating searchers' mental models to inform search explanations. ACM Transactions on Information Systems. 2019. Vol. 38. No. 1. P. 10.

26. Yi L., Yuan R., Long S., Xue L. Expert information automatic extraction for IoT knowledge base. Procedia Computer Science. 2019. Vol. 147. Pp. 288-294.

27. Bakhturina T.A., Sukiasyan E.R. Modern cataloging terminology. Moscow: Moskva, 1992.

28. Lezin G.V., Tuzov V.A. Semantic analysis of the text in Russian: semantic-syntactic model of the sentence. Economic and Mathematical Research: Mathematical Models and Information Technologies. St. Petersburg: Nauka. 2003. Pp. 282-303.

29. Nekrestyanov I.S. Thematic-oriented methods of information retrieval. St. Petersburg: Saint Petersburg State University. 2000.

30. Nozhov I.M. Morphological and syntactic processing of text (models and programs). Moscow: Moskva, 2003.

31. Shirokov A.V. Development of a model of informational portrait of a user for personalized search. Reports of the Competition of Scientific Projects in the Field of Information Search "Internet Mathematics". 2017 [Electronic resource]. URL: http://company. yandex.ru/academic/grant/ report2007.xml (data of accesses: 26.12.2020).

Статья проверена программой Антиплагиат. Оригинальность - 98%

Рецензент: Гусев О.И., кандидат физико-математических наук; заместитель директора по научной работе; руководитель Лаборатории цифровых двойников и анализа больших данных Федерального исследовательского центра информационных и вычислительных технологий

Статья поступила в редакцию 14.01.2022, принята к публикации 17.02.2022 The article was received on 14.01.2022, accepted for publication 17.02.2022

СВЕДЕНИЯ ОБ АВТОРАХ ABOUT THE AUTHORS

Жаксыбаев Дархан Оракбаевич, докторант кафедры Darkhan O. Zhaxybayev, doctoral student at the Depart-

информационных систем Евразийского националь- ment of Information Systems of the L.N. Gumilyov Eur-

ного университета имени Л.Н. Гумилева. Нур-Султан, asian National University. Nur-Sultan, Republic of Kazakh-

Республика Казахстан. ORCID: 0000-0003-3525-6527; stan. ORCID: 0000-0003-3525-6527; E-mail: zhaxybayev

E-mail: zhaxybayev6717-1@murdoch.in 6717-1@murdoch.in

Барахнин Владимир Борисович, доктор технических Vladimir B. Barakhnin, Dr. Sci. (Eng.); associate pro-

наук; доцент лаборатории цифровых двойников и ана- fessor at the Laboratory for Digital Twins and Big Data

лиза больших данных Федерального исследователь- Analysis of the Federal Research Center for Information

ского центра информационных и вычислительных and Computational Technologies; associate professor

технологий; доцент кафедры математического мо- at the Department of Mathematical Modeling of the Fac-

делирования механико-математического факультета ulty of Mechanics and Mathematics of the Novosibirsk

Новосибирского государственного университета. Но- State University. Novosibirsk, Russian Federation. ORCID:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

восибирск, Российская Федерация. ORCID: 0000-0003- 0000-0003-1541-0793; E-mail: barakhnin@nanyang-

1541-0793; E-mail: barakhnin@nanyang-uni.com uni.com

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Жаксыбаев Дархан Оракбаевич, Барахнин Владимир Борисович

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Жаксыбаев Дархан Оракбаевич, Барахнин Владимир Борисович

COORDINATE INDEXING ALGORITHMS TAKING INTO ACCOUNT THE CLASSIFICATION SIGNS-TERMS IN THE SUBJECT AREA

Текст научной работы на тему «АЛГОРИТМЫ КООРДИНАТНОГО ИНДЕКСИРОВАНИЯ С УЧЕТОМ КЛАССИФИКАЦИОННЫХ ПРИЗНАКОВ-ТЕРМИНОВ ПО ПРЕДМЕТНОЙ ОБЛАСТИ»