Научная статья на тему 'Оценка эффективности поисковых операций'

Оценка эффективности поисковых операций Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
389
65
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЭФФЕКТИВНОСТЬ / EFFECTIVENESS / ПОИСКОВЫЕ ОПЕРАЦИИ / SEARCH OPERATIONS / РАСПОЗНАВАНИЕ ОБРАЗОВ / PATTERN RECOGNITION / ВЕРОЯТНОСТЬ ПРОПУСКА ЦЕЛИ / TARGET MISSING PROBABILITY / ВЕРОЯТНОСТЬ ЛОЖНОЙ ТРЕВОГИ / FALSE ALARM PROBABILITY

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кулик С.Д.

Представлены оценки эффективности поисковых операций, содержащих алгоритм распознавания и выполняемых с целью поиска единственного объекта среди заданного множества похожих объектов. В качестве оценки эффективности принято среднее число похожих объектов, рекомендованных средствами для дальнейшего анализа. Проведено исследование этой оценки, получены ее экспериментальные результаты на реальных данных. Эти результаты могут быть использованы для некоторых систем поддержки принятия решений.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Кулик С.Д.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Estimating efficiency of search operations

This article deals with the search operations. A set of numerical evaluation criteria of the effectiveness of search operations is introduced. The purpose of studies is to suggest efficiency criteria of search operations and develop a measurement method. This article is about special the search system. The search system includes the block of object indexing, the block of recommendatory list processing, the block of searching, the block of searching array realized, the block of recognition, the block of archive of objects. Four properties were detected. The average number of similar objects in the list of recommendation is an important indicator. Estimates of the effectiveness of search operations were obtained. Two effectiveness indicators presented this estimate: probability of the correct response to the search inquiry, average length of the recommendatory list, which is given by the search block for the human operator making the final decision. In this paper, the particular attention is given to indicators: probability of the correct response to the search inquiry and average length of a recommendatory list. The algorithms were applied. Algorithm is characterized by two probabilities: probability of missing a target and false alarm probability. Study of these estimates was done and the experimental results were obtained. These results are used for some information systems for making decisions in criminalistics. It is offered to use a special factographic information retrieval. The results were successfully protected by various patents. Further, it is planned to get and explore in details one remaining evaluation of the effectiveness. Namely, the average number of comparison operations that are implemented by the search block.

Текст научной работы на тему «Оценка эффективности поисковых операций»

No. 6 (54) 2014

journal qf appued informatics

С. Д. Кулик, докт. техн. наук, профессор Национального исследовательского ядерного университета «МИФИ», г. Москва, sedmik@mail.ru

Оценка эффективности поисковых операций

Представлены оценки эффективности поисковых операций, содержащих алгоритм распознавания и выполняемых с целью поиска единственного объекта среди заданного множества похожих объектов . В качестве оценки эффективности принято среднее число похожих объектов, рекомендованных средствами для дальнейшего анализа . Проведено исследование этой оценки, получены ее экспериментальные результаты на реальных данных . Эти результаты могут быть использованы для некоторых систем поддержки принятия решений .

Ключевые слова: эффективность, поисковые операции, распознавание образов, вероятность пропуска цели, вероятность ложной тревоги .

Введение

Поисковые операции приходится выполнять в различных областях. Например, в криминалистике при поиске отпечатка пальца в базе данных подобных отпечатков, в медицине при поиске больного с похожими симптомами заболевания, в сети Интернет при поиске фактографических данных по запросу пользователя, в поисковых операциях на суше и на море, когда требуется найти изображение пропавшего объекта (например, корабль, самолет) в базе данных (БД) заданных изображений, и в подобных областях практической деятельности. Исследование операций [1] — это важный этап оценки эффективности поисковых операций и принятия решений. Выполняя анализ операций, приходится решать различные задачи поиска, некоторые из них рассмотрены в работах [2-6]. Поисковые операции в отдельных случаях являются неотъемлемой частью процесса принятия решений. Эффективный поиск имеет важное, а порой и решающее значение для систем поддержки принятия решений (СППР).

Далее в данной работе подробно рассматривается только двухэтапный автоматизированный поиск по аналогии с фактографическим поиском [3, 4]. На первом этапе,

в котором отсутствуют трудоемкие ручные операции, поиск выполняется, как правило, без прямого участия человека, с помощью программно-технических средств, которые позволяют получить предварительные результаты поиска, например в виде рекомендательного списка (РС). Этот РС формируется в зависимости от практического приложения средств поиска. Будем полагать, что на этом этапе применяются необходимые алгоритмы распознавания образов [7], например нейросетевые [8]. На втором этапе поиска подключается к работе человек-оператор, являющийся специалистом в данной прикладной области, например эксперт-криминалист (почерковед)[9] или специалист по анализу снимков из космоса. На этом этапе человек-оператор принимает окончательное решение о результатах поиска.

Проблемам поиска посвящены многие работы, например [1, 2, 5]. Однако при этом задача оценки эффективности поисковых операций с учетом ограниченных возможностей человека-оператора, например эксперта в прикладной области, полностью не решена. Данная работа частично устраняет этот недостаток.

Задача системы поиска в общем случае — найти требуемые сведения, связанные с искомым объектом. Например, применительно к криминалистическим объектам

60 у

№ 6 (54) 2014

задача поиска — наити тождественный запросу объект (ТЗО) [3] среди объектов архива системы по их описаниям в поисковом массиве и в случае его обнаружения выдать необходимые сведения об объекте поиска. В системах криминалистического назначения [9, 10] в результате эффективного поиска, выполняемого поисковым блоком (ПБ), осуществляется либо раскрытие преступления, либо объединение уголовных дел [10].

Критерий эффективности

Для суждения об эффективности поисковых операции и сравнения между собоИ различных вариантов ПБ, в которых реализован поиск, введем совокупность количественных критериев оценки, или показатели эффективности. Предлагаются следующие два показателя:

Ух — вероятность правильного ответа на поисковый запрос;

Lx — средняя длина рекомендательного списка, выдаваемого блоком поиска для человека-оператора, принимающего окончательное решение.

В данной статье эффективность работы человека-оператора (лица, принимающего

решение) будем оценивать по показателю LздН — максимально возможная длина рекомендательного списка, которую человек-оператор может безошибочно обработать (в простейшем случае просмотреть).

Отметим, что на практике стремятся соблюсти ограничение Lx < LЗДН. Это позволяет в большинстве случаев избежать ошибок при принятии окончательных решений о результатах поиска. Значения выбранных критериев зависят от применяемого в системе поискового блока.

Поисковый блок

Система поиска (рис. 1) имеет в своем составе блок 1 — индексирования объекта и блок 2 — поиска, блок 3 — обработки РС, блок 5 — распознавания, блок 6 — архив самих объектов и блок 4 — поисковый массив, реализованный, например, в виде специальной БД, которая содержит описания объектов в виде поисковых образов объектов (ПОО).

В качестве объектов могут быть использованы, например, данные криминалистических систем [9, 10], систем обнаружения объекта по изображению с использованием

Рис. 1. Укрупненная схема поисковых операций системы поиска

61

-n journal of applied informatics

No. 6 (54) 2014 ' -

нейросетевых алгоритмов распознавания образов и т. п.

Запрос на поиск, который в дальнейшем будем называть поисковым образом запроса (ПОЗ), содержит описание с признаками объекта, который требуется найти. Информация в ПОО или ПОЗ может быть искажена, например, из-за наличия различных помех (шумов) или ошибок при индексировании объектов.

Предполагается, что всего имеется N объектов, хранящихся в архиве. Каждый объект из архива находится на месте, однозначно определяемом регистрационным номером (РН). На одном месте может находиться только один объект. Все ПОО хранятся в поисковом массиве базы данных в виде последовательного линейного списка. В запросе на поиск (ПОЗ) содержится описание объекта, который может храниться, а может отсутствовать в архиве объектов. Предполагается, что запросом с вероятностью Р может быть описание объекта, тождественного одному из объектов архива, чей ПОО с вероятностью вл стоит на л-м месте (л = 1, 2, 3,..., N в поисковом массиве. Запрос на поиск в виде ПОЗ поступает в блок распознавания образов (блок 5), где реализовано (с использованием, например, нейросетевых алгоритмов) правило попарного сравнения ПОЗ и ПОО, учитывающее возможные искажения в ПОО из-за наличия различных помех (шумов) или ошибок, в частности со стороны человека-оператора. Поисковым блоком сравнение ПОЗ и ПОО выполняется с применением алгоритма распознавания образов и характеризуется [11]:

Р1 — вероятностью правильного сравнения двух тождественных объектов по их описаниям, (1 - Р^ — вероятностью пропуска цели;

Р2 — вероятностью правильного сравнения двух нетождественных объектов по их описаниям, (1 - Р2) — вероятностью ложной тревоги.

Если поисковым блоком с помощью блока распознавания в результате попарного

сравнения двух объектов выявлена их тождественность, то регистрационный номер ПОО заносится в РС. Всего в РС может быть занесено L вхождений РН. При сравнении с ПОЗ поисковые образы объектов поступают из своего поискового массива последовательно один за другим для сравнения поисковым блоком. Поисковый блок прекращает поиск после заполнения РС или после просмотра всей области поиска из N описаний объектов поискового массива, что соответствует стратегии полного поиска [3]. Результатом поиска, выполненного поисковым блоком, является РС, содержащий от 0 до L вхождений РН. Это число будем называть длиной РС.

Отметим, что человек-оператор может безошибочно обработать (просмотреть) ограниченный РС с длиной L не более LздН

< LЗДН). Возможность изменения максимально возможной длины РС, выдаваемого поисковым блоком для человека-оператора, позволяет регулировать качество работы человека-оператора, обрабатывающего объекты из РС, и тем самым повышать эффективность поисковых операций.

В некоторых поисковых системах человек-оператор может выполнять кроме обработки РС индексирование объектов(со-ставление ПОЗ или ПОО), в процессе которого возможны ошибки, сохраняющиеся в ПОО или ПОЗ. Эти ошибки могут приводить в процессе поиска к пропускам целей и ложным тревогам.

В общем случае объекты, чьи описания поступают на вход поискового блока, могут быть описаны тремя группами признаков. Первую и вторую группы составляют признаки, которые поддаются формализованному описанию и могут быть использованы при автоматизированном индексировании объектов и при сравнении объектов (например, нейронной сетью в блоке распознавания) по их описаниям. При этом первую группу составляют признаки, устойчивые к незначительным искажениям объектов, а вторую группу — признаки, чувствительные к незначительным

№ 6 (54) 2014

искажениям объектов. Ошибка индексирования этих признаков человеком-оператором или в некоторых случаях автоматом (например, с помощью нейронной сети) существенно зависит от уровня искажения самих объектов.

Третью группу составляют признаки, которые не поддаются формализованному описанию и используются только человеком-оператором (лицом, принимающим решение) лишь при непосредственном сравнении объектов между собой при обработке РС. На базе первой группы признаков строится схема классификации объектов по их описаниям. С ее помощью все описания объектов (ПОО или ПОЗ) разбивают на k классов и организуют стратегии поиска. С помощью второй группы признаков строится алгоритм распознавания (сравнения) объектов по их описаниям ПОЗ и ПОО. С его помощью поисковый блок формирует РС для человека-оператора. Далее будем предполагать, что отсутствуют признаки, устойчивые к незначительным искажениям объектов, и поэтому нет схемы классификации объектов.

Обработка запросов на поиск происходит следующим образом (рис. 1). Специальные средства, которые здесь не рассматриваются, формируют поток запросов в виде объектов-запросов. Эти объекты-запросы поступают в блок 1 индексирования объекта, где составляется описание объекта в виде ПОЗ. В простейшем случае ПОЗ содержит перечень значений признаков, которые в дальнейшем используются алгоритмом распознавания в блоке 5. В результате поиска поисковый блок для данного ПОЗ отыскивает в поисковом массиве описания объектов (т. е. ПОО), наиболее похожих на объект-запрос (т. е. ПОЗ). Степень «похожести» определяется алгоритмом сравнения (распознавания) ПОЗ и ПОО. Регистрационные номера похожих (рекомендуемых для дальнейшего анализа) объектов заносятся в РС. Из-за ограниченности буфера РС поиск прекращается либо после его заполнения не более чем L регистрационными номерами

объектов, либо после просмотра всей области поиска из N ПОО в поисковом массиве.

Далее сформированный РС, объект-запрос и объекты хранения, чьи регистрационные номера указаны в РС, передаются человеку-оператору в блок 3 обработки РС. Окончательное решение в отношении ответа на поступивший запрос принимает человек-оператор (на выходе поисковой системы) путем анализа (экспертизы) и сравнения объекта-запроса с объектами хранения, указанными в РС. В результате выдается ответ либо типа «ДА» (да, есть такой же объект в системе (идентичный объекту-запросу), и по нему имеются такие-то сведения), либо ответ типа «НЕТ» (нет подобного объекта в системе идентичному объекту-запросу). Ответ и результаты поиска передаются пользователю, который прислал объект-запрос.

Рассмотрим кратко работу человека-оператора на выходе системы поиска (см. рис. 1) при выполнении технологической операции обработки РС, которая обычно трудоемка и неидеальна. Она очень сильно влияет на конечный результат всего поиска, являющегося окончательным ответом на поисковый запрос. Например, если ответ на этот запрос содержится в конце РС и при этом РС слишком длинный, то человек-оператор обычно прекращает его обработку, не доходя до его конца и не получив правильного ответа на запрос. Отметим, что работа человека-оператора на выходе системы поиска является завершением всего поиска. Если РС слишком длинный (содержит много похожих объектов на объект-запрос), то человек-оператор будет тратить слишком много времени и сил на его обработку и при этом сильно уставать. Иногда существуют ограничения в виде директивных сроков на общее время обработки РС независимо от его длины. В связи с этим увеличение длины РС приводит к уменьшению среднего времени на обработку одного объекта из РС. Естественно, что чем больше длина РС, тем работа человека-оператора в этом случае становится более интенсивной и напряженной, так как время на просмотр всего РС у него огра-

-n journal of applied informatics

No. 6 (54) 2014 ' -

ничено директивным сроком. В итоге человек-оператор при больших длинах РС начинает допускать и больше ошибок, приводящих к пропуску цели (невыдачи ТЗО в ответ на объект, поступивший в качестве запроса). При дальнейшем увеличении длины РС, как правило, наблюдаются одни ошибки в работе человека-оператора и в итоге — полный отказ в обработке слишком длинных РС.

Будем предполагать в дальнейшем, что необходимые технические и программные средства работают безошибочно, а вероятность правильного ответа на запрос определяется вероятностью правильного ответа на запрос поисковым блоком, характеристиками Рь Р2 алгоритма распознавания образов (в блоке 5) и возможностями человека-оператора ^ < Lздн).

Проведенные исследования позволили получить аналитические выражения (формулы) для оценки эффективности поиска с помощью показателей Цх, Lx:

Ц = Р ■ в1 + (1 - Р )• S2; Lx = Р • Р1 + (1 - Р )• F 2,

где S1 — вероятность правильного ответа поискового блока на запрос при поиске в области, содержащей ТЗО; S2 — вероятность правильного ответа поискового блока на запрос при поиске в области, не содержащей ТЗО; F1 — средняя длина РС при поиске в области, содержащей ТЗО; F2 — средняя длина РС при поиске в области, не содержащей ТЗО.

Для получения оценки Цх — вероятности правильного ответа на запрос, как и в работе [4], было введено пространство &, где его элементарными событиями являются ответы поискового блока на запрос. Пространство событий & разделяется на два непересекающихся пространства D и Е. Пространству D соответствуют события правильного ответа поискового блока на запрос, а пространству Е соответствуют события неправильного ответа поискового блока на за-

прос. Это позволяет вычислить вероятность появления хотя бы одного события из D. Такую вероятность мы примем за вероятность правильного ответа поискового блока на запрос. Аналогично получим, что Ц0 — вероятность появления хотя бы одного события из Е есть вероятность неправильного ответа поискового блока на запрос.

События пространства & должны составлять полную группу событий, т. е. вероятность появления хотя бы одного события из О должна быть равна единице.

Для вероятности S1 в зависимости от практических приложений пространство D может определяться различными способами. Рассмотрим только один из них. Это пространство D состоит из событий, при которых РН тождественного объекта выдается в РС, и при этом может быть выдано от 0 до ^ - 1) регистрационных номеров объектов, не тождественных запросу.

Для вероятности S2 в зависимости от различных практических приложений D определяется также различными способами. Рассмотрим только один из них. Это пространство D состоит из событий, при которых в РС выдается от 0 до L регистрационных номеров объектов, не тождественных запросу. Аналогично вводятся элементарные события пространства & для показателя Lx.

Получены следующие аналитические выражения для вероятностей S1 и S2 [3, 4]:

S1 = р Р2, ^ вп) =

HIß* +Xßn Iс-(1-p)mp2n

S2 =

N Г T

G4(N, P2, L) =2[cm (1-P2-m].

Были также получены выражения для F1, F2 [3]:

F1 = F(N, р р ^ рп) = ^ + F2, F =Хвп {(1 - Р)• L(N -1,Рг,Ц +

п=1

+ Р [1 + L(N - 1,р L -1)]},

№ 6 (54) 2014

2

I Г 1

ХРл\1{РГ-3 (1-Р2 ) •

1=1+1 [в=Ь

+Х {сл-1Р2Л-1-' (1-Р ) • Ql}},

Ql =(1- Р){L(N - л,Рг, L -/) +/} + + Р {L(N - л,Р2, L -1 -/) +1 + /},

F2 = L(N, р, Ц = £Г^Р-т (1 -Р)т т] +

т=0

N г п

+Х\с>тР-т (1-Р2 )mL\.

т=1

Было доказано [4], что S2 = 1, а функции F1 = F(N, р, Р2, L, рл) и F2 = L(N, Р2, ^ обладают следующими важными свойствами. Свойство 1

L(N, Рг, L) =

0 при Р2 = 1; L при Р2 = 0; N(1-Р2) при L = N.

Исследование эффективности

Для определения значений критериев эффективности поисковых операций были разработаны программные средства на основе моделирования и исследования поисковых операций. Некоторые алгоритмы были реализованы аппаратно. Эти средства позволяют учесть влияние на результат человека-оператора и оценить влияние алгоритма распознавания на эффективность поискового блока.

В результате проведенных исследований [3, 4] была установлена зависимость функций S1 и F2 от параметров L, N, Р1

и Р2. Часть результатов для S1 при вл = N

(л = 1,., N1), Р^ = 0,9999, Р2 = 0,999, различных N и L представлена в табл. 1, 2, а для F2 — в табл. 3.

Таблица 1

Свойство 2

Значение функции L(N, Р2, L) не уменьшается при увеличении N, (1 - Р2) или L.

Свойство 3

Для F(N, р, Р2, L, вл) справедливы следующие разложения:

F (N, Р, р, L, в л) = Р { -1, р, L -1) +1} + + (1-Р )• L(N - 1,Р2, L);

F(N, р, Д., ^ рл) = ЦЧ Д., L) + + [[ + Р2 -1]{1 +L(N-1, Р2, L-1)-L(N-1, Р2, L)}.

Свойство 4

Для любого 5 > 0 при заданных N, L, Р2 существует Е*, при котором выполняется |L(N, Р2, L, Е*) - L(N, Р2, L)| <5, где

цч Р2, L, Е) = X Г^-т (1 - Р )т т] +

т=0

+Х [ср-т (1-Р2 ))nL].

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

т=1

Для практических целей в работе [11] для L(N, Р2, L, Е) представлен метод оценки параметра Е*.

Эффективность при М = 106

Показатели эффективности Значения показателей эффективности

L 1 10 90 100

51 0,01 0,10 0,89 0,96

Из табл. 1 следует, что при Р1 = 0,9999, Р2 = 0,999, вл = 1, при числе ПОО (записей)

N = 106 и при ограничении на максимально возможную длину РС в 100 регистрационных номеров ^ = 100) вероятность правильного ответа поискового блока на запрос при поиске в области, содержащей ТЗО, составляет S1 = 0,96.

Особое внимание при исследовании средней длины РС было уделено рассмотрению влияния функции L(N, Р2, L), поскольку согласно Свойству 3 через эту функцию можно выразить функцию F1 = F(N, р, Р2, ^ вл).

Анализ зависимости функции F2 = L(N, Р2, L) от L и N при фиксированных значениях Р2 показывает следующее:

65

No. 6 (54) 2014

journal of applied informatics

Таблица 2

Эффективность при N = 108

Показатели эффективности Значения показателей эффективности

L 100 200 300 500 700 900 1000 4000

S1 0,01 0,02 0,03 0,05 0,07 0,09 0,1 0,4

Таблица 3

Эффективность при N = 1000 и Р2 = 0,7

Показатели эффективности Значения показателей эффективности

L 100 200 250 400 450 480 500

F2 100 200 250 300 300 300 300

• при L ~ N наблюдается что L(N, Р2, L) = = N ■ (1 - Р2) (этот результат полностью согласуется со Свойством 1);

• при Р2 ~ 1 в соответствии со Свойством 1 значение L(N, Р2^) ~ 0;

• при Р2 ~ 0 зависимость F2 = L(N, Р2, L) от L близка к прямой линии с наклоном в 45о, т. е. L(N,Р2^) ~ L, что полностью соответствует Свойству 1;

• при увеличении вероятности Р2 или при уменьшении L функция L(N, Р2, L) соответственно уменьшается (этот результат не противоречит Свойству 2).

Анализ зависимости функции F2 = L(N, Р2, L) от N при фиксированных значениях Р2 и L показывает следующее:

• при увеличении N средняя длина рекомендательного списка также растет (этот факт соответствует Свойству 2);

• при N значение функции L(N, Р2, L) стремится к пределу, равному L.

Полученные результаты количественного анализа полностью подтвердили выводы теоретических исследований свойств функции L(N, Р2, L). Выполненные исследования позволили построить инструмент для оценки средней длины РС и предложить подход к ускорению этих вычислений (см. Свойство 4) при заданном ограничении точности вычислений.

Основное внимание при исследовании оценок вероятностей уделено функции S1 = V1(N, Р Р2, ^ рл), поскольку S2 = 1. Вы-

полнен анализ зависимости вероятности V1 (N, Р Р2, ) от параметров N, Р Р2, L

при вл = Было выяснено следующее:

• вероятность правильного ответа S1 есть неубывающая функция при возрастании Р Р2, L ;

• при значениях Р2 ~ 1 или L ~ N значение V1(N, Р Р2, L, вл) стремится к величине Р1;

• при N ^^ значение функции S1 = V1 (N, Р Р2, L, вл) стремится к 0, что полностью подтверждается исследованиями, представленными в работе [4].

Результаты экспериментальной проверки

Поскольку S2 = 1, а F1 может быть выражена через F2, то полученные оценки были экспериментально проверены для показателей эффективности S1 и F2. Для проведения экспериментальных исследований [3, 4] были разработаны специальные программы. Эксперимент подтвердил оценки показателей S1 и F2. Некоторые результаты этой экспериментальной проверки представлены в табл. 4.

В табл. 4 приведены доли случаев (в процентах) наблюдения соответствующей величины отклонения значения экспериментально измеренного от теоретического расчета показателей S1, F2. Из табл. 4 видно, что от-

66

№ 6 (54) 2014

Таблица 4

Результаты эксперимента

Показатель 51 Показатель Я2

Абсолютное отклонение Доля случаев, % Относительное отклонение, % Доля случаев, %

0,05 80 5 82

0,15 98 15 96

0,20 99 20 98

носительное несовпадение теоретических показателей эффективности и экспериментально измеренных для реальных данных не превышает уровня ±0,05 для показателя в 80% случаев, а отклонение в 15% показателя F2 наблюдается в 96% случаев. Таким образом, можно полагать, что в большинстве случаев (80%) результаты расчета совпадают с приемлемой для практики точностью (порядка 5%) для двух показателей эффективности и F2 одновременно.

Заключение

Таким образом, в результате проведенных исследований были изучены свойства важного показателя эффективности поиска — средней длины рекомендательного списка, выдаваемого поисковым блоком для человека-оператора. Экспериментальная проверка в области криминалистики на реальных данных показала, что для доверительной вероятности 0,997 теоретическая зависимость этого показателя от величины L накрывается доверительными интервалами в случайно выбранных точках (значениях L). Это позволяет проводить обоснованный анализ эффективности поиска, выполняемого поисковым блоком, что особенно важно для обеспечения информационной безопасности [12] и в криминалистике [10, 15, 16, 17].

Для разработчика поискового блока были созданы необходимые программные средства, позволяющие до проведения поисковых операций оценить эффективность поиска с учетом основных характеристик алгоритма распознавания образов и человека-оператора. Важная часть полученных результатов успешно защищена различ-

ными охранными документами Роспатента, например [10, 13-16], на полезные модели и программное обеспечение.

Список литературы

1. Абчук В. А., Матвейчук Ф. А., Томашев-ский Л. П. Справочник по исследованию операций. М.: Воениздат, 1979. — 368 с.

2. Альсведе Р., Вегенер И. Задачи поиска. М.: Мир, 1982. — 368 с.

3. Кулик С. Д. Алгоритмы распознавания образов и моделирование автоматизированных фактографических информационно-поисковых систем // Нейрокомпьютеры: разработка и применение. 2007. № 2-3. С. 67-82.

4. Кулик С. Д. Исследование поискового робота для фактографического поиска // Научно-техническая информация. 2003. Сер. 2. № 3. С. 21-27.

5. Кулик С. Д. Исследование фактографических систем и баз данных // Научно-техническая информация. 2003. Сер. 2. № 4. С. 33-41.

6. Кнут Д. Э. Искусство программирования. Т. 3: Сортировка и поиск. 2-е изд. М.: Вильямс, 2004. — 822 с.

7. Ту Дж., Гонсалес Р. Принципы распознавания образов. М.: Мир, 1978. — 411 с.

8. Галушкин А. И. Теория нейронных сетей (Нейрокомпьютеры и их применение. Кн. 1). М.: ИПРЖР, 2000. — 416 с.

9. Кулик С. Д., Никонец Д. А. Автоматизация классификационно-диагностических почерковедческих исследований с помощью нейронных сетей // Информационные технологии. 2012. № 1. С. 70-75.

10. Кулик С. Д. Свидетельство на полезную модель № 23701 Российская Федерация ^и), кл. МПК7 G 07 D 7/00. Устройство для объединения уголовных дел, определения фальшивых банкнот, ценных бумаг и документов при раскры-

No. 6 (54) 2014

journal of applíed ínformatícs

тии преступлений в криминалистике / С. Д. Кулик (Россия). — Заявка № 2001134790/20; Заяв. 26.12.2001; Зарегистр. 27.06.2002; Приоритет от 26.12.2001; Опубл. Бюл. № 18. Ч. 2. С. 399.

11. Илюхина И. В., Кулик С. Д., Челышев М. М. Сокращение времени моделирования фактографических ИПС // Сетевая обработка информации. Материалы семинара. М.: МДНТП им. Ф. Э. Дзержинского, 1990. С. 134-138.

12. Кулик С. Д., Ткаченко К. И, Никонец Д. А. Средства обеспечения информационной безопасности и экспериментальное исследование эффективности почерковедческих методик // Безопасность информационных технологий. 2013. № 2. С. 57-69.

13. Кулик С. Д. Свидетельство на программу Российской Федерации № 2001610382 «Вычисление логарифма числа сочетаний в аналитической модели АФИПС» ^СНТ) / С. Д. Кулик (Россия). Заявка № 2001610122; Заяв. 8.02.2001; Зарегистр. 5.04.2001. Бюл. № 3 (36). С. 18-19.

14. Кулик С. Д. Свидетельство на полезную модель № 20686 Российской Федерации ^и), кл. МПК7 G 09 В 23/02 Устройство для моделирования значений функции вероятности правильного ответа на запрос автоматизированной фактографической информационно-поисковой системы криминалистического назначения / С. Д. Кулик (Россия). Заявка № 20011 16050/20; Заяв. 15.06.2001; Зарегистр. 20.11.2001; Приоритет от 15.06.2001; Опубл. Бюл. № 32. Ч. 2. С. 270.

15. Кулик С. Д. Свидетельство на полезную модель № 21686, Российская Федерация ^и), кл. МПК7 G 09 В 23/02. Устройство для моделирования значений функции средней длины рекомендательного списка при ответе на запрос автоматизированной фактографической информационно-поисковой системы криминалистического назначения / С. Д. Кулик (Россия). Заявка № 2001126168/20; Заяв. 02.10.2001; Зарегистр. 27.01.2002; Приоритет от 02.10.2001; Опубл. Бюл. № 3. Ч. 2. С. 415-416.

16. Кулик С. Д., Никонец Д. А., Ткаченко К. И., Жижилев А. В. Патент на полезную модель № 73750, Российская Федерация ^и), кл. МПК7 G 07 D 7/00. Устройство определения фальшивых рукописных документов на русском языке / С. Д. Кулик, Д. А. Никонец,

К. И. Ткаченко, А. В. Жижилев (Россия). Заявка № 2007147832/22; Заяв. 25.12.2007; Зарегистр. 27.05.2008; Приоритет от 25.12.2007. Опубл. Бюл. № 15. Ч. 3. С. 860.

17. Кулик С. Д., Никонец Д. А., Ткаченко К. И, Лукьянов И. А., Гунько Н. Е. Патент на полезную модель № 111926, Российская Федерация (RU), кл. МПК G 06 K 9/00. Устройство определения рукописных документов, принадлежащих исполнителю текста на русском языке / С. Д. Кулик, Д. А. Никонец, К. И. Ткаченко, И. А. Лукьянов, Н. Е. Гунько (Россия). Заявка № 2011127077/08; Заяв. 04.07.2011; Зарегистр. 27.12.2011; Приоритет от 04.07.2011. Опубл. Бюл. № 36. Ч. 4. С. 1098.

References

1. Abchuk V. A., Matveychuk F. A., Tomashevs-kiy L. P. Spravochnik po issledovaniyu operatsiy. M.: Voyenizdat, 1979. 386 р.

2. Al'svede R., Vegener I. Zadachi poiska. M.: Mir, 1982. 386 р.

3. Kulik S. D. Algoritmy raspoznavaniya obrazov i modelirovaniye avtomatizirovannykh faktogra-ficheskikh informatsionno-poiskovykh system. Neyrokomp'yutery: razrabotka i primeneniye, 2007, no. 2-3, рр. 67-82.

4. Kulik S. D. Issledovaniye poiskovogo robota dlya faktograficheskogo poiska. Nauchno-tekhniches-kaya informatsiya, 2003, ser. 2, no. 3, рр. 21-27.

5. Kulik S. D. Issledovaniye faktograficheskikh sistem i baz dannykh. Nauchno-tekhnicheskaya informatsiya, 2003, ser. 2, no. 4, рр. 33-41.

6. Knut D. E. Iskusstvo programmirovaniya. T. 3: Sor-tirovka i poisk. 2-ye izd. M.: Vil'yams, 2004. 822 р.

7. Tu Dzh., Gonsales R. Printsipy raspoznavaniya obrazov. M.: Mir, 1978. 411 р.

8. Galushkin A. I. Teoriya neyronnykh setey (Neyrokomp'yutery i ikh primeneniye. Kn. 1). M.: IPRZHR, 2000. 416 р.

9. Kulik S. D., Nikonets D. A. Avtomatizatsiya klassifikatsionno-diagnosticheskikh pocherk-ovedcheskikh issledovaniy s pomoshch'yu ney-ronnykh setey. Informatsionnyye tekhnologii, 2012, no. 1, рр. 70-75.

10. Kulik S. D. Svidetel'stvo na poleznuyu model' № 23701 Rossiyskaya Federatsiya (RU), kl. MPK7 G 07 D 7/00. Ustroystvo dlya ob»yedineniya ugo-lovnykh del, opredeleniya fal'shivykh banknot, tsen-

68j

№ 6 (54) 2014

nykh bumag i dokumentov pri raskrytii prestupleniy v kriminalistike / S. D. Kulik (Rossiya). — Zayavka № 2001134790/20; Zayav. 26.12.2001; Zaregistr. 27.06.2002; Prioritet ot 26.12.2001; Opubl. Byul. no. 18, ch. 2, р. 399.

11. Ilyukhina I. V., Kulik S. D., Chelyshev M. M. Sokrash-cheniye vremeni modelirovaniya faktograficheskikh IPS. Setevaya obrabotka informatsii. Materialy seminara. M.: MDNTP im. F. E. Dzerzhinskogo, 1990, рр. 134-138.

12. Kulik S. D., Tkachenko K. I., Nikonets D. A. Sredst-va obespecheniya informatsionnoy bezopasnosti i eksperimental'noye issledovaniye effektivnosti po-cherkovedcheskikh metodik. Bezopasnost infor-matsionnykh tekhnologiy, 2013, no. 2, рр. 57-69.

13. Kulik S. D. Svidetel'stvo na programmu Rossiys-koy Federatsii № 2001610382 «Vychisleniye log-arifma chisla sochetaniy v analiticheskoy mode-li AFIPS» (DSCHT). S. D. Kulik (Rossiya). Zayavka № 2001610122; Zayav. 8.02.2001; Zaregistr. 5.04.2001. Byul. no. 3 (36), рр. 18-19.

14. Kulik S. D. Svidetel'stvo na poleznuyu model' № 20686 Rossiyskoy Federatsii (RU), kl. MPK7 G 09 B 23/02 Ustroystvo dlya modelirovaniya znacheniy funktsii veroyatnosti pravil'nogo otveta na zapros avtomatizirovannoy faktograficheskoy informatsionno-poiskovoy sistemy kriminalistichesk-

ogo naznacheniya. S. D. Kulik (Rossiya). Zayavka № 2001116050/20; Zayav. 15.06.2001; Zaregistr. 20.11.2001; Prioritet ot 15.06.2001; Opubl. Byul. no. 32, ch. 2, р. 270.

15. Kulik S. D. Svidetel'stvo na poleznuyu model' № 20686 Rossiyskoy Federatsii (RU), kl. MPK7 G 09 B 23/02 Ustroystvo dlya modelirovaniya znacheniy funktsii veroyatnosti pravil'nogo otveta na zapros avtomatizirovannoy faktograficheskoy informatsionno-poiskovoy sistemy kriminalistichesk-ogo naznacheniya. S. D. Kulik (Rossiya). Zayavka № 2001116050/20; Zayav. 15.06.2001; Zaregistr. 20.11.2001; Prioritet ot 15.06.2001; Opubl. Byul. no. 32, ch. 2, р. 270.

16. Kulik S. D., Nikonets D. A., Tkachenko K. I., Zhizhi-lev A. V. Patent na poleznuyu model' № 73750, Rossiyskaya Federatsiya (RU), kl. MPK7 G 07 D 7/00. Ustroystvo opredeleniya fal'shivykh ruko-pisnykh dokumentov na russkom yazyke. S. D. Kulik, D. A. Nikonets, K. I. Tkachenko, A. V. Zhizhi-lev (Rossiya). Zayavka № 2007147832/22; Zayav. 25.12.2007; Zaregistr. 27.05.2008; Prioritet ot 25.12.2007. Opubl. Byul. no. 15, ch. 3, р. 860.

17. Kulik S. D. Neyronnyye seti v avtomatizirovannykh faktograficheskikh informatsionno-poiskovykh siste-makh. Neyrokomp'yutery: razrabotka i primeneniye, 2007, no. 2-3, рр. 60-66.

S. Kulik, PhD in Technique, National Nuclear Research University «MEPHI», Moscow, sedmik@mail.ru

Estimating efficiency of search operations

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

This article deals with the search operations. A set of numerical evaluation criteria of the effectiveness of search operations is introduced. The purpose of studies is to suggest efficiency criteria of search operations and develop a measurement method. This article is about special the search system. The search system includes the block of object indexing, the block of recommendatory list processing, the block of searching, the block of searching array realized, the block of recognition, the block of archive of objects. Four properties were detected. The average number of similar objects in the list of recommendation is an important indicator. Estimates of the effectiveness of search operations were obtained. Two effectiveness indicators presented this estimate: probability of the correct response to the search inquiry, average length of the recommendatory list, which is given by the search block for the human operator making the final decision. In this paper, the particular attention is given to indicators: probability of the correct response to the search inquiry and average length of a recommendatory list. The algorithms were applied. Algorithm is characterized by two probabilities: probability of missing a target and false alarm probability. Study of these estimates was done and the experimental results were obtained. These results are used for some information systems for making decisions in criminalistics. It is offered to use a special factographic information retrieval. The results were successfully protected by various patents. Further, it is planned to get and explore in details one remaining evaluation of the effectiveness. Namely, the average number of comparison operations that are implemented by the search block.

Keywords: effectiveness, search operations, pattern recognition, target missing probability, false alarm probability.

i Надоели баннеры? Вы всегда можете отключить рекламу.