Научная статья на тему 'Математические методы исследования семантических особенностей подсистемы поиска в автоматизированных информационных системах'

Математические методы исследования семантических особенностей подсистемы поиска в автоматизированных информационных системах Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
286
30
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНФОРМАЦИОННЫЙ ПОИСК / INFORMATION SEARCH / СЕМАНТИЧЕСКИЕ СВЯЗИ / SEMANTIC LINKS / ПАРАДИГМАТИЧЕСКИЕ ОТНОШЕНИЯ / PARADIGMATIC RELATIONS / ИНФОРМАЦИОННО ПОИСКОВЫЕ СИСТЕМЫ / INFORMATION RETRIEVAL SYSTEMS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Савотченко Сергей Евгеньевич, Проскурина Елена Александровна

В статье представлены определения показателей качества информационного поиска, определяющие меру возможности автоматизированной системы производить поиск пертинентных документов. Приведена методика исследования на основе специального вида последовательности запросов, члены которой связаны парадигматическими отношениями. Показаны основные методы проведения анализа поискового аппарата автоматизированных информационных систем с использованием определенных показателей качества

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MATHEMATICAL METHODS OF INVESTIGATION OF SEMANTIC FEATURES OF SEARCH SUBSYSTEM IN AUTOMATED INFORMATION SYSTEMS

The paper presents the determination of quality indicators of information retrieval, determining the possibility of automated system to search pertinent documents. The methodology of the study based on a special type of query sequences is introduced, the members of which are linked by paradigmatic relations. The basic methods of analysis of search apparatus of automated information systems using certain quality indicators are showed

Текст научной работы на тему «Математические методы исследования семантических особенностей подсистемы поиска в автоматизированных информационных системах»

УДК 025.4 © С.Е. Савотченко, Е.А. Проскурина

С.Е. Савотченко, Е.А. Проскурина МАТЕМАТИЧЕСКИЕ МЕТОДЫ ИССЛЕДОВАНИЯ СЕМАНТИЧЕСКИХ ОСОБЕННОСТЕЙ ПОДСИСТЕМЫ ПОИСКА В АВТОМАТИЗИРОВАННЫХ ИНФОРМАЦИОННЫХ СИСТЕМАХ

В статье представлены определения показателей качества информационного поиска, определяющие меру возможности автоматизированной системы производить поиск пертинентных документов. Приведена методика исследования на основе специального вида последовательности запросов, члены которой связаны парадигматическими отношениями. Показаны основные методы проведения анализа поискового аппарата автоматизированных информационных систем с использованием определенных показателей качества.

Ключевые слова: информационный поиск, семантические связи, парадигматические отношения, информационно-поисковые системы.

Введение

Информационные системы располагают огромным количеством информации по всем отраслям науки и техники. Подсистемы поиска современных автоматизированных информационных системах (АИС) располагают мощным лингвистическим аппаратом, позволяющим пользователю находить в беспорядочном информационном пространстве релевантные документы [1]. Но, несмотря на многочисленные исследования в области семантической обработки документов АИС, перед учеными стоит проблема организации пертинентного поиска. Данная проблема тесно связана с задачами проектирования интеллектуальных информационных систем. В этом случае лингвистические средства современных АИС должны учитывать семантические связи между терминами. В связи с этим, актуальными становятся исследования показателей качества результатов поиска в АИС.

Пертинентность определяется субъективным восприятием пользователя: в какой степени документ удовлетворяет его информационную потребность. Информационная потребность пользователя может быть выражена в формализованном запросе с той или иной степенью полноты и точности [1,2] Пертинентность информационного поиска означает, что отобранные релевантные запросу документы соответствуют специальности пользователя, области его интересов и, в идеальном случае, не содержат публикации из других предметных областей.

Понятие релевантность уже, чем пертинент-ность. Получается, что документ, выданный поисковой системой, может быть релевантен запросу, но не удовлетворять информационную потребность пользователя. Причиной тому является многозначность и недостаточность естественного языка. Как правило, пользователь составляет запрос на естественном языке, не учитывая вероятности наличия у одного понятия нескольких значений. Также следует учитывать, что пользователь осуществляет именно тематический поиск, т.е. его интересуют конкретные сведения в какой-либо области знания.

В основе технологии тематического поиска лежит использование иерархических классифика-

ционных систем. В таких системах вся область знаний делится на крупные предметные области (классы), которые, в свою очередь, подразделяются на более мелкие (подклассы), тe - на еще более мелкие и т. д. Каждой области знания и подобласти присваивается свой индекс, называемый классификационным. Возникает разветвленное древо знаний, позволяющее классифицировать все источники информации. Примерами таких систем являются международная универсальная десятичная классификация (УДК), международная десятичная классификация М. Дьюи (ДКД), национальная библиотечно-библиографическая классификация (ББК) и др. Иерархические классификации хорошо зарекомендовали себя в библиотечной практике и уже активно используются при поиске в электронных каталогах. Установлено, что организация документов в базах данных по иерархическому принципу позволяет намного повысить показатели качества информационного поиска. Но в базах данных с неопределенным количеством документов, какими являются информационно-поисковые системы Интернет, отбор документов по классификационному принципу не реализуется, и проблема осуществления полноценного тематического поиска в них до сих пор не решена. На практике получается, что поток информации растет, а информационно-поисковая система просто заваливает пользователя тысячами и миллионами релевантных документов.

Количественные показатели полноты семантических связей.

Для привлечения к анализу математического аппарата необходимо ввести ряд величин, которые количественным образом будут характеризовать полноту информационных запросов в смысле учета семантических отношений между их лексическими единицами. Необходимость внедрения новых количественных показателей для оценки качества информационного поиска в АИС также обусловлено требованиями, прописанными в системе стандартов по информации, библиотечному и издательскому делу.

Первоначально следует определить минимальное количество факторов, от которых должна зависеть количественная характеристика результа-

тов выполнения запросов. С высокой степенью достоверности можно утверждать, что количество выдаваемых на запрос документов: 1) всегда определяется самим видом запроса, его лексическими единицами, и при необходимости, логическими операторами; 2) будет зависеть от того количества документов (записей, информации), среди которого производится поиск; 3) определяется качеством реализации подсистемы поиска АИС.

Последняя характеристика напрямую обусловлена как программно-технической реализацией подсистемы поиска АИС, так и ее математическим обеспечением, то есть непосредственно используемыми методами и алгоритмами поиска. По совокупности такие параметры характеризуются видом самой ИПС.

На основании вышесказанного можно сделать вывод о том, что показатель, характеризующий запрос в наиболее общем виде, должен являться функцией вида F = F(Q, S, N), где Q - вид запроса, S - информационно-поисковая система, N - объем базы поиска (общее количество документов, среди которых производится поиск). Последняя величина N имеет конечное значение для локальных АИС, то есть информационных систем, представляющих собой фактически систему управления базами данных определенного типа. Для открытых (глобальных) ИПС, работающих в Интернете (например, Google, Yandex, Ramler и др.), эта величина может считаться условно бесконечной. Поэтому для таких ИПС, работающих в открытой информационной среде, учитывать N не имеет смысла, а соответствующие показатели становятся функциями вида F = F(Q, S). Следует отметить, что хорошо известные показатели информационного шума и информационных потерь здесь не рассматриваются.

В силу интересующего нас анализа семантических особенностей информационно-поискового языка формулировка последовательности запросов Q должна учитывать такие смысловые связи, как: 1) отношения иерархии - вышестоящее родовое, вышестоящее целое, нижестоящее видовое, нижестоящее частичное; 2) отношения тождества - учет синонимов; 3) отношения ассоциации. Поэтому предлагается составление определенной последовательности лексических единиц (ЛЕ), все члены которой связаны четкими парадигматическими отношениями: Qm = {д, с, вр, вц, нч, нв, а}, где (д) -заглавный дескриптор - ведущее слово, называемое запросом базового уровня, (с) - синоним к ведущему слову, (вр) - вышестоящее родовое к ведущему, (вц) - вышестоящее целым к ведущему, (нч) - нижестоящее частное к ведущему, (нв) - нижестоящее видовое к ведущему, (а) - ассоциация с ведущим [3-9]. Данные последовательности запросов составлены на основе информационно-поискового тезауруса, требования к которому аргументированы ГОСТом 7.25-2001. Главную роль в тезаурусе играют отношения между терминами. Именно они, определяя место каждого термина в системе понятий тезауруса, задают его смысл. Та-

ким образом, возникает следующая иерархия: пусть 1 - уровень запроса в последовательности, тогда определим последовательность запросов по следующему принципу 1 = 0 - базовый уровень (д), 1 = 1 - первый уровень (с), 1 = 2 - второй уровень (вр), 1 = 3 - третий уровень (вц), 1 = 4 - четвертый уровень (нч), 1 = 5 - пятый уровень (нв), 1 = 6 - шестой уровень (а).

Абсолютными показателями будем назвать такие величины, которые представляют собой количество документов, формируемых по определенному принципу. Единицей измерения абсолютных показателей в силу данного определения является количество документов (штук, единиц хранения).

Объемом 1-ого уровня запроса называется количество результатов поиска, то есть количество документов, выдаваемых на 1-ую лексическую единицу последовательности запросов 0 в АИС 5: Д- = Д- (0, 5, Ы).

Как правило, возникает необходимость сравнительного анализа целого ряда ИПС, поэтому целесообразно их пронумеровать. В результате возникает последовательность АИС 5(, где I - номер АИС в последовательности (ранжирование здесь не имеет значения, и номера присваиваются произвольно).

Относительными показателями будем назвать такие величины, которые представляют собой отношения показателей. Относительные показатели являются безразмерными величинами. Они характеризуют доли абсолютных показателей в общем объеме базы поиска или доли абсолютных показателей одних уровней по отношению к абсолютным показателям других уровней.

Коэффициент 1-ого уровня запроса - это отношение объема 1-ого уровня к объему базы поиска:

(1)

Коэффициенты (1) представляют собой долю объема 1-ого уровня запроса в базе поиска, то есть долю количества документов, выдаваемых на 1-ую ЛЕ последовательности запросов 0 в объеме базы данных АИС 5. Поэтому такие коэффициенты являются характеристиками полноты отражения семантических связей между ЛЕ при реализации запроса. Коэффициенты (1) зависят от таких же параметров, как и соответствующие запросы уровней. В связи с этим возникает интерес изучить характер такой зависимости для как различных АИС, так и для АИС одного вида, но в разных учреждениях с отличающимися по наполнению базами данных.

Коэффициент полноты семантических связей /'-ого и j-ого уровней - это отношение объема 1-ого уровня к объему ^ого уровня:

Коэффициенты (2) фактически представляют собой доли объемов одних уровней запросов по отношению к объемам других уровней запросов. Из анализа основных смысловых связей следует, что наиболее оптимальный для исследований набор пар индексов в (2) должен выглядеть следующим образом: k = {1, 0; 2, 0; 3, 0; 4, 0; 5, 0; 6, 0; 2, 3; 4, 5; 1, 6}. В некоторых случаях возможно сужение данного ряда.

Свойства основных показателей семантических связей: J20 > 1; J30 > 1; J40 < 1; J50 < 1; J10~ 1; J60 ~ 1; J16 ~ 1 . Для практического применения указанных свойств можно сформулировать следующее правило принятия решения: если хотя бы одно из указанных соотношений для показателей полноты семантических связей Jj не выполняется, то нет оснований предполагать, что в обследованных АИС реализованы поисковые алгоритмы, автоматически учитывающие парадигматические отношения между лексическими единицами (терминами) запросов в полном объеме при простой форме поиска.

Однако обратное утверждение нельзя сформулировать в категорической форме. Можно лишь утверждать, что если все указанные неравенства для Jj выполняются, то это не означает наличие в подсистеме поиска АИС алгоритмов, автоматически учитывающих семантические связи в полном объеме при простом поиске.

Сформулированное правило можно считать вполне пригодным для анализа ИПС, работающих в открытой информационной среде (например, в сети Internet), или же для сравнительного анализа больших хранилищ данных или АИС с практически идентичными базами.

Для выявления возможностей системы производить пертинентный поиск введем определение: семантической меры результатов поисковых запросов - взвешенное среднее гармоническое значение показателей полноты семантических связей [6,9]:

F (Qm, S,) =-^-,

У—^—

kJk (Qm , S, )

(3)

где vk - веса, такие что

Zv k = ь п

k=1

3) общая средняя:

р, = I ^ (дт) = у Ъ (8) = XI ^ (дт, ).

т I т I

Для того, чтобы выявить, учитывается ли в АИС пертинентность, а не только релевантность выдаваемых документов, целесообразно использовать специальный вариант меры (3), определяемой выражением:

, 8) - 1

V

J10 (Qm

- +

, Sl) J

1 -v

60 (Qm , Sl )

(4)

где вес уе[0;1]. Данная характеристика представляет собой аналог хорошо известной Р-меры (меры Ван Ризбергена), но предназначена для характеристики соотношения между параллелями парадигматических связей в результатах поисковых запросах, а не баланса между точностью и полнотой.

Мера (4) характеризует способность АИС выдавать документы по синонимам и ассоциациям к запрошенному дескриптору. При этом интересна зависимость данной меры от веса V, поскольку при у=0: Р1б(0ш, 5,) = Ло(0™, Sl), а при v=1: Р16(Ош, 5,) = J10(Qш, 5,). При промежуточных значениях веса V мера Р16(Ош, 5,) характеризует распределение предпочтений АИС выдачи между синонимами и ассоциациями к запрошенному дескриптору. В идеальном случае, когда показатели долей документов с синонимами и с ассоциациями одинаковы, мера Р16(Ош, 5,) будет постоянной. На практике допустимо малое отклонение от такого постоянного значения. В этом случае можно считать, что рассматриваемые ИПС способны выдавать пертинентные документы.

Поскольку мера Р16(Ош, 5,) содержит только часть слагаемых меры Р5(Ош, 5,), то ее можно назвать парциальной или частичной.

При малых значениях веса, близких к нулю, то есть когда v^•0 ^<<1), зависимость меры Р16(ОШ, 5,) от него упрощается и становится линейной:

(

количе-

Fl6(Qm , S, ) = J6o(Qm , S, ) -U + V.

1 -

J60 (Qm , S, ) J10 (Qm , S, )

M

l> у

ство усредняемых показателей, суммирование производится по выделенной группе пар чисел к = {1 0, 2 0, 3 0, 4 0, 5 0, 6 0, 2 3, 4 5, 1 6}, тогда п = 9. Мера называется равновесной, если все веса одинаковы: vk = 1 /п.

Усредненные показатели семантических мер:

1) средние значения по запросам:

^ № ) = 1 Fs (2т, 8);

т

2) средние значения по ИПС:

^ (От ) = 1 ^ (От, ) ;

При значениях веса, близких к единице, то есть когда v^1, величина меры Р16(Ош, 5,) также линейной зависит от веса:

Fu(Qm, Sl ) = J10(Qm, Sl )+ (1 -V)-|1 -

¿»(От, ) II ¿оО, 8 ) Л'

Поскольку в различные моменты времени результаты информационного поиска по одному и тому же запросу могут отличаться, а результат выполнения запроса заранее предсказать нельзя, то величины А] = А^) и Jjj = Jjj(t) представляют собой случайные процессы. В результате повторного проведения одного и того же запроса в различные мо-

менты времени можно получить реализацию соответствующего случайного процесса.

Следует определить среднее значение

1

пт~1

— 1 п = - X ыь).

п к=1

(6)

(7)

Т =

<4п

s.i

(9)

где, - среднеквадратическая ошибка разностей, вычисляемая по формуле:

^ =

П к=1

(5)

где п - количество моментов наблюдений tk.

Поскольку меры Г$ и Р16 определяются через показатели (2), то, так же как и они, меры представляют собой случайные процессы и F16(t). Средние по времени значения реализации таких случайных процессов определяются выражениями: — 1 п

Р, = 1X ^ (ч),

1

II

X <2 - - [X <

1=1 п V ,=1

(п -1)

Методы анализа

1) Метод сравнительного анализа парных сравнений запросов.

Методика сравнительного анализа выбранной пары АИС 51 и 52 предлагается следующая. В каждой АИС 51 и 52 вводится одна и та же фиксированная последовательность запросов 0. В результате для каждого уровня получаются соответствующие объемы А] (0, 51) А] (0, 52), 1 = 0, 1, ..., 6. По этим данным для каждого уровня вычисляются наборы показателей выбранного вида, которые в общем виде обозначаются Р,(0, 5!) и Р,(0, 52) [3].

Ясно, что для одинаковых механизмов поиска, реализованных в АИС 51 и 52, эти показатели на фиксированном уровне мало различаются, то есть разности б = Р,(0, 5!) - Р,(0, 52) должны быть близки к нулю.

Необходимо определить среднее значение разностей:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

— 1 п п =

(8)

где п - количество сравниваемых показателей.

Выдвигается статистическая гипотеза: математическое ожидание среднего значения разностей (8) равно нулю. В рассматриваемом случае для оценки значимости отличия от нуля такой разности необходимо использовать парный критерий Стьюдента [10]. Экспериментальное (наблюдаемое) значение этого критерия вычисляется по формуле:

(10)

Согласно методам статистического анализа, экспериментальное значение критерия (9) сравнивается с критической точкой (правой границей двусторонней критической области) распределения Стьюдента ta(f), где а - уровень значимости (обычно выбирается пятипроцентный уровень значимости а=0,05), / = п - 1 - число степеней свободы.

Правило принятия решения [10]: 1) если

Т| < (/) , то сравниваемые экспериментальные

данные различаются незначимо, то есть различие между ними носит случайный характер; 2) если

\Т\ > (/), то сравниваемые экспериментальные

данные различаются значимо, то есть различие между ними носит закономерный характер.

Таким образом, выполнив проверку гипотезы значимости различия между наборами парных значений показателей полноты семантических связей, можно будет сделать вывод об идентичности реализации механизмов учета парадигматических отношений в поисковом аппарате АИС. Результаты применения рассмотренного метода на практике приведены в [3].

2) Метод корреляционного анализа связей семантических особенностей поисковых механизмов АИС.

Для изучения связей между механизмами поиска различных АИС предлагается использовать корреляционный анализ. Очевидно, что наличие корреляции следует ожидать между индексами одинаковых уровней, получаемых для одной и той же последовательности условно нормализованных запросов в различных АИС. Методика применения корреляционного анализа предлагается следующая. В строке поиска АИС 5! вводится первое ведущее слово/словосочетание последовательности 01 (вид отношения - (д)). Количество выданных по этому запросу документов есть величина А1(0.1(д), 5!). Затем в этой же АИС вводится второй член последовательности 01 (вид отношения - (с)). Количество выданных по этому запросу документов есть величина А2(0((с), 5!). И так далее для всех членов последовательностей всех запросов во всех АИС, в результате чего получается необходимый набор объемов А] (0^, 5) Затем с помощью этих величин вычисляются коэффициенты полноты семантических связей по формуле (2) [4]. Далее на их основе рассчитываются необходимые для принятия решения величины, в зависимости от выбранного метода анализа [5].

Первоначально следует определить такие статистические показатели, как средние значения и коэффициенты корреляции [10]. Среднее значе-

2

ние группы коэффициентов полноты семантических связей (2) для запроса в АИС 51 вычисляется по формуле:

< • (дт, я,) >=1 х л б, Я),

п к

(11)

где, как и в (3), суммирование производится по выделенной группе пар чисел к = {1 0, 2 0, 3 0, 4 0, 5 0, 6 0, 2 3, 4 5, 1 6}, п = 9 - количество коэффициентов в выделенной группе.

Коррелятор коэффициентов полноты семантических связей вычисляется по формуле:

< • (бт , Я, )• (бт , Я) > 1 X •к (бт , Я ) • • (бт , ^ ) .

п к

(12)

Коэффициенты парных корреляции вычисляются по формулам:

< • (бт , (бт , , >-< • (бт , Я ) > • < • (бт , Я, ) >

°(бт , Я.Жбт , Я,)

Г (бт , Я, , Я, ) =

, (13)

где стандартные (средние квадратические) отклонения:

°(бт , Я, ) = 4< • ^ (бт , Я ) >-< • (бт , Я ) >' ,

(14)

среднее квадратов:

< • 2(бт, Я, ) >= 1 X •¡(бт, Я, ) . п к

(15)

Если коэффициент корреляции отрицательный, то это означает наличие противоположной связи: чем выше значение одной переменной, тем ниже значение другой. Теснота связи характеризуется модулем коэффициента корреляции. Из коэффициентов корреляции (13) составляется корреляционная матрица для выбранной группы АИС. Как известно, данная матрица является симметричной, и все ее диагональные элементы равны единице [11].

Анализ значимости коэффициентов корреляции проводится стандартным образом. Выдвигается

статистическая гипотеза: \г(бт, Я,, Я, )| = 0 . Если

она справедлива, то говорят, что коэффициент корреляции незначим, в противном случае - значим. Значения критерия рассчитываются по-разному в зависимости от числа наблюдений. Если количество наблюдений велико (обычно считается так, если больше 30), то экспериментальное значение критерия значимости вычисляется по формуле [10]:

Тг (бт ,Я ,Я, ) = \г(бт ,Я ,Я,

п - 2

Г '(бт , Я , ^ )

(16)

В том случае, если количество наблюдений мало, или значения коэффициента корреляции близки к единице, используется г-преобразование Фишера [11]:

7(бт , Я , Я, ) = |]п

1 + Г(бт , Я, , Я, )

1 - Г (бт , Я, , Я, ) ,

(17)

Экспериментальное значение критерия значимости вычисляется по формуле:

Т (бт , Я , Я, ) = 7(бт , Я , Я, )-л/п-3 .

(18)

Согласно методу корреляционного анализа, экспериментальное значение критерия (18) сравнивается с критической точкой (правой границей двусторонней критической области) распределения Стьюдента tа(f), где а - уровень значимости (обычно а=0,05), f = п - 2 - число степеней свободы. Несмотря на то, что критерий (18), как случайная величина, имеет нормальное распределение, его значение можно сравнивать с критической точкой распределения Стьюдента, поскольку ошибки при этом возникают незначительные. Правило принятия решения [11]: 1) если выполняется неравенство Т2 < tа(f), то коэффициент корреляции признается незначимым, то есть случайно отличающимся от нуля; 2) если выполняется обратное неравенство Т2 > tа(f), то коэффициент корреляции признается значимым, то есть его отличие от нуля является закономерным.

Таким образом, выполнив корреляционный анализ связей между наборами парных значений показателей полноты семантических связей, можно будет сделать вывод об идентичности реализации механизмов учета парадигматических отношений в поисковом аппарате рассматриваемых пар АИС.

3) Метод однофакторного дисперсионного анализа семантических особенностей поисковых механизмов АИС.

Для установления идентичности механизмов реализации семантических особенностей поисковых аппаратов группы АИС в целом предлагается использовать однофакторный дисперсионный анализ. В результате проведения такого анализа можно установить однородность нескольких совокупностей наблюдений. Можно будет выявить с заданной степью достоверности, будут ли значимо различаться средние значения индексов одной и той же последовательности запросов, но в различных АИС.

Для применения метода однофакторного дисперсионного анализа сначала выделяется количество групп р, то есть количество АИС, исследуемых на предмет идентичности поискового механизма. Для каждой такой АИС формируются последовательности запросов 0ш. Затем вычисляются коэффициенты полноты семантических связей (2), их средние по каждой АИС для каждой последовательности запросов < • (бт, Я,) > по формуле вида (11). Далее вычисляется общее среднее значение индексов < Уобщ (бт) > для запроса выбранного подмножества из р АИС (р - число групп),

суммирование по к производится по количествам уровней фактора щ, как и в формуле (11):

1 р

< 1 общ (е.) >= -Е1 е, й). р

(19)

Воспользовавшись полученными средними, следует вычислить факторную и остаточную дисперсии, соответственно, которые определяются выражениями:

£

факт

факт

£ 2 =

ост

бо

р -1 , ^ р(Я -1)

(20)

где факторная, остаточная и общая суммы:

бфакт = Е (< 1 (вт , й ) > - < 1 общ (бт ) >) 2 ,

I=1

е ост =

' факт

бобщ =ЕЕ (Л (бт , й )- < 1 общ (бт ) >)2 .

к ,=1

Наблюдаемое значение критерия Фишера-Снедекора вычисляется по формуле [10]:

2

£

факт

данных по этому запросу документов есть величина А2(^). И так далее для всех членов последовательностей всех запросов последовательности О, в результате чего получается необходимый набор объемов А^). Затем с помощью этих величин вычисляются реализации Jij=Jij(t1) (2.3). Далее вся процедура повторяется через определенные интервалы времени [7].

В результате получается целый набор данных показателей для различных моментов времени Jij(t1), Jjj(Jij(tn), которые представляют собой реализации соответствующих случайных процессов. Затем вычисляются средние значения 1« .

Перед вычислением средних значений рекомендуется исключить явно «выскакивающие данные».

Для оценки статистической погрешности результатов сначала необходимо вычислить исправленные дисперсии:

£ ¡2 =

1 п —

—г Е (л (к) -1

п -1 к=1

о2.

(22)

Затем следует вычислить абсолютную погрешность для каждого среднего:

8« = (п)-

Р =

набл 2 ,

£

ост

(21)

Наблюдаемое значение критерия (21) сравнивается с критической точкой распределения Фишера-Снедекора Ра(к1; к2), где числа степеней свободы: к1 = р - 1, к2 = р-(щ - 1). Затем делается вывод по следующему правилу принятия решения [10, с. 358]: 1) если выполняется неравенство Рнабл < Рх(кь к2), то различие между факторами признается незначимым, то есть случайным, 2) если выполняется неравенство Рнабл > Ра(к1; к2), то различие между факторами признается значимым, то есть закономерным.

Таким образом, если будет установлено, что различие между факторами незначимо, то это будет означать, что механизмы учета парадигматических отношений в поисковых аппаратах выбранной группы АИС в целом идентичны.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4) Методика исследования динамики показателей семантических связей.

Для получения данных об изменениях показателей семантических связей, происходящих с течением времени, предлагается методика с использованием повторения однотипных наблюдений через определенные промежутки времени достаточно длительный период. В строке поиска АИС 5 вводится первая ЛЕ последовательности О(д). Количество выданных по этому запросу документов есть величина А^). Затем в этой же АИС вводится второй член последовательности О(с) . Количество вы-

(23)

где ^(п) - значение, определяемое из специальных статистических таблиц для заданного количества наблюдений п и доверительной вероятности у = 0,95 [10, с. 466].Далее, оценка статистической погрешности производится при помощи доверительного интервала: ^^- 8^ ; Jij + 8^ ). Доверительный интервал определяет допустимые в статистическом смысле границы погрешности проведенных измерений. В эквивалентной доверительному интервалу форме можно указывать значения измеряемого показателя с абсолютной статистической погрешностью в виде: Jij + 8^.

Далее, относительные статистические погрешности вычисляются по формулам 8 ..

8 ■■ =-100%,

и 1 '

.

(24)

Для оценки степени изменения значения Р16 как функции веса V на интервале [0; 1] целесообразно использовать относительный размах варьирования:

_ п

8^ =п -100%,

Р16

где абсолютный размах варьирования:

п = Р - Р

^ 1 16тах 1 16Ш1П

(25)

Можно предложить критерий: если величина (25) не превосходит 5%, то можно считать, что изменение соответствующего показателя в диапазоне

2

наблюдений практически не происходит. Результаты применения рассмотренной методики для изучения динамики различных показателей полноты семантических связей в глобальных ИПС в течение длительного периода времени приведены в [6,7,9].

Заключение.

Для анализа качества подсистемы поиска информационных систем в работе предложено использовать специальную последовательность запросов, члены которой формируются на основе информационно-поискового тезауруса. Она полностью учитывает стандартные смысловые связи такие как, отношения иерархии, тождества, ассоциации.

Предложен набор количественных показателей полноты семантических связей, который наиболее полно описывает все типы парадигматических отношений. Установлены свойства таких показателей, которые являются следствиями, вытекающими из парадигматических отношений между членами последовательности условно нормализованных запросов, если их рассматривать с точки зрения теории нечетких множеств. Сформулировано правило принятия решения, на основе которого можно сделать вывод

о том, что реализованы ли эксплицитно в обследованных АИС алгоритмы, автоматически учитывающие парадигматические отношения между лексическими единицами (терминами) запросов в полном объеме при простой форме поиска.

Сформулированы методики парного сравнительного анализа на основе статистической проверки гипотез, корреляционного и дисперсионного анализа на предмет отражения семантических особенностей поисковых механизмов информационных систем. Выполнив проверку гипотезы значимости различия между наборами парных значений показателей полноты семантических связей и корреляционный анализ их связей, можно сделать вывод об идентичности реализации механизмов учета парадигматических отношений в поисковом аппарате рассматриваемых пар АИС, а также об их идентичности в целом.

Одним из путей повышения качества информационного поиска является модификация поисковых алгоритмов таким образом, чтобы повышалась доля пертинентных документов, автоматически выдаваемой системой в ответ на пользовательский запрос.

Библиографический список

1. Маннинг, К. Введение в информационный поиск: пер. с англ / К. Манинг, П. Рагхван, Х Штюце. -М.: Вильямс, 2011. - 528 с.

2. Пальчунов, Д.Е. Решение задачи поиска информации на основе онтологии [Текст] / Д.Е. Паль-чунов // Бизнес - информатика. - 2008. - № 1(3). - С. 3-13.

3. Савотченко, С.Е. Математический метод сравнительного анализа семантических особенностей информационно-поисковых систем [Текст] / С.Е. Савотченко, Е.А. Логинова // Теория и практика общественного развития. - 2012. - № 6. - С. 101-104.

4. Савотченко, С.Е. Корреляционный и дисперсионный анализ лингвистических особенностей поиска в интернете [Текст] / С.Е. Савотченко, Е.А. Проскурина // Среднее профессиональное образование. - 2012. - № 12. - С. 38-40.

5. Савотченко, С.Е. Показатели семантических связей информационно-поисковых систем [Текст] / С.Е. Савотченко, Е.А. Проскурина // Научные ведомости «БелГУ». Сер. История. Политология. Информатика. - 2013. - Вып. 25/1, № 1(144). - С. 145-151.

6. Савотченко, С.Е. Семантическая мера результатов поисковых запросов [Текст] / С.Е. Савотченко, В.А. Стукалов // Автоматизация процессов управления. - 2013. - №4(34) - С. 57-60.

7. Савотченко, С.Е. Исследование динамики показателей полноты семантических связей глобальных информационно-поисковых систем [Текст] / С.Е. Савотченко, Е.А. Проскурина // Вестник Сибирского института бизнеса и информационных технологий. - 2014. - №1(9) - С. 81-84.

8. Савотченко, С.Е. Современные аспекты повышения пертинентности результатов информационного поиска в глобальной сети [Текст] / С.Е. Савотченко, Е.А. Проскурина // Фундаментальные исследования. - 2014. - №9 - С. 46-49.

9. Савотченко, С.Е. Динамика семантической меры результатов поисковых запросов [Текст] / С. Е. Савотченко, В.А. Стукалов, Е.А. Проскурина // Автоматизация процессов управления. - 2014. -№2(36) - С. 72-77.

10. Гмурман, В.Е. Теория вероятностей и математическая статистика [Текст] / В.Е. Гмурман. -М.: Высшая школа, 2003. - 480 с.

11. Математическая статистика [Текст] / В.Б. Горяинов, И.В. Павлов, Г.М. Цветкова. - изд. 3-е, испр.- М.: Изд-во МГТУ, 2008. - 423 с.

References

1. Christopher D. Manning, Prabhakar Raghavan, Hinrich Schutze. Introduction to Information Retrieval. Cambridge University Press, 2008, 482 p.

2. Pal'chunov D.E. Reshenie zadach poiska informatsii na osnove ontologii [Solution to the problem of information retrieval based on ontology] Biznes - informatica, 2008, N 1(3), pp. 3-13.

3. Savotchenko S.E., Loginova E.A. Matematicheskiy metod sravnitelnogo analiza semanticheskih osobennostey informatsionno-poiskovyh system [Mathematical method of the comparative analysis of semantic features of information retrieval systems] Teoriya I praktika obshestvennogo razvitiya, 2012, N 6, pp. 101104.

4. Savotchenko S.E., Proskurina E.A. Korrelatsionniy i dispersionniy analiz lingvisticheskih osoben-nostey poiska v Internet. [Correlation and analysis of variance linguistic characteristics of Internet search] Srednee professionalnoe obrazovanie, 2012, N 12, pp.38-40.

5. Savotchenko S.E., Proskurina E.A. Pokazateli semanticheskih svazey infomatsionno-poiskovyh sistem [Semantic relation indicators of information search systems] Nauchnye vedomosti "BelGU". Ser. Istoriya. Poli-tologiya. Informatika, 2013, V.25/1, N 1(144), pp. 145-151.

6. Savotchenko S.E., Stukalov V.A. Semanticheskaya mera rezultatov poiskovyh zaprosov. [Semantic measure of search query results] Avtomatozatsiya protsessov upravleniya, 2013, N4(34), pp. 57-60.

7. Savotchenko S.E., Proskurina E.A. Issledovanie dinamiki pokazateley polnoty semanticheskih svazey globalnyh informatsionno-poiskovyh sistem [Investigation of semantic links completeness dynamics of global information retrieval systems] Vestnik Sibirskogo institute biznesa i informatsionnyh tehnologiy, 2014, N1(9), pp. 81-84.

8. Savotchenko S.E., Proskurina E.A. Sovremennye aspekty povysheniya pertinentnosti rezultatov in-formatsionnogo poiska v globalnoy seti [Modern aspects of improving the pertinence of the results of information retrieval in the global network] Fundamentalnye issledovaniya, 2014, №9, pp. 46-49.

9. Savotchenko S.E., Stukalov V.A., Proskurina E.A. Dinamika semanticheskoy mery rezultatov poiskovyh zaprosov. [The dynamics of semantic measure of search query results] Avtomatozatsiya protsessov upravleniya, 2014, N2(36), pp. 72-77.

10. Gmurman, V.E. Teriya veroyatnostey i matematicheskaya statistika [Theory of Probability and Mathematical Statistics] M.: Vyshaya Shkola, 2003, 480 p.

11. Goryainov V.B., Pavlov I.V., Tsvekova G.M. Matematicheskaya statistika [Mathematical Statistics] izd. 3-th, M.: MSTU, 2008. 423 p.

MATHEMATICAL METHODS OF INVESTIGATION OF SEMANTIC FEATURES OF SEARCH SUBSYSTEM IN AUTOMATED INFORMATION SYSTEMS

Sergey Y. Savotchenko,

Professor, Belgorod Institute of Education Development Elena A. Proskurina, Belgorod State Institute of Art and Culture

Abstract: The paper presents the determination of quality indicators of information retrieval, determining the possibility of automated system to search pertinent documents. The methodology of the study based on a special type of query sequences is introduced, the members of which are linked by paradigmatic relations. The basic methods of analysis of search apparatus of automated information systems using certain quality indicators are showed.

Keywords: information search, semantic links, paradigmatic relations, information retrieval systems.

Сведения об авторах:

Савотченко Сергей Евгеньевич - доктор физико-математических наук, доцент, профессор кафедры естественно-математического образования и информационных технологий Белгородского института развития образования (г. Белгород, Российская Федерация), e-mail: [email protected].

Проскурина Елена Александровна - ассистент кафедры информатики и информационно-аналитических ресурсов Белгородского государственного института искусств и культуры (г. Белгород, Российская Федерация), e-mail: [email protected].

Статья поступила в редакцию 20.02.2014.

i Надоели баннеры? Вы всегда можете отключить рекламу.