УДК 004.738.5
РАЗРАБОТКА МОДЕЛИ ОПРЕДЕЛЕНИЯ РЕЛЕВАНТНОСТИ ИНФОРМАЦИИ
ПОЛЬЗОВАТЕЛЬСКОМУ ЗАПРОСУ
Р. В. Менчиков, А. В. Кравченко, П. С. Гапенко Научный руководитель - В. В. Лапко
Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева, Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
Е-mail: [email protected]
Сделан анализ недостатков наиболее популярной модели поиска информации, в Интернете. Предложена модель, повышающая точность поиска информации.
Ключевые слова: алгебраическая модель, вектор, вес терма, поиск информации.
DEVELOPMENT OF THE MODEL OF DETERMINING RELEVANCE OF INFORMATION TO THE USER REQUEST
R. V. Menchikov, A. V. Kravchenko, P. S. Gapenko Scientific Supervisor - V. V. Lapko
Reshetnev Siberian State Aerospace University 31, Krasnoyarskiy Rabochy Ave., Krasnoyarsk, 660037, Russian Federation Е-mail [email protected]
An analysis is made of the shortcomings of the most popular model of information search, on the Internet. A model is proposed that improves the accuracy of information retrieval.
Keywords: algebraic model, vector, term weight, information search.
Развитие инструментария создания Web-страниц привело к демократизации процесса публикации. Постепенно появляется традиция, и даже мода помещения научных работ в Интернет. Поскольку поместить статью в сеть гораздо легче, чем издать, то популярность Интернета для публикаций научных трудов постоянно растет, успешно конкурируя с печатными изданиями.
Тем не менее, кажущаяся комфортность доступа в сеть, работа в Интернете требует определенных навыков и умений, причем требует большей организованности от пользователя, чем работа в обычной библиотеке, поэтому организация поисковых механизмов того или иного сервиса становиться принципиальной и важной задачей.
Так, например, классические модели информационного поиска рассматривают документы как множества представляющих эти документы ключевых слов, в дальнейшем называемых термами (словоформами). Терм - это, обычно, просто слово, семантика которого помогает описать основное содержание документа.
Сегодня наиболее популярными являются алгебраические модели, поскольку их практическая эффективность обычно оказывается выше. В рамках алгебраических моделей документы и запросы описываются в виде векторов в многомерном пространстве[1].
Анализ таких моделей показал, что в них не учитывается вес терма, а это делает поиск менее точным. На основании данных о точности поиска, предложена модель, учитывающая вес термов.
В рамках данной модели каждому терму (словоформе) ti в документе dj (и запросе q) сопоставляется некоторый неотрицательный вес wy (w, для запроса на один поисковый сайт). Таким образом, каждый документ и запрос может быть представлен в виде А>мерного вектора:
Актуальные проблемы авиации и космонавтики - 2017. Том 1
= }, }, ..., ^), (1)
где к - общее количество различных термов во всех документах.
Согласно векторной модели, близость документа к запросу q оценивается как корреляция между векторами их описаний. Эта корреляция может быть вычислена, например, как скалярное произведение соответствующих векторов описаний.
Веса термов можно вычислять множеством различных способов [2]. Один из возможных подходов - использовать в качестве веса терма в документе й относительную частоту его использования freqij в рамках данного документа, т. е.:
; . (2)
тах
При поиске, используя мультилингвистические частотные словари для вычисления целесообразней использовать относительную частотную характеристику терма из словаря freqDгCj.
^ гн =freqDгCгj. (3)
В данной формуле freqDгc¡j, freqDгcnj равны, это связано с тем, что веса терминов берутся из словаря и для всех терминов в документе они равны весу из словаря.
Однако этот подход не учитывает, насколько часто данный терм используется в других документах коллекции, т. е. дискриминационную силу терма. Поэтому в случае, когда доступна статистика использований термов по коллекции лучше работает другая схема вычисления весов:
п
ч = / *1о§ N, (4)
где пг обозначает число документов, в которых используется терм Н а N - общее число документов в коллекции. И если использовать частотный словарь, то
% N • (5)
Предложенный алгоритм отлично работает на этапе формирования тематической коллекции без использования мультилингвистического частотного словаря, однако если использовать частотный словарь, то в качестве весового коэффициента более целесообразно использовать весовой коэффициента каждого терма из частотного мультилингвистического словаря. Для этого при анализе текстов необходимо сравнивать полученный вес терма с относительной частотой данного терма в частотном словаре. Таким образом, будет получено два вектора, состоящих из весов, только в одном векторе будут веса термов из текста, а в другом веса термов из словаря:
docj = (wdocl j, wdoc2 j, ..., wdockJ), (6)
dicj"=f (wdic1 j, wdic2 j, ..., wdicfj), (7)
где
wdocj = w,j*gj, (8)
wdici = frecDici, (9)
где i - номер терма в j-м документе (i = 1, ..., k); l - номер терма в частотном словаре (i = 1, ..., f); wdocjj - вес i-го терма в j-м документе; wdicl - вес l-го терма в частотном словаре; gij - признак включения терма в вектор для определения релевантности документа, если терм не релевантный предметной области, то признак равен 0, в противном случае 1.
Вектора wdocj и wdicl имеют разные размерности, что связано с ограничением словаря, в котором только релевантные термины.
Необходимо отметить, что в процессе составления данных векторов необходимо привести их к одной размерности и упорядочить веса по принадлежности к одному терму. Предполагается
приведение терминов к размерности, которая зависит от одновременного попадания термина в оба вектора.
После приведения векторов к одной размерности e и упорядочивания их в порядке принадлежности к одному термину, необходимо составить вектор с:
(relx ^, rel2 ], ..., rele]), (10)
где e - размерность векторов весов,
wdoc.. - wdici
V ' (11)
relv
wdoCj + wdici
при I = 1, ..., е.
Необходимо отметить, что в идеале ге1у должен быть равен единице. Далее найдем совокупный вес документа, который зависит от релевантности входящих в него терминов:
e /=1
1 e
-1 relj . (12)
Далее необходимо проверить вхождение полученной величины V в пороговое значение. Однако в данном случае, как показали эксперименты, необходимо произвести модификацию алгоритма. Если раньше производился отсев только на основании пороговой величины (V <= я), то теперь необходимо отсеивать документы, у которых porogj стремиться к количеству терминов в документе к, это будет происходить в том случае, если мы рассматриваем рекламную брошюру, резюме или тематический словарь.
е
Рог^,= X ™йоСу. (13)
=1
В идеале V стремится к нулю [3].
Таким образом, анализ проблем и принципов организации персонифицированного сбора информации показал, что поиск будет недостаточно точным, если не учитывать вес терма и его постоянство в объеме искомой информации. Проводя модификации существующих моделей поиска можно повысить точность поиска и релевантность искомой информации пользовательскому запросу.
Библиографические ссылки
1. Менчиков Р. В. Усовершенствование модели ранжирования информации поиска в сети Internet // Актуальные проблемы авиации и космонавтики. 2016. Т. 1. С. 164-166.
2. Царев Р. Ю. Fuzzy-метод формирования структуры мультиверсионного программного обеспечения информационно-управляющих систем. 2007. С. 72-75.
3. Карасева М. В., Карцан И. Н., Зеленков П. В. Метапоисковая мультилингвистическая система // Вестник СибГАУ. 2007. Вып. 3. С. 69.
© Менчиков Р. В., Кравченко А. В., Гапенко П. С., 2017