Разработка модели ранжирования информации в соответствии с пользовательским запросом

Менчиков Р.В.; Кравченко А.В.; Лапко В.В.; Сигида Н.А.

Решетневские чтения. 2017

УДК 004.738.5

РАЗРАБОТКА МОДЕЛИ РАНЖИРОВАНИЯ ИНФОРМАЦИИ В СООТВЕТСТВИИ С ПОЛЬЗОВАТЕЛЬСКИМ ЗАПРОСОМ

Р. В. Менчиков, А. В. Кравченко, В. В. Лапко, Н. А. Сигида

Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

Е-mail: [email protected]

Приведен анализ проблем, возникающих при поиске информации сразу в нескольких предметных областях Internet. Предложена модель, обрабатывающая запрос пользователя в тематической коллекции данных.

Ключевые слова: ранжирование, поиск, обработка запроса, алгоритм.

DEVELOPING THE INFORMATION RANK MODEL IN ACCORDANCE WITH THE USER REQUEST

R. V. Menchikov, A. V. Kravchenko, V. V. Lapko, N. A. Sigida

Reshetnev Siberian State University of Science and Technology 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected]

The article analyses problems arising in the search of information at once in several areas of the Internet. A model is proposed that handles a user's request in the data collection thematic.

Keywords: ranging, search, query processing, algorithm.

Ранжирование в информационно-поисковых системах может быть построено на основе различных моделей. Основная задача, решаемая алгоритмом ранжирования - оценка меры похожести поискового запроса и документов из коллекции с целью построения отсортированного списка результатов поиска. Данная мера зависит только от текста запроса и документов [1]. Однако существует ряд проблем, которые не удается решить на основе только этой информации. Поэтому алгоритм ранжирования расширяется за счет использования дополнительных признаков документов, определяемых, например, на основе ссылочной структуры коллекции [2].

Популярные алгоритмы, такие как PageRank и HITS, напрямую неприменимы в случае специфичных коллекций документов, в которых граф, построенных на основе ссылок между документами, является сильно разреженным и не обладает свойством связности [3].

Предлагаемая модель предназначена для обработки запроса пользователя в тематической коллекции. Проблема заключается в том, что пользователь может искать информацию сразу в нескольких предметных областях, что существенно сказывается на методах ранжирования информации и определения уровня релевантности необходимых документов. Кроме того, необходимо учитывать специфику рассматриваемых тематических коллекций, а именно мультилингвисти-ческий подход.

Результатом работы предлагаемого алгоритма обработки информации является вектор djyw содержащий j-ой мощности документов, w-й предметной области из y-го языковых множеств [4].

dyw = (Doc^ DoO .

Для того чтобы определить мощность документа (Docff) необходимо учесть мощность термина или группы терминов, по которым производит поиск пользователь, также необходимо учесть цитируемость документа разными поисковыми сервисами и специализированными сайтами, а также уровень релевантности документа в рамках предметных областей в которые данный документ входит. Таким образом, получаем:

1 u

DoCjw = a ■ PowTermjw ■ b • -^Vjw •c • RangD°cjw ,

U W=1

где PowTermjW - мощность j-ого документа w-ой предметной области; vjw - вес j-ого документа в w-й предметной области u - коэффициент, отвечающий за количество предметных областей в который встретился документ.

RangDocjW - получаемый ранг j-ого документа w-го предметной области.

a, b и c - коэффициенты отвечающие за силу мощности документа в зависимости от термов, вес терма в предметной области и ранг документа в сети Internet соответственно.

m n

PowTerm y = / / reliy , jy ¿—i ¿—i uy '

y=1 i=1

где rely - это уровень релевантности i-го терма в j-м документе.

i - индекс терма в запросе пользователя. Если пользователь производит поиск по одному терму то i = 1.

Математические методы моделирования, управления и анализа данных

Если необходимо производить поиск только по одному языковому множеству, то коэффициент y можно не учитывать [5].

Таким образом, получена методика обработки запроса пользователя в тематической коллекции с учетом параметров: веса документа в Интернете, что связывает данную методику, с методиками расчета веса сайта, с которого получен документ, и методикой определения уровня релевантности документа. Это позволяет построить единую и сбалансированную систему формирования и управления тематическими мультилингвистическими узкоспециализированными коллекциями.

Библиографические ссылки

1. Менчиков Р. В. Усовершенствование модели ранжирования информации поиска в сети Internet // Актуальные проблемы авиации и космонавтики. 2016. Т. 1. С. 164-166.

2. Царев Р. Ю. Fuzzy-метод формирования структуры мультиверсионного программного обеспечения информационно-управляющих систем. 2007. С. 72-75.

3. Карасева М. В., Карцан И. Н., Зеленков П. В. Метапоисковая мультилингвистическая система // Вестник СибГАУ. 2007. Вып. № 3.

4. Менчиков Р. В., Гапенко П. С., Кравченко А. В. Разработка модели определения релевантности информации пользовательскому запросу // Актуальные проблемы авиации и космонавтики. 2017. Т. 1. С. 152-154.

5. Рубан А. И. Методы анализа данных : учеб. пособие. Красноярск : ИПЦ КГТУ, 2004. 319 с.

References

1. Menchikov R. V. Usovershenstvovanie modeli ranjirovaniya informatcii poiska internet [Improvement of the ranking model of search information in the Internet network] // Actual problems of aviation and cosmonautics. 2016. Vol. 1. P. 164-166.

2. Tsarev R. Yu. Fuzzy-metod formirovaniya structuri multilingvisticheskogo programmnogo obecpecheniya informatcionno-upravlyayushih system [Fuzzy-method of forming the structure of multiversion software for information-control systems]. 2007. P. 72-75.

3. Karaseva M. V., Kartsan I. N., Zelenkov P. V. Metapoiskovaya mul'tilingvisticheskaya sistema [Metapoisk multilingual system] // Vestnik SibSAU. 2007. Iss. 3.

4. Menchikov R. V., Gapenko P. S., Kravchenko A. V. Razrabotka modeli opredeleniya relevantnosti informatsii pol'zovatel'skomu zaprosu [Development of a model for determining the relevance of information to a user's request] // Actual problems of aviation and cosmonautics. 2017. Vol. 1. P. 152-154.

5. Ruban A. I. Metody analiza dannykh [Methods of data analysis] : Textbook. allowance. Krasnoyarsk : IPC KSTU, 2004. P. 319.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Менчиков Р. В., Кравченко А. В., Лапко В. В., Сигида Н. А.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Менчиков Р. В., Кравченко А. В., Лапко В. В., Сигида Н. А.

DEVELOPING THE INFORMATION RANK MODEL IN ACCORDANCE WITH THE USER REQUEST

Текст научной работы на тему «Разработка модели ранжирования информации в соответствии с пользовательским запросом»