УДК 004.738.5
УСОВЕРШЕНСТВОВАНИЕ МОДЕЛИ РАНЖИРОВАНИЯ ИНФОРМАЦИИ ПРИ ПОИСКЕ В СЕТИ INTERNET
Р. В. Менчиков Научный руководитель - В. В. Лапко
Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева
Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
Е-mail: [email protected]
Приведено описание современной модели ранжирования, указан недостаток модели, проведена модификация модели по формуле, применяемой для расчета значения изменения ранга поиска.
Ключевые слова: модель ранжирования, поиск информации, ранг, проблема поиска.
IMPROVEMENT OF MODEL OF RANGING OF INFORMATION BY SEARCH
IN THE INTERNET NETWORK
R. V. Menchikov Scientific Supervisor - V. V. Lapko
Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation Е-mail: [email protected]
The description of modern model of ranging is provided, the lack of model is specified, modification of model on the formula applied to calculation of value of change of a rank of search is carried out.
Keywords: ranging model, information search, rank, search problem.
Поиск в коллекциях документов является важной задачей. Об этом свидетельствует как большое количество поисковых систем, так и их постоянное развитие. Коллекции документов могут быть различных типов: блоги, новостные ленты, научные статьи или всё множество веб-страниц. Поисковые системы, такие как Google или Yahoo, оперируют с последним типом коллекций. Принцип работы поисковой системы следующий: пользователь вводит запрос, после чего система возвращает те документы из коллекции, которые наилучшим образом удовлетворяют запросу. Как правило, в традиционных поисковых системах ранжирование документов (производится на основе статистической информации о множестве слов в запросе и в документе. В отличие от поиска в базе данных, где результатом является множество записей с ключами, удовлетворяющими логическому условию, результат поиска в коллекции документов не определен точно. Поэтому вводятся параметры точности и полноты, отражающие качество поиска.
Существуют определенные модели, осуществляющие ранжирование информации.
Данные модели предназначены для того, чтобы упорядочить полученные ссылки с множества сайтов как внутри одного языкового множества, так и для многомерного языкового множества. Ниже приведена наиболее качественная и распространенная модель.
Модель поиска информации сразу по нескольким языкам применима при опросе Internet в разных языковых сегментах одновременно. В результате получается множество ссылок на разноязычные документы djy. Далее необходимо провести отсев дублирующихся ссылок. Следующим шагом вычисляется вес ссылки на документ.
Таким образом, результат каждого запроса может быть представлен в виде r-мерного ранжированного вектора:
dy = (RangDoc1y, RangDoc2y, ... , RangDoc^), (1)
Секция «Перспективные технологии и производство РКТ двойного назначения.»
п
Ка^Бое]у = ^ (RangSiteiy * RangSiteDociy) * Бос;у, (2)
=1
где 7 номер опрашиваемого сайта (7 = 1, ..., п); п - количество опрашиваемых сайтов; ] номер ссылки из множества ссылок, выданных всеми опрошенными поисковыми сайтами, без дублей ( = 1,...,г); г -количество ссылок без повторений; у номер языкового множества (у = 1, ..., т); т - количество опрашиваемых языковых множеств; Ка^Бос^ - получаемый ранг ]-й страницы у-го языкового множества; Яа^811е1у - ранг 7-го сайта в текущей предметной области у-го языкового множества на данный момент времени; Яа^8йеБос1у - ранг ссылки на страницу внутри 7-го поискового сайта у-го языкового множества. Если в результате отклика с 7-го поискового сайта у-го языкового множества нет ссылки на рассматриваемую ссылку, то Яа^811еБос1у = 0; Бос^ - признак включения документа в результирующий выборку. Если документ включен то 1, в противном случае 0.
Ранг сайта по каждой предметной области определятся по следующему алгоритму:
• при первом проходе Яа^8йе1у = 0,
• в процессе опроса каждого сайта ранг изменяет свое значение по формуле
RangSiteiv
RangSiteiy RangSiteiy
(DocRelTotaliy - DocNotRelTotaliy)
'У
DocTotal¡
(3)
'У
(DocRelTotaliy - DocNotRelTotaliy)
где RangSite¡y = RangSite¡y +---—,
'у 'у DocTotaliy
если DocRelTotal¡y - DocNotRelTotal¡y > 0 и RangSiteiy = RangSiteiy (т. е. остается без изменений), если DocRelTotal¡y - DocNotRelTotal¡y < 0.
БосЯе1То1а11у - количество релевантных документов, выданных 1-м поисковым сайтом,
БосКо1Яе1То1а11у - количество не релевантных документов, выданных 1-м поисковым сайтом,
БосТоЫ1у - общее количество документов.
DocTotaliy = DocRelTotaliy + DocNotRelTotaliy. (4)
1. Если необходимо проводить поиск только в пределах одного языкового множества, то в предложенной модели ранжирования необходимо рассматривать у = 1.
2. Если ввести еще один индекс w, отвечающий за предметную область, то полученная модель будет производить ранжирование сразу для нескольких предметных областей. Необходимо отметить, что сумма всех неповторяющихся ссылок всех опрашиваемых предметных областей будет меньше или равна общей сумме ссылок без повторений, что связано с пересечением предметных областей или наличием, так называемых, смежных предметных областей. Это возможно из-за того, что один документ может принадлежать сразу нескольким предметным областям [1; 2].
Необходимо отметить, что предлагаемая модель отлично работает на этапе формирования и пополнения тематических коллекций, однако при работе с запросами пользователей более целесообразно использовать модель ранжирования пользовательского запроса.
Необходимо отдельно отметить критичные момент связанные с модификацией предлагаемой модели расчета от предыдущей версии работы алгоритма.
Модификация связана с формулой номер 7. По сравнению с прошлой версией, в которой ранг сайта рассчитывался следующим образом:
RangSite'У + (DocRelTotal'У - DocNotRelTotal'У)
^^¡^У =-г--/-^. (5)
DocTotal'y
Возможна была ситуация при которой ранг сайта принимал отрицательное значение, что существенно сказывалось на ранге документов. Для решения данной проблемы предлагается использовать условие, при котором ранг сайта не уходит в отрицательное значение. Если
DocRelTotaliy - DocNotRelTotaliy < 0, то RangSiteiy = RangSiteiy
(т. е. остается без изменений).
Также незначительно изменен принцип расчета ранга документа в поисковом сайте. Если в предыдущем случае ранг мог принимать значение 0 для последней ссылки и все значения полученных рангов были на единицу ниже, чем в поисковых сайтах, то теперь данная проблема решена.
Ранг ссылки на страницу внутри множества ссылок, выданных каждым конкретным сайтом, определяется по формуле
RangSiteDociy = DocTotaliy - NumDociy + 1, (6)
где NumDociy - порядковый номер ссылки на документ в результате отклика с поискового сайта.
Это решает проблему некоторого несоответствия расчетных значений и значений полученных из поисковых сайтов.
Таким образом, анализ проблем и принципов организации персонифицированного сбора информации показал, что в настоящее время разработано множество подходом к данной задачи, однако они отлично работают в рамках общей поисковой процедуры. Если говорить о поиске узкоспециализированной информации, то необходимо проводить их модификацию.
Библиографические ссылки
1. Хорстманн Кей С., Гари Корнелл. Java 2. Библиотека профессионала [пер. с англ.]. 7-е изд. М. : Вильямс, 2007. 1168 с. : ил.
2. Царев Р. Ю. Fuzzy-метод формирования структуры мультиверсионного программного обеспечения информационно-управляющих систем // Информационно-измерительные и управляющие системы. 2007. № 12. С. 72-75.
© Менчиков Р. В., 2016