Научная статья на тему 'Модификация схемы BM25 с помощью генетического алгоритма'

Модификация схемы BM25 с помощью генетического алгоритма Текст научной статьи по специальности «Математика»

CC BY
255
41
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
ГЕНЕТИЧЕСКИЙ АЛГОРИТМ / ИНФОРМАЦИОННЫЙ ПОИСК / МОДИФИКАЦИЯ BM25 / GENETIC ALGORITHM / INFORMATION RETRIEVAL / MODIFICATION BM25

Аннотация научной статьи по математике, автор научной работы — Воробьев Сергей Петрович, Хорошко Максим Болеславович

Быстро растущие информационное пространство объединенных вычислительных сетей порождает новые потребности в обработке, представлении и особенно в поиске данных. На первое место выходит критерий релевантности, который позволяет при его корректном использовании повысить эффективность информационного поиска. Существует достаточно большое количество схем и моделей для решения задачи поиска, одной из которых является BM25.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Modifications of BM25 using a genetic algorithm

The rapidly growing information space combined area networks creates new needs for management, reporting, and especially in the search for data. On the first place there is the criterion of relevance, which allows for its correct use to increase the efficiency of information retrieval. There is a fairly large number of schemes and models for solving search problems, one of which is the BM25.

Текст научной работы на тему «Модификация схемы BM25 с помощью генетического алгоритма»

Модификация схемы BM25 с помощью генетического алгоритма.

С.П. Воробьев, М.Б. Хорошко, ЮРГТУ (НПИ), Новочеркасск

Быстро растущие информационное пространство объединенных вычислительных сетей порождает новые потребности в обработке, представлении и особенно в поиске данных. На первое место выходит критерий релевантности, который позволяет при его корректном использовании повысить эффективность информационного поиска. Существует достаточно большое количество схем и моделей для решения задачи поиска, одной из которых является BM25.

Схема взвешивания Okapi BM25, была разработана как способ построения вероятностной модели, чувствительной к частоте термина и длине документа, но не использующей большого количества дополнительных параметров. В соответствии с ней каждый документ^ получает оценку по запросу q, определяемой следующей формулой:

Переменная к-!— это положительный параметр настройки, с помощью которого производится калибровка частоты термина. Переменная Ъ— еще один параметр настройки (0 < Ъ < 1), определяющий нормировку по длине документа. Рекомендуемые значения к1 и Ь - параметры, равны 1.2 и 0.75 соответственно; Wd и ША - длина документа и средняя длина документа.

Для подбора параметров надстройки будем использовать следующий генетический алгоритм, который получает на вход количество коэффициентов(п)используемых в модели и возвращает подобранные коэффициенты. Общий алгоритм выглядит следующим образом:

1) Создается начальная популяция. Случайным образом из диапазона коэффициентов от Стыдо Стах (диапазон устанавливается для каждого алгоритма), подбираем кп наборов коэффициентов и переводим их в двоичный вид.

2) Вычисляем приспособленность хромосом. Оцениваем ошибку, для каждого набора коэффициентов.

3) Выбираем двух родителей с наименьшей ошибкой для операции скрещивания.

4) Выбор хромосом для операции мутации.

5) Оценка приспособленности нового набора коэффициентов.

6) Если ошибка п1 - набора больше заданной ошибки ЕеЫег, то переходим к пункту 3, иначе пункт 7.

7) Полученный набор коэффициентов, который минимизирует ошибку, возвращается в модель поиска.

Рассмотрены более детально основные аспекты:

где

(.ki + l)fd,t

• Все коэффициенты генерируются изначально случайным образом по равномерному закону при ограничении сверху и снизу. Затем переводятся в двоичный вид, чтобы можно было применять операции скрещивания и мутации.

• Ошибка оценивается по следующей формуле:

І = 0

Где, г(йі, Ці)- средняя оценка документа ^ экспертами, по запросу Ці . зсоге^йі, Ці) -полученная релевантность документа ^, по запросу Ці .

В ходе экспериментов получены оптимальные операции скрещивания и мутации.

Операция отбора.После проведения ряда экспериментов, было выявлено, что для более быстрого получения максимума целевой функции отбор хромосом должен осуществляться по следующему принципу. Для операции скрещивания берется два самых лучших хромосома, и случайным образом Ыкг хромосом.

Для операции мутации берется два хромосома с самой низкой приспособленностью и ^тиі хромосом.

Операция скрещивания. Для выбора оптимальной операции скрещивания, был проведен ряд экспериментов с различными методами. В результате определилось два оптимальных метода показанные на рисунке 1. Для проверки эффективности случайным образом делалась выборка запросов от одного до ста. В качестве параметра определяющего оптимальность, бралась средняя оценка релевантности выдачи по данным запросам. Во время эксперимента отключались другие операции. Таким образом функция достигает максимума при сращивании методом «расчески» и очень близко при скрещивании «пополам» (рисунок 2). Решено оставить оба варианта в алгоритме и эксперименты доказали эффективность выбранного способа (рисунок 1). По различным запросам метод расчески достигает максимальной точки по одному набору запросов, метод пополам по двум, а использование двух методов по четырем.

41

Ф

О.

♦ Метод расчески И Метод пополам —йг- Оба метода

и

0 20 40 60 80 100 120

Количество запросов

Рис. 1. Операции скрещивания

I I

Рис. 2. Методы скрещивания. При скрещивании «расческой» биты с двух коэффициентов меняются через один. При скрещивании методом пополам, берется половину бит с первого коэффициента и вторую половину со второго коэффициента.

Операция мутации. Дляопределения оптимальной мутации, был проведен эксперимент, где оценивалась средняя релевантность документов выданных системой при отключенных других механизмах. В результате эксперимента выяснилось, что мутация достигает максимума при вероятности мутирования бита равной 40%. График зависимости результатов поиска от вероятности мутирования показан на рисунке 3.

и 0 20 40 60 80 100

Вероятность мутации бита, %

Рис. 3. Зависимость результатов поиска от вероятности мутирования бита

Для проведения эксперимента, было создано две базы запросов - документов. Первая база используется для обучения алгоритма, вторая для оценки. Тестовые коллекции были предоставлены организацией РОМИП, брались две коллекции:

• псевдослучайная выборка сайтов из домена narod.ru объемом 728 000 документов.

• набор, содержащий новостные сообщения из 25 источников и охватывающий 3 временных интервала (около 31 500 документов).

Были сформированы запросы трех типов:

• информационные запросы,

• навигационные запросы,

• транзакционные запросы.

Всего сформировано около 5 000 запросов в равных соотношениях.

Эксперимент. Реализуем модельОкар1БМ25 и ее модификацию, где в качестве параметров надстройки будут выступать подобранные значения с помощью генетического алгоритма. Сравниваются полученные метрики оценки для двух систем по 30 запросам.

Полнота (recall) вычисляется как отношение найденных релевантных документов к общему количеству релевантных документов:

Полнота характеризует способность системы находить нужные пользователю документы, но не учитывает количество нерелевантных документов, выдаваемых пользователю. Полнота показана на рисунке 4.

Рис.4. Полнота

Среднее значение полноты: ВМ=0,173, ГА =0,241. ГА показывает лучшую полноту, в среднем на 40%, т.е. пользователь получит на 40% больше релевантных документов.

Точность (precision) вычисляется как отношение найденных релевантных документов к общему количеству найденных документов.

Точность характеризует способность системы выдавать в списке результатов только )елевантные документы. Точность алгоритмов показана на рисунке 5.

Рис.5. Точность

Среднее значение точности: ВМ=0,167, ГА=0,217. ГА показывает точность, выше на 30%, т.е. больше вероятность, что пользователь получит только релевантные документы на свой запрос.

Аккуратность (accuracy) вычисляется как отношение правильно принятых системой решений к общему числу решений. Аккуратность алгоритмов показана на рисунке 6.

1,2

1

0,8

0,6

0,4

0,2

0

т

т

т

т

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28

ВМ

ГА

Рис.6. Аккуратность

Среднее значение аккуратности: ВМ=0,832, ГА=0,873. ГА обладает более лучшей аккуратностью на 5%, т.е. система принимает больше правильных решений.

Ошибка (error) вычисляется как отношение неправильно принятых системой решений к общему числу решений. Ошибка алгоритмов полказана на рисунке 7.

ВМ

ГА

1 2 3 4 5 б 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28

Рис.7. Ошибка

Среднее значение ошибки: ВМ=0,167, ГА=0,150. ГА обладает меньшей ошибкой на 10%, т.е. системой на 10% меньше принято неправильных решений.

Г-мера (Р) часто используется как единая метрика, объединяющая метрики полноты и точности в одну метрику. Б-мера для данного запроса вычисляется по формуле:

2

precision recall

Отметим основные свойства:

• 0 <F< 1

• если recall = 0 или precision = 0, то F = 0

• если recall = precision, то F = recall = precision

Y+'D

• min(reacall,precision) < F <—^~

F-мера алгоритмов полказана на рисунке 8.

Рис.8. F-мера

Среднее значение f-мера: ВМ=0,17, ГА=0,24. ГА на 40% позволяет улучшить данную метрика, т.е. в среднем ГА выдает лучше результаты на 40%.

Таким образом, модификация с генетическим алгоритмом позволяет улучшить базовую модель в среднем на 40%, т.е. пользователь получит на свой ответ больше релевантных документов на 40%, вероятность того что на запрос будут только релевантные ответы на 30%, на 5% системой принято больше правильных решений, на 10% меньше не правильных.

Литература

1. Sparck Jones, Karen, S. Walker.A probalistic model of information retrieval. б. м. : IP&M, 2000.

2. Маннинг, Кристофер Д. Введение в информационный поиск. М. : Вильямс, 2011.

i Надоели баннеры? Вы всегда можете отключить рекламу.