Научная статья на тему 'Автоматизация информационного поиска на базе многокритериальной оптимизации и генетических алгоритмов'

Автоматизация информационного поиска на базе многокритериальной оптимизации и генетических алгоритмов Текст научной статьи по специальности «Математика»

CC BY
105
15
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Семенихин С. В., Денисова Л. А.

Information Retrieval Systems (IRS) operate a set of documents D = {d1, d2,..., dn} is called search engine index. IRS user formulates their information needs in the form of a query q is transmitted search engine. Further, the system of the plurality of documents D, a subset of documents D `(belonging to D ) relevant request q. This subset is also called SERP.Modern IRS often operate on large collections of documents, making insufficient relevantnyhdokumentov identify problems and determine the relevance ranking of documents in the search results.In most modern information retrieval systems, ranking function has the form:where f ii document relevance factor d query q, X (n) the weighting factor for the n-th factor.Determination of the weight vector X is the main task in machine learning ranking factor model of information retrieval.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

AUTOMATION OF INFORMATION RETRIEV AL BASED ON MULTIOBJECTIVE OPTIMIZATIONAND GENETIC ALGORITHMS

Information Retrieval Systems (IRS) operate a set of documents D = {d1, d2,..., dn} is called search engine index. IRS user formulates their information needs in the form of a query q is transmitted search engine. Further, the system of the plurality of documents D, a subset of documents D `(belonging to D ) relevant request q. This subset is also called SERP.Modern IRS often operate on large collections of documents, making insufficient relevantnyhdokumentov identify problems and determine the relevance ranking of documents in the search results.In most modern information retrieval systems, ranking function has the form:where f ii document relevance factor d query q, X (n) the weighting factor for the n-th factor.Determination of the weight vector X is the main task in machine learning ranking factor model of information retrieval.

Текст научной работы на тему «Автоматизация информационного поиска на базе многокритериальной оптимизации и генетических алгоритмов»

УДК 004 6

С.В Семенгоат, Л.А. Денисова

Омский государственный технический университет, г. Омск, Россия Omsk State Technical University, Omsk, Russia

АВТОМАТИЗАЦИЯ ИНФОРМАЦИОННОГО ПОИСКА НА БАЗЕ МНОГОКРИТЕРИАЛЬНОЙ ОПТИМИЗАЦИИ II ГЕНЕТИЧЕСКИХ АЛГОРИТМОВ

AUTOMATION OF INFORMATION RETRIEV AL BASED ON METTIOBJECTIVE OPTIMIZATION AND GENETIC ALGORITHMS

Информационно-поисковые системы (ИПС) оперируют множеством документов D - {til, d2, ..., <1п}= называемых поисковым индексом. Пользователь ИПС формулирует свои информационные потребности в виде запроса q, который передается поисковой системе. Далее системой из множества документов D выбирается подмножество документов D' (принадлежащее D) релевантных запросу q. Это подмножество также называют поисковой выдачей

Современные ИПС зачастую оперируют над большими коллекциями документов, что делает недостаточным выявление релевантных документов и определяет актуальность проблемы ранжирования документов в поисковой выдаче.

В большинстве современных информационно-поисковых систем, функция ранжирования имеет вид:

те

Mdq)~ lq\

t=i

где/;- г-ый фактор релевантности документа d запросу q. Х(п) - весовой коэффициент для н-о:го фактора.

Определение вектора весовых коэффициентов X является основной задачей машинного обучения ранжированию в факторной модели информационного поиска.

Information Retrieval Systems. (IRS) operate a set of documents D = fdl, d2, ..., dn} is called search engine index. LR.S user formulates their information needs in the form of a query q is transmitted search engine. Further, the system of the plurality of documents D. a subset of documents D '(belonging to D) relevant request ■:/. This subset is also called SERP.

Modern IRS often operate on large collections of documents, making insufficient relevantnyhdokumentov identify- problems and determine the relevance ranking of documents in the search results. In most modern information retrieval systems, ranking function has the form:

it

fridq)= Xiififitql i=i

wherejf- i document relevance factor d query q, X (») - the weighting factor for the n-th factor.

Determination of the weight vector Xis the main task in machine learning ranking factor model of information

retrieval.

Машинное обучение ранжированию

После формирования композиции простых ранжирующих алгоритмов (критериев релевантности документа 'запросу, а также статистических факторов рейтинга документа), основной задачей становится обучение ранжированию (leamiiigtoraiik) [1].

Существуют различные подходы к постановке данной задачи, которые подразделяются на основные группы:

1. Приближение значений ранжирующей фтакции к эталонным значениям.

2. Максимизация метрик качества информационного поиска.

Наиболее эффективными являются подходы, направленные на максимизацию метрик качества информационного поиска [2]. В существующих реализациях, оптимизируется одна выбранная метрика качества, либо обобщенная метрика. В данной работе предлагается использование метрик качества информационного поиска в роли критериев оптимизации, в

связи с чем задача оптимизации ставится как многокритериальная. Для проведения исследования использовалась ИПС кеу1шкя.ги.

Постановка задачи многокритериальной оптимизации 1ШС

При выполнении машинного обучения ранжированию используется поисковый индекс И = {<Л,<12,.. а также набор поисковых запросов р = q2s _.., (}т). Для каждой пары документ-запрос ((1,ц) ИПС оценивает релевантность, после чего производит ранжирование поисковой выдачи. Дтя того чтобы: проводить оценку качества информационного поиска. необходимы эталонные значениярелевантностиЕ для каждой пары документ-запрос ((!.£]).В качестве эталонных значений используются оценки экспертов.

Пусть имеется кэкспертов, каждый из которых оценивает релевантность документа сЬапросусро двубальной шкале так, что:

если эксперт к считает документ с? релевантным запросу*? если эксперт Усчитает документ й нерелеЕанткым запросу ц

Исходя из того, что мнения всех экспертов равноценны сяедует:

2*Г<&о> к

Таким образом, экспертные значения релевантности документов запросам

■(АчЗЕВШ.

Совокупность N=5 частных кршериев ^ = 1' N образует векторный критерий

оптимальности:

СООеО

где ^ е Víl— вектор варьируемых параметров; {X}. {С}- пространства параметров и векторных критериев соответственно.В рассматриваемом случае ставится задача максимизации метрик качества информационного поиска, следовательно во введенных обозначениях МКО-задачу можно условно записать в виде:

ляО^

где Хт 7 С* - решения задачи.

В роли критериев выступают метрики качества информационного поиска. Так из списка общепринятых метрик оценки качества ИПС были выбраны 5 наиболее распространенных [3].

Критерий метрики пВСО рассчитывается по формуле:

я _ 1

= —-—

£]о£2(2 + р)

- средняя оценка релевантности, выставленная асессорами документ7, расположенном}' на позиции р в списке результатов, £га/еЕ[ОД];

- 1Ло{*г(24р} - дисконт за позицию документа (первые документы имеют больший

вес);

-Z-фaкгop нормализации, равен максимально возможному значению ПСОЩп для данного запроса (т.е. равен ВСО идеального ранжирования).

Критерий точности информационного поиска:

й

где а - количество найденных релевантных документов, Ь - количество документов ошибочно принятых за релевантные. Критерий II-точности:

К-точность равна точности на уровне 11 документов для о, равного количеству релевантных документов для данного запроса. Критерий ВргеС

Дтя задания с К релевантными документами обозначив за г известный релевантный документ, а за №пКеШе/оге(г) - число известных нерелевантных документов;, ранжированных выше, чем г (при вычислении учитываются только первые К оцененных нерелевантных документов из прогона). Врге/вычисляется как:

1 v1 NenRelBeferefy) --F -'

Критерий полноты поисков*™ выдачи:

й

Г =1

а + с

где а - количество найденных релевантных документов, с - количество ненайденных релевантных документов.

Частные критерии оптимальности были нормализованы по формуле:

где С; - - та,С, {** X о Dx.

На множестве было введено отношение предпочтения, обозначаемое символом >. Следует считать вектор s ^Я1 предпочтительнее вектора s . в том случае, если

«rotCt(*afceri=|F|l

среди равенств и неравенств L 1 4 имеется, хотяоы одно строгое

неравенство. Отношение предпочтения может быть также описано для множества значений

критериев &F-будем говорить, что вектор^"'Дсдоминирует вектор D-q и пи.

сать CCY, J я- Сесли XL>XS

Если из множества выделить подмножество ^с, в которое входят только не доминируемые точки, то соответствующее им множество векторов параметров называется множеством Парето образующим фронт Парето.

Решенне задачи Паретп-оптнмнзашш информационного поиска на базе генетических алгоритмов

Генетический алгоритм - это эвристический алгоритм поиска, используемый для решения задач оптимизации и моделирования путем случайного подбора, комбинирования и вариации искомых параметров с использованием механизмов, копирующих генетическое наследование и естественный отбор в природе. Применение генетических алгоритмовявляется на данный момент самым распространенным подходом для построения аппроксимации множества Парето [3].

В качестве критериев были выбраны полнота (recall) и точность (precision).В рассматриваемой задаче, был осуществлен поисквесовых коэффициентов ДьХ^Xt, Х+Хжддх фак-

торов релевантности /¡.^соответственно, при которых максимизирован векторный критерий

оптимальности COD = C<Xlf .Начальные значения весовых коэффициентов

выбирались случайно из диапазона '^1-в е Pï^lpt], В работе [4] было продемонстрировано преимущество использования дополнительных критериев для сужения фронта Пар его оптимальных решений после окончания работы основного алгоритма. В данной работе, в качестве дополнительногокритерия Cadd-. бьша использованамегрнкаК-точносгь.

Для реализации предлагаемого подхода был разработан программный продукт ParetoGA, реализующий метод недоминируемой сортировки (NDS) для построения: множества Парето в задаче многокритериальной оптимизации ранжирующего модуля ИПС. На вход данному программному средству передается специально сформированный массив данных, содержащий экспертные значения релевантности для пар документ-запрос из тестовой выборки, а также соответствующие значения факторов реп ев антн ости/} ^предварительно рассчитанные ИПСКеу links.

Метод не доминируемой сортировки требует использования турнирного метода селекции в ходе ГА.

Ранг особи

его текущем состоянии обозначим^ . В соответствии с методом NDSilth вычисления рангов особей используется следующий алгоритм

1. Среди всех особей попу ляпни (агентов) выбираются не доминируемые. Им присваивается ранг равный единице, и они исключаются из дальнейшего рассмотрения.

2. Данная процедура повторяется хтя оставшихся агентов, до исчерпания популяции.

Ранг особи легко преобразуется в функцию приспособленности, которая будет использована при селекции, по формуле:

/ÍÍHStfsGfj) = i е [1:150.

В связи с тем, что функция приспособленности имеет небольшой число возможных значений, не превышающее количество особей в популяции, часты случаи равенства особен при сравнении fitness-функции на этапе селекции. Для принятия решения о выборе тон или иной особи, необходимо привлечение дополнительной величины. В данной работе бьша использована характеристика, называемая разреженностью, отражающая равномерность покрытая и имеющая смысл минимального расстояния между решениями принадлежащими Парето-аппроксимации. Для измерения данного расстояния было использовано манхегте-новское расстояние (Manhattandistance). для соседних особей одного ранга.

Как видно выше., ход ГА был остановлен на. 100 поколении, по причине окончания числа поколений отпущенных на выполнение ГА. На последней итерации, среди особей финального поколения был выявлен фронт Парето оптимальных решений.

Библиографический список

1. Justin Zobel. AJistaii Moffat. Inverted files for text search engines // ACM Computing Surveys. - 2006. - T. 6. - № 2. - P. 33.

2. Семенихнн C.B. - Исследование подходов к машинному обучению ранжированию документов поисковой системой на базе генетических алгоритмов // Омск: ОмГ'ТУ, 2013. -С. 82-85.

3. Mana Grineva, Maxim Grinev, Dinitiy Lizorkin, Alexander Boldakov, Denis Turdatov, Andrey Sysoev, Alexander Kiyko il WWW '11 Proceedings of the 20th international conference companion on World wide web - 2011 - P. 213-216.

4. Денисова Л.А. Автоматизация: синтеза нечеткой системы регулирования с использованием многокритериальной оптимизации и генетических алгоритмов // Автоматизация в промышленности. - 2014. - № 4.

i Надоели баннеры? Вы всегда можете отключить рекламу.