Научная статья на тему 'Определение весовых коэффициентов для аддитивной фитнес-функции генетического алгоритма'

Определение весовых коэффициентов для аддитивной фитнес-функции генетического алгоритма Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
195
50
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
генетический алгоритм / аддитивный критерий / весовой коэффициент / фитнес-функция / хранилище данных / поисковый запрос / релевантность / genetic algorithm / additive function / weight factor / fitness function / data warehouse / search query / relevance

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — В. К. Иванов, Д. С. Думина, Н. А. Семенов

Представлено возможное решение задачи выбора способа аналитического определения весовых ко-эффициентов для аддитивной фитнес-функции генетического алгоритма. Этот алгоритм является ос-новой эволюционного процесса, формирующего в поисковой системе устойчивую и эффективную по-пуляцию запросов для получения высокорелевантных результатов. Приведено формальное описание фитнес-функции алгоритма, которая представляет собой взвешенную сумму трех неоднородных кри-териев. Подробно описаны выбранные способы аналитического определения весовых коэффициентов, при этом отмечается невозможность использования методов экспертных оценок. Рассмотрена методика проведения исследований. Описывается исходный набор данных, в том числе диапазоны данных, при-нятые для вычисления весовых коэффициентов различными способами. Порядок вычислений проил-люстрирован примерами. Результаты исследований, показанные в графической форме, наглядно де-монстрируют поведение фитнес-функции при работе генетического алгоритма с использованием раз-личных вариантов весовых коэффициентов. Анализ результатов позволяет сделать вывод о предпочтительности расчета весовых коэффициен-тов фитнес-функции данной популяции запросов, выполненного с использованием результатов всех запросов этой популяции. Вывод базируется на наличии последовательных улучшений популяций за-просов, характерных для корректной работы генетических алгоритмов, а также на очевидном обнару-жении в ходе экспериментов локальных и глобального максимумов фитнес-функции. При использова-нии других способов расчета весовых коэффициентов подобного не наблюдается. Способ определения весовых коэффициентов для аддитивного критерия оптимальности может повысить качество работы генетического алгоритма для формирования эффективных поисковых запросов. В частности, повыша-ется вероятность быстрого обнаружения локальных экстремумов фитнес-функции, которые на задан-ной области ее определения могут стать оптимальным решением.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — В. К. Иванов, Д. С. Думина, Н. А. Семенов

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Determination of weight coefficients for additive fitness function of genetic algorithm

The paper presents a solution for the problem of choosing a method for analytical determining of weight factors for a genetic algorithm additive fitness function. This algorithm is the basis for an evolution-ary process, which forms a stable and effective query population in a search engine to obtain highly relevant results. The paper gives a formal description of an algorithm fitness function, which is a weighted sum of three heterogeneous criteria. The selected methods for analytical determining of weight factors are described in detail. It is noted that expert assessment methods are impossible to use. The authors present a research methodology using the ex-perimental results from earlier in the discussed project “Data Warehouse Support on the Base Intellectual Web Crawler and Evolutionary Model for Target Information Selection”. There is a description of an initial dataset with data ranges for calculating weights. The calculation order is illustrated by examples. The research results in graphical form demonstrate the fitness function behavior during the genetic algorithm operation using vari-ous weighting options. The analysis of the results implies that it is more preferable to calculate fitness function weight factors for this query population then using the results of all population queries. The conclusion is based on the presence of successive improvements in query populations which reflect the correct operation of genetic algorithms, as well as on the obvious detection of local and global maxima in the fitness function during experiments. When using other methods of calculating weighting factors there is no such thing. Thus, a method for determining weight factors for an additive optimality criterion can improve genetic algorithm quality to generate effective search queries. In particular, the probability of rapid detection of fitness function local extremes is increased and this local extreme can become the optimal solution the function do-main.

Текст научной работы на тему «Определение весовых коэффициентов для аддитивной фитнес-функции генетического алгоритма»

УДК 004.89;519.816 Дата подачи статьи: 16.12.19

Б01: 10.15827/0236-235Х.129.047-053 2020. Т. 33. № 1. С. 047-053

Определение весовъх коэффициентов для аддитивной фитнес-функции генетического алгоритма

В.К. Иванов 1, к.т.н, доцент, начальник управления информационных ресурсов и технологий, тИик@таИ-ги

Д.С. Думина 1, магистрант,, с!итта97@таИги

Н.А. Семенов 1, д.т.н, профессор кафедры1 информационных систем, зи1155@таИ- ги

1 Тверской государственный технический университет, г. Тверь, 170026, Россия

Представлено возможное решение задачи выбора способа аналитического определения весовых коэффициентов для аддитивной фитнес-функции генетического алгоритма. Этот алгоритм является основой эволюционного процесса, формирующего в поисковой системе устойчивую и эффективную популяцию запросов для получения высокорелевантных результатов. Приведено формальное описание фитнес-функции алгоритма, которая представляет собой взвешенную сумму трех неоднородных критериев.

Подробно описаны выбранные способы аналитического определения весовых коэффициентов, при этом отмечается невозможность использования методов экспертных оценок. Рассмотрена методика проведения исследований. Описывается исходный набор данных, в том числе диапазоны данных, принятые для вычисления весовых коэффициентов различными способами. Порядок вычислений проиллюстрирован примерами. Результаты исследований, показанные в графической форме, наглядно демонстрируют поведение фитнес-функции при работе генетического алгоритма с использованием различных вариантов весовых коэффициентов.

Анализ результатов позволяет сделать вывод о предпочтительности расчета весовых коэффициентов фитнес-функции данной популяции запросов, выполненного с использованием результатов всех запросов этой популяции. Вывод базируется на наличии последовательных улучшений популяций запросов, характерных для корректной работы генетических алгоритмов, а также на очевидном обнаружении в ходе экспериментов локальных и глобального максимумов фитнес-функции. При использовании других способов расчета весовых коэффициентов подобного не наблюдается. Способ определения весовых коэффициентов для аддитивного критерия оптимальности может повысить качество работы генетического алгоритма для формирования эффективных поисковых запросов. В частности, повышается вероятность быстрого обнаружения локальных экстремумов фитнес-функции, которые на заданной области ее определения могут стать оптимальным решением.

Ключевые слова: генетический алгоритм, аддитивный критерий, весовой коэффициент, фитнес-функция, хранилище данных, поисковый запрос, релевантность.

Основная идея технологии генерации поисковых запросов, фильтрации и ранжирования результатов поиска - организация с помощью специального генетического алгоритма (ГА) эволюционного процесса (ГАП), формирующего в поисковой системе устойчивую и эффективную популяцию запросов для получения высокорелевантных результатов. Специальным образом закодированные запросы последовательно подвергаются генетическим изменениям и выполняются в поисковой системе. Оценивается релевантность промежуточных результатов поиска, вычисляются значения (целевой) фитнес-функции и осуществляется отбор наиболее пригодных запросов. Процесс повторяется до достижения квазиоптимального значения фитнес-функции.

Значение фитнес-функции ГАП определяет качество поисковых запросов и вычисляется для каждого найденного документа в результате выполнения запроса. Это значение зависит от следующих факторов: позиция документа в ранжированном списке результатов запроса, вхождение данного документа в списки результатов других запросов, семантическая близость к адаптивно модифицируемому исходному набору ключевых термов - поисковому паттерну.

В настоящей статье описываются результаты исследования способов аналитического определения веса каждого фактора, влияющего на значение фитнес-функции, и сравнительного анализа применимости каждого способа для оценки динамики изменения значений фит-нес-функции ГАП.

Описание ГАП и его фитнес-функции

В работах [1, 2] отмечается, что в ГАП поисковый паттерн K для документов есть набор термов, относящихся к некоторой предметной области. Каждый поисковый запрос представлен вектором q = (Cl, C2, ..., Cn, ..., Cm), где

Cn = {kn, wn, Sn}, kn £ K - терм; Wn - вес терма; Sn - множество синонимов терма kn; m - количество термов в запросе. Результат выполнения запроса - это набор документов R, \ R \ = D. Исходная популяция из N поисковых запросов представлена множеством Qo, где \ Qo \ = N, N< \k\/2, q £ Q0. Результатом поискового запроса является множество документов R, которое формируется после выполнения q в поисковой системе (Bing, Google, БД SQL, данные в структуре XML и т.п.).

Эволюционная операция скрещивания (одно- или двухточечный кроссовер) реализуется обменом термами между запросами, то есть компонентами векторов q; для репродукции запросов используется генотипный аут-бридинг. Адекватная операция мутации - это вероятностная замена синонимом k'n £ Sn случайно выбранного терма запроса kn. При формировании новой популяции запросов используется элитарный отбор. Условием остановки алгоритма в общем случае считается стабильность популяции.

Значение фитнес-функции, или функции пригодности W, определяет качество запросов; ГАП ищет максимум W:

— 1 N w = — У w.

NУ J

(1)

где w - фитнес-функция j-го запроса популя-

ции,

=1У w( g ' p-s)

r ,=i

(2)

где Wi - фитнес-функция для i-го результата j-го запроса - результата ri имеет вид аддитивного критерия оптимальности:

Wi = Wgg + WpP + W^S. (3)

Значение g учитывает ранг для ri, установленный поисковой системой:

g = 1 - gfr,R)-g^ , g^,r) = f^pos(ri)R , (4)

g max g min j = 1

где pos(r)R - номер позиции ri в ранжированном списке результатов j-го запроса популяции; gmax, gmin - наибольшее и наименьшее значения g(ri, R) среди всех результатов запросов популяции.

Значение p учитывает универсальность ri, то есть частоту появления ri в списках результатов других запросов. Оно определяется следующим образом:

p (Г ,j) - pmin , рч V t( \R

p =-, p(ri,R) = X count(ri )j , (5)

pmax - Pmin j = 1

где count(r)j = 1, если ri присутствует в списке

результатов j-го запроса, иначе count(r )j = 0 ;

Pmax, Pmin - наибольшее и наименьшее значения p(ri, R) среди всех результатов запросов популяции.

Значение 5 определяет семантическую близость ri и поискового образа K. В работе используется косинусная мера близости векторов документов, как это принято в векторной модели пространства документов [3]. Таким образом,

s(r, K ) = # (r')V ( K ))

IV (r )||.|| v ( K )||

(6)

где v(r) = v(w1r, w2

r,..., wr ) - вектор /'-го

результата запроса, Т - количество термов в тексте результата запроса после морфологического анализа (принимаются во внимание только существительные и прилагательные) и лемматизации (в качестве текста результата используются заголовок документа и его краткое описание (сниппет)), мтгп = / • Ш/П - вес /-го терма из текста результата запроса, 1/1 - частота использования термина в этом тексте, [¿/гп = ^[(Я +1)/Я" ], Rn - число результатов, текст которых содержит п-й терм /-го результата; V(К) = V(н>к, w2K,..., ™кт,..., нК|) - вектор поискового образа документов К, wKm = (1/| К | ) • 1й/К - вес т-го терма из К,

1й/К = ^[(Я +1)/Ят ], Rm - число результатов, текст которых содержит т-й терм из К; wg, wp, ws - весовые коэффициенты для g, р, 5 соответственно.

Способы аналитического определения весовых коэффициентов

Как уже отмечалось, задачей являлось исследование способов аналитического определения веса (или значимости) каждого фактора, влияющего на значение фитнес-функции. То есть необходимо определить значения весовых коэффициентов wg, Wp и ws для факторных переменных g, р и 5 в соответствии с (3).

Отметим, что метод взвешенной суммы критериев основан на свертывании всех крите-

R

риев в единственный обобщенный (глобальный, интегральный, агрегированный и т.д.) критерий, представляющий собой сумму критериев, взвешенных коэффициентами их относительной важности, или весами [4]. Метод известен давно, однако до сих пор является довольно распространенным и чаще других используется и активно совершенствуется [5, 6].

Оценка значений весовых коэффициентов с использованием экспертных методов включает следующие основные этапы: определение цели, формирование группы экспертов, разработка сценария и процедур экспертизы, сбор и анализ экспертной информации, анализ результатов экспертизы. Очевидно, что в рассматриваемом случае даже хорошо обоснованные экспертные методы [7] не подходят. Основная причина в отсутствии критериев для совместной сравнительной оценки факторов экспертами. Поэтому разумным представляется принять, что wg = wp = Ws.

Рассмотрим некоторые способы и приемы, позволяющие по информации о качестве значений факторных переменных определять значения весовых коэффициентов wk [8, 9].

Способ 1. Для каждого частного критерия Fk(X > 0, k = 1, 2, ..., c, вычисляется коэффициент относительного разброса который определяет максимально возможное отклонение по ^му частному критерию:

F + - F - F -S, = F-= 1 - Fk-

f:

f:

(7)

где fk = min fk (x), f* = min fk (x). Весовые

XE D XE D

коэффициенты wk получают наибольшее значение для тех критериев, относительный разброс которых в области оценок наиболее значительный:

' (8)

= Sk/ X1=i Sk

Способ 2. Пусть все ¥к ф 0, тогда можно рассмотреть отклонение частного критерия от его наименьшего значения:

рк (х) - Fk

ßk ( X )■■

f;

(9)

Предположим, что важность ^го критерия зависит от выполнения неравенства

Р* (X) • (10)

Величины ^ задаются из условия, что, чем важнее критерий, тем меньшее значение ^ выбирается. Геометрическая интерпретация выполнения неравенства (10) будет следующей. Пусть К* - наибольший радиус шара, постро-

енного около точки минимума х* для критерия Fk(X), внутри которого точки х е Б(х*,..., К*) удовлетворяют условию (10). Тогда

(11)

R* =

max IX1 ( x, — x.* )2 1 .

xeD lX k k )

Очевидно, что, чем больше радиус шара R в котором относительное отклонение k-го критерия от его минимального значения не превосходит ^k, тем меньшее значение весового коэффициента wk надо выбирать:

Wt = л /у с л. (12)

* R*/ У * = ! R* ( )

Также имеются оригинальные разработки методов определения весовых коэффициентов, основанные на эвристических алгоритмах [10].

Методика проведения исследований

Для вычисления весовых коэффициентов описанными выше способами использовались результаты экспериментов с ГАП, выполненных ранее (https://www.rfbr.ru/rffi/ru/project_ search/o_2071601). Исходный набор K был сформирован из терминов предметной области, касающейся управления эволюцией технологических процессов на промышленных предприятиях. Использовались поисковая система Bing и следующий исходный набор значений основных параметров:

- количество запросов в генерируемых популяциях K = 5;

- количество ключевых слов в каждом генерируемом запросе M = 8;

- максимальное количество результатов поиска, возвращаемых запросом Rq = 20, либо популяцией запросов Rq = 20, либо суммарно всеми популяциями R = 20;

- вероятность мутации запроса pm = 0,1;

- число проходов алгоритма (или число генерируемых популяций) NQ = 200.

Отметим, что условие остановки алгоритма при проведении экспериментов было отменено для создания условий предотвращения преждевременной сходимости ГАП.

Фрагмент исходных данных в качестве примера представлен в таблице.

Весовые коэффициенты wg, wp и ws необходимо вычислить способами 1 и 2. Причем вычисления должны быть произведены для следующих диапазонов исходных данных:

- результаты выполнения каждого запроса популяции, 1 < r < Rq;

- результаты выполнения запросов каждой популяции, 1 < r < YK Rq;

- результаты выполнения запросов всех гопуляций, 1 < r < £ ^ £ K=1 jq ■

Фрагмент исходных данных Source data chunk

№ популяции № особи (запроса) giru R) g Piru R) P s(n, R) s

145 559 44,00 0,43 7,75 1,00 0,05 0,42

145 559 44,00 0,43 7,75 1,00 0,07 0,56

145 559 26,00 0,66 2,50 0,32 0,06 0,45

145 559 23,00 0,70 1,75 0,23 0,06 0,46

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

145 560 8,00 0,90 1,75 0,23 0,07 0,54

145 560 4,00 0,95 1,00 0,13 0,07 0,54

145 560 6,00 0,92 1,00 0,13 0,07 0,55

145 560 44,00 0,43 7,75 1,00 0,08 0,61

145 561 21,00 0,73 1,75 0,23 0,09 0,70

145 561 4,00 0,95 1,00 0,13 0,07 0,51

Порядок вычислений значений весовых коэффициентов по способу 1 (пример). В качестве исходных примем данные из таблицы. Коэффициенты относительного разброса для частных критериев следующие: Sg = 1 - (0,43/0,95) = 0,5474, 8р = 1 - (0,13/1,00) = 0,8700, = 1 - (0,05/0,09) = 0,4444. Тогда весовые коэффициенты примут следующие значения:

Wg = 0,5474/(0,5474 + 0,8700 + 0,4444) = 0,294, Wp = 0,8700/(0,5474 + 0,8700 + 0,4444) = 0,467, ws = 0,4444/(0,5474 + 0,8700 + 0,4444) = 0,239. Отметим, что wg + wp + ws = 1. Порядок вычислений значений весовых коэффициентов по способу 2 (пример). В качестве исходных данных также примем исходные данные из таблицы. Пусть ^ = 33, \р = 33,

= 34. Тогда, в соответствии с (10): Pg = (т - 0,43)/0,43 < 0,33 при < 0,4719, рр = (Г(р) - 0,13)/0,13 < 0,33 при Г^) < 0,3729, р^ = (Г(5) - 0,42)/0,42 < 0,32 при Г^) < 0,4828. Следовательно: Я* = тах( ^ (я )) = 0,4719,

Я' = тах(Р (р)) = 0,3729,

Я* = тах( ^ (.?)) = 0,4828. Тогда весовые коэффициенты примут следующие значения:

Wg = 0,4719/(0,4719 + 0,3729 + 0,4828) = 0,355, Wp = 0,3729/(0,4719 + 0,3729 + 0,4828) = 0,281, ws = 0,4828/(0,4719 + 0,3729 + 0,4828) = 0,364.

Отметим, что wg + wp + ws = 1.

Вычисленные значения весовых коэффициентов wg, wp и ws = 1, а также весовые коэффициенты для случая wg = wp = ws должны быть использованы для вычисления фитнес-функ-ции Ж. Далее должен быть проведен сравнительный анализ поведения функции Ж при выполнении ГАП с исходным набором К.

Результаты исследований

На рисунке 1 представлены графики зависимости значений фитнес-функции Ж от номеров популяций запросов, порожденных ГАП. Вычисление Ж производилось для документов из диапазона 1 < г < у ^ у К_ЯЧ, где г/ - номер

/-го документа в результатах выполнения запросов всех популяций.

На рисунке 2 изображены графики зависимости значений фитнес-функции Ж от номеров первых 30 популяций запросов, порожденных ГАП. Вычисление ж производилось для

документов из диапазона 1 < п < У .

На рисунке 3 приведены графики зависимости значений фитнес-функции ж от номеров первых 10 популяций запросов, порожденных ГАП. Вычисление Ж производилось для документов из диапазона 1 < г < Rq.

Во всех случаях весовые коэффициенты wg, wp и ws принимались равными друг другу, а также вычислялись описанными выше способами 1 и 2. Соответственно, на графиках использованы следующие обозначения фит-нес-функции: Wequ при Wg = Wp = Ws; при вычислении Wg, Wp и Ws способом 1; Wrad при вычислении wg, wp и ws способом 2.

Обсуждение результатов

Полученные результаты экспериментов позволяют отметить некоторые особенности фитнес-функции ГАП с весовыми коэффициентами, вычисленными различными способами, а также сделать ряд предположений.

1. Как следует из рисунка 1, графики фит-нес-функций Wequ, Wdis и Wrad, значения которых вычислены по результатам выполнения за-

просов всех популяций, в большой степени похожи. Можно предположить, что Wrad = №еди +

+ 8ед„ И 1¥,-ас1 = + Причем > 8ед„ и

Я(И') > Я(8), где иЯ(8) - области значе-

ний Ж и 8 соответственно. На всех трех графиках отчетливо видны локальный и глобальный максимумы Ж, достигаемые практически в одних и тех же точках. В целом при данном диапазоне исходных данных ни один из предложенных способов расчета весовых коэффициентов не дает очевидных преимуществ.

2. При анализе графика функции Wrad на рисунке 2 можно увидеть, что при работе ГАП на заданной области определения Wrad отчетливо видны два локальных максимума, причем первый из них достигается достаточно быстро (в пределах 10 популяций). Также можно видеть последовательные улучшения популяций запросов, характерные для корректной работы генетических алгоритмов. На графиках функций Wequ и Wdis подобного не наблюдается: точка первого локального максимума пропущена, точка второго локального максимума совпадает с аналогичной точкой для Wrad, но сам максимум менее выражен. Вывод - расчет весовых коэффициентов по способу 2 с использованием результатов выполнения запросов каждой популяции представляется более предпочтительным.

3. Графики фитнес-функций Wequ, Wdis и Wrad показывают наличие локальных максимумов, найденных ГАП. Однако точки максимумов различны для всех вариантов Ж. Из-за небольшого количества шагов выполнения ГАП формулировка каких-либо выводов для данного диапазона исходных данных, используемого при расчете весовых коэффициентов, пока преждевременна.

Заключение

Результаты экспериментов позволяют сделать вывод об эффективности предложенного подхода. Показано, как метод определения весовых коэффициентов для аддитивного критерия оптимальности - фитнес-функции ГАП -может повысить качество работы генетического алгоритма для формирования эффективных поисковых запросов. В частности, повышается вероятность быстрого обнаружения локальных экстремумов фитнес-функции, которые на заданной области ее определения могут стать оптимальным решением.

Рис. 1. Значения фитнес-функции W, вычисленные по результатам выполнения запросов всех популяций

Fig. 1. The values of w fitness function calculated by query execution results of all populations

Рис. 2. Значения фитнес-функции W, вычисленные по результатам выполнения запросов каждой популяции

Fig. 2. The values of w fitness function calculated by query execution results of every population

Рис. 3. Значения фитнес-функции W, вычисленные по результатам выполнения каждого запроса популяции

Fig. 3. The values offitness function calculated by execution results of every population query

Результаты исследования будут использованы при разработке механизма селекции информации об инновационных объектах, основанного на определении семантической релевантности

такой информации генерируемым поисковым запросам. Механизм является частью технологии хранилища данных с автоматическим пополнением данными из различных источников.

Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 18-07-00358 А.

Литература

1. Ivanov V.K., Palyukh B.V., Sotnikov A.N. Efficiency of genetic algorithm for subject search queries. Lobachevskii J. of Mathematics, 2016, vol. 12, no. 3, pp. 244-254.

2. Иванов В.К., Мескин П.И. Реализация генетического алгоритма для эффективного документального тематического поиска // Программные продукты и системы. 2014. № 4. С. 118-126. DOI: 10.15827/0236-235X.108.118-126.

3. Salton G., Wong A., Yang C.S. A vector space model for automatic indexing. Communications of the ACM, 1975, vol. 18, pp. 613-620.

4. Подиновский В.В., Потапов М.А. Метод взвешенной суммы критериев в анализе многокритериальных решений: Pro et contra // Бизнес-информатика. 2013. № 3. С. 41-48.

5. Подиновский В.В. Чувствительность многокритериального выбора к изменению оценок важности неоднородных критериев // ИТНОУ. 2017. № 4. С. 23-27.

6. Sorooshian S., Parsia Y. Modified weighted sum method for decisions with altered sources of information. Mathematics and Statistics, 2019, vol. 7, no. 3, pp. 57-60. URL: http://www.hrpub.org/down-load/20190630/MS1-13412797.pdf (дата обращения: 10.12.2019). DOI: 10.13189/ms.2019.070301.

7. Спиридонов С.Б., Булатова И.Г., Постников В.М. Анализ подходов к выбору весовых коэффициентов критериев методом парного сравнения критериев // Науковедение. 2017. Т. 9. № 6. URL: https://naukovedenie.ru/PDF/16TVN617.pdf (дата обращения: 10.12.2019).

8. Гудков П.А. Методы сравнительного анализа. Пенза, 2008. 81 с.

9. Карпушкин С.В. Теория принятия проектных решений. Тамбов: Изд-во ТГТУ, 2015. 86 с.

10. Al-Shargabi B., Sabri O., Aljawarneh Sh. An enhanced arabic information retrieval using genetic algorithms: an experimental study and results. Aust. J. Basic & Appl. Sci., 2013, vol. 7, no. 13, pp. 242-248.

Software & Systems Received 16.12.19

DOI: 10.15827/0236-235X.129.047-053 2020, vol. 33, no. 1, pp. 047-053

Determination of weight coefficients for additive fitness function of genetic algorithm

V.K. Ivanov 1, Ph.D. (Engineering), Associate Professor, Head of Information Resources and Technologies Office, mtivk@mail.ru

D.S. Dumina 1, Graduate Student, dumina97@mail.ru

N.A. Semenov 1, Dr.Sc. (Engineering), Professor, Information System Department, slt1155@mail.ru

1 Tver State Technical University, Tver, 170026, Russian Federation

Abstract. The paper presents a solution for the problem of choosing a method for analytical determining of weight factors for a genetic algorithm additive fitness function. This algorithm is the basis for an evolutionary process, which forms a stable and effective query population in a search engine to obtain highly relevant results. The paper gives a formal description of an algorithm fitness function, which is a weighted sum of three heterogeneous criteria.

The selected methods for analytical determining of weight factors are described in detail. It is noted that expert assessment methods are impossible to use. The authors present a research methodology using the experimental results from earlier in the discussed project "Data Warehouse Support on the Base Intellectual Web Crawler and Evolutionary Model for Target Information Selection". There is a description of an initial dataset with data ranges for calculating weights. The calculation order is illustrated by examples. The research results

in graphical form demonstrate the fitness function behavior during the genetic algorithm operation using various weighting options.

The analysis of the results implies that it is more preferable to calculate fitness function weight factors for this query population then using the results of all population queries. The conclusion is based on the presence of successive improvements in query populations which reflect the correct operation of genetic algorithms, as well as on the obvious detection of local and global maxima in the fitness function during experiments. When using other methods of calculating weighting factors there is no such thing.

Thus, a method for determining weight factors for an additive optimality criterion can improve genetic algorithm quality to generate effective search queries. In particular, the probability of rapid detection of fitness function local extremes is increased and this local extreme can become the optimal solution the function domain.

Keywords: genetic algorithm, additive function, weight factor, fitness function, data warehouse, search query, relevance.

Acknowledgements. The study has been financially supported by the RFBR within the framework of the scientific project no. 18-07-00358 A.

References

1. Ivanov V.K., Palyukh B.V., Sotnikov A.N. Efficiency of genetic algorithm for subject search queries. Lobachevskii J. of Mathematics. 2016, vol. 12, no. 3, pp. 244-254.

2. Ivanov V.K., Meskin P.I. Genetic algorithm implementation for effective document subject search. Software & Systems. 2014, no. 4, pp. 118-126. DOI: 10.15827/0236-235X.108.118-126 (in Russ.).

3. Salton G., Wong A., Yang C.S. A vector space model for automatic indexing. Communications of the ACM. 1975, vol. 18, pp. 613-620.

4. Podinovsky V.V., Potapov M.A. Weighted sum method in the analysis of multicriterial decisions: pro et contra. Business Informatics. 2013, no. 3, pp. 41-48 (in Russ.).

5. Podinovsky V.V. Sensitivity of multi-criterial selection to change assessment assessments of inhomo-geneous criteria. ITNOU. 2017, no. 4, pp. 23-27 (in Russ.).

6. Sorooshian S., Parsia Y. Modified weighted sum method for decisions with altered sources of information. Mathematics and Statistics. 2019, vol. 7, no. 3, pp. 57-60. Available at: http://www.hrpub.org/down-load/20190630/MS1-13412797.pdf (accessed December, 10, 2019). DOI: 10.13189/ms.2019.070301.

7. Spiridonov S.B., Bulatova I.G., Postnikov V.M. Analysis of approaches to the choice of weighting criteria method of pair comparison of criteria. Int. J. Naukovedenie. 2017, vol. 9, no. 6. Available at: https://nau-kovedenie.ru/PDF/16TVN617.pdf (accessed December, 10, 2019) (in Russ.).

8. Gudkov P.A. Benchmarking Methods. Penza, 2008, 81 p.

9. Karpushkin S.V. Decision Theory. Tambov, TSTU Publ., 2015, 86 p. (in Russ.).

10. Al-Shargabi B., Sabri O., Aljawarneh Sh. An enhanced arabic information retrieval using genetic algorithms: an experimental study and results. Aust. J. Basic & Appl. Sci. 2013, vol. 7, no. 13, pp. 242-248.

Для цитирования

Иванов В.К., Думина Д.С., Семенов Н.А. Определение весовых коэффициентов для аддитивной фитнес-функции генетического алгоритма // Программные продукты и системы. 2020. Т. 33. № 1. С. 047-053. DOI: 10.15827/0236-235X.129.047-053.

For citation

Ivanov V.K., Dumina D.S., Semenov N.A. Determination of weight coefficients for additive fitness function of genetic algorithm. Software & Systems. 2020, vol. 33, no. 1, pp. 047-053 (in Russ.). DOI: 10.15827/0236-235X.129.047-053.

i Надоели баннеры? Вы всегда можете отключить рекламу.