ская модель и программная система для решения задачи размещения логистических объектов // Управление большими системами. 2013. № 41. С. 270-284.
11. Smith S., Lassila O., Becker M. Configurable, mixed-initiative systems for planning and scheduling // Advanced planning technology: technological achievements of the ARPA. MIT/AAAI Press. 1996. P. 235-241.
12. Becker M., Smith S.F. An ontology for multi-modal transportation planning and scheduling Pittsburgh: The Robotics institute Carnegie Mellon University, 1997. 85 p.
13. SUMO: simulation of urban mobility [Электронный ресурс]. URL: http://sumo-sim.org.
14. Protégé is a free, open source ontology editor and knowledge-base framework [Электронный ресурс]. URL: http://protege.stanford.edu.
15. CLIPS: a tool for building expert systems [Электронный ресурс]. URL: http://clipsrules.sourceforge.net.
16. Павлов А.И., Столбов А.Б. Программный комплекс для поддержки моделирования медико-эколого-экономических систем // Программные продукты и системы. 2011. № 1. С. 137-140.
17. Бухаров Д.С., Казаков Д.С. Программная система «ВИ-ГОЛТ» для решения задач оптимизации, возникающих в транспортной логистике // Вычислительные методы и программирование. 2012. Т. 13 [Электронный ресурс]. URL: http://num-meth.srcc.msu.ru/zhurnal/tom_201 2^^13г209^Г
18. Фу Ф.Г., Казаков А.Л. Имитационное моделирование работы грузовых транспортных терминалов // Вестник Иркутского государственного технического университета. 2013. № 9 (80). С. 37-43.
19. Моделирование социо-эколого-экономической системы региона / под ред. В.И. Гурмана, В.Е. Рюминой. М.: Наука, 2001. 175 с.
УДК 004.896
ПРИМЕНЕНИЕ МЕТОДА ПОСЛЕДОВАТЕЛЬНОГО ОЦЕНИВАНИЯ ДЛЯ СРАВНЕНИЯ ЭФФЕКТИВНОСТИ РАЗЛИЧНЫХ ВАРИАНТОВ ГЕНЕТИЧЕСКОГО АЛГОРИТМА © Н.Д. Лукьянов1
Иркутский государственный технический университет,
664074, Россия, г. Иркутск, ул. Лермонтова, 83.
Рассмотрены восемь основных вариантов генетического алгоритма для решения задачи параметрической оптимизации. Представлена методика последовательного оценивания Стейна применительно к задаче оценивания генетического алгоритма с точки зрения быстроты сходимости и точности найденного решения. Данный подход дает возможность ранжировать исследуемые варианты генетического алгоритма по степени эффективности для той или иной задачи. Все вышеизложенное продемонстрировано на примере тестовых функций Растригина и Розенброка.
Табл. 2. Библиогр. 8 назв.
Ключевые слова: генетические алгоритмы; последовательное оценивание; эффективность алгоритмов.
SEQUENTIAL ESTIMATION APPLICATION TO COMPARE EFFICIENCY OF DIFFERENT VARIANTS OF GENETIC
ALGORITHM
N.D. Lukyanov
Irkutsk State Technical University,
83 Lermontov St., Irkutsk, 664074, Russia.
The article examines eight basic variants of the genetic algorithm to solve the problem of parametric optimization. It treats Stein's sequential estimation technique as applied to the problem of genetic algorithm estimation in terms of speed of convergence and accuracy of found solution. Application of the proposed approach enables ranging the variants of the genetic algorithm under investigation by the efficiency degree for a given problem. All of the above has been demonstrated on the example of Rastrigin and Rosenbrock's test functions.
2 tables. 8 sources.
Key words: genetic algorithms; sequential evaluation; algorithm efficiency.
Ввиду большого разнообразия вариантов генетического алгоритма [1-3] возникла необходимость рассмотреть наиболее распространенные из них и сравнить их эффективность относительно решения задачи параметрической оптимизации. Так, основными отличиями между реализациями генетического алгоритма являются различные способы реализации методов отбора и способы перехода в следующее поколение. Поэтому при применении генетического алгоритма к решению задачи параметрической оптимизации в первую очередь предлагается исследовать восемь вариантов алгоритма, составленных из возможных
комбинаций следующих вариантов отбора родителей [3]:
• рулеточный отбор;
• турнирный отбор;
• линейный ранговый отбор;
• экспоненциальный ранговый отбор;
и способов перехода в следующее поколение:
• элитарный способ перехода
• отбор усечением (truncation selection).
Для оценки эффективности традиционно [4] используется процент удачных запусков по отношению к
1Лукьянов Никита Дмитриевич, аспирант, тел.: 89501461922, e-mail: [email protected] Lukyanov Nikita, Postgraduate, tel.: 89501461922, e-mail: [email protected]
общему их числу, а также количество поколений, необходимых для достижения экстремума целевого функционала. Общая схема такого исследования для систем различного типа выглядит следующим образом: проведение определенного числа запусков каждого варианта алгоритма с одним и тем же набором параметров генетического алгоритма (размер популяции, вероятность скрещивания и т.д.).
Методика исследования. Покажем еще один путь оценки эффективности алгоритма, основанный на последовательном оценивании доверительных интервалов для каждого из настраиваемых параметров по Стейну [5]. Общая идея состоит в следующем. Так как генетический алгоритм в качестве начального приближения использует N случайно созданных решений поставленной задачи, а применение генетических операторов в процессе работы алгоритма также носит вероятностный характер, то полученный ответ может считаться случайной величиной. Ввиду того, что результаты запусков не зависят друг то друга, при большом числе испытаний в силу центральной предельной теоремы можно предположить, что полученное распределение результатов работы алгоритма
будет подчиняться нормальному закону N(^,02). Таким образом, испытания проводятся до тех пор, пока длина доверительного интервала для математического ожидания не станет меньше £, у = 1(1)т , где т - число настраиваемых параметров, а £. - точность для каждого из настраиваемых параметров.
Рассмотрим более подробно схему последовательного оценивания по Стейну [6]:
1. Провести N испытаний и рассчитать выборочную дисперсию £2, у = 1(1)т для каждого из
настраиваемых параметров.
2. Рассчитать к. =
2s t
2sj4-1,7
j = 1(1)m, где
[•]
понимается целая часть
t
N-1,7
- верхняя
1
1001 1 — — 7 I -процентная
точка распределения
Стьюдента с N0 -1 степенями свободы.
3. Далее провести еще
М0 = max j к - N }> 0 , j = 1(1)m наблюдений,
после чего рассчитать выборочное среднее ^ , j = 1(1)m для каждого из параметров на основании N + M наблюдений.
4. В результате для каждого из параметров q
— 1
определяется доверительный интервал qj -~^sj с
коэффициентом доверия не меньше у.
Таким образом, для оценки эффективности разработанных вариантов генетического алгоритма возможно использование такого показателя как число наблюдений, необходимых для построения доверительного интервала длиной £, у = 1(1)т для каждого из параметров. Причем в случае тестовых задач появляется возможность сравнить полученные средние значения параметров с известными оптимальными. В случае же задач параметрической оптимизации автоматических систем, когда оптимальные значения настраиваемых параметров неизвестны, возможно произвести расчет составляющих градиента целевой функции в точке, соответствующей полученным средним значениям Ч] .
Тестовый пример. Исследуем теперь работоспособность сформированных вариантов алгоритма. При изучении генетических алгоритмов распространены два основных подхода [7]:
• доказательство теоремы сходимости для разработанного алгоритма;
• испытание алгоритма с помощью различных тестовых функций.
Первый подход достаточно сложен, а также применим только в случае достаточно простых генетических операторов, поэтому не рассматривается в данной работе. В нашем же случае рассматривается восемь различных вариантов генетического алгоритма, охватывающих наиболее распространенные операторы отбора родителей и перехода в следующее поколение. Поэтому воспользуемся вторым подходом, то есть протестируем каждый из вариантов алгоритма с помощью двух наиболее распространенных тестовых функций с известным расположением глобального экстремума - функций Растригина и Розенброка.
Функция Растригина представлена в следующем виде:
т
р (ч -Чт)=10п+Е( ч) —10 со8(2^,));
у=1
-5,12 < ч < 5,12;
минимум данной функции равен 0 при нулевых значениях всех ее аргументов. Приведенная выше функция имеет довольно сложный рельеф и, помимо глобального, еще 10т —1 локальных экстремумов. Тестируя разработанный алгоритм с помощью функции Растригина, мы проверяем его способность выходить из локальных экстремумов и создавать новые решения.
Функция Розенброка записывается с помощью следующей формулы:
т—1 2 2
р(Ч1-Чт) = Е100(Чу+1— ч2) -(1—Чу);
У=1
—2,048 < ч < 2,048.
Глобальный минимум равен 0 при равенстве всех переменных 1. Рельеф такой функции представляет собой овраг с очень малым уклоном, локальных экс-
тремумов нет, однако функция принадлежит к классу невыпуклых, что затрудняет поиск глобального оптимума. С помощью такой функции оценивается быстрота схождения алгоритма.
Общая схема и особенности описания хромосом особей приведены в работе Н.Н. Куцего и Н.Д. Лукьянова [8]. Так как для каждой переменной используется своя хромосома, каждую из переменных можно считать независимой, что дает основания предполагать нормальное распределение. Размер первоначальной выборки для каждого из вариантов алгоритма N =10. После проведения первого этапа выборки
рассчитывалось значение выборочной дисперсии и на основании ее значения вычислялось количество дополнительных наблюдений М0. Длина доверительного интервала для каждого из настраиваемых параметров £ = 0,1, у = 1(1)6.
Для сравнения разработанных вариантов алгоритма необходимо определить для каждого из них значение М0 равное величине дополнительной выборки, которое будет показывать, насколько быстро алгоритм сходится к одному решению, а также среднее значение тестовой функции р , полученное после М0 + М, запусков. Ввиду того, что для тестовых
функций известно значение переменных в точке глобального экстремума, появляется возможность оценить, насколько полученные средние значения настраиваемых параметров близки к оптимальным. Для этого введем характеристику 0.(чх), смысл
которой заключается в оценке суммарного отклонения полученных средних значений переменных от оптимума. Расчет характеристики 0(Д\ ...цт) предлагается производить по следующей формуле:
— «\2
Эдд...'Чш) = ^1 Ч, -Ч,) ,
і=і
где Ч - полученное среднее значение для і -ой
*
переменной; Ч - известное оптимальное значение.
Все полученные результаты тестирования приведены в табл. 1.
Из табл. 1 видно, что наименьшее отклонение от оптимальных параметров для функции Растригина показал вариант алгоритма с турнирным методом отбора и элитарным методом перехода в следующее поколение. Наилучшее же решение для функции Ро-зенброка получено в результате применения комбинации экспоненциального и элитарного методов.
Таблица 1
Результаты тестирования генетического алгоритма для функций Растригина и Розенброка
Вариант алгоритма Тестовая функция М0 0(Чі...Ч 5)
Рулеточный + усечение Растригина 1 6,31 0,07
Розенброка 7 14,02 1,75
Турнирный + усечение (г = 22) Растригина 6 4,56 0,03
Розенброка 0 10,64 2,73
Линейный ранговый + усечение {Г1~ = 0,01) Растригина 5 4,34 0,04
Розенброка 14 19,3 2,12
Экспоненциальный ранговый + усечение (с = 0,05) Растригина 0 7,65 0,03
Розенброка 3 13,3 2,13
Рулеточный + элитарный Растригина 1 0,9 0,04
Розенброка 5 10,4 2,34
Турнирный + элитарный (г = 22) Растригина 0 1,25 0,0006
Розенброка 0 7,7 2,26
Линейный ранговый + элитарный (^~ = 0,001) Растригина 0 2,42 0,02
Розенброка 7 7,84 2,08
Экспоненциальный ранговый + элитарный (с = 0,05) Растригина 0 9,71 0,009
Розенброка 4 10,08 1,72
Таблица 2
Результаты тестирования генетического алгоритма для функции Розенброка __________________________с измененными параметрами_______________________________________
Вариант алгоритма Тестовая функция M 0 F Q( x ...x5 )
Рулеточный + элитарный Розенброка ( m = 5 ) 0 1,15 1,82
Турнирный + элитарный (г = 10) 10 2,88 0,44
Линейный ранговый + элитарный (Л~= 0,5) 0 2,01 1,86
Экспоненциальный ранговый + элитарный (с = 0,2) 0 1,97 1,35
При составлении табл. 1 параметры генетического алгоритма для всех вариантов имели следующие значения:
• количество особей в поколении N = 50 ;
• вероятность скрещивания рс = 0,65 ;
• вероятность мутации рт = 0,25 .
Следует также отметить, что все варианты алгоритма неплохо справились с оптимизацией функции Растригина: из 10 начальных запусков в 50-70% для всех вариантов было получено правильное решение (все переменные равны 0). Относительно большое отклонение для функции Розенброка можно объяснить более сложным характером функции и, как следствие, - необходимостью более точной настройки параметров генетического алгоритма (вероятность скрещивания, мутации и т.п.).
В случае использования в качестве теста функции Розенброка классический генетический алгоритм испытывает сложность с поиском экстремума при числе переменных m > 4. Это связано с тем, что экстремум данной функции находится в протяженном и узком плато с малым уклоном, а также переменные взаимозависимы. И если нахождение оврага является довольно простой задачей, то для движения уже внутри оврага от алгоритма требуется повышенная способность создавать новые решения. Такой стратегии будет способствовать увеличение вероятности мутации, снижение вероятности скрещивания, а также увеличение размера промежуточной популяции до 10N. В качестве иллюстрации вышеизложенного представим в табл. 2 результат работы вариантов алгоритма, составленных из различных способов отбора в комбина-
Библиограф
1. Генетические алгоритмы, искусственные нейронные сети и проблемы виртуальной реальности / Г.К. Вороновский [и др.]. Харьков: Основа, 1997. 112 с.
2. Blickle T., Thiele L. A comparison of selection schemes used in genetic algorithms. Zurich. TIK Report, 1995. 65 p.
3. Hancock Peter J.B. An empirical comparison of selection methods in evolutionary algorithms. Lecture notes in computer science. Vol. 865: Selected papers from AISB workshop on evo-
ции с элитарным способом перехода в следующее поколение. Причем параметры генетического алгоритма приняли следующие значения:
• количество особей в поколении N = 50;
• вероятность скрещивания рс = 0,40;
• вероятность мутации рт = 0,95.
Из приведенных таблиц видно, что представленные варианты алгоритма работают корректно, это наглядно показывают приведенные результаты. По итогам всех проведенных тестов следует, что лучшие результаты с точки зрения быстроты сходимости в комплексе со средним значением целевой функции обеспечивает комбинация рулеточного метода отбора родителей и элитарного способа перехода в следующее поколение. По близости полученных средних значений настраиваемых параметров к известным оптимальным лучшие результаты показал турнирный метод отбора в комбинации с элитарным способом перехода.
По итогам тестирования алгоритма можно сделать следующий общий вывод: настройки требуют не только базовые параметры генетического алгоритма (размер популяции, вероятность мутации и вероятность скрещивания), но и размер промежуточной популяции, процент элитных особей и т.п. Также необходима настройка вышеуказанных параметров в зависимости от характера целевой функции.
Таким образом, используя метод последовательного оценивания Стейна, автором проведено ранжирование различных вариантов генетического алгоритма в зависимости от показанной эффективности на двух тестовых задачах.
ский список
lutionary computing, 1994. P. 80-94.
4. Рутковская Д., Пилиньский М., Рутковский Л. Нейронные сети, генетические алгоритмы и нечеткие системы / пер. с польск. И.Д. Рудинского. М.: Горячая линия - Телеком, 2006. 452 с.
5. Уилкс С. Математическая статистика / пер. с англ. А.М. Кагана, Л.А Халфина, О.В. Шалаевского. М.: Наука, 1967. 632 с.
6. Stein C.A. A two-sample test for a linear hypothesis whose power is independent of the variance // The annals of mathematical statistics. 1945. Vol. 16. №. 3. P. 243-258.
7. De Jong K.A. Evolutionary computation a unified approach // A Bradford book. Cambridge: MA, USA. 256 p.
8. Куцый Н.Н., Лукьянов Н.Д. Применение генетического алгоритма для оптимизации автоматических систем с ПИД-регулятором // Вестник Иркутского государственного технического университета. 2012. № 6. С. 6-11.
УДК 004.89
ПОДХОД К ПОВЫШЕНИЮ УРОВНЯ ДОВЕРИЯ К ИНФОРМАЦИИ НА ОСНОВЕ ИНТЕГРАЦИИ ТЕКСТОВЫХ И СЕМАНТИЧЕСКИХ МОДЕЛЕЙ ДАННЫХ
© Л.В. Массель1, А.С. Серый2, Е.А. Сидорова3
1Иркутский государственный технический университет,
664074, Россия, г. Иркутск, ул. Лермонтова, 83.
Институт систем энергетики им. Л.А. Мелентьева СО РАН,
664033, Россия, г. Иркутск, ул. Лермонтова, 130.
23Институт систем информатики им. А.П. Ершова СО РАН,
630090, Россия, г. Новосибирск, пр. Лаврентьева, 6.
Рассматривается задача повышения доверия к информации пользователей информационных систем. Предложена модель знаний, объединяющая текстовое и семантическое представление данных и обеспечивающая связь информации с её источником - документом, из которого она была извлечена. Разработана математическая модель оценки надежности информации по её временным и частотным характеристикам.
Библиогр. 21 назв.
Ключевые слова: трастовая метрика; доверие к информации; корпус текстов; онтология; аннотирование; информационная система.
ENHANCING INFORMATION TRUSTWORTHINESS THROUGH INTEGRATION OF TEXTUAL AND SEMANTIC DATA MODELS
L.V. Massel, A.S. Seryi, E.A. Sidorova
Irkutsk State Technical University,
83 Lermontov St., Irkutsk, 664074, Russia.
L.A. Melentiev Energy Systems Institute SB RAS,
130 Lermontov St., Irkutsk, Russia, 664033.
A.P. Ershov Institute of Informatics Systems,
6 Lavrentiev pr., Novosibirsk, 630090, Russia.
The paper covers some methods of enhancing users' trust in the information provided by information systems. A model of knowledge that combines textual and semantic data representation is proposed. The model allows to associate the information with its source, which is a text document. A mathematical model estimating information reliability by its time and frequency characteristics has been developed.
21 sources.
Key words: trust metrics; trust in information; text corpus; ontology; annotation; information system.
Активная разработка интеллектуальных информационных систем (ИИС) связана с появлением огромного числа доступных веб-сервисов. В последнее время акцент разработки таких систем сместился в сторону структуризации знаний, объединения разнородной информации из разных источников, что это в свою очередь повлекло развитие моделей представления знаний [1-3], разработку новых стандартов и методов управления контентом систем.
Можно выделить два основных типа контента
ИИС. Первый тип представлен массивом неструктурированных текстов. Результатом поискового запроса к такому контенту будет упорядоченный набор текстов, а непосредственно нужную информацию пользователю придется извлекать при прочтении текста самостоятельно. Кроме того, информация, фигурирующая в разных текстах, никак не связана, даже если имеет одинаковые признаки и может быть отождествлена. Второй тип контента - хорошо структурированные на основе какой-либо формальной модели данные. Такая
1Массель Людмила Васильевна, доктор технических наук, профессор кафедры автоматизированных систем ИрГТУ, главный научный сотрудник ИСЭМ СО РАН, тел.: (3952) 500646*405, e-mail: [email protected]
Massel Lyudmila, Doctor of technical sciences, Professor of the Department of Automated Systems of ISTU, Chief Researcher of ESI SB RAS, tel.: (3952) 500646*405, e-mail: [email protected]
2Серый Алексей Сергеевич, младший научный сотрудник, e-mail: [email protected] Seryi Aleksei, Junior Researcher, e-mail: [email protected]
3Сидорова Елена Анатольевна, кандидат физико-математических наук, e-mail: [email protected] Sidorova Elena, Candidate of Physical and Mathematical sciences, e-mail: [email protected]