multicriteria design // Вестник СибГАУ. 2013. № 4 (50). С. 99-103.
10. Шабалов А. А., Ефимов С. Н., Семенкин Е. С. Проектирование коллективов интеллектуальных информационных технологий методом генетического программирования // Вестник СибГАУ. 2011. № 3 (36). С. 77-81.
11. Asuncion A., Newman D. UCI machine learning repository / University of California, Irvine, School of Information and Computer Sciences. 2007.
References
1. Bhowan U., Genetic Programming for Classification with Unbalanced Data. Victoria University of Wellington. 2012.
2. Patterson G., Zhang M. Fitness functions in genetic programming for classification with unbalanced data. In Proceedings of the 20th Australasian Joint Conference on Artificial Intelligence (2007), vol. 4830 of LNCS, p. 769-775.
3. Ishibuchi H., Mihara S., Nojima Y. Parallel Distributed Hybrid Fuzzy GBML Models With Rule Set Migration and Training Data Rotation // IEEE Transactions on fuzzy systems, Vol. 21, № 2. April 2013.
4. Stanovov V., Semenkin E., Self-adjusted evolutionary algorithms based approach for automated design of fuzzy logic systems // Vestnik SibSAU. 2013. Vol. 4. p. 148-152.
5. Semenkin E., Stanovov V. Fuzzy rule bases automated design with self-configuring evolutionary
algorithm // Proceedings of the 11th International Conference on Informatics in Control, Automation and Robotics (Vienna, 1-3 September 2014 r.). Volume 1, p. 318-323.
6. Akhmedova S. A., Semenkin E. S. Co-Operation of Biology Related Algorithms Meta-Heuristic in ANN-Based Classifiers Design // Proceedings of the World Congress on Computational Intelligence (WCCI'14). 2014.
7. Khritonenko D. I., Semenkin E. S. Distributed Self-Configuring Evolutionary Algorithms For Artificial Neural Networks Design // Vestnik SibSAU. 2013. № 4 (50). pp. 112-116.
8. Akhmedova S. A., Semenkin E. S., Gasanova T., Minker. W. Co-Operation of Biology Related Algorithms for Support Vector Machine Automated Design // Engineering and Applied Sciences Optimization (OPT-i'14). 2014.
9. Brester Ch., Semenkin E. Development of adaptive genetic algorithms for neural network models multicriteria design // Vestnik SibSAU. 2013. № 4 (50). pp. 99-103.
10. Shabalov A. A., Efimov S. N., Semenkin E. S. Intelligene information technologies ensembles design with genetic programming // Vestnik SibSAU. 2011. № 3 (36). pp. 77-81.
11. Asuncion A., Newman D. UCI machine learning repository // University of California, Irvine, School of Information and Computer Sciences. 2007.
© CraHOBOB B. B., 2014
УДК 004.94
О ПРОГНОЗИРОВАНИИ ВРЕМЕННЫХ РЯДОВ С ПОМОЩЬЮ НЕЙРОСЕТЕВЫХ МОДЕЛЕЙ
Д. В. Федотов
Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660014, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
E-mail: [email protected]
Рассматриваются эволюционные алгоритмы для автоматического создания и обучения эффективных ней-росетевых моделей. Показано, что генетическое программирование и генетический алгоритм позволяют получать адекватные модели для задачи прогнозирования движения цен на рынке акций.
Ключевые слова: нейронные сети, эволюционные алгоритмы, временные ряды, фондовый рынок.
ON TIME SERIES PREDICTION USING NEURAL NETWORK MODELS
D. V. Fedotov
Siberian State Aerospace University named after academician M. F. Reshetnev 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660014, Russian Federation E-mail: [email protected]
The neural network modeling using evolutionary algorithms is focused; the genetic programming and the genetic algorithm provide appropriate models for stock market price movements.
Keywords: neural networks, evolutionary algorithms, time series, stock market.
Нейросетевое моделирование применяется для решения задач аппроксимации, прогнозирования, классификации, распознавания образов и т. д. При
построении нейросетевых моделей важно правильно выбрать архитектуру нейронной сети (расположение нейронов и межнейронные связи). Другим аспектом
Решетневскуе чтения. 2014
нейросетевой модели является ее обучение. Стандартные методы обучения могут не подходить для определенной архитектуры нейронной сети. В данной работе для решения этих проблем используются эволюционные алгоритмы, такие как генетическое программирование (ГП) и генетический алгоритм (ГА) [1].
Для автоматического формирования нейронной сети с помощью алгоритма генетического программирования необходимо решить такие задачи, как кодирование нейронной сети в виде дерева и выбор функции пригодности для оценки решения. Для обучения полученной нейронной сети может использоваться генетический алгоритм, однако качество решения, полученного при помощи стандартного генетического алгоритма, значительно зависит от выбранных параметров. Даже используя лишь стандартные типы селекции, скрещивания и мутации, можно получить 120 их различных комбинаций, т. е. различных алгоритмов решения задач. При этом ответственность за выбранные параметры, а значит и за качество решения задачи, берет на себя пользователь программной системы. Оптимальные значения параметров изначально не известны, поэтому ставится задача автоматического отыскания набора таких параметров с целью увеличить производительность программной системы.
Для решения такой задачи был разработан подход, названный самоконфигурированием и реализованный как для алгоритма генетического программирования (БеНСОР [2]), так и для оптимизационного генетического алгоритма (БеНСОЛ [3]), в котором применение комбинаций генетических операторов осуществляется исходя из успешности этих операторов на последнем поколении. Вероятности применения операторов не являются объектом эволюции. Вычислительные ресурсы, требуемые для выполнения операторов, не увеличиваются с ростом числа поколений.
Ниже представлена общая схема программной системы, разработанной и использованной в данной работе (см. рисунок).
по май 2014 г. Данные предоставлены Yahoo Finance. Информация представлена в виде 16 переменных (цен и значений индикаторов) с временным промежутком в один торговый день (рабочие дни; время записи информации 00:00 EDT). Для повышения эффективности алгоритма над переменными была произведена нормировка. Из данной выборки было выделено 3 периода, длиной в 7 месяцев каждый (5 - для обучающей и 2 - для тестовой выборки). Первый период характеризуется возрастающим движением цен на обучающей и тестовой выборках. Второй период характеризуется наличием возрастающего и убывающего движения цен на обеих выборках. Третий период характеризуется несовпадением трендов на обучающей и тестовой выборках.
Следует подчеркнуть сложность задачи прогнозирования финансовых рядов. Данные исследования основываются на техническом анализе ценовых движений акций, который подразумевает зависимость будущих изменений цен от прошлых. Однако существует гипотеза «случайных блужданий», предполагающая, что цены на рынке ценных бумаг меняются случайным образом и не могут быть предсказаны [4].
На данных выборках были произведены независимые запуски программной системы, описанной выше. Система реализована в программе MATLAB 2013b. Для оценки полученных результатов данная задача была решена также другими методами, такими как многослойный персептрон (полносвязная, однонаправленная нейронная сеть, алгоритм обучения - обратное распространение ошибки), радиально-базисная нейронная сеть и метод опорных векторов, который демонстрирует неплохие результаты в задачах прогнозирования финансовых рядов [5]. Для получения результатов работы данных методов была использована система RapidMiner 5.3. Реализация метода опорных векторов представлена в расширении Weka (RapidMiner Weka Extension). В таблице приведены усредненные результаты тестирования.
Сравнение результатов
Генетическое программирование
N
к фарммровянмоНС л N-V
Нейронные сети
Генетический алгоритм (SelfCGA)
Настройка весовых н о эффи цис н I о в
Метод Точность прогнозирования, % Верно предсказанные направления Неверно предсказанные направления
MLP 58,33 77 55
SVMreg 62,87 83 49
RBFN 59,85 79 53
GP + NN + SelfCGA 65,15 86 46
Схема программной системы
Данная программная система была применена для автоматического формирования нейросетевых предикторов. Под предиктором в данном случае понимается прогнозирующее устройство. В данной работе была выбрана задача прогнозирования временных рядов.
Дана информация о движении цен на акции транснациональной компании IBM за период с января 2003 г.
Разработанная программная система показала свою эффективность на задаче прогнозирования финансовых рядов. При сравнении с другими алгоритмами система занимает лидирующие позиции, однако стоит отметить параметр, не фигурирующий в таблицах - время работы. Для формирования нейросетевых предикторов с помощью алгоритма ГП и их обучения с помощью ГА требуется большее количество времени по сравнению с методами, описанными выше. Однако в масштабах одного торгового дня (период дискретизации) данное различие не так существенно.
Библиографические ссылки
1. Гуменникова А. В., Емельянова М. Н., Семен-кин Е. С., Сопов Е. А. Об эволюционных алгоритмах решения сложных задач оптимизации // Вестник Сиб-ГАУ. 2003. № 4. С. 14.
2. Semenkin E., Semenkina M. Self-configuring genetic programming algorithm with modified uniform crossover // IEEE Congress on Evolutionary Computation, CEC 2012. 2012. С. 62-65.
3. Semenkin E., Semenkina M. Self-configuring genetic algorithm with modified uniform crossover operator Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 7331 LNCS (2012). PART 1. P. 414-421.
4. Cootner Paul H. The random character of stock market prices. MIT Press. 1964.
5. Zhang Y. Prediction of Financial Time Series with Hidden Markov Models. Simon Fraser University, 2004.
References
1. Gumennikova A. V., Emelyanova M. N., Semenkin E. S., Sopov E. A. About evolutionary algorithms for solving complex optimization problems. Vestnik SibGAU. 2003, № 4, pр. 14.
2. Semenkin E., Semenkina M. Self-configuring genetic programming algorithm with modified uniform crossover // 2012 IEEE Congress on Evolutionary Computation, CEC 2012 2012. С. 62-65.
3. Semenkin, E., Semenkina, M. Self-configuring genetic algorithm with modified uniform crossover operator (2012) Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 7331 LNCS (PART 1), p. 414-421.
4. Cootner, Paul H. The random character of stock market prices. MIT Press. 1964.
5. Zhang Y., Prediction of Financial Time Series with Hidden Markov Models, Simon Fraser University, 2004.
© Федотов Д. В., 2014
УДК 519.688
К РЕШЕНИЮ ЗАДАЧИ КАТЕГОРИЗАЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ С ПОМОЩЬЮ НЕЧЁТКОЙ КЛАССИФИКАЦИИ
И. А. Хаустов, И. А. Панфилов
Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660014, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31 Е-mail: [email protected], [email protected]
Решается задача выбора алгоритма классификации для задачи категоризации текстовых документов. Существуют выборки, характеризующие каждый текстовый документ с позиции сумм весов термов, содержащихся в нём, посчитанных различными метриками: бинарной, CW, C-Values, TF-IDF в различных вариациях. Таким образом, для каждого документа имеется p • m атрибутов, где p - число категорий, m - число метрик. Для каждой категории термов в документе подсчитаны суммарные значения метрик, по которым нужно сделать вывод о принадлежности документа к тому или иному классу. Эту задачу можно рассматривать как задачу обучения с учителем, поскольку предоставлена обучающая выборка. Предложен подход по её решению, включающий в себя этапы фаззификации атрибутов, построения базы нечётких правил, дефаззификации полученных правил в численные соотношения, позволяющие сделать однозначный вывод о принадлежности документа к классу. На этапе формирования базы нечётких правил ставится задача условной оптимизации, которая может быть решена генетическим алгоритмом условной оптимизации.
Ключевые слова: категоризация, нечёткий классификатор, условная оптимизация, генетический алгоритм.
CATEGORIZATION OF TEXT DOCUMENTS USING FUZZY CLASSIFICATION METHODS
I. A. Khaustov, I. A. Panfilov
Siberian State Aerospace University named after academician M. F. Reshetnev 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660014, Russian Federation E-mail: [email protected], [email protected]
Task given is to choose classification algorithm in order to solve the problem of categorisation of text documents. Sample data characterizes each text document basing on sums of terms weights, assigned to different categories. The weights are received from applying different metrics such as binary, C-Values, TF-IDF in variations. Therefore, for every document p • m attributes are found in sample data, where p - stands for number of categories, m - for number of metrics. For every category of terms in a document sums of terms' metrics are calculated, which should be used as attributes in the classification task. This classification task can be treated as a supervised learning task due to existing