Если err < к, то строки S\ и S2 можно считать схожими с расстоянием err, в противном случае строки различны.
Также как и алгоритм SAWT, WSAWT имеет смысл применять при небольших значениях к.
Безусловно, данная модификация будет работать медленнее самого алгоритма SAWT за счет дополнительных вычислений (сравнений для коэффициентов), тем не менее данная модификация позволяет повысить точность поиска. Таким образом, WSAWT имеет смысл использовать, если целью работы является точность, а не скорость.
Библиографические ссылки
1. Spirina A., Zablotskiy S. G., Sidorov M. Yu. Two-steps system in searching similar words for fast and reliable automatic concatenation of Russian sub-word units // Вестник СибГАУ. 2013. Вып. 4 (50). С. 144-148.
2. Левенштейн В. И. Двоичные коды с исправлением выпадений, вставок и замещений символов // Доклады Академий наук СССР. 1966. Вып. 163 (4). С. 845-848.
3. Speech and Language Resources for LVCSR of Russian / S. Zablotskiy [et al.] // International Conference
УДК 519.87
on Language Resources and Evaluation (LREC). Istanbul, Turkey, 2012.
4. Smetanin N. (2011, March 24). Fuzzy string search. Nikita's blog. Search algorithms, software development and so on. URL: http://ntz-develop.blogspot.ru/ (дата обращения 09.09.2014 г.).
References
1. Spirina A. V., Zablotskiy S. G., Sidorov M. Yu. VestnikSibGAU. 2013, no. 4(50), p. 144-148.
2. Levenshtein V. I. 1966. Binary Codes Capable of Correcting Deletions, Insertions and Reversals. Soviet Physics Doklady, 10, February.
3. Zablotskiy S., Shvets A., Sidorov M., Semenkin E. and Minker W. Speech and Language Resources for LVCSR of Russian. International Conference on Language Resources and Evaluation (LREC), Istanbul, Turkey, 2012. May.
4. Smetanin N. (2011, March 24). Fuzzy string search. Nikita's blog. Search algorithms, software development and so on. Available at: http://ntz-develop.blogspot.ru/2011/03/fuzzy-string-search.html (accessed 09 September 2014).
© Спирина А. В., 2014
ПРИМЕНЕНИЕ САМОКОНФИГУРИРУЕМОГО ЭВОЛЮЦИОННОГО АЛГОРИТМА ПОСТРОЕНИЯ НЕЧЕТКИХ БАЗ ПРАВИЛ ДЛЯ РЕШЕНИЯ ЗАДАЧ КЛАССИФИКАЦИИ С НЕСБАЛАНСИРОВАННЫМИ ДАННЫМИ
В. В. Становов
Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660014, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
Е-таП: [email protected]
Приводится модификация функции пригодности эволюционного алгоритма, позволяющая принимать в рассмотрение соотношение числа объектов различных классов в выборке при решении задачи классификации. Рассмотренная модификация алгоритма была протестирована на ряде задач классификации. Показано, что в отличие от классической формы функции принадлежности, которая использует только общую точность по выборке, представленный подход позволяет формировать классификаторы на нечетких правилах со значительно меньшим смещением в сторону класса с большим числом объектов.
Ключевые слова: эволюционные алгоритмы, нечеткая логика, несбалансированные данные, классификация.
APPLICATION OF SELF-CONFIGURED EVOLUTIONARY ALGORITHM FOR FUZZY RULE BASES DESIGN FOR SOLVING CLASSIFICATION PROBLEMS WITH IMBALANCED DATA
V. V. Stanovov
Siberian State Aerospace University named after academician M. F. Reshetnev 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660014, Russian Federation E-mail: [email protected]
A modification of a fitness function for the evolutionary algorithm allowing taking the different classes objects amount in the sample into consideration when solving classification problems is studied. The algorithm modification is tested on a set of complex classification problems. It is shown, that unlike the classical fitness function form, which
Решетневскуе чтения. 2014
uses only overall accuracy on the sample, the presented approach allows to form classifiers on fuzzy rule bases with much smaller bias towards the class with bigger amount of objects.
Keywords: evolutionary algorithms, fuzzy logic, unbalanced data, classification.
Задачи классификации являются классическими для области анализа данных, и на настоящий момент существует множество методов и подходов, позволяющих строить относительно точные классификаторы. Однако в последние годы одним из ключевых препятствий при обучении классификаторов стала проблема несбалансированности данных [1]. Несбалансированность данных означает наличие большого числа объектов одного класса (мажоритарный класс) и малого числа объектов другого (миноритарный класс). Вследствие этого может возникнуть сдвиг в производительности классификатора в сторону мажоритарного класса [2]. Так как для большинства реальных задач миноритарный класс представляет основной интерес, то точная классификация объектов этого класса так же важна, как и верная классификация объектов мажоритарного класса.
Существует несколько подходов к решению данной проблемы, в числе которых можно выделить так называемые внешние и внутренние. Внутренние подходы, как правило, включают задание фиксированных весов для объектов каждого из классов или же улучшенные критерии обучения вместо общей точности классификации. Одним из таких критериев может выступать средняя точность по мажоритарному и миноритарному классу.
Возможные исходы при классификации с двумя классами представлены в таблице.
Обозначения результатов классификации
Предсказан первый класс Предсказан второй класс
Истинный первый класс True 1 (T1) False 2 (F2)
Истинный второй класс False 1 (F1) True 2 (T2)
Среднюю точность классификации по двум классам (Ave) и стандартную точность (Acc) можно выразить следующим образом:
1 ( T1 T 2 ^ Ave = —\-+-I,
2 ^T1 + F2 T 2 + F1)
T1 + T2 Acc =_
T1 + T2 + F1 + F2 '
В качестве алгоритма для решения задач был выбран эволюционный алгоритм для построения нечетких баз классификации, впервые предложенный в [3]. Самоконфигурируемая модификация этого алгоритма была представлена в работах [4; 5]. Стоит отметить, что аналогичным образом данный критерий может быть использован и в других подходах к классификации, например, в алгоритмах автоматического формирования нейронных сетей [6; 7] или машин опорных векторов [8], в том числе в их многокритериальных модификациях [9], а также к формированию коллективов алгоритмов [10]. Алгоритм был протестирован на трех задачах классификации из [11], для каждой задачи производилось по 2 запуска программы с раз-
личными критериями качества классификации, при каждом из которых трехкратно повторялась процедура 10-частной кроссвалидации. Решались следующие задачи:
1. German - классификация клиентов банка, 700 объектов в первом классе, 300 - во втором.
2. Pima - диагностика диабета у индейцев Пима, 500 объектов первого класса, 268 - второго.
3. Liver - диагностика заболеваний печени, 200 объектов в первом классе, 145 - во втором.
Из полученных результатов сравнения мер Acc и Ave на обучающей и тестовой выборке можно заключить, что использование видоизмененного критерия позволяет существенно улучшить сбалансированность классов как на обучающей, так и на тестовой выборке, а также в некоторых случаях улучшить точность на обучающей выборке. Среди негативных эффектов стоит отметить снижение точности на тестовой выборке.
Библиографические ссылки
1. Bhowan U., Genetic Programming for Classification with Unbalanced Data. Victoria University of Wellington. 2012.
2. Patterson G., Zhang M. Fitness functions in genetic programming for classification with unbalanced data // In Proceedings of the 20th Australasian Joint Conference on Artificial Intelligence. 2007. Vol. 4830 of LNCS. P. 769-775.
3. Ishibuchi H., Mihara S., Nojima Y. Parallel Distributed Hybrid Fuzzy GBML Models With Rule Set Migration and Training Data Rotation // IEEE Transactions on fuzzy systems. 2013. Vol. 21, № 2.
4. Stanovov V., Semenkin E. Self-adjusted evolutionary algorithms based approach for automated design of fuzzy logic systems // Вестник СибГАУ. 2013. Вып. 4. С. 148-152.
5. Semenkin E., Stanovov V., Fuzzy rule bases automated design with self-configuring evolutionary algorithm // Proceedings of the 11th Intern. Conf. on Informatics in Control, Automation and Robotics (1-3 сентября 2014, г. Vienna). 2014. Vol. 1. С. 318-323.
6. Akhmedova S. A., Semenkin E. S. Co-Operation of Biology Related Algorithms Meta-Heuristic in ANN-Based Classifiers Design // Proceedings of the World Congress on Computational Intelligence (WCCI'14). 2014.
7. Khritonenko D. I., Semenkin E. S. Distributed Self-Configuring Evolutionary Algorithms For Artificial Neural Networks Design // Вестник СибГАУ. 2013. № 4 (50). С. 112-116.
8. Akhmedova S. A., Semenkin E. S., Gasanova T., Minker W. Co-Operation of Biology Related Algorithms for Support Vector Machine Automated Design // Engineering and Applied Sciences Optimization (OPT-i'14). 2014.
9. Brester C., Semenkin E. Development of adaptive genetic algorithms for neural network models
multicriteria design // Вестник СибГАУ. 2013. № 4 (50). С. 99-103.
10. Шабалов А. А., Ефимов С. Н., Семенкин Е. С. Проектирование коллективов интеллектуальных информационных технологий методом генетического программирования // Вестник СибГАУ. 2011. № 3 (36). С. 77-81.
11. Asuncion A., Newman D. UCI machine learning repository / University of California, Irvine, School of Information and Computer Sciences. 2007.
References
1. Bhowan U., Genetic Programming for Classification with Unbalanced Data. Victoria University of Wellington. 2012.
2. Patterson G., Zhang M. Fitness functions in genetic programming for classification with unbalanced data. In Proceedings of the 20th Australasian Joint Conference on Artificial Intelligence (2007), vol. 4830 of LNCS, p. 769-775.
3. Ishibuchi H., Mihara S., Nojima Y. Parallel Distributed Hybrid Fuzzy GBML Models With Rule Set Migration and Training Data Rotation // IEEE Transactions on fuzzy systems, Vol. 21, № 2. April 2013.
4. Stanovov V., Semenkin E., Self-adjusted evolutionary algorithms based approach for automated design of fuzzy logic systems // Vestnik SibSAU. 2013. Vol. 4. p. 148-152.
5. Semenkin E., Stanovov V. Fuzzy rule bases automated design with self-configuring evolutionary
algorithm // Proceedings of the 11th International Conference on Informatics in Control, Automation and Robotics (Vienna, 1-3 September 2014 r.). Volume 1, p. 318-323.
6. Akhmedova S. A., Semenkin E. S. Co-Operation of Biology Related Algorithms Meta-Heuristic in ANN-Based Classifiers Design // Proceedings of the World Congress on Computational Intelligence (WCCI'14). 2014.
7. Khritonenko D. I., Semenkin E. S. Distributed Self-Configuring Evolutionary Algorithms For Artificial Neural Networks Design // Vestnik SibSAU. 2013. № 4 (50). pp. 112-116.
8. Akhmedova S. A., Semenkin E. S., Gasanova T., Minker. W. Co-Operation of Biology Related Algorithms for Support Vector Machine Automated Design // Engineering and Applied Sciences Optimization (OPT-i'14). 2014.
9. Brester Ch., Semenkin E. Development of adaptive genetic algorithms for neural network models multicriteria design // Vestnik SibSAU. 2013. № 4 (50). pp. 99-103.
10. Shabalov A. A., Efimov S. N., Semenkin E. S. Intelligene information technologies ensembles design with genetic programming // Vestnik SibSAU. 2011. № 3 (36). pp. 77-81.
11. Asuncion A., Newman D. UCI machine learning repository // University of California, Irvine, School of Information and Computer Sciences. 2007.
© CraHOBOB B. B., 2014
УДК 004.94
О ПРОГНОЗИРОВАНИИ ВРЕМЕННЫХ РЯДОВ С ПОМОЩЬЮ НЕЙРОСЕТЕВЫХ МОДЕЛЕЙ
Д. В. Федотов
Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660014, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
E-mail: [email protected]
Рассматриваются эволюционные алгоритмы для автоматического создания и обучения эффективных ней-росетевых моделей. Показано, что генетическое программирование и генетический алгоритм позволяют получать адекватные модели для задачи прогнозирования движения цен на рынке акций.
Ключевые слова: нейронные сети, эволюционные алгоритмы, временные ряды, фондовый рынок.
ON TIME SERIES PREDICTION USING NEURAL NETWORK MODELS
D. V. Fedotov
Siberian State Aerospace University named after academician M. F. Reshetnev 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660014, Russian Federation E-mail: [email protected]
The neural network modeling using evolutionary algorithms is focused; the genetic programming and the genetic algorithm provide appropriate models for stock market price movements.
Keywords: neural networks, evolutionary algorithms, time series, stock market.
Нейросетевое моделирование применяется для решения задач аппроксимации, прогнозирования, классификации, распознавания образов и т. д. При
построении нейросетевых моделей важно правильно выбрать архитектуру нейронной сети (расположение нейронов и межнейронные связи). Другим аспектом