Библиографические ссылки
1. Гуменникова А. В., Емельянова М. Н., Семен-кин Е. С., Сопов Е. А. Об эволюционных алгоритмах решения сложных задач оптимизации // Вестник Сиб-ГАУ. 2003. № 4. С. 14.
2. Semenkin E., Semenkina M. Self-configuring genetic programming algorithm with modified uniform crossover // IEEE Congress on Evolutionary Computation, CEC 2012. 2012. С. 62-65.
3. Semenkin E., Semenkina M. Self-configuring genetic algorithm with modified uniform crossover operator Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 7331 LNCS (2012). PART 1. P. 414-421.
4. Cootner Paul H. The random character of stock market prices. MIT Press. 1964.
5. Zhang Y. Prediction of Financial Time Series with Hidden Markov Models. Simon Fraser University, 2004.
References
1. Gumennikova A. V., Emelyanova M. N., Semenkin E. S., Sopov E. A. About evolutionary algorithms for solving complex optimization problems. Vestnik SibGAU. 2003, № 4, pр. 14.
2. Semenkin E., Semenkina M. Self-configuring genetic programming algorithm with modified uniform crossover // 2012 IEEE Congress on Evolutionary Computation, CEC 2012 2012. С. 62-65.
3. Semenkin, E., Semenkina, M. Self-configuring genetic algorithm with modified uniform crossover operator (2012) Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 7331 LNCS (PART 1), p. 414-421.
4. Cootner, Paul H. The random character of stock market prices. MIT Press. 1964.
5. Zhang Y., Prediction of Financial Time Series with Hidden Markov Models, Simon Fraser University, 2004.
© Федотов Д. В., 2014
УДК 519.688
К РЕШЕНИЮ ЗАДАЧИ КАТЕГОРИЗАЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ С ПОМОЩЬЮ НЕЧЁТКОЙ КЛАССИФИКАЦИИ
И. А. Хаустов, И. А. Панфилов
Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660014, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31 Е-mail: [email protected], [email protected]
Решается задача выбора алгоритма классификации для задачи категоризации текстовых документов. Существуют выборки, характеризующие каждый текстовый документ с позиции сумм весов термов, содержащихся в нём, посчитанных различными метриками: бинарной, CW, C-Values, TF-IDF в различных вариациях. Таким образом, для каждого документа имеется p • m атрибутов, где p - число категорий, m - число метрик. Для каждой категории термов в документе подсчитаны суммарные значения метрик, по которым нужно сделать вывод о принадлежности документа к тому или иному классу. Эту задачу можно рассматривать как задачу обучения с учителем, поскольку предоставлена обучающая выборка. Предложен подход по её решению, включающий в себя этапы фаззификации атрибутов, построения базы нечётких правил, дефаззификации полученных правил в численные соотношения, позволяющие сделать однозначный вывод о принадлежности документа к классу. На этапе формирования базы нечётких правил ставится задача условной оптимизации, которая может быть решена генетическим алгоритмом условной оптимизации.
Ключевые слова: категоризация, нечёткий классификатор, условная оптимизация, генетический алгоритм.
CATEGORIZATION OF TEXT DOCUMENTS USING FUZZY CLASSIFICATION METHODS
I. A. Khaustov, I. A. Panfilov
Siberian State Aerospace University named after academician M. F. Reshetnev 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660014, Russian Federation E-mail: [email protected], [email protected]
Task given is to choose classification algorithm in order to solve the problem of categorisation of text documents. Sample data characterizes each text document basing on sums of terms weights, assigned to different categories. The weights are received from applying different metrics such as binary, C-Values, TF-IDF in variations. Therefore, for every document p • m attributes are found in sample data, where p - stands for number of categories, m - for number of metrics. For every category of terms in a document sums of terms' metrics are calculated, which should be used as attributes in the classification task. This classification task can be treated as a supervised learning task due to existing
Решетневскуе чтения. 2014
training set. Approach is proposed to use three stages such as fuzzification of attributes, finding fuzzy rules set, defuzzification of rules found in order to achieve numerical procedures that allow to uniquely assign each document to one of given categories. Second stage can be treated as a constrained optimization problem which can be solved using genetic algorithm for constrained optimization.
Keywords: categorization, fuzzy classification, constrained optimization, genetic algorithm, data mining.
Задача категоризации текстовой информации является на сегодняшний день одной из актуальных задач сферы data mining. Методы оценки и отнесения текстовых документов к различным категориям активно разрабатываются и применяются во многих проектах, связанных с обработкой больших объёмов данных, автоматизируя процессы анализа текстовых документов, которые раньше выполняли дорогостоящие специалисты, или упрощая работу этих специалистов в особо сложных случаях.
Преимуществами подходов к анализу данных с использованием нечёткой логики является наглядность и человекочитаемость получаемых решений, возможность работать в различных шкалах и с различными типами переменных: вещественными, номинальными, ранговыми. Также получаемое решение в результате работы программной системы легко транслируется, при необходимости, в любые форматы и имеет ценность само по себе, так как позволяет получать новые знания об исследуемой системе.
В данной работе рассматривается задача категоризации текстовых документов на основе имеющейся выборки, содержащей в себе суммы весов термов в каждом документе, отнесенных к различным категориям. Задача состоит в том, чтобы построить классификатор, который бы на основе этой информации определял категорию документа. Таким образом, для каждого документа можно определить p • m атрибутов, где p - число категорий термов, m - число различных метрик, использованных для подсчёта сумм по этим категориям.
ПустьD = { D2 ...,Dn} - множество документов,
подлежащих классификации, Si= {s(1),s(2),...,s(pm)},
i = 1,n- множество атрибутов, описывающих документ Di . Каждый атрибут s(3) можно описать нечёткими числами (лингвистическими переменными), которые строятся путём определения интервала варьирования атрибута d(3) = smjaX - si3 (обычно берётся разница между максимальным и минимальным значениями s^aX и slnm соответственно) и вычислением параметров следующим образом (для триангулярных чисел):
43 >=*тз1 n+6 • d{] ч*-1), 6
43) = S| П + 6 + 6 • d(3 ]\к -1), 6 6
Pi3) = & n + 3 + 6 • d(j K(k-1),
3 6
где * - номер лингвистической переменной для атрибута s(3) . Количество лингвистических переменных определяется исследователем и может варьироваться
от 3 до 5. Каждая лингвистическая переменная выражает субъективное отношение к значению переменной - от «малого» до «большого» [5].
Набор лингвистических переменных для всех атрибутов формирует нечёткое правило. Каждое нечёткое правило соответствует одному из известных классов и имеет значение веса, которое определяет его уровень значимости. Набор нечётких правил образует базу, которая используется при решении задачи классификации.
Задачу формирования базы нечётких правил можно назвать задачей условной оптимизации, поскольку в качестве критерия может выступать эффективность классификатора, а в качестве ограничения - максимально допустимое количество правил [3]. Компактные базы правил являются более предпочтительными как с позиции извлечения знаний, так и с позиции ускорения поиска ввиду большей производительности.
Формирование базы правил может быть выполнено по следующему алгоритму:
1. Случайным образом формируется база нечётких правил. Каждое правило является индивидом в рамках генетического алгоритма [1]. Пригодность индивида считается как уровень значимости правила на данной выборке. База правил считается популяцией.
2. Проводится процедура безусловной оптимизации с помощью генетического алгоритма с целью улучшения случайной базы правил.
3. Полученная база правил добавляется в популяцию баз для проведения процедуры условной оптимизации с учётом ограничения на количество правил. Шаги 1-2 выполняются столько раз, сколько необходимо, чтобы набрать нужный размер популяции для следующего этапа.
4. Проводится процедура условной оптимизации генетическим алгоритмом. Индивидом в этом случае является база правил [2], пригодность считается как эффективность базы правил на тестовой выборке. Добавляются штрафные функции с целью учёта ограничения [4], проводится процедура «лечения» [6] для получения лучших индивидов.
5. Полученная база правил с лучшим значением функции пригодности, не нарушающая ограничения, считается результатом работы алгоритма.
Библиографические ссылки
1. Holland J. H., Reitman J. S. Cognitive systems based on adaptive algorithms // Pattern-Directed Inference Systems / Eds. D. A. Waterman and F. Hayes-Roth. New York : Academic Press, 1978.
2. Smith S. F. A learning system based on genetic adaptive algorithms. PhD thesis // Department of Computer Science. University of Pittsburgh, Pennsylvania, 1980.
3. Ishibuchi H., Nakashima T., Murata T. Performance Evaluation of Fuzzy Classifier Systems for Multidimensional Pattern Classification Problems // IEEE
Transactions on Systems, Man, and Cybernetics. 1999. Vol. 29, № 5. P. 601-618.
4. Об одной модификации вероятностного генетического алгоритма для решения сложных задач условной оптимизации / А. Ю. Ворожейкин [и др.] // Вестник СибГАУ. 2009. № 4. С. 79-84.
5. Сергиенко Р. Б. Метод формирования нечеткого классификатора самонастраивающимися коэволюци-онными алгоритмами // Искусственный интеллект и принятие решений. 2010. № 3. С. 98-106.
6. Хаустов И. А., Панфилов И. А. Методы «лечения» в процессе оптимизации генетическими алгоритмами // Решетневские чтения : материалы XVII Междунар. науч. конф., посвящ. памяти генер. конструктора ракет.-космич. систем акад. М. Ф. Решетнева (12-14 нояб. 2013, г. Красноярск). Ч. 2. 2013. С. 82-84.
References
1. Holland J. H., Reitman J. S. Cognitive systems based on adaptive algorithms // Pattern-Directed Inference Systems (Eds D. A. Waterman and F. Hayes-Roth). New York : Academic Press, 1978.
2. Smith, S. F. A learning system based on genetic adaptive algorithms. PhD thesis // Department of
Computer Science, University of Pittsburgh, Pennsylvania, 1980.
3. Ishibuchi H., Nakashima T., Murata T. Performance Evaluation of Fuzzy Classifier Systems for Multidimensional Pattern Classification Problems // IEEE Transactions on Systems, Man, and Cybernetics. Vol. 29, № 5. 1999. p. 601-618.
4. Amodified probabilistic genetic algorithm for the solution of complex constrained optimization problems / A. Yu. Vorozheikin, T. N. Gonchar, I. A. Panfilov, E. A. Sopov, S. A. Sopov // Vestnik SibGAU. 2009. № 4. p. 79-84.
5. Sergienko R. B. Metod formirovania nechetkogo klassifikatora samonastrivayuschimisya geneticheskimi algoritmami // Iskusstvennyi intellekt i prinyantie resheniy. № 3. 2010. p. 98-106.
6. Khaustov I. A., Panfilov I. A. "Correction" methods in the process of genetic optimization // Reshetnevskia chteniya : paper from XVII International Science Conference to the memory of Senior Engineer M. F. Reshetnev (12-14.10.2013, Krasnoyarsk). p. 2. 2013. p. 82-84.
© Хаустов И. А., Панфилов И. А. 2014
УДК 519.87
О ПРИМЕНЕНИИ АДАПТИВНЫХ НЕЙРОСЕТЕВЫХ ПРЕДИКТОРОВ В ЗАДАЧЕ ЭКОЛОГИЧЕСКОГО ПРОГНОЗИРОВАНИЯ ДЛЯ ПРОМЫШЛЕННОГО ЦЕНТРА
Д. И. Хритоненко
Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660014, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
Е-mail: [email protected]
Рассматривается задача прогнозирования уровня заболеваемости населения по физико-химическому составу воздуха. Прогноз производится при помощи коллективов искусственных нейронных сетей, полученных при помощи эволюционных алгоритмов. Описываются модификации используемых алгоритмов. Сравнительный анализ показывает их эффективность.
Ключевые слова: искусственные нейронные сети, коллективы интеллектуальных информационных технологий, эволюционные алгоритмы, самоконфигурирование.
ON AN APPLICATION OF ADAPTIVE ARTIFICIAL NEURAL NETWORKS FOR THE PROBLEM OF ECOLOGICAL PREDICTION FOR THE INDUSTRIAL CENTER
D. I. Khritonenko
Siberian State Aerospace University named after academician M. F. Reshetnev 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660014, Russian Federation E-mail: [email protected]
The problem of predicting the sickness rate of the population using the chemical and physical air compound and its solution is considered. The prediction is made using ensembles of neural networks, obtained with evolutionary algorithms. The modifications of considered algorithms are described. The comparative analysis shows their efficiency.
Keywords: artificial neural networks, ensembles of intellectual information technologies, evolutionary algorithms, self-configuring.
Современное экологическое состояние городов диктует необходимость выявления факторов риска и разработку системы управления ими. В настоящее время методика оценки рисков остается все еще не-
достаточно разработанной. Экологические процессы описываются десятками и сотнями различных характеристик. В общем случае их влияние на экологическую ситуацию являются нелинейным, что затрудняет