Научная статья на тему 'Порівняльні оцінки основних сучасних методів і засобів класифікації'

Порівняльні оцінки основних сучасних методів і засобів класифікації Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
124
38
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
задача класифікації / методи та засоби класифікації / лінійний дискримінантний аналіз Фішера / метод K-найближчих сусідів / дерева прийняття рішень / нейронні мережі / метод опорних векторів / нечітка логіка / генетичний алгоритм / classification problem / classification methods and tools / Fisher's linear discriminant / K-nearest neighbor / decision trees / neural networks / support vector machines / fuzzy logic / genetic algorithm

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Я. В. Бренич

Виконано стислий огляд основних сучасних методів та засобів, призначених для розв'язання задачі класифікації. Подано існуючі систематизації цих підходів. Описано переваги та недоліки семи популярних і широко вживаних класифікаторів. Проведено порівняльний аналіз цих методів за п'ятьма критеріями: тип підходу, області розв'язання, швидкість тренувальної фази, точність та загальне представлення підходу. Продемонстровано переваги нейромережевого підходу над іншими описаними методами для розв'язання задачі класифікації.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A comparison of some modern classification methods and tools

The overview of some modern methods and tools which are suitable for solving classification problem is done. The systematizations of existing approaches are demonstrated. The advantages and limitations of the most popular seven methods are described. These methods are analyzed according to the five indications. They are type of approach, decision boundaries, training speed, accuracy and general performance. The advantages of neural networks over the other methods of classification are described.

Текст научной работы на тему «Порівняльні оцінки основних сучасних методів і засобів класифікації»

Предложен критерий эффективности функционирования логистической системы - ожидаемый финансовый результат позволяет учитывать потери участников системы от иммобилизации капитала. Рассмотрена схема логистической системы на стадии распределения товаров. Построение модели работы логистической системы позволит определить параметры работы системы, при которых достигается максимум ожидаемого финансового результата. С точки зрения использования транспортных технологий доставки товаров, предлагается использовать показатель транспортная привлекательность каналов распределения товаров.

Ключевые слова: транспортная система, расходы логистической системы.

Rudenko D. V., Lagodjuk O.D. Building a model of logistic system to improve the technical and economic performance of vehicles

The proposed criterion for the efficiency of the logistics system - expected financial results takes into account the loss of participants from the immobilization of capital. Schematics logistics system under the distribution of goods. Building a model of logistic system will determine the parameters of the system under which the maximum of the expected financial results. In terms of transport technologies deliver the goods, it is proposed to use the traffic rate the attractiveness of channels of distribution of goods.

Keywords: transportation system, the cost of logistics system.

УДК004.832 Acnip. Я.В. Бренич1 - Схiдноeвропейський НУiM. Лес Укратки

ПОР1ВНЯЛЬН1 ОЦ1НКИ ОСНОВНИХ СУЧАСНИХ МЕТОД1В I ЗАСОБ1В КЛАСИФ1КАЦН

Виконано стислий огляд основних сучасних методiв та засобш, призначених для розв'язання задачi класифшацп. Подано юнукга систематизацп цих пiдходiв. Описано переваги та недолши семи популярних i широко вживаних класифжаторш. Проведено п^вняльний аналiз цих метсдав за п'ятьма критершми: тип шдходу, област розв'язання, швидюсть тренувально! фази, точшсть та загальне представления шдходу. Проде-монстровано переваги нейромережевого тдходу над шшими описаними методами для розв'язання задачi класифжацп.

Ключовi слова: задача класифшацп, методи та засоби класифжацп, лшшний дис-кримшантний аналiз Фшера, метод ^-найближчих сусщв, дерева прийняття ршень, нейронш мережу метод опорних векторiв, нечiтка логша, генетичний алгоритм.

Постановка проблеми. Вщомо, що класифiкацiя - це форм^зована задача, математична постановка яко! мае такий вигляд: нехай задано a: X ® Y, що е множиною описш об'екпв, а Y - це множина номерiв (найменувань) кла-ciB й iснуе певне вiдображення y* = X ® Y, значения якого вщоме тiльки на об'ектах кшцево! навчально! вибiрки Xm = {(xj,y),...,(xm,ym)}, необхщно побу-дувати алгоритм a: X ® Y, що класифшуе довiльний об'ект M [1].

Важливкть ефективного вирiшения задачi класифiкацií сприяла виник-ненню рiзноманiтних методiв i пiдходiв до 11 розв'язання. 1х можна системати-зувати так:

А) Статистичш класифiкатори: а) класичнi:

• лшшний дискримшантний аналiз Фiшера (least squares; maximum likelihood);

1 Наук. кергвник: доц. П.В. Тимощук, д-р техн. наук - НУ " Львгвська полггехнка"

• квадратичний дискримшантний аналiз;

• логiстична регрейя. б) cy4acHi:

• ядерна оцшка щiльноcтi pозподiлу;

• метод ,^-найближчих cуciдiв;

• пошук оптимальних проекцш;

• на1вний Байесовий клаcифiкатоp;

• Байесова мережа.

Б) Дерева прийняття рiшень:

а) C4.5;

б) CART;

в) дерево Байеса;

г) NewID;

д) ITrule

е) iншi.

В) Нейронш мережi:

а) навчання з учителем:

• мережа Гопфшда;

• машина Больцмана;

• мережа Хемшга;

• перцептрон;

• багатошаровий перцептрон;

• мережа векторного квантування та ii модифiкацií.

б) навчання без учителя:

• мepeжi на оcновi адаптивного резонансу та ix модифшацп;

• cамооpганiзацiйна карта Кохонена. Г) iншi методи:

а) метод опорних векторiв;

б) нечгтка логiка;

в) генетичнi алгоритми. Д) Комбшоваш методи:

а) Dipol92;

б) нейронш дерева прийняття ршень;

в) iншi [4].

1снують також iншi класифiкацií. Одну з них наведено дал!

1. Процедури класифжацп, що мiстять лiнiйнi комбшацп даних, навiть якщо над ними будуть здiйсненi нелiнiйнi перетворення (лшшний дискримшан-тний аналiз Фiшера; лопстична регресiя; квадратичний дискримiнантний аналiз; багатошаровий перцептрон; DIPOL92).

2. Дерева прийняття ршень (Cal5; CN2; C4.5; CART; IndCART; NewID; дерево Байеса; ITrule).

3. Група оцшки щшьноста (The density estimate group) (метод ^-найближчих сyсiдiв; радiально-базиснi функцп; ншвний Байесовий класифiкатор; само-органiзацiйна карта Кохонена; лшшна квантизацiя векторiв; ядрова оцшка щшьноста розподiлy) [4].

Переваги та недолжи основних сучасних методiв та 3aco6iB класифь

кац11. З кожно1 групи наведених класифiкаторiв розглянуто найпопулярнiшi та найбiльш широко вживаш з них.

1. Метод лшшного дискримшантного аналiзу Фiшера для класифлкаци.

Переваги:

1) одна з найстарiших процедур класифшацп, що з легыстю реалiзуeться на комп'ютерних додатках;

2) не потребуе строгих припущень;

3) ймовiрнiснi гiпотези не е обов'язковими;

4) спрощуе задачу з <^-вим1рного простору в одновимiрний [4]. Недолжи:

1) можливiсть досягнення мЫмального значення похибки зменшуеться зi збшьшенням тренувально'! вибiрки;

2) не ефективний для задач з великою кшьыстю клашв;

3) характеристичнi ознаки строго обмежеш (с—1, де с - ыльысть класiв) [4].

2. Метод Ж-найближчих сусiдiв для класифлкацп. Переваги:

1) внаслщок простоти зручний для використання в комп'ютерному моделю-ваннi [4];

2) кнують технологи зменшення шумiв, якi можуть працювати лише для К-найближчих сусвдв, що сприяе використанню методу як класифiкатора;

3) в ситуацiях, коли тлумачення вихщних даних необхiдне, метод може запро-понувати для тлумачення аналiз сусщшх даних [2].

Недолiки:

1) алгоритм чутливий до невщповщних або надлишкових характеристичних ознак, тому що кожна з них робить внесок у подiбнiсть, на якш Грунтуеться класифкащя;

2) робота алгоритму здiйснюeться протягом часу виконання, що може попр-шуватись у разi збiльшення тренувально'! вибiрки;

3) у багатьох випадках алгоритм краще замiнити на шш1, як наприклад, метод опорних векторiв чи нейроннi мережi [4].

3. Метод дерев прийняття р1шемь для класифлкацп. Переваги:

1) простий для розумшня та iнтерпретацiй;

2) мае розв'язок навггь для мало'! ылькоси складних даних;

3) використовуе модель "бшо! скриньки";

4) може бути поеднаний з iншими технологiями на основi прийняття рiшень [4]. Недолжи:

1) дерева прийняття ршень, особливо з великою кiлькiстю гшок, характери-зуються складнiстю i великою затратою часу на !х виконання;

2) велиы дерева тяжи для розумшня i пояснення;

3) цей зашб класифiкацií е дороговартiсним через необхщшсть детального ыльысного та статистичного аналiзу даних;

4) неможливiсть впровадження регресп та передбачення ск1нченного результату;

5) не спроможний передбачити значення сынченних атрибупв;

6) реалiзацiя парних та експоненщальних функц1й ускладнена;

7) обмеження у вигляд1 одного виходу на атрибут, нездатнiсть спроектувати виб!рку для двох або бiльше об'екпв [4].

4. Метод нейронних мереж для класифлкаци.

Переваги:

1) демонструють значну стiйкiсть до зашумлених даних, як i здатшсть класи-фiкувати об'екти, для яких не вiдбувалось тренування [3];

2) здатшсть до спрощення складних нелiнiйних вiдображень [5];

3) незалежшсть вiд апрiорних припущень щодо розподшу даних;

4) в процесi функцюнування, мережi можуть бути поповненнi новими дани-ми, що робить 1х корисними для динамiчних додаткiв [3];

5) коли один з елеменлв виходить з ладу, мережа продовжуе функцюнувати внаслщок паралельно1 структури архггектури [4].

Недолiки:

1) структура алгоритму тяжка для розумшня [2];

2) шд час налаштування з'являеться багато додаткових атрибутiв;

3) оптимальна структура мережi може бути визначена лише експериментально;

4) добрати оптимальну кiлькiсть нейронiв для виршення конкретно!' задачi достатньо тяжко [2].

5. Метод опорних вектор1в для класифлкаци. Переваги:

1) складнiсть комп'ютерно1 реаизаци зводиться до задачi квадратичного прог-рамування;

2) модель залежить вщ нелiнiйних границь класiв;

3) переналаштовування засобу малоймовiрне [5]. Недолжи:

1) структура алгоритму тяжка для розумшня;

2) оптимальш параметри тяжко пдабрати за умови, що тренувальш данi не е лiнiйно сепарабельними;

3) тренувальна фаза вiдбуваеться повшьно, подiбно до дерев прийняття рь шень [4], [5].

6. Метод нечггкоУ логiки для класифлкаци. Перевага:

1) рiзнi стохастичнi взаемовiдносини можуть бути визначеш для опису влас-тивостей. Недолжи:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1) точнiсть результатiв не може бути досягнута, якщо напрямок прийняття рь шення наперед не ввдомий;

2) апрiорнi знання е важливими для отримання точних результатiв [5].

7. Метод генетичного алгоритму для класифжащУ. Переваги:

1) завжди знаходить розв'язок при ошташзаци алгоритму (проте не завжди найкращий);

2) ефективний для оброблення великих, складних, не диференцшних та муль-тимодальних просторiв;

3) використовуеться для добору характеристичних ознак i 1х класифшаци;

4) використовуеться для очищення характеристичних ознак вщ невiдповiдних та зашумлених даних;

5) ефективний пошуковий метод для розв'язання комплексних задач [4],[5].

Недолжи:

1) не ефективний для знаходження оптимального розв'язку, розрахований на вщшукання зального результату;

2) обчислення оцшочно! функци е нетривiальним;

3) складнощi в представлен тренувальних та вихiдних даних [5].

Кожен з вищенаведених класифiкаторiв мае власнi параметри побудови та функщонування. Ефективнiсть розв'язання задачi значною мiрою залежить саме вiд особливостей засобу. Для проведения повноцiнноí поршняльно! характеристики в табл. розглянуто такi параметри для кожного з класифiкаторiв: тип шдходу, областi розв'язання, швидккть тренувально! фази, точнiсть та загальне представлення методу [5].

габл. Пор вняльна характ еристика мет1 Мв класифЫац й'

Параметр Метод Тип шдходу Областi розв'язання Швидюсть тренувально! фази Точнiсть Загальне представления

Лшшний дискримь нантний аиа-лiз Фiшера Статис-тичний Лише лшшш областi розв'язання Залежить вiд числових значень векторов Залежить вщ кiлькостi вхщ-них клаив Лiнiйна функцш атрибутов

К - иайближ-чих сусщв Непара-метрич-ний Областi розв'язання мають ль нiйнi границу Процес лiнiйно зростае залежно вiд кiлькостi даних Залежить вад по-ниження розмр-ностi та понижен-ня зашумлеиоста Мажоритарна вибiрка; дис-танцiйие зва-жування

Дерева прийняття ршень Лопчний - - Залежить вiд структури дерева Дерево (листя i гики; граф)

Нейроннi мережi Непара-метрич-ний Ефективн1, якщо данi мають лише декшька вхiдних значень зi змшии-ми величинами Структура ме-реж^ iмпульс швидкостi, критерий збiжностi Залежить вщ кiлькостi вхщ-них клаив Мережева структура

Метод опорних векторiв Непара-метрич-ний з двшковим Ефективнi за умови збшьшеи-ня вхiдних змш-них Розмiр тренуваль-ио! вийрки, параметри ядра, сепа-рабельнiсть клаив Залежить вiд ви-бору оптимально! гшерплощи-ни Параметр ядра

Неч^ка логiка Статис-тичний Залежить вiд апрь орних знань для границь ршення 1терацшие вико-ристання иечгт-кого интегралу Залежить вщ ви-бору порогово! функщ! Нечеткий ш-теграл

Генетичний алгоритм Масив даних Залежить вщ нап-рямку прийняття ршення Очищення вад не-вадповадних та за-шумлених генiв Залежить вщ ви-бору генiв Вибраиi ха-рактеристичиi ознаки

Висновки. Отже, за критерiем популярностi застосування, в роботi про-аналiзовано такi сучаснi методи розв'язання задачi класифiкацií: лiнiйний дис-кримшантний аналiз Фiшера, К-найближчих сусiдiв, дерева прийняття рiшень, нейроннi мережi, опорних векторiв, нечiтка логiка та генетичний алгоритм. Кожен з наведених засобiв мае сво! переваги та недолши, що значною мiрою виз-начае сферу !х застосування. Наприклад, дерева прийняття рiшень вiдрiзняють-ся ввд iнших методiв вiдносною простотою для розумшня й iнтерпретацiй, про-те у разi збiльшення умов характерна велика затрата часу на виконання алгоритму. Статистичш класифжатори, представленi лiнiйним дискримiнантним

аналiзом Фтера, не ефективнi для задач з великою кшькктю класш. Цей недо-лiк е характерним також для методу ^-найближчих сусiдiв. Складнiстю трену-вально!' фази характеризуються сучаснi популярш методи опорних векторiв та генетичний алгоритм. Головним недолiком нечiткоí лопки для класифiкацií е необхiднiсть в апрюрних оцiнках. Тому серед цих методiв значно вирiзняеться точнiстю та ушверсальнктю нейромережевий пiдхiд. Бiльшiсть недолшв наве-дених методiв усунуто цим засобом. Також нейроннi мережi вирiзняються здат-нiстю до динамiчного оновлення, стiйкiстю до зашумлених даних та паралель-ною архитектурою. Тому розширення iснуючих обмежень е актуальною задачею, розв'язання яко1 дасть змогу шдвишувати ефективнiсть класифiкацií методом нейронних мереж.

Лiтература

1. Айвазян С.А. Прикладная статистика. Классификация и снижение размерности. / С.А. Айвазян, В.М. Бухштабер, И.С. Енюков, Л.Д. Мешалкин. - М. : Изд-во "Финансы и статистика", 1989. - 607 с.

2. Han J. Data Mining: Concepts and Techniques / J. Han, M. Kamber. - Edition 2, San Francisco : Elsevier Inc., 2006. - 743 p.

3. Lippman R.P. An Introduction to Computing with Neural Nets / R.P. Lippman // IEEE ASSP Magazine. - 1987. - Vol. 3, № 4. - Pp. 4-22.

4. Michie D. Machine Learning, Neural and Statistical Classification / D. Michie, D.J. Spiegelhalter, C.C. Taylor. - New York : Overseas Press., 2009. - 298 p.

5. Seetha M. Artificial Neural Network and Other Methods of Image Classification / M. Seetha, I.V. Muralikrishna, B.L. Deekshatulu // Journal of Theoretical and Applied Information Technology. -2008. - Vol. 4, № 11. - Pp. 1039-1053.

Бренич Я.В. Сравнительные оценки основных современных методов и средств классификации

Сделан краткий обзор основных современных методов и средств, предназначенных для решения задачи классификации. Приведены существующие систематизации этих подходов. Описаны преимущества и недостатки семи популярных и широко используемых классификаторов. Проведен сравнительный анализ этих методов по пяти критериям: тип подхода, области решения, скорость тренировочной фазы, точность и общее представление подхода. Продемонстрированы преимущества нейросетевого подхода над другими описанными методами для решения задачи классификации.

Ключевые слова: задача классификации, методы и средства классификации, линейный дискриминантный анализ Фишера, метод ^-ближайших соседей, деревья принятия решений, нейронные сети, метод опорных векторов, нечеткая логика, генетический алгоритм.

Brenych Ya. V. A comparison of some modern classification methods and

tools

The overview of some modern methods and tools which are suitable for solving classification problem is done. The systematizations of existing approaches are demonstrated. The advantages and limitations of the most popular seven methods are described. These methods are analyzed according to the five indications. They are type of approach, decision boundaries, training speed, accuracy and general performance. The advantages of neural networks over the other methods of classification are described.

Keywords: classification problem, classification methods and tools, Fisher's linear discriminant, ^-nearest neighbor, decision trees, neural networks, support vector machines, fuzzy logic, genetic algorithm.

i Надоели баннеры? Вы всегда можете отключить рекламу.