ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ УДК 656.072
ПРИМЕНЕНИЕ МЕТОДОВ КЛАСТЕРИЗАЦИИ ПРИ ОРГАНИЗАЦИИ МЕЖДУГОРОДНЫХ ПЕРЕВОЗОК ГРУЗОВ
THE USE OF CLUSTERING METHODS IN THE ORGANIZATION LONG-DISTANCE TRANSPORT OF GOODS
Семенов Юрий Николаевич,
канд. техн. наук, доцент, e-mail: semenov63@mail.ru Semenov Yuri N., С.Sc. (Engineering) Семенова Ольга Сергеевна, канд. техн. наук, доцент, e-mail: semenov63@mail.ru Semenova Olga S., С.Sc. (Engineering)
Кузбасский государственный технический университет имени Т.Ф. Горбачева, 650000, Россия, г. Кемерово, ул. Весенняя, 28
T.F. Gorbachev Kuzbass State Technical University, 28 street Vesennyaya, Kemerovo, 650000, Russian Federation
Аннотация
Описаны методы кластеризации, отмечены преимущества и недостатки методов кластерного анализа. Обоснована необходимость в использовании данных методов при организации междугородных перевозок грузов. Приведена математическая постановка задачи выделения на территории обслуживания зон, используя критерий минимизации расстояний между грузополучателями, находящимися в одной зоне. Описан алгоритм работы иерархического агломеративного метода. Приведен пример его практического использования. Abstract
In the paper clustering methods are described, the advantages and disadvantages of the methods are marked. A need to use of these methods in the organization of long-distance transport of goods is substantiation. The mathematical formulation of the allocation of on-site service areas is described. We used a criterion that takes into account the minimization of distances between one zone consignees. The algorithm of agglomerative hierarchical method is described. An example of the practical use of the cluster method is shown in the article. Ключевые слова: методы кластеризации, кластерный анализ Keywords: clustering methods, cluster analysis
Введение
Методы многомерной кластеризации используются в различных отраслях: в маркетинговых исследованиях для сегментации рынка и его последующего анализа [1]; при сравнении производительности или эффективности отдельных предприятий [2], групп, сообществ; в психологических и социологических исследованиях, когда в результате анализа множества характеристик тестируемых выделяются классы испытуемых, близких по всему множеству характеристик [3] либо по количественному сходству [4,5].
Важное значение кластерный анализ имеет применительно к совокупностям временных рядов, характеризующих экономическое развитие. В этом случае выделяются периоды, в которых значения соответствующих показателей достаточно близки, а также определяются группы временных рядов, динамика которых наиболее схожа [4].
Преимуществами кластерного анализа являет-
ся то, что он позволяет производить разбиение объектов не по одному параметру, а по целому набору; не накладывает никаких ограничений на вид рассматриваемых объектов; позволяет рассматривать достаточно большой объем информации и сжимать его, делая компактными и наглядными [4]. Кроме того, методы кластеризации могут использоваться, когда не имеется каких-либо априорных гипотез относительно классификации исследуемых объектов [5].
К недостаткам методов кластерного анализа следует отнести в первую очередь то, что используя различные методы для одной и той же совокупности данных можно получить разные конечные результаты. Это связано с тем, что число кластеров, неизвестно заранее и устанавливается в соответствии с некоторым субъективным критерием, задаваемым экспертом [6]. Поэтому выбору метода исследований требуется уделять большое внимание. Кроме того, при сведении исходного
массива данных к более компактному виду могут возникать определенные искажения, теряться индивидуальные черты отдельных объектов за счет замены их характеристик обобщенными значениями параметров кластера [4].
Математическая постановка задачи
При организации перевозочного процесса основной задачей является перемещение груза т кг по территории, на которой размещено п грузополучателей, используя парк из я подвижных единиц с наименьшими затратами [7-13]. В такой постановке задача маршрутизации решается достаточно сложно, что связано с большой размерностью матрицы кратчайших расстояний между всеми грузополучателями [14]. Поэтому логично разбить территорию на р зон, каждую из которых может обслуживать sp транспортных средств за время смены Тс. Это приведет к сокращению матриц кратчайших расстояний до размера п,,у- пр, что упростит решение задачи маршрутизации.
Таким образом, необходимо применяя методы кластеризации выделить на территории обслуживания i зон, используя критерий минимизации расстояний между грузополучателями, находящимися в одной зоне, и критерий доступности сообщения, т.е. наличия путей, по которым будет осуществляться перемещение груза.
Пусть известна матрица расстояний между п объектами и некоторое их разбиение на р кластеров.
L = (Llj) Е Rnх" (1)
R(p)={K1K2.....кр}
Первоначально каждый объект является классом, то есть п=р, далее на каждом шаге происходит объединение ближайших объектов, и в результате все объекты образуют один класс.
Основным понятием кластер-процедур является расстояние между кластерами Ks и Kt
Pst = p(KSlKt), где s = 1,2, ...,p,t= 1,2, ...,p.
Следовательно, p критерий оптимальности -это внутригрупповая сумма квадратов отклонения расстояний Li;- от их среднеарифметического значения
Таким образом, пункты доставки попадают в один кластер р, если расстояние между ними минимально, и попадают в разные кластеры, если расстояние максимально.
Существуют различные стратегии объединения (стратегии пересчета расстояний) [3]:
• Стратегия «ближайшего соседа», single linkage - классы объединяются по ближайшей границе;
• Стратегия «дальнего соседа», complete linkage - классы объединяются по дальней границе;
• Стратегия «группового среднего», цент-
роидный метод - объекты объединяются в соответствии с расстоянием до центра класса.
Первые две стратегии изменяют пространство (сужают или растягивают), а последняя его не изменяет, поэтому обычно в стандартных ситуациях используется стратегия «группового среднего». В этом случае
Pst — l^Ks'XKt)
_ _ xi
x к —
ns
где x Ks - среднее арифметическое векторных наблюдений х, при i £ Ks.
Так как иерархические агломеративные методы - это многошаговые методы классификации, то можно описать алгоритм их работы в виде последовательности шагов:
• на нулевом шаге за разбиение принимается исходная совокупность п элементарных кластеров, матрица расстояний между которыми вычисляется по формуле (1);
• на каждом следующем шаге происходит объединение в соответствии с эвристическим или экстремальным подходом двух кластеров Ks и К,, сформированных на предыдущем шаге, в один кластер
Ks+t — Ks и Kf
При этом размерность матрицы расстояний уменьшается на единицу по сравнению с размерностью этой матрицы на предыдущем шаге.
Пример практического использования кластерного метода
Разобьем на кластеры пункты доставки груза, входящие в следующие направления:
• г. Анжеро-Судженск, пгт. Яя, г. Тайга, пгт. Яшкино (Яшкинский район); г.Анжеро-Судженск, п. Красная горка, п. Безлесный, п. Турат, пгт. Иж-морский, с. Верхотомское;
• г. Юрга (Юргинский р-он), п/ст Юрга 2, с. Проскоково, п/ст.Арлюк, с. Поперечное;
• г. Мариинск (Мариинский р-он), пгт. Верх-Чебула, с. Усманка, с.Суслово, пгт. Тяжин-ский.
Начальное разбиение: {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20}. Последовательность объединения элементов в кластеры представлена в табл.1.
Матрица расстояний на 5 шаге представлена на рис,1.
В конечном итоге агломеративные (объединяющие) методы на последнем шаге объединяют все объекты в один кластер. Для того чтобы выделить то или иное количество отдельных кластеров, необходимо выделить места, где наблюдается максимальный скачок в изменении межкластерного расстояния (табл.2).
В результате сформировались четыре кластера:
1. 1©4ф2©5фЗф6 - г. Анжеро-Судженск,
Табл.1. Последовательность объединения элементов в кластеры
Итерация Минимальное расстояние между кластерами Объединение
1 Р 1,4 = 4 {104, 2, 3,5,..., 20}
2 Р 1+4,2 = 7,5 {1©4,2,3, 5,..., 20}
3 р 1+4,2,5 = 9,38 {10402© 5,3,...,20}
4 Р 14+15 = 12 {10402, © 5,3,...,14015,...,20}
5 Р 16+20 = 15 {10402,05,3,..., 14© 15, 16©20, 17,18,19}
6 Р 11 + 12 = 16 {1 ©4©2,©5,3,...,11ф 12,13,14© 15, 16©20, 17,18,19}
7 р 6+3 = 18 {1©4©2,®5,6®3,...,11® 12,13,14® 15, 16020,17,18,19}
8 р 7+ю = 20 {10402,05,603,7010,8,9,11012,13,14015,16020,17, 18,19}
9 Р 14+15,13 = 22 {1®4©2,®5,6©3,7® 10,8,9,11® 12,14® 15© 13,16©20, 17,18,19}
10 Р16+20,17 = 27,3 {1©4©2,®5,6®3,7® 10,8,9,11® 12,14® 15© 13, 16®20® 17,18,19}
11 Р 1+4+2+5,3+6 = 28,2 {1®4® 2® 5® 6® 3,7® 10,8,9,11® 12,14® 15® 13,16®20® 17,18,19}
12 Р 18+19 = 33 {1®4® 2® 5® 6® 3,7® 10,8,9,11® 12,14® 15® 13,16®20® 17,18® 19}.
13 Р 8+9 = 35 {1®4®2®5®6®3,7® 10,8®9,11® 12,14® 15® 13, 16®20® 17,18® 19}
14 Р 16+20+17,18+19 = 41,6 {1®4®2®5®6®3,7® 10,8®9,11® 12,14® 15® 13,16®20® 17® 18® 19}
15 Р 11 + 12,14+15+13 = 42 {1®4®2 ®5®6®3,7® 10,8®9,11® 12® 14® 15® 13, 16®20®17® 18 ®19}
16 Р 7+10,8+9 = 71,5 {1®4®2®5®6®3,7® 10®8®9,11® 12® 14® 15® 13, 16®20® 17® 18® 19}
1+4,2,5 3 6 7 8 9 10 И 12 13 14+15 16 17 18 19 20 Р
1+4,2^ 41 24 103 69 167 108 198 184 234 201,72 155 138 155 186 167 1573
3 41 18 140 109 206 145 239 225 234 244.5 113 92 112 145 130 117,8
б 24 18 128 97 210 140 220 210 264 227 113 109 130 157 100 102,8
7 103 140 128 104 82 20 97 120 136 101,5 146 165 194 226 131 134,8
8 69 109 97 104 35 93 196 182 234 198,5 198 220 251 283 182 1863
9 167 206 210 82 35 62 176 162 76 113,5 207 229 261 293 192 195,8
10 108 145 140 20 93 62 115 101 153 120 146 168 200 232 130 1343
11 198 239 220 97 196 176 115 16 63 37 240 262 294 326 225 228.8
12 184 225 210 120 182 162 101 16 54 51,5 227 248 280 312 211 2153
13 234 234 264 136 234 76 153 63 54 22 282 301 330 362 263 268.8
14+15 202 245 227 102 199 114 120 37 51,5 22 243 265 297 329 228 2313
16 155 113 113 146 198 207 146 240 227 282 242,5 28 49 81 15 3,75
17 138 92 109 165 220 229 168 262 248 301 264,5 28 29 61 34 27,25
18 155 112 130 194 251 261 200 294 280 330 296,5 49 29 33 63 52,25
19 186 145 157 226 283 293 232 326 312 362 329 81 61 33 95 84,25
20 167 130 100 131 182 192 130 225 211 263 227,5 15 34 63 95 3,75
Рис. 1. Матрица расстояний на 5 шаге
п. Красная горка, п. Безлесный, п. Турат, пгт. Иж-морский, пгт. Яя;
2. 7®10®8®9 - с. Верхотомское, г. Тайга, пгт. Яшкино;
3. 14®15®13®11®12 - г. Юрга, п/ст Юрга 2, с. Проскоково, п/ст. Арлюк, с. Поперечное;
4. 16®20®17®18®19 - пгт. Верх-Чебула, с. Усманка, г. Мариинск, с. Суслово, пгт. Тяжин-ский.
Аналогично производится разбивка на кластеры следующих пунктов доставки груза: г. Ленинск-Кузнецкий, г. Полысаево, г. Белово, г. Гу-рьевск, ст. Артышта, п. Бабанаково, пгт. Бачат-ский, пгт. Грамотеино, пгт. Инской, пгт. Новый городок, г. Салаир, с. Старопестерево, с. Челухое-
во, с. Барачаты, д. Береговая, п. Восходящий, пгт. Зеленогорский, рп. Крапивинский, п. Красные ключи, п. Кузбасский, п. Никитинский.
Начальное разбиение {1, 2, 3, 4, 5,..., 22}.
Последовательность разбиения: {1,2, 3,4, 5,..., 22} - {1,2,3,..., 13018,...,
22} {1, 2, 3.....6® 10.....13® 18.....22} -►...
{1, 2®4®7®6® 10®8® 1® 1 3®5®9 , 12, 13® 18, 14® 19, 15®20©22©21,16©17}—>... —>{1©2®4©7©6©10®8® 11©3©5©9,12® 13 ©18® 14©19® 16©17,15®20©22©21}—>{1®2 ®4®7®6® 10®8® 11фЗ®5®9,12® 13® 18® 14 ©19©16©17©15ф20©21ф22}.
Матрица расстояний на предпоследнем шаге представлена в табл.3.
Табл. 2. Матрица расстояний на 16-м шаге
Кластеры 1+4,2,5,3+6 7+10,8+9 14+15,13,11 + 12 16+20,17,18+19 Р
1+4,2,5,3+6 - 95,3 194 113 29,7
7+10,8+9 95,3 - 103 168 17,9
14+15,13,11 + 12 194 103 - 251 33,4
16+20,17,18+19 113 168 251 - 66,2
Табл. 3. Матрица расстояний на предпоследнем шаге
Кластеры 2+4+7,6+10,8+11,3,9+5,1 13+18,14+19,12,16+17 15+20,22,21 Р
2+4+7,6+10,8+11,3,9+5,1 - 104,4 59 82,71
13+18,14+19,12,16+17 104,4 - 58,8 0
15+20,22,21 59 58,8 - 0
Минимальное расстояние между кластерами р 13018014019012016017,15020021022= 58,85. Получаем окончательное разбиение:
{1®2®4®7©6®10®8®11©3®5®9, 12® 13® 18©14® 19©16® 17® 15©20®21©22}. В результате сформировались два кластера: 1. г. Ленинск-Кузнецкий, г. Полысаево, с. Ба-рачаты, д. Береговая, п. Восходящий, пгт. Зелено-горский, рп. Крапивинский, п. Красные ключи, п. Кузбасский, п. Никитинский;
2. г. Белово, г. Гурьевск, ст. Артышта, п. Ба-банаково, пгт. Бачатский, пгт. Грамотеино, пгт. Инской, пгт. Новый городок, г. Салаир, с. Старо-пестерево, с. Челухоево.
Таким образом, использование методов кластерного анализа при организации междугородных перевозок грузов позволяет разбить обслуживаемый регион на зоны, что значительно упрощает построение маршрутов.
СПИСОК ЛИТЕРАТУРЫ
1. Грушевенко, Д.А. Применение метода кластерного анализа при группировке стран для прогнозирования спроса на нефтепродукты / Д.А. Грушевенко, Е.В. Грушевенко // Нефть, газ и бизнес. - 2015. -№2.-С. 23-26.
2. Феклистова, И.С. Использование кластерного анализа при оценке эффективности стратегического управления предприятиями региона / И. С. Феклистова // Траектория науки. Электронный научный журнал.-2016.-№2(7).-С. 1-15.
3. Савченко, Т.Н. Применение методов кластерного анализа для обработки данных психологических исследований / Т.Н. Савченко // Экспериментальная психология. - 2010. - Том. 3, № 2. - С. 67-85.
4. Буреева, H.H. Многомерный статистический анализ с использованием ППП "STATISTICA". / H.H. Буреева // Учебно-методический материал по программе повышения квалификации «Применение программных средств в научных исследованиях и преподавании математики и механики». - Нижний Новгород. - 2007. - 112 с.
5. Близоруков, М.Г. Статистические методы анализа рынка / М.Г. Близоруков // Учебно-метод. пособие. - Екатеринбург: Ин-т управления и предпринимательства Урал. гос. ун-та. - 2008. - 75 с.
6. Воронцов, К.В. Профили компактности и выделение опорных объектов в метрических алгоритмах классификации / К.В. Воронцов, А.О. Колосков // Искусственный интеллект. - 2006. - № 2. - С. 30-33.
7. Истомин, А. М. Вероятностный анализ одной задачи маршрутизации // Дискретн. анализ и ис-след. опер. - 2014. - № 21:4. - С. 42-53.
8. Зак, Ю. А. Математические модели и алгоритмы оперативного управления потоками корреспонденции и грузов в сети почтовых перевозок / Ю. А. Зак, Е. Б. Турок // Пробл. управл. - 2011. - № 5, С. 32-39.
9. Григорьева, И. С. Один класс эвристических алгоритмов для задачи маршрутизации / И.С. Григорьева // Исслед. по прикл. матем. - Казань: Изд-во Казанского ун-та. - 1992. - №18. - С. 38-48.
10. Бронштейн, Е. М. О построении семейства маршрутов доставки школьников за минимальное время / Е. М. Бронштейн, Д. М. Вагапова, А. В. Назмутдинова // Автомат, и телемех. - 2014. - № 7. - С. 43-51.
11. Семенов Ю.Н. Использование методов моделирования для построения маятниковых маршрутов / Ю.Н. Семенов, О.С. Семенова // Вестник КузГТУ. - 2015. - №3. - С. 136-140.
12. Семенов Ю.Н. Автоматизация построения маршрутов перевозок крупнопартионных грузов / Ю.Н. Семенов, О.С. Семенова//Вестник КузГТУ. - 2015. - №3. - С. 131-135.
13. Семенов Ю.Н. Автоматизация построения маршрутов перевозок мелкопартионных грузов / Ю.Н. Семенов, О.С. Семенова // Вестник КузГТУ. - 2016. - №1. - С. 192-197.
14. Меламед, И. И. Задача коммивояжера. Приближенные алгоритмы / И. И. Меламед, С. И. Сергеев, И. X. Сигал // Автомат, и телемех. - 1989. -№ 11. - С. 3-26.
REFERENCES
1. Grushevenko D.A., Grushevenko E.V. Primenenie metoda klasternogo analiza pri gruppirovke stran dlya prognozirovaniya sprosa na nefteprodukty [The use of cluster analysis to group the countries to predict the demand for petroleum products]. Oil. gas and business. No.2 (2015). Pp. 23-26. (rus)
2. Feklistova I.S. Ispol'zovanie klasternogo analiza pri otsenke effektivnosti strategicheskogo upravleniya predpriyatiyami regiona [Using cluster analysis to assess the effectiveness of the strategic management of enterprises in the region]. Path of Science. No.2:7(2016). Pp. 1-15. (rus)
3. Cavchenko T.N. Primenenie metodov klasternogo analiza dlya obrabotki dannykh psikhologicheskikh is-sledovaniy [Application of cluster analysis for the treatment of psychological research data]. Experimental psychology. No.3:2(2010). Pp. 67-85. (rus)
4. Bureeva N.N. Mnogomernyy statisticheskiy analiz s ispol'zovaniem PPP "STATISTICA". [Multivariate statistical analysis using "STATISTICA"]. Teaching material for the training program "The software in the research and teaching of mathematics and mechanics". Nizhniy Novgorod, 2007. 112 p. (rus)
5. Blizorukov M.G. Statisticheskie metody analiza rynka [Statistical methods for analysis of the market]. -Ekaterinburg: Institute of Management and Entrepreneurship Ural State University, 2008. - 75 p. (rus)
6. Vorontsov K.V., Koloskov A.O. Profili kompaktnosti i vydelenie opornykh ob"ektov v metriche-skikh algoritmakh klassifikatsii [Profiles compactness and the allocation of reference objects in metric classification algorithms]. Artificial intelligence. No.2 (2006). Pp. 30-33. (rus)
7. Istomin A. M. Veroyatnostnyy analiz odnoy zadachi marshrutizatsii [Probabilistic analysis of a routing problem]. Journal of Applied and Industrial Mathematics. No. 21:4 (2014). Pp. 42-53. (rus)
8. Zak Yu. A., Turok E. В., Matematicheskie modeli i algoritmy operativnogo uprav-leniya potokami korre-spondentsii i gruzov v seti pochtovykh perevozok [Mathematical models and algorithms for efficient flow management of mail and cargo in the network of postal traffic]. Control Sciences. 2011. No. 5. Pp. 32-39. (rus)
9. Grigor'eva I. S. Odin klass evristicheskikh algoritmov dlya zadachi marshrutizatsii [A class of heuristic algorithms for the routing problem]. Journal of Mathematical Sciences. 18, Izd-vo Kazanskogo un-ta, Kazan'. 1992. Pp.38-48. (rus)
10. Bronshteyn E. M., Vagapova D. M., Nazmutdinova A.V. O postroenii semeystva marshrutov dostavki shkol'nikov za minimal'noe vremya [On constructing a family of student delivery routes in minimal time]. Automation and Remote Control. 2014. No.7. Pp.43-51. (rus)
11. Semenov, Yu.N., Semenova, O.S., The use of modeling techniques to make pendulum routes. The bulletin of KuzSTU. 2015. №3. Pp. 136-140. (rus)
12. Semenov, Yu.N., Semenova, O.S., Automated route planning for goods in bulk haulage. The bulletin of KuzSTU. 2015. №3. Pp. 131-135. (rus)
13. Semenov, Yu.N., Semenova, O.S., Automated route planning for goods in small-lot haulage. The bulletin of KuzSTU. 2016. №1. Pp. 192-197. (rus)
14. Melamed I. I., Sergeev S. I., Sigal I. Kh. The traveling salesman problem. Approximate algorithms. Automation and Remote Control. 1989. No.11. Pp.3-26. (rus)
Поступило в редакцию 18.11.201 б Received 18November 2016