Научная статья на тему 'Декодирование наиболее вероятного маршрута абонентов по транспортному графу на основе последовательности регистраций в мобильной сети'

Декодирование наиболее вероятного маршрута абонентов по транспортному графу на основе последовательности регистраций в мобильной сети Текст научной статьи по специальности «Математика»

CC BY
147
25
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СКРЫТЫЕ МАРКОВСКИЕ МОДЕЛИ / НЕПОЛНЫЕ ДАННЫЕ / ТЕЛЕКОММУНИКАЦИИ / МАШИННОЕ ОБУЧЕНИЕ / АНАЛИЗ ДАННЫХ / HIDDEN MARKOV MODELS / INCOMPLETE DATA / TELECOMMUNICATION / MACHINE LEARNING / DATA SCIENCE

Аннотация научной статьи по математике, автор научной работы — Уваров Вадим Евгеньевич, Курганский Дмитрий Васильевич, Попов Александр Александрович, Климов Артём Владимирович, Мерзляков Антон Сергеевич

Представлен алгоритм декодирования наиболее вероятного маршрута абонентов по транспортному графу, использующий вероятностный подход, в основе которого лежит скрытая марковская модель. Особенность данного алгоритма заключается в том, что вместо точных GPSтреков в качестве исходных данных он способен принимать треки, состоящие из регистраций абонента в мобильной сети, которые имеют гораздо большую погрешность. Другая отличительная сторона алгоритма возможность обрабатывать ситуации неполных данных, когда между последовательными регистрациями не удаётся найти путь по графу. Данная возможность достигается благодаря представленному в работе модифицированному алгоритму Витерби. С помощью анонимизированных данных регистраций и соответствующих им GPS-треков показано, что использование разработанного алгоритма позволяет увеличить точность декодирования более чем в 2.5 раза по сравнению с более простым алгоритмом, предполагающим простое соединение последовательных координат базовых станций в порядке их посещения абонентом. Также показано, что использование модифицированного алгоритма Витерби вместо обычного варианта позволяет увеличить покрытие GPS-треков, являющихся образцами, более чем на 30%. Правильность подбора оптимальных гиперпараметров алгоритма была подтверждена экспериментально, а кроме того, оптимальное значение одного из гиперпараметров совпало с альтернативным способом его вычисления. Даны рекомендации для дальнейшей работы над улучшением алгоритма, заключающиеся во включении в вероятностную модель силы сигнала, скорости и времени движения, сложности транспортных развязок и перекрёстков, приоритета дорог, что позволит не только увеличить точность алгоритма, но и определять тип транспортного средства. Предварительные результаты тестирования улучшенной версии алгоритма показывают, что можно уменьшить погрешность декодирования до 100 м.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Уваров Вадим Евгеньевич, Курганский Дмитрий Васильевич, Попов Александр Александрович, Климов Артём Владимирович, Мерзляков Антон Сергеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Decoding the optimal route on transport graph using cellular data

The article presents a novel algorithm for optimal route decoding on transport graph using cellular data which uses probabilistic approach based on hidden Markov model. The distinctive feature of the proposed algorithm is that it can process sequential cellular data that consists of highly sparse call data records (CDR) instead of far more accurate GPS-data. Another feature is that this algorithm is able to cope with incomplete data in case when no path on graph can be found between the consecutive CDRs thanks to the proposed modified Viterbi algorithm. The algorithm was evaluated using anonymized CDRs and corresponding test GPS-data. The evaluation showed that the presented method is 2.5 more accurate than the simple algorithm that connects the coordinates of cell towers in order of their appearance. Also, it was shown that modified Viterbi algorithm allows to cover 30% more of test GPS-data points in comparison with of the standard version. In addition, the experimental data was presented that confirms the choice of hyperparameters used for the algorithm and one of the optimal hyperparameters was calculated with the alternative formula which also agrees with the evaluation data. Further work includes adding signal strength, speed, time, route complexity, road priorities and other factors to probabilistic model which will not only improve the algorithm accuracy but will also allow the transport type classification. The preliminary tests of the new version of algorithm shows that the error can be lowered down to 100 meters.

Текст научной работы на тему «Декодирование наиболее вероятного маршрута абонентов по транспортному графу на основе последовательности регистраций в мобильной сети»

ДЕКОДИРОВАНИЕ НАИБОЛЕЕ ВЕРОЯТНОГО МАРШРУТА АБОНЕНТОВ ПО ТРАНСПОРТНОМУ ГРАФУ НА ОСНОВЕ ПОСЛЕДОВАТЕЛЬНОСТИ РЕГИСТРАЦИЙ

В МОБИЛЬНОЙ СЕТИ

Уваров Вадим Евгеньевич, DOI 10.24411/2072-8735-2018-10288

ООО "Т2 Мобайл", г. Москва, Россия;

Новосибирский государственный технический университет, г. Новосибирск, Россия, uvarov.vadim42@gmail.com

Курганский Дмитрий Васильевич,

ООО "Т2 Мобайл", г. Москва, Россия, dmitry.kurgansky@tele2.ru

Попов Александр Александрович,

Новосибирский государственный технический университет, г. Новосибирск, Россия, alex@fpm.ami.nstu.ru

Климов Артём Владимирович,

ООО "Т2 Мобайл", г. Москва, Россия, artem.klimov@tele2.ru

Ключевые слова: скрытые марковские Мерзляков Антон Сергеевич, модели, неполные данные, телекоммуникации,

ООО "Т2 Мобайл", г. Москва, Россия, anton.merzlyakov@tele2.ru машинное обучение, анализ данных.

Представлен алгоритм декодирования наиболее вероятного маршрута абонентов по транспортному графу, использующий вероятностный подход, в основе которого лежит скрытая марковская модель. Особенность данного алгоритма заключается в том, что вместо точных GPS-треков в качестве исходных данных он способен принимать треки, состоящие из регистраций абонента в мобильной сети, которые имеют гораздо большую погрешность. Другая отличительная сторона алгоритма - возможность обрабатывать ситуации неполных данных, когда между последовательными регистрациями не удаётся найти путь по графу. Данная возможность достигается благодаря представленному в работе модифицированному алгоритму Витер-би. С помощью анонимизированных данных регистраций и соответствующих им GPS-треков показано, что использование разработанного алгоритма позволяет увеличить точность декодирования более чем в 2.5 раза по сравнению с более простым алгоритмом, предполагающим простое соединение последовательных координат базовых станций в порядке их посещения абонентом. Также показано, что использование модифицированного алгоритма Витерби вместо обычного варианта позволяет увеличить покрытие GPS-треков, являющихся образцами, более чем на 30%. Правильность подбора оптимальных гиперпараметров алгоритма была подтверждена экспериментально, а кроме того, оптимальное значение одного из гиперпараметров совпало с альтернативным способом его вычисления. Даны рекомендации для дальнейшей работы над улучшением алгоритма, заключающиеся во включении в вероятностную модель силы сигнала, скорости и времени движения, сложности транспортных развязок и перекрёстков, приоритета дорог, что позволит не только увеличить точность алгоритма, но и определять тип транспортного средства. Предварительные результаты тестирования улучшенной версии алгоритма показывают, что можно уменьшить погрешность декодирования до 100 м.

Информация об авторах:

Уваров Вадим Евгеньевич, менеджер по исследованию больших данных, ООО "Т2 Мобайл", Москва, Россия; аспирант, Новосибирский государственный технический университет, г. Новосибирск, Россия

Курганский Дмитрий Васильевич, менеджер по исследованию больших данных, ООО "Т2 Мобайл", Москва, Россия

Попов Александр Александрович, д.т.н., профессор, Новосибирский государственный технический университет, г. Новосибирск, Россия Климов Артём Владимирович, старший менеджер по исследованию больших данных, ООО "Т2 Мобайл", Москва, Россия Мерзляков Антон Сергеевич, руководитель проектного офиса аналитики больших данных, ООО "Т2 Мобайл", Москва, Россия

Для цитирования:

Уваров В.Е., Курганский Д.В., Попов А.А., Климов А.В., Мерзляков А.С. Декодирование наиболее вероятного маршрута абонентов по транспортному графу на основе последовательности регистраций в мобильной сети // T-Comm: Телекоммуникации и транспорт. 2019. Том 13. №7. С. 32-39.

For citation:

Uvarov V.E., Kurgansky D.V., Popov A.A., Klimov A.A., Merzlyakov A.S. (2019). Decoding the optimal route on transport graph using cellular data. T-Comm, vol. 13, no.7, pр. 32-39. (in Russian)

Введение

Благодаря технологическому прогрессу на данный момент практически у каждого человека имеется персональное устройство сотовой связи, которое находится в непосредстве г шой близости от него 24 часа в сутки. Даже самые простые мобильные телефоны генерируют массу информации во время сеансов связи и смены зоны местоположения (Ioca-lion update), что открывает для оператора сотовой связи широкие возможности по анализу перемещения своих абонентов. Актуальной становится задача превращения последовательности фрагментов информации о местоположении индивидуума в последовательность рёбер (путь) на заранее заданном графе, моделирующем транспортную сеть географической области. В англоязычной литературе такая задача носит название «шар matching» (сопоставление с картой).

Существует несколько подходов к решению задачи тар matching: геометрический, учитывающий только близость геометки к рёбрам графа, топологический, принимающий во внимание также связность рёбер графа и вероятностный, учитывающий, помимо вышеупомянутого, вероятности перемещении между элементами графа [1]. Часто в основе вероятностного подхода лежат скрытые марковские модели (СММ). Концепция СММ была предложена ещё в 1970-х годах коллективом учёных во главе е Л. Баумом. Изначально СММ применялись для распознавания речи, затем, начиная с 1980-х годов СММ стали применять в биоинформатике, например, при анализе цепочек ДНК. В настоящий момент СММ часто используются для анализа сигналов, а также в задачах, где моделируемый случайный процесс схож со структурой СММ [2].

Несмотря на большое количество публикаций по задаче map matching, в том числе использующих СММ, в большинстве из них в качестве исходных последовательностей сигналов используются данные GPS (global positioning system -глобальная система навигации), которые являются намного более частыми и точными, чем регистрации в мобильной сети |3]. Исключение составляет, например, работа [4], где СММ используются для анализа мобильных данных. Тем не менее, ни в одной из ранее опубликованных работ не рассматривается случай, когда между двумя последовательными регистрацнями в мобильной сети не удается проложить путь с учётом заданного ограничения на длину пути, кото-рос неизбежно приходится вводить при массовом анализе передвижения миллионов пользователей мобильной связи.

Таким образом, версия задачи map matching, основанная Fia СММ, использующая последовательности регнетрацнй в мобильной сети, а также допускающая пропущенную информацию о пути по графу между последовательными регистрацнями, является малоизученной. Данная работа ставит целью восполнить данный пробел.

Постановка задачи

Для корректной постановки задачи необходимо в первую очередь привести краткие сведения о принципе устройства мобильной сети, которая генерирует анализируемые сигналы. Непосредственно оборудование сотовой связи устанавливается на базовые станции (БС), представляющие собой в случае outdoor (уличных) БС вышки с антеннами в верхней части. Пример типичной БС, расположенной в городе, пред-

ставлен на рнс. I а), а пример типичной БС, расположенной за городом, представлен на рнс. 1 б).

Й

1'нс, 1,а- Пример типичной городской базовой станции сотовой спичи, б Пример типичной загородной базовой станции сотовой

связи

Базовая станция, как правило, имеет три антенны, угол между азимутами направления которых составляет 120 градусов, благодаря чему БС покрывает всю поверхность вокруг себя. Одна антенна покрывает один участок земли, называемый сектором или сетевым элементом. Базовые станции располагаются таким образом, что их секторы образуют структуру из примыкающих друг другу гексагонов. напоминающую пчелиные соты (см. рис. 2),

Здесь треугольниками показаны базовые станции, стрелками показаны азимуты антенн БС. секторами кругов показаны сектора покрытия, а пунктирными линиями - шестиугольники воображаемых сот. Однако стоит учитывать, что данная схема идеализированная, и в реальности покрытия секторов пересекаются, имеют неправильную форму и подвержены влиянию ландшафта, строений, растительности и имеют прочие недостатки. На практике полигоны покрытия секторов описываются полигонами, которые строят радиопланировщики исходя из мощности антенн и особенностей местности. Базовые станции объединяются в группы, называемые location area (зона местоположения) для быстрого поиска абонента в сети,

зз

Географическое положение мобильного устройства абонента можно определить во время следующих событий (условимся называть их peí истрапнямн): входящего или исходящего голосового звонка, входящего или исходящего SMS-сообщения (SMS - short message service), во время генерации устройством интернет-трафика, а также во время процедуры location update (емены юны местоположения) или сокращенно LU, которая происходит при включении устройства илй переходе устройства из одной зоны местоположения в другую. I [рнчем, сложность состоит в том, что фактически в момент события положение устройства можно определить Только с точностью до сектора мобильной связи, в котором произошло событие.

Простым решением для восстановления истинного маршрута абонента является соединение центроид носледова-тельных во времени регистрации абонента. Однако данное решение позволяет получить лишь очень грубый и приблизительный маршрут, который значительно отличается от реального маршрута абонента. Гораздо более точно маршрут можно восстановить, сопоставив информацию о последовательных per и с грациях абонентов с графом автомобильных дорог и пешеходных путей. Идея заключается в том, чтобы выбрать наиболее вероятную последовательность рёбер графа, исходя из последовательности регистрации, для каждой из которых известен полигон покрытия сектора и время регистрации. Данная задача, по сути, сводится к задаче, называемой map matching (сопоставление с картой). Пример траектории фактического перемещения абонента, а также покрытий секторов регистрации абонента во время этого перемещения и их соотношения с транспортным графом« представлен на рис. 3.

Рис. 3.1 IpiiMep фрагмента транспортного графе с наложенными из пего покрытиями секторов, на которых последовательно peí ист pupo вале я абонент

Тонкими сплошными линиями Показаны рёбра графа, Жирными сплошными линиями показаны рёбра графа, по которым фактически двигался абонент, причём стрелка соответствует направлению движения, пунктирные окружности соответствуют покрытию сетевых элементов, на которых зарегистрировался абонент, а цифра в центре окружностей означает порядок регистрации ко времени.

Таким образом, задача состоит в том, чтобы по последовательности регистрамий абонента в мобильной сети выбрать наиболее вероятный маршрут ею передвижения по i ране нор гному графу. В данной работе используется транспортный граф, взятый из открытого картографического сервиса OSM (Open Street Maps) |5|.

Алгоритм декодирования маршрута с использованием С'ММ

Пусть дана последовательность регистрации мобильного устройства абонента на секторах мобильной сети

0 = \ot=(Pr с,) |£■ е Я\ ^ с Я V = ' гле наблвдде-

нне о, t = t,ií¡ характеризуется временем регистрации /, полигоном покрытия сектора PtczR', а также координатами базовой станции с е К:-

Также пусть дан направленный граф £? = {состоящий из набора вершин — | у е /?: | / = I. A'r j с известными географическими координатами, а также набора ребер, соединяющих пары вершин

4=к={£м)А}

VjíV, £ Vr wk е Я

,k = hKG}-

причём для каждого реора известен его вес, который интерпретируется как его длина в километрах е ¡1.

Необходимо найтв такую последовательность вершин -¡г', .V, }• которая с наибольшей вероятностью соот-

ветствует последовательности регистрации О.

Далее приводится предлагаемый алгоритм решения данной практической задачи с помощью скрытых марковских моделей:

I) для каждого наблюдения Г =/,, Г, найдём его вероятность при условии нахождения абонента в момент времени / на одной из вершин ¡рафа /;(о, | V,), (' = 1, * = . Дтя расчёта вероятности будем использовать отдалённость вершины от координат базовой станции С,, считая её наиболее вероятным местом нахождения абонента, при этом для вершин, не попадающих н область полигона, будем считать данную вероятность равной нулю:

1 1 " - И -

р(о, к)=

где оператор

л[Ьга

[О, у^Р,

«означает длину ортодромии (краг-

прмодрамШ

чаншего расстояния) между двумя точками на земной поверхности, и где присутствует неизвестный параметр ст, который можно интерпретировать как среднее расстояние между центр о идой покрытия сектора, на котором зарегистрировался абонент, и его фактическим местом нахождения в данный момент. Процедура оценивания параметра а будет рассмотрена в следующем разделе;

2) для каждой пары последовательных наблюдений (о, ,О, ), г — 1,Г рассчитаем вероятность перехода абонента из одной из вершин графа г., попадающей в полигон покрытия в момент времени г , в любую другую вершину графа (в том числе ту же самую) попадающую в политой покрытия в момент времени / 1:

е ,vteP,uvf б/J "3it;L еИ'

, г, £ il'IU y, £ ^ | iwM-i3)t; „ e W

p',.(vi*vj) =

что соответствует экспоненциальному распределению, где

IV - длина кратчайшего пути от вершины г до вершины

V транспортного графа С, а IV - множество всех кратчайших путей между парами вершин, которые возможно построить па г рафе С. Если пути между вершинами не удаётся найги, то вероятность перехода также считается нулевой. Процедура оценивания параметра экспоненциального распределения: /? будет рассмотрена в следукЯцем подразделе.

Поскольку разрабатываемый алгоритм предполагается использовать для декодирования маршрутов миллионов абонентов на реальном транспортном графе, содержащим огромное количество вершин (для оценки масштабов, ОХМ граф дорог города Москвы в пределах МКАД содержит около миллиона вершин), поиск пути между вершинами должен производиться с учётом определённых ограничений на максимальную возможную длину пути, В данной работе предлагается использовать ограничение, пропорциональное расстоянию между координатами последовательных базовых станции. Таким образом, между вершинами, соответствующими каждой паре последовательных наблюдений Го( , о, ). т ~\,Т будет производится поиск путей длиной

I ю более £. с _ ^ , где С > 1 - некоторая кон-

етанта, которую можно интерпретировать как множитель, позволяющий учесть тот факт, что путь по графу как правило длиннее прямого расстояния между базовыми станциями.

Вводимое таким образом ограничение неизбежно приводит к ситуациям, когда между вершинами, принадлежащими некоторым парам последовательных наблюдений, не получается построить ни одного нуги по графу. Существует два выхода из данной ситуации. В первом случае можно отказаться от восстановления маршрута между данной парой регистрации и смириться с получившимся разрывом в маршруте, а во втором случае каким-либо образом попытаться восполнить данный пропуск и проложить наиболее правдоподобны й маршрут. Особенность данной работы заключается в том, что используется именно второй вариант борьбы с пропусками. Идея заключается в том, чтобы присвоить переходам между каждой парой вершин некоторую константную вероятность (например, единицу) [6]. Таким образом, при дальнейшем декодировании наиболее вероятной последовательности данный переход пе будет отдавать предпочтение определённой паре вершин, но при этом будет выбрана такая пара вершин, которая наиболее соответствует общему пути. Введём формулу вычисления модифицированных вероятностей переходов р I' ), учитывающих

рассмотренную выше ситуацию:

1, - (31*3/ : 3 v с- IV }HV¡ePr и v; e ^ 0, (Э/3/ : 3 w(i, e IV) it ( v. t P, или г, г P, )

i,J=Jfa t = tj

3) для восстановления наиболее вероятной последовательности рёбер графа применим концепцию скрытых марковских моделей. В качестве скрытых состояний будут выступать вершины графа г , г = I, Л^ . в качестве наблюдений - регистрации абонента о, 1Т ■ в качестве распределения наблюдено й Ь (о,) вероягности | у;), / = 1,Л'(:/,Г=/|,Гг, в качестве распределения начального скрытого состояния Щ = Р(ЯI =10 вероятность р^о, | V, ). ¿ = , а в качестве вероятностей переходов из одного скрытого состояния в другое а модифицированные вероятности переходов

P*,(ví,vJ), i,j=UÑG, t = t2jT-

4) благодаря построению такого соответствия между элементами задачи и элементами СММ, как в пункте 3 алгоритма, становится возможным проводить декодирование последовательностей с пропущенными переходами с помощью модифицированного алгоритма В п герб п. основанного на стандартном алгоритме Внтербп |7J, в результате применения которого можно получить наиболее вероятную последовательность скрытых состояний (вершин графа в терминологии задачи): |у( ,vf_____v, ¡ ■

Модифицированный алгоритм Витерби (для упрощения записей вместо индекса /. будем использовать индекс / = г,

который можно интерпретировать как порядковый помер наблюдения):

пусть необходимо найти (декодировать) наиболее вероятную последовательность скрытых состояний

Q — | Vi,..., Vt | 110 наблюдаемой неполной последовательности О' ......В таком случае модифицированный

алгоритм Внгерби, решающий данную задачу, состоит из следующих шагов:

а) инициализация:

Sí{i) = jr,bl{ol), ц/,(/)=о, /=Ov;

б)индукция:

Isis /V J

Щ ( j )~ aromaxПф ,{í)aw], J = IN, t = 2,T-

в) завершение-:

vt =aígmax[dy{/)];

г) рекурсивное определение наиболее вероятной последовательности скрытых состоянии:

Ч< t = T-1, ь

После завершения алгоритма получим сформированную наиболее вероятную последовательность скрытых состояний: q _ _... ^ j. Следует обратить внимание, что отличие модифицированного алгоритма Витерби от оригинального заключается в том, как вычисляются вероятности переходов св случаях, когда не удаётся найти ни одного

пути по графу между вершинами в момент t— 1 н t,

5) после декодирования оптимальной последовательности вершин следует достроить оптимальный путь по графу между последовательными вер! ни нам и у и у в виде про-

Л 'г

межуточных вершин с неизвестным временем. Данный путь вычисляется на графе без каких-либо ограничений на его длину. Если даже в гаком случае не удаётся найти ни одного пути между парой вершин, то маршрут разбивается на два отдельных. Неизвестное время у каждой из промежуточных вершин можно восстановить но известному фактическому времени между регистрация ми пропорционально весу рёбер в нуш, ведущем к промежуточной вершинам. Таким образом, в итоге можно восстановить полный путь абонента по

графЧ V Л ЛЛ, • Л i -

Описание эталонных данных и оценивание

неизвестных параметров

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В качестве фактической траектории движения предлагается использовать анонпмнзировапные данные, собранные с помощью специального приложения, устанавливаемого на телефоны, которое в момент регистрации устройства на базовой станции позволяет установить имя сектора, на котором произошла регистрация, время регистрации и GIJS-координаты устройства в момент регистрации. Получаемую с помощью такой процедуру последовательность данных можно формализовать следующим образом:

где в каждый момент времени к данным регистрации, описанным в предыдущем подразделе, добавляется GPS-координата z! устройства абонента в этот момент.

С помощью эталонных данных становится возможным оценить неизвестные параметры распределений ст и ($, присутствующие в алгоритме, описанном а предыдущем подразделе:

]) для оценивания параметра а воспользуемся робаст-ной оценкой MAD (median absolute deviation — медианное абсолютное отклонение) неизвестного стандартного отклонения нормального распределения ¡X

а = 1.4826 медиана (lie.-zr\\ )• Ш

2) для оценивания параметра /? воспользуемся робаст-нон оценкой параметра экспоненциального распределения, предложенной в [9]

ß = —-—г медиана ( IШ,-, IV ^

In (2) г=П7 У ''

где у е у т = \,Т - наиболее вероятная вершина графа в момент времени / при условии наблюдения последовательности О . Последовательность наиболее вероятных вершин можно подучить с помощью алгоритма шар match1 ing, описанного в предыдущих разделах за исключением того, что вместо полигона покрытия Pt и центроиды с, всегда использовать GPS-координаты z,.

Альтернативным способом подбора оптимальных параметров распределений а и ß является подбор данных параметров но Сетке л о тех пор, пока не будет достигнута максимальная метрика качества, алгоритм расчета которой будет приведён в следующем разделе.

Алгоритм расчёта метрики качества решения задачи

map matching

Для Оценивания качества решения задачи map matching необходимо разработать метрику, которая учитывает как пространственное, гак и временное различие между фактической траекторией движения абонента и восстановленным полным путём по транспортному графу. "За основу предлагаемого в данной работе алгоритме расчёта метрики было взято расстояние Френте |10|. которое позволяет оценить меру сходства двух кривых. Интуитивно расстояние Фреше между двумя кривыми можно интерпретировать как минимальную длину поводка, которая необходима для того, чтобы хозяин собаки, двигающийся но одной кривой, и собака, двигающаяся по другой кривой, смогли пройти свои кривые от начала до конца, В предлагаемой метрике алгоритм расчёта расстояния Фреше был значительно модифицирован, чтобы учитывать специфику задачи и вышеобозначеииые требования к метрике.

Пусть дана эталонная траектория движения О абонента и восстановленный путь движения абонента по графу

Ö=li" О у V г V V 1- Необходимо найти

» 1 V 'м * Vi " • - V hi ' h.i "\f

среднее отклонение между эталоном и восстановленной последовательностью ИЗ наблюдаемых в одинаковый момент времени с/. а также процент точек образца, для которых не нашлось соответствующего по времени отрезка точек восстановленного трека J .

Приведём далее алгоритм вычисления данного отклонения:

0) Инициализируем счётчик количества точек образца, для которых не нашлось соответствующего по времени отрезка точек восстановленного трека: J = 0;

1) для каждою элемента z. £ О и V, е V ■

1.1) найдём пару соответствующих ему по времени элементов из другой последовательное I и, удовлетворяющих условию V < z < V ДЛЯ 2 , и г- < V < - ДЛЯ V,;

К ' 'г+i ' h ' **'Гт| '

1.2) если пара элементов в пункте 1.1 была найдена,

то найдём точку, соответствующую времени i на другой

V, - \>

последовательное'!

для z, или

юш: v'-v +(/-/ Wm--

х =zj+[t~ I Д-'1Я Я;

' i —i 'г+1 'г

если пара наблюдений в пункте 1.1 не была найдена для точки образца z . то увеличим на единицу счётчик; J = J + )

1,3) вычислим отклонение, равное

í/^Hi'-zJ ДЛЯ Z, или ¿(v^eL'-vJ

для v:;

2)найдём медианное отклонение j - inedigtf die)-

i t О üy,

3) получим процент точек трека-образца, для которых не Нашлось соответствующей точки на восстановленном треке:

J= 10()4%-

f -у

Далее, при наличии множества траекторий О' - 1,К и множес тва соответствующих им отклонений dk и процентов пропусков ,/', можно агрегировать их в единую метрику, например, взяв от них медиану: L¡ = median dí >

к

J ~ median./' ■

п t '

Вычислительные эксперименты

Эксперимент проводился для 2000» анонимдаированных суточные треков, которые содержали регистрации на базовых станциях, находящихся в пределах МКАД г. Москвы, и для которых имелись соответствующие GPS-треки образцы.

В первом эксперименте проводится сравнение двух версий алгоритма декодирования маршрута: в первом случае при отсутствии хотя бы одного пути по графу между двумя последовательными регистрациями в треке, такой трек разбивается на два трека, каждый из которых декодировался бы отдельно е помощью стандартного алгоритма Витерби, а во втором случае используем модифицированный алгоритм Витерби для устранения таких разрывов в маршрутах. Измерим процент точек трека-образца, для которых не нашлось соответствующей точки на восстановленном треке j в обо-

их случаях (см. табл. i ).

Таблица I

Сравнение стандартной версии алгоритма Вигерби, не обрабатывающий неизвестные вероятности переходов и модифицированной, устойчивой к таким ситуациям

Используемая метрика Стандартный алгоритм Витерби Модифицированный алгоритм Витерби

Процент точек г река-образца, для которых не на га лось соответствующей точки на восстановленном треке 51,1% 82,5%

Как видно, модифицированный алгоритм Витерби, способный обрабатывать неизвестные вероятности переходов позволяет увеличить покрытие точек образца более чем иа 30%. при этом сохранив ограничение на максимальную длину пути по графу.

Во втором эксперименте приводятся результаты подбора оптимальных оценок параметров распределений <т и Я,

используемых в алгоритме декодирования маршрутов с помощью модифицированного алгоритма Витерби. Значение параметра а варьировалось от 0,5 до 3, а значение параметра р от 0,5 до 2, при '.пом для каждой комбинации параметров вычислялась метрика качества d - медианное отклонение между декодированным треками И греками-образцами в метрах. Результаты данного эксперимента приведены на рис 4.

Медианное отклонение, м

Рис. J. Подбор Оптимальных параметров распределений и алгоритме декодирования Маршрутов

Как видно, оптимальной комбинацией параметров является <т = 2. 0= 1. Оптимальность найденной опенки параметра а была также подтверждена с помощью формулы ( 1 ): согласно ней была получена оценка параметра <т = 2.12. В то же время вычисление параметра р по формуле (2) произведено не было, так для этого необходимо проводить процедуру тар matchîng уже на греках-образцах, что требует в свою очередь подбора параметров распределений, а это невозможно сделать без более точного образца.

Во третьем эксперименте проводится сравнение алгоритма декодирования оптимального маршрута, использующего скрытые марковские модели, и простого алгоритма, соединяющего координаты базовых станций в том порядке, в котором они встречаются в греке. Для каждого из исходных греков был получен наиболее вероятный маршрут с помощью алгоритма декодирования маршрута, основанного на СММ, а также с помощью простейшего последовательного соединения координат базовых станций между собой. Качество подученных маршрутов в обоих случаях оценивалось с помощью медианного отклонения с/ между декодированным треками и треками-образцами в метрах. Результаты данного эксперимента приведены в табл. 2-

Таблица 2

Сравнение алгоритма декадпронаиия оптимального маршрута, использующего СММ, и простого алгоритма, соединяющего координаты базовых станций

1 leпользуемая метрика Алгоритм на основе СММ Алгоритм, соединяющий координаты БС

Медианного отклонения между декодированным треками и треками-образцами, м 279 732

Как видно, алгоритм, использующий вероятностный подход на основе СММ, позволяет увеличить точность более чем а 2,5 раза но сравнению с простым алгоритмом, соединяющим координаты КС, и ire учитывающим транспортный граф.

В данной работе было представлено решение задачи декодирования наиболее вероятного пути движения но транспортному графу на основе последовательности регистрации в мобильной сети. Особенность данного алгоритма заключается в том, что он работает с данными регистрации в мобильной сети, а не GPS, а также устойчив к неполноте данных. Было показано, что его использование для решения данной задачи позволяет достичь увеличения точности более чем в 2.5 раза, по сравнению с простым алгоритмом соединения координат базовых станций последовательных регистрации абонента. Был представлен модифицированный алгоритм Витерби, используемый упомянутым выше алгоритмом, а также продемонстрировано, что его использование позволяет находить маршрут даже для тех участков, где не удаёгся построить путь по графу с учётом заданных ограничений. Данное свойство позволяет оптимизировать вычисления, при этом существенно увеличив процент покрытия суточного передвижения абонента по сравнению со стандартным алгоритмом Витерби (более чем на 30%).

Дальнейшая работа над улучшением алгоритма включает в себя использование в вероятностной модели силы сИгнала, скорости и времени движения, сложности транспортных развязок п перекрёстков, приоритета дорог, что позволит не только увеличить точность алгоритма, но и определять тип транспортного средства, В данный момент проводится финальное тестирование новой версии алгоритма, учитывающей перечисленные факторы, которая позволит уменьшить отклонение до 100 метров.

Литература

!, Ouddus МЛ.. Ochieng W.Y., NolandK.B. Current map-mat chin у algorithms tor transport applications: Stale-of-1 lie art and Future research directions // Transportation Research Part C: Emerging Technologies, vol. 15. iss, 5, 2007. pp. 312-328,

2, Rabiner L.R. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition // Proceedings of the ШЕЕ, vol. 77, 1489. pp. 257-285.

3, New son P.. Krwnm J. Hidden Markov Map Matching Through Noise and Sparseness // Proceedings of the 17th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems, 2009. pp, 336-343.

4, Algizawy E. and Ogowa T. and El-Mahdr A. Real-Time Large-Scale Map Matching Using Mobile Phone Data // ACM Trans. Know], Discov, Data, vol. 11. no. 4, 2017. pp. 52:1-52:38.

5, Open Street Map contributors (2019), Open Street Maps, [Online], available at: https:/Avwv».OpeH3lreetmap.org. (accessed Ifi April 2019).

6, Uwrov V.E.. Popov A. A., Guliyaeva T.A. User Identification from Incomplete Motion Data Using Hidden Markov Models// 14th International Conference on Actual Problems of Electronic Instrument Engineering Proceedings, vol. 1,2018, pp. 327-329,

7 Viterhi A.J. Error bounds for convolutions! codes and an asymptotically optimum decoding algorithm // IEEE Transactions on Information Theory, vol. 13, iss. 2, 1967, pp. 260-269.

S. Roussqeuw P.J., Craitx C. Alternatives to the median absolute deviation 11 Journal of the American Statistical Association, vol. 88, no, 424, 1993, pp. 1273-12 S3.

9. Gather U., Sclmltne V. Robust estimation of scale of an exponential distribution // Statistica Necrlandica, vol, 53, iss. 3, 1999. pp. 327-341.

10. Eiter Т., Mannila H. Computing discrete Fie the l distance И Tech. Report CD-TR 94/64, Christian Doppler Laboratory for Expert Systems, 1994.

Заключение

DECODING THE OPTIMAL ROUTE ON TRANSPORT GRAPH USING CELLULAR DATA

Vadim E. Uvarov, Tele2, Moscow, Russia; Novosibirsk State Technical University, Novosibirsk, Russia, uvarov.vadim42@gmail.com Dmitry V. Kurgansky, Tele2, Moscow, Russia, dmitry.kurgansky@tele2.ru Alexander A. Popov, Novosibirsk State Technical University, Novosibirsk, Russia, alex@fpm.ami.nstu.ru Artem A. Klimov, Tele2, Moscow, Russia, artem.klimov@tele2.ru Anton S. Merzlyakov, Tele2, Moscow, Russia, anton.merzlyakov@tele2.ru

Abstract

The article presents a novel algorithm for optimal route decoding on transport graph using cellular data which uses probabilistic approach based on hidden Markov model. The distinctive feature of the proposed algorithm is that it can process sequential cellular data that consists of highly sparse call data records (CDR) instead of far more accurate GPS-data. Another feature is that this algorithm is able to cope with incomplete data in case when no path on graph can be found between the consecutive CDRs thanks to the proposed modified Viterbi algorithm. The algorithm was evaluated using anonymized CDRs and corresponding test GPS-data. The evaluation showed that the presented method is 2.5 more accurate than the simple algorithm that connects the coordinates of cell towers in order of their appearance. Also, it was shown that modified Viterbi algorithm allows to cover 30% more of test GPS-data points in comparison with of the standard version. In addition, the experimental data was presented that confirms the choice of hyperparameters used for the algorithm and one of the optimal hyperparameters was calculated with the alternative formula which also agrees with the evaluation data. Further work includes adding signal strength, speed, time, route complexity, road priorities and other factors to probabilistic model which will not only improve the algorithm accuracy but will also allow the transport type classification. The preliminary tests of the new version of algorithm shows that the error can be lowered down to 100 meters.

Keywords: hidden Markov models, incomplete data, telecommunication, machine learning, data science.

References

1. Quddus M.A., Ochieng W.Y., Noland R.B. (2007). Current map-matching algorithms for transport applications: State-of-the art and future research directions. Transportation Research Part C: Emerging Technologies, vol. 15, iss. 5, pp. 312-328.

2. Rabiner L.R. (1989). A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. Proceedings of the IEEE, vol. 77, pp. 257-285.

3. Newson P., Krumm J. (2009). Hidden Markov Map Matching Through Noise and Sparseness. Proceedings of the 17th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems, pp. 336 343.

4. Algizawy E. and Ogawa T. and El-Mahdy A. (2017). Real-Time Large-Scale Map Matching Using Mobile Phone Data. ACM Trans. Knowl. Discov. Data, vol. 11, no. 4, pp. 52:1 52:38.

5. OpenStreetMap contributors (2019). Open Street Maps, [Online], available at: https://www.openstreetmap.org, (accessed 16 April 2019).

6. Uvarov V.E., Popov A.A., Gultyaeva T.A. (2018). User Identification from Incomplete Motion Data Using Hidden Markov Models. 14th International Conference on Actual Problems of Electronic Instrument Engineering Proceedings, vol. 1, pp. 327-329.

7. Viterbi A.J. (1967). Error bounds for convolutional codes and an asymptotically optimum decoding algorithm. IEEE Transactions on Information Theory, vol. 13, iss. 2, pp. 260-269.

8. Rousseeuw P.J., Croux C. (1993). Alternatives to the median absolute deviation. Journal of the American Statistical Association, vol. 88, no. 424, pp. 1273-1283.

9. Gather U., Schultze V. (1999). Robust estimation of scale of an exponential distribution. Statistica Neerlandica, vol. 53, iss. 3, pp. 327-341.

10. Eiter T., Mannila H. (I994)ro Computing discrete Fr?chet distance. Tech. Report CD-TR 94/64, Christian Doppler Laboratory for Expert Systems.

Information about authors:

Vadim E. Uvarov, data scientist, Tele2, Moscow, Russia; postgraduate studentb, Novosibirsk State Technical University, Novosibirsk, Russia Dmitry V. Kurgansky, data scientist, Tele2, Moscow, Russia

Alexander A. Popov, PhD, professorb, Novosibirsk State Technical University, Novosibirsk, Russia

Artem A. Klimov, senior data scientista, Tele2, Moscow, Russia

Anton S. Merzlyakov, head of big data departmenta, Tele2, Moscow, Russia

i Надоели баннеры? Вы всегда можете отключить рекламу.