Научная статья на тему 'Обзор методов машинного обучения в задаче классификации водителей'

Обзор методов машинного обучения в задаче классификации водителей Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
машинное обучение / классификация водителей / поведение водителей / источник данных / микроэлектромеханическая система / мониторинг водителей / стиль вождения / анализ поведения

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Р.Р. Киямов, М.С. Мосева

Обнаружение агрессивного и аномального поведения водителей, которое зависит от множества внешних и внутренних факторов, является критически важным направлением для повышения безопасности дорожного движения. В данной статье представлен обзор методов машинного обучения, применяемых в задаче классификации поведения водителей. Проведен анализ сильных и слабых сторон существующих методов машинного обучения, представлены различные подходы к постановке и решению задачи классификации, рассмотрены используемые источники данных и соответствующие технические средства. Отдельное внимание уделено анализу роли датчиков микроэлектромеханических систем и их вклада в точность и эффективность классификации поведения водителей. Данный обзор представляет собой анализ текущего состояния исследований в данной области и способствует выявлению потенциальных направлений для будущих работ.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Обзор методов машинного обучения в задаче классификации водителей»

Обзор методов машинного обучения в задаче классификации водителей

Р.Р. Киямов, М.С. Мосева Московский технический университет связи и информатики

Аннотация: Обнаружение агрессивного и аномального поведения водителей, которое зависит от множества внешних и внутренних факторов, является критически важным направлением для повышения безопасности дорожного движения. В данной статье представлен обзор методов машинного обучения, применяемых в задаче классификации поведения водителей. Проведен анализ сильных и слабых сторон существующих методов машинного обучения, представлены различные подходы к постановке и решению задачи классификации, рассмотрены используемые источники данных и соответствующие технические средства. Отдельное внимание уделено анализу роли датчиков микроэлектромеханических систем и их вклада в точность и эффективность классификации поведения водителей. Данный обзор представляет собой анализ текущего состояния исследований в данной области и способствует выявлению потенциальных направлений для будущих работ.

Ключевые слова: машинное обучение, классификация водителей, поведение водителей, источник данных, микроэлектромеханическая система, мониторинг водителей, стиль вождения, анализ поведения.

Введение

В современном мире наблюдается беспрецедентный рост количества транспортных средств, что влечет за собой повышение требований к управлению дорожным движением и обеспечению его безопасности. Статистические данные подчеркивают актуальность этой проблемы: ежедневно в дорожно-транспортных происшествиях погибает около 3700 человек, что в годовом исчислении составляет более 1,35 миллиона человек [1]. Ключевой причиной большинства аварий является человеческий фактор, включая стресс, усталость и агрессивное поведение водителей.

Классификация водительского поведения является сложной задачей, так как она зависит от множества внешних и внутренних факторов. Эти факторы могут быть разделены на три основные группы: контекст, связанный с водителем (включая эмоциональное состояние и внешние отвлекающие факторы), контекст транспортного средства (затрагивающий такие параметры, как скорость, ускорение и положение транспортного

средства), а также контекст окружающей среды (включающий дорожные условия, препятствия и погодные условия).

Современные решения опираются на анализ движения для выявления агрессивных действий водителя, таких, как резкое торможение, ускорение или неожиданные повороты. Ранние методы анализа основывались на использовании спутниковой системы навигации (GPS) для определения местоположения и скорости, но они могли быть подвержены неточностям или пробелам в данных, особенно в зонах с плохим сигналом, например, в туннелях. Тем не менее общим для всех этих методов является отслеживание действий водителя во времени и формирование паттерна его поведения на основе данных, получаемых от датчиков микроэлектромеханических систем (MEMS).

Использование методов машинного обучения имеет большой потенциал в задаче классификации водителей. Благодаря развитию технических средств, таких, как смартфоны и специализированные автомобильные модули, сбор данных о поведении водителей стал более доступным. Этот прогресс открывает новые возможности для применения машинного обучения в целях классификации водителей по их стилю вождения и идентификации потенциально опасных ситуаций на дороге.

Использование методов машинного обучения для классификации водителей представляет собой актуальную и многообещающую область, способную принести пользу обществу путем повышения безопасности дорожного движения и уменьшения рисков, связанных с опасным поведением за рулем.

Цель данной работы - обзор методов машинного обучения для классификации водителей по стилю вождения и идентификации потенциально опасных ситуаций на дороге.

Задача классификации водителей

Изучению водительского поведения в значительной степени способствовали различные модели и теории, основанные на психологии, социологии и изучении человеческого фактора. Эти теоретические подходы предоставляют всестороннее понимание когнитивных, аффективных и социальных аспектов, влияющих на поведение людей на дороге.

Теория запланированного поведения (Theory of Planned Behavior, TPB), например, утверждает, что намерения водителей определяются установками, субъективными нормами и воспринимаемым контролем над своим поведением [2]. Модель веры в здоровье (Health Belief Model, HBM) нашла применение для понимания водительского поведения, связанного с восприятием серьезности угрозы здоровью и оценкой преимуществ ее предотвращения [3]. Помимо TPB и HBM, модель стресса водителя исследует как психологические стрессоры, такие как пробки, нехватка времени и внешние раздражители влияют на принятие решений и эффективность вождения [4].

В то время как модели и теории предоставляют концептуальное понимание, проявлением этих психологических и социологических факторов на дороге является стиль вождения - комплексное и разностороннее понятие, охватывающее широкий спектр наблюдаемых форм поведения и привычек, проявляемых людьми за рулем. Каждый водитель обладает уникальными особенностями в своем подходе к вождению:

- предпочтения в скорости могут зависеть от личности, готовности к риску и воздействия внешних факторов;

- стратегии удержания полосы движения могут отражать уровень уверенности, внимательность и соблюдение правил дорожного движения;

- время реакции на раздражители, такие как сигналы светофора или неожиданные события, могут быть обусловлены возрастом, опытом и когнитивными способностями.

Окружающая среда влияет на изменение водительского поведения:

- плотность движения может вызывать частые торможения, смены полос движения и уменьшение расстояния между автомобилями;

- погодные условия, такие, как дождь, снег или туман, могут склонить водителей действовать более осторожно;

- характеристики дороги, такие, как повороты, перекрестки и качество дорожного покрытия, могут вынуждать водителей принимать нетипичные решения.

Внешние раздражители также меняют поведение:

- автомобильные навигационные и развлекательные системы могут влиять на внимание водителя;

- мобильные устройства во время вождения являются значительным источником отвлечения;

- дорожные знаки, светофоры и другие сигналы вызывают различную реакцию водителей.

Стиль вождения формируется в результате сложного взаимодействия индивидуальных особенностей, воздействия окружающей среды и внешних стимулов.

Классификация представляет собой ключевую концепцию, соединяющую необработанные данные и практические выводы при исследовании поведения водителя. Классификация в контексте анализа поведения водителя представляет собой процесс категоризации водителей на основе проявлений поведения во время движения по дороге.

В начале эволюции анализа поведения водителей основную роль играли традиционные методы классификации, работающие на основе правил,

и статистические подходы. Динамичный и контекстуально зависимый характер поведения водителей создает сложности, требующие применения более сложных подходов. Использование методов машинного обучения значительно продвинуло вперед классификацию поведения водителей, предоставив мощные инструменты для выявления сложных закономерностей и получения информации из различных наборов данных о вождении.

При большом количестве преимуществ методы машинного обучения обладают и рядом недостатков. Эффективность моделей машинного обучения сильно зависит от качества и количества обучающих данных. Недостаточные или предвзятые данные могут привести к неоптимальным моделям. Сложные модели машинного обучения, особенно глубокие нейронные сети, могут столкнуться с проблемой отсутствия интерпретируемости, что затрудняет понимание причин, лежащих в основе конкретных классификационных решений.

Источники данных и технические средства

Качество, тип и детализация данных непосредственно влияют на точность и эффективность моделей классификации. Для классификации водителей используются следующие виды данных [5]:

- GPS-данные содержат информацию о скорости и маршрутах. Точность может колебаться в зависимости от местоположения устройства;

- данные о движении с акселерометров и гироскопов показывают изменения линейной и угловой скорости. Определение направления движения с помощью магнитометра может дополнять данные GPS;

- видеоданные камер обогащают контекст вождения, позволяя наблюдать за взаимодействием водителя с окружающей средой. Эффективность систем на основе камер может снижаться при плохом освещении или неблагоприятных погодных условиях;

- телематические данные охватывают широкий спектр параметров автомобиля, что помогает понять технические аспекты вождения. Например, данные о работе двигателя помогают в оценке стиля вождения и характеристик управляемости;

- дополнительные типы данных, например, данные о погоде и дорожном движении дают представление о влиянии окружающих условий на поведение водителя.

Для выделения значимой информации из необработанных зашумленных данных используются следующие методы:

- использование низкочастотных, высокочастотных и полосовых фильтров для удаления шума и нерелевантных частот;

- применение алгоритмов сглаживания, таких, как скользящее среднее или размытие по Гауссу, для уменьшения случайных колебаний и выделения основных тенденций;

- разложение сигнала на частотные компоненты с помощью преобразования Фурье для анализа периодических закономерностей, таких, как вибрации двигателя;

- расчет основных статистических показателей (среднее, медиана, дисперсия) для обобщения данных, например, средней скорости и ускорения;

- использование методов автокорреляции и взаимной корреляции для понимания временной динамики данных;

- приведение признаков к общему масштабу для унификации и устранения доминирования некоторых признаков из-за их масштаба;

- использование специализированных методов, таких как LSTM (Long Short-Term Memory), для анализа временных зависимостей в данных.

Для отбора признаков, которые будут наиболее эффективными для задачи классификации водителей, используются следующие подходы:

- метод главных компонент (Principal Component Analysis, PCA) эффективно сокращает размерность данных, выделяя основные компоненты, которые сохраняют большую часть вариативности в исходных данных;

- линейный дискриминантный анализ (Linear Discriminant Analysis, LDA) находит линейные комбинации признаков для оптимального разделения классов;

- удаление избыточных признаков, которые сильно коррелируют друг с другом, упрощает модель;

- отбор признаков на основе их взаимосвязи с целевым результатом для повышения информативности модели.

Для сбора данных используются следующие технические средства:

- смартфоны и планшеты широко доступны и портативны, что делает их экономически выгодным средством для массового сбора данных [6];

- специализированные бортовые устройства, которые обеспечивают сбор данных о характеристиках вождения, включая работу двигателя и скорость. Как правило обеспечивают более высокую точность данных.

Ключевые аспекты, обеспечивающие точность и достоверность информации:

- высокая точность датчиков обеспечивает получение надежных данных для анализа водительского поведения;

- данные высокого разрешения предоставляют более детальную информацию, но требуют больше ресурсов для обработки и хранения;

- регулярная калибровка датчиков гарантирует, что данные сохраняют свою точность со временем;

- очистка данных от шума и ошибок, таких, как неточности GPS;

- обработка недостающих данных, например через интерполяцию или прогнозирование;

- нормализация и стандартизация данных из разных источников к единому формату и масштабу.

В контексте машинного обучения для классификации водителей основным источником данных являются датчики микроэлектромеханических систем (Micro-ElectroMechanical Systems, MEMS). Существуют следующие типы датчиков MEMS:

- акселерометры, которые измеряют линейное ускорение в нескольких направлениях, критичны для анализа ускорения, торможения и оценки перегрузок при маневрировании;

- гироскопы, которые фиксируют данные о скорости вращения автомобиля, важные для понимания рулевого управления и устойчивости при маневрировании;

- магнитометры, которые измеряют магнитные поля для определения ориентации и направления и особенно полезны в условиях ограниченного доступа GPS.

Использование датчиков MEMS имеет множество преимуществ [7]:

- высокая точность и чувствительность, что является основой для построения эффективных моделей машинного обучения;

- широкий диапазон типов данных, что позволяет более полно анализировать поведение водителя;

- маленький размер датчиков MEMS облегчает их интеграцию в различные устройства;

- датчики потребляют очень мало энергии, что позволяет использовать их в мобильных устройствах;

- датчики MEMS относительно недороги, что делает их доступным вариантом для массового внедрения;

- непрерывный сбор данных позволяет детально анализировать временные модели вождения для точного профилирования водителя.

В качестве недостатков MEMS-датчиков можно выделить:

- необходимость калибровки для поддержания точности;

- чувствительность к температуре и вибрациям, что требует учета при анализе данных;

- сложность интерпретации необработанных данных.

MEMS-датчики являются эффективным способом сбора данных о

поведении водителя, обладая при этом малыми размерами, высокой эффективностью и точностью. Они отлично подходят для применения в задачах классификации водителей, от обнаружения элементарных событий до комплексного анализа моделей вождения.

Для исследований и разработки методов машинного обучения могут быть рассмотрены открытые наборы данных. Эти наборы данных могут содержать различную информацию, включая стиль вождения, поведенческие паттерны водителей, а также данные, полученные с помощью GPS и телематических устройств.

Одним из таких наборов является UAH-DriveSet, который представляет из себя более 500 минут данных реального вождения, собранных с использованием MEMS-датчиков смартфонов [8]. Он включает в себя данные, записанные в различных условиях вождения и поведения водителей, таких как нормальное, агрессивное и сонное вождение. Данный набор данных предлагает широкий спектр переменных, включая как базовые параметры движения, так и дополнительные данные GPS и видеоданные, что делает его особенно ценным для анализа поведения водителя.

Данные в UAH-DriveSet были собраны от водителей разных возрастных групп и с различными типами транспортных средств, включая полностью электрический автомобиль. Запись данных производилась на двух типах дорог: скоростная автомагистраль и обычное шоссе. Это обеспечивает комплексный подход к исследованию разнообразных стилей вождения и

повышает обобщающую способность исследуемых моделей машинного обучения.

Существующие методы машинного обучения

Машинное обучение, являющееся частью более широкого понятия "искусственный интеллект", включает в себя создание алгоритмов, дающих возможность компьютерам учиться и делать выводы или принимать решения на основе данных. В области классификации водителей, эти алгоритмы позволяют идентифицировать шаблоны и особенности, характерные для различных стилей вождения [9].

Обучение с учителем является обучением на данных, где каждому примеру соответствует конкретный желаемый результат. Этот подход находит особое применение в классификации водителей на основе анализа данных с датчиков MEMS. Основные методы [10]:

- деревья решений (Decision Tree, DT) делят данные на подмножества на основе атрибутов входных данных, создавая модель в виде дерева решений. Отличаются простотой интерпретации и понимания. В то же время обладают риском переобучения при сложных деревьях и нестабильностью при незначительных изменениях в данных;

- методы опорных векторов (Support Vector Machine, SVM) создают гиперплоскость или набор гиперплоскостей в многомерном пространстве для разделения разных классов. Обладают эффективностью в высокоразмерных пространствах и устойчивостью к переобучению при четком разделении классов. При этом не подходят для обработки больших наборов данных и имеют меньшую эффективность при перекрывающихся классах.

- нейронные сети, состоящие из множества слоёв взаимосвязанных узлов, корректируют связи между узлами в процессе обучения. Глубокое обучение включает сложные многоуровневые архитектуры для

моделирования сложных паттернов. Подходит для обработки многомерных данных датчиков, позволяя точно классифицировать стили вождения на основе сложных шаблонов. Отличаются гибкостью в моделировании сложных зависимостей и способностью обрабатывать большие объемы данных. Для эффективного обучения необходимо использовать большие объемы данных. Нейронные сети предъявляют высокие вычислительные требования и обуславливают необходимость специализированного оборудования.

Обучение без учителя представляет собой категорию методов машинного обучения, которые ищут закономерности в данных без заранее определенных меток. Эти методы особенно ценны в классификации водителей для выявления скрытых структур или шаблонов поведения, которые могут быть не очевидны на первый взгляд. Основные методы:

- алгоритмы кластеризации группируют объекты так, что в каждом кластере объекты похожи друг на друга больше, чем на объекты в других кластерах. Метод подходит для предварительного анализа данных без предварительно заданных категорий;

- метод главных компонент (Principal Component Analysis, PCA) сокращает размерность данных, преобразуя их в новый набор не коррелирующих переменных (главных компонентов), сохраняя при этом большую часть информации. Может привести к потере информации при отбрасывании компонентов с меньшей дисперсией.

Обучение с подкреплением (Reinforcement Learning, RL) представляет собой подход машинного обучения, где агент учится принимать решения взаимодействуя с окружающей средой. Этот метод основан на итерационном процессе проб и ошибок, где агент получает вознаграждения или штрафы за свои действия. Агент (например, модель вождения) взаимодействует с окружающей средой (например, симулятор вождения или реальные условия),

принимает решения (действия), основываясь на состоянии среды и получает вознаграждения или штрафы в зависимости от эффективности своих действий. Целью является максимизация суммарных вознаграждений. Агент разрабатывает стратегию (политику), которая улучшается с накоплением опыта. RL может быть использован для создания систем, подстраивающихся к индивидуальным особенностям водителя, например, таких, как адаптивный круиз-контроль, регулирующийся в зависимости от стиля вождения.

Глубокое обучение, являясь частью машинного обучения, зарекомендовало себя как мощный инструмент для обработки больших и сложных наборов данных. Это особенно актуально для задач классификации водителей, где необходимо анализировать сложные данные высокой размерности, например, данные от MEMS-датчиков.

Глубокое обучение основывается на использовании многослойных нейронных сетей, которые последовательно извлекают признаки более высокого уровня из сырых входных данных. На начальных этапах они могут выявлять базовые паттерны, такие, как ускорение и торможение, а на более глубоких уровнях - интерпретировать сложные стили вождения. Модели глубокого обучения адаптируют свои внутренние параметры, основываясь на обучающих данных, что позволяет им распознавать паттерны и принимать решения на основе этих данных. Основные методы [11]:

- сверточные нейронные сети (Convolutional Neural Network, CNN) особенно эффективны для анализа данных с пространственной структурой. Они могут распознавать пространственные и временные паттерны в данных о вождении, например, идентифицировать агрессивное вождение по резким изменениям скорости или нарушениям полосы движения. При этом требуют больших объемов помеченных данных и высокие вычислительные затраты;

- рекуррентные нейронные сети (Recurrent Neural Network, RNN) и LSTM идеально подходят для анализа последовательных данных, что делает

их подходящими для анализа длительных режимов вождения или поведения водителей во времени. Отличаются сложностью в обучении и чувствительностью к настройкам.

Глубокое обучение способно эффективно управлять сложными и многоуровневыми данными от датчиков, выявляя ключевые шаблоны для классификации стилей вождения. Глубокое обучение обладает способностью к самостоятельному извлечению признаков, что значительно превосходит традиционные подходы машинного обучения. При этом эффективность глубокого обучения зависит от доступности больших объемов данных и требует значительных вычислительных мощностей, зачастую требуя специализированных устройств, таких как GPU. Сложность многоуровневых моделей глубокого обучения может затруднять понимание механизмов их работы.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Для оценки эффективности моделей используются следующие метрики:

- точность, которая показывает долю верно классифицированных объектов среди всех объектов, которые к этому классу отнес классификатор;

- полнота, которая показывает отношение верно классифицированных объектов класса к общему числу элементов этого класса;

- F1-мера, которая является средним гармоническим между точностью и полнотой.

Заключение

Применение машинного обучения с данными датчиков MEMS открывает новые возможности для классификации водителей, но также сталкивается с определенными проблемами и ограничениями:

- качество и согласованность данных могут варьироваться из-за разнообразия автомобилей и различных условий окружающей среды;

N Инженерный вестник Дона, №7 (2024) ivdon.ru/ru/magazine/arcliive/n7y2024/9370

- поведение водителя сложно и зависит от многих факторов, включая психологические аспекты;

- изменяющиеся погодные условия, условия движения и типы дорог влияют на точность интерпретации данных датчиков;

- мощные модели глубокого обучения требуют значительных вычислительных ресурсов, ограничивая их применение в реальном времени.

По результатам проведенного обзора можно сделать следующие выводы:

- разнообразие методов машинного обучения позволяет решать такую сложную задачу, как классификация водителей;

- эффективность моделей напрямую зависит от качества и объема данных;

- выбор алгоритма должен учитывать точность, вычислительную эффективность и интерпретируемость, балансируя сильные и слабые стороны каждого метода.

Литература (References)

1. World Health Organization. World health statistics overview. 2019: monitoring health for the SDGs, sustainable development goals. Geneva. World Health Organization. 2019. 16 p.

2. Tan C., Shi Y., Bai L., Tang K., Suzuki K., Nakamura H. Modeling effects of driver safety attitudes on traffic violations in China using the theory of planned behavior. IATSS Research. 2022. 46(1). Pp. 63-72.

3. Dadipoor S., Ranaei V., Ghaffari M., Rakhshanderou S., Safari-Moradabadi A. Safe driving behaviors among taxi drivers: a predictive cross-sectional study based on the health belief model. Archives of Public Health. 2020. 78(1). Pp. 1-6.

4. Matthews G., Emo A. K., Funke G. J. The transactional model of driver stress and fatigue and its implications for driver training. Driver Behavior and Training. 2017. 2. Pp. 273-285.

5. Bouhsissin S., Sael N., Benabbou F. Driver Behavior Classification: A Systematic Literature Review. IEEE Access. 2023. 11. Pp. 14128-14153

6. Chan T. K., Chin C. S., Chen H., Zhong X. A comprehensive review of driver behavior analysis utilizing smartphones. IEEE Transactions on Intelligent Transportation Systems. 2019. 21(10). Pp. 4444-4475.

7. Dadhich T., Gupta S. Detecting Aggressive Driving Behavior Using Spectral Kurtosis and MEMS Accelerometers. Proceedings of the Second International Conference on Information Management and Machine Intelligence: ICIMMI 2020. Singapore. Springer Singapore. 2021. Pp. 9-20.

8. Romera E., Bergasa L. M., Arroyo R. Need Data for Driver Behaviour Analysis. IEEE Int. Conf. on Intelligent Transportation Systems (ITSC). 2016. Pp. 387-392.

9. Abou Elassad Z. E., Mousannif H., Al Moatassime H., Karkouch A. The application of machine learning techniques for driving behavior analysis: A conceptual framework and a systematic literature review. Engineering Applications of Artificial Intelligence. 2020. 87. P. 103312.

10. Alloghani M., Al-Jumeily D., Mustafina J., Hussain A., Aljaaf A. J. A systematic review on supervised and unsupervised machine learning algorithms for data science. Supervised and unsupervised learning for data science. 2020. Pp. 3-21.

11. Zhang J., Wu Z., Li F., Luo J., Ren T., Hu S., Li W. Attention-based convolutional and recurrent neural networks for driving behavior recognition using smartphone sensor data. IEEE Access. 2019. 7. Pp. 148031-148046.

Дата постуления: 25.05.2024

Дата публикации: 1.07.2024

i Надоели баннеры? Вы всегда можете отключить рекламу.