УДК 681.518
ПОВЫШЕНИЕ СТЕПЕНИ ОБОСНОВАННОСТИ ПРИНИМАЕМЫХ РЕШЕНИЙ В СИСТЕМЕ РАСПОЗНАВАНИЯ ЗА СЧЕТ ИСПОЛЬЗОВАНИЯ АПРИОРНОЙ ИНФОРМАЦИИ1
Ю.И. БУРЯК, A.A. СКРЫННИКОВ
Предложен подход для решения задачи повышения эффективности системы распознавания номера автомобиля за счёт использования априорной информации. Предложены схема проведения дополнительных измерений, последовательность статистического анализа априорных данных и правило принятия решений. Рассмотрен пример реализации предлагаемого подхода в системе распознавания, построенной на базе видеорегистратора.
Ключевые слова: принятие решений, система распознавания, априорная и апостериорная вероятности.
ВВЕДЕНИЕ
В настоящее время широко применяются системы контроля въезда и выезда транспортных средств на охраняемую территорию, в частности, системы распознавания автомобильных номеров по изображению, сформированному камерой видеонаблюдения. Решение на пропуск (открытие шлагбаума или ворот) принимается по результатам сравнения уровня достоверности распознавания, выдаваемого видеорегистратором, и некоторого порогового уровня.
Для ряда предприятий, складов и других охраняемых объектов характерно то, что для обеспечения их деятельности задействован ограниченный ряд автомобилей и заранее известен список номеров автомобилей, имеющих право на въезд. В течение рабочего дня ведётся строгий учёт автомобилей, в рамках которого регистрируется время, номер и направление движения (въезд, выезд) автомобиля и формируется соответствующая база.
Возникает задача использования накопленной информации для повышения степени обоснованности принимаемых решений на пропуск автомобилей по данным, представляемым видеорегистратором.
1. ОПИСАНИЕ ПРОБЛЕМНОЙ СИТУАЦИИ
Автоматизированная система контроля автомобилей на въезде на охраняемую территорию работает следующим образом (рис. 1). При появлении автомобиля в поле зрения видеорегистратора фиксируется изображение номерного знака автомобиля, в свою очередь, полученное изображение обрабатывается с целью распознавания номера, полученный номер сверяется с имеющимися в базе данных номерами и в результате выдаётся индикация в следующем виде: «с достоверностью 0,8 это - машина № 9». На основании этой информации должно быть принято решение - пропускать машину или нет. На практике устанавливается некоторый порог достоверности, ниже которого разрешения на проезд автоматически не выдаётся и требуется вмешательство оператора для идентификации машины по дополнительным признакам.
Одним из путей повышения обоснованности принимаемых решений в системах распознавания, построенных на базе видеорегистратора, является использование байесовского подхода в теории принятия решения. Применение байесовского подхода требует знания условных вероятностей, в частности, условной вероятности правильного распознавания при заданном
1 Работа выполнена при поддержке РФФИ, проекты № 15-08-04342а.
Рис. 1 Рис. 2
уровне достоверности, выдаваемого видеорегистратором. Однако численное значение достоверности формируется на основе внутренних алгоритмов работы видеорегистратора; известно только, что оно рассчитывается на основе полученного изображения номера автомобиля.
Качество получаемого изображения в значительной мере определяется уровнем освещённости. Условия освещённости в течение рабочего дня могут сильно изменяться в зависимости от даты (время года), времени суток, географических координат размещения системы контроля (детерминированные факторы), а также от погодных условий (случайные факторы). При этом в базе данных не фиксируется реальный уровень освещённости на момент появления автомобиля на пункте контроля; более того, восстановить точное значение уровня освещённости в заданное время практически невозможно из-за незнания случайных погодных условий, например, облачности.
Для получения априорных данных необходимо формирование статистически значимой выборки, которая может быть получена за счёт тестирования видеорегистратора посредством использования дополнительной системы идентификации автомобилей, включающей размещение на автомобиле информационных сенсоров (например, радиочастотных меток) и установку радиочастотного регистратора [1]. Результат распознавания номера видеорегистратором может быть ошибочным; распознавание с использованием радиочастотной метки - всегда безошибочное, т.к. уникальный код ответного сигнал радиочастотной метки включает в том числе и номер автомобиля.
Результаты всех решений, принимаемых системой распознавания, построенной на базе видеорегистратора, заносятся в базу данных вместе с информацией об истинности распознавае-ния. По полученной статистической выборке требуется оценить априорные и условные вероятности, необходимые для использования байесовского подхода при принятии решений.
2. ПРЕДСТАВЛЕНИЕ АПРИОРНЫХ ДАННЫХ
В течение некоторого времени проведена серия тестовых опытов с автомобилями, оснащёнными дополнительно радиочастотными метками (рис. 2); результат каждого опыта описывается данными, выдаваемыми видеорегистратором, и данными, получаемыми с радиочастотной метки. По результатам тестовых опытов сформирована база данных, фрагмент которой приведён в табл. 1; всего в анализируемой базе данных имеется 1153 записи.
_Таблица 1
Номер опыта Год Месяц Число Час Минута Секунда Машина на входе Результат распознавания Уровень достоверности Истинность распознавания
1 2014 1 1 11 30 22 1 1 0.59 +
2 2014 1 1 11 44 58 2 5 0.48 -
3 2014 1 1 13 56 3 3 1 0.46 -
3. СТАТИСТИЧЕСКИЙ АНАЛИЗ АПРИОРНЫХ ДАННЫХ
3.1. Оценка априорных вероятностей появления каждого из автомобилей в зоне контроля В табл. 2 приведены результаты расчётов абсолютной и относительной частот появления каждого из автомобилей.
_Таблица 2
Номер машины 1 2 3 4 5 Итого
Количество поездок 145 237 300 190 281 1153
Относительная частота 0.1258 0.2056 0.2602 0.1648 0.2437 1.0
Как видно из приведённых в табл. 2 результатов, частота появления той или иной машины значительно отличается, например, машины 3 и 5 появляются примерно в два раза чаще, чем машина 1.
Т.е. можно считать, что априорные вероятности Р(И%) поступления каждой из машин известны, г = 1 ...к, где к - количество различных автомобилей.
3.2. Оценка закона распределения момента времени проезда каждой из машин
Закон распределения момента времени проезда может быть описан с использованием непараметрических (ядерных) оценок плотности вероятности по имеющейся выборке. Этот подход даёт возможность аналитического представления плотности распределения времени проезда каждой из машин; на рис. 3 приведены результаты расчётов.
/, (г)
5
1 3 4
2
12 13 14
Рис. 3
17 г, час.
3.3. Проверка гипотезы о наличии стохастической связи частоты ошибки распознавания от номера машины
Фактором, оказывающим возможное влияние на частоту правильного распознавания, является схожесть написания некоторых цифр номерного знака. Для проверки этого предположения требуется установить значимость различия долей правильных решений при распознавании различных номеров. Это эквивалентно проверке статистической гипотезы И0 : рг = рг+1, г = 1,..., к—1 [2].
Статистикой критерия является величина %2 :
-I к 2 / * * \ 2 X = —-~^Пг(Р — Р ) ,
Р (1— р ) г=1
(1)
* / ^ 2 где рг = т. пг; при справедливости нулевой гипотезы величина X имеет распределение хи-
квадрат с числом степеней свободы к-1.
0.5
0.4
0.3
0.2
0.1
9
10
11
15
16
Полученное значение статистики % =62,837 значительно больше критического значения
2
Хо 95-4=9,488, поэтому гипотеза о независимости частоты правильных решений от номера машины отклоняется.
3.4. Проверка гипотезы о наличии стохастической связи частоты ошибки распознавания от уровня освещённости
Т.к. рассчитываемый видеорегистратором уровень достоверности решения основывается на получаемом изображении номерного знака автомобиля, то можно предположить, что качество (контрастность, чёткость) изображения зависит от уровня освещённости в момент регистрации. Т.е. нужно проверить гипотезу о зависимости доли ошибочных решений от уровня освещённости.
Уровень освещённости определяется двумя факторами: уровнем естественной освещённости, характерным на данный момент времени на текущую дату, который меняется, но может быть определён по справочникам для данной местности, и погодными условиями, влияющими на освещённость (облачность, туман, осадки), которые вносят некоторую случайную составляющую в уровень освещённости.
Для проверки этой гипотезы необходимо сопоставить результаты каждого опыта, зафиксированного в базе данных, с уровнем естественной освещённости.
Модель освещённости в первом приближении может быть построена по данным изменения наружной диффузионной естественной освещённости для 15-го числа каждого месяца, приведённым в [3]. Для оценки уровня освещённости Е в произвольное время на любую дату эти данные можно аппроксимировать следующим выражением:
Е = а +
а1 + а2 ехр<
(х-а^)2 2аЛ 2
> + а5 ехр<
(у -аб )2
2а/
где х - порядковый номер дня в году; у - время (час в сутках), а коэффициенты а принимают следующие значения: а1 =—35.510; а2 = 27.098; а^ =171.717; а4 = 102.377; а5 =34.365; а6=12.159; 07=5.258.
На рис. 4 показан уровень освещенности в произвольное время. С использованием полученной модели освещённости имеющиеся данные можно сопоставить с уровнем естественной освещённости и проиллюстрировать результаты распознавания - на рис. 5 по оси абсцисс отложено значение уровня освещённости на момент проезда машины; по оси ординат - значение достоверности, выдаваемое видеорегистратором; «плюс» соответствует ситуации, когда машина была правильно распознана, «кружок» - когда неправильно.
Из п=1153 опытов в т =880 случаях машина распознана верно, а в
*
остальных 273 случаях - неверно. Т.е. частота р правильного решения равна
Рис. 4
р
= 0.7632.
8*
V*
л...:*.:
+++ +
+ о . м
оАй»+ + &
о <9+
ч +
+ + о° ° +
¿р<
"о.....ф
ъ ы
12 14
Рис. 5
Выдвигаем статистическую гипотезу: частота правильных решений не зависит от уровня освещённости. Разобьём для удобства весь диапазон значений освещённости на 13 интервалов; таким образом имеющиеся в базе данных п значений разбиты на к выборок из биномиальных совокупностей объёмами п1, п2,..., пк ; в г-й выборке было зафиксировано т правильных решений. Выдвигаемая статистическая гипотеза И0: рг = р+1, г = 1,...,к—1, а статистикой критерия является величина X , рассчитываемая по формуле (1).
2
Полученное значение статистики X =350,9 значительно больше критического значения Xo 95-12=21,026, поэтому гипотеза о независимости частоты правильных решений от уровня освещённости отклоняется.
3.5. Проверка гипотезы о наличии стохастической связи частоты ошибки распознавания от номера машины при заданном уровне освещённости
При анализе полученных результатов возникает вопрос: частота ошибки распознавания зависит и от номера машины, и от уровня освещённости. Вместе с тем, распределение времени въёз-да машин далеко не одинаковое - машина № 3 приезжает в заведомо светлое время, а машина № 5 - ближе к концу рабочего дня, когда зимой уже темно. Поэтому для фиксированного уровня освещённости можно проверить гипотезу о зависимости частоты ошибки от номера машины.
Разбив весь диапазон освещённости на 5 интервалов, рассчитаем для каждого из них
значение статистики X (табл. 3).
Таблица 3
Интервал (0, 5) (5, 10) (10, 15) (15, 20) (20, 26)
Статистика X 8.941 1.665 0.855 4.091 3.431
Как видно, ни для одного из интервалов уровня освещённости значение статистики X
2
не превышает критического значения Xo д5;4=9,488, поэтому гипотеза о независимости частоты правильных решений от номера машины при одинаковом освещении не противоречит опытным
данным и в дальнейшем будем считать, что частота правильных решений зависит только от уровня освещённости.
3.6. Определение зависимости частоты ошибки распознавания от уровня достоверности, выдаваемого видеорегистратором
Так как частота правильных решений зависит от уровня освещённости, а с увеличением уровня освещённости растёт величина показателя достоверности, выдаваемого видеорегистратором, то необходимо определить вид зависимости вероятности правильного распознавания от этого показателя достоверности.
0 0 0 0.0 р. оддвоо ев
6 5 4
П . 00 шзоо вц у .шоооо о о |щ —^ к >0. »0 . ООО» 0 «.см. „„«, ош, то
0.4 0.5
Рис. 6
Введём случайную величину У, которая может принимать только одно из двух значений: 1 - при правильном распознавании, и 0 в противном случае. Зависимость вероятности Р(У = 1 \ х) может иметь вид:
Р(У = 1\х)=-
А+в1х
1+е
Р0+Рхх '
(2)
где х - величина показателя достоверности, выдаваемого видеорегистратором. Параметры Р0 и Р1 логистической регрессии (2) определяются с использованием метода максимального правдоподобия [4]. Результаты расчётов приведены на рис. 6 ( Р0 =-2,7072; Р1 =5,2887).
4. ИСПОЛЬЗОВАНИЕ АПРИОРНОЙ ИНФОРМАЦИИ В СИСТЕМЕ РАСПОЗНАВАНИЯ
С использованием априорной информации апостериорная вероятность того, что на входе действительно г -я машина при условии, что видеорегистратор распознал эту машину как г -ю машину с достоверностью х в момент времени Ь известной даты может быть определена по формуле Байеса:
Р(Иг \А ,Ь,х)=-
р(Нг )ф )р(А\Нг ,х)
^^ Р(Нт ^т ((Ь')Р(Аг \ Нт,х) т=1
где Р(А\Н,х)=Р(У=1\х) - вероятность правильного распознавания; Р(А\Н ,х) при гфт - вероятность ошибочного распознавания.
X
Вероятность ошибочного распознавания Р(А \Нт,х) может быть определена из соотношения:
P(A.\H ,x)=
\ г1 m' '
1 - P(A \H. ,x )
к-1
(4)
Рассмотрим пример.
После завершения работы системы контроля в тестовом режиме, когда помимо видеорегистратора в системе распознавания использовались данные, получаемые с радиочастотной метки, решение принимается только по данным видеорегистратора с учётом накопленных априорных статистических данных.
Пусть в 11 часов 20 минут в поле зрения видеорегистратора попал автомобиль и после обработки полученного изображения видеорегистратор выдал результат: «с достоверностью 0,44 это - машина № 1». Необходимо рассчитать апостериорную вероятность - вероятность того, что распознавание проведено верно.
С использованием априорных данных по формуле (4) рассчитываем значение апостериорной вероятности: PH \Apll—, 0,44) = 0,8118 . Полученная апостериорная вероятность гораздо
выше уровня достоверности, что легко объясняется полученными априорными данными.
Рассмотрим теперь зависимость апостериорной вероятности правильного решения от момента времени появления машины в зоне видимости видеорегистратора и от уровня выдаваемой видеорегистратором достоверности. В качестве примера на рис. 7 и 8 эти зависимости показаны для машин № 4 и № 5 соответственно. Как видно из полученных результатов на ряде временных интервалов, положение и длина которых определяется априорными данными, апостериорная вероятность превосходит уровень выдаваемой видеорегистратором достоверности.
Таким образом, полученные с использованием априорной информации результаты по увеличению вероятности правильного распознавания позволяют расширить временную область использования видеорегистратора в
P(H4 \A4,t,x)
условиях переменной освещенности, что может быть использовано для выработки нового правила принятия решения. В этом случае, выбор граничного уровня апостериорной вероятности рассчитывается с использованием теории статистических решений, например, на основе минимизации среднего риска или вероятности ошибочного решения.
ЗАКЛЮЧЕНИЕ
Предложен подход для решения задачи повышения эффективности системы распознавания номера автомобиля, построенной на базе видеорегистратора и функционирующей в условиях переменной освещенности, за счет использования априорной информации.
P(HS \As,t,x )
Обосновано использование нового показателя - апостериорной вероятности правильного распознавания номера автомобиля в качестве критерия при принятии решений о его пропуске на охраняемую территорию.
Предложена схема проведения дополнительных измерений; для расчета указанного показателя разработан соответствующий математический аппарат и проведены необходимые исследования по оценке влияния действующих факторов.
Предложено правило принятия решений, где вероятность правильного распознавания рассчитывается с учетом априорной информации, а выбор ее граничного уровня определяется с использованием теории статистических решений, например, на основе минимизации среднего риска или вероятности ошибочного решения.
ЛИТЕРАТУРА
1. Буряк Ю.И., Скрынников А.А. Разработка модели классификатора движущихся в составе группы объектов на базе использования средств радиочастотной идентификации // Мехатроника, автоматизация, управление. 2014. № 3. С. 42-48.
2. Кобзарь А.И. Прикладная математическая статистика / Для инженеров и научных работников. - М.: ФИЗМАТЛИТ, 2006.
3. Соловьёв А.К. Физика среды. - М.: Изд-во АСВ, 2008.
4. Collett D. Modeling Binary Data. New York: Chapman & Hall, 2002.
REFERENCES
1. Buryak Yu.I., Skrynnikov A.A. Mechatronics, Automation, Control, 2014, no. 3, pp. 42-48.
2. Kobzar A.I. Prikladnaya matematicheskaya statistika. Dlya inzenerov I nauchnih rabotnikov (Applied mathematical ststistics. For engineer and scientists), Moscow, FIZMATLIT, 2006, 813 p.
3. Soloviev A.K. Fizika sredi (Phisics of environment), Moscow, ASV, 2008, 344 p.
4. Collett D. Modeling Binary Data. New York: Chapman & Hall, 2002.
INCREASING DEGREE OF VALIDITY OF DECISION SUPPORT IN THE RECOGNITION SYSTEM AT THE EXPENSE OF THE USING OF PRIORI INFORMATION
Buryak Yu.I., Skrynnikov A. A.
An approach is proposed for solution of the problem for increasing the effectiveness of the recognition of the car number plate by using a priori information. Are proposed scheme of additional measurements, sequence of priori data statistical analysis and decision rule. An example of the proposed approach in the system recognition, built on the basis of the DVR is reviewed.
Keywords: decision-making, recognition system, a priori and a posteriori probability.
Сведения об авторах
Буряк Юрий Иванович, 1953 г.р., окончил МВТУ им Н. Э. Баумана (1976), кандидат технических наук, старший научный сотрудник, начальник подразделения ФГУП «ГосНИИАС», автор более 90 научных работ, область научных интересов - методы автоматизации сбора и обработки информации.
Скрынников Андрей Александрович, 1962 г.р., окончил Даугавпилсское ВВАИУ им. Я. Фабрициуса (1984), кандидат технических наук, старший научный сотрудник, ведущий инженер ФГУП «ГосНИИАС», автор более 80 научных работ, область научных интересов - вероятностные методы оценки эффективности авиационных комплексов.