Научная статья на тему 'УСЛОВИЯ ОПЕРАТИВНОГО ТЕСТИРОВАНИЯ БОЛЬШИХ НЕЙРОННЫХ СЕТЕЙ НА МАЛЫХ ВЫБОРКАХПРИ АНАЛИЗЕ РУКОПИСНЫХ ОБРАЗОВ'

УСЛОВИЯ ОПЕРАТИВНОГО ТЕСТИРОВАНИЯ БОЛЬШИХ НЕЙРОННЫХ СЕТЕЙ НА МАЛЫХ ВЫБОРКАХПРИ АНАЛИЗЕ РУКОПИСНЫХ ОБРАЗОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
43
9
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ / НЕЙРОННЫЕ СЕТИ / ДОВЕРЕННЫЕ НЕЙРОСЕТЕВЫЕ ПРИЛОЖЕНИЯ / ОБЪЕМ ТЕСТОВОЙ ВЫБОРКИ / ARTIFICIAL INTELLIGENCE / NEURAL NETWORKS / TRUSTED NEURAL NETWORK APPLICATIONS / TEST SAMPLE SIZE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кубасов Игорь Анатольевич, Иванов Александр Иванович

В статье рассмотрены вопросы применения приложений искусственного интеллекта в интересах повышения оперативно-служебной деятельности подразделений МВД России на примере анализа рукописных образов. Исследованы условия, при которых возможно оперативное и корректное тестирование качества принимаемых решений большими нейронными сетями на малых выборках. Показано, что для нейросетевых решений в форме бинарного кода оценка вероятности ошибок второго рода (ошибочного принятия образа «Чужой») может быть выполнена при малом объеме тестовой выборки.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Кубасов Игорь Анатольевич, Иванов Александр Иванович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CONDITIONS FOR RAPID TESTING OF LARGE NEURAL NETWORKS ON SMALL SAMPLES WHEN ANALYZING HANDWRITTEN IMADES

The article considers the issues of using artificial intelligence applications in the interests of increasing the operational and operational activities of units of the Ministry of Internal Affairs of Russia using the example of analyzing handwritten images. Conditions under which rapid and correct testing of the quality of decisions made by large neural networks on small samples is possible have been investigated. It is shown that for neural network solutions in the form of a binary code, the probability of errors of the second kind (erroneous adoption of the “Alien” image) can be estimated with a small amount of test sampling.

Текст научной работы на тему «УСЛОВИЯ ОПЕРАТИВНОГО ТЕСТИРОВАНИЯ БОЛЬШИХ НЕЙРОННЫХ СЕТЕЙ НА МАЛЫХ ВЫБОРКАХПРИ АНАЛИЗЕ РУКОПИСНЫХ ОБРАЗОВ»

Условия оперативного тестирования больших нейронных сетей на малых выборках при анализе рукописных образов

И.А. КУБАСОВ,

профессор кафедры информационных технологий, доктор технических наук, доцент (Академия управления МВД России) Е-mail: igorak@list.ru

А.И. ИВАНОВ,

научный консультант, доктор технических наук, доцент (АО «Пензенский научно-исследовательский электротехнический институт»)

Conditions for rapid testing of large neural networks on small samples when analyzing handwritten imades

I.A. KUBASOV,

Professor, Department of Information Technology, Doctor of Technical Sciences, Associate Professor (Management Academy of the Ministry of the Interior of Russia)

A.I. IVANOV,

scientific consultant, Doctor of Technical Sciences, Associate Professor (Penza Research Electrotechnical Institute JSC)

УДК 004.838.2

В статье рассмотрены вопросы применения приложений искусственного интеллекта в интересах повышения оперативно-служебной деятельности подразделений МВД России на примере анализа рукописных образов. Исследованы условия, при которых возможно оперативное и корректное тестирование качества принимаемых решений большими нейронными сетями на малых выборках. Показано, что для нейросетевых решений в форме бинарного кода оценка вероятности ошибок второго рода (ошибочного принятия образа «Чужой») может быть выполнена при малом объеме тестовой выборки.

Искусственный интеллект, нейронные сети, доверенные нейросетевые приложения, объем тестовой выборки.

The article considers the issues of using artificial intelligence applications in the interests of increasing the operational and operational activities of units of the Ministry of Internal Affairs of Russia using the example of analyzing handwritten images. Conditions under which rapid and correct testing of the quality of decisions made by large neural networks on small samples is possible have been investigated. It is shown that for neural network solutions in the form of a binary code, the probability of errors of the second kind (erroneous adoption of the "Alien" image) can be estimated with a small amount of test sampling.

Artificial intelligence, neural networks, trusted neural network applications, test sample size.

Важнейшими характеристиками приложений искусственного интеллекта являются продолжительность обучения и продолжительность тестирования качества принимае-

мых решений. Скорость обучения, как правило, связана с объёмом обучающей выборки. Так, современные алгоритмы глубокого обучения свер-точных нейронных сетей требуют миллионы

образов [5], размеченных вручную, и огромных затрат вычислительных ресурсов. Дополнительно при тестировании сетей глубокого обучения также требуются огромные тестовые базы, сформированные уже без ручной разметки.

Теоретические и экспериментальные исследования показывают, что не все применяемые нейросетевые решения подходят для доверенных вычислений, которые могут быть применены в интересах повышения эффективности оперативно-служебной деятельности подразделений МВД России. Для этой цели выгоднее применять архитектуру нейронных сетей, созданную в соответствии с требованиями пакета отечественных национальных стандартов серии ГОСТ Р 52633.хх-20хх.

В данной статье на примере анализа рукописных образов исследованы условия быстрого и корректного тестирования доверенных нейронных сетей на малых выборках.

Проблемы оценки уровня доверия к экспертам-криминалистам

В настоящее время криминалистическая экспертиза строится на выводах людей-экспертов. Доверие к результатам экспертизы опирается на ряд факторов таких, как: уровень образования эксперта-криминалиста, наличие у эксперта аппаратных средств анализа исходных образов-улик, опыт эксперта (стаж работы), доверие к методике проведения той или иной экспертизы.

Человек-эксперт не может дать вероятностную оценку принятого им решения. В этом отношении доверенные приложения искусственного интеллекта оказываются в более выгодном положении [6]. Каждое нейросетевой решение,

обученное алгоритмом ГОСТ Р 52633.51, удается быстро и автоматически тестировать как на больших, так и на малых базах тестовых образов.

Для определенности рассмотрим частный случай проведения почерковедческой экспертизы рукописных образов. С формальных позиций математической статистики оценить уровень человека-эксперта можно, если определить вероятности его ошибок. Теоретически для оценки вероятности ошибок конкретного эксперта можно сформировать, например, 10 000 тестовых заданий, заранее зная верный результат. Однако на выполнение этих тестовых заданий даже квалифицированному эксперту-криминалисту потребуется несколько лет работы, что практически невозможно осуществить (да и нет необходимости).

Параллельно с классическим почерковедче-ским анализом «мертвых» рукописных образов на бумаге в настоящее время активно развиваются методы анализа динамики «живого» воспроизведения рукописных образов на графических планшетах или на чувствительном экране компьютера. Так, для практической оценки уровня доверия разработан свободно распространяемый программный продукт «БиоНейроАвтограф» [3], который позволяет видеть 416 биометрических параметров динамики воспроизведения конкретного рукописного слова [1]. На рис. 1 представлены экранные формы среды моделирования, отображающие два примера рукописного слова «Пенза», написанные одним и тем же человеком.

1 ГОСТ Р 52633.5-2011 «Защита информации. Техника защиты информации. Автоматическое обучение нейросетевых преобразователей биометрия-код доступа».

Рис. 1. Экранные формы сбора биометрических данных средой моделирования

«БиоНейроАвтограф»

Казалось бы, что анализ «мертвого» следа пера на бумажном документе и «живой» динамики воспроизведения рукописного образа — это две разные задачи. На самом деле это не так.

Достаточно просто может быть построен автомат обхода фрагментов «мертвого» рукописного образа и восстановления псевдодинамики его воспроизведения [2, 4].

Заметим, что по отпечатку пальца можно найти человека, а по образу автографа на фрагменте документа пока нельзя найти человека и восстановить его имя. Все это следствие длительного периода предшествующих ограничений наших технологических возможностей по применению больших вычислительных ресурсов. Сегодня проблема вычислительных ресурсов ушла на второй план, реальным становится сбор, хранение, применение 30 вариантов автографа, дополняющих один автограф, размещенный в паспорте каждого гражданина России.

Технология распознавания рукописных образов

Следует отметить, что большинство из 416 биометрических параметров динамики рукописного автографа обладает низкой информативностью. Каждый из биометрических параметров описывается распределением близким к нормальному. При этом, как показывают исследования, стандартное отклонение большинства биометрических параметров оказывается примерно в три раза меньше, чем стандартное отклонение всех биометрических параметров всего словаря образов «Чужой».

Самая высокая вероятность ошибок второго рода (ошибочного принятия образа «Чужой») наблюдается у биометрических параметров с математическим ожиданием в центре распределения данных «Все Чужие». Чем уникальнее биометрический параметр (т.е. чем больше его математическое ожидание удалено от центра данных «Все Чужие»), тем меньше оказывается вероятность ошибки второго рода.

Можно оценить информативность биометрических параметров, логарифмируя вероятности ошибок второго рода:

где 1(у) — показатель энтропии (информативности) биометрического параметра V; , вычисляемый для алфавита из двух символов «0» и «1».

Если пользоваться зарубежной технологией «нечетких экстракторов», то следует отсечь 336 биометрических параметров с низкой информативностью и работать только с 80 биометрическими параметрами приемлемой информативности. Эти 80 информативных биометрических параметров можно преобразовать в 80-ти битный криптографический ключ. Для МВД России использование такой технологией «нечетких экстракторов» приведет к ослаблению защиты персональных биометрических данных граждан.

Применение отечественных сетей, состоящих из большого числа искусственных нейронов

Отечественные криптографические стандарты (на шифрование, на проверку и формирование цифровой подписи) используют ключи длинной 256 бит (а не 4 бита, как в технологии «нечетких экстракторов»). Обучение нейросети выполняется автоматом, реализующим алгоритм ГОСТ Р 52 6 3 3.52. Во время обучения вычисляются весовые коэффициенты сумматоров нейронов, осуществляющих обогащение «сырых» биометрических данных. Благодаря обучению на 20 примерах образа «Свой» на выходах сумматоров каждого нейрона информативность обогащенных данных значительно увеличивается.

Эффект нейросетевого «обогащения» биометрических данных позволяет получать верный 256 битный код криптографического ключа с вероятностью близкой к 0.95 (Р1 0.05) при обучении нейросети на 20 примерах образа «Свой». Чем больше примеров образа «Свой» использовано при обучении нейронной сети, тем ниже оказывается вероятность ошибок первого рода (ошибочного принятия образа «Чужой» как образа «Свой»).

Если есть возможность выполнить тестирование на ограниченной тестовой выборке примеров образа «Свой», то оценка вероятности ошибок первого рода вычисляется следующим образом:

(2)

где п — число обнаруженных ошибок,

N — объём тестовой выборки.

Вторая формула системы (2) построена, исходя из предположения о том, что следующий опыт малой выборки может обнаружить одну ошибку. Для малых выборок такая гипотеза достаточно хорошо работает.

Корректная оценка вероятности появления ошибок второго рода на малых тестовых выборках

Решить проблему тестирования на малых выборках удается, воспользовавшись рекомендациями ГОСТ Р 5 2 6 3 3.33. Этот национальный стандарт рекомендует отказаться от попыток

2 ГОСТ Р 52633.5-2011 «Защита информации. Техника защиты информации. Автоматическое обучение нейросетевых преобразователей биометрия-код доступа».

3 ГОСТ Р 52633.3-2011 «Защита информации. Техника защиты информации. Тестирование стойкости средств высоконадежной биометрической защиты к атакам подбора».

статистического анализа длинных выходных кодов обученной нейросети. Для упрощения задачи необходимо перейти в пространство расстояний Хэмминга между кодом «Чужой» и кодом «Свой»:

где © — логическая операция сложения по модулю два;

х — значение /-го разряда двоичного кода образа «Чужой»;

е1 — значение /-го разряда двоичного кода образа «Свой».

Преимуществом перехода к расстояниям Хэмминга является то, что огромное поле выходных кодов в 2256 состояний сжимается до 257 состояний: И = {0, 1,..., 256}. Кроме того, распределение расстояний Хэмминга нормализуется по основной теореме статистики из-за 256 кратного суммирования случайных величин при вычислении расстояний Хэмминга (3).

Национальный стандарт рекомендует на малой выборке вычислить математическое ожидание расстояний Хэмминга — Е(к) и его стандартное отклонение с(к). Далее в рамках гипотезы нормального закона распределения следует выполнить следующие вычисления вероятности ошибок второго рода:

(4)

В итоге имеем достаточно корректную математическую модель вычисления вероятностей ошибок второго рода на малых выборках.

Дистанционное подтверждение личности человека путем анализа «мертвых» и «живых» автографов

Сегодня нотариус, представитель банка, налоговый инспектор не будут с вами разговаривать, если у вас нет паспорта. Утрата на какое-то время паспорта фактически приводит к ограничению на это время в значительной части гражданских прав. Одним из решений этой проблемы является хранение в базе данных МВД России примеров образа лица гражданина, образа его автографа, речевого воспроизведения своих фамилии, отчества и имени. Если у гражданина при себе нет паспорта, то нотариус может попросить расписаться несколько раз подряд в его присутствии на чистом листе. Для подтверждения личности достаточно будет нотариусу официально послать скан автографов на бумаге в МВД России. Если на вооружении МВД России будет соответству-

ющий нейросетевой искусственный интеллект, то через несколько секунд нотариус будет точно знать, кто перед ним. Главное состоит в том, что бы из цепочки биометрической идентификации личности был исключен человек, как очень дорогое и медленное звено.

Очевидным так же является то, что надежность идентификации личности будет значительно выше, если нотариус попросит проверяемого расписаться несколько раз на графическом планшете. В этом случае биометрической информации о личности получается больше. Динамику движения пера можно наблюдать, а не восстанавливать [1, 4].

Современные информационно-телекоммуникационные технологии развиваются стремительно, поэтому под каждую из биометрических технологий придется модифицировать и стандартизовать варианты сетей искусственных нейронов и разную предобработку данных для этих сетей. При этом целесообразно применять архитектуру нейронных сетей, созданную в соответствии с требованиями пакета отечественных национальных стандартов ГОСТ Р 52633. хх-20хх. Это позволит быстро и автоматически обучать нейронные сети на малых выборках — всего 20 примеров. В этих условиях отпадает необходимость использования миллионов примеров, предварительно размеченных вручную. Все инструменты управления нейросетевым искусственным интеллектом при использовании современных архитектур оказываются в руках владельца искусственного интеллекта. При этом формирование тестовой и обучающей выборки вполне по силам одному человеку — эксперту.

Россия первой начала создавать национальные стандарты по автоматическому обучению4 больших нейронных сетей и их автоматическому тестированию5. Тем не менее работу по стандартизации необходимо продолжать, в частности сегодня отсутствует национальный стандарт, регламентирующий преобразование параметров «мертвых» [4] и «живых» рукописных образов6 в данные, ориентированные на последующее автоматическое обучение больших искусственных нейронных сетей. Это одно из важнейших направлений дальнейшего развития приложений искусственного интеллекта, создаваемых в интересах повышения эффективности оперативно-служебной деятельности подразделений МВД России.

4 ГОСТ Р 52633.5-2011 «Защита информации. Техника защиты информации. Автоматическое обучение нейросетевых преобразователей биометрия-код доступа».

5 ГОСТ Р 52633.3-2011 «Защита информации. Техника защиты информации. Тестирование стойкости средств высоконадежной биометрической защиты к атакам подбора».

6 ГОСТ Р ИСО/МЭК 19794-7 2006 Автоматическая идентификация. Идентификация биометрическая. Форматы обмена биометрическими данными. Часть 7. Данные динамики подписи.

Список литературы:

1. Иванов А. И. Автоматическое обучение больших искусственных нейронных сетей в биометрических приложениях: учебное пособие. Пенза, 2013.

2. Иванов А. И., Андреев Д. Ю., Воячек С. А., Елфимов А. В. Описание патента ЯИ 2390843 «Способ распознавания знаков». Бюл. № 15.

3. Иванов А. И., Захаров О. С. Среда моделирования «БиоНейроАвтограф». Программный продукт // Шр://пниэи.рф/ас1ш1у/8с1епсе/ пос/Ъюпеигоаи1^гарк.21р.

4. Качайкин Е. И., Куликов С. В. Получение биометрических параметров высокого ка-

чества из статического изображения рукописной подписи // Инфокоммуникацион-ные технологии. 2015. № 4.

5. Николенко С. И, Кадурин А. А., Архангельская Е. О. Глубокое обучение. СПб., 2018.

6. Шапкин А. В., Кубасов И. А., Иванов А. И. Развитие отечественного ней-росетевого искусственного интеллекта в защищенном исполнении // Вестник Воронежского института ФСИН России. 2019. №4.

i Надоели баннеры? Вы всегда можете отключить рекламу.