УДК 004.934.8.1 ББК 32.813.52 П 76
Зангиев Таймураз Таймуразович
Доцент, кандидат технических наук, доцент кафедры компьютерных технологий и информационной безопасности Кубанского государственного технологического университета, Краснодар, e-mail: [email protected]
Частикова Вера Аркадьевна
Доцент, кандидат технических наук, доцент кафедры компьютерных технологий и информационной безопасности Кубанского государственного технологического университета, Краснодар, e-mail: [email protected]
Тугушева Залина Якубовна
Студент института компьютерных систем и информационной безопасности Кубанского государственного технологического университета, Краснодар, e-mail: [email protected]
Гунай Фатима Рашидовна
Студент института компьютерных систем и информационной безопасности Кубанского государственного технологического университета, Краснодар, e-mail: [email protected]
Применение кластерного анализа в биометрической идентификации пользователя
(Рецензирована)
Аннотация. Рассматривается способ универсализации ранее разработанной кластерной карты для применения ее не только как инструмента распределения электронных СМИ, но и использования в различных сферах категорирования путем возможности изменения конфигураций матрицы. В качестве примера усовершенствования методики рассматривается использование идентификации пользователя по голосу, так как данное направление является актуальным и расширяется область применения, начиная от защиты информации до криминалистики. Алгоритм распознавания человека происходит в такой последовательности: пользователь произносит голосовой пароль, предлагаемый системой, которая псевдослучайным образом его генерирует, затем выполняется идентификация личности по его характеристикам (программа проверяет на кластерной карте соответствие характеристик голоса по заданному слову), как только система обнаруживает соответствие эталонных образцов с образцами, полученными в режиме реального времени, она распознает человека, который входит в систему, и предоставляет доступ к информации.
Ключевые слова: кластеризация, электронные СМИ, кластерная карта, универсализация, биометрия, идентификация.
Zangiev Taymuraz Taymurazovich
Associate Professor, Candidate of Technical Sciences, Associate Professor of the Department of Computer Technologies and Information Security, Kuban State University of Technology, Krasnodar, e-mail: [email protected]
Chastikova Vera Arkadyevna
Associate Professor, Candidate of Technical Sciences, Associate Professor of the Department of Computer Technologies and Information Security, Kuban State University of Technology, Krasnodar, e-mail: chastik-ova_va@mail. ru
Tugusheva Zalina Yakubovna
Student of the Institute of Computer Systems and Information Security, Kuban State University of Technology, Krasnodar, e-mail: [email protected]
Gunay Fatima Rashidovna
Student of the Institute of Computer Systems and Information Security, Kuban State University of Technology, Krasnodar, e-mail: [email protected]
Application of cluster analysis in the biometric identification of user
Abstract. This article discusses the method of universalization of a previously developed cluster map for its application not only as a tool for distributing electronic media, but also for using it in various areas of categorization by the possibility of changing the matrix configurations. As an example of the improvement of the methodology, the use of user identification by voice is considered, since this area is relevant and its scope is extended, ranging from information protection to forensic science. A person's recognition algorithm occurs in the following sequence: a user utters a voice password suggested by the system that generates it in a pseudo-random manner, then the person is identified by his
characteristics (the program checks the voice characteristics on a given word on the cluster card), as soon as the system detects the compliance of reference samples with real-time samples, it recognizes the person who enters the system and provides access to information.
Keywords: clustering, electronic media, cluster card, universalization, biometrics, identification.
Задача автоматической обработки данных является одним из приоритетных направлений таких областей исследований, как анализ сигналов, компьютерная безопасность и искусственный интеллект. В связи с развитием различных онлайн-ресурсов, средств массовой информации, быстрым ростом общественного производства непрерывно растет объем информации, и зачастую необходимо обрабатывать и анализировать объем данных, исчисляемых на отдельных предприятиях и организациях десятками миллионов показателей. Современные бизнес-процессы невозможно представить без активного обмена информацией, за поиском нужной информации нередко проводится значительное количество времени.
В данной статье для решения задачи автоматической обработки данных, быстрого, полного и точного сбора данных, их обработки и выдачи решений, позволяющих эффективно управлять сложным производством, предложен кластерный анализ.
Для проведения анализа была разработана кластерная карта, представленная в статье [1]. Распределение по кластерам электронных СМИ проводилось с помощью информационно-аналитической системы «Семантический архив» и теории нечетких множеств [2]. В качестве входных данных использовались важность события и реакция электронных СМИ на конкретное событие, и на выходе был получен результат распределения электронных СМИ по кластерам: «Патриоты», «Аналитики», «Деструкторы», а также была проверена корректность и эффективность созданной кластерной матрицы [3].
В работе рассматривается расширение возможностей разработанной методики и применение кластерной карты не только в целях распределения электронных СМИ, но и в других предметных категориях информации, то есть предполагается универсализация кластерной матрицы. Связано это с тем, что список прикладных областей, где она применяется, широк: сегментация изображений, маркетинг, борьба с мошенничеством, прогнозирование, анализ текстов и многие другие. На современном этапе кластеризация часто выступает первым шагом при анализе данных. После выделения схожих групп применяются другие методы, для каждой группы строится отдельная модель [4].
Исходя из этого, можно сказать, что универсализация ранее созданной кластерной карты является удобным и эффективным практическим решением в задачах распределения и анализа данных.
В качестве примера используем кластерную карту в процессе биометрической идентификации пользователя по голосу. Разработанная ранее матрица для позиционирования включает в себя кластеры, которые достаточно точно определяют соответствующие СМИ: 1 -Патриоты, 2 - Деструкторы, 3 - Аналитики. Горизонтальная шкала обозначает уровни важности событий, определяемые при помощи алгоритма, по которому важность вычисляется экспертами с применением представления их мнений в виде нечетких отношений предпочтения при нечеткой исходной информации. Вертикальная шкала характеризует реакцию электронных СМИ, которая анализировалась с помощью информационно-аналитической системы «Семантический архив» [5].
Для проверки универсальности матрицы была выбрана идентификация личности по голосу в связи с тем, что на данный момент разработка систем, предназначенных для идентификации пользователя, является актуальной, так как подобные системы имеют широкую область применения: криминалистика (фоноскопическая экспертиза), криптография, охранные системы и т.д. Главной целью идентификации по голосу является увеличение безопасности с наименьшими затратами ресурсов (вычислительные ресурсы, время на идентификацию, необходимость дополнительного оборудования). Результаты проведенных исследований в области биометрической идентификации пользователя по голосу представлены в статьях [6, 7].
При работе с голосовыми данными основной задачей стала безопасность системы, так как идентифицирующий пользователя голосовой пароль может быть просто перехвачен с
помощью магнитофонного носителя, или злоумышленник может обладать возможностью для имитации голоса пользователя, если ему удастся узнать парольную фразу.
С целью обеспечения большей безопасности системы и усложнения входа в нее злоумышленника была предложена генерация псевдослучайных парольных фраз из заданного списка. Но, соответственно, вместе с тем изменилось количество обрабатываемых и хранимых данных, система увеличила потребление ресурсов памяти и временных ресурсов. С целью оптимизации процесса анализа и хранения информации в данной работе предлагается рассмотреть кластерную карту.
Чтобы применить матрицу кластеризации в процессе идентификации пользователя по голосу, необходимо изменить параметры, то есть задать иные значения шкалам.
Основные идентификационные качества голоса: сила, высота, тембр. Сила голоса -это его громкость, высота голоса - это его способность к тональным изменениям, то есть его диапазон, тембр голоса - неповторимая индивидуальная окраска, которая обусловлена строением речевого аппарата [8]. Соответственно кластеризация проводится по двум основным параметрам, где вертикальная шкала обозначает силу голоса (амплитуду), горизонтальная - высоту (частоту), а тембр является дополнительной характеристикой для более точного определения личности и уменьшения погрешности при идентификации. В свою очередь на кластерной карте амплитуда делится на 3 уровня: низкий, средний и высокий, а частота включает в себя основные типы тембра. Тембр голоса мужчины бывает трех видов: тенор, баритон, бас. Тембры женского голоса тоже имеют 3 вида: сопрано, меццо-сопрано, контральто.
В основе данного исследования лежит идея определения зависимости между главными голосовыми параметрами с помощью статистических данных, так как ее использование даст возможность наглядно проследить и вычислить динамику изменений идентифицирующих конкретного человека основных параметров и получить их перемещение между кластерами. Определение соотношения между высотой, силой и тембром голоса поможет получить голосовой отпечаток, оптимизировать процесс биометрической идентификации и значительно увеличить точность распознавания.
Для реализации процесса распознавания голосовых отпечатков и определения зависимости между основными речевыми характеристиками предлагается использовать нейросете-вое сравнение при помощи самоорганизующейся карты признаков Кохонена, так как этот алгоритм обладает способностью к статистическому усреднению, то есть решается проблема с вариативностью речи, и данная нейронная сеть обучается без учителя, с применением модификации, позволяющей ускорить ее работу с минимальной потерей точности.
Обучающее множество для используемой нейронной сети представлено в виде входных векторов, а обучающий алгоритм подстраивает веса сети так, чтобы получались согласованные выходные векторы. В связи с этим предъявление достаточно близких входных векторов дает одинаковые выходы. Процесс обучения, следовательно, выделяет статистические свойства обучающего множества и группирует сходные векторы в классы.
Вид кластерной карты при заданных условиях и параметрах показан на рисунке 1.
В итоге алгоритм идентификации личности происходит следующим образом:
1. Система предлагает пользователю назвать сгенерированное кодовое слово для его идентификации.
2. После ввода голосовой записи происходит распознавание личности по его биометрическим характеристикам. Для этого программа проверяет на кластерной карте соответствие полученных данных, то есть силу и высоту голоса и затем дополнительно проводит анализ тембра.
3. После того, как система обнаружит соответствие шаблонных данных и данных, полученных с микрофона, она определяет пользователя, пытающегося зайти в систему, и открывает ему доступ к информации.
Диалоговое окно распознавания пользователя по голосу представлено в статье [8].
Таким образом, усовершенствованная кластерная карта путем универсализации дает
возможность применения ее к различным предметным областям с помощью изменения действующих настроек параметров и характеристик кластеризации. А так как одним из актуальных направлений элементов защиты объектов и информации являются биометрические системы, и особенный интерес представляют голосовые системы, то объединение разработанных алгоритмов, способа кластеризации и идентификации пользователя по голосу дает эффективный результат работы системы. К преимуществам данной методики также можно отнести экономию вычислительных ресурсов, уменьшение объема памяти, используемой для хранения данных, сокращение времени обработки данных и выдачи результата и возможность самообучения системы, то есть «обучение без учителя».
Сила голоса
Высокая
Средняя
Низкая
Тембры мужского голоса Тембры женского голоса
А
1
Высота голоса
Рис. 1. Кластерная карта для идентификации по голосу
Примечания:
1. Зангиев Т.Т., Гунай Ф.Р., Тугушева З.Я. Семантический архив как инструмент оценки деятельности электронных средств массовой информации в условиях информационных войн // Актуальные вопросы и практики: материалы V междунар. науч.-практ. конф. курсантов, слушателей и студентов. Краснодар. 2017. Т. III. 281 с.
2. Орловский С. А. Проблемы принятия решений при нечеткой исходной информации. М.: Наука, Гл. ред. физико-мат. лит., 1981. 208 с.
3. Зангиев Т.Т., Гунай Ф.Р., Тугушева З.Я. Кластерный анализ электронных СМИ в условиях информационных противоборств // Технические и техно-
References:
1. Zangiev T.T., Gunay F.R., Tugusheva Z.Ya. Semantic archive as a tool for evaluating the activities of electronic mass media in the context of information wars // Current Issues and Practices: Proceedings of the 5th intern. scientific-practical conf. of cadets, learners and students. Krasnodar. 2017. Vol. 3. 281 pp.
2. Orlovsky S.A. Decision making problems with fuzzy source information. M.: Nauka, Ch. ed. of physical and math. lit., 1981. 208 pp.
3. Zangiev T.T., Gunay F.R., Tugusheva Z.Ya. Cluster analysis of electronic media in the context of informational warfare // Technical and technological systems:
логические системы: материалы Девятой между-нар. науч. конф. ТТС-17. Краснодар, 2017. 112 с.
4. Паклин Н. Алгоритмы кластеризации на службе Data Mining. URL:
https://basegroup.ru/community/articles/datamining
5. Зангиев Т.Т., Тугушева З.Я., Гунай Ф.Р. Динамическое позиционирование электронных СМИ как стратегический инструмент в информационных противоборствах // Научные труды КубГТУ. Краснодар, 2016. № 16. С. 66-73. URL: http://ntk.kubstu.ru/file/1380
6. Частикова В.А., Тугушева З.Я., Гунай Ф.Р. Алгоритм нахождения амплитудной характеристики голоса // Научные труды КубГТУ. Краснодар, 2016. № 2. С. 326-332. URL: http://ntk.kubstu.ru/file/833
7. Частикова В.А., Тугушева З.Я., Гунай Ф.Р. Алгоритм идентификации пользователя по голосу // Научные труды КубГТУ. Краснодар, 2016. № 3. С. 1-7. URL: http://ntk.kubstu.ru/file/875
8. Частикова В.А., Тугушева З.Я., Гунай Ф.Р. Методика биометрической защиты информации с помощью амплитудных характеристик голоса // Научные труды КубГТУ. Краснодар, 2016. № 16. С. 282-288. URL: http://ntk.kubstu.ru/file/1585
proceedings of the Ninth international scient. conf. TTS-17. Krasnodar, 2017. 112 pp.
4. Paklin N. Clustering Algorithms for the Data Mining Service. URL:
https://basegroup.ru/community/articles/datamining
5. Zangiev T.T., Tugusheva Z.Ya., Gunay F.R. Dynamic positioning of electronic media as a strategic tool in informational warfare // Scientific Works of KubSTU. Krasnodar, 2016. No. 16. P. 66-73. URL: http://ntk.kubstu.ru/file/1380
6. Chastikova V.A., Tugusheva Z.Ya., Gunay F.R. Algorithm for finding the amplitude characteristic of the voice // Scientific Works of KubSTU. Krasnodar, 2016. No. 2. P. 326-332. URL: http://ntk.kubstu.ru/file/833
7. Chastikova V.A., Tugusheva Z.Ya., Gunay F.R. Algorithm of user's voice identification // Scientific Works of KubSTU. Krasnodar, 2016. No. 3. P. 1-7. URL: http://ntk.kubstu.ru/file/875
8. Chastikova V.A., Tugusheva Z.Ya., Gunay F.R. Methods of biometric information protection using amplitude voice characteristics // Scientific Works of KubSTU. Krasnodar, 2016. No. 16. P. 282-288. URL: http://ntk.kubstu.ru/file/1585