Научная статья на тему 'Эффективное использование речевой информации и биометрических технологий в силовых структурах'

Эффективное использование речевой информации и биометрических технологий в силовых структурах Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
523
80
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕЧЬ / ПРАВООХРАНИТЕЛЬНЫЕ ОРГАНЫ / БИОМЕТРИЧЕСКИЕ СИСТЕМЫ / АВТОМАТИЧЕСКАЯ ГОЛОСОВАЯ БИОМЕТРИЯ / ВНЕДРЕНИЕ / МЕКСИКА / SPEECH / LAW ENFORCEMENT AGENCIES / BIOMETRIC SYSTEMS / AUTOMATIC VOICE BIOMETRICS / IMPLEMENTATION / MEXICO

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Настасенко Марина Валерьевна, Дырмовский Дмитрий Викторович

Рассмотрены технологический базис и средства, используемые в силовых структурах для обработки и анализа речевой информации.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Effective Use of Speech Information and Biometric Technologies in Law Enforcement Agencies

The technological basis and technical aids are considered which are used in law enforcement agencies for processing and analysis of speech information. Refs. 15. Figs. 1.

Текст научной работы на тему «Эффективное использование речевой информации и биометрических технологий в силовых структурах»

УДК 534.442

М. В. Настасенко, Д. В. Дырмовский

ЭФФЕКТИВНОЕ ИСПОЛЬЗОВАНИЕ РЕЧЕВОЙ ИНФОРМАЦИИ И БИОМЕТРИЧЕСКИХ ТЕХНОЛОГИЙ В СИЛОВЫХ СТРУКТУРАХ

Рассмотрены технологический базис и средства, используемые в силовых структурах для обработки и анализа речевой информации.

E-mail: info@speechpro.com; ddv@speechpro.com

Ключевые слова: речь, правоохранительные органы, биометрические системы, автоматическая голосовая биометрия, внедрение, Мексика.

В последние годы вследствие резко возросшей распространенности различных бытовых и специальных технических средств регистрации и хранения речевой информации в распоряжении правоохранительных органов часто оказываются звуковые файлы, или фоно-документы, — фонограммы, которые могут "... служить средством к обнаружению преступления, установлению фактических обстоятельств дела, выявлению виновных либо к опровержению обвинения или смягчению ответственности... ", т.е. в соответствии со ст. 83 УПК РСФСР могут быть признаны вещественными доказательствами. Внедрение научно-технологического базиса и технических средств в работу силовых структур для обработки и анализа речевой информации крайне необходимо для обеспечения правопорядка и безопасности в РФ (см. рисунок).

Речь является основным средством коммуникации в любом виде человеческой деятельности, даже преступной. Технический прогресс и развитие цифровой звукозаписи привели нас к тому, что массога-баритные параметры устройств коммуникации уменьшаются, мобильность и скрытность процесса записи и передачи речевой информации повышаются, помех и шумов различного рода становится меньше и, главное, обеспечивается простота и удобство использования устройств телекоммуникации. Обмен речевой информацией в современном мире не представляет затруднений. В этой связи правоохранительные органы все чаще прибегают к использованию и обработке речевой информации при проведении оперативно-розыскных мероприятий, регистрации противоправных деяний, документировании следственных действий и т.п.

Человеческий голос — это основное средство коммуникации, в силу этого его объективная фиксация на том или ином носителе информации, т.е. звукозапись (или фонограмма), является важным, а иногда и единственно возможным источником информации об угрозах безопасности и преступлениях или даже основным вещественным доказатель-

Общая схема развернутой системы национального криминалистического фоноучета

ством. Особенно часто подобные ситуации возникают при расследовании чрезвычайных происшествий, выявлении фактов хищений, недобросовестной конкуренции, различных финансовых, юридических, организационных и режимных нарушений, раскрытии преступлений, связанных с организованной преступностью, вымогательством, взяточничеством, захватом заложников, террористическими угрозами и действиями, а также элементарным телефонным хулиганством. Кроме того, анализ звукозаписей, полученных в каналах связи или производ-

ственных помещениях организации, позволяет установить пути утечки информации, разобрать ошибки персонала, помочь восстановить детали переговоров, разрешить конфликтные ситуации, проконтролировать поведение персонала, собрать статистические сведения, снизить расходы на использование рабочих телефонов в личных целях.

Полученные речевая информация и звуковые записи могут проходить исследования для установления дословного содержания речи личности говорящего, наличия следов монтажа и внесенных изменений. Неизбежно возникает ряд проблем, связанных не только с качеством располагаемого звукового материала, но и с процессуально-правовыми вопросами технологического базиса и основы для внедрения автоматизированных систем и комплексов обработки и анализа речевой информации.

Для повышения эффективности работы с речевой информацией необходимо ее регистрировать и архивировать в речевых базах данных, объединять и классифицировать, организовывать оперативный и упорядоченный доступ к данным, хранить сопровождающую техническую и дополнительную информацию, иметь технические возможности расширения и масштабирования информации, а также автоматизировать процессы ее обработки и анализа.

Одним из основных предметов исследования речевой информации является индивидуальность речи говорящего.

Используя различные научно-технические решения, можно изменить многие признаки, необходимые и достаточные, чтобы отличить людей друг от друга. В таких условиях нахождение и анализ индивидуальных признаков играет принципиальную роль в обеспечении надежности и эффективности работы систем.

Научные положения об индивидуальности речи человека обусловливаются физиологическим строением органов, участвующих в рече-образовании, сознательной и подсознательной деятельностью высшей нервной системы, которая, в свою очередь, является отражением интеллектуального уровня речевого развития диктора, а также уровня развития навыков (не только речи). Совокупность действий всех органов при речеобразовании образует индивидуальный динамический речевой стереотип диктора, что и позволяет распознавать его по голосу и по речи.

Биометрия относится к разряду тех областей современных технологий, которые в последнее десятилетие получили значительное развитие, прежде всего, как важный компонент систем безопасности в государственном секторе. Во всем мире активно растут инвестиции в исследования этой области, повсеместно внедряются биометрические системы различного масштаба как в государственном, так и в коммерческом секторах.

С точки зрения голосовой биометрии еще в 1980-е гг. компания Bell Labs объявила, что с надежностью 99,7 % может определять личность по голосу. Попытки использовать такой алгоритм, однако, провалились. Выяснилось, что в действительности голос человека обладает внутридикторской вариативностью, т.е. меняется в течение дня, недели, месяца, года в рамках своих законов коммуникации и развития. В свою очередь, отличие голосов разных дикторов называется междикторской вариативностью: обычно междикторская вариативность превышает внутридикторскую, поэтому установление личности по голосу (идентификация) возможна, однако существует и множество других преград к корректной идентификации. Существенное значение имеют и длина парольной фразы или длительность речевого сообщения, качество сигнала с точки зрения как аддитивных помех, так и внесенных искажений. Такие особенности сигнала фиксируются, компенсируются и приводят к тому, что процесс идентификации по голосу можно автоматизировать, а качество и надежность методов автоматической биометрической идентификации по голосу — повысить.

Техническими принципами построения систем обработки и анализа больших речевых баз данных и автоматической голосовой биометрии должны являться: территориальная распределенность, т.е. возможности ведения учета и поиска по банкам данных системы из любой необходимой точки; безопасность данных, т.е. реализованный контроль и разграничение доступа к данным (использование традиционных систем и методов шифрования, а также методов голосовой биометрической аутентификации); открытость и консолидация данных, т.е. универсальная мультимедийная платформа системы автоматического биометрического поиска по голосу и национального фоноучета позволяет добавлять в систему программные модули, банки и базы данных, содержащие иную информацию, например цифровые модели других биометрических признаков (лица, отпечатков пальцев, радужной оболочки глаза) или учетные личные карточки подозреваемых; автоматизация рабочих процессов, т.е. система вовлекает каждого пользователя в работу согласно его компетенциям через гибкие механизмы полей, групп, прав доступа, рабочих процессов и полномочий.

В 2010 г. Центр речевых технологий внедрил крупнейший проект в области голосовой биометрии для целей обеспечения государственной безопасности в Мексике, основанный на инновационном научно-техническом базисе и современной технологической платформе для хранения, структуризации, обработки и анализа речевых баз данных большого объема в целях обеспечения возможностей распределенного (в том числе и удаленного) доступа и организации работы (обработки)

как в масштабах субъектов Мексиканских Соединенных Штатов, так и всей страны.

Разработанное аппаратно-программное решение для создания и ведения фоноучетов, проведения автоматической идентификации по голосу основано на таких методах автоматического исследования голоса и речи, для которых не имеют значения язык, акцент диктора и используемый им диалект, а также содержание текста произносимой речи. Процесс идентификации по голосу состоит в автоматическом попарном сравнении голосовых моделей, в которых закодированы индивидуальные биометрические характеристики голоса и речи дикторов. В результате поиска по голосу выводится ранжированный список фонограмм, содержащих с указанной вероятностью речь заданных для поиска дикторов. Биометрическая идентификация по голосу основана на трех автоматических биометрических методах анализа голоса и речи дикторов, и результат обработки данных представляется обобщенным решением, полученным по этим трем методам с использованием методики взвешенного голосования и с учетом условий надежности, уверенности и применимости методов в зависимости от параметров звукового сигнала.

Это решение масштабируется за счет использования параллельных кластерных вычислений и отвечает высочайшим требованиям быстродействия с соответствующими показателями:

Время поиска по горячему списку из 20 000 образцов при 105 одновременных запросах, мин ................................. не более 10

Время поиска по базе из 600 000 образцов при 16 одновременных

запросах, мин ................................................. не более 45

Число сравнений за 10 мин, показанное в испытаниях, мин ..... более 3 млн

Скорость добавления образцов речи в систему в пакетном режиме,

обр./ч.......................................................... до 15 000

Число образцов голоса, проходящих полный цикл рабочего процесса в автоматическом режиме в сутки......................... более 20 000

В настоящее время внедренная система имеет следующие характеристики: объем базы данных на данный момент — 600 000 образцов голосов; число образцов (до конца 2011 г.) — более 1 000 000; доступ из 250 ведомств по всей стране; пиковая производительность — 3 000 000 сравнений за 10 мин; растущее число расследованных дел.

Всего за один год использования биометрической системы голосового поиска удалось раскрыть серьезные уголовные дела, связанные с похищением людей, коррупцией и вымогательством.

Существуют процессуальные и правовые вопросы использования речевой информации: взятия образцов речи граждан, съема информации с источников связи, записи речевых сообщений в условиях различных жизненных ситуаций, хранения речевой информации и ее старения. Решение многих из этих вопросов откладывается из-за несовершенств существующей последовательности и методов получения и обработки речевых данных, а также технического оснащения и квалификации (еще нет специалистов) пользователей гипотетической автоматизированной централизованной системы биометрического учета.

На практике технические проблемы речевых баз данных разрешимы, технологический прогресс компенсации и обработки не стоит на месте, тактико-технические требования к комплексам обработки становятся все более реальными с точки зрения как масштабов и распределенности, так надежности и скорости. Последовательное, поэтапное, инкапсулированное решение, внедрение и обучение на всех уровнях организации безопасности и правопорядка позволит через определенное время выйти на новый научно-технологический уровень развития и информатизации правоохранительных органов, обеспечения безопасности страны и общества в целом.

СПИСОК ЛИТЕРАТУРЫ

1. Barinov A., Koval S., Stolbov M., Ignatov P. Channel compensation for forensic speaker identification using inverse processing / AES 39th International Conference, Hillerod, Denmark, June 17-19, 2010.

2. ISO/IEC 24722 "Multimodal and other multibiometric fusion", 2006.

3. Labutin P., Koval S., Raev A., Smirnova N., Stolbov M., Tampel I., Khitrov M. Speaker recognition system for standard telephone network // Proc. of the 10th International conference on Speech and Computer, SPECOM 2005, Patras, Greece, 2005.

4. Li S. Z., J a i n A. K. Encyclopedia of biometrics. - Springer Science + Business media. - LCC, 2009.

5. Niculescu-Mizil A., Caruana R. Predicting good probabilities with supervised learning // Proc. 22th International Conference on Machine Learning (ICML'05), 2005.

6. Pekhovsky T., Oparin I. Maximum likelihood estimations for session-independent speaker modeling // Proc. of The XIII International Conference "Speech and Computer" SpeCom'09, St.-Peterburg, Russia, 2009. - P. 267-270.

7. Pekhovsky T., Oparin O. Eigen Channel Method for Text-Independent Russian Speaker Verification. Proc. of the 12th International conference on Speech and Computer, SPECOM 2007, Moscow, Russia, 2007. - P. 385-390.

8. Platt J. Probabilistic outputs for support vector machines and comparison to regularized likelihood methods // In "Adv. in Large Margin Classifiers", 1999.

9. Smirnova N., Starshinov A., Oparin I., Goloshchapova T. Speaker identification using selective comparison of pitch contour parameters. Proc. of the XVI International Congress of Phonetic Sciences, Saarbrucken, Germany, 2007.-P. 1801-1804.

10. Smirnova N., Starshinov A., Oparin I., Goloshchapova T. Speaker identification using selective comparison of pitch contour parameters // Proc. of the XVI Interational Confress of Phonetic Science ICPhS'2007, Saarbrucken, Germany, 2007. - P. 1801-1804.

11. Smirnova N., Starshinov A., Oparin I., Goloshchapova T. Using parameters of identical pitch contour elements for speaker discrimination. Proc. of the 12th International conference on Speech and Computer, SPECOM 2007, Moscow, Russia, 2007. - P. 361-366.

12. Галяшина Е. И. Речь — как источник доказательств. - URL: http://www.univ.crimea.ua/k_crim/guests/galyashina.fi les/gal_st2.htm

13. Коваль С. Л. Сборник научно-методических рекомендаций по выполнению криминалистических экспертиз звукозаписей речи. - СПб.: ЦРТ, 2002.

14. Матвеев Ю. Н., Симончик К. К. Система идентификации дикторов по голосу для конкурса NIST SRE 2010 // Труды 20-й Междунар. конф. "Гра-фиКон'2010", Санкт-Петербург, Россия; СПбГУ ИТМО, 20-24 сентября 2010. -С. 315-319.

15. Смирнова Н. Идентификация дикторов на основе сравнения параметров реализации мелодических контуров высказывания // Материалы XXIII междунар. конф. "Диалог-2007". - М., 2007.

Статья поступила в редакцию 9.08.2011

i Надоели баннеры? Вы всегда можете отключить рекламу.