УДК 81'33
Р. К. Потапова
д-р филол. наук, проф. акад. МАИ, директор института прикладной и математической лингвистики, зав. каф. прикладной и экспериментальной лингвистики ФГПН МГЛУ; e-mail: rkpotapova@yandex.ru
О ВОЗМОЖНОСТИ АТРИБУЦИИ ГОВОРЯЩЕГО ПРИМЕНИТЕЛЬНО К ИНТЕРНЕТ-ТЕЛЕФОНИИ1
Цель статьи - показать возможность атрибуции говорящего и составления его портрета на основе голосовых и речевых акустических параметров применительно к современным технологиям IP-телефонии (VoIP). В последние десять лет быстро развивался фонетический анализ речевой и голосовой деятельности говорящего для судебно-криминалистических целей. Но в области речевой коммуникации с использованием VoIP требуются новые методы идентификации говорящего и его атрибуции. В настоящей статье предлагаются некоторые дополнительные инструменты для проведения голосового и речевого анализа VoIP-текстов (высказываний).
Ключевые слова: атрибуция говорящего; просодия; речевая деятельность; акустика речи; идентификационные признаки; параметрический фрейм.
Potapova R. K.
Doctor of Philology, Professor; Director of the Institute of Applied and Mathematical Linguistics, MSLU; Head of the Department of Applied and Experimental Linguistics, MSLU; e-mail: rkpotapova@yandex.ru
ON THE POSSIBILITY OF THE SPEAKER ATTRIBUTION REGARDING VOICE-OVER-INTERNET-PROTOCOL (VOIP) SERVICES2
The purpose of the article is to show the possibilities of the current research in the field of the speaker attribution and portrait description on the basis of voice and speech acoustic parameters regarding modern Voice-over-Internet-protocol (VoIP) services. The phonetic analysis of speech and voice product of the speaker activity for forensic purposes has been developing rapidly over the past decade. But the area of VoIP speech communication needs some new methods for speaker identification and attribution. And this paper offers some additional tools for the voice and speech analysis of VoIP-texts (utterances).
Key words: speaker attribution; prosody; speech activity; speech acoustics; identification features; parametric frame.
1 Исследование поддержано Российским Научным Фондом (РНФ). Проект № 14-18-01059.
2 The research is supported by the Russian Science Foundation (RSF), Project № 14-18-01059.
Новые информационно-коммуникационные технологии, с одной стороны, являются благом для современного человека-пользователя, с другой стороны, несут в себе и разрушающую компоненту, способствующую возникновению межличностных, межкорпоративных и межэтнических конфликтов, всевозможных деструктивных актов, дис-сонантных социальных проявлений и т. д. С помощью естественного языка и информационно-коммуникационных технологий реализуется современная тенденция к геополитической и геоэкономической глобализации, что выявляется в процессе мониторинга, а также автоматизированного социологического и прогностического контент-анализа социальных медиа в режиме реального времени. Особую роль при этом играет исследование устно-речевых (фонетико-просодических) детерминантов эмоционально-модального поведения коммуникантов в условиях различных видов депривации (личностной, экономической, политической, конфессиональной и т. д.) в Интернете в режиме on-line. Определенная доля информации в Интернете поступает с помощью устно-речевого общения (Skype, YouTube и т. д.). В связи с этим перед исследователями встает новая задача: в определенных ситуациях суметь определить автора устно-речевого сообщения и его эмоционально-модальное состояние (истинное или имитируемое) при условии изменения его внешнего облика с помощью специальных средств [2].
Процесс речевой деятельности говорящего подчинен регулирующему механизму центральной нервной системы. Синтез речевого сообщения реализуется в мозгу человека и зависит от индивидуальных навыков изложения мысли, физиолого-психологических особенностей говорящего, его ситуативно-обусловленного психического и физического состояния [1; 2].
Результатом синтеза является подбор соответствующей программы артикуляторных движений, выполнение которой осуществляется согласно действию условно рефлекторного механизма. Система условных рефлексов у каждого человека строго индивидуальна и обусловлена типом высшей нервной деятельности, соотношением процессов возбуждения и торможения, степенью их силы, уравновешенностью и подвижностью, быстротой смены одного нервного процесса другим и т. д. Эти свойства проявляются, в частности, в скорости реализации артикуляторной программы и движения органов речи, что в свою
очередь определяет, например, темповые особенности устной речи, характер соотношения между вокализмом и консонантизмом (озвонченными и оглушенными участками) в речевом сообщении, в соотношении по времени квазистационарных и переходных участков звуковых сегментов, в сильном / слабом примыкании соседних звуков, в соотношении между паузальным и беспаузальным интервалами и т. д.
У человека со сформированными механизмами речи в ситуации речевой коммуникации все основные действия (кроме смыслового компонента) реализуются автоматически при значительно ограниченном контроле со стороны сознания, т. е. выступают в виде навыков, к которым относятся:
- навыки скоординированных движений органов речи;
- интонационные навыки, формирующие мелодику речи, динамику ударений, расстановку пауз и т. п.;
- лексические навыки (словарный запас);
- грамматические навыки (способы образования грамматических конструкций);
- стилистические навыки (выбор языковых и речевых средств и использование соответствующих экспрессивных маркеров).
Все эти навыки образуют уникальную совокупность речевых средств конкретного индивидуума, включающую как личностно-инди-видуальные, так и социальные варианты речевой модели, обусловленные принадлежностью говорящего к тем или иным общественным стратам (по признакам этнической принадлежности, профессии, уровня образования, социального, экономического статуса, уровня культуры и т. д.) [2].
Существующие в настоящее время автоматизированные системы идентификации личности по голосу и речи можно условно разбить на два класса: системы, сориентированные на задачу идентификации говорящего по принципу «один из многих», и системы типа «полиграф», сориентированные на задачу определения психоэмоционального состояния говорящего [3].
Характеризуя особенности и адекватность речевого поведения человека в конкретной ситуации общения, можно проанализировать и определить не только лингвистические (вербальные) особенности речи человека, но и дать оценку некоторым его обликовым характеристикам, которые по своей сути также могут являться индивидуализирующими признаками речи.
В существующих системах к числу таких характеристик говорящего, как правило, относятся следующие: пол, возраст, его эмоционально-психологическое состояние. Данным перечнем ограничен круг признаков обликового аспекта, что далеко не достаточно для решения задачи получения «портрета» говорящего по его речи. За пределы разработки уходят такие составляющие «портрета», как строение речевого аппарата, форма головы и скул, масса тела (вес); тип нервной системы, специфика эмоционально-волевой регуляции; специфика мыслительных процессов (когнитивный уровень). Эмоционально-психологическая характеристика применительно к данной системе должна включать такие эмоционально-модальные признаки речевого поведения личности, как, например, «приветливый», «раздражительный», «вспыльчивый», «суетливый», «спокойный». Каждый из этих признаков включает в свою очередь целый ряд других оттенков, которые соотносятся с эмоционально-модальным состоянием говорящего в данный момент времени.
Системы подобного рода являются примером классического решения задачи с помощью набора признаков и соответствующих параметров (например, нормированные средние значения спектра речи, относительная длительность речевого сигнала, нормированная длительность речевого сигнала, относительная мощность спектра речевого сигнала, параметры огибающих спектра речи, нормированные значения вариации огибающих спектра речи, коэффициенты кросс-корреляции огибающих между полосами спектра речи и т. д.).
Имеющиеся за рубежом и в нашей стране системы типа «полиграф» решают задачи, связанные, прежде всего, с психоэмоциональным состоянием говорящего: по речевому сигналу определяются положительные и отрицательные, сильные и слабые эмоции, принадлежность к конкретному виду эмоции; модальные оттенки уверенности-неуверенности, позитивности-негативности; коннотации лжи-истинности сообщения и т. д.
Таким образом, эксперты имеют дело с неким базовым набором акустических параметров, сопоставляемых с текущими значениями этих параметров.
В системах типа «полиграф» основной задачей является идентификация состояния говорящего [3]. Причем речевой сигнал используется как составная часть полимодального анализа. При этом далеко не
использованными остаются наработки специалистов в области фундаментального и прикладного речеведения.
В проводимом исследовании предполагается использование совершенно нового подхода при решении поставленной задачи - создание многомерного образа говорящего по его речи, передаваемой по Уо1Р-каналам типа Бкуре. При этом создание многомерного образа говорящего должно базироваться на наиболее обобщенных, инвариантных свойствах объекта (в данном случае - личности говорящего), с одной стороны, и на вероятностном прогнозе, с другой. Кроме того, следует учитывать технические искажения канала передачи сообщения.
Разрабатываемая система должна отличаться от всех более или менее схожих по своей задаче систем прежде всего тем, что она мыслится как экспертная система фреймового типа.
При разработке акустико-фонетического модуля экспертной системы предлагается использовать фреймовый подход. При этом возможны две разновидности использования фреймов, содержащих структуру фонетических знаний. Применение фреймов базируется либо на сравнении фреймов-эталонов и фреймов-текущих реализаций акустических событий при наличии специальной фреймовой грамматики, либо на классификации фреймов и их последующего объединения в группу, которой приписывается определенный маркер.
Фреймовый подход представляется особенно перспективным, так как позволяет использовать знания экспертов: универсального и конкретно индивидуального. В основе формирования фреймов лежит информация следующих семантических зон:
- антропометрической (слоты: масса тела, рост, строение речевого аппарата, форма головы, ширина скул, форма и ширина грудной клетки);
- физиологической (слоты: пол, возраст, норма / патология);
- психологической (слоты: типы высшей нервной деятельности, типы эмоционально-волевой регуляции);
- интеллектуальной (слоты: высокий интеллект, низкий интеллект, коммуникабельность, доминированность, акцентуиро-ванность и пр.).
Таким образом, каждый фрейм будет представлен своим вероятностным набором слотов, а каждый слот в свою очередь - вероятностным набором акустических параметров (спектральных, временных, просодических).
На следующем этапе планируется реализовать процесс сличения и сопоставления фрейма-эталона и фрейма-текущей реализации по всем акустическим параметрам применительно к каждой фреймовой зоне.
Фреймы формируются для всех возможных вариантов типов произнесения. Слоты фреймов заполняются с учетом как абсолютных, так и относительных (структурно-соотнесенных) акустических параметров и их значений речевого сигнала.
К числу наиболее информативных параметров обнаружения состояния напряжения у говорящего, использующего современные технические средства передачи сообщения в его устной форме по Интернету, следует отнести следующие акустические параметры:
1. Распределение энергии во времени (РЭВ).
Вектор РЭВ включает набор измерений «длительность ^/интенсивность (I)». Предполагается, что интенсивность речевого сигнала говорящего остается на определенном энергетическом уровне относительно его максимальной амплитуды.
Первоначально измеряется суммарная длительность всего речевого образца. Затем речевая волна делится на линейно равные уровни энергии, начиная с максимальной амплитуды. На каждом энергетическом уровне измеряется число амплитудных «всплесков», среднее и стандартное отклонение значений длительности на участках амплитудных «всплесков», а также паузации.
2. Вектор «наличие голоса (звонкость) / отсутствие голоса (глухость)» включает три основных параметра:
- суммарное время наличия фонации;
- суммарное время отсутствия фонации (для глухих согласных, зашумленных участков);
- соотношение значений длительности наличия фонации / отсутствия фонации (зашумленности сигнала).
При напряжении изменяется физиологическая база говорящего, моторика мышц, дыхательная моторика, фонационная и артикуляционная кинематика. Следствием этого является форсированное голосо-образование, имеющее в качестве акустического коррелята появление компонентов шума.
3. Вычисление минимальных значений частоты основного тона
во времени.
0тт А
4. Соотношение значений высоких частот спектра к суммарным значениям спектра.
5. Попериодное слежение за частотой основного тона Б0 (тонкая структура речевого сигнала).
6. Значения девиации применительно к средним значениям К минимальным и максимальным значениям К , ^ ).
0 у 0min 0max/
7. Слежение за Б0 на безударных участках.
8. Определение соотношения в структуре слогов двух акустических составляющих: консонантизма-вокализма.
9. Использование сегментирующей функции речи для обнаружения сильного / слабого типов примыкания звуков в составе слога, слогов в составе фонетического слова, что непосредственно связано с изменением физиологического напряжения.
Далее вычисляются меры соответствия между параметрами фрейма-эталона и фрейма-текущей реализации. Наличие события маркируется меткой, характеризующей фрейм-эталон, давший наилучший результат сравнения. Если меры соответствия ниже фиксированного порога, система может пересчитать один или несколько параметров фрейма-текущей реализации.
Управляющие структуры формализуются фреймовой грамматикой, содержащей правила и метазнания, необходимые для получения выводного результата.
База знаний эксперта содержит данные об используемых в ходе анализа объектах (акустических параметрах, акустических признаках), а также строго неформализуемые знания (силлогизмы, эвристики и т. д.).
База знаний эксперта может быть разделена на суббазы, каждая из которых должна функционировать параллельно с другими суббазами.
Введенные экспертом правила означают, что для данных ситуаций (определенного объема памяти, конкретной проблемы и т. д.), которые могут быть описаны как «эксперт», «проблема», «контекст» и «условие», основополагающим является заключение по типу: «Если ..., то ...».
В автоматизированной системе, предназначенной для получения обликовых характеристик говорящего по речи, предусматривается, таким образом, новый в данном отношении экспертный подход на базе фреймов. Предлагается новый подход, основанный на алгоритмизации
знаний экспертов-специалистов в области фундаментального и прикладного речеведения.
Первоочередное значение при этом приобретает база акустико-фонетических знаний, включающая информацию о ряде универсальных структурных признаков и параметров речевого сигнала, соотносящихся с обликовыми характеристиками говорящего, не ограниченными перечнем характеристик традиционного плана, с одной стороны, и база фонограмм реальной естественной речи, реализуемой в интернете в формате Бкуре и УоиТиЪе, с другой.
В рамках данного проекта предлагается разработка автоматизированной системы, предназначенной для получения обликовых характеристик говорящего по речевому сигналу.
В основу проекта положен следующий постулат:
Речь в ее звучащей форме полифункциональна по своей природе. Ввиду полифункциональности речевой сигнал содержит информацию лингвистического и экстралингвистического характера.
В обликовое описание говорящего входят оба типа характеристик.
Лингвистические (вербальные) характеристики содержат информацию о родном и неродном языке говорящего, диалекте, идиолекте, жаргоне, арго, просторечии, литературной норме и т. д., а также информацию об имитации вышеуказанных признаков.
Все вышеперечисленные аспекты соотносятся с определенными признаками, присутствующими в речи говорящего, что позволяет определить его происхождение, социальный статус, образовательный ценз, принадлежность к определенной социальной группе и т. д.
Экстралингвистические (невербальные) характеристики содержат информацию о наличии антропометрических, физиологических, психологических, интеллектуальных данных, а также информацию об эмоционально-модальном состоянии говорящего.
Акустический и перцептивный виды анализа речевого сигнала (слов, фраз, текста) позволяют установить:
- антропометрические признаки (рост, вес, форму головы / черепа);
- физиологические признаки (пол, возраст, состояние нормы / патологии);
- психологические признаки (тип нервной системы, эмоцио-нальной-волевую регуляцию);
- интеллектуальные признаки (специфику мышления) [5]. Особо выделяемы характеристики неконтролируемого плана.
К ним относится противопоставление: естественный речевой сигнал - имитируемый речевой сигнал.
К экстралингвистическим типам информации, содержащимся в речевом сигнале, могут быть отнесены:
- информация о статике / динамике тела говорящего в момент говорения;
- пространственно-предметная информация (рельеф местности; погодные условия: наличие / отсутствие ветра и т. д.).
Вышеперечисленные типы информации могут быть извлечены из речевого сигнала с помощью специальных знаний в данной области, проведения акустического и перцептивно-слухового видов анализа по специальной программе, формализации и алгоритмизации специальных экспертных знаний, создания программного обеспечения [4].
Предлагаемый подход сориентирован исключительно на устно-речевую информацию, что позволит проводить экспресс-анализ речевого сигнала с целевой установкой на получение характеристик атрибуции говорящего и его эмоционально-модального состояния в условиях интернет-коммуникации.
СПИСОК ЛИТЕРАТУРЫ
1. Потапова Р. К., Потапов В. В. Речевая коммуникация: От звука к высказыванию. - М. : Языки славянских культур, 2012. - 464 с.
2. Потапова Р. К., Потапов В. В. Язык, речь, личность. - М. : Языки славянской культуры, 2006. - 496 с.
3. Потапова Р. К., Потапов В. В. Семантическое поле «наркотики»: Дискурс как объект прикладной лингвистики. - М. : УРСС, 2004. - 190 с.
4. Потапова Р. К., Собакин А. Н., Маслов А. В. Возможность идентификации говорящего по голосу в системе интернет-телефонии Skype // Междисциплинарный подход в теоретической и прикладной лингвистике. - М. : ФГБОУ ВПО МГЛУ, 2013. - С. 177-188. - (Вестн. Моск. гос. лингвист. ун-та; вып. 13 (673). Серия Языкознание).
5. Potapova R., Potapov V. Auditory and Visual Recognition of Emotional Behaviour of Foreign Language Subjects (by native and non-native Speakers) // Speech and Computer. Lecture Notes in Artificial Intelligence. -Springer Verlag, 2014. - P. 62-69.