Научная статья на тему 'Сегментация речевого высказывания при проведении идентификации иноязычного диктора'

Сегментация речевого высказывания при проведении идентификации иноязычного диктора Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
341
38
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СЕГМЕНТАЦИЯ РЕЧЕВОГО СИГНАЛА / ИДЕНТИФИКАЦИЯ ПО ГОЛОСУ И РЕЧИ / МЕТОД ИДЕНТИФИКАЦИИ НА ОСНОВЕ СРАВНЕНИЯ МЕЛОДИЧЕСКИХ СТРУКТУР ОПОРНЫХ ФРАГМЕНТОВ РЕЧЕВОГО СИГНАЛА / SPEECH SEGMENTATION / SPEECH AND VOICE IDENTIFICATION / SPEAKER IDENTIFICATION METHOD BASED ON THE COMPARISON OF UTTERANCE PITCH CONTOUR PARAMETERS

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Гусакова(елемешина) Ю. А., Курьянова И. В.

В статье рассматривается актуальный вопрос инструментальной фонетики проблема сегментации устной речи иноязычного диктора с целью его последующей идентификации. В работе описаны возможные критерии сегментации качественные и количественные характеристики звучащей речи, например речевые паузы и интонация, а также их акустические корреляты (частота основного тона, интенсивность и длительность), позволяющие эксперту обнаружить конкретные сегментные единицы в иноязычной речи (слоги, слова и т. д.), описать их структуру, выделить основные признаки. Дается характеристика структурно-мелодического анализа звучащей речи как одного из методов идентификации говорящего на иностранном языке.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SPEECH SEGMENTATION WHEN PERFORMING FOREIGN LANGUAGE SPEAKER IDENTIFICATION RESEARCH

The article deals with the topical issue of instrumental phonetics that is foreign speech segmentation for the purpose of further speaker identification. The paper presents potential segmentation criteria i.e. qualitative and quantitative utterance features. They are, for instance, speech pauses, intonation and their acoustic correlates (voice pitch frequency, intension and continuance), which allow to find out certain segmental units of foreign speech (syllables, words, etc.), to describe their structure and to determinate main features. It is described foreign language speaker identification method based on the comparison of utterance pitch contour parameters.

Текст научной работы на тему «Сегментация речевого высказывания при проведении идентификации иноязычного диктора»

УДК 612.858.74

Ю. А. Гусакова (Елемешина), И. В. Курьянова

Гусакова Ю. А. (Елемешина), аспирант кафедры прикладной и экспериментальной лингвистики Института прикладной и математической лингвистики ФГПН МГЛУ; e-mail: [email protected] Курьянова И. В., аспирант кафедры прикладной и экспериментальной лингвистики Института прикладной и математической лингвистики ФГПН МГЛУ; e-mail: [email protected]

СЕГМЕНТАЦИЯ РЕЧЕВОГО ВЫСКАЗЫВАНИЯ ПРИ ПРОВЕДЕНИИ ИДЕНТИФИКАЦИИ ИНОЯЗЫЧНОГО ДИКТОРА

В статье рассматривается актуальный вопрос инструментальной фонетики - проблема сегментации устной речи иноязычного диктора с целью его последующей идентификации. В работе описаны возможные критерии сегментации - качественные и количественные характеристики звучащей речи, например речевые паузы и интонация, а также их акустические корреляты (частота основного тона, интенсивность и длительность), позволяющие эксперту обнаружить конкретные сегментные единицы в иноязычной речи (слоги, слова и т. д.), описать их структуру, выделить основные признаки. Дается характеристика структурно-мелодического анализа звучащей речи как одного из методов идентификации говорящего на иностранном языке.

Ключевые слова: сегментация речевого сигнала; идентификация по голосу и речи; метод идентификации на основе сравнения мелодических структур опорных фрагментов речевого сигнала.

Gusakova (Elemeshina) Y. A.

Postgraduate Student, Department of Applied and Experimental Linguistics, Institute of Applied and Mathematical Linguistics, Faculty of the Humanities and Applied Sciences, MSLU; e-mail: [email protected]

Kuryanova I. V.

Postgraduate Student, Department of Applied and Experimental Linguistics, Institute of Applied and Mathematical Linguistics, Faculty of the Humanities and Applied Sciences, MSLU; e-mail: [email protected]

SPEECH SEGMENTATION WHEN PERFORMING FOREIGN LANGUAGE SPEAKER IDENTIFICATION RESEARCH

The article deals with the topical issue of instrumental phonetics that is foreign speech segmentation for the purpose of further speaker identification. The paper presents potential segmentation criteria i.e. qualitative and quantitative

utterance features. They are, for instance, speech pauses, intonation and their acoustic correlates (voice pitch frequency, intension and continuance), which allow to find out certain segmental units of foreign speech (syllables, words, etc.), to describe their structure and to determinate main features. It is described foreign language speaker identification method based on the comparison of utterance pitch contour parameters.

Key words: speech segmentation; speech and voice identification; speaker identification method based on the comparison of utterance pitch contour parameters.

Проблема достоверной сегментации слитной речи приобретает особое значение при идентификации говорящего по голосу и речи в рамках проведения фоноскопической экспертизы. Решение этой задачи в настоящее время немыслимо без использования различного рода автоматизированных и полуавтоматизированных систем идентификации. Актуальность идентификации дикторов, говорящих на иностранных языках, экспертом, не владеющим данным языком, с каждым годом возрастает. Эта проблема получила широкий резонанс как у экспертов различных правоохранительных структур, так и у лингвистов, психологов и психолингвистов. Традиционные подходы к задаче идентификации говорящего опираются на субъективные методы: слуховое опознание и сравнение акустических представлений, основная проблема заключается в том, что эксперту, не владеющему исследуемым языком, приходится исключать категорию «смысл» при восприятии иноязычной речи.

Первые исследования в области применения автоматизированных систем идентификации были проведены за рубежом и основывались на методиках криминалистической идентификации говорящего, принятых в США, Германии, Великобритании. В России первые исследования с учетом потребностей криминалистики, посвященные данной проблеме, проводились на материале английского, немецкого и французского языков, где анализировались особенности восприятия носителями русского языка, не владеющими вышеперечисленными языками, сегментных и супрасегментных, а также ритмо-мелодических характеристик речи указанных языков [8, с. 240]. Основное внимание в зарубежных методиках уделялось аппаратным средствам исследования речевого сигнала, а также перцептивному анализу применительно к сегментному и супра-сегментному уровням языка.

Аппаратно-программный комплекс по идентификации по голосу и речи лиц, говорящих на таджикском, цыганском, узбекском, азербайджанском и киргизском языках (АПК «Этнос»), стоящий на вооружении в экспертно-криминалистических подразделениях Федеральной службы по контролю за оборотом наркотиков, включает последние научные разработки российских и зарубежных ученых в области речевых технологий и основан на комплексном использовании трех направлений методов: автоматических, автоматизированных и экспертно-аудитивных (слуховых и лингвистических) методов.

Метод идентификации на основе сравнения мелодических структур опорных фрагментов речевого сигнала является одним из автоматизированных методов и позволяет эксперту анализировать и сравнивать основные характеристики мелодических структур в речи говорящего, поэтому исследование фонетической структурированности составляющих звучащего текста приобрело большую актуальность в связи с поиском принципов сегментации, необходимых для решения данной задачи. Изучение любого звучащего речевого сообщения предполагает предварительную сегментацию этого сообщения с выделением ключевых сегментов и их признаков, отношений между ними, их структурной организации с целью дальнейшего распознавания и понимания последнего. При этом встает вопрос определения самих единиц сегментации речевого высказывания, методики, критериев их обнаружения, специфики и форм взаимодействия.

Сегментация письменного текста не представляет такой трудности благодаря дискретности букв, пробелов и знаков пунктуации. Иное дело - звучащая речь, в которой сочетаются звуки, слоги и слова, которые разграничиваются только благодаря предшествующему языковому опыту коммуниканта.

Процессы фонации и артикуляции обусловливают деление речевого высказывания на составляющие: минимальные (звук, слог) и максимальные (текст, дискурс). Слоги и слова в одних случаях выступают как дискретные единицы, иногда же кажутся «неорганизованным» потоком. Дискретность реализуется через знание системы того или иного языка, а также зависит от тренированности лингвистического слуха коммуниканта, его способности «узнавать» и адекватно вычленять те или иные речевые компоненты высказывания.

Непрерывные движения артикуляторных органов в процессе речепроизводства находят отражение в изменениях акустических характеристик, фиксируемых на спектрограмме. Дискретные явления при этом характеризуются специфическими признаками. Так, дискретными являются акустические корреляты таких признаков, как наличие / отсутствие голоса при произнесении звуков, полное или частичное закрытие рта, смыкание и размыкание мягкого нёба [5, с. 263]. Относительная дискретность речевого потока делает более реальной сегментацию кепстральных изображений на отрезки, соответствующие разным типам звуков, их частей и сочетаний. Резкие изменения кепстральной картины во времени, связанные с изменением конфигурации источника и речевого тракта, в целом могут быть использованы в качестве условных маркеров при членении речи. При этом каждый язык располагает своей системой акустических признаков сегментации, сосуществующей с универсальной системой средств разграничения [5, с. 263].

Поиск объективных критериев вычленения из непрерывного потока речи ограниченного числа элементарных отрезков в масштабе звука невозможен без учета сведений об объективных признаках границ таких единиц речи, как слоги, фонетические слова, фразы и т. д. [5, с. 263]. Реализация речевой сегментной цепи невозможна без изменения на определенных участках конфигурации одного или более акустических признаков. При этом некоторые акустические характеристики, например наличие / отсутствие частоты основного тона, необязательно могут изменяться одновременно, а способны удерживаться на протяжении относительно больших речевых отрезков, включающих целую звуковую последовательность.

С одной стороны, акустические признаки разграничения возникают как следствие изменения характера примыкания соседних граничащих звуков (контактное примыкание звуков в слоге, дистантное примыкание звуков на границе слогов), с другой - могут сигнализировать о самом факте наличия пограничных сигналов, тип и локализация которых зависят от специфики структуры конкретного языка, т. е. для различных языков система акустических признаков сегментации различна. Процесс анализа может проходить как последовательно, т. е. распознаются сегмент за сегментом, так и одновременно.

Вычленяемые речевые сегменты можно условно разделить на макро-, медиа- и микроуровневые. При сегментации на микроуровне анализируются звуковые, интерзвуковые (сочетания двух соседних звуков), а также межзвуковые переходные процессы, смычки, фрикации, эксплозии и т. д. Объектами макросегментации являются синтагмы, речевые такты, ритмические группы, фразы, сверхфразовые единства, фоноабзацы. Промежуточное положение между микро- и макросегментацией занимает фонетическое слово (ритмическая структура) - объект медиасегментации [5, с. 272].

При этом не следует говорить об универсальном способе формальной сегментации речи. В зависимости от характера сигнала можно идти от описания акустических признаков границ сегментов меньших звука, к описанию акустических границ звуков и далее к описанию акустических границ слога, фонетического слова, синтагмы, фразы, сверхфразового единства. Эта же последовательность может быть и обратной, если использовать в качестве исходной отправной точки анализа более крупный сегмент. Если рассматривать ту же самую иерархию в синтагматике, т. е. в процессе развертывания речевого высказывания в процессе речевой деятельности, то особую сложность для сегментации будет представлять слог по сравнению с возможностью вычленения таких сегментов, как фонетическое слово, синтагма или фраза. Последние характеризуются рядом признаков, которые позволяют объединить их в систему акустических коррелятов пограничных сигналов, что значительно облегчает процедуру вычленения их в потоке речи [7, с. 53].

Одной из задач поиска разграничительных средств слитной речи является определение сориентированного на звукоречевой характер коммуникации критерия, позволяющего сегментировать слитную речь на определенные участки. В качестве критерия сегментации могут рассматриваться качественные и количественные характеристики, которые в речевой коммуникации появляются только изредка, как, например, речевые паузы, или же функционируют постоянно, как, например, интонация. Характерные изменения этих признаков могут служить признаками разграничения. Исследования просодических характеристик в речевом потоке показывают, что все просодические изменения способствуют делению

целого на более мелкие единицы (информационные и смысловые), с одной стороны, и выделению структуры фразы - с другой.

Каждой смысловой единице в семантическом плане соответствует некое единство в акустическом плане. Просодически это единство определяется своими границами и может соответствовать одному или нескольким словам или же фразам. Одним из акустических коррелятов такого единства является подъем частоты основного тона, который настолько отличается от всего тона во фразе, насколько говорящий выделяет данную смысловую единицу.

Из трех просодических характеристик (частоты основного тона, интенсивности и длительности) при определении акустического коррелята стыка при сегментации наиболее информативной выступает временная характеристика (длительность). Наличие любого высказывания предопределяет присутствие в нем паузы, которая рассматривается как пограничный сигнал и связана с актом смыслового кодирования и декодирования текста. Локализация пауз в тексте связана с его коммуникативной направленностью, а также с умением говорящего кодировать текст, физиологическим состоянием коммуникантов. Пауза в речи трактуется как падение уровня интенсивности до нуля на минимальном временном участке, длительность которого в среднем приравнивается к 10 мс. При этом перерыв в звучании может быть как внутри звука - так называемая интрасегментная пауза, так и за его пределами, тогда говорят об интерсегментой паузе. Интрасегментные паузы появляются в процессе артикулирования звуков, например при произнесении взрывных согласных, при этом в таких случаях принято говорить о перерывах в звучании, а не о собственно паузах. Интерсегментные паузы, в свою очередь, делятся на синтаксические и несинтаксические (например, эмфатические, паузы хезитации и др.). Синтаксические паузы реализуют членение предложения, а также объединяют части высказывания в единое целое.

Принимая во внимание возможность реализации пауз практически в любом месте высказывания, можно говорить о различных типах реализации мелодического контура во фразе. Система мелодических контуров, особенно в сочетании с паузацией, дает возможность членить звучащий текст достаточно полно и разнообразно. В качестве признаков сегментации акустического

речевого сигнала можно также выделить наличие / отсутствие частоты основного тона; скачкообразное повышение частоты основного тона от согласного к гласному; скачкообразное понижение частоты основного тона на переходе от гласного к согласному; наличие / отсутствие шума, его длительность и крутизна нарастания; наличие низкочастотной / высокочастотной энергии, а также длительность сегментов [5, с. 271].

Знание всех этих характеристик и применение их в практической деятельности во время анализа мелодических структур в иноязычной речи, позволяет эксперту точно обнаружить конкретные сегментные единицы (слоги, слова и т. д.), описать их структуру, выделить основные признаки.

Возможность сравнения мелодического оформления различных фрагментов речевого сигнала обеспечивается их типичностью и повторяемостью в речи конкретного диктора с поправкой на характерную для него специфику контекстной и иной внутридиктор-ской вариативности.

Цель структурно-мелодического анализа состоит в выявлении однотипных мелодических структур в исследуемых фонограммах и сравнении их характеристик для установления степени близости параметров мелодических контуров. Данная цель достигается последовательным подбором нескольких реализаций опорных фрагментов (далее - ОФ) по каждому типу / подтипу контура в сравниваемых фонограммах.

Все типы (подтипы) имеют определенный набор измеряемых параметров мелодики (отдельный параметр получает свое значение в конкретной реализации ОФ). Сравнение осуществляется по каждому из используемых типов (подтипов) на основе пороговых, т. е. пограничных, значений, отделяющих сходные реализации от различных, рассчитанных для параметров каждого типа мелодического контура» и заложенных в АПК «Этнос». При вычислении общего результата учитываются весовые коэффициенты, приписанные каждому параметру и каждому типу фрагмента мелодического контура.

Подбор ОФ мелодического контура для сравнения осуществляется экспертом на основе слухового и визуального анализа речевого сигнала. Это могут быть фоноабзацы (последовательности из нескольких высказываний или синтагм общей длительностью

более 10 сек.), синтагмы, а также их структурные составляющие (предшкалы, шкалы, ядерные слоги и ядерно-заядерные участки с мелодически однотипным оформлением).

При подборе фрагментов для сравнения следует руководствоваться следующими критериями:

• подбирать элементы контура, имеющие ярко выраженную специфику и несколько примеров реализации в каждой из фонограмм. Например, в речи дикторов-таджиков наиболее часто встречаются ядерные мелодические модели с нисходящим или восходяще-нисходящим контуром.

• ограничивать внешние факторы, вызывающие реализационное варьирование однотипных мелодических структур - фрагменты речи должны максимально совпадать по стилистической и эмоциональной окраске (это может относиться как ко всему речевому фрагменту, так и к отдельным его частям).

• ограничивать сегментные и структурные факторы, вызывающие реализационное варьирование однотипных мелодических структур. В частности, при анализе и сравнении ядерной мелодики следует подбирать участки, сопоставимые по протяженности голосового участка, а именно, по наличию / отсутствию заядерных слогов, а при отсутствии заядерного участка - с учетом сегментного состава ядерного слога. Так, при коротком голосовом участке (например, если ядерный слог оканчивается глухим согласным) более вероятно простое, раннее или среднее по таймингу и равномерное по крутизне движение тона, а варьирование большинства параметров просто невозможно. При большей длительности тонального участка ядерного слога - например, если на конце ядерного слога сонант или долгий гласный, возможны некоторое варьирование тайминга (средний и поздний) и неравномерность скорости изменения тона (крутое в начале, пологое в конце, или наоборот). При появлении заядерных слогов область потенциального варьирования реализационных параметров может еще больше увеличиваться, что расширяет возможности исследования индивидуальной специфики интонирования. Увеличение / уменьшение длительности тонального участка может происходить также под влиянием ускорения / замедления темпа речи. Упомянутые факторы влияния могут вступать во взаимодействие друг с другом, например замедление темпа может увеличить длительность ядра

и, соответственно, создать базу для полноценного развертывания мелодической модели. И наоборот, ускорение темпа может привести к сокращению тонального участка и упрощению мелодической конфигурации, даже если сегментный субстрат обладает достаточной длительностью голосового участка.

Кроме того, сам по себе сегментный состав ядерного слога может оказывать некоторое влияние на характер тональной конфигурации и значения ЧОТ. Так, например, известно, что гласные высокого подъема обладают более высокой собственной частотой, чем гласные низкого подъема; глухие согласные вызывают небольшой подъем ЧОТ в начале следующего гласного, а звонкие, наоборот, ее понижение. Следует также обращать внимание на характер синтагматической границы после ядерного участка, поскольку в случае, если граница не маркируется паузой, а реализуется другими просодическими средствами, конечный участок ядерного тона может несколько видоизмениться под влиянием тонального начала следующей синтагмы.

Для выделенного фрагмента контура рассчитывается следующий набор параметров:

• начальная частота - значение первого отсчета (в Гц) в начальной точке выделенного фрагмента контура;

• конечная частота - значение последнего отсчета (в Гц) в конечной точке выделенного фрагмента контура;

• максимальная частота - максимальное значение частоты ОТ (в Гц) в пределах выделенного фрагмента контура;

• время максимума - координата максимального значения в процентах от общей длительности выделенного фрагмента;

• минимальная частота - минимальное значение частоты ОТ (в Гц) в пределах выделенного фрагмента контура;

• время минимума - координата минимального значения в процентах от общей длительности выделенного фрагмента;

• интервал - разница между максимальным и минимальным значением частоты ОТ (в Гц);

• интервал - разница между максимальным и минимальным значением частоты ОТ (в ПТ (полутон));

• время половинной частоты - координата значения половинной частоты (от интервала между максимумом и минимумом) в процентах от общей длительности выделенного фрагмента;

• средняя частота - среднее значение ЧОТ (в Гц) в пределах выделенного фрагмента контура;

• скорость изменения тона - средняя скорость убывания или возрастания тона на выделенном участке контура (в ПТ/мсек);

• скос (асимметрия) характеризует степень несимметричности распределения значений ЧОТ относительно среднего значения: положительная асимметрия указывает на отклонение распределения в сторону положительных значений; отрицательная - на отклонение распределения в сторону отрицательных значений.

• эксцесс характеризует относительную остроконечность или сглаженность распределения значений ОТ по сравнению с нормальным распределением: положительный эксцесс обозначает относительно остроконечное распределение; отрицательный эксцесс обозначает относительно сглаженное распределение.

• коэффициент изрезанности контура используется для оценки степени изрезанности протяженных участков мелодического контура (синтагм, шкал, длительных речевых участков);

• длительность - длительность выделенного фрагмента в миллисекундах [6, с. 117].

Дальнейшее сравнение осуществляется автоматически в экспертном режиме на основе полученных средних значений по каждому параметру каждого (под)типа элементов мелодического контура. Каждый параметр имеет свой весовой коэффициент, определяющий его долю в общей оценке степени сходства / различия по каждому из задействованных (под)типов фрагментов контура. Для каждого (под)типа рассчитываются степень сходства и степень различия. Далее по этим частным значениям (под)типов аналогичным образом, с учетом весовых коэффициентов, рассчитывается общая оценка сходства / различия речевых образцов, на основе которой формулируется общий вывод о тождестве / различии голосов.

Таким образом, сравнению фонограмм данным методом должен предшествовать тщательный слуховой анализ речевого материала, по результатам которого может быть определена оптимальная для данного конкретного случая стратегия сравнительного анализа, т. е. типы и состав участков контура для сравнения, критерии их подбора в фонограмме. Эффективность данного вида анализа в значительной степени зависит от компетенции, опыта

и интуиции эксперта, его способности точно определить потенциально наиболее информативные «фокусные» зоны при работе

с конкретным материалом, поступившим на исследование.

СПИСОК ЛИТЕРАТУРЫ

1. Голощапова Т. И. Исследование иноязычной речи экспертными методами // Лингвистическая полифония: сб. ст. в честь юбилея профессора Р. К. Потаповой / отв. ред. чл.-корр. РАН В. А. Виноградов. -М. : Языки славянских культур, 2007. - С. 710-726.

2. Голощапова Т. И. Перспективные направления криминалистического исследования звукозаписей на этнических языках: материалы Междунар. конф. «Информатизация и информационная безопасность правоохранительных органов» / отв. ред. В. И. Кирин - М. : Академия управления МВД, 2009. - С. 337-341.

3. Голощапова Т. И. Идентификация иноязычных дикторов автоматическими методами: материалы Междунар. конф. «Информатизация и информационная безопасность правоохранительных органов» / отв. ред. В. И. Кирин - М. : Академия управления МВД, 2010. -С. 372-377.

4. Голощапова Т. И. и др. Идентификация по голосу и речи лиц, говорящих на таджикском, узбекском, цыганском языках, с применением АПК «Этнос»: методические рекомендации для экспертов / под ред. С. В. Сыромятникова - М. : ЭКУ 9 Департамента ФСКН РФ, 2009. -143 с.

5. Златоустова Л. В., Потапова Р. К., Потапов В. В., Трунин-Донской В. Н. Общая и прикладная фонетика: учеб. пособие. - 2-е изд., перераб. и доп. - М. : Изд-во Моск. гос. ун-та, 1997. - 416 с.

6. Научно-технический отчет по ОКР «Разработка дополнительного программного обеспечения к аппаратно-программному комплексу по идентификации лиц, говорящих на этнических языках» / рук. ОКР А. О. Таланов - СПб. : Центр речевых технологий», 2011. -С. 108-119.

7. Потапова Р. К., Блохина Л. П. Средства фонетического членения речевого потока в немецком и русском языках. - М. : МГИИЯ, 1986. -115 с.

8. Потапова Р. К., Потапов В. В. Язык, речь, личность. - М. : Языки славянской культуры, 2006. - 496 с.

9. Потапова Р. К., Михайлов В. Г. Основы речевой акустики: учеб. пособие. - М. : ИПК МГЛУ «Рема», 2012. - 494 с.

10. Потапова Р. К., Потапов В. В. Речевая коммуникация: от звука к высказыванию. - М. : Языки славянских культур, 2012. - 464 с. -(БШШа рЫ1о^юа).

i Надоели баннеры? Вы всегда можете отключить рекламу.