Научная статья на тему 'МЕТОД ОБНАРУЖЕНИЯ И ВЫДЕЛЕНИЯ ЗВУКА [Р] В РЕЧЕВОМ СИГНАЛЕ'

МЕТОД ОБНАРУЖЕНИЯ И ВЫДЕЛЕНИЯ ЗВУКА [Р] В РЕЧЕВОМ СИГНАЛЕ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
17
3
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СЕГМЕНТАЦИЯ РЕЧИ / ЛОКАЛИЗАЦИЯ ЗВУКА [Р] / ВАРИАЦИЯ / ТОЧКА ПОСТОЯНСТВА / ПОЛОСОВОЙ ФИЛЬТР / SPEECH SEGMENTATION [R] / SOUND LOCALIZATION / VARIATION / CONSTANCY POINT / BANDPASS FILTER

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шелепов В.Ю., Ниценко А.В.

В статье представлен метод обнаружения и выделения дрожащего звука «р» в речи в твердом и мягком вариантах за счет использования некоторых особенностей этого звука. Разработан алгоритм, который позволяет локализовать звук [р] независимо от фонетического окружения, тем самым повышая точность автоматической сегментации речи, а также сократить число слов-кандидатов на распознавание.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A METHOD FOR DETECTION AND LOCALIZATION OF [R] SOUND IN SPEECH SIGNAL

The article presents a method for detecting and localizing a hard and soft trill sound [r] in speech with the use of some features of this sound. An algorithm has been developed that allows localizing the sound [r] regardless of the phonetic environment, thereby increasing the accuracy of automatic speech segmentation, as well as reducing the number of candidate words for recognition.

Текст научной работы на тему «МЕТОД ОБНАРУЖЕНИЯ И ВЫДЕЛЕНИЯ ЗВУКА [Р] В РЕЧЕВОМ СИГНАЛЕ»

Метод обнаружения и выделения звука [р] в речевом сигнале

Шелепов В.Ю.,

доктор физико-математических наук, профессор, главный научный сотрудник ГУ ИПИИ

Ниценко А.В.,

научный сотрудник ГУ ИПИИ

Аннотация

В статье представлен метод обнаружения и выделения дрожащего звука «р» в речи в твердом и мягком вариантах за счет использования некоторых особенностей этого звука. Разработан алгоритм, который позволяет локализовать звук [р] независимо от фонетического окружения, тем самым повышая точность автоматической сегментации речи, а также сократить число слов-кандидатов на распознавание.

Ключевые слова: сегментация речи, локализация звука [р], вариация, точка постоянства, полосовой фильтр.

Звук «р» в твердом и мягком вариантах обладает в русской речи высокой статистической значимостью. Так, работая с электронной версией словаря Зализняка [1], содержащей 93.507 слов, и отбирая те из них, которые содержат «р», получаем 45.665 слов. Отсюда следует, что умение обнаруживать и выделять этот звук может быть очень полезно при распознавании устной русской речи. Этой и близким проблемам посвящены работы [2-7], в частности, статья [2], в которой авторам принадлежит метод, использующий последовательное сглаживание. В настоящей статье предлагается новый подход к этой задаче, который с одной стороны проще, а с другой, как показывает опыт, дает лучшие результаты.

Иногда нам придется различать твердый звук [р] и мягкий звук [г]. Если же то, что говорится, относится к обоим этим случаям, будем использовать для них общее обозначение Р.

Пусть x1,x2,... — последовательные отсчеты сигнала. Мы используем ниже окна по 256 отсчетов, для которых будет вычисляться вариация (численный аналог полной вариации):

254

г=£к.-4 (1)

¡=0

а также количество точек постоянства (мы называем момент дискретного времени точкой постоянства сигнала, если в следующий момент значение сигнала не меняется; в противном случае мы называем этот момент точкой непостоянства).

3

Известно, что «р» в конце слова может реализовываться как глухой звук. Мы не будем касаться этого случая, и будем всегда иметь в виду звонкое «р». Тогда можно утверждать, что этот звук образуется за счет одного или нескольких следующих один за другим (подобно барабанной дроби) ударов языка о нёбо при работающих голосовых связках. Будем называть их р-ударами. При каждом р-ударе происходит кратковременное перекрытие голосовой щели. Это отражается в записанном сигнале в виде одного или нескольких коротких паузообразных участков, которые разделены голосовыми элементами (см. рис. 1 и 2). На этом будет основана идентификация звука Р.

Рис. 1. Сигнал для слова "народ" с одним р-ударом.

Рис. 2. Сигнал для слова "народ" с несколькими р-ударами.

Для лучшего различения паузообразных и голосовых элементов в звуке [р] предлагается обработать сигнал простейшим полосовым фильтром (см. [8]) с последующей нормализацией путем деления на амплитуду сигнала и умножения на 256. Для одного из авторов наиболее подходящим является фильтр с полосой пропускания 400-600 Гц. Результат представлен на рисунке 3.

Рис. 3. Сигнал рисунка 2 после обработки фильтром 400-600 Гц.

Как показывает опыт, выбор полосы пропускания зависит от диктора. Для того чтобы уменьшить эту зависимость, увеличим полосу пропускания до 300-900 Гц (см. рис. 4).

Рис. 4. Сигнал рисунка 2 после обработки фильтром 300-900 Гц.

4

Операции следующих далее пунктов 1, 2 осуществляются для профильтрованного сигнала, все остальные операции выполняются для исходного сигнала.

Сигнал разбивается на неперекрывающиеся окна по 256 отсчетов. На каждом из них вычисляется разность между количеством точек непостоянства и количеством точек постоянства. Пусть й — массив этих разностей. Устраняются единичные включения положительных элементов в массиве й с помощью замены их на -1. Участок сигнала, на котором значения в массиве й меньше 0, помечается как «Ы» (см. рисунки 5 и 6), если длина этого участка больше некоторой минимальной величины т (она выбрана равной 5 окнам по 256 отсчетов). Ы-участки не содержат Р.

Рис. 5. Слева массив разностей точек непостоянства и постоянства для сигнала на рисунке 2. Курсор отмечает конец 1-го N-участка.

Рис. 6. Результат выделения «Ny-участков в сигнале на рисунке 2.

5

2. На участках сигнала, не помеченных как «Ы», вычисляется массив значений вариации (1). На рисунке 7 он представлен для среднего участка рисунка 6.

Рис. 7. Массив значений вариации для среднего участка рисунка 6 с отношениями предыдущего к последующему.

Пусть для некоторого элемента УШ массива выполняется условие УП+1] * 0 и УШМ1+1] > Т1 (у нас величина порога Т1 выбрана равной 2.2). Тогда данный элемент определяет начало р-удара и соответствующую метку в сигнале, при условии, что далее найдется конец этого р-удара, определяемый элементом У[]] массива V, для которого выполняются условия ¡<]<1+т, У[]+1] * 0, У[]]/У[]+1] < Т2 (величина порога Т2 выбрана 0.67). Тот же звук Р содержит еще один р-удар, если его начало отстоит от конца предыдущего не более чем на т окон. В противном случае мы имеем дело уже с другим звуком Р в пределах анализируемого участка, не помеченного как N. Пример — слово "Урарту" (см. рис. 8).

$ Recognizer - [WORD1] □ щ

File Edit View Options Window Help _ б1 X

D ь" У ■ • I q: Q. Q, Jt H [ 0 0 <■ м ш ri к тш н н п вн T*i Тр с<| ^ 4>2 Р rec т т L iE Ф С В S да С Е-Л Еф УС N

N .1 IR 1 ¡Я ;м МШШМ"'' I

РИРГЧ ^PWIF^ ■■41 115616 16 1 N'JM

6

Рис. 8. Визуализация сигнала для слова "Урарту" с 2-мя отмеченными Я.

Возвращаясь к примеру, представленному на рисунке 2 мы, таким образом, получаем результат, представленный на рисунке 9:

Рис. 9. Визуализация сигнала на рисунке 2 с выделением последовательных р-ударов.

(Отметим, что здесь программе не удалось выделить последний р-удар). Теперь мы можем сегментировать звук Р (см. рис. 10). Считаем его началом начало первого р-удара. Опыт показывает, что метку конца звука разумно проставлять на расстоянии 3-х окон справа от конца последнего выделенного р-удара. Начальная метка звука маркируется символом Р.

Рис. 10. Результат выделения Я в слове "народ".

3. Обратимся к авторской априорной сегментации (см. [9]), в которой начала отрезков гласных маркируются символом W, а начала отрезков звонких согласных — символом С. После определения границ сегмента «Р», необходимо совместить его метки и метки априорной сегментации. При этом рассматриваются следующие случаи.

а). Задаются два положительных числа Т3 и Т4 (>Т3). Если метка начала сегмента «Р»

находится достаточно близко к началу сигнала (количество отсчетов между ними <Т3), то эта метка и все предшествующие метки априорной сегментации, кроме метки начала сигнала, удаляются, и маркировка начальной метки сигнала заменяется на «Р».

б). Если упомянутое количество отсчетов >Т4, то все упомянутые метки и их маркировка

остаются на месте.

в). Если упомянутое количество отсчетов г Т3, но $ Т4, то производится распознавание [а], [и], [о], [у], [э], [г] на отрезке в 3 окна от начала сигнала. При результате [г] действуем, как в случае а). При других результатах действуем, как в случае б).

Отметим, что использование 2-х порогов и распознавание начала актуальны в случае мягкого звука [г] (это иллюстрирует пример на рис.11). В случае твердого [р] без них можно было бы обойтись.

7

в Recognizer [WORD1] п щ

File Edit View Options Window Help - в X

□ e у ► ■ • ч Q, Q, nmsti МШК1К II H N 11 EH т., T, Сф ^ Ф2 P REC ™ T L + С ■ ■ "В S ТД1 С НЕФ SC N

iiili'iiiiillllt' -I tllir ■

iRead^^ |17Н4 |б NÜM

Рис. 11. Визуализация сигнала для слова "риска".

При построении априорной сегментации у нас используется минимальная допустимая длина Т5 для гласного и минимальная допустимая длина Т6 для звонкого согласного «С» в середине слова, выраженные в количестве окон по 256 отсчетов.

г). Если выделенное «Р» целиком попадает внутрь сегмента <^» в середине

слова, то производится проверка на длину нового сегмента, образовавшегося между меткой начала сегмента <М» и первой меткой «Р». Если эта длина меньше Т5 , то обозначение метки начала сегмента <М» заменяется на «Р» и начальная метка «Р» не добавляется в сегментацию. В противном случае обозначение сегмента остается прежним и добавляется новая метка для начала сегмента «Р». Производится также проверка на длину нового сегмента между меткой конца сегмента «Р» и меткой конца сегмента «М» с порогом Т5. Если его длина больше либо равна порогу, метка конца «Р» добавляется в сегментацию и новый образовавшийся сегмент помечается как в противном случае новая метка не добавляется.

д). Если выделенное «Р» целиком попадает внутрь сегмента «С» в середине

слова, то делается то же, что и в предыдущем случае с заменой «М» на «С» и Т5 на Т6.

е). Если метка начала и метка конца сегмента «Р» попадают в разные сег-

менты, то для метки начала применяются правила, фигурирующие в случаях г) и д), а метка конца не добавляется в сегментацию.

Рисунок 12 представляет сегментацию сигнала на рисунке 2 с учетом выделения Р:

8

Рис. 12. Результат сегментации сигнала на рисунке 2 (маркировка

заключительного глухого опущена).

Литература

1. Зализняк, А.А. Грамматический словарь русского языка. Словоизменение / А.А. Зализняк. - М.: Аст-пресс. - 2008. - 880 с.

2. М.Х. Карабалаева. Обнаружение и выделение звука [р] в речевом сигнале / Карабалаева М.Х., Ниценко А.В., Шелепов В.Ю. // Искусственный интеллект. — 2011. — № 1. — С. 168-174.

3. А.А. Конев. Выделение вокализованных звуков в слитной речи / Конев А.А., Тихонова В.И. // Сборник трудов XVI сессии Российского акустического общества. Том III — М.: ГЕОС, 2005. — С. 47-50.

4. N. Dhananjaya. Acoustic analysis of trill sounds / Dhananjaya N., Yegnanarayana B., Bhaskararao P. // The Journal of the Acoustical Society of America. — 2012. — No. 131 (4). — pp. 3141-3152.

5. Maria-Josep Sole. Aerodynamic characteristics of trills and phonological patterning // Journal of Phonetics. — 2002. — No.30. — pp. 655-688.

6. N. Dhananjaya. Features for automatic detection of voice bars in continuous speech / Dhananjaya, N., Rajendran, S., and Yegnanarayana, B. // Proceedings of Interspeech, Brisbane, Australia. — 2008. — pp. 1321-1324.

7. N. Dhananjaya. Voiced/nonvoiced detection based on robustness of voiced epochs / Dhananjaya, N., Yegnanarayana, B.// IEEE Signal Process. — 2010. — Lett. 17. — pp. 273-276.

8. Шрюфер Е. Обробка сигналiв: цифрова обробка сигналiв. — КиТв: "Либщь". — 1992. — 295 с.

9. Сегментация и дифонное распознавание речевых сигналов / А. К. Бурибаева, Г. В. Дорохи-на, А. В. Ниценко, В. Ю. Шелепов // Тр. СПИИРАН. — Вып. 31 (2013). — С. 20-42.

A METHOD FOR DETECTION AND LOCALIZATION OF [R] SOUND IN SPEECH SIGNAL

Shelepov V. Ju.,

doctor of physical and mathematical Sciences, Professor, chief scientific officer of PI IPAI (Public Institution Institute of Problems of Artificial Intelligence)

Nitsenko A.V.,

researcher PI IPAI (Public Institution Institute of Problems of Artificial Intelligence)

Abstract

The article presents a method for detecting and localizing a hard and soft trill sound [r] in speech with the use of some features of this sound. An algorithm has been developed that allows localizing the sound [r] regardless of the phonetic environment, thereby increasing the accuracy of automatic speech segmentation, as well as reducing the number of candidate words for recognition.

Keywords: speech segmentation [r],-sound localization, variation, constancy point, bandpass filter

9

i Надоели баннеры? Вы всегда можете отключить рекламу.