Научная статья на тему 'ПРАКТИЧЕСКИЙ АЛГОРИТМ ОПРЕДЕЛЕНИЯ ТЕМПА РЕЧИ ДЛЯ ИСПОЛЬЗОВАНИЯ В КОНТАКТ-ЦЕНТРАХ'

ПРАКТИЧЕСКИЙ АЛГОРИТМ ОПРЕДЕЛЕНИЯ ТЕМПА РЕЧИ ДЛЯ ИСПОЛЬЗОВАНИЯ В КОНТАКТ-ЦЕНТРАХ Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
43
10
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Никифоров Сергей Никонорович, Никифоров Дмитрий Сергеевич, Виторский Иван Игоревич, Танюкевич Михаил Сергеевич

В статье приводится описание алгоритма работы программы определения темпа речи. Актуальность определения темпа речи в системах обработки телефонных вызовов (контакт-центрах) определяется необходимостью регулировать темп диалога оператора с клиентом. Необходимость контроля за темпом речи оператора обусловлена двумя факторами: временем диалога, так как стоимость минуты разговора с клиентом для крупных контакт-центров достаточно велика, а оператору необходимо обслужить как можно больше клиентов; второй фактор - комфортность обслуживания клиента. Результаты данной работы используются в контакт-центре справочно-информационной службы и позволили на 15% повысить эффективность трафика за счёт оптимизации темпа речи оператора.In the article the description of an algorithm of the programme of definition of the speech rate is given. Results of given job are used at the call-center service and have allowed on 15% increasing of effectiveness of traffic.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по электротехнике, электронной технике, информационным технологиям , автор научной работы — Никифоров Сергей Никонорович, Никифоров Дмитрий Сергеевич, Виторский Иван Игоревич, Танюкевич Михаил Сергеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «ПРАКТИЧЕСКИЙ АЛГОРИТМ ОПРЕДЕЛЕНИЯ ТЕМПА РЕЧИ ДЛЯ ИСПОЛЬЗОВАНИЯ В КОНТАКТ-ЦЕНТРАХ»

Практический алгоритм определения темпа речи для использования в контакт-центрах

С.Н. Никифоров,

главный инженер ООО «Нейрон-М»

Д.С. Никифоров, И.И. Виторский,

М.С. Танюкевич,

студенты БГУИР

В статье приводится описание алгоритма работы программы определения темпа речи. Актуальность определения темпа речи в системах обработки телефонных вызовов (контакт-центрах) определяется необходимостью регулировать темп диалога оператора с клиентом. Необходимость контроля за темпом речи оператора обусловлена двумя факторами: временем диалога, так как стоимость минуты разговора с клиентом для крупных контакт-центров достаточно велика, а оператору необходимо обслужить как можно больше клиентов; второй фактор — комфортность обслуживания клиента. Результаты данной работы используются в контакт-центре справочно-информационной службы и позволили на 15% повысить эффективность трафика за счёт оптимизации темпа речи оператора.

Abstract

In the article the description of an algorithm of the programme of definition of the speech rate is given. Results of given job are used at the call-center service and have allowed on 15% increasing of effectiveness of traffic.

5

6

Введение

Определение темпа речи, а это не что иное, как сегментация непрерывного потока речи на слоги, определение и измерение гласных звуков, а также выделение пауз на фоне шумов, характерных для телефонной линии, — одна из основных задач распознавания речи. Известен целый ряд алгоритмов, использующих традиционную обработку речевого сигнала в частотной или временной области, выделяющих формантные характеристики [1], [2], [3]. В качестве альтернативных методов используются скрытые марковские модели (СММ). С целью достижения максимальной скорости работы и возможности использовать в многоканальных (десятки каналов) системах обработки вызовов в данной работе использовались комбинации алгоритмов, основанных на обработке речи во временной области. Такой подход позволил при минимальном использовании компьютерных ресурсов достичь приемлемой скорости работы параллельно в нескольких десятках каналов.

Общее описание используемых алгоритмов

Определение темпа речи основано на использовании двух алгоритмов: определении длительности пауз и выделении и оценке длительности слоговых сегментов в речевом сигнале. Локализация пауз проводится методом цифровой фильтрации в двух спектральных диапазонах, соответствующих локализации максимумов энергии для вокализованных и шумных (невокализованных) звуков полосовыми фильтрами четвёртого порядка, «взвешивания» кратковременной энергии речевого сигнала в двух частотных диапазонах с использованием прямоугольного окна длительностью 20 мс [1].

Определение длительности слоговых сегментов основано на слуховой модели, учитывающей спектральное распределение гласных звуков, фильтрации в двух взаимно коррелированных спектральных диапазонах. Принятие решения о принадлежности сегмента речи к слогу, содержащему гласный звук, и локализация гласного звука проводятся программно реализованной комбинационной логической схемой [5].

Заключение о скорости речи говорящего (темпе речи) производится на основании анализа обоими алгоритмами на интервале накопления информации: всего файла для режима «OffLine» или чтением потока (файла) с выводом результатов каждые 15 с для режима «OnLine».

В общем случае алгоритм определения темпа речи состоит из следующих этапов:

• Нормирование речевого сигнала. Обеспечивает выравнивание слабых (тихих) сигналов с целью исключения зависимости результатов измерения от громкости входного речевого сигнала.

• Выделение и измерение длительности пауз. Формирование первичных признаков темпа (алгоритм 1).

• Оценка длительности слоговых сегментов. Формирование главных признаков (алгоритм 2).

• Принятие решения о темпе речи.

Структура системы определения длительности пауз в непрерывном потоке речи (алгоритм 1)

1. Нормирование входного речевого сигнала

Входной речевой сигнал нормируется для исключения зависимости результатов измерений от амплитуды (громкости) записанного или вводимого сигнала. Нормирование производится следующим образом:

— на интервалах длительностью 1 с производится поиск максимального абсолютного значения амплитуды;

— находится среднее значение в полученном массиве;

— определяется коэффициент пересчёта, равный отношению максимально возможного значения амплитуды к найденному среднему значению;

— каждое значение входного сигнала умножается на коэффициент пересчёта.

2. Выделение и измерение длительности пауз

Метод основан на измерении мгновенной энергии в двух частотных диапазонах, соответствующих максимальному сосредоточению энергии вокализованных (диапазон частот 150 - 1000 Гц) и невокализованных (диапазон частот 1500 - 3 500 Гц) звуков. Структурная схема показана ниже.

Речь

■=s

Блок фильтрации Блок Блок Пороговое Измеритель Блок принятия решения

вычислителя энергии

ФНЧ устройство пауз

2.1. Фильтрация

Формула типового рекурсивного звена фильтрации второго порядка в Z-области соответствует выражению [4]:

Y(Z) = (1-KlxZ -1 )/(l+2KlxZ-1 - K2xZ-2) ,

что эквивалентно разностному уравнению во временной области вида:

= (2 x Y1 - X1) x K1 - Y2 xK2 + X(n), где K1 = K xcos(2nx Frq /Fd); K=1.0 - nx Pol/Fd; K2 = K x K;

X(n) — текущее значение входного сигнала; Y(n) — текущее значение выходного сигнала;

Y1 — значение выходного сигнала, задержанное на один период дискретизации; Y2 — значение выходного сигнала, задержанное на два периода дискретизации; Pol — полоса пропускания в Гц;

7

Никифоров С.Н., Никифоров Д.С., Виторский И.И., Танюкевич М.С. Практический алгоритм определения темпа речи для использования в контакт-центрах

Fd — частота дискретизации в Гц; Frq — средняя частота полосы фильтра в Гц.

Фильтр 4-го порядка реализуется путём каскадного последовательного соединения двух звеньев второго порядка указанного типа.

2.2. Расчёт мгновенной энергии речевого сигнала

Расчёт мгновенной энергии производится на интервалах (в окне длительностью 20 мс), что соответствует для частоты дискретизации Fd = 8000 Гц 160 отсчётам входного речевого сигнала [1].

Последовательность действий при вычислении мгновенной энергии следующая: — вычисляется модуль Yne = Abs (Yn) — выпрямление выходного сигнала фильтра, — затем вычисляется значение мгновенной величины энергии в окне 20 мс

160 (160 отсчётов) по формуле Sn = MхХ YnexYne, 1 где Sn — значение мгновенной энергии в n-м окне; Yn — выходное значение фильтра; Yne — выпрямленное выходное значение; М — масштабный коэффициент, ограничивающий переполнение. Мгновенная энергия рассчитывается в двух частотных диапазонах.

2.3. Расчёт ФНЧ

На третьем этапе сглаживаются (усредняются) результаты расчёта мгновенной энергии, для чего используется фильтр нижних частот (ФНЧ) первого порядка, соответствующий Z — уравнению Y(Z) = K / 1 - K х Z1 или разностному уравнению вида Y(n) = (1-k)Y1-1+S(n), где Y(n) — текущее выходное значение ФНЧ; S(n) — текущее входное значение ФНЧ (значение мгновенной энергии); Y1 — задержанное на период дискретизации значение выходного сигнала; K — коэффициент, определяющий постоянную времени или частоту среза ФНЧ.

2.4. Пороговое устройство

Пороговое устройство сравнивает текущее значение сглаженного значения средней энергии в заданной полосе с пороговым значением (определяется экспериментально), за начальный уровень может быть принято значение 50 мВ. За паузу принимается значение энергии меньше уровня порогов в обоих спектральных диапазонах. С этого момента начинается отсчёт длительности паузы.

2.5. Счётчик средней продолжительности пауз в файле

8 Средняя продолжительность паузы в обрабатываемом файле или на анализируемом участке определяется как сумма дин всех пауз, делённая на их количе Ni ство Tcc = 1/N х (Х Ti) , 1

Никифоров С.Н., Никифоров Д.С., Виторский И.И., Танюкевич М.С. Практический алгоритм определения темпа речи для использования в контакт-центрах

где Тсс — средняя длительность паузы; N — количество пауз на анализируемом участке.

2.6. Блок принятия решения

Первичное заключение о темпе речи принимается исходя из следующих положений: — при превышении средней длины паузы Тсс эталона темп считается медленным; — при значении Тсс, меньшем средней длины паузы эталона, темп считается быстрым; — в противном случае — соответствующим эталону.

Оценка длительности слоговых сегментов

(алгоритм 2)

Метод выделения признаков слоговых сегментов основан на формировании первичных параметров, использующих огибающие сигналов в частотных диапазонах А1 = 800-2500 Гц и А2 = 250-540 Гц. Результирующий параметр, который в дальнейшем используется для выделения признаков слогов, получается корреляционным методом и определяется так:

исо) = имтЛ2о),

где ил1(1) — огибающая энергии в полосе частот A1, а UA2(t) — огибающая энергии в полосе А2 [5]. Диапазон частот первого полосового фильтра, равный 250-540 Гц, выбран потому, что в нём отсутствует энергия высокоэнергетических фрикативных звуков типа /ш/ и /ч/, которые создают ошибочные слоговые ядра, а также сосредоточена значительная часть энергии всех звонких звуков, в том числе и гласных. Однако в этом диапазоне энергия сонорных звуков типа /л/, /м/, /н/ сравнима с энергией гласных, из-за чего определение слоговых сегментов только с учётом огибающей речевого сигнала в этом диапазоне сопровождается ошибками. Поэтому диапазон частот второго полосового фильтра выбран в пределах 800-2500 Гц, в котором энергия гласных звуков минимум в два раза превышает энергию сонорных звуков.

Благодаря операции умножения огибающих Ц^) и ЦА() в результирующей временной функции происходит усиление участков кривой в области гласных звуков из-за корреляции их энергий в обоих диапазонах. Кроме того, ошибочные максимумы энергии, предопределённые наличием в диапазоне 800-2500 Гц значительной части энергии фрикативных звуков, устраняются путём их умножения на

практически нулевое значение амплитуды фрикативных звуков в диапазоне 250-540 Гц.

Последовательность операций при работе алгоритма следующая:

• Фильтрация сигнала двумя полосовыми рекурсивными фильтрами четвёртого порядка в диапазонах 250-540 Гц и 800-2500Гц соответственно.

• Детектирование выходных сигналов фильтров для получения огибающих.

• Перемножение огибающих выходных сигналов фильтров.

• Дифференцирование результирующего сигнала.

• Сравнение полученного сигнала с пороговыми напряжениями и выделение логического сигнала, соответствующего наличию слогового сегмента.

• Расчёт длительности слогового сегмента. Алгоритм работы приведён на стр 7.

Механизм принятия решения о темпе речи

Принятие решения о темпе речи основывается на результате расчёта длительности пауз и слоговых сегментов. При этом реализуется следующая комбинационная логика:

— паузы длинные, слоги длинные — темп медленный. Критерием «длинные» является отклонение длительности от эталонных на 30%;

— паузы короткие или отсутствуют, слоги короткие — темп быстрый. Критерием «короткие» является отклонение длительности от эталонных на 30%;

— паузы длинные, слоги короткие — темп быстрый, т.е. приоритетным является анализ слогов, при этом выводится предупреждение о длинных паузах;

— паузы короткие или отсутствуют, слоги длинные — темп медленный. Основной интерфейс программы показан слева.

Результаты тестирования программы определения темпа речи 1. Общая оценка качества работы программы

1.1. Оценка работы в режиме OffLine

п/п Имя Wav-файла Характеристика файла Результат измерения темпа (интегральная оценка по файлу) Оценка работы программы*

1 1_enh Темп средний, ближе к Медленный, отставание +

замедленному, мужской от эталона -39%

2 2_enh Темп медленный, паузы Медленный, отставание от +

большие, мужской эталона -56%

3 Bistro Темп быстрый, мужской Быстрый, опережение +25% +

4 Dictor Темп средний, диктор Средний, опережение +9% +

радио, мужской

5 Dim2 Темп средний, мужской, Средний, отставание -2% +

нечёткая дикция

6 Gromko Темп средний, мужской, Средний, отставание -8% +

громко

7 Ira Темп переменный, женский Средний, отставание -8% +

8 Medlenno Темп медленный, мужской Медленный, отставание -45% +

9 Pause2 Темп средний, длинные паузы, Средний, отставание -11%, +

мужской предупреждение о длинных

паузах

10 Radio Темп средний, мужской, диктор Средний, отставание 0% +

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

радио

11 Tixo Темп средний, мужской, тихо Средний, отставание -23% +

12 Шепот Темп средний, женский, Средний, отставание -6% +

очень тихо

13 АА Мужской, слоги, гласные Средний, отставание -5% +

короткие, паузы средние

14 ААА Мужской, слоги, гласные Медленный, отставание -117% +

длинные, паузы средние

15 Sound20 Темп средний, мужской, тихо, Средний, отставание -7% +

нечётко

16 Sound19 Темп средний, мужской Средний, отставание -2% +

17 Sound10 Темп замедленный, мужской Средний, отставание -28% +

18 Sound5 Темп быстрый, мужской Быстрый, опережение +20% +

19 Etalon Темп средний, мужской Средний, опережение +1% +

20 F1_10 Темп средний, женский Средний, отставание -4% +

* «+» — соответствует. «-» не соответствует.

** — Эталонный файл — Etalon4.wav с параметрами: паузы — 313 мс, слоги — 98 мс.

1.2. Оценка работы в режиме OnLine.

Измерение параметров записи при различных уровнях громкости

п/п Имя Wav- Характеристика файла Результат измерения длитель- Оценка работы

файла ности слогов программой (мс) программы

1 11_norm Темп средний, мужской, 143 +

громкость средняя (эталон)

2 11_gromko Темп средний, мужской, гром- 144 +

кость выше на 50% от эталона

3 11_tiho Темп средний, мужской, гром- 135 +

кость ниже на 50% от эталона

2. Измерение параметров записи при длинных паузах

п/п Имя Wav-файла Характеристика файла Результат измерения средней длительности пауз вручную (мс) Результат измерения средней длительности программой (мс) Оценка работы программой (мс)

1 Paise2 Темп средний, мужской, громкость средняя, длинные паузы 2 142 2 230 Темп средний +

* — эталонный файл — Etalon4 с параметрами: паузы — 313.

ш

ш

Заключение

Программа определения темпа речи выполнена в двух вариантах:

— Тестовый модуль для работы в режиме работы с файлами.

— Динамическая библиотека, предназначенная для встраивания разработчиками систем обработки вызовов в конечный продукт.

Внедрение программы в контакт-центр справочно-информационной службы позволило на 15% повысить эффективность трафика за счёт оптимизации темпа речи оператора.

Алгоритм, не требующий больших вычислительных ресурсов, и оптимизированный по времени и объёму программный код позволяют использовать результаты данной работы во встраиваемых микропроцессорных системах обработки речевых сигналов.

Литература

1. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. М.: Радио и связь, 1981. С. 113-119.

2. Сапожков М.А., Михайлов В.Г. Вокодерная связь. М.: Радио и связь,1983. С. 156-158.

3. Дегтярев Н.П. Параметрическое и информационное описание речевых сигналов. Минск: Объединённый институт проблем информатики Национальной академии наук Беларуси, 2003. С.62-63.

4. Лобанов Б.М., Цирульник Л.И. Компьютерный синтез и клонирование речи. Минск: Белорусская наука, 2008. С.60-63.

5. Быков Н.М. и др. Надёжный метод выделения слоговых сегментов в речевом сигнале // Автоматика и информационно-измерительная техника. 2007. № 1.

Никифоров Сергей Никонорович —

главный инженер ООО «Нейрон-М», г. Минск. Сфера интересов: цифровая обработка сигналов, синтез и распознавание речи.

Никифоров Дмитрий Сергеевич —

студент БГУИР, г. Минск, сфера интересов:

цифровая обработка сигналов, синтез и распознавание речи.

Виторский Иван Игоревич —

студент БГУИР, г. Минск, сфера интересов: распознавание речи.

Танюкевич Михаил Сергеевич —

студент БГУИР, г. Минск, сфера интересов: распознавание речи.

12

i Надоели баннеры? Вы всегда можете отключить рекламу.