УДК 621.397
DOI 10.18413/2687-093 2-2020-47-2-441-451
АВТОМАТИЧЕСКАЯ СЕГМЕНТАЦИЯ РЕЧИ ПУТЕМ АНАЛИЗА ИНФОРМАЦИОННОЙ ОДНОРОДНОСТИ
AUTOMATIC SEGMENTATION OF SPEECH BY ANALYSIS OF THE INFORMATIONAL HOMOGENEITY
С.В. Уманец1, А.В. Болдышев1, П.Г. Лихолоб2 S.V. Umanets1, A.V. Boldyshev1, P.G. Likholob2
1)1 Белгородский филиал ПАО «Ростелеком», Россия, 308000, Белгород, п. Б.-Хмельницкого, 81 2) Белгородский государственный национальный исследовательский университет, Россия, 308015, Белгород, ул. Победы, 85
1) Belgorod filial PJSC "Rostelekom", 81 B.-Khmelnitskogo Av, Belgorod, 308000, Russia 2) Belgorod State National Research University, 85 Pobeda St, Belgorod, 308015, Russia
e-mail: [email protected]; [email protected], [email protected]
Аннотация
В работе рассмотрен алгоритм анализа цифровых сигналов. Назначение алгоритма - автоматическая сегментация речевого сигнала, что означает разбиение исходного сигнала на фрагменты с устойчивыми информационными признаками. Принцип работы алгоритма основан на анализе информационной однородности. Разработана информационная модель однородности устной речи. Проведен анализ информационной однородности на примере звукозаписи русской фразы. Разработан алгоритм поиска границ смены фонем. В работе также представлены результаты вычислительных экспериментов для различных комбинаций параметров алгоритма. Сделан вывод о работоспособности алгоритма на основе проверки по критериям точность (до 0.84) и полнота (до 0.85). Приведены рекомендации для настройки алгоритма на основе вычислительных экспериментов с речевой базой TIMIT.
Abstract
In this paper, an algorithm for digital signal processing is considered. The purpose of the algorithm is automatic segmentation of the speech signal, that is, splitting the original signal into segments generated by action in different conditions. The principle of operation of the algorithm is based on the analysis of information homogeneity. At the beginning of the algorithm, an information model is compiled, then an analysis of information homogeneity is performed and a search for the boundaries of sound change is performed. The application of non-linearity and moving average for confident decision-making about the presence of a boundary between different sounds is considered. The paper also presents the results of computational experiments for various combinations of algorithm parameters. Numerical evaluation of the algorithm was carried out on the material from the database of marked speech fragments of the American Agency for advanced defense research projects DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus. The conclusion about the algorithm's performance is made.
Ключевые слова: доли энергии, энтропия, взаимная информация, однородность. Keywords: fraction of energy, entropy, mutual information, homogeneity.
Для построения систем голосового управления появляется потребность распознавать речь - анализируя речевой сигнал определить элемент устной речи, под воздействием которого сформировался анализируемый отрезок речевого сигнала. Речевой сигнал - это результат регистрации электромагнитных колебаний на выходе микрофона от воздействия
акустических колебаний. Распознавание проводится с помощью анализа набора признаков. [Загоруйко, 1972]. Признаки можно получить, объединяя в группы однородные элементы. Поэтому один из этапов автоматического анализа речевого сигнала - это сегментация -разбиение исходного сигнала на отрезки, порождённые воздействием в разных условиях. Речевой сигнал является нестационарным и его характеристики значительно меняются от отрезка к отрезку. При этом в границах одного элемента речевого сигнала информационная однородность будет больше, чем при переходе между элементами.
Ориентируясь на модели строения слухового аппарата человека [Вологдин, 2004] необходимо анализировать энергию звука в зависимости от частотного интервала. В данной работе анализу будут подвергаться доли энергии отрезков сигнала [Болдышев и др., 2011] путём группировки их в последовательные фрагменты.
Составление информационной модели
В работе использовалась следующая модель.
Для обработки использовалась звукозапись устной речи
Звукозапись разбивалась на отрезки анализа
Хп =(5и+15 5п+2,"', Sn+N ) , (2)
представляющие собой вектора размерностью N, составленные из последовательных отсчётов оцифрованной звукозаписи, взятых начиная с момента времени п. Момент формирования отрезка анализа I это
'='/к • <3>
где Еэ - это частота дискретизации при звукозаписи. Размерность отрезка анализа задаётся параметром модели - временем сбора отрезка анализа Tw :
N = Tw■ ЕЭ , (4)
это более адекватный параметр, чем просто числовое значение для размерности, потому что звукозапись может быть оцифрована при разных частотах дискретизации.
Для отрезка анализа вычислялось распределение энергии по частотам (здесь Т - знак транспонирования)
Ж„п = Хп ■ Аг ■ Хтп . (5)
Квадратичная форма содержит субполосную матрицу с элементами в виде разницы синусов [Жиляков, 2007]:
Г81ПК (/ - к)) - 8т0и/ - к))/ при г * к
аг (г, к) = ] АО- к У Р , (6)
(V. -уг_1)/ж, при г = к
где уг - верхняя граница г -го частотного интервала; индексы г, к меняются от 1 до N , г - это номер частотного интервала, г = 1,2,...,Я всего интервалов Я, количество частотных интервалов является параметром модели.
Разбиение на интервалы удовлетворяло условию:
а=К ,-у-1 М^г) Уо = о, ^я = 0 а=[-*,*). (7)
г =1
Квадратичная форма (5) соответствует вычислению части энергии отрезка сигнала, содержащегося в г -м частотном интервале
(х) = Лх(ш)2(8)
2к 0
где
N
X (а>) = X
x„e
-j (n-i)a
, j = yiZl
это трансформанта Фурье [Ильин и др., 1985] с областью определения
-ж <т<ж.
Имеет место и обратное преобразование
1 ж
хп = — | ^ (ыУ(п-1)шёт
(9) (10)
(11)
Отсюда можно получить равенство Парсеваля для энергии сигнала в отрезке анализа
(12)
N 1 Ж К
И2 = X хП =—Л X (ы)|2 ёт=X Бг (х) .
п=1 2ж -ж Г=1
В данной работе отрезки для анализа выбирались из звукозаписи (1) через №1вр отсчётов
№Твр = (1 - См>)-N, (13)
где Cw - это доля перекрытия отрезков анализа, является параметром модели. На рисунке 1
представлен пример отбора отрезков анализа из исходной звукозаписи при значении доли 3
перекрытия Cw = —.
§а+з
** = Aj+1 ''' Srt+N)
SSa+4 ®п+-7
с*Л
Рис. 1. Выбор отрезков анализа с перекрытием Fig. 1. Select analyze intervals with intercross
Результаты вычислений распределения энергий по частотам группировались в таблицу G , определяемую как фрагмент анализа
G -
Г W11 Wi2 ■ • Wir ■ ■ WiR Л
Wn W22 ■ • W2r ■ ■ W2R
Wmi Wm2 ■ • W mr ■ W
W V'm i W "M 2 ■ W ''Mr ■ W W MR У
(14)
Индекс г - это номер частотного интервала, а индекс т - соответствует времени выборки отрезка анализа, относительно первого отрезка при формировании фрагмента:
(15)
Yps - n + (m -1) • Nstep,
то есть т - это индекс для окна анализа, взятого через время I относительно выбора первого отрезка во фрагменте.
i
n
Фрагмент анализа собирался за время Tg - это ещё один параметр модели. Вертикальный размер M для матрицы фрагмента вычислялся как
Tg • Fs
M =
+1,
(16)
Nstep
где полуквадратные скобки обозначают действие взятия целой части. Время сбора фрагмента обязательно было больше времени сбора отрезка анализа
Tg > ^^. (17)
Расстояние между фрагментами анализа составляло величину
Nstep _ g = M • (1 - Cg), (18)
т. е. в следующем фрагменте анализа первый отрезок выбирается через Nstep _ g отрезков относительно первого отрезка текущего фрагмента, где шаг сдвига (18) вычислялся с помощью доли перекрытия фрагментов Cg. Доля перекрытия фрагментов анализа является
параметром модели. На рисунке 2 представлен пример формирования фрагментов анализа из
2
отрезков анализа при значении доли перекрытия Cg = — .
1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1
3к+1
Рис. 2. Формирование отрезков анализа с перекрытием Fig. 2. Forming analyze fragments with intercross
Анализ информационной однородности речевого сигнала
Следующим этапом в работе был анализ информационной однородности речевого сигнала.
Для фрагмента анализа G (14) определялись: доля энергии в г -ом частотном интервале (5) в момент времени m (15):
P, =-
Wv
где величина
M R
W,=XXWm
=1 r =1
является суммарной энергией во фрагменте анализа; и краевые доли:
доля энергии в г -ом частотном интервала по отношению ко всей энергии фрагмента:
M
У W
^^ mr
р _ m=1_
г = Ws
и доля энергии в m -ый момент времени по отношению ко всей энергии во фрагменте:
У W
^^ m
P =
m
r =1
W
(19)
(20)
(21)
(22)
Если рассматривать весь фрагмент как пространство элементарных событий, а за событие принять наличие энергии, то доли энергии можно рассматривать как вероятности.
Если бы события «доля энергии в частотном интервале» и «доля энергии в отсчёте» были полностью зависимые, то перемножение вектора-столбца Рт на вектор-строку Рг было
бы равно матрице Риг. Вычислительные эксперименты обнаруживают отсутствие равенства.
P_
P
V1 м у
KP
P
Pr )*
P
p
v1 m 1
P
P
P
Mr
P
P
(23)
MR У
Поэтому должна быть взаимная информация между изменением энергии по частоте и изменением энергии по времени.
Взаимная информация [Хайкин, 2006] вычислялась как
I - И + H - И
где И - это энтропия [Шеннон, 1948]:
для моментов времени
для частотных интервалов
совместная
M R
И mr ^^ ^^ Pmr Pmr ) ,
m-1 r -1
M R
И mr ^^ ^^ Pmr Pmr ) ,
m-1 r -1
MR
Иmr ^^ ^^ Pmr Pmr ) '
m-1 r-1
(24)
(25)
(26)
(27)
Взаимная информация определяется как разница суммы краевых энтропий и совместной. Взаимная информация должна быть положительной величиной. Вычисляя величину взаимной информации от фрагмента к фрагменту можно построить график и по нему проанализировать информационную однородность речевого сигнала.
На рис. 3 и рис. 4 представлены графики речевого сигнала для слова «ВЛЕВО» и поведения взаимной информации.
Рис. 3. График речевого сигнала: слово «ВЛЕВО» Fig. 3. Plot of speech signal: word «ВЛЕВО»
Возникла гипотеза, что между пиками на графике поведения взаимной информации звучит фонема. Такой анализ позволил бы определять границы фонем, составляющих речевой сигнал. Однако наблюдается множество нежелательных пиков локальных максимумов.
Fig. 4. Plot of behavior of mutual information
Поиск границ смены звуков речи
Чтобы обнаруживать локальный максимум в работе использовалось условие:
Ik < Is
k е [s - d, s + d], k ф s
(28)
где Я - индекс фрагмента, дающий локальный максимум на графике взаимной информации, < - количество соседних фрагментов, участвующих в сравнении.
Значение < вычислялось по параметрам модели (4), (13), (17), (18)
d = 2
N
2 • G,
+1,
(29)
где - расстояние между соседними фрагментами анализа, измеряемое в отсчётах входного речевого сигнала
^ = №ер ■ Швр _ g, (30)
N - количество отсчётов входного речевого сигнала в интервале времени для поиска локального максимума
N =*а ■ Я , (31)
интервал времени та = 40тя выбран по материалам результатов психоакустических исследований [Цвикер 1971; Алдошина, 2010].
Для учёта порога слышимости была введена нелинейность «зона нечувствительности». На рис. 5 представлены графики нелинейности в виде кусочно-непрерывной функции и в виде гладкой аппроксимации.
Рис. 5. График нелинейности Fig. 5. ^ of nonHnearity
Кусочно-непрерывная функция, задающая нелинейность:
W„ =
I Wmr , Wmr > Wthr
I W W < W
V' thr mr < "ihr
гладкая аппроксимация задавалась функцией:
W - W +
" mr "ihr
W
2
mr
W„ + W,
(32)
(33)
В формулах (32) и (33) пороговое значение вычислялось для каждого фрагмента анализа индивидуально как среднеарифметическое значение энергий [Жиляков и др., 2011] по трём смежным фрагментам, но не меньше значения эквивалентного -50 дб как абсолютного порога слышимости.
Дополнительно, для устранения ложных пиков, проводилась процедура сглаживания кривой взаимной информации
1 k-(s+d )
I =— Yh
s 2d+1 Y 2d + 1
(34)
k-( s-d )
Значение для сглаженной кривой взаимной информации для индекса £ вычислялось как среднее арифметическое между значениями взаимных информаций в соседствующих фрагментах. Отрезок со значениями индексов для соседствующих фрагментов брался такой же, как и для определения локального максимума.
На рис. 6 изображён график речевого сигнала с отметками алгоритма, на рис. 7 представлена кривая взаимной информации после учёта нелинейности и сглаживания. Кружочками обозначены локальные максимумы.
Рис. 6. График речевого сигнала: слово «ВПРАВО» Fig. 6. Plot of speech signal: word « ВПРАВО»
r
Рис. 7. График поведения взаимной информации после учета нелинейности и сглаживания Fig. 7. Plot of behavior of mutual information after use nonlinearity and smoothing
Вычислительный эксперимент
Для проверки и численной оценки адекватности работы алгоритма надо подсчитать, сколько раз была верной постановка границы. Верной считалась постановка, если расстояние между отметкой ручного разбиения и отметкой автоматического разбиения оказывалось меньше величины времени допустимого расхождения:
и [ о
где С0 - количество верных постановок границ, f е {5} - множество отметок ручной разметки, а е {a} - множество отметок автоматической разметки, О = 20mc - величина времени допустимого расхождения. Выбрана по материалам результатов психоакустических исследований [Цвикер и др., 1971; Алдошина, 2010].
Кроме количества верных оценок, ещё необходимо подсчитать сколько раз алгоритм не поставил отметку наличия границы, когда такая отметка присутствует при ручной разметке, это ошибки первого рода «пропуск цели».
С1 = [Б] - Со, (36)
где Сj - количество ошибок первого рода, [Б] - количество элементов в множестве {б} .
Также необходимо подсчитать сколько произошло ошибочных постановок границ, это ошибки второго рода «ложная тревога».
Сп = [A] - Со, (37)
где С л - количество ошибок второго рода, [ A] - количество элементов в множестве {a}.
Оценка алгоритма проводилась по критериям точности ф и полноты %
С
ф = ——, (38)
С + С
С
% = С . (39)
С + С
Численная оценка работы алгоритма проводилась на материале из базы размеченных речевых фрагментов американского агентства передовых оборонных исследовательских проектов DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus. В базе содержится много звукозаписей. Для эксперимента были взяты 100 звукозаписей. С целью выяснения влияния параметров модели на точность вычислений, расчёты выполнялись для одной звукозаписи при разных комбинациях значений параметров.
На рис. 8 представлен рабочий момент алгоритма. Синяя линия - это сигнал из звукозаписи. Зелёные линии - отметки, сделанные вручную, горизонтальные концы -интервалы допуска ±20 миллисекунд. Розовая линия внизу - график взаимной информации, розовые вертикальные линии - отметки автоматической сегментации. Есть эпизоды верной сегментации и ошибочной.
По результатам численных экспериментов посчитаны точность и полнота (таблица 1).
В табл. 2 приведены результаты оценки параметров алгоритма, при которых достигаются максимальные значения точности или полноты. Максимальная точность была при наборе параметров (табл. 2, строка 1), полнота при этом составила % = 0,689. Максимальная полнота была при наборе параметров (таблица 2, строка 2), точность при этом составила (р = 0,595, т. е. была минимальной. Максимальное произведение точности и полноты было при наборе параметров (табл. 2, строка 3), полнота при этом составила % = 0,751, а точность оказалась р = 0,82.
Выводы: возможно проводить сегментацию речевого сигнала, используя анализ информационной однородности распределения энергий сигнала по частотным интервалам. Параметры алгоритма оказывают влияние на результативность.
Рис. 8. Пример работы алгоритма Fig. 8. Example of working algorithm
Таблица 1 Table 1
Значения точности и полноты работы алгоритма Value of precision and fullness working algorithm
Минимальное значение Максимальное значение
ф 0,607 0,841
X 0,595 0,85
Таблица 2 Table 2
Значения параметров при максимальной точности Value of parameters for maximal precision
Ф X Tw, мс Cw Tg, мс Cg
0,841 0,689 8 0,75 60 0,95
0,595 0,85 10 0,65 45 0,7
0,82 0,751 13 0,9 50 0,95
Список литературы
1. Авдошина И. 2010. Основы психоакустики. Подборка статей. URL: http://www.625-net.ru (дата обращения: 11 февраля 2010).
2. Белов С.П., Белов А.С. 2008. О различиях частотных свойств информационных и неинформационных звуковых сигналов речевого диапазона. Научные ведомости БелГУ Сер. Информатика, 7 (38): 214-221.
3. Вологдин Э.И. 2004. Слух и восприятие звука: Учеб. пособие. СПб. СТ «Факультет ДВО», 52.
4. Жиляков Е. Г., Прохоренко Е. И., Болдышев А. В. и др. 2011. Сегментация речевых сигналов на основе анализа распределения энергии по частотным интервалам. Научные Ведомости БелГУ. Сер. Экономика. Информатика, 7 (102): 187-196.
5. Жиляков Е. Г., Трубицына Д. И., Прохоренко Е. И., Болдышев А. В. 2019. Об использовании субполосного анализа и синтеза сигналов в области определения косинус-преобразования при решении задач сжатия речевых сигналов. Научные Ведомости БелГУ. Сер. Экономика. Информатика, 4 (46): 700-709.
6. Жиляков Е.Г. 2007. Вариационные методы анализа и построения функций по эмпирическим данным: моногр. Белгород: Изд-во БелГУ. 160.
7. Жиляков Е.Г., Белов С.П., Прохоренко Е.И. 2007. Методы обработки речевых данных в информационно-телекоммуникационных системах на основе частотных представлений. Белгород. Изд-во БелГУ, 136.
8. Загоруйко Н.Г. 1972. Методы распознавания и их применение. М. Сов. Радио: 135-147.
9. Ильин В.А., Садовничий В.А., Сендов Бл.Х. 1985. Математический анализ. Продолжение курса. М. Изд-во МГУ, 358.
10. Фирсова А.А. 2013. Разработка и исследование субполосных методов и алгоритмов сегментации речевых сигналов. Автореф. дис. ... канд. техн. наук. Белгород, 22.
11. Хайкин С. 2006. Нейронные сети: полный курс, 2-е издание. Пер. с англ. М. Издательский дом «Вильямс», 1104.
12. Цвикер Э., Фельдкеллер Р. 1971. Ухо как приемник информации. Пер. с нем. М. Связь, 64.
13. Шелухин О.И., Лукьянцев Н.Ф. 2000. Цифровая обработка и передача речи. Москва. Радио и связь, 456.
14. DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus. URL: https://www.kaggle.com/ mfekadu/darpa-timit-acousticphonetic-continuous-speech (дата обращения: 11 February 2020).
15. Shannon C.E. 1948. A mathematical theory of communication. Bell System Technical Journal, 27: 379-423, 623-656.
References
1. Aldoshina I. Osnovy psihoakustiki. Podborka statej [Fundamentals of psychoacoustics. A selection of articles]. Available at: http://www.625-net.ru (accessed: 11 February 2020).
2. Belov S.P., Belov A.S. 2008. O razlichiyah chastotnyh svojstv informacionnyh i neinformacionnyh zvukovyh signalov rechevogo diapazona [On the differences in the frequency properties of information and non-information audio signals of the speech range]. Nauchnyje Vedomosti BelGU. Ser. Ekonomika. Informatika. 7 (38): 214-221.
3. Vologdin Je.I. 2004. Sluh i vosprijatie zvuka [Hearing and sound perception]: Ucheb. posobie. ST«Fakul'tet DVO». Saint Petersburg, 52.
4. Zhiljakov E.G., Prokhorenko E.I., Boldyshev A.V. at el. 2011. Segmentatsija rechevyh signalov na osnove analiza raspredelenija energii po chastotnym intervalam [Segmentation of speech signals based on analysis of energy distribution over frequency intervals]. Nauchnyje Vedomosti BelGU. Ser. Ekonomika. Informatika. 7 (102): 187-196.
5. Zhiljakov E.G., Trubitsyna D.I., Prokhorenko E.I., Boldyshev A.V. 2019. Ob ispolzovanii subpolosnogo analiza I sinteza signalov v oblasti opredeleniya cosinus-preobrazovaniya pri reshenii zadach szhatiya rechevikh signalov [On the use of subband analysis and synthesis of signals in the field of determining the cosine transform in solving problems of compression of speech signals]. Nauchnyje Vedomosti BelGU. Ser. Ekonomika. Informatika. 4 (46): 700-709.
6. Zhiljakov E.G. 2007. Variacionnye metody analiza i postroenija funkcij po jempiricheskim dannym [Variational methods of analysis and construction of functions based on empirical data]: monogr. Belgorod. Izd-vo BelGU, 160.
7. Zhiljakov E.G., Belov S.P., Prohorenko E.I. 2007. Metody obrabotki rechevyh dannyh v informacionno-telekommunikacionnyh sistemah na osnove chastotnyh predstavlenij [Methods of processing voice data in information and telecommunication systems based on frequency representations]. Belgorod. Izd-vo BelGU, 136.
8. Zagorujko N.G. 1972. Metody raspoznavanija i ih primenenije [Recognition Methods and Their Application]. M. Sov. radio: 135-147.
9. Il'in V.A., Sadovnichij V.A. Sendov Bl.Kh. 1985. Matematicheskij analiz. Prodolgenije kursa [Mathematical analysis. Continuation of the course]. Moskov. Izd-vo MGU, 358.
10. Firsova A.A. 2013. Razrabotka i issledovanie subpolosnyh metodov i algoritmov segmentacii rechevyh signalov [Development and research of subband methods and algorithms of segmentation of speech signals]. Abstract. dis. ... cand. of technical sciences. Belgorod, 22.
11.Hajkin Sajmon, 2006. Nejronnye seti: polnyj kurs [Neural networks: full course], 2-e izdanie. Per. s angl. Moskov. Izdatel'skij dom «Vil'jams», 1104.
12. Cviker E., Feldkeller R. 1971. Uho kak prijomnik informacii [Ear as a receiver of information]. Per. s nemeckogo. Moskov, Svyaz, 64.
13. Shelukhin O.I., Lukyantsev N.F. 2000. Cifrovaya obrabotka i peredacha rechi [Digital speech processing and transmission]. Moscow. Publ. Radio i svyaz, 456.
14. DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus. Available at: https://www.kaggle.com/mfekadu/darpa-timit-acousticphonetic-continuous-speech (accessed: 11 February 2020).
15. Shannon C.E. 1948. A mathematical theory of communication. Bell System Technical Journal, 27: 379-423, 623-656.
Ссылка для цитирования статьи For citation
Уманец С.В., Болдышев А.В., Лихолоб П.Г. 2020. Автоматическая сегментация речи путем анализа информационной однородности. Экономика. Информатика. 47 (2): 441-451. DOI: 10.18413/2687-09322020-47-2-441-451.
Umanets S.V., Boldyshev A.V., Likholob P.G. 2020. Automatic segmentation of speech by analysis of the informational homogeneity. Economics. Information technologies. 47 (2): 441-451 (in Russian). DOI: 10.18413/2687-0932-2020-47-2-441-451.