Программный комплекс для автоматизации моделирования сегментации речевых сигналов и вокальных исполнений

Якимук Алексей Юрьевич; Конев Антон Александрович; Осипов Андрей Олегович

Оригинальная статья / Original article УДК 004.522

DOI: 10.21285/1814-3520-2017-10-53-64

ПРОГРАММНЫЙ КОМПЛЕКС ДЛЯ АВТОМАТИЗАЦИИ МОДЕЛИРОВАНИЯ СЕГМЕНТАЦИИ РЕЧЕВЫХ СИГНАЛОВ И ВОКАЛЬНЫХ ИСПОЛНЕНИЙ

Томский государственный университет систем управлений и радиоэлектроники, Российская Федерация, 634050, г. Томск, пр-т Ленина, 40.

РЕЗЮМЕ. ЦЕЛЬ. В данной работе рассматривается проблема автоматизации моделирования сегментации речевых сигналов и вокальных исполнений. МЕТОДЫ. Специфика исследования заключается в попытке установить степень влияния предлагаемого алгоритма, определяющего качество сегментации, на качество идентификации нот. С помощью данного алгоритма представляется возможным оценить как корректность границ для сегментов, выделенных вручную, так и правильность автоматически определенных вокализованных и невокализо-ванных участков при распознавании нот. РЕЗУЛЬТАТЫ И ИХ ОБСУЖДЕНИЕ. Результатом проведенного исследования стала модификация программного комплекса, заключающаяся в разработке алгоритма определения качества сегментации. Применение этого алгоритма совместно с алгоритмом автоматической сегментации позволит получать результаты с таким же высоким уровнем качества, как и при ручной сегментации. ВЫВОДЫ. Применение алгоритма определения качества сегментации в программном комплексе способно сократить трудозатраты в десятки раз без потери качества точности найденных границ.

Ключевые слова: сегментация, речевые технологии, основной тон, распознавание нот, вокальное исполнение, автоматизация обучения, обработка звука.

Формат цитирования: Якимук А.Ю., Конев А.А., Осипов А.О. Программный комплекс для автоматизации моделирования сегментации речевых сигналов и вокальных исполнений // Вестник Иркутского государственного технического университета. 2017. Т. 21. № 10. С. 53-64. DOI: 10.21285/1814-3520-2017-10-53-64

PROGRAM COMPLEX FOR SPEECH SIGNAL AND VOCAL PERFORMANCE SEGMENTATION MODELING AUTOMATION A.Yu. Yakimuk, A.A. Konev, A.O. Osipov

Tomsk State University of Control Systems and Radioelectronics, 40, Lenin pr., Tomsk 634050, Russian Federation.

ABSTRACT. PURPOSE. The paper deals with the problem of speech signal and vocal performance segmentation modeling automation. METHODS. The feature of the study is an attempt to specify the effect of the proposed algorithm determining segmentation quality on the quality of note identification. This algorithm seems to be practical for the evaluation of both the correctness of segment boundaries identified manually and the correctness of the automatically identified voiced and unvoiced sections under note recognition. RESULTS AND THEIR DISCUSSION. The conducted study resulted in the modification of the program complex involving the development of the algorithm determining segmentation quality. The application of this algorithm together with the algorithm of automatic segmentation will allow to obtain as high quality results as under manual segmentation. CONCLUSION. Application of the algorithm of segmentation quality determination in the program complex can ten times reduce labor costs without the loss of quality in the accuracy of identified boundaries.

Keywords: segmentation, speech technologies, fundamental tone, note recognition, vocal performance, automation of learning, sound processing

For citation: Yakimuk A.Yu., Konev A.A., Osipov A.O. Program complex for speech signal and vocal performance segmentation modeling automation. Proceedings of Irkutsk State Technical University. 2017, vol. 21, no. 10, pp. 53-64. (In Russian) DOI: 10.21285/1814-3520-2017-10-53-64

Якимук Алексей Юрьевич, аспирант, младший научный сотрудник, e-mail: yay@keva.tusur.ru Aleksei Yu. Yakimuk, Postgraduate, Junior Researcher, e-mail: yay@keva.tusur.ru

2Конев Антон Александрович, кандидат технических наук, доцент кафедры комплексной информационной безопасности электронно-вычислительных систем, e-mail: kaa1@keva.tusur.ru

Anton A. Konev, Candidate of technical sciences, Associate Professor of the Department of Complex Information Security of Computer Systems, e-mail: kaa1@keva.tusur.ru

3Осипов Андрей Олегович, студент, e-mail: 742_oao@fb.tusur.ru Andrei O. Osipov, Student, e-mail: 742_oao@fb.tusur.ru

Введение

Программные средства приобретают все большую популярность в вопросах обучения пользователей. Не является исключением и сфера речевых технологий. С помощью специализированных программ возможно обучение языкам, а также выполнение упражнений, направленных на развитие голосовых связок.

Обучение вокалу чаще всего проходит с репетитором. Для эффективного обучения необходимы занятия не менее 2-х часов в день, и не каждый может себе это позволить. Самым распространенным упражнением для пения является сольфеджио. Сольфеджио - это пение по нотам. А если быть точным - пение с называнием нот. Человек с пока еще неразвитым музыкальным слухом не может сам оценить, правильно ли он спел ноту и как сильно отклонился от идеального звучания. Используя специализированные программные средства можно решить эту проблему, позволяя ученику записывать свой голос и моментально получать информацию о том,

какие он спел ноты, насколько и в какую сторону отклонился по высоте звучания, попал ли в ритм.

Для того чтобы предоставить пользователю подобную оценку, необходимо провести предварительную обработку. Осуществление сегментации вокализованных участков, в том числе с целью отнесения полученных участков к нотам, является важной задачей. Необходимо вручную сегментировать ноты в записях, предоставляемых пользователю для повторения. Полученные сведения используются в качестве эталона, на основе которого осуществляется трудоемкий процесс анализа полученных результатов границ. Сокращение времени предварительной обработки речевой информации позволит повысить скорость выполнения всех остальных задач, поставленных перед системой, поэтому в данной работе рассматривается вопрос автоматизации процессов сегментации и проверки корректности границ между сегментами.

Структура комплекса

В основу программного комплекса были положены алгоритмы слуховой системы человека, которые описаны в [1]. Разработка программного комплекса по исследованию речевых сигналов выполнялась с учетом результатов исследования, представленных в [2]. Алгоритмы выделения частоты основного тона с учетом особенностей слуховой системы человека, воспринимающей звук, были выделены в отдельную библиотеку. Применение сформированной библиотеки позволило достичь более точного определения значения частоты основного тона по сравнению с аналогами, в частности с пиковыми методами.

Структура итогового программного комплекса, учитывающая все внесенные изменения, представлена на рис.1.

База данных. Разработчики программного комплекса сочли необходимым включение в его состав базы данных. Она

предназначена для хранения наборов упражнений с эталонными значениями нот, которые пользователем должны быть исполнены в рамках обучения вокалу, и информации о требуемой длительности звучания каждой из исполняемых нот, длительности пауз между ними.

Была спроектирована база данных, позволяющая хранить не только информацию о файлах (название, дата записи, содержимое, дикторы), но и сами файлы. При проектировании таблиц базы данных учитывалось, какая информация может быть необходима пользователям о том или ином файле. С учетом этого было создано 7 таблиц:

1. Audiofiles, созданная с помощью метода FileStream, хранит в себе различную информацию об аудиофайлах;

2. БедтепНИеБ, созданная с помощью метода FileStream, хранит в себе

База данных / Database

Передача речевого сигната для сегментации / Voice transmission for segmentation

Модуль ручной сегментации / Manual segmentation module

Передача информации о границах сегментов /Transmission of information about—i the boundaries of segments _1

Внесение в базу эталонных значений границ / Entry of the reference values of the boundaries into the database

Модуль визуализации сегментов / Segment visualization module

Передача эталонных значений границ —вокатнзованных участков / Transfer of reference-values of the boundaries of vocalized sections

Модуль определения качества сегментации / Segmentation Quality Determination Module

Внесение в базу речевого сигнала и его описание / Speech signal entry into the database and its description

Передача информации о корректности найденных границ/Transmission of information on the correctness of the found boundaries

I

Передача границ вокализованных участков та нот / Transfer of boundaries of vocalized areas or notes

Звуковой файл /_ Audio file

Модуль взаимодействия с базой данных / Database interaction module

Программный комплекс по исследованию речевых сигналов (распознаванию нот) / The program complex for the study of speech signals (recognition of notes)

Рис. 1. Структура программного комплекса Fig. 1. Program complex structure

файлы о сегментации аудиофайлов;

3. А_Нпк устанавливает связь таблицы Audiofiles и остальных путем присвоения каждой записи нового идентификатора, понятного любому пользователю;

4. S_link устанавливает связь таблицы Segment_files и А_депега1, присваивая каждой записи нового идентификатора, понятного любому пользователю;

5. А_депега1 хранит в себе общую информацию об аудиофайлах;

6. A_Speakers содержит информацию о дикторах;

7. А_Со^еП содержит текст, произносимый в аудиофайлах.

В результате создания базы по речевым сигналам была получена диаграмма базы данных, отображающая информацию по основным таблицам и связям между ними (рис. 2).

Выполнение заданий в рамках обучения вокальному мастерству подразумевает накопление некоторого объема статистики, хранение которой целесообразнее осуществлять в базе данных. Чем больше будет информации о прошлых попытках выполнения упражнений, тем понятнее будет прогресс пользователя.

Алгоритм автоматического сравнения эталонных границ с полученными в результате моделирования.

Сегментация является одним из ключевых инструментов в задачах обработки речевой информации. Исследования в области речевых технологий требуют наличия аудиоинформации и синхронизированной с ней фонетической транскрипции. Особую роль сегментация играет при решении задач идентификации дикторов и распознавании их речи [3, 4], в том числе в условиях малого количества данных или повышенной зашумленности сигнала [5, 6]. Качественно осуществленная сегментация речевого сигнала позволяет провести более точную проверку на принадлежность к заданной модели диктора [7]. Кроме того, сегментация является ключевой задачей в вопросах обработки вокального исполнения, о чем свидетельствуют такие работы, как [8, 9] и др.

В данном исследовании задача сегментации и проверки ее корректности необходима сразу в двух направлениях:

- во-первых, это необходимо для контроля сегментации речевого сигнала на вокализованные участки, осуществляемой

Рис. 2. Диаграмма базы данных Fig. 2. Data base diagram

по алгоритму, представленному в [10], в функции распознавания нот;

- во-вторых, при определении качества пения необходима проверка базы данных заданий, где сегментация эталонных записей будет осуществляться вручную.

Ручная обработка данных является очень трудоемкой и дорогостоящей задачей. Как утверждается в [11], обработка 30-секундной записи аудиоданных может потребовать порядка часа ручной обработки. Поэтому постоянно разрабатываются новые автоматические и полуавтоматические средства для оптимизации трудозатрат.

Так же, как и в [12], применение наивного подхода сегментации с разделением регионов на короткие сегменты фиксированной длины в задаче локализации звучания нот может привести к потере полезной информации о сигнале. Если границы сегментов не будут соответствовать реальным границам звучания ноты, она мо-

жет быть определена некорректно. По этой причине в алгоритме, определяющем границы вокализованных и невокализованных участков, был задан минимально допустимый размер сегмента, характеризуемый минимальной длительностью звучания ноты.

Однако даже в этих условиях существует вероятность, что тот или иной сегмент будет некорректно распознан. А значит, нота будет определена не точно. Для решения этой проблемы был разработан алгоритм (рис. 3), способный автоматически провести проверку качества сегментации. Требования к качеству осуществления сегментации речевого сигнала для вокального исполнения были определены такие же, как и в [10].

Алгоритм определения качества сегментации применяется для автоматизации сравнения эталонных значений, заданных в упражнениях, и длительности распознанных программой нот.

Код_ ошибки сравнение_сегментированных последовательностей (эталонный_ массив, автоматический_массив, -входные данные адрес_на_объекг_класса результат ССП «результат»)- выходные данные / Error_code comparison of_segmented_ sequences (refer-ence_ array, automatic_ array, -input data address_ on class_object SSR result "result") - output data

Обнуляем все значения в объекте "результат" / zero all values in the" result" object

Количество элементов в эталонном или автоматическом массиве равно 0? / Is the number of elements In reference or automatic arrav zero?

Да /Yes

int2 := остаток от деления на 2; / int2 := remainder of dividing by 2; double value := эталонный массив [i]; / double value := reference array [i]; double find := автоматический массив [О]; I double find := automatic array [0];

Ищем близкую по значению границу к эталонный массив [i] в автоматическом_ массиве с учетом начало это или конец вокализированного сегмента и помещаем найденное значение в переменную find / looking for the boundary close in value to the reference array [i] in the automatic array taking into account whether it is the beginning or the end of the vocalized segment and put the found value in the "find" variable

Выполняем все окончательные расчеты (количество сегментов, процентные соотношения сегментов и границ) / execution of all final calculations (number of segments, percentage of segments and boundaries)

Bool bFindd := false;

Ищем в результирующем массиве совпадающее значение со значением переменной find, если такое есть, то присваиваем переменной bFind значение true looking for the value coinciding with the value of the "find" variable in the resulting array. If find one assign bFind variable the value "True"

Если значение последнего элемента в результирующем массиве больше, либо равно чем значение find, то присваиваем переменной bFind значение true / If the value of the last element in the resulting array is greater or equals the value of find we assign bFind variable the value "true"

-1 -

Если в результирующем массиве еще нет элементов и значение find - это значение начала вокализированного сегмента, то добавляем в результирующий массив новый элемент со значением find и классифицируем значение ошибки / If there are still no elements in the resulting array and the value of find is the value of the beginning of the voiced segment a new element with the value of find is added into the resulting array and the value of error is classified

Если в результирующем массиве не хватает конца вокализированного сегмента и значение find соответствует концу вокализированного сегмента, то добавляем в результирующий массив новый элемент со значением find и классифицируем значение ошибки / If the resulting array lacks the ending of the voiced segment and the value of find corresponds to the ending of the voiced segment a new element with the value of find is added into the resulting array and

the value of error is classified

Если в результирующем массиве не хватает начала вокализированного сегмента и значение find соответствует началу вокализированного сегмента, то добавляем в результирующий массив новый элемент со значением find и классифицируем значение ошибки / If the resulting array lacks the beginning of the voiced segment and the value of find corresponds to the beginning of the voiced segment a new element with the value of find is added into the resulting array and

the value of error is classified I

Рис. 3. Алгоритм определения качества сегментации Fig. 3. Algorithm of segmentation quality determination

Полученные результаты и визуализация выполнения функций

Усовершенствованный алгоритм распознавания нот (рис. 4) позволил реализовать не только определение пауз между нотами, но и учет плавных переходов между ними. Также модернизации подвергся алгоритм идентификации частоты основного тона. Это позволило расширить диапазон распознаваемых частот с отрезка 70-400 Гц, подняв верхнюю границу до 900 Гц. В результате программный комплекс стал способен распознавать ноты от «до-диез» большой октавы до ноты «си-бемоль» второй октавы [13].

Работа с базой данных в программном комплексе была организована с включением функции визуализации. Это дает возможность эксперту получать осциллограммы аудиофайла для его дальнейшей сегментации (рис. 5). В данном режиме пользователю предоставляется возможность вручную выделить сегмент на осциллограмме и прослушать выбранный промежуток. Для выбранных сегментов модуль позволяет узнать его временной промежуток, а также изменить масштаб для более детального рассмотрения.

Еще одним направлением развития программного комплекса стало добавление функции оценки качества вокального исполнения.

На данном этапе оценка осуществляется по двум критериям: точности попадания в тон Р и точности попадания в ритм Я. Оценка нот производится на основе сопоставления найденных и эталонных нот. Эталонным нотам ставятся в соответствие найденные ноты по следующему принципу: если №% длительности звучания ноты по времени соответствует эталонной ноте, то найденная нота ставится ей в соответствие.

Для определения точности попадания в тон определяется среднее значение частоты основного тона (ЧОТ) - М нот, соответствующих эталонной. Значение М вычисляется по формуле

YJ40T

] -1

где к - порядковый номер эталонной ноты, } - порядковый номер первой и последней ЧОТ, соответствующей эталонной ноте.

Отклонение в центах (сотая часть полутона) С определяется по следующей формуле:

Mk - F Л/Г „

—k--, если M < F

Fl - Fi-i k l

Mk - FF ,, „

—k-- если Mk > F

Ck =

F+i - F

где к - это порядковый номер эталонной ноты, Р - частота эталонной ноты, Р-1 -частота ноты на полутон ниже эталонной, Рм - частота на полутон выше эталонной.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Точность попадания в тон Р вычисляется по формуле

Рк = 1 - |Ск| * 100%.

На рис. 6 представлено отображение программным комплексом информации о полученных отклонениях между эталонными и вычисленными значениями.

Для определения точности попадания в ритм вычисляется разница 01 между началом эталонной ноты ТЯ1 и началом первой найденной ноты Тш, соответствующей эталонной, а также разница 02 между концом эталонной ноты ТЯ2 и концом последней найденной ноты Т^2 (рис. 7):

п = Т — Т • п = Т — Т

п2 ±Я2 Т N 2.

<

Рис. 4. Алгоритм распознавания нот Fig. 4. Algorithm of note recognition

Рис. 5. Визуализация этапа сегментации аудиозаписи Fig. 5. Visualization of the audio recording segmentation stage

Точность попадания в ритм вычисляется как

R =

У n=1 Rk.

n

Rk =

\ _ D1+lD2

D

*100%,

P =

Уn P

У k=1

где Dk - длительность эталонной ноты.

Для оценивания всей спетой вокальной партии вычисляются средние значения точности попадания в тон и в ритм:

n

Визуализация результатов оценки показана на рис. 8, 9, 10.

Рис. 6. Соответствие эталонных и найденных нот Fig. 6. Correspondence of reference and found notes

Рис. 7. Определение точности попадания в ритм Fig. 7. Determination of syntonization accuracy

Рис. 8. Графическое отображение ЧОТ, найденных и эталонных нот Fig. 8. Graphical display of the pitch frequency of found and reference notes

Рис. 9. Отображение нотной записи найденных нот Fig. 9. Display of the musical notation of found notes

Рис. 10. Отображение эталонной нотной записи и оценки Fig. 10. Display of the reference musical notation and evaluation

Заключение

Рассматриваемый программный комплекс благодаря разработанным алгоритмам, помимо уже имеющейся возможности перевода вокала пользователя в нотную запись, приобрел несколько полезных функций. Был расширен диапазон охватываемых нот модификацией алгоритма вычисления частоты основного тона речевого сигнала. Также были добавлены такие влияющие на распознавание нот параметры, как показатель количества ударов в минуту и возможность регулирования длительности нот и величины промаха.

Программный комплекс был дополнен базой данных, в которой будут содержаться упражнения, включающие наборы показателей, необходимых для выполнения пользователем, а также храниться сама статистика по прогрессу прохождения обучения.

Алгоритм определения качества сегментации стал самым полезным дополнением программы, позволяющим выполнять сразу две востребованные функции. С одной стороны, с помощью этого алгоритма появится возможность в автоматическом режиме определять правильность нахождения границ вокализованных и невокали-зованных участков при их ручной сегментации, что сократит трудозатраты в десятки раз. С другой же стороны, эта функция будет полезна при проверке границ у распознанных программой нот.

Работа выполнена при финансовой поддержке Министерства образования и науки РФ в рамках базовой части государственного задания ТУСУР на 2017-2019 гг. (проект № 2.8172.2017/8.9).

1. Бондаренко В.П., Конев А.А., Мещеряков Р.В. Обработка речевых сигналов в задачах идентификации // Известия высших учебных заведений. Физика. 2006. Т. 49. № 9. С. 207-210.

2. Конев А.А., Онищенко А.А., Костюченко Е.Ю., Якимук А.Ю. Автоматическое распознавание музыкальных нот // Научный вестник Новосибирского государственного технического университета. 2015. № 3 (60) С. 32-47.

3. Benati N., Bahi H. Spoken term detection based on acoustic speech segmentation // 2016 7th International Conference on Sciences of Electronics, Technologies of Information and Telecommunications. SETIT 2016. 2017. P. 267-271.

4. Kamper H., Jansen A., Goldwater S. A segmental framework for fully-unsupervised large-vocabulary speech recognition // Computer Speech and Language. 2017. Vol. 46. P. 154-174.

5. Pakoci E., Popovic B., Jakovljevic N., Pekar D., Yas-sa F. A Phonetic Segmentation Procedure Based on Hidden Markov Models // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2016. Vol. 9811. P. 67-74.

6. Biagetti G., Crippa P., Falaschetti L., Orcioni S., Tur-chetti C. Speaker identification in noisy conditions using short sequences of speech frames // Smart Innovation, Systems and Technologies. 2017. Vol. 73. P. 43-52.

7. Рахманенко И.А. Программный комплекс для идентификации диктора по голосу с применением параллельных вычислений на центральном и гра-

ий список

фическом процессорах // Доклады ТУСУР (Томского государственного университета систем управления и радиоэлектроники). 2017. Т. 20. № 1. С. 70-74.

8. Kokkinidis K., Stergiaki A., Tsagaris A. Error proving and sensorimotor feedback for singing voice // ACM International Conference Proceeding Series. 3rd International Symposium on Movement and Computing. MOCO 2016. Vol. 05-06-July-2016.

9. Marxer R., Purwins H. Unsupervised incremental online learning and prediction of musical audio signals // IEEE/ACM Transactions on Audio Speech and Language Processing. 2016. Vol. 24 (5). P. 863-874.

10. Конев А.А. Модель и алгоритмы анализа и сегментации речевого сигнала: автореф. дис. ... канд. техн. наук. Томск, 2007. 20 с.

11. Brognaux, S., Roekhaut, S., Drugman, T., Beaufort, R. Train&Align: a new online tool for automatic phonetic alignment. // IEEE Signal Processing Society. Spoken Language Technology Workshop (SLT). 2012. P. 416421.

12. Zajic Z., Kunesova M., Radova V. Investigation of Segmentation in i-Vector Based Speaker Diarization of Telephone Speech // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2016. Vol. 9811. P. 411-418.

13. Якимук А.Ю., Егошин Н.С., Осипов А.О., Боков И.М. Повышение качества идентификации нот в автоматизированной системе распознавания вокала // Электронные средства и системы управления. 2016. № 1-2. С. 29-32.

References

1. Bondarenko V.P., Konev A.A., Meshcheryakov R.V. Processing of speech signals in identification problems. Izvestiya vysshikh uchebnykh zavedenii. Fizika [Russian Physics Journal]. 2006, vol. 49, no. 9, pp. 207210. (In Russian)

2. Konev A.A., Onishchenko A.A., Kostyuchenko E.Yu., Yakimuk A.Yu. Automatic recognition of music. Nauch-nyi vestnik Novosibirskogo gosudarstvennogo tekhnicheskogo universiteta [Science Bulletin of the Novosibirsk State Technical University]. 2015, no. 3 (60), pp. 32-47. (In Russian)

3. Benati N., Bahi H. Spoken term detection based on acoustic speech segmentation // 2016 7th International Conference on Sciences of Electronics, Technologies of Information and Tele-communications. SETIT 2016, 2017, pp. 267-271.

4. Kamper H., Jansen A., Goldwater S. A segmental framework for fully-unsupervised large-vocabulary speech recognition // Computer Speech and Language. 2017, vol. 46, pp. 154-174.

5. Pakoci E., Popovic B., Jakovljevic N., Pekar D., Yas-sa F. A Phonetic Segmentation Procedure Based on Hidden Markov Models // Lecture Notes in Computer

Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2016, vol. 9811, pp. 67-74.

6. Biagetti G., Crippa P., Falaschetti L., Orcioni S., Tur-chetti C. Speaker identification in noisy conditions using short sequences of speech frames // Smart Innovation, Systems and Technologies. 2017, vol. 73, pp. 43-52.

7. Rakhmanenko I.A. Software system for speaker verification using parallel CPU and GPU computing. Dokla-dy Tomskogo gosudarstvennogo universiteta sistem upravleniya i radioelektroniki [Proceedings of Tomsk State University of Control Systems and Radioelectron-ics]. 2017, vol. 20, no. 1, pp. 70-74. (In Russian)

8. Kokkinidis K., Stergiaki A., Tsagaris A. Error proving and sensorimotor feedback for singing voice // ACM International Conference Proceeding Series. 3rd International Symposium on Movement and Computing. MOCO 2016, vol. 05-06-July-2016.

9. Marxer R., Purwins H. Unsupervised incremental online learning and prediction of musical audio signals // IEEE/ACM Transactions on Audio Speech and Language Processing. 2016, vol. 24 (5), pp. 863-874.

10. Konev A.A. Model' i algoritmy analiza i segmentatsii

rechevogo signala [Model and algorithms of speech signal analysis and segmentation]. Diss.Cad. Sci. (Tehnical) [Candidate's Dissertation in Technical Sciences]. Tomsk, 2007, 20 p. (In Russian)

11. Brognaux, S., Roekhaut, S., Drugman, T., Beaufort, R. Train&Align: A new online tool for automatic phonetic alignment. // IEEE Signal Processing Society. Spoken Language Technology Workshop (SLT). 2012, pp. 416-421.

12. Zajic Z., Kunesova M., Radova V. Investigation of Segmentation in i-Vector Based Speaker Diarization of

Telephone Speech // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2016, vol. 9811, pp. 411-418.

13. Yakimuk A.Yu., Egoshin N.S., Osipov A.O., Bokov I.M. [Improving quality of note identification in the automated vocal recognition system]. Elektronnye sredstva i sistemy upravleniya [Electronic equipment and control systems]. 2016, no. 1-2, pp. 29-32. (In Russian)

Критерии авторства

Якимук А.Ю., Конев А.А., Осипов А.О. имеют на статью равные авторские права и несут равную ответственность за плагиат.

Конфликт интересов

Авторы заявляют об отсутствии конфликта интересов.

Статья поступила 07.09.2017 г.

Authorship criteria

Yakimuk A.Yu., Konev A.A., Osipov A.O. have equal authors rights and bear equal responsibility for plagia-

rism.

Conflict of interests

The authors declare that there is no conflict of interests regarding the publication of this article.

The article was received 07 September 2017

PROGRAM COMPLEX FOR SPEECH SIGNAL AND VOCAL PERFORMANCE SEGMENTATION MODELING AUTOMATION

Текст научной работы на тему «Программный комплекс для автоматизации моделирования сегментации речевых сигналов и вокальных исполнений»