Научная статья на тему 'Система автоматического распознавания речи на татарском языке'

Система автоматического распознавания речи на татарском языке Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
395
120
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Система автоматического распознавания речи на татарском языке»

УДК 004.52

СИСТЕМА АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ НА ТАТАРСКОМ ЯЗЫКЕ

А. Ф. Хусаинов, аспирант, научный сотрудник; Д.Ш. Сулейманов, академик АН Республики Татарстан, д.т.н.., директор (Казанский (Приволжский) федеральный университет, ул. Кремлевская, 18, г. Казань, 420008, Россия; Институт прикладной семиотики Академии наук Республики Татарстан, ул. Баумана, 20, г. Казань, 420111, Республика Татарстан, Jchusainov.aidar@gmail.cGm)

В настоящей работе описывается система распознавания речи на татарском языке. В рамках системы предложен и реализован подход к построению модуля автоматического транскрибирования текстов, разработанный на основе выделенных правил звуковых изменений в татарском языке. Данные акустические правила были использованы благодаря их формальному представлению, полученному в разработанной программной системе. Кроме того, для реализации алгоритма распознавания речи были созданы два уровня анализа: акустический (уровень фонем) и лингвистический (уровень слов). На первом уровне были разработаны акустические модели 57 выделенных фонем татарского языка, каждая из которых базируется на аппарате скрытых марковских моделей. Для обучения каждой из указанных статистических моделей был образован речевой корпус общей продолжительностью 5 часов. Дополнительно был создан и применен алгоритм автоматической фонемной аннотации данного корпуса. В конечном итоге на базе разработанных программных средств и статистических моделей реализован алгоритм распознавания речи. Был проведен эксперимент по распознаванию слов татарского языка, по результатам которого предлагаемая система распознавания продемонстрировала 92-процентное качество распознавания на записях тестового корпуса.

Ключевые слова: распознавание речи, корпус звучащей речи, татарский язык, фонетическая транскрипция, анализ речи, скрытые марковские модели.

AUTOMATIC CONTINUOUS SPEECH RECOGNITION SYSTEM FOR THE TATAR LANGUAGE Khusainov A.F., postgraduate student, research associate;

SuleymanovD.Sh., academician of AS Tatarstan, Dr. Tech. Sc., director (Kazan (Volga region) Federal University, Kremlevskaya St., 18, Kazan, 42008, Tatarstan, Russian Federation;

Institute of Applied Semiotics of the Academy of Sciences of the Republic of Tatarstan, Baumana St., 20, Kazan, 420111, Tatarstan, Russian Federation, khusainov.aidar@gmail.com)

Abstract. The paper describes speech analysis system for the Tatar language. An approach to creating automatic phonetic transcription system for Tatar texts has been developed and implemented. This system is based on acoustic rules for the Tatar language. These acoustic rules have been converted to a formalized form using developed programming tool. The two levels analysis procedure has also been developed in order to create speech recognition algorithm, these levels are: acoustic (phonemes) level, linguistic (words) level. Phonemes level consists of acoustic models for 57 Tatar phonemes, each of this phonemes is represented by a hidden Markov model. To train each of specified statistical model 5 hours speech corpus has been recorded. Additionally, an algorithm to automatically create phoneme-level annotation of this corpus has been developed and applied. Finally, a Tatar speech recognition algorithm has been implemented based on developed programming tools and acoustic models. In total, the proposed system has shown 92% word recognition correctness in test speech subcorpus.

Keywords: speech recognition, speech corpus, Tatar language, phonetic transcription, speech analysis, hidden Markov models.

Развитие и широкое внедрение информационных технологий делает актуальной задачу развития более совершенных видов человеко-машинных интерфейсов. Одним из подходов к решению данной задачи является использование речи в качестве канала взаимодействия человека с компьютером. Для практической реализации этого подхода необходимо наличие средств как автоматического анализа (распознавание произнесенного текста, идентификация диктора, его эмоций, языка, возраста), так и синтеза речи. Решается совокупность данных задач с помощью речевых технологий, основными направлениями которых являются автоматическое распознавание речи, синтез речи, идентификация и верификация языка, идентификация и верификация диктора, распознавание эмоций диктора и тематики разговора.

В данной работе рассматривается подход к решению одной из подзадач автоматического распознавания речи, а именно распознавание речи на татарском языке. Система автоматического распознавания речи является одним из ключевых элементов комплексных систем анализа речи, она может использоваться как самостоятельно, например в системах диктовки, так и в качестве вспомогательного модуля при решении задач определения языка говорящего, распознавании тематики разговора.

Поставленная задача распознавания татарской речи решается в четыре этапа:

1) проектирование и создание корпуса звучащей татарской речи одного диктора;

2) разработка и реализация правил транскрибирования татарских текстов;

3) создание акустических моделей фонем татарского языка;

4) программная реализация системы распознавания речи.

Звуковой корпус

В качестве исходного материала при создании моделей фонем языка используется корпус звучащей речи. При этом необходимо наличие аннотации корпуса, включающей в себя текстовую и/или фонетическую разметку всех речевых фрагментов. Однако ручное фонетическое аннотирование - дорогостоящий и длительный процесс, требующий наличия множества квалифицированных фонетистов, что делает затруднительным создание данного типа разметки для корпуса татарской речи. Альтернативным решением может быть подход под названием phoneme alignment, который позволяет в параллельном режиме осуществлять как фонетическую разметку корпуса, так и обучение моделей фонем. Данный подход был использован в работе, а для его применения создана текстовая аннотация записанных голосовых файлов.

На основе текстового корпуса, состоящего из 25,5 млн слов, построена статистика их частотности. Первые 10 788 самых часто употреблямых слов были выбраны для озвучивания в речевом корпусе. Запись звуковых фрагментов осуществлялась со следующими параметрами: формат файла WAV PCM, частота дискретизации 22 kHz, 16 бит на отсчет. Созданный корпус имеет параметры, представленные в таблице.

Акустические особенности татарского языка

Для дальнейшего анализа необходимо перейти от текстового представления озвученных слов к их фонемной транскрипции. Для этого решаются следующие подзадачи: выделение значимых особенностей татарской речи, определение фонемного алфавита, построение правил транскрибирования, основанного на фонемном алфавите.

В качестве основных базовых элементов языка, отличающихся в акустическом плане, а также способных оказывать влияние на смысл слова, было выбрано 57 фонем. На основе определенного инвентаря фонем выявлены акустические закономерности татарского языка. Приведем некоторые из выявленных правил:

- аккомодация (в зависимости от первой гласной в слове используются либо все твердые, либо все мягкие согласные), например, «бар» -БЛ2Я, «бер» - Б1БЯ1;

- уменьшение огубленности фонемы А от начала к концу слова, например, «балалар» -БЛ2ЬЛ1ЬЛЯ;

- замена некоторых звонких согласных, идущих рядом с глухим согласным, на парные им глухие, например, «тозсыз» - Т088У8;

- представление буквы Я в качестве пары J (й) и АА (э), например, в случае, если перед ней идет буква И: иясе - ПЛЛ81Б.

Для создания автоматической системы транскрибирования было разработано АРМ фонетиста, которое предоставляет возможность создания формализованной записи правил. Форма создания и редактирования правил транскрибирования представлена на рисунке.

Правила могут быть двух типов: абсолютные и относительные. Абсолютные правила оперируют конкретным расположением той или иной фонемы в слове и позволяют заменять их другими. Приме-

Основные характеристики звукового корпуса

Параметр Весь корпус Обучающая часть Тестовая часть

Количество файлов 10 788 9 631 1 157

Продолжительность записей 4:56:45 4:26:42 0:30:03

Абсолютные I V | Вкл/выкл позиция

условие

Относительные | | Вкл/выкл

Условия

Область поиска

Действия

Все, кроме

первый

Добавить слева

AA UU UU I EE1C

последовательность Добавить справа через пробел

Заменить на Заменить

А

А

глухие

левый контекст

база

правый контекст

Ok

B1G1C1Z1K1L1M1N1

BGCZKLMNPRSTFXH

Cancel

Форма создания правил транскрибирования

1

ром данного типа правил может служить изображенное на рисунке правило аккомодации: область поиска ограничивается первой гласной, в качестве условий поиска задается список гласных переднего ряда, в случае выполнения указанного условия производятся замены, описанные в правой части экранной формы «Действия», а именно все согласные (перечисленные в поле «Заменить») заменяются на свои мягкие пары (указанные в поле «Заменить на»).

Вторым типом правил служат относительные правила, которые позволяют обрабатывать различные контексты следования тех или иных фонем, например, сочетание фонем Z-S заменяется на сочетание S-S, как, например, в слове «тозсыз» (T-O-S-S-I-Z). Общее количество созданных правил равняется 37.

Акустические модели фонем

Созданные на подготовительном этапе обучающий корпус речи и система транскрибирования позволяют реализовать алгоритм обучения акустических моделей фонем. Данный алгоритм носит название forced alignment и не требует наличия вручную фонетически аннотированного корпуса. Для реализации алгоритма использовался инструмент HTK Toolkit (http://speech.ee.ntu.edu.tw/ courses/DSP2011spring/hw2/HTKBook-3.4.1.pdf), созданный в Кембриджском университете, а в настоящее время принадлежащий компании Microsoft.

Каждая фонема была смоделирована скрытой марковской моделью, состоящей из трех состояний, с ограничениями на переход на более ранние состояния. Каждое из трех состояний моделировалось, в свою очередь, смесью гауссовских распределений [1]. Процесс обучения акустических моделей производился итерационно: итерация увеличения количества гауссовских распределений в смеси сопровождалась двумя итерациями переобучения на данных обучающего корпуса. Проведенные исследования позволили выявить оптимальное количество распределений в смеси для каждой акустической модели, равное 31.

Распознавание татарской речи

Для проведения экспериментов по распознаванию речи было решено использовать тестовую часть созданного речевого корпуса. Таким образом, языковая модель при тестировании представляла собой список слов, каждое из которых обладало равной априорной вероятностью произнесения.

Для всех слов была автоматически создана фонетическая транскрипция, которая послужила основой для объединения статистических моделей отдельных фонем в модели слов. На этапе распо-

знавания с помощью алгоритма Витерби рассчитывались наиболее вероятная последовательность произнесенных фонем языка, а затем вероятности соответствия найденной последовательности моделям слов языка. Слово, соответствующее модели с максимальной вычисленной вероятностью, принималось в качестве результата распознавания.

Для оценки качества работы созданной системы распознавания использовались две характеристики - Согг и Асс, которые рассчитываются по следующим формулам: N - Б - Б

Corr = -

-• 100 %, где N - общее число

N

слов; Б - число пропущенных при распознавании слов; - число неправильно распознанных слов;

Acc =

N - D - S -1 N

■ 100 %, где I - число лиш-

них слов.

По результатам работы системы на тестовом корпусе величина Согг оказалась равной 91,99 %, а значение Асс - 88,22 %. Существующая разница между данными показателями отражает наличие небольшого количества лишних слов, когда одно произнесенное в звуковом файле слово было распознано как два и более. Стоит отметить, что величина Согг при распознавании фонем составила 63 %, что позволяет говорить о качестве работы системы, сопоставимом с существующими для других языков образцами систем [2].

На базе созданных программных средств распознавания речи были разработаны приложения для распознавания фонем и слов татарского языка. Пользовательский интерфейс системы распознавания фонем состоит из кнопок, отвечающих за начало и окончание записи файла, кнопки, запускающей процесс распознавания, и двух текстовых полей, отображающих текущее расположение аудиофайла и результат проведенного распознавания. Приложение распознавания слов татарского языка также предоставляет возможность записи речевого фрагмента с помощью микрофона и загрузки звуковых файлов. Форма приложения отображает и информацию о текущем выбранном устройстве записи звука, текущем аудиофайле (или об их количестве), текущем файле со списком произнесенных слов. Текстовый файл со списком произнесенных слов может быть загружен в систему для обеспечения возможности расчета качества проведенного распознавания. Рассчитанные характеристики Согг и Асс в таком случае отображаются в соответствующих текстовых полях данных. Кроме того, на экран выводятся результаты распознавания слов в текущих файлах.

В заключение необходимо отметить, что построение и реализация алгоритма автоматического транскрибирования татарских текстов, а также создание аннотированного корпуса звучащей та-

тарской речи позволили реализовать программный модуль автоматического распознавания речи на татарском языке. Применяемый при создании моделей фонем аппарат скрытых марковских моделей показал хорошее качество обучения. В рамках проведенных экспериментов по распознаванию слов татарского языка построенная система показала 92-процентное качество распознавания, что позволило использовать ее при создании пользовательского интерфейса для распознавания речи с возможностями записи речевого фрагмента с микрофона.

Литература

1. Gales M., Young S. The Application of Hidden Markov Models in Speech Recognition. Foundations and Trends in Signal Processing, 2007, vol. 1, iss. 3, pp. 195-304.

2. Lopes C., Perdigao F. Phone recognition on TIMIT database. Speech technologies. InTech Publ., 2011, pp. 285-302.

References

1. Gales M., Young S. The application of hidden markov models in speech recognition. Foundations and trends in signal processing. 2007, vol. 1, iss. 3, pp. 195-304.

2. Lopes C., Perdigao F. Phone recognition on TIMIT database. Speech technologies. InTech Publ., 2011, pp. 285-302.

УДК 004.5

ТИПОЛОГИЗАЦИЯ ЛОКАЛЬНЫХ МАКСИМУМОВ В СПЕКТРАХ ЭЛЕКТРОЭНЦЕФАЛОГРАММ, ПОЛУЧЕННЫХ ПУТЕМ НЕПРЕРЫВНОГО ВЕЙВЛЕТПРЕОБРАЗОВАНИЯ

Я.А. Туровский, к.м.н., доцент, руководитель лаборатории; С.Д. Кургалин, д.ф.-м.н.., зав. кафедрой; А.Г. Семенов, студент (Воронежский государственный университет, Университетская пл., 1, г. Воронеж,, 394006, Россия, yarGslav_turGvsk@mail.ru, kurgalin@pki.ru, revolusiGn@mail.ru)

Предложен метод получения функционально значимой информации о работе головного мозга, основанный на анализе цепочек локальных максимумов (ЦЛМ) на наборе вейвлетных энергетических спектров (скейлограмм, локальных спектров), получаемых из матрицы квадратов коэффициентов вейвлет-преобразования данных электроэнцефалограммы. Сущность метода состоит в усреднении ЦЛМ в частотном пространстве. В методе используются два способа усреднения: по первой временной координате ЦЛМ и по минимизации различий между ЦЛМ. При использовании первого способа все цепочки синхронизируются по первому значению, которое приравнивается к нулевому отсчету во временной шкале; при использовании второго цепочки сдвигаются относительно друг друга для минимизации различий между ними, и только затем выполняется усреднение. Проведенные исследования показали, что для электроэнцефалограммы человека в состоянии покоя существуют пять основных типов поведения ЦЛМ: 1) возрастающий, характеризующийся увеличением частоты максимумов локального спектра в цепочке; 2) убывающий, характеризующийся снижением частоты локальных максимумов во времени; 3) постоянный, при котором для всей ЦЛМ частота существенно не меняется; 4) возрастающе-убывающий, при котором частота локальных максимумов в цепочке сначала растет, а затем снижается; 5) убывающе--возрастающий, противоположный по поведению четвертому типу. Отношение цепочки к определенному типу является индивидуальным свойством человека и зависит от характера активности мозга в данный момент. Сделан вывод, что проведенная типологизация локальных максимумов матриц вейвлет-коэффициентов для электроэнцефалограммы имеет важное значение для исследования процессов ЭЭГ при различных функциональных состояниях человека.

Ключевые слова: вейвлет-анализ, биомедицинская информация, электроэнцефалограмма, скейлограмма.

TYPOLOGIZATION OF LOCAL MAXIMUMS IN ELECTROENCEPHALOGRAM SPECTRUMS DERIVED FROM CONTINUOUS WAVELET TRANSFORMATION Turovskiy Ya.A., Ph.D. (Medics), associate professor, head of laboratory;

Kurgalin S.D., Dr.Sc. (Physics and Mathematics), head of chair; Semenov A.G., student (Voronezh State University, Universitetskaya Sq., 1, Voronezh, 394006, Russian Federation, yaroslav_turovsk@mail.ru, kurgalin@bk.ru, revolusion@mail.ru) Abstract. The paper offers a method to obtain a functionally important information about brain work. It is based on the analysis of local maxima chains (LMC) on the set of the wavelet energy spectrum (scalogramm, local spectra) derived from a matrix of squares of the coefficients of the wavelet transformation of electroencephalogram (EEG) data.The method means averaging LMC in frequency space. The method uses two ways of averaging: by the first LMC timing coordinate, and by minimizing the differences between LMC. When using the first way, all chains are synchronized according to the first value which equals to zero scaling reading the timeline; in the second way chains move relatively to each other in order to

i Надоели баннеры? Вы всегда можете отключить рекламу.