Научная статья на тему 'ИСПОЛЬЗОВАНИЕ ТРИГРАММ ПРИ АВТОМАТИЧЕСКОМ РАСПОЗНАВАНИИ РЕЧИ'

ИСПОЛЬЗОВАНИЕ ТРИГРАММ ПРИ АВТОМАТИЧЕСКОМ РАСПОЗНАВАНИИ РЕЧИ Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
202
34
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ РЕЧИ / ТРИГРАММЫ / МАРКОВСКИЕ МОДЕЛИ / ЗВУКОСОЧЕТАНИЕ / ЯЗЫК / АКУСТИЧЕСКИЙ СИГНАЛ / SPEECH RECOGNITION / TRIGRAM / HIDDEN MARKOV MODEL / COMBINATION / UNDERSTANDING OF SPEECH

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Бутенко Юлия Ивановна

Среди существующих теорий распознавания речи наиболее вероятным является понимание восприятия как адаптивного процесса, в котором процедура восприятия информации подчинена средствам выделения сигнала и цели слушания. Выявлен момент опознания слова как точка распознавания, начиная с которой эта последовательность сегментов ассоциируется с определенным словом. Сложность решения задачи автоматического распознавания слитной речи связана с большой изменчивостью акустических сигналов, что объясняется рядом причин: различиями в реализации одних и тех же фонем в устной речи в различных позициях и техническими помехами в ее записи. Границы слова могут быть определены лишь в процессе распознавания, посредством подбора оптимальной последовательности слов, наилучшим образом согласующейся с входным потоком речи по акустическим, лингвистическим и прагматическим критериям. Среди способов реализации автоматического распознавания речи выделен метод укрупнения единиц кодирования, под которым понимается взаимосвязь между элементами определенной последовательности сигналов, которые в последующем связаны наиболее сильно. Выявлены пороги распознания неосмысленных последовательностей, которые предполагается считать наиболее удачным количеством неосмысленных последовательностей состоящих из трёх звуков - триграммы. Основываясь на исследовании о трудности произношения русских триграмм, предположено, что легкопроизносимые триграммы распознаются верно с более высокой долей вероятности, нежели те, что оказались труднопроизносимыми. Использование триграмм во время декодирования повысит вероятность качества распознавания речи, так как при делении на триграммы в составе слова большей длины выделяется слог, он является более произносимым. Отмечено, что многие триграммы соответствуют типичному русскому слогу, что позволяет при распознавании речи, поделенной на триграммы, предположить вероятностное прогнозирование последующих звуков. При таком подходе возможно использование скрытых марковских моделей, где цепь представляется в виде графа, узлами которого являются состояния, а дуги являются возможными переходами между состояниями, где каждый переход имеет собственную вероятность происхождения.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Бутенко Юлия Ивановна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

USING TRIGRAMS FOR AUTOMATIC SPEECH RECOGNITION

Among the existing theories of speech recognition, the most accepted one is viewing perception as an adaptive process in which the procedure of perception is subordinated to the means of signal identification and the purpose of the hearing. The listener is found to recognize a word in isolation or in context after listening to it to the end, and the moment of recognition of a word depends on a number of physical and linguistic characteristics. The moment of recognition of a word is identified as the recognition point from which the sequence of segments is associated with a particular word. The complexity of solving the problem of automatic speech recognition is explained by a great variability of acoustic signals, which is due to a number of reasons: different implementation of phonemes, position and characteristics of acoustic receivers, changes in speech parameters of the same speaker, differences between speakers. Word boundaries can be defined only in the process of recognition, by selecting the optimal word sequence that matches the input speech flow by acoustic, linguistic and pragmatic criteria best. Among the methods of implementing automatic speech recognition is the method of consolidation of coding units, which is understood as the relationship between the elements of a particular sequence of signals, which are then most strongly related. Recognition thresholds for non-meaningful sequences, which are supposed to be considered the most successful number of meaningless sequences consisting of three sounds - trigram - are revealed. Based on a study on the difficulty of pronunciation of Russian trigrams, it is assumed that easily pronounced trigrams are recognized with a higher degree of probability than those that were difficult to pronounce. The use of trigrams during the decoding will increase the probability of speech recognition quality, because when divided into trigrams, a longer word is singled out as a syllable and is pronounced more vividly. It is pointed out, that many trigrams correspond to a typical Russian syllable that at the recognition of the speech divided into trigrams allows us to assume probability of forecasting the subsequent sounds. With such an approach it is possible to use Markov's latent models where the chain is represented as a graph whose knots are states, and arcs are possible transitions between states where each transition has its own probability of origin.

Текст научной работы на тему «ИСПОЛЬЗОВАНИЕ ТРИГРАММ ПРИ АВТОМАТИЧЕСКОМ РАСПОЗНАВАНИИ РЕЧИ»

Прикладная лингвистика

УДК 519.22(075.8)

DOI 10.25205/1818-7935-2020-18-3-5-15

Использование триграмм при автоматическом распознавании речи

Ю. И. Бутенко

Московский государственный технический университет им. Н. Э. Баумана

Москва, Россия

Аннотация

Среди существующих теорий распознавания речи наиболее вероятным является понимание восприятия как адаптивного процесса, в котором процедура восприятия информации подчинена средствам выделения сигнала и цели слушания. Выявлен момент опознания слова как точка распознавания, начиная с которой эта последовательность сегментов ассоциируется с определенным словом. Сложность решения задачи автоматического распознавания слитной речи связана с большой изменчивостью акустических сигналов, что объясняется рядом причин: различиями в реализации одних и тех же фонем в устной речи в различных позициях и техническими помехами в ее записи. Границы слова могут быть определены лишь в процессе распознавания, посредством подбора оптимальной последовательности слов, наилучшим образом согласующейся с входным потоком речи по акустическим, лингвистическим и прагматическим критериям. Среди способов реализации автоматического распознавания речи выделен метод укрупнения единиц кодирования, под которым понимается взаимосвязь между элементами определенной последовательности сигналов, которые в последующем связаны наиболее сильно. Выявлены пороги распознания неосмысленных последовательностей, которые предполагается считать наиболее удачным количеством неосмысленных последовательностей состоящих из трёх звуков - триграммы. Основываясь на исследовании о трудности произношения русских триграмм, предположено, что легкопроизносимые триграммы распознаются верно с более высокой долей вероятности, нежели те, что оказались труднопроизносимыми. Использование триграмм во время декодирования повысит вероятность качества распознавания речи, так как при делении на триграммы в составе слова большей длины выделяется слог, он является более произносимым. Отмечено, что многие триграммы соответствуют типичному русскому слогу, что позволяет при распознавании речи, поделенной на триграммы, предположить вероятностное прогнозирование последующих звуков. При таком подходе возможно использование скрытых марковских моделей, где цепь представляется в виде графа, узлами которого являются состояния, а дуги являются возможными переходами между состояниями, где каждый переход имеет собственную вероятность происхождения.

Ключевые слова

распознавание речи, триграммы, марковские модели, звукосочетание, язык, акустический сигнал

Для цитирования

Бутенко Ю. И. Использование триграмм при автоматическом распознавании речи // Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2020. Т. 18, № 3. С. 5-15. БСТ 10.25205/1818-7935-2020-18-35-15

Using Trigrams for Automatic Speech Recognition

Iuliia I. Butenko

Bauman Moscow State Technical University Moscow, Russian Federation

Abstract

Among the existing theories of speech recognition, the most accepted one is viewing perception as an adaptive process in which the procedure of perception is subordinated to the means of signal identification and the purpose of the hearing. The listener is found to recognize a word in isolation or in context after listening to it to the end, and the mo-

© Ю. И. Бутенко, 2020

ment of recognition of a word depends on a number of physical and linguistic characteristics. The moment of recognition of a word is identified as the recognition point from which the sequence of segments is associated with a particular word. The complexity of solving the problem of automatic speech recognition is explained by a great variability of acoustic signals, which is due to a number of reasons: different implementation of phonemes, position and characteristics of acoustic receivers, changes in speech parameters of the same speaker, differences between speakers. Word boundaries can be defined only in the process of recognition, by selecting the optimal word sequence that matches the input speech flow by acoustic, linguistic and pragmatic criteria best. Among the methods of implementing automatic speech recognition is the method of consolidation of coding units, which is understood as the relationship between the elements of a particular sequence of signals, which are then most strongly related. Recognition thresholds for non-meaningful sequences, which are supposed to be considered the most successful number of meaningless sequences consisting of three sounds - trigram - are revealed. Based on a study on the difficulty of pronunciation of Russian tri-grams, it is assumed that easily pronounced trigrams are recognized with a higher degree of probability than those that were difficult to pronounce. The use of trigrams during the decoding will increase the probability of speech recognition quality, because when divided into trigrams, a longer word is singled out as a syllable and is pronounced more vividly. It is pointed out, that many trigrams correspond to a typical Russian syllable that at the recognition of the speech divided into trigrams allows us to assume probability of forecasting the subsequent sounds. With such an approach it is possible to use Markov's latent models where the chain is represented as a graph whose knots are states, and arcs are possible transitions between states where each transition has its own probability of origin.

Keywords

speech recognition, trigram, hidden Markov model, combination, understanding of speech

For citation

Butenko, Iuliia I. Using Trigrams for Automatic Speech Recognition. Vestnik NSU. Series: Linguistics and Intercultural Communication, 2020, vol. 18, no. 3, p. 5-15. DOI 10.25205/1818-7935-2020-18-3-5-15

Введение

Современная наука рассматривает проблему распознавания речи как междисциплинарную, принимая во внимание культурологические, социологические, психологические, этнологические и нейролингвистические факторы в дополнение к традиционно лингвистическим, т. е. речевое общение представляется как лингвистическое явление, включающее физиологическую и психологическую активность говорящего и заканчивающееся производством языкового продукта - устного текста. Более того, экспериментально-теоретические исследования речевого процесса последних лет доказывают, что и понимание речи - активный процесс, результат сложной психоинтеллектуальной деятельности слушающего. В дополнение к входящему акустическому сигналу в процессе восприятия и интерпретации речи слушающий использует разные источники информации. Эти источники могут включать невербальные средства общения, контекст и фоновые знания.

В современном мире, где стремительно растет интеграция средств вычислительной техники, интернет- и мультимедиа-технологий во все сферы жизни, возникает острая необходимость в технологиях для обработки аудио- и видеоинформации, распознавания речи, мимики и жестов, позволяющих сократить до минимума долю ручного труда, возложив всю рутинную работу на электронно-вычислительные машины. Кроме того, подобные технологии существенно повысят скорость обмена информацией между человеком и машиной, а следовательно, и между людьми [Косарев и др., 2002].

Однако проблема, которая является достаточно острой, заключается в сложности распознавания устной разговорной речи. Распознавание слитной речи, устно-разговорной или литературной, представляет собой достаточно сложный процесс преобразования речевой цепочки, эмитируемой человеком или устройством в акустический сигнал в виде спектра и получения затем последовательности слов. Еще более сложной задачей является понимание речи, которая сопряжена с выявлением смысла акустического сигнала, поскольку в акустической организации речи обнаруживается большая нечеткость: размытость границ произнесенных слов, особенности речевого поведения говорящего, а также наличие различных дефектов речи. Проблему создает даже дыхание: его шум нужно минимизировать, поскольку он создает возмущающий эффект и мешает распознавать фонемы [Бутенко, Шостак, 2018].

Цель работы - разработать подход к использованию триграмм для повышения вероятности распознавания отдельных лексических единиц в потоке речи.

Восприятие звуков речи человеком

В настоящее время исследования ученых еще не дали однозначного ответа на вопрос о том, как человек распознает речь и какие единицы распознавания он при этом использует: фонему, слог, слово или более длинные отрезки речи [Волошин, 2007].

Психоакустическая теория, например, видит основу восприятия речи в разделительной способности механизма слуха; она оперирует такими параметрами, как интенсивность и частота сигнала. Сторонники этой теории заметили, что при распознавании фонем большое значение имеет их акустическое окружение, другими словами, восприятие той или иной фонемы зависит не только от их собственных акустических характеристик, но и от соседних фонем, предшествующих или последующих. Так, установлено, что восприятие согласных зависит от типа последующих гласных.

Лингвистическая теория восприятия устной речи стремится выявить воспринимаемые в потоке речи абсолютно дискретные информационные единицы, жестко связав их со структурой сообщения и языка (или языков), на котором (которых) оно порождено. Речевой сигнал распознается на основе различения лингвистических единиц, определенных структурой того языка, на котором они порождаются.

Однако уже ясно, что далеко не все лингвистические единицы имеют одинаковое значение для декодирования сообщения. Семантическая автономность, причем минимальная, свойственна лишь словам, т. е. возникает на лексическом уровне языка, но ее нет на фонетическом и морфологическом уровнях. Дело в том, что способность четкого отнесения услышанных речевых сигналов к языковым единицам возникает у человека не сразу, а довольно долго вырабатывается на основе изучения языка и повседневной разговорной практики. При этом механизм распознавания все равно дает сбои. Сказанное распознается лучше, если сообщение является заранее ожидаемым, а также грамматически правильно оформленным при реализации семантической информации [Клышинский и др., 2020].

Моторная теория распознавания обращается к непрерывным артикуляционным процессам и их связям с сенсорными процессами в высших отделах мозга. Согласно этой теории отражение звука в сознании представляет собой процесс воспроизведения фонемы на основе ассоциативных представлений об артикуляционных параметрах, которые относятся к услышанному звуковому образу. При этом человек придерживается определенных правил, которые определяют процесс синтеза внутренних слуховых образов, и сравнивает их с предложенными. Единицей вещания здесь выступает фонема, которая распознается по сегментным артикуляционным признакам.

Суммируя приведенные краткие данные, принадлежащие к различным теориям восприятия речи, можно прийти к выводу, что наиболее вероятным в плане истинности является понимание восприятия как адаптивного (приспосабливаемого) процесса, в котором процедура восприятия информации подчинена способности слушающего выделять семантически значимые элементы речевой цепочки. Если слушатель способен обнаружить лингвистические закономерности в потоке звуков, то его слуховой анализатор сможет использовать информацию, интегрируемую во время прослушивания сообщения (высказывания), для принятия дискретных (и однозначных) решений относительно определения границ тех или иных завершенных звуковых конструкций (слов, фраз) и смысловых связей между ними. Иначе процесс принятия решения при автоматическом распознавании речи в большей степени опирается на текущие акустические параметры, то есть информация о сигнале добывается путем непрерывного сравнения поступающих акустических сигналов и выбора приемлемого акустического эталона [Бутенко, Шостак, 2018].

Установлено, что слушатель распознает словоформу (в данном случае, ее означающее, материальную оболочку - носитель одного или нескольких значений) в изолированном виде или в контексте после того, как прослушает ее до конца, хотя антиципация может иметь место. Момент узнавания слова зависит от целого ряда факторов, в том числе от физических (паралингвистических) характеристик слова (его продолжительности, качеств звуковых стимулов), а также от лингвистических характеристик: частоты употребления в речи, количества слогов, количества омофонов в лексиконе или слов, близких по звучанию.

Под моментом автоматического опознания слова понимается точка распознавания, начиная с которой эта последовательность сегментов ассоциируется с определенным словом.

Автоматическое распознавание отдельных слов в речевом потоке

Следует отметить, что автоматическое распознавание речи является двухступенчатым процессом, состоящим из преобразования акустического сигнала, полученного через микрофон, в последовательность слов. Далее полученная цепочка слов используется для понимания речи.

Существует множество параметров для автоматического распознавания речи. В первую очередь это уровень окружающего шума (помех), размер словаря, вариативность речи, способ ввода речи (изолированная / слитная). Общая схема задач автоматического распознавания речи включает в себя четыре этапа.

1. Оцифровка звука. На этом этапе производится операция оцифровки голосового сигнала (сообщения) для дальнейшей его обработки программным обеспечением.

2. Идентификация звука и распознавание фонем. На первом уровне обработки речи из нее сначала исключается паузы, далее она разбивается на цепочки фонем, что позволяет затем выделить в предложении слова.

3. Распознавание словоформ и лексем. Чтобы распознать слова, речь, разбитую на поток вероятных комбинаций фонем, сравнивают с последовательностями фонем, которые хранятся в словаре автоматического анализатора, на предмет выявления идентичных.

4. Распознавание словосочетаний и предложений. Для программы распознавания предложения представляют собой наборы слов. К тому же возможные сочетания предложений и словосочетаний зависят от предмета обсуждения (например, способы объединения фонем в единицы более высокого уровня: несуразные вещи - несу разные вещи; ему же надо будет - ему жена добудет).

5. Понимание смысла. Даже если компьютер правильно распознал звуковую цепочку, очень важным является интерпретация смысла того, что было сказано [Волошин, 2004]. Для полного понимания сказанного необходимо учитывать знания о реальном мире для формирования расширенного представления значения предложения. Например, под расширенным пониманием предложения «Несу разные вещи» подразумевается наличие информации о самих вещах и их физических характеристиках, цели и места перемещения и т. д.

Системы распознавания речи характеризуются многими параметрами эффективности. Одним из основных параметров является ошибка распознавания слов; он представляет собой отношение количества нераспознанных слов к общему количеству произнесенных слов. Другими параметрами, характеризующими системы автоматического распознавания речи, являются размер словаря, режим речи, предметная область, дикторозависимость, уровень акустических шумов, качество входного канала [Бутенко, Шостак, 2018].

Сложность решения задачи автоматического распознавания речи объясняется большой изменчивостью акустических сигналов. Эта изменчивость объясняется несколькими причинами.

Во-первых, различной реализацией фонем, основных единиц звукового строя, носителями данного языка или иностранцами (например: т'емп / тэмп; «капризная» дистрибуция твердых и мягких согласных). Изменчивость реализации фонем может быть вызвана влиянием сосед-

них звуков в потоке речи, прогрессивной или регрессивной ассимиляцией, редукцией звуков в потоке речи, особенно при ее ускорении. Оттенки реализации фонем, обусловленные звуковым окружением, называют аллофонами.

Во-вторых, положением и характеристиками акустических приемников.

В-третьих, изменениями параметров речи одного и того же диктора, которые обусловлены различными эмоциональными состояниями диктора, сильно влияющими на качество звукового сигнала и его просодические характеристики.

В-четвертых, акустическими различиями, которые вызваны особенностями голосового тракта (артикуляционного аппарата) того или иного диктора, или же диалектами языка, или же интерференцией иностранного языка [Бутенко, Шостак, 2018].

Семантические границы могут быть определены лишь в процессе распознавания посредством подбора оптимальной последовательности слов, наилучшим образом согласующейся с входным потоком речи по акустическим, лингвистическим и прагматическим критериям. Поскольку этот подбор ведут одновременно с нормализацией темпа речи в условиях неопределенности семантических и акустических границ слов, то для его осуществления применяют многоуровневую оптимизацию. В этом отношении представляет интерес метод триграмм.

Триграммы как способ укрупнения единиц распознавания речи

Помимо перечисленных способов реализации автоматического распознавания речи существует еще один метод - метод укрупнения единиц кодирования. Под укрупнением единиц кодирования понимается взаимосвязь между элементами определенной последовательности сигналов, состоящих из трех звуков, - триграмм [Fossati, Di Eugenio, 2007; Jelinek, 1991]. Фрагменты информации могут быть организованы по-разному, от чего зависит сложность их воспроизведения. Когда данные поступают в память, они могут быть перекодированы так, что связанные с ними понятия группируются в один блок.

При изучении различных аспектов речевого поведения было предложено использовать в качестве стимулов неосмысленные звукосочетания, поскольку этот тип стимулов наиболее удобен для проведения экспериментов с контролируемыми параметрами [Horowitz, 1961]. В связи с этим понятен интерес, проявляемый к получению различных характеристик неосмысленных звукосочетаний. К таким характеристикам относятся субъективные оценки частоты триграмм (^суб), оценки произносительной трудности (Пр) и три вида оценок, получаемых в экспериментах по исследованию ассоциативной силы триграмм (М, Ни I). Ниже приводится таблица значений пяти перечисленных характеристик для 72 русских триграмм (см. таблицу), основанная на изучении произносительной трудности русских буквосочетаний Р. М. Фрумкиной [Фрумкина, Василевич, 1971]. Триграммы упорядочены по убыванию значения данной характеристики. Наряду с оценками Fсуб приводятся данные о частоте встречаемости триграмм в текстах FC6, которые даны в виде знаков (+) и (-), соответствующих разбиению триграмм на два класса - частых триграмм (+) и редких триграмм (-).

Под ассоциативной силой (далее - АС) неосмысленного звукосочетания принято понимать степень трудности, с которой человек преобразует данный стимул в привычные для него единицы языкового кода - слова и словосочетания. Например, носители русского языка обычно легко связывают неосмысленное звукосочетание ЗВО со словом звон, а сочетание ТБЛ - со словами таблица или Тбилиси, однако преобразование сочетаний типа ГУВ или ОУА в слова русского языка неизменно вызывает у них затруднения. Такая реакция на звуковой стимул говорит о том, что буквосочетания ЗВО и ТБЛ обладают большей ассоциативной силой, чем сочетания ГУВ и ОУА, соотнесение которых с лексемами затруднено. Можно заметить, что запоминаемость неосмысленных триграмм отчасти определяется тем, насколько легко эти триграммы ассоциируются со словами данного языка [Сидняев и др., 2019; Horowitz, 1961].

Субъективные оценки частот 72 русских триграмм Subjective frequency estimates for 72 Russian trigrams

№ п/п Триграмма Fcy6 Fo6 № п/п Триграмма Fcy6 Fo6

1 ова 6,08 + 37 сро 4,71 —

2 ска 5,64 + 38 окн 4,70

3 еле 5,57 + 39 взя 4,66

4 сте 5,55 + 40 игл 4,63

5 ело 5,53 + 41 огн 4,62 -

6 зна 5,52 + 42 бре 4,61 -

7 стр 5,50 + 43 спу 4,54 -

8 тво 5,49 + 44 ири 4,52 -

9 сти 5,43 + 45 ист 4,52 +

10 ско 5,42 + 46 обм - —

11 ств 5,39 + 47 тар 4,49 -

12 сво 5,38 + 48 узн 4,45 -

13 ере 5,33 + 49 УКР 4,44 -

14 кри 5,22 + 50 лка 4,41 -

15 ост 5,20 + 51 жно 4,40 -

16 осн 5,18 + 52 лга 4,36 -

17 вкл 5,17 53 впи 4,33 -

18 ' отл 5,14 54 нив 4,30 -

19 гда 5,10 + 55 отд 4,29 -

20 ово 5,10 + 56 дес 4,28 +

21 тка 5,07 57 ябл 4,25 -

22 мен 5,05 + 58 огр 4,22 +

23 изв 5,03 + 59 озн 4,22 +

24 вла 5,00 - 60 скр 4,22 -

25 гло 5,00 - 61 гри 4,17 -

26 здр 5,00 - 62 вро 4,13 -

27 сва 5,00 - 63 изг 4,11 -

28 УФ 5,00 - 64 укл 4,11 -

29 зво 4,81 + 65 ожн 4,00 +

30 отн 4,81 + 66 опл 4,00 -

31 вст 4,80 + 67 тва 4,00 +

32 обр 4,80 + 68 увл 4,00 -

33 нав 4,79 - 69 утк 4,00 -

34 опр 4,77 + 70 уев 3,90 -

35 гре 4,73 + 71 изб 3,87 -

36 кла 4,71 + 72 изр 3,87 -

Основываясь на исследовании трудности озвучивания триграмм [Фрумкина и др., 1971; Eng, Hellige, 1994], можно предположить, что легкопроизносимые триграммы будут и распознаваться с более высокой степенью вероятности, нежели труднопроизносимые буквосочетания. На основе выводов данных исследований можно предположить, что использование триграмм во время автоматического декодирования повысит качество распознавания речи,

так как при делении на триграммы в составе слова большей длины выделяются укрупненные единицы, которые полностью или частично совпадают с морфемами русского языка.

Как было отмечено выше, одним из основных параметров успешного распознания речи является дикторозависимость и состав словаря. В эксперименте [Фрумкина, Василевич, 1971] изучено, что многие триграммы соответствуют типичному русскому слогу. Из этого следует, что при распознавании речи, поделенной на триграммы, можно предположить вероятностное прогнозирование последующих звуков. При этом стоит отметить, что триграмма может быть эквивалента в устной речи не только трем звукам, но и одному-двум. На рис. 1 представлен пример произношения названия музыкального инструмента фагот в творительном падеже разными дикторами.

Рис. 1. Произношение словоформы «фаготом» разными дикторами Fig. 1. Pronunciation of the word "фаготом" by different speakers

При таком подходе в процессе распознавания возможно использование скрытых марковских моделей (СММ). СММ - статистическая модель, имитирующая работу процесса с неизвестными параметрами, поэтому задачей становится разгадывание неизвестных параметров на основе наблюдаемых триграмм. В СММ возможно следить лишь за переменными, на которые оказывает влияние данное состояние. Каждое состояние имеет вероятностное распределение среди всех возможных выходных значений. Поэтому последовательность символов, сгенерированная СММ, дает информацию о последовательности состояний [Бутенко, Шос-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

так, 2018]. Двумерная диаграмма, представленная на рис. 2, показывает общую структуру СММ. Овалы - переменные со случайным значением. Случайная переменная х(0 - значение скрытой переменной в момент времени t. Случайная переменная у(0 - значение наблюдаемой переменной в момент времени t. Стрелки на диаграмме обозначают условные зависимости. Из диаграммы становится ясно, что значение скрытой переменной х(0 (в момент времени 0 зависит только от значения скрытой переменной х^ - 1). Это и есть свойство Маркова. Хотя в то же время значение наблюдаемой переменной у(() зависит только от значения скрытой переменной х(0 (обе в момент времени 0.

Рис. 2. Двумерная диаграмма структуры СММ Fig. 2. Two-dimensional diagram for the structure of hidden Markov model

Предложенный процесс описывает вероятностный переход из одного состояния в другое, обозначаемый Xji. При этом происходит излучение выходного акустического вектора с выходным вероятностным распределением р(ук ) , соответствующее этому состоянию. В данном случае поведение процесса в определенный момент зависит от состояния предыдущего элемента, которое описывается формулой:

Р(X(I) = |х(М) = (1) = Хп ) = р (X(I) = |х(^) = Хп_! ).

В процессе распознавания фонем необходимо использовать различные виды вероятности. Акустическая модель - это функция, принимающая на вход небольшой участок акустического сигнала и выдающая распределение вероятностей различных фонем на этом фрейме. Таким образом, акустическая модель дает нам возможность с той или иной степенью уверенности восстановить по звуку, что было произнесено.

Наиболее важным аспектом в акустике является вероятность перехода между фонемами. Алгоритм Витерби позволяет построить наиболее вероятную последовательность скрытых состояний. Данный алгоритм используется для декодирования сверточного кода, передаваемого по сетям с наличием шума. После построения скрытой марковской модели алгоритм производит поиск состояний и складывает их в наиболее вероятную последовательность произошедших событий. Данная последовательность, как правило, упорядочена по времени, а наблюдаемое событие связывается с определенным скрытым событием [Sidnyaev et я1., 2019].

При этом марковская цепь представляется в виде графа, узлами которого являются состояния, а дуги соответствуют возможным переходам состояний. С каждым узлом цепи Маркова связывают определенный символ, а с каждой дугой - вероятность смены состояния. Вероятность смены одного состояния на другое зависит только от предыдущего состояния [Бутенко, Шостак, 2018].

la]

I"]

M

И [а|

M la]

[о]

I in I

Рис 3. Цепь Маркова для слова «собачка» Fig. 3. Markov's chain for the word "собачка"

На рис. 3 изображены различные варианты произношения слова «собачка» в виде цепи Маркова. Дуги являются возможными переходами между состояниями. Каждый переход имеет собственную вероятность происхождения. Соответственно, для реализации перехода из начального состояния в конечное производится вычисление вероятностей переходов данного пути. Так, представленное в виде цепи Маркова слово «собачка» позволяет выделить трифоны, например ачк и ашк. Выделенные трифоны делятся на трудно- и легкопроизноси-мые. Очевидно, что ачк будет являться более распространенным звукосочетанием в русском языке, нежели ашк. При этом начальная триграмма соб имеет три варианта произношения: саб, соб и сб.

Однако нужно отметить, что для эффективной реализации подхода по использованию триграмм русского языка при автоматическом распознавании речи необходимо предварительно изучить вариативность произношения русских триграмм разными дикторами путем создания базы данных о произношении триграмм.

Представленные исследования ученых еще не дали однозначного ответа на вопрос о том, какие единицы распознавания - звуки или фонемы, слоги или морфемы, слова или синтагмы - использует человек. Сложность решения задачи автоматического распознавания слитной речи вызвана физической изменчивостью акустических сигналов вследствие различной реализации фонем, положением и характеристиками акустических приемников, изменениями параметров речи одного и того же диктора, различиями между дикторами. Для более эффективной реализации экспериментов по автоматическому распознаванию речи предлагается использовать метод укрупнения единиц кодирования (метод триграмм), под которым понимается выявление взаимосвязей между элементами определенной последовательности сигналов, с более высокой ассоциативной силой.

Экспериментально выявлено, что использование триграмм во время декодирования повышает вероятность правильного распознавания речи, поскольку при делении на триграммы в составе слова большей длины выделяются укрупненные единицы, которые полностью или частично совпадают с морфемами русского языка.

Многие триграммы соответствуют типичному русскому слогу, что позволяет при распознавании речи, поделенной на триграммы, предположить более надежное вероятностное прогнозирование последующих звуков. При таком подходе оказывается возможным использование скрытых марковских моделей, когда цепь представляется в виде графа, узлами которого являются состояния, а дугами являются возможные переходы между состояниями, причем каждый переход имеет собственную вероятность происхождения.

Заключение

Список литературы

Бутенко Ю. И., Шостак И. В. Методологические аспекты распознавания речи на основе многомерной статистической теории // Нейрокомпьютеры: разработка, применение. 2018. № 2. С. 23-33.

Сидняев Н. И., Бутенко Ю. И., Гаража В. В. Статистическая оценка ассоциативной силы неосмысленных буквосочетаний // Теоретическая и прикладная лингвистика. 2019. № 5 (4). С.107-124.

Волошин В. Г. Компьютерная лингвистика. Сумы: Университетская книга, 2004. 382 с.

Клышинский Э. С., Логачева В. К., Карпик О. В., Бондаренко А. В. Количественная оценка грамматической неоднозначности некоторых европейских языков // Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2020. Т. 18, № 1. С. 5-21. DOI 10.25205/1818-7935-2020-18-1-5-21

Косарев Ю. А., Ли И. В., Ронжин А. Л. и др. Обзор методов понимания речи и текста // Тр. СПИИРАН. СПб., 2002. Т. 2, вып. 1. C. 157-195.

Фрумкина Р. М., Василевич А. П. Произносительная трудность буквосочетаний и ее связь с порогами зрительного распознавания // Вероятностное прогнозирование в речи: Сб. ст. М.: Наука, 1971. С. 94-134.

Фрумкина Р. М., Василевич А. П., Герганов Е. Н. Субъективные оценки частот элементов текста как прогнозирующий фактор // Вероятностное прогнозирование в речи. Сб. статей. М.: Наука, 1971. С. 70-93.

Eng, T. L., Hellige, J. B. Hemispheric asymmetry for processing unpronounceable and pronounceable letter trigrams. Brain and Language, 1994, vol. 46 (4), p. 517-535.

Fossati, D., Di Eugenio, B. A mixed trigrams approach for context sensitive spell checking. In: International conference on intelligent text processing and computational linguistics. Berlin, Heidelberg, Springer, 2007, p. 623-633.

Horowitz, L. M. Free recall and ordering of trigrams. Journal of Experimental Psychology, 1961, vol. 62 (1), p. 51.

Jelinek, F. Up from trigrams! The struggle for improved language models. In: Second European Conference on Speech Communication and Technology, 1991.

Sidnyaev, N. I., Butenko, I. I., Garazha, V. V. (December). Mathematical apparatus for engineering-linguistic models. In: AIP Conference Proceedings, 2019, vol. 2195, no. 1, p. 020033. DOI 10.1063/1.514013

References

Butenko, Iu. I., Shostak, I. V. Methodological aspects of the speech recognition on the basis of the multidimensional statistical theory. Neurocomputers: development, application, 2018, no. 2. p. 23-33. (in Russ.)

Eng, T. L., Hellige, J. B. Hemispheric asymmetry for processing unpronounceable and pronounceable letter trigrams. Brain and Language, 1994, vol. 46 (4), p. 517-535.

Fossati, D., Di Eugenio, B. A mixed trigrams approach for context sensitive spell checking. In: International conference on intelligent text processing and computational linguistics. Berlin, Heidelberg, Springer, 2007, p. 623-633.

Frumkina, R. M., Vasilevich, A. P. Pronunciation difficulty of letter combinations and its relationship with the thresholds of visual recognition. In: Probabilistic prediction in speech. Collection of articles. Moscow, Nauka, 1971, p. 94-134. (in Russ.)

Frumkina, R. M., Vasilevich, A. P., Gerganov, E. N. Subjective estimates of text element frequencies as a predictive factor. In: Probabilistic prediction in speech. Collection of articles. Moscow, Nauka, 1971, p. 70-93. (in Russ.)

Horowitz, L. M. Free recall and ordering of trigrams. Journal of Experimental Psychology, 1961, vol. 62 (1), p. 51.

Jelinek, F. Up from trigrams! The struggle for improved language models. In: Second European Conference on Speech Communication and Technology, 1991.

Klyshinsky, E. S., Logacheva, V. K., Karpik, O. V., Bondarenko, A. V. Quantitative Estimation of Grammatical Ambiguity: Case of European Languages. Vestnik NSU. Series: Linguistics and Intercultural Communication, 2020, vol. 18, no. 1, p. 5-21. (in Russ.) DOI 10.25205/ 1818-7935-2020-18-1-5-21

Kosarev, Yu. A., Lee, I. V., Ronzhin, A. A. et al. Review of methods of speech and text understanding. In: Proceedings of SPIIRAN. St. Petersburg, 2002, iss. 1, vol. 2. p. 157-195. (in Russ.)

Sidnyaev, N. I., Butenko, I. I., Garazha, V. V. (December). Mathematical apparatus for engineering-linguistic models. In: AIP Conference Proceedings, 2019, vol. 2195, no. 1, p. 020033. DOI 10.1063/1.514013

Sidnyaev, N. I., Butenko, Iu. I., Garaga, V. V. Statistical estimation of the associative force of the inconsequential letter combinations. Theoretical and Applied Linguistics, 2019, no. 5 (4), p. 107-124. (in Russ.)

Voloshin, V. G. Computer linguistics. Sumy, University Book, 2004, 382 p. (in Russ.)

Материал поступил в редколлегию Date of submission 18.03.2020

Информация об авторе / Information about the Author

Бутенко Юлия Ивановна, кандидат технических наук, доцент кафедры «Романо-герман-ские языки» Московского государственного технического университета им. Н. Э. Баумана (Москва, Россия)

Iuliia I. Butenko, Cand. of Technical Sci., Associate Professor, Department of Roman-Germanic languages, Bauman Moscow State Technical University (Moscow, Russian Federation)

iubutenko@bmstu.ru ORCID 0000-0002-9776-5709

i Надоели баннеры? Вы всегда можете отключить рекламу.