Научная статья на тему 'Распознавание слитной речи'

Распознавание слитной речи Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
353
85
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ СЛИТНОЙ РЕЧИ / МЕТОДЫ ОБРАБОТКИ ИЗОБРАЖЕНИЙ / ЭНЕРГИЯ СЕГМЕНТОВ / ДВУМЕРНЫЙ ОБЪЕКТ / SOLID SPEECH RECOGNITION / METHOD OF IMAGE PROCESSING / SEGMENTS ENERGY / TWO DIMENSIONAL OBJECT

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Желтов Павел Валерианович, Желтов Валериан Павлович, Семенов Владимир Ильич

Представлено распознавание слитной речи на основе методов обработки изображений. Энергия сегментов вейвлет-преобразования (ВП) W(a,b) является двумерным объектом, поэтому для нее можно использовать методы двумерного ВП. Рассмотрена возможность использования изображения скелетона фонемы в распознавании слитной речи.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Желтов Павел Валерианович, Желтов Валериан Павлович, Семенов Владимир Ильич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE RECOGNITION OF SOLID SPEECH

In the article is presented the recognition the recognition of solid speech based on the methods of image processing. The energy of the segments of wavelet transformation W(a,b) is a two dimensional object, that is why one can use for it the methods of two dimensional wavelet transformation. In the work has been considered the possibility of using the image of phoneme’s skeleton for solid speech recognition.

Текст научной работы на тему «Распознавание слитной речи»

УДК 004.934.2

П.В. ЖЕЛТОВ, В .П. ЖЕЛТОВ, В.И. СЕМЕНОВ РАСПОЗНАВАНИЕ СЛИТНОЙ РЕЧИ*

Ключевые слова: распознавание слитной речи, методы обработки изображений, энергия сегментов, двумерный объект.

Представлено распознавание слитной речи на основе методов обработки изображений. Энергия сегментов вейвлет-преобразования (ВП) W(a,b) является двумерным объектом, поэтому для нее можно использовать методы двумерного ВП. Рассмотрена возможность использования изображения скелетона фонемы в распознавании слитной речи.

P.V. ZHELTOV, V.P. ZHELTOV, V.I SEMENOV THE RECOGNITION OF SOLID SPEECH

Key words: solid speech recognition, method of image processing, segments energy, two dimensional object.

In the article is presented the recognition the recognition of solid speech based on the methods of image processing. The energy of the segments of wavelet transformation W(a,b) is a two dimensional object, that is why one can use for it the methods of two dimensional wavelet transformation. In the work has been considered the possibility of using the image ofphoneme’s skeleton for solid speech recognition.

Энергия сегментов ВП W(a, b) является двумерным объектом, поэтому для нее можно использовать методы двумерного ВП [1].

На рис. 1-4 представлены результаты двумерного ВП энергии сегментов ВП W(o,b) словосочетаний ‘мелкий гравий’ и ‘крупный песок’. Энергии сегментов ВП W(o,b) предварительно вычислены для масштабных коэффициентов а, равных 1, 21, 41, 61, для сокращения времени преобразований.

Рис. 1. Вейвлет-преобразование энергии сегментов ВП Ш{а,Ъ) словосочетания ‘мелкий гравий ’ по столбцам

Рис. 2. Вейвлет-преобразование энергии сегментов ВП Ш{а,Ъ) словосочетания ‘крупный песок’ по столбцам

Информатика, вычислительная техника и управление

209

0,005 0,00 + 0,003 0,002 0,001 0

-0,00 +

і №П(20,Ъ)

201\1 1 /01 601 801 ь

Рис. 3 Вейвлет-преобразование энергии сегментов ВП Ш{а,Ь) словосочетания ‘мелкий гравий ’ по строкам

ті(20,Ь)

Рис. 4 Вейвлет-преобразование энергии сегментов ВП Ш(а,Ь) словосочетания ‘крупный песок’ по строкам

Далее вычислены вейвлет-коэффициенты, развернутые по столбцам и строкам для масштабного коэффициента а = 20, и обозначены на рис. 1-4 ^12(20,Ь) и ^11(20,Ь). Общее количество сегментов - 1024.

Несмотря на то, что словосочетания имеют одинаковое число букв, вейвлет-преобразования с низким разрешением для этих предложений различаются. Например, соотношение между первым и вторым максимумами на рис. 1 и 4 всегда остается таким же, потому что в слове ‘песок ’ больше энергии для больших масштабных коэффициентов а, чем в слове ‘гравий ’. Если мы нормируем максимумы на единицу и вычислим функцию корреляции для этих ВП, то легко распознаем эти словосочетания.

Для распознавания слитной речи можно использовать картину локальных максимумов фонем. Картина локальных максимумов фонем в предложении совпадает с аналогичной картиной в слове. На рис. 5 представлен скелетон фонемы ‘а’. Масштабный коэффици-

Рис. 5. Скелетон фонемы ‘а’

С увеличением масштабного коэффициента а число локальных максимумов уменьшается, подобно фрактальному поведению. Фрактальные размерности для разных фонем отличаются друг от друга, и поэтому их можно использовать как информационные признаки фонем при распознавании речи.

Выводы. Разработаны методы распознавания слитной речи на основе методов обработки изображений, а также фрактальных размерностей фонем.

1. Семенов В.И., Желтое П.В. Вейвлет-преобразование акустического сигнала / КГТУ им. А.Н. Туполева. Казань, 2008. 102 с.

ЖЕЛТОВ ПАВЕЛ ВАЛЕРИАНОВИЧ. См. с. 207.

ЖЕЛТОВ ВАЛЕРИАН ПАВЛОВИЧ - кандидат технических наук, профессор кафедры компьютерных технологий, Чувашский государственный университет, Россия, Чебоксары.

ZHELTOV VALERIAN PAVLOVICH - candidate of technical sciences, professor of Computer Technology Chair, Chuvash State University, Russia, Cheboksary.

СЕМЕНОВ ВЛАДИМИР ИЛЬИЧ - кандидат технических наук, старший преподаватель кафедры общей физики, Чувашский государственный университет, Россия, Чебоксары.

SEMENOV VLADIMiR ILYICH - candidate of technical sciences, senior teacher of Common Physics Chair, Chuvash State University, Russia, Cheboksary.

УДК 004.934.2

П.В. ЖЕЛТОВ, В .П. ЖЕЛТОВ, В.И. СЕМЕНОВ МАТЕМАТИЧЕСКАЯ МОДЕЛЬ РАСПОЗНАВАНИЯ СЛИТНОЙ РЕЧИ*

Ключевые слова: вейвлет-преобразование, слитная речь, энергия сегментов фонем, математическая модель.

Представлена математическая модель распознавание слитной речи. В отличие от печатного текста или искусственных сигналов естественная речь не допускает простого и однозначного членения на элементы (фонемы, слова, фразы), поскольку эти элементы не имеют явных физических границ. Они вычленяются в сознании слушателя - носителя данного языка - в результате сложного многоуровневого процесса распознавания и понимания речи.

P.V. ZHELTOV, VP. ZHELTOV, V.I SEMENOV THE MATEMATICAL MODEL OF SOLID SPECH RECOGNITION

Key words: wavelet-transformation, solid speech, phonemes segments energy, mathematical models.

In the article is presented the mathematical model of solid speech recognition. Unlike the printed text or artificial signals natural speech does not allow simple and unequivocal partition (to phonemes, words, phrases), as its elements don’t have physical boundaries.

They are recognized in the mind of the listener - the speaker of the language - as a result of multilevel process and understanding of speech.

Границы слов в слитной речи определить невозможно без привлечения всей совокупности априорных знаний о языке, его конкретном применении. Границы могут быть определены лишь в процессе распознавания посредством подбора оптимальной последовательности слов, наилучшим образом согласующейся с входным потоком речи по акустическим, лингвистическим и прагматическим критериям. В качестве математической модели речевого сигнала при распознавании слитной речи возможно применение энергии сегментов вейвлет-спектра речевого сигнала для разных масштабов а.

Вейвлет-спектр речевого сигнала S(t) определяется по формуле:

Литература

i Надоели баннеры? Вы всегда можете отключить рекламу.