Научная статья на тему 'Математическая модель распознавания слитной речи'

Математическая модель распознавания слитной речи Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
397
109
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЕ / СЛИТНАЯ РЕЧЬ / ЭНЕРГИЯ СЕГМЕНТОВ ФОНЕМ / МАТЕМАТИЧЕСКАЯ МОДЕЛЬ / MATHEMA&SHY / WAVELET-TRANSFORMATION / SOLID SPEECH / PHONEMES SEGMENTS ENERGY / TICAL MODELS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Желтов Павел Валерианович, Желтов Валериан Павлович, Семенов Владимир Ильич

Представлена математическая модель распознавание слитной речи. В отличие от печатного текста или искусственных сигналов естественная речь не допускает простого и однозначного членения на элементы (фонемы, слова, фразы), поскольку эти элементы не имеют явных физических границ. Они вычленяются в сознании слушателя – носителя данного языка – в результате сложного многоуровневого процесса распознавания и понимания речи.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Желтов Павел Валерианович, Желтов Валериан Павлович, Семенов Владимир Ильич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE MATEMATICAL MODEL OF SOLID SPECH RECOGNITION

In the article is presented the mathematical model of solid speech recognition. Unlike the printed text or artificial signals natural speech does not allow simple and unequivocal partition (to phonemes, words, phrases), as its elements don’t have physical boundaries. They are recognized in the mind of the listener – the speaker of the language – as a result of multilevel process and understanding of speech.

Текст научной работы на тему «Математическая модель распознавания слитной речи»

Выводы. Разработаны методы распознавания слитной речи на основе методов обработки изображений, а также фрактальных размерностей фонем.

1. Семенов В.И., Желтов П.В. Вейвлет-преобразование акустического сигнала / КГТУ им. А.Н. Туполева. Казань, 2008. 102 с.

ЖЕЛТОВ ПАВЕЛ ВАЛЕРИАНОВИЧ. См. с. 207.

ЖЕЛТОВ ВАЛЕРИАН ПАВЛОВИЧ - кандидат технических наук, профессор кафедры компьютерных технологий, Чувашский государственный университет, Россия, Чебоксары.

ZHELTOV VALERIAN PAVLOVICH - candidate of technical sciences, professor of Computer Technology Chair, Chuvash State University, Russia, Cheboksary.

СЕМЕНОВ ВЛАДИМИР ИЛЬИЧ - кандидат технических наук, старший преподаватель кафедры общей физики, Чувашский государственный университет, Россия, Чебоксары.

SEMENOV VLADIMiR ILYICH - candidate of technical sciences, senior teacher of Common Physics Chair, Chuvash State University, Russia, Cheboksary.

УДК 004.934.2

П.В. ЖЕЛТОВ, В .П. ЖЕЛТОВ, В.И. СЕМЕНОВ МАТЕМАТИЧЕСКАЯ МОДЕЛЬ РАСПОЗНАВАНИЯ СЛИТНОЙ РЕЧИ*

Ключевые слова: вейвлет-преобразование, слитная речь, энергия сегментов фонем, математическая модель.

Представлена математическая модель распознавание слитной речи. В отличие от печатного текста или искусственных сигналов естественная речь не допускает простого и однозначного членения на элементы (фонемы, слова, фразы), поскольку эти элементы не имеют явных физических границ. Они вычленяются в сознании слушателя - носителя данного языка - в результате сложного многоуровневого процесса распознавания и понимания речи.

P.V. ZHELTOV, VP. ZHELTOV, V.I SEMENOV THE MATEMATICAL MODEL OF SOLID SPECH RECOGNITION

Key words: wavelet-transformation, solid speech, phonemes segments energy, mathematical models.

In the article is presented the mathematical model of solid speech recognition. Unlike the printed text or artificial signals natural speech does not allow simple and unequivocal partition (to phonemes, words, phrases), as its elements don’t have physical boundaries.

They are recognized in the mind of the listener - the speaker of the language - as a result of multilevel process and understanding of speech.

Границы слов в слитной речи определить невозможно без привлечения всей совокупности априорных знаний о языке, его конкретном применении. Границы могут быть определены лишь в процессе распознавания посредством подбора оптимальной последовательности слов, наилучшим образом согласующейся с входным потоком речи по акустическим, лингвистическим и прагматическим критериям. В качестве математической модели речевого сигнала при распознавании слитной речи возможно применение энергии сегментов вейвлет-спектра речевого сигнала для разных масштабов а.

Вейвлет-спектр речевого сигнала S(t) определяется по формуле:

Литература

* Исследование выполнено при поддержке РФФИ (проект № 11-07-00276а).

Информатика, вычислительная техника и управление

211

Вейвлет-спектр разбивается на сегменты. Вычисляется Фурье-спектр сегментов ВП:

да

¥ (а, V) = | Ж (а, Ь)е—2 ™Ьс1Ь.

—да

Вычисляется энергия сегментов для каждого масштабного коэффициента а по формуле:

да

¥ (а) = || ¥ (а, V) ^ .

—да

Для ускорения вычисления вейвлет-спектра и энергии сегментов фонем используется алгоритм быстрого преобразования Фурье, так как вейвлет-преобразование (ВП) вычисляется в частотной области.

В качестве примера на рис. 1 представлена энергия сегментов ВП Ж(а, Ь) предложения «лента остановилась» для масштабных коэффициентов а = 23 и а = 47.

Энергия сегментов слова «лента» в предложении точно повторяет зависимость энергии сегментов отдельного слова «лента». Между словами «лента» и «остановилась» нет паузы. Для определения паузы используется зависимость энергия сегментов ВП Ж(а, Ь) от масштабного коэффициента а.

На рис. 2 представлен график зависимости энергии сегментов Е от масштабного коэффициента а ВП Ж(а,Ь) словосочетания «открыть бункер».

Масштабный коэффициент а изменяется от 1 до 50 с шагом 1.

При вычислении энергии просуммирована первая половина коэффициентов Фурье. При многократном повторении одного и того же предложения зависимость энергии сегментов ВП Ж(а,Ь) остается одной и той же. Положения гласных и согласных остаются неизменными относительно друг друга, меняются только длительности между пиками и их высоты. Такое расположение пиков для различных масштабных коэффициентов для одного и того же предложения не зависит от того, кто произносит данное предложение.

Выводы. Многомасштабная обработка речевого сигнала выделяет глухие взрывные звуки при большом масштабном множителе, глухие щелевые и аффрикаты - при малом значении масштабного множителя. Гласные фонемы имеют наибольшие значения вейвлет-коэффициентов при средних значениях масштабного множителя и большую длительность по сравнению с другими звуками речи.

Сегменты

Рис. 1. Энергия сегментов предложения ‘лента остановилась ’ для масштабных коэффициентов а = 23 и а = 47

Рис. 2. Энергия сегментов ВП И^(а, Ъ) словосочетания ‘открыть бункер ’

Литература

1. Семенов В.И., Желтое П.В. Вейвлет-преобразование акустического сигнала / КГТУ им. А.Н. Туполева. Казань, 2008. 102 с.

ЖЕЛТОВ ПАВЕЛ ВАЛЕРИАНОВИЧ. См. с. 207.

ЖЕЛТОВ ВАЛЕРИАН ПАВЛОВИЧ. См. с. 210.

СЕМЕНОВ ВЛАДИМИР ИЛЬИЧ. См. с. 210.____________________________________

УДК 005.92:004

А.М. КАЛИНИН

СОВЕРШЕНСТВОВАНИЕ ФУНКЦИОНАЛЬНОСТИ ИНФОРМАЦИОННОЙ СИСТЕМЫ ПРЕДПРИЯТИЯ НА ОСНОВЕ СИСТЕМЫ ЭЛЕКТРОННОГО ДОКУМЕНТООБОРОТА DIRECTUM

Ключевые слова: информационная система, система электронного документооборота. Исследованы возможности и преимущества системы электронного документооборота и управления взаимодействием сотрудников «Directum» в деятельности ОАО «АККОНД».

AM. KALININ IMPROVEMENT OF THE FUNCTIONALITY OF THE INFORMATION SYSTEM OF ENTERPRISE ON THE BASIS OF THE SYSTEM OF ELECTRONIC DOCUMENT TURNOVER DIRECTUM

Key words: information system, system of electronic document turnover Are investigated possibility and the advantage of the system of electronic document turnover and control of the cooperation of the colleagues of «Directum» in the activity of joint stock company «AKKOND».

В последнее время происходит оживление отечественной промышленности, сопровождаемое высокими темпами внедрения автоматизированных информационных систем. Развивая информационные системы (ИС), необходимо не только стремиться в производственную часть бизнеса, создавая возможность обычного набора информации, оптимизации бизнес процессов и других атрибутов внедрения, но и обеспечивать повышение эффективности работы всех сотрудников организации в разных областях совместной деятельности за счет электронного документооборота и управления взаимодействием сотрудников. Важнейшее преимущество таких систем - возможность работы с единой реляционной базой данных, что оптимизирует трудозатраты на ввод информации, уменьшает вероятность ошибок, облегчает решение проблемы защиты информации. Они направлены на формирование оперативной и полной информации для целей управления, что находится в прямой зависимости от функциональности информационных систем предприятия. Своевременное получение качественной информации дает преимущество перед конкурентами, а невнимание к качеству и эффективности информационной системы обязательно ведет к потере позиций предприятия и, в конце концов, к ее поражению.

В 2011 г. в ОАО «АККОНД» была установлена система DIRECTUM. DIRECTUM -система электронного документооборота и управления взаимодействием, нацеленная на повышение эффективности работы всех сотрудников организации в разных областях совместной деятельности. Система DIRECTUM соответствует концепции ECM (Enterprise Content Management) и поддерживает полный жизненный цикл управления документами. При этом традиционное «бумажное» делопроизводство органично вписывается в электронный документооборот.

Система DIRECTUM включает 8 основных модулей: управление деловыми процессами, управление электронными документами, управление договорами, управле-

i Надоели баннеры? Вы всегда можете отключить рекламу.