Научная статья на тему 'Разработка автоматизированного модуля для распознавания речи по губам'

Разработка автоматизированного модуля для распознавания речи по губам Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
213
31
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ РЕЧИ / SPEECH RECOGNITION / ЧТЕНИЕ ПО ГУБАМ / LIP READING / РАСПОЗНАВАНИЕ ОБРАЗОВ / PATTERN RECOGNITION / СКРЫТЫЕ МАРКОВСКИЕ МОДЕЛИ / HIDDEN MARKOV MODELS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Сиволобов Сергей Владимирович

В статье рассматривается одна из перспективных задач в распознавании образов автоматическое чтение по губам. Реализуемость данной задачи подтверждается многочисленными примерами людей, владеющих навыком чтения по губам, а также эффектом Мак-Гурка-Мак-Дональда. Решение этой задачи актуально для разработки человеко-машинных интерфейсов, для помощи людям с нарушениями слуха, для озвучивания немого кино. Также такая технология может быть полезна в криминалистике, при создании инструмента для распознавания речи на большом расстоянии.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Сиволобов Сергей Владимирович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Разработка автоматизированного модуля для распознавания речи по губам»

Представив основные способы оптимизации часторебристых перекрытий, можно заключить, что часторебристые перекрытия, на сегодняшний день, является одним из перспективных типов межэтажных перекрытий для возводимых зданий. Сама конструкция облегченных перекрытий ведет как к экономии средств и ресурсов на возведение целого здания, так и к уменьшению последствий возможных аварий. А замена зарубежных вкладышей на распространенные отечественные стеновые блоки облегчает устройство опалубки, ведет к минимизации времени простоя, связанное с поставками материалов, кроме того, открытие нового рынка сбыта стеновых блоков.

Список литературы / References

1. Пастернак П.Л., Марьясина И.Е. Железобетонные часторебристые перекрытия и настилы. Машстройиздат, Москва, 1950. 142 с.

2. Батрак Л.Г., Городецкий Д.А., Городецкий А.С., Лазнюк М.В., Юсипенко С.В. Расчет и проектирование конструкций высотных зданий из монолитного железобетона. «Факт». Киев, 2004. 106 с.

3. Мандриков А.П. Примеры расчета железобетонных конструкций. Стройиздат, 1989. 506 с.

4. Самуль В.И. Основы теории упругости и пластичности. Учебное пособие для студентов вузов. Высшая школа, 1892. 264 с.

5. Кукса Л.В., Евдокимов Е.Е. Сопротивление материалов. Курс лекций с примерами решения задач. Волгоград: ВолгГАСУ, 2015. 224 с.

РАЗРАБОТКА АВТОМАТИЗИРОВАННОГО МОДУЛЯ ДЛЯ РАСПОЗНАВАНИЯ РЕЧИ ПО ГУБАМ Сиволобов С.В. Email: Sivolobov628@scientifictext.ru

Сиволобов Сергей Владимирович — ассистент, кафедра информационных систем и компьютерного моделирования, Волгоградский государственный университет, г. Волгоград

Аннотация: в статье рассматривается одна из перспективных задач в распознавании образов — автоматическое чтение по губам. Реализуемость данной задачи подтверждается многочисленными примерами людей, владеющих навыком чтения по губам, а также эффектом Мак-Гурка-Мак-Дональда. Решение этой задачи актуально для разработки человеко-машинных интерфейсов, для помощи людям с нарушениями слуха, для озвучивания немого кино. Также такая технология может быть полезна в криминалистике, при создании инструмента для распознавания речи на большом расстоянии.

Ключевые слова: распознавание речи, чтение по губам, распознавание образов, скрытые Марковские модели.

DEVELOPMENT OF AN AUTOMATED MODULE FOR SPEECH RECOGNITION ON THE LIPS Sivolobov S.V.

Sivolobov Sergey Vladimirovich — Assistant Professor, DEPARTMENT OF INFORMATION SYSTEMS AND COMPUTER MODELING, VOLGOGRAD STATE UNIVERSITY, VOLGOGRAD

Abstract: in the article one of the perspective tasks in pattern recognition is considered — automatic reading on the lips. The feasibility of this task is confirmed by numerous examples of people who have the skill of reading through the lips, as well as the effect of McGurk-McDonald. The solution of this problem is relevant for the development of human-machine interfaces, to help people with hearing impairments, to voice silent films. Also, such technology can be useful in forensics, when creating a tool for speech recognition at a great distance.

Keywords: speech recognition, lip reading, pattern recognition, hidden Markov models.

УДК 004.02

Разрабатываемая программа предназначена для автоматизированного распознавания звуков произносимых человеком по видеозаписи движения губ, а так же для изучения характеристик перемещения особых точек на контурах губ при произнесении различных звуков, построения графиков их перемещения, а так же сравнения графиков с эталонными [1].

Проблема чтения по губам в первую очередь интересовала глухих и слабослышащих людей. У них, как правило, навык чтения по губам развивается лучше, чем у нормально слышащих людей. В соответствие с этими положениями можно выдвинуть несколько тезисов:

1) автоматизированное чтение по губам может пригодиться глухим и слабослышащим людям, которые, по данным Всемирной организации здравоохранения на 2013 год составляют около 5% (360 млн. чел.) населения Земли;

2) поскольку, по различным причинам, навык чтения по губам у нормально слышащих людей развивается хуже, чем у глухих, специалистов умеющих достаточно хорошо читать по губам очень немного. Поэтому, есть необходимость заполнить этот пробел автоматизированными системами чтения по губам.

Теоретическая возможность чтения по губам подтверждается эффектом Мак-Гурка-Мак-Дональда, демонстрирующим взаимодействие между слухом и зрением в восприятии речи, а так же многочисленными практическими примерами.

Основываясь на эффекте Мак-Гурка - Мак-Дональда можно предположить, что восприятие речи человеком мультимодально, то есть вовлекает информацию сразу из нескольких органов чувств. Следуя биологическим особенностям восприятия речи для улучшения качества её распознавания можно использовать мультимодальные автоматизированные системы распознавания речи, одним из методов в которых будет чтение по губам.

Таким образом, можно сказать, что фундаментальные исследования в области распознавания речи по движениям губ имеет большое прикладное значение в различных практических задачах.

В качестве входных данных используются цветные видеозаписи движения губ. На первичном этапе мы разработали модель, описывающую контуры губ из шести векторов. Для получения информации о перемещениях губ мы использовали метод особых точек, успешно применяемый для анализа отпечатков пальцев в условиях неполной информации [1, 2]. Преимуществом данного метода является высокая точность даже при обработке низкоконтрастных изображений, что составляет большую сложность для методов автоматического выделения контуров. Основным недостатком данного метода является высокая трудоёмкость выделения особых точек. В дальнейшем, для практического применения программы планируется разработка специализированного автоматического алгоритма выделения контуров губ.

С точки зрения задачи распознавания образов на статических изображениях губы имеют ряд особенностей: занимают определённое статическое положение на фронтально расположенном лице, имеют преобладание красной цветовой компоненты, а так же выделяются на монохромных изображениях за счёт различной освещенности, вследствие разнонаправленности нормалей проведенных к плоскостям губ и окружающим их тканям [3, 4]. Наличие таких особенностей говорит о потенциальной возможности автоматического выделения губ и получения информации, необходимой для распознавания звуков и слов.

Нами были подготовлены и проанализированы видеозаписи губ различных людей, по 4 - 5 записей гласных и по 2 записи для согласных букв. В результате исследования определено, чем вызвана сложность распознавания согласных звуков: губы при их произношении менее подвижны, и некоторые пары-тройки звуков (например, шипящие «ж», «ш» и «щ») имеют очень похожие движения губ. Одним из возможных методов улучшения их распознавания является использование слогов и других комбинаций звуков при распознавании.

Задача чтения по губам является, в значительной мере, родственной традиционной задаче распознавания речи с использованием звукового фрагмента. Имеются множество очень похожих проблем, таких как, разделение фрагмента на слова, разделение слов на буквы, распознавание слов в условиях невысокой точности распознавания отдельных звуков.

При распознавании речи часто используют скрытые Марковские модели (СММ) [5]. Использование скрытых Марковских моделей для распознавания речи основано на двух приближениях:

1) Речь может быть разбита на фрагменты, соответствующие состояниям в СММ, параметры речи в пределах каждого фрагмента считаются постоянными.

2) Вероятность каждого фрагмента зависит только от текущего состояния системы и не зависит от предыдущих состояний.

Использование СММ позволяет решать проблемы связанные с одинаковым распознаванием некоторых букв.

Разрабатываемая программа может использоваться для ввода речевой информации в компьютер, в человеко-машинных интерфейсах, для озвучивания немого кино, а так же в криминалистике, для распознавания речи на большом расстоянии и в условиях шума. Так же данная разработка может помочь в распознавании речи глухим людям, например при совмешении с концепцией Google Glass.

Важным фактором для успешного выхода на рынок данного программного продукта является небольшое количество аналогов и низкий уровень конкуренции в этой области.

По открытым источникам, в мире сушествует считанное количество подобных разработок: 1 ) Разработка Ахмада Хассаната из Университета Мута (Иордания); 2) Automated Lip Reading (ALR), автор Фрэнк Хубнер (Frank Hübner).

Список литературы / References

1. Коваленко О. Универсальная биометрия / О. Коваленко // Byte/Россия. М.: CK Пресс, 2007. № 2. C. 55-76.

2. Новиков С.О. Измерение и исследование трехмерных объектов в условиях неполной информации / С.О. Новиков, O.A. Лебедев, Г.В. Захаренко // Информационные технологии и вычислительные системы, 2003. № 1. C. 52-54.

3. Сойфер В.А. Методы компьютерной обработки изображений / В.А. Сойфер М.: «ФИЗМАТЛИТ», 2003. 784 с.

4. Гонсалес Р. Цифровая обработка изображений / Р. Гонсалес, Р. Вудс. М.: «Техносфера», 2005. 1072 с.

5. Martin J. Speech and language processing. / J. Martin, D. Jurafsky - Prentice Hall, 2008. 994 с.

ПОВЫШЕНИЕ НАДЕЖНОСТИ ОБЕСПЕЧЕНИЯ ПОТРЕБИТЕЛЕЙ ТЕПЛОМ ОТ КОТЕЛЬНОЙ «6-Й МИКР. АРБЕКОВО» Г. ПЕНЗЫ Токарь М.Д. Email: Tokar628@scientifictext.ru

Токарь Михаил Дмитриевич — магистрант, Институт механики и энергетики Федеральное государственное бюджетное образовательное учреждение высшего образования Национальный исследовательский Мордовский государственный университет им. Н.П. Огарева, г. Саранск

Аннотация: предложенная мною статья содержит результаты моего критического обзора современного исследования и наиболее востребованных путей повышения надежности систем теплоснабжения, которые очень существенно влияют на развитие энергетики, на надежность работы, имеют перспективы внедрения в обозримом будущем и значительно повышают технико-экономические показатели энергосистем. А также помогут сэкономить бюджет, уменьшить износ оборудования котельной на предприятии и свести риск аварийной ситуации к минимуму.

Ключевые слова: котельная, надежность, потребитель, резервирование, теплоснабжение.

INCREASING THE RELIABILITY OF CONSUMER SUPPORT IN THE HEAT FROM BOILER "6-MIC. ARBEKOVO » CITY PENZA

Tokar M.D.

Tokar Mikhail Dmitrievich - Graduate student, INSTITUTE OF MECHANICS AND ENERGY, FEDERAL STATE BUDGET EDUCATIONAL EDUCATIONAL INSTITUTION OF HIGHER EDUCATION «NATIONAL RESEARCH MORDOVIAN STATE UNIVERSITY N.P. OGAREV», SARANSK

Abstract: the article I have submitted contains the results of my critical review of modern research and the most sought-after ways to improve the reliability of heat supply systems that have a very significant impact on energy development, reliability, have prospects for implementation in the foreseeable future, and significantly improve the technical and economic performance of power

i Надоели баннеры? Вы всегда можете отключить рекламу.