Научная статья на тему 'Система обработки движения губ человека для речевого ввода информации'

Система обработки движения губ человека для речевого ввода информации Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1531
152
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЧЕЛОВЕКО-КОМПЬЮТЕРНЫЙ ИНТЕРФЕЙС / ОБРАБОТКА ИЗОБРАЖЕНИЙ / ЧТЕНИЕ ПО ГУБАМ / ВИЗЕМА / ИДЕНТИФИКАЦИЯ ЛИЦА ЧЕЛОВЕКА / РАСПОЗНАВАНИЕ КОНТУРОВ ГУБ / ФОРМИРОВАНИЕ ТЕКСТОВЫХ СООБЩЕНИЙ / HUMAN-COMPUTER INTERACTION / IMAGE PROCESSING / LIP READING / VISEMES / IDENTIFICATION OF THE HUMAN FACE / RECOGNITION OF THE LIP CONTOUR / FORMATION OF TEXT-MESSAGES

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ковшов Е. Е., Завистовская Т. А.

В статье рассматривается способ формирования текстовых сообщений на основе детектирования движения губ, соответствующих определенной фонеме. Построена геометрическая модель лица человека на основе метода активного контура и реализован макет программного обеспечения, автоматически определяющий дескрипторы рта.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ковшов Е. Е., Завистовская Т. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Development of Software for Testing Algorithms Design Information Structures

This article considers the way of analytical processing of the dynamic image of a human face while creating text sequences. The geometric model of the human face is built on the basis of the active shape model and the software is implemented, which automatically determines the descriptors of the mouth.

Текст научной работы на тему «Система обработки движения губ человека для речевого ввода информации»

Электронный журнал Cloud of Science. 2014. T. 1. № 2

http://cloudofscience.ru

УДК 004.934

Система обработки движения губ человека для речевого ввода информации

Е. Е. Ковшов, Т. А. Завистовская

Московский государственный технологический университет «Станкин»

127055, Москва, Вадковский пер., 3А, e-mail: e.kovshov@stankin.ru

Аннотация. В статье рассматривается способ формирования текстовых сообщений на основе детектирования движения губ, соответствующих определенной фонеме. Построена геометрическая модель лица человека на основе метода активного контура и реализован макет программного обеспечения, автоматически определяющий дескрипторы рта.

Ключевые слова: человеко-компьютерный интерфейс, обработка изображений, чтение по губам, визема, идентификация лица человека, распознавание контуров губ, формирование текстовых сообщений.

1. Введение

Одним из приоритетных направления развития информатизации является человеко-машинных интерфейсы [6], разработка которых охватывает множество областей науки и прикладных научных дисциплин.

Основным способом общения и передачи информации для человека была и остается речь, поэтому надежный ввод речевой информации является актуальным направлением совершенствования человеко-компьютерных интерфейсов. На пути практического применения систем речевого ввода информации имеются существенные технические трудности, связанные со сложностями реализации автоматических распознавателей речи, основанных на обработке устной речи человека. Даже у самых надежных систем точность работы резко ухудшается при искажении звуковой информации шумами и помехами различной природы. К ним можно отнести шумы в помещении, разговоры других пользователей, посторонние акустические сигналы и т. п. Очевидно, больше всего на развитие речевого управления оказывают влияние проблемы, связанные с распознаванием индивидуальных особенностей человеческой речи.

При распознавании речи целесообразно также использовать и другой коммутационный канал, а именно — зрение. В речевом восприятии отслеживается связь между слуховой и зрительной информациями, в процессе передачи информации в устной форме она воспринимается не только с помощью сенсорной модальности — звука, но и благодаря зрению. Визуальная информация представляет собой «зри-

тельное» восприятие человеческой речи системой компьютерного зрения, визуальная система ввода информации позволит упростить и автоматизировать речевой ввод. Основным способом извлечения данных о речи из видеоинформации является формализованная процедура чтения по губам с помощью анализа изменения носогубных мышц лица. Главным источником получения входных данных для анализа изменения мышц лица при разговоре является поиск характерных точек или областей, в частности распознавание контуров губ.

Таким образом, актуальной является задача разработки кроссплатформенной информационной системы, способной детектировать движения губ, изменяющихся соответственно фонеме, и записывать визему в виде текстовой информации для дальнейшей обработки в модуле экспертной системы.

2. Алгоритмы и методы распознавания контуров губ на изображении

В большей части исследований, посвященных задаче распознавания речи, поиск контуров губ осуществляется с помощью активных контурных моделей. Существует и другой возможный способ получения информации о губах, заключающийся в выделении особенностей области рта без поиска характерных точек. В нашей стране вопросом распознавания контуров дольше всего и с наиболее содержательными научно-практическими результатами занимается группа исследователей факультета вычислительной математики и кибернетики МГУ. В работе [10] предметом анализа в задаче распознавания контуров губ в видеопотоке являются цветные изображения при условии фронтального расположения лица. Для улучшения качества распознавания выделяются два цветовых класса — кожа и губы. В используемом двухмерном цветовом пространстве на основе выделенных на изображениях областей находятся двухмерные гистограммы. Предполагая приблизительный размер области губ, на изображении осуществляется поиск области, соответствующей площади цветового пространства, выделенного на предыдущем этапе. На данном этапе вычисляются приблизительные координаты центра области губ, которая затем ограничивается эллипсом с помощью статистических методов. На следующем этапе определяются характеристики формы губ, нужных для последующего распознавания. Контур уточняется с помощью алгоритма радиального расширения. В качестве начального приближения для контура используются точки на эллипсе, полученном на предыдущем этапе.

Применение подобного метода является иррациональным, поскольку алгоритм хоть и дает приемлемые результаты при меньшем числе итераций, его работа требует больших вычислительных затрат и аппаратных ресурсов. В свою очередь, модель активного контура позволяет обнаружить и определить элементы лица (брови, нос, овал лица) без предварительной обработки изображения на предмет поиска области рта на основе цветового пространства. Данное обстоятельство является безусловным преимуществом по сравнению с описанным ранее подходом, т. к. алгоритм деформируемого эталона работает с лицами людей различных рас и цвета

кожи благодаря тому, что в основу метода активного контура заложены форма лица и анатомические особенности расположения его элементов.

Идентификация лиц и его элементов на основе цветовой информации и последующем поиске области рта и уточнения его формы не требует специальных априорных знаний о структуре (форме) элементов лица, в то время, как методика, основанная на их характеристиках, дает значительную скорость распознавания, не требуя при этом специализированного программно-аппаратного обеспечения и больших объемов памяти.

Метод активного контура (МАК) позволяет идентифицировать лицо человека на изображении и выделить совокупность точек, характеризующих черты лица. Именно априорное знание координат характерных точек позволит следить за их изменением в видеопотоке для дальнейшей обработки их значений в модуле экспертной системы.

МАК требует наличия первоначального контура, который последовательно уточняется. Поиск контура выполняется путем решения задачи минимизации функции энергии, рассчитываемой для каждой точки контура v, и точек из ее локальной окрестности. Эта энергия состоит из внешней энергии (External Energy) Eext(v,), зависящей от свойств изображения (градиента, яркости), и внутренней энергии (Internal Energy) Ein (v,), зависящей от формы контура. Деформация контура осуществляется путем перемещения точки v, в точку окрестности с минимальной энергией. Функция внутренней энергии определена следующим образом:

E,n (vi ) = cEcon (vi )+ bEba, (vi ) , (1)

где Econ (v,)— энергия непрерывности (Continuity Energy), которая описывает форму контура; Ebal (v,)— энергия надувания (Balloon Energy), которая заставляет контур растягиваться или сжиматься; c, b — весовые коэффициенты влияния энергий.

В отсутствии других влияний, энергия непрерывности Econ (vi) деформирует контур, он может быть как открытым, так и закрытым. Энергия надувания Ebal (vi) заставляет контур расширяться (или сжиматься) в отсутствии других воздействий. Энергия надувания является наименьшей в точках, наиболее удаленных от v, в направлении вектора нормали.

Функция внешней энергии притягивает контур к перепадам или экстремумам:

Eext (vi ) = mEmag (vi ) + gEgrad (v i X (2)

где Emag (v,)— энергия интенсивности изображения (Image Intensity Energy), притягивающая контур к областям с высокой или низкой интенсивностью; Egrad (v,) —

энергия градиента изображения (Image Gradient Energy), которая перемещает контур к перепадам интенсивности; m, g — весовые коэффициенты.

МАК, который еще называют моделью «змеи», определяется как энергетически минимальный сплайн, обучаемый введением внешних притягивающих вынужденных потенциалов и влиянием интенсивности и градиента самого изображения. Эти потенциалы натягивают полученный сплайн на элементы лица, основываясь на характеристиках линий и краев. «Змеи» фиксируются на ближайших краях и более аккуратно и точно локализуются в последующем.

Применение этого метода к лицу человека реализуется при помощи библиотеки STASM 3.0, функционал которой позволяет выделить совокупность 76 точек, определяющих черты лица (рис. 1).

Используя работы известного психолога и профессора Калифорнийского университета Пола Экмана, было выявлено, что выражение лица, определяемое «как усталое или сонное», проявляется в опущенных веках, в данном состоянии «появляется зевота»; чувство раздражения характеризуют «сжатые и суженные губы», тогда как при сдерживаемом гневе «брови опускаются и сводятся вместе» [3, 4].

«Вообще, поднятие или опускание бровей является наиболее частым мимическим выражением... Дарвин назвал мышцу, сводящую брови вместе и опускающую их вниз, мышцей затруднения. Он был прав, полагая, что ее движение сопровождает всевозможные затруднения, начиная от поднятия тяжестей и заканчивая выполнением сложных арифметических действий. Кроме того, это характерно еще для сосредоточения и замешательства». Верными признаками эмоций также являются и мышцы рта. «Сжатие губ является убедительным признаком гнева...». Такое движение большинство людей могут воспроизвести с трудом, и обычно оно бывает только у «начинающих сердиться, порой даже еще до того, как они сами отдадут себе отчет в этом».

Помимо отрицательных эмоций существуют «эмоции удовольствия, каждая из которых универсальна» и каждая из которых отличается от остальных. Так, удовольствие характеризуется «более широкой улыбкой», но в отличие от прочих улыбок, она «поднимает щеки кверху, собирает в складки кожу под глазами, уменьшает степень открытия глаз и даже вызывает появление морщинок под названием «куриные лапки» [2].

Основываясь на полученной информации, из всей совокупности точек активного контура были выделены 15 базовых точек для построения геометрической модели, которая представлена на рис. 2.

Из данной модели можно выделить параметры, характеризующие психологическое состояние человека, — дескрипторы. Дескрипторами в данном случае являются углы, образованные отрезками, проведенными между выделенными ранее базовыми точками. Изменение углов А,, А1 и А2 характеризует состояние напряженности, «затруднения». Изменения же углов А5, А6, А7 и А8, а также отрезка 10, длина которого в данном случае также является дескриптором, показывают степень сжатия губ или возможное присутствие «зевоты». Углы А3 и А4 определяют, насколько открыты глаза. На рис. 3 приведены примеры характерных изменений дескрипторов при различных эмоциональных состояниях человека.

Рисунок 1. Применение активного контура Рисунок 2. Геометрическая модель лица к лицу человека

Данные углы были вычислены с помощью формулы (3):

2 2 2

a + a7 — a% /оч

cos ф = 12---------, (3)

2a1a2

где a1 , a2 — расстояние от крайних точек до точки пересечения прямых соответственно. Например, в случае угла A1 между прямыми, образованными точками 2, 3 и 15, это будут расстояния от 2 до 3 и от 3 до 15 соответственно; a3 — расстояние между крайними точками. В случае угла A1 это точки 2 и соответственно.

Рисунок 3. Изменение характерных параметров лица при различных эмоциях

Таким образом, геометрическая модель с определенными дескрипторами показана на рис. 4. Для реализации данного приложения была использована кросс-платформенная библиотека классов С++ — Qt 4, а также библиотека компьютерного зрения ОрепСУ 2.2.0.

2S3

Рисунок 4. Геометрическая модель с определенными дескрипторами

В рамках представленной работы построена геометрическая модель человеческого лица, на основе которой были выделены дескрипторы. Анализируя значение дескрипторов на фотографии, а впоследствии, и изменение их значений на видеозаписи, можно определить эмоциональное состояние человека. Для этого могут использоваться различные интеллектуальные методы и средства: аппарат нечеткой логики или нечеткие нейронные сети [6].

В настоящий момент существует несколько программно-аппаратных разработок, использующие информацию движения губ. Исследователи немецкого технологического института (Germany's Karlsruhe Institute of Technology, KIT) создали систему, которая преобразовывает движения рта в синтезируемую речь. В ее основу легла технология электромиографии, т. е. мониторинга сигналов мышечной активности с помощью электродов, вводимых в мышечные волокна. Специальное программное обеспечение (ПО) на портативном мобильном компьютере преобразовывает эти сигналы в текст, который потом и «озвучивается». Недостатком данной разработки является обилие электродов, которые прикрепляются на лицо и другие части тела человека.

В Великобритании представили технологию, которая на основании визуального анализа мимики определяет язык, на котором говорит человек, а затем расшифровывает его речь. Программа может идентифицировать наиболее распространенные языки. Разработка этой технологии осуществлялась британским исследовательским советом инженерных и физических наук. Недостатком данной системы является большая база данных (более 500 вариантов артикуляции для каждой языковой группы).

В США исследователи создали ПО, способное научить говорить и воспринимать речь посредством чтения по губам. Исследователями под руководством Рона Кола (Ron Cole) из Университета Колорадо (University of Colorado, Boulder) создана

компьютерная программа, способная помочь глухим детям научиться говорить и воспринимать речь посредством зрительного восприятия. Обучение проводит синтетический персонаж — анимированный инструктор по прозвищу Baldi. «Недостатками» Baldi являются низкое качество артикуляции и мимики лица, а недостатком самой информационной системы — невозможность смены лица персонажа.

В США ожидается выход игрового контроллера Kinect 2 с приставкой Xbox 720. Kinect 2 будет обладать впечатляющей точностью отслеживания малейших движений пользователя: сможет распознавать эмоции игрока, а также считывать информацию по губам. Одним из факторов, негативно влияющих на точность считывания движений в существующей версии Kinect, является медленное USB соединение. К недостаткам можно также отнести высокую стоимость программного обеспечения.

Исходя из проведенных исследований различных программных библиотек и аппаратных решений, предлагается концепция информационной системы (далее — системы) коммуникации, призванной аккумулировать достоинства существующих разработок программного обеспечения и избежать их недостатков. Система представляет собой программное обеспечение, детектирующее изменение мышц губ, соответствующее определенной фонеме, — визему и записывающее ее в виде текстовой информации. В объектно-реляционной базе данных хранятся видимые образы, соответствующие фонемам, вместе с характерными для них дескрипторами, которыми являются углы, образованные отрезками геометрической модели лица или маски, накладываемой на лицо человека. Приложение, работающее с видеокамерой (веб-камерой), следит за изменением движений губ в видеопотоке, сопоставляя полученную информацию с базой данных. В результате транслирования движения губ на выходе системы будет записано текстовое сообщение — текст речи.

Чтение по губам затруднено тем, что в русском языке значительное число фонем имеет почти одинаковые видимые образы (виземы). Каждому речевому звуку (фонеме) соответствует специфическое выражение лица, положение рта, губ, а некоторые согласные, воспроизводимые во рту или горле, и вовсе не обнаруживаются визуально. Тем самым, предлагается детектировать изменение мышц рта при произношении слов и распознавать среди совокупности визем те, которые соответствуют фонемам гласных букв, так как их виземы, различные и не похожие друг на друга, а также требуют четкой артикуляции.

Для решения задачи распознавания визем, соответствующих фонемам гласных букв, найдет применение аппарат нечеткой логики. Входными параметрами являются значения дескрипторов, а выходным — гласная буква, которая была «проговорена». Для формирования правил экспертной системы введены нечеткие переменные, множество их значений (термов) и соответствующие функции принадлежности. Для каждого дескриптора имеется следующее терм-множество: {«малый», «средний», «большой»}, а для нечеткой переменной «гласная буква» — {«А», «У», «О», «Э», «И»}. Следует обратить внимание, что терм-множество, описывающее возможные значения «гласной буквы», не содержит букв «Е», «Е», «Ю» и «Я», так как их виземы характеризуются фонемами «йО», «йЭ», «йУ» и «йА» соответствен-

но, которые визуально полностью повторяют фонемы букв «О», «Э», «У» и «А». Для термов всех нечетких переменных (дескрипторы, «гласная буква») выбрана функция принадлежности у = /(х), имеющая форму трапеции, изображенной на рис. 5, и следующие индивидуальные параметры:

А — значение левой координаты х терма, в которой у = 0;

В — значение левой координаты х терма, в которой у = 1;

С — значение правой координаты х терма, в которой у = 1;

Б — значение правой координаты х терма, в которой у = 0.

Рисунок 5. Вид функции принадлежности для термов переменных нечеткой логики

Для каждого дескриптора существует свой диапазон значений множества термов {«малый», «средний», «большой»}, где каждый из них представляет собой некоторый интервал значений углов в градусах, значения функции принадлежности которых лежат в диапазоне 0 < Р (I) < 1.

На рис. 6 приведены примеры для термов и функций принадлежности переменной «гласная буква».

Рисунок 6. Множество термов нечеткой переменной «гласная буква»

Функции принадлежности для каждой из термов имеют различный вид. Для их построения проанализирован технический текст статьи на промышленную тему, состоящий из 112 слов, в котором было использовано 843 символа, 371 из которых — гласные буквы. В тексте было подсчитано общее число фонем каждого терма, т. е. счет ввелся с условием произношения слов, это означает, что в случае если гласная безударная, она может произноситься иначе: например, слово «корова», по

правилам орфографии пишется через букву «О», а читается как «кАрова». Полученное число отражает, как часто встречается данная фонема в тексте, т. е. какой процент данная гласная буква занимает среди общего количества гласных в тексте. Например, буква «А», ее фонема встречалась 123 раза, это почти треть всех гласных в тексте (33%). Таким образом, фонема буквы «А» чаще всего встречается в тексте, и ее функция принадлежности самая широкая, что увеличивает вероятность попадания в данную область результата нечеткого вывода (значение переменной «гласной буквы») при распознавании речи по губам.

В базе правил нечетких продукций находятся лингвистические правила, определяющие комбинации углов с харатерной термой для описания виземы гласной буквы. Данные правила имеют вид: «Если условие, то заключение». Нечеткий вывод будет базироваться на подзаключениях, получаемых при выполнении правил согласно начальным подусловиям, например:

Если дескриптор_1 есть малый И дескриптор_2 есть средний, то гласная буква есть «А»;

Если дескриптор_3 есть малый И дескриптор_4 есть большой, то гласная буква есть «А»; и т. д.

Применяя правила нечетких продукций, система нечеткого вывода позволит дать однозначный или «четкий» ответ на вопрос о принадлежности виземы к фонеме гласной буквы, произнесенной пользователем (оператором).

Применение аппарата нечеткой логики или искусственных нейронных сетей для задачи распознавания визем оправданно, поскольку лицо человека индивидуально: артикуляция и мышечная активность каждого человека неповторимы и уникальны, а это означает, что и значения дескрипторов для каждой из визем неодна-значны.

Информационная система после распознавания визем «предугадывает» какое слово было произнесено пользователем. Используя встроенный словарь, система предлагает вставить согласные буквы между гласными до слова, имеющего семантику.

3. Макет программного обеспечения

Как отмечалось ранее, основным способом извлечения данных о речи из видеоинформации является анализ движений губ или чтение по губам. Главным источником получения входных данных для поставленной задачи является поиск характерных точек или областей, в частности распознавание контуров губ. Для поставленной цели был выбран МАК, позволяющий идентифицировать лицо человека на изображении и выделить совокупность точек, характеризующих черты лица [8]. Из всей совокупности выбраны характерные точки и соединены таким образом, чтобы образованные ими углы (дескрипторы) однозначно определяли изменение мышц губ.

Геометрическая модель была построена на основе работы в области распознавания эмоций, созданной известными учеными П. Экманом и У. Фризеном, —

«Эмоциональная система кодирования лицевых движений» (СКЛИД) [9]. На рис. 7 приведена геометрическая модель лица.

На основе геометрической модели лица человека были выделены те дескрипторы, которые однозначно определяют изменение мышц рта при разговоре. Данные дескрипторы приведены на рис. 3а. Углы 1, 2, 3, 6 характеризуют круговую мышцу рта; углы 7, 8 — малую скуловую мышцу; значения углов 10, 9 определяют изменение щечной мышцы; 4, 0 — мышцы, опускающей угол рта; значение дескриптора 5 одновременно характеризует изменения мышцы, опускающей нижнюю губу, и подбородочную мышцу.

В ходе работы с описанным ранее алгоритмом было выявлено, что метод активного контура «чувствителен» к размерам изображения. Поэтому была проведена предобработка изображения для более качественного распознавания контуров губ. Предварительной обработкой является пропорциональное масштабирование с переходом к стандартным ширине или высоте: 336^448 пикселей.

Рисунок 7. Геометрическая модель рта человека и его дескрипторы

На рис. 8 представлена диаграмма работы алгоритма метода активного контура с изображениями, которые прошли предварительную обработку и нет.

Диаграмма слева показывает, сколько процентов изображений из выборки, не прошедших предобработку, было распознано корректно, справа — процент распознанных изображений на той же выборке с учетом предобработки. Как видно из диаграммы, эффективность работы алгоритма увеличилась на 30%.

Применение этого метода к лицу человека реализуется при помощи библиотеки 8ТА8М 3.0, функционал которой позволяет выделить совокупность 76 точек, определяющих черты лица. Для визуализации геометрической модели, обработки изображения и выделения области рта в работе используется ОрепСУ версии У2.2.0 [3]. Функциональные возможности этой библиотеки используются также в 8ТА8М 3.0 [1] для идентификации лица на изображении методом Виолы-Джонса с использованием каскадов Хаара. При реализации прикладного програм-

много обеспечения был использован комплект средств разработки Qt SDK v2010.05 (open source) для Windows XP.

Распознавание ■ до предобработки

Распознавание после предобработки

Рис. 8. Гистограмма эффективности работы алгоритма метода активного контура на выборке изображений

4. Результаты

В ходе выполненных исследований и проделанной работы было выявлено, что используемый метод активного контура зависит от размеров растрового изображения, в связи с чем авторами разработан и реализован алгоритм их предварительной обработки, заключающийся в пропорциональном масштабировании исходных размеров изображения с переходом к стандартной величине по ширине или высоте. В результате проведенного исследования было выявлено, что эффективность работы данного метода активного контура увеличилась в среднем на 30%.

Литература

[1] Active Shape Models with Stasm [Электронный ресурс]. URL: http://www.milbo.users.sonic.net/stasm/ (дата обращения: 04.02.2012).

[2] Ekman P., Friesen W. V., Hager J. C. Facial action coding system. — Salt Lake City : Research Nexus division of Network Information Research Corporation, 2002.

[3] Экман П. Психология лжи. Обмани меня, если сможешь / пер. с англ. — СПб. :

Питер, 2011.

[4] Экман П. Психология эмоций. Я знаю, что ты чувствуешь. 2-е изд. / пер. с

англ. — СПб. : Питер, 2011.

[5] http://opencv.org/

[6] Ковшов Е. Е., Завистовская Т. А. Формирование текстовых сообщений на основе программно-математической обработки изображений лица человека // Системы управления и информационные технологии. 2012. Т. 50. N° 4.1. С. 145150.

[7] Ковшов Е. Е., Мартынов П. Н. Разработка средств автоматизации тестирования интерфейсов пользователя в человеко-машинных системах управления // Информационные технологии. 2012. № 7. С. 42-46.

[8] Ковшов Е. Е., Митропольский Н. Н., Завистовская Т. А., Рогозина М. М. Построение геометрической модели лица для выделения дескрипторов психологического состояния оператора технологического оборудования // Вестник МГТУ «Станкин». 2012. Т. 2. № 1. С. 66-69.

[9] Рогозина М. М. Автоматическое определение дескрипторов эмоционального состояния на основе системы кодирования лицевых движений // Инновационные информационные технологии: Материалы международной научнопрактической конференции. — М. : МИЭМ, 2012. С. 305-307.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

[10] Солдатов С. А. Чтение по губам: распознавание контуров губ // Лаборатория

компьютерной графики [Электронный ресурс] иКЬ:

http://www.ict.edu.ru/ft/002415/ioi2002sss.pdf

Авторы:

Ковшов Евгений Евгеньевич, доктор технических наук, профессор, профессор кафедры «Финансовый менеджмент» Московского государственного технологического университета «СТАНКИН»

Завистовская Татьяна Анатольевна, аспирант кафедры «Финансовый менеджмент» Московского государственного технологического университета «СТАНКИН»

Development of Software for Testing Algorithms Design Information Structures

E. E. Kovshov, T. A. Zavistovskaya Moscow State University of Technology STANKIN 3A, Vadkovsky per., Moscow, 127055, e-mail: e.kovshov@stankin.ru

Abstract. This article considers the way of analytical processing of the dynamic image of a human face while creating text sequences. The geometric model of the human face is built on the basis of the active shape model and the software is implemented, which automatically determines the descriptors of the mouth. Key words: human-computer interaction, image processing, lip reading, visemes, identification of the human face, recognition of the lip contour, formation of text-messages.

Reference

[1] Active Shape Models with Stasm [Электронный ресурс]. URL: http ://www.milbo .users.sonic.net/stasm/

[2] Ekman P., Friesen W. V., Hager J. C. (2002) Facial action coding system. Salt Lake City: Research Nexus division of Network Information Research Corporation.

[3] Ekman P. (2011) Psihologija lzhi. Obmani menja, esli smozhesh. SPb, Piter. (rus)

[4] Ekman P. (2011) Psihologija jemocij. Ja znaju, chto ty chuvstvuesh. SPb, Piter. (rus)

[5] http://opencv.org/

[6] Kovshov E. E., Zavistovskaja T. A. (2012) Formirovanie tekstovyh soobshhenij na osno-ve programmno-matematicheskoj obrabotki izobrazhenij lica cheloveka. Sy-

stemy upravlenija i informacionnye tehnologii, 50(4.1), 145-150. (rus)

[7] Kovshov E. E., Martynov P. N. (2012) Razrabotka sredstv avtomatizacii testirovanija interfejsov pol'zovatelja v cheloveko-mashinnyh sistemah upravlenija. Informacionnye tehnologii, 7, 42-46. (rus)

[8] Kovshov E. E., Mitropolskiy N. N., Zavistovskaja T. A., Rogozina M. M. (2012) Postroenie geometricheskoj modeli lica dlja vydelenija deskriptorov psiholo-gicheskogo sostojanija operatora tehnologicheskogo oborudovanija. Vestnik MGTU «Stankin», 2(1), 66-69. (rus)

[9] Rogozina M. M. (2012) Avtomaticheskoe opredelenie deskriptorov jemocional'nogo sostojanija na osnove sistemy kodirovanija licevyh dvizhenij. Innovacionnye informacionnye tehnologii. Proc. Conf. Moscow, 305-307. (rus)

[10] Soldatov S. A. (2002) Chtenie po gubam: raspoznavanie konturov gub (http://www.ict.edu.ru/ft/002415/ioi2002sss.pdf) (rus)

i Надоели баннеры? Вы всегда можете отключить рекламу.