Научная статья на тему 'ЧТЕНИЕ ПО ГУБАМ В ЖЕСТОВОЙ РЕЧИ: СИНТЕЗ И АНАЛИЗ'

ЧТЕНИЕ ПО ГУБАМ В ЖЕСТОВОЙ РЕЧИ: СИНТЕЗ И АНАЛИЗ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
27
11
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МИМИКА / АРТИКУЛЯЦИЯ / ЖЕСТОВАЯ РЕЧЬ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Крак Юрий Васильевич, Тернов Антон Сергеевич

В статье рассматривается технология анализа визуальной составляющей речевого процесса в видеопотоке. Данная технология позволяет получать информацию о наличии в кадре визем из заданного базового набора и проводить обучение правильной артикуляции для конкретного человека. Проведенные экспериментальные исследования показали возможность использования предложенной модели артикуляции для идентификации базовых состояний губ на тестовой выборке видео фрагментов 55 слов украинской речи.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

READING THROUGH THE LIPS IN GESTURE SPEECH: SYNTHESIS AND ANALYSES

An technology to the analysis of visemes of visual component of speech process in the video stream is proposed in this paper. The approach allows to compute information about presence of a viseme on an animation frame, choosing from a given base set to conduct tuition of correct articulation for a particular person. Experimental studies have shown the efficiency of using the mathematical model of lips presented in technology to identify the basic condition of lip articulation on test video samples with 55 words of the Ukrainian language.

Текст научной работы на тему «ЧТЕНИЕ ПО ГУБАМ В ЖЕСТОВОЙ РЕЧИ: СИНТЕЗ И АНАЛИЗ»

Чтение по губам в тестовой речи:синтез и анализ

Крак Ю.В., доктор физико-математических наук, профессор

Тернов А.С., кандидат технических наук

В статье рассматривается технология анализа визуальной составляющей речевого процесса в видеопотоке. Данная технология позволяет получать информацию о наличии в кадре визем из заданного базового набора и проводить обучение правильной артикуляции для конкретного человека. Проведенные экспериментальные исследования показали возможность использования предложенной модели артикуляции для идентификации базовых состояний губ на тестовой выборке видео фрагментов 55 слов украинской речи.

• мимика • визема • артикуляция • чтение по губам • жестовая речь

An technology to the analysis of visemes of visual component of speech process in the video stream is proposed in this paper. The approach allows to compute information about presence of a viseme on an animation frame, choosing from a given base set to conduct tuition of correct articulation for a particular person. Experimental studies have shown the efficiency of using the mathematical model of lips presented in technology to identify the basic condition of lip articulation on test video samples with 55 words of the Ukrainian language.

• mimics • visemes • articulation • lipsreading • sign language

Хотя визуальный алфавит и является неполным, на практике он широко используется сурдопереводчиками жестового языка, дополняя жестикуляцию в тех случаях, когда необходимо дословно передать смысл предложения, информационного сообщения, сохранив грамматическую структуру предложения разговорной речи. Одним из перспективных направлений разработки систем обучения жестовому языке является создание системы обучения правильной артикуляции, основной задачей которой была бы возможность моделировать и контролировать правильность артикуляции губ при произношении слов некоторого языка, сравнивая ее с эталонной. В качестве языка в настоящем исследовании будет использоваться украинский язык.

ВИЗУАЛЬНЫЙ АЛФАВИТ

В процессе речеобразования при моделирования звуков соответствующих фонем на лице человека вследствие движения мышц, отвечающих за артикуляцию, возникают различные мимические состояния. Фонемы, которые выглядят подобными друг к другу при их артикуляции, можно отнести к одной группе, которая называется виземой [4]. Визема - характерное выражение лица, которое является визуальным портретом фонемы или иной базовой звуковой единицы в разговорной речи. Виземы являются теми элементами, которые анализируются и распознаются в системах чтения по губам.

37

38

Крак Ю.В., Тернов А.С. Чтение по губам в тестовой речи: синтез и анализ

Визуальный алфавит может состоять из различного количества элементов для одного и того же языка в зависимости от уровня реалистичности восприятия артикуляции губ. В нем нет однозначного соответствия между произнесенной фонемой и ее визуальным отображением, что снижает возможности зрительного восприятия речи. То есть довольно сложно по визуальному портрету фонемы восстановить ее звуковой образ. Следует заметить, что фонетическая структура украинского языка, сама фонетика и артикуляция являются уникальными [5]. В украинском языке всего 38 фонем, из них 6 гласных и 32 согласных. Подробный анализ описания способа образования гласных и согласных [5, 6] позволило выделить для каждой фонемы те внешние артикуляторы, формирующие соответствующую ей визему.

Все гласные звуки отражаются на лице различными положениями губ, языка, выражения лица, поэтому каждой фонеме соответствует собственная визе-ма. Поскольку выражения лица и положение губ при произношении звуков «ы» и «и» очень похожи, то для упрощения их часто рассматривают как одну визему. Таким образом, в украинском языке следует выделять 5 ви-

Таблица 1

Виземы украинского языка

«е»

«у»

«шжчДж»

«кгхг»

фонемы

10

11

12

«пбм»

«вф»

«тднл»

«сзцДз»

«р»

«л'р'»

ш, ж, ч, дж

к, г, х, г

15

«т'д'н'»

«спокои■ ствие»

фонемы

в, ф

т, д, н, л

с, з, ц, дз

л', р'

т, д, н

н/а

n

визема

n

визема

9

а

м

2

е

3

«о»

о

4

у

5

и, ы

р

6

7

8

0

зем, соответствующие гласным фонемам («а», «о», «у», «е», «ыи»). Сложность определения характерных визуальных проявлений при артикуляции согласных языка объясняется активной ролью прежде всего языка или глотки в образовании щелей внутри речевого аппарата для формирования соответствующих звуков. Исключением являются губные согласные: фонемы «б», «м», «п», «ф» и «в» достаточно четко визуально различаются.

В результате классификации фонем украинской речи получаем набор из 13 (15) визем плюс состояние спокойствия (табл.1.). Отметим, что детализация ви-зем для мягких фонем - л', р', т', д', н' - имеет большое значение при синтезе визуальной составляющей артикуляции.

Таким образом, специфика артикуляции украинского языка требует адаптации существующих и разработки новых методов анализа визуальной состов-ляющей артикуляционного процесса [7]. При этом можно выделить следующие задачи, которые необходимо решить: 1) предварительная обработка в качестве этапа подготовки к выделению признаков состояния губ на изображении; 2) определение множества характеристических признаков; 3) выбор и применение методов класификации и кластеризации для определения к какому классу следует отнести входную информацию о состоянии губ. Выбор математической модели губ будет определять способ получения численных характеристик процесса артикуляции и возможность его дальнейшего анализа.

Поэтому для синтеза математической модели предлагается перейти от набора фотографических изображений лица человека с процессом артикуляции к множеству векторов характеристических признаков, полученных из этих изображений. Процедуру такого перехода осуществим в несколько этапов: 1) на фото выделяются внутренние контуры губ; 2) полученные пиксельные значения внутренних контуров губ аппроксимируются с помощью неравномерных базисных сплайнов (NURBS); 3) на основании результатов NURBS-апроксимации формируется вектор характеристических признаков.

ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА И МОДЕЛЬ ДАННЫХ

Отметим, что визуальная речевая информация может быть искажена шумом и содержать большое количество несущественных деталей. В этом случае следует использовать методы и подходы для выделения полезной информации на изображениях, в частности, необходимо осуществить сегментацию изображений путем определения кромок и границ или локализацией объектов. Ниже приведен алгоритм выделения области губ на изображении.

Шаг 1. Выделение на изображении внутреннего контура губ:

Im L ^ D, (1)

где Im L = {Ik: Ik е FSV} - упорядоченное множество ключевых кадров видеопотока FSV (Face Speech Video), сформированного при съемке мимических проявлений на лице человека, а именно положений губ, при проговарива-нии слов украинского языка (индекс k = 1, N отвечает за порядковый номер кадра у выбранной последовательности, где N количество ключевых кадров); Ik = {cot}jj, i = 1, ..., m; j = 1, ..., n - изображение размера m x n лица с мимическим положением губ, m и n - соответственно длина и ширина изображения Ik; colj = I(i, j); - цвет пикселя в системе RGB с координатами (i, j) на изображении Ik; D = {Dk: Dk = {(dkg, dkbg)} } - множество

контуров губ, где Вк - пара точечных кривых - контуров губ (верхний ^ та

нижний

) для кадра с номером k.

39

40

Шаг 2. Аппроксимация полученного внутреннего контура губ с помощью ШИВв-кривых с целью получения вектора характеристических признаков:

Р, (2)

где Р = : у'к е Н, г = 1, М}- множество характеристических признаков; Н -характеристические признаки объекта исследования; Ук - характеристический вектор, у'к - его координаты; М - размерность множества Р.

Для выделения контуров губ разработан алгоритм с использованием адаптированного подхода выделения области губ на фотографическом изображении лица человека в процессе артикуляции слов на украинском языке. Таким образом, уменьшается размерность входной информации для дальнейшей обработки изображения, отделяется область с губами от фона и других частей лица, что в дальнейшем облегчает поиск контура губ.

Вход

Фотографические изображения

Блок предварительной обработки

Переход к изображению в серых тонах

Сглаживание и выделение границ

Бинаризация

Мозаичное

Блок комплексного

поиска характерных областей лица

1 г

Области: лицо, глаза, рот (губы)

Выход

Рис.1. Общая схема алгоритма комплексного поиска областей лица человека на фотографическом изображении

Общая схема алгоритма показана на рис. 1, где следует выделить два логических блока: «Блок предварительной обработки», который отвечает за преобразование входного изображения в специальное мозаичное представление и «Блок комплексного поиска особых областей лица», результатом работы которого являются координаты и размеры зон лица связанных с глазами и губами. В блоке предварительной обработки для исключения влияния освещенности был осуществлен переход к бинарному изображению, т.е. переход изображения I к изображению в серых тонах, линейное и нелинейное выравнивания освещенности, сглаживание, выделение кромок. Для предварительной обработки визуальной видеоинформации использовалась упаковка БтдиОУ [8] библиотеки алгоритмов компьютерного зрения, обработки изображений и численных алгоритмов общего назначения с открытым кодом библиотеки ОрепОУ, которая имеет достаточно широкую функциональность для быстрой цифровой обработки видеоизображений.

Для нахождения областей использовался метод поиска по шаблону [9]. Используя базу с 28 фотографий лиц людей, на основе их бинарного представления, экспериментально были получены шаблоны лица, рта и глаз. Для

определения лучшего взаимного положения анализировался дискретный функционал качества F ,.

1 J optimal

F""ijl'Л = a ■ D'-(IJ) + " - D-jeyeSV" ^ + ' ■ Dm~'(mMtm m0"th %

где (i, j) - координаты пикселя матрицы изображения; eyes(i), eyes(j) -предполагаемые координаты положення области глаз, при условии, что левый верхний угол области лица соответствует координатам (i, j); Da , D ' D „ - отличие масок эталонов лица, глаз, рта от изображения; а,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

eyes' mouth 1 1 '

ß, у - весовые коэффициенты.

Экспериментально были установлены величины параметров а = 0,3, ß = 0,6, у = 0,1, из расчета что наиболее информативной считается область глаз.

При этом D = (£(Î(l, j) - E (i, j)2)У, где Î- определенным образом об-

ij

работанное изображение I, Eface - шаблон лица. Положение областей определялось по формуле: (i*, j*) = arg^ max Foptimal(i, j), где (i*, j*) - координаты левого верхнего угла области лица, а (eyes(i*), eyes(j*)) и (mouth(i*), mouth(j*)) - глаз и рта соответственно.

Эффективными средствами для решения задач выделения контуров, сегментации, определения границ объекта есть модели, которые деформируются [10], частным случаем которых могут быть NURBS-кривые [11]. Преимущества моделирования контуров лица или губ с помощью NURBS-кривых заключаются в следущем: 1) размерность уменьшается на порядки; 2) деформации кривых более плавные - подобные к реальным мимическим проявлениям на лице человека.

В результате математической моделью мимических проявлений губ для речевых сигналов будет векторное пространство контрольных точек NURBS-кривых (рис. 2):

P = (v : V = xPtoP, xPtoP ,, x?b°\ xPbot ,, уУ, yPtoP ,, ynPbot, yPbot ,)}

I 0 ' ' ntop-1 0 ' ' nbot-1 J 0 ' ' S ntop-1^0 ' ' ^ nbotrl''

pp[t0pban = (^WM, yPWM),j = 0, ntpbo-l, (4)

где v e P - вектор координат контрольных точек pjpbot та pptop апроксимирую-щих NURBS-кривых, poop(u), а пш и n0op - количество контрольных точек для NURBS-кривыхpbot(u),poop(u) соответственно. Размерность P определяется какM = 2 (п + п. ).

top bot

Рис.2. Опорные точки NURBS-кривых для моделирования контуров губ

В данном исследовании для построения базовых характеристических векторов рассматривается представление виземы одним кадром (изображением). Таким образом, для каждого класса фонем (см. табл. 1) получается его ви-зема в виде кадра изображения, на основе которой строится вектор характеристических признаков (4).

41

IliPrF^ (

Крак Ю.В., Тернов А.С. Чтение по губам в тестовой речи: синтез и анализ

ТЕХНОЛОГИЯ ЧТЕНИЯ ПО ГУБАМ

Схема технологии чтения по губам (распознавания мимики) при произнесении слов на украинском языке показана на рис. 3.

Блок 1 отвечает за предварительную обработку входящей визуальной информации и преобразования ее в множество характеристических признаков (4).

Результат

Распознанная визема

Блок 2

построение базовой матрицы пространства характеристических признаков мимических состояний губ при артикуляции

Базис человека

Блок 3

разложение вектора характеристических признаков по построенному набору базовых векторов

Векторы для базовых визем

Вектор текущего состояния

Входные данные

Набор фотографических изображений лиц одного человека с правильной мимикой губ для базовых визем

Блок 1

Перевод фотографического изображения мимических проявлений на лице

в пространство характеристических признаков

Входные данные

Фотографическое изображение лица с при артикуляции

Выделение области губ

Выравнивание

Нормирование

И

Входные данные

|Изображенние лица

Результат

О

Выделение внутренних контуров губ

Апроксимация NURBS-кривыми

Вектор характеристических

признаков (набор контрольных точек)

42

Рис. 3. Схема чтения по губам слов на украинском языке

Блок 2 включает в себя алгоритмы построения «базиса»(базовой матрицы) множества характеристических признаков и оценки его качества. На выходе строится базовая матрица А - матрица базовых состояний размера М * Ь характеристических признаков Р. Она состоит из отнормированных и отцентрированных векторов соответствующих базовым виземам: А = (а.) , где а.. = V. а*е' е Р, Ь - количество базовых векторов, М- их размерность. Мимик или базовых визем, учитывая состояние покоя, для украинского языка удалось выделить шестнадцать.

В третьем блоке реализовано распознавание входных визем путем проектирования вектора характеристических признаков Ь, построенного для входного изображения, на полученный базовый набор. В этом случае задача сводится к нахождению всех векторов, для которых выполняется:

Ах = Ь. (5)

В случае, когда det(AT А) > е > 0, где Т- знак транспонированния, решение задачи получается методом наименьших квадратов в виде выпуклой комбинации: х = (АТ Ау1АТЬ. В противном случае наиболее надежным методом для решения подобных задач является метод сингулярного разложения SVD [12].

Результатом работы технологии является вектор, на основе значений его компонент принимается решение о соответствии входного вектора конкретным базовым состояниям (мимикам) при артикуляции слов на украинском языке.

ОБУЧЕНИЕ ПРАВИЛЬНОЙ АРТИКУЛЯЦИИ

Логика работы технологии для решению проблемы обучения конкретного человека правильной артикуляции состоит в возможности получения базовых мимик. Алгоримически процесс обучения будет заключаться в следующем:

1. С помощью специалиста по дефектологии или профессионального сурдопере-

водчика (экспертов по разборчивости артикуляции губ) для данного человека устанавливается экспериментальным образом набор образцов визем языка (табл. 1), которые, по мнению экспертов, являются удовлетворительными (корректными) с точки зрения понятности (разборчивости) элементов артикуляционного процесса. Назовем это множество образцов «корректными образцами базовых визем», а ее элементы - «корректным образцом».

Следует отметить, что требование корректности для артикуляции слова человеком не может быть жестко формализовано, учитывая существование присущих каждому человеку особенностей внешней артикуляции вследствие различных физиологических возможностей открытия и закрытия рта, формы губ и др. Корректность может быть представлена набором рекомендаций и правил артикуляции звуков, установленных для классического произношения (например, по трудам [5, 6]) и детальных описаний самих визем (пример для гласных фонем, табл. 2).

2. Для получения «корректных» базовых визем языка производится запись на ви-

део процесса артикуляции человеком набора слов из обучающей выборки, покрывающей все возможные комбинации фонем. Каждое слово анализируется экспертом на предмет правильности (разборчивости) артикуляции.

3. В случае, когда находятся ошибки (т.е. погрешность артикулирования слова

является критической для того, чтобы различать его образ), даются соответствующие рекомендации по коррекции артикуляции данного слова и проводится перезапись слова до тех пор, пока не достигается приемлемого для эксперта результата.

Таким образом, получение выборки базовых визем не является неестественным и неудобным для человека. Уникальность артикуляции каждого человека, учитывая присущие только ей особенности движения внешних артикулято-ров, не является проблемным моментом вследствие того, что при формировании базового множества визем был достигнут необходимый уровень разборчивости.

4. По выборке базовых визем для человека строится базовая матрица, которая в

дальнейшем используется для технологии чтения по губам.

ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ

Для проверки эффективности предложенной технологии было реализовано соответствующее программное приложение (см. рис. 4) со следующей функциональностью:

43

44

Таблица 2

Детальные описания гласных фонем украинского языка

Визема

Детальное описание

Губы в создании активного участия не принимают; образуют большое отверстие и прижаты к зубам: не выпячиваются и не растянуты в стороны; тело языка при этом заметно оттянуто назад - к стенке глотки.

Ротовая полость открыта больше, чем при создании «и» и «ы», приближаясь в какой-то мере к громкому «а»; уголки губ при произношении «е» немного растянуты в стороны и прижаты к зубам, положение языка при произношении «е» в целом среднее и при этом значительно ниже, чем при произношении гласных «ы» и «и».

Ротовая полость более закрыта, чем при произношении «е»; уголки губ растянуты в стороны чуть больше, чем при произношении «е», и прижаты к зубам; передняя часть спинки языка выпуклая, основной своей массе продвинутая вперед; положение языка выше, чем при произношении «е», но ниже, чем при произношении «и».

Ротовая полость раскрыта меньше; язык собран спереди, имеет отчетливо выпуклую форму, степень поднятия спинки языка к твердому небу при создании «и» наивысшая среди других гласных переднего ряда; губы образуя узкую щель, растянуты в стороны чуть больше, чем при артикуляции «ы» и «е».

«у»

Ротовая полость открыта меньше, чем при артикуляции «а» и более чем при «у»; губы при произношении «о» вытянуты вперед, между ними образуется округлое отверстие; задняя часть спинки языка отодвинута назад.

Ротовая полость открыта меньше, чем при произношении «о» и «а», губы при артикуляции «у» отходят от передних зубов и очень вытягиваются вперед, образуя между губами и зубами небольшую полость; язык направлен вверх к мягкому или даже к средней части твердого неба.

1) выделение области лица из кадра изображения;

2) выделение контура губ и локализация характеристических точек;

3) определение вектора характеристических параметров;

4) распознавание конкретного статического состояния губ в кадре видеоизобра-

жения по построенной базовой матрицей.

Для корректной работы программы на изображение или кадр видео накладываются следующие ограничения:

• лица человека на изображении должно занимать не менее 30% площади фотографии или кадра;

• лицо человека наклонено не более, чем под углом 15°, чтобы уголки губ были по вертикальной оси ниже, чем точки дуги Купидона.;

• лицо человека должно быть освещено достаточно равномерно, и цвет губ должен существенно отличаться от цвета кожи;

• первый кадр видео соответствует состоянию покоя губ.

«о»

Рис. 4. Окна программного комплекса анализа артикуляционного процесса

Результаты правильного распознавания визем составляют около 92% на тестовой выборке с 20 кадров-визем одного человека, полученных при записи 55 слов украинской речи. В эти слова в фонетическом представлении входили звуки, которые соответствуют базовым виземам.

ВЫВОДЫ

Разработана технология для чтения по губам на основе гибких шаблонов, представленных с помощью неоднородных рациональных B-сплайнов с применением для решения задачи обучения правильной артикуляции.

В качестве характеристических признаков предлагается использовать параметры математической модели состояний губ при артикуляции. Для синтеза математической модели и поиска ее параметров делается переход от фотографических изображений лица человека с процессом произнесения к множеству векторов характеристических признаков.

Дальнейшие исследования направлены на усовершенствования технологии за счет учета динамики изменения состояния губ, используя информацию из предыдущих кадров.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ЛИТЕРАТУРА

1. Ouni S., Cohen M., Ishak H., Massaro D. Visual contribution to speech percep-

tion: measuring the intelligibility of animated talking heads // Journal on Audio, Speech and Music Processing. - 2007. Issue 1. - P. 1-12.

2. Воскресенский А.Л., Хахалин Г.К. От звучащей речи - к жестовой // Речевые

технологии. - 2009. - №1. - С. 99-106.

3. McGurk H., MacDonald J. Hearing lips and seeing voices // Nature. 264. - P.746 -768.

1976. - Vol.

4. Fisher C.G. Confusion among visually perceived consonants // Journal of Speech

and Hearing Research. - 1968. Vol. 11. - P.796 - 804.

5. Билодид И.К. Современный украинский литературный язык. - К.: Наук. думка,

1969. - 435 с..(на украинском языке).

6. Крак Ю.В., Бармак О.В., Тернов А.С. Информационная технология для авто-

матического чтения по губам украинской речи // Комп'ютерна математика. - 2009. - № 1. - C. 86-95.

45

Крак Ю.В., Тернов А.С. Чтение по губам в тестовой речи: синтез и анализ

7. Кривонос Ю.Г., Крак Ю.В., Тернов А.С. Локализация и учет особенностей лица человека для задач распознавания по портретной фотографии // Искусственный интеллект. - 2007. - № 3. - C. 229 - 236.(на украинском языке).

8 Электронный ресурс EmguCV, Режим доступа: http://www.emgu.com /wiki/index. php/Main_Page.

9. Stan Z. Li, Jain Anil K. Handbook of face recognition. Springer-Verlag London

Limited. - 2005. - 395 c.

10. Крак Ю.В. Бармак А.В., Ефимов Г.Н. Использование контурных моделей для

построения базиса пространства мимических выражений эмоций // Искусственный интеллект - 2007. -№ 4. - C. 288 - 296. (на украинском языке).

11. Форсайт Дж. Машинные методы математических вычислений. Пер. с анг.

Икрамова Х.Д. - М.: Мир, 1980. - 277 с.

12. Крак Ю.В. Тернов А.С, Лисняк М.П. Структурно-виземный анализ артикуля-

ции украинской речи // Искусственный интеллект - 2011. - № 3. - С.156-166. (на украинском языке).

Сведения об авторах:

Юрий Васильевич Крак,

доктор физико-математических наук, профессор Киевского национального университета имени Тараса Шевченко, старший научный сотрудник института кибернетики им. В.М. Глушкова НАН Украины. Специалист в области искусственного интеллекта, анализа и синтеза голосовой и жестовой коммуникационной информации.

Антон Сергеевич Тернов,

кандидат технических наук, научный сотрудник Института кибернетики им. В.М. Глушкова НАН Украины. Специалист в области искусственного интеллекта. Круг научных интересов: распознавание образов, обработка и анализ изображений, виртуальная реальность, моделирование и распознавание жестовой речи.

46

i Надоели баннеры? Вы всегда можете отключить рекламу.