Научная статья на тему 'РОЗРОБКА АУДіОВіЗУАЛЬНОї СИСТЕМИ РОЗПіЗНАВАННЯ МОВИ'

РОЗРОБКА АУДіОВіЗУАЛЬНОї СИСТЕМИ РОЗПіЗНАВАННЯ МОВИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
153
19
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АУДіОВіЗУАЛЬНА СИСТЕМА / AUDIOVISUAL SYSTEM / ПРИХОВАНі МАРКіВСЬКі МОДЕЛі / ВіЗЕМА / ЗВ'ЯЗАНі ПРИХОВАНі МАРКіВСЬКі МОДЕЛі / HIDDEN MARKOV MODELS / VISEME / COUPLED HIDDEN MARKOV MODELS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Горносталь О.М., Дорогий Я.Ю.

Запропонована модель аудіовізуальної системи на базі прихованих Марківських моделей, яка дозволяє розпізнавати мову в реальному часі. Модель дає інструментарій розпізнавання мови, який можна використати в умовах, де інші засоби можуть бути неможливими, наприклад, в умовах відсутності аудіо складової. Досліджена та перевірена працездатність моделі на прикладі розпізнавання цифр, отримані очікувані результати

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Горносталь О.М., Дорогий Я.Ю.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Development of audio-visual speech recognition system

A model of the audiovisual system based on the hidden Markov models is proposed, which allows recognizing the language in real time. The model provides a language recognition tool that can be used in conditions where other means may not be possible, for example, in the absence of an audio component. The model is researched and tested on the example of digital recognition, expected results are obtained

Текст научной работы на тему «РОЗРОБКА АУДіОВіЗУАЛЬНОї СИСТЕМИ РОЗПіЗНАВАННЯ МОВИ»

13. Пинчук, С. И. Диэлектрическая проницаемость оксидов цинка, синтезированных методом жидкофазного химического осаждения [Текст] / С. И. Пинчук, А. А. Внуков, И. Б. Белов, А. С. Баскевич, А. Ю. Ляшков, А. Р. Омельчук // Метало-знавство та термiчна обробка металiв. - 2013. - № 4. - С. 48-53.

14. Пинчук, С. И. Влияние технологических параметров химического осаждения на свойства нанокристаллического оксида цинка [Текст] / С. И. Пинчук, А. А. Внуков, И. Б. Белов, А. С. Баскевич, А. Ю. Ляшков, А. Р. Омельчук // Металлургическая и горнорудная промышленность. - 2014. - № 1. - С. 63-65.

15. Горелик, С. С. Рентгенографический и электронно-оптический анализ [Текст] / С. С. Горелик, Ю. А. Скаков, Л. Н. Расторгуев. - М.: МИСИС, 1994. - 328 с.

Рекомендовано до публжаци д-р техн. наук, професор Птчук С. Й.

Дата надходження рукопису 30.10.2017

Внуков Александр Александрович, кандидат технических наук, доцент, кафедра покрытий, композиционных материалов и защиты металлов, Национальная металлургическая академия Украины, пр. Гагарина, 4, г. Днепр, Украина, 49600 E-mail: alvnukov74@gmail.com

Головачев Артем Николаевич, кандидат технических наук, доцент, кафедра электрометаллургии, Национальная металлургическая академия Украины, пр. Гагарина, 4, г. Днепр, Украина, 49600 E-mail: golartem@ukr.net

Белая Алена Викторовна, кандидат технических наук, кафедра покрытий, композиционных материалов и защиты металлов, Национальная металлургическая академия Украины, пр. Гагарина, 4, г. Днепр, Украина, 49600

E-mail: alena@ukr.net

УДК 621.391

Б01: 10.15587/2313-8416.2017.118212

РОЗРОБКА АУД1ОВ1ЗУАЛЬНО1 СИСТЕМИ РОЗП1ЗНАВАННЯ МОВИ © О. М. Горносталь, Я. Ю. Дорогий

Запропонована модель аудювьзуальног системи на баз! прихованих Марювських моделей, яка дозволяе розтзнавати мову в реальному часг. Модель дае тструментарш розтзнавання мови, який можна вико-ристати в умовах, де ¡нш1 засоби можуть бути неможливими, наприклад, в умовах в1дсутност1 аудю складово'1. Досл1джена та перевгрена працездаттсть модел1 на прикладI розпгзнавання цифр, отриманг оч1куват результати

Ключовi слова: ауд1ов1зуальна система, приховаш Мартвсьт модел1, вгзема, зв 'язат приховаш Мартвсьт моделI

1. Вступ

1снують рiзнi методи розтзнавання мови, про-те останшм часом основним став метод порiвняння з еталоном. Це пов'язано головним чином з прогресом в области електронних компонента, зокрема зi збшь-шенням обчислювально! потужносп процесорiв i об-сяпв пам'яп. При зютавленш з еталоном звуки пере-творюються в характерш образи, яш порiвнюються з заздалепдь запасеними еталонними образами, i обчи-слюеться стутнь 1хньо! подiбностi. Результатом розтзнавання е найбшьш схожий еталонний образ.

При розшзнаванш мови шляхом зютавлення з еталоном виникае калька проблем, серед яких найбшьш типовими е наступи.

1. ТимчасовI змти характерних образгв мови. Причиною змш е рiзна швидшсть проголошення одних i тих же звушв, тобто непостшшсть тривалосп звушв. Навггь одш й т ж слова, вимовлеш людиною, кожен раз мшяються за тривалютю. Якщо ж одш i тi ж слова вимовляються рiзними людьми, !хня трива-лють може ще бiльше вiдрiзнятися.

2. Вплив розмгргв органу мови на образи. Як вже говорилося вище, розмiри оргашв мови у людей рiзнi. Тому, навпъ якщо слова вимовляються органами однаково! форми, !х резонанснi частоти можуть вiдрiзнятися. На образах це проявляеться як iндивi-дуальна особливiсть людини.

Крiм цього iснуе проблема артикуляцшного сполучення, тобто вiдмiнностi одного i того ж звуку, зумовленi впливом рiзних звуков до i тсля нього, проблема акценту, що виникае за рахунок рiзницi в манерi говорити i в умовах життя й iншi проблеми. Для того щоб виршити проблему артикуляцiйного сполучення, часто застосовують велиш одиницi розтзнавання типу ^в, вимовлених з паузою.

Використання вiзуальних спостережень на додачу до акустичних спостережень в системах автоматичного розпiзнавання мови (ASR) зацiкавили дослщ-ник1в як можливе рiшення швидкого падiння продук-тивносп чисто аудiальних ASR систем в зашумлених середовищах. £дина вимога полягае в тому, що при будь-яких умовах аудiовiзуальна (АУ) система ASR

повинна розтзнавати, по меншiй мiрi, не гiрше тж аудiальна. Щоб задовольнити цю вимогу, необхщно динамiчно адаптувати внесок кожно! модальностi в класифшацшш рiшення, зробленi аудiовiзуальною мо-деллю. Це досягаеться шляхом зважування вкладу кожно! модальностi ввдповвдно до 11 контенту i надшнос-тi, використовуючи так званi потоковi ваги (SW).

2. Аналiз лггературних даних

З розвитком комп'ютерних систем стае все бшьш очевидним, що використання цих систем наба-гато розшириться, якщо стане можливим викорис-тання людсько! мови при роботi безпосередньо з комп'ютером, i зокрема стане можливим управлiння машиною звичайним голосом в реальному чаа, а та-кож введення i виведення шформацп у виглядi зви-чайно! людсько! мови.

Iснуючi технологi! розпiзнавання мови не ма-ють доки достатшх можливостей для !х широкого використання, але на даному етапi дослщжень проводиться iнтенсивний пошук можливостей вживання коротких багатозначних слiв (процедур) для полег-шення розумiння.

Для устшного розпiзнавання мови слiд вирь шити так1 завдання:

- обробку словника (фонемний склад);

- обробку синтаксису;

- скорочення мови (включаючи можливе ви-користання жорстких сценарi!в);

- вибiр диктора (включаючи вiк, стать, рщну мову i дiалект);

- тренування дикторiв;

- вибiр особливого виду мшрофона (беручи до уваги спрямованiсть i мiсце розташування мшрофона);

- умови роботи системи i отримання результату iз зазначенням помилок.

Основними математичними засобами для ви-рiшення задачi розпiзнавання мови е приховаш Ма-рковськ1 моделi (ПММ), нейроннi мереж1 та не-чiтка логiка.

У моделях з використанням ПММ кожна фонема е чимось на зразок одше! ланки в ланцюз^ з яких складаеться цiле слово. Щд час постановки рiз-них варiантiв фонем, щ ланки можуть змiнюватися, утворюючи вщразу кiлька слiв з одного i того ж набору фонем. З цього набору фонем програма намага-еться побудувати слова. Щд час цього процесу про-грама присуджуе кожнш фонемi значення ймовiрнос-тi !! вживання в даному контекстi.

Далi йде ще бiльш складний процес форму-вання словосполучень i речень. З цього хаосу фонем програма намагаеться побудувати лопчт ланцюги, з яких в далi виходять цш речення.

Основними працями iз застосуванням ПММ е [1-3]. Рiвень розтзнавання, який був досягнутий в цих роботах склав 95 % в умовах вщсутносл шуму. В пращ [4] для попередньо! класифжаци перед подачею даних на ПММ використана машина опорних векторiв (SVM). Досягнута точшсть розпiзнавання на рiвнi 92 %. Ще одна праця - розтзнавання ств ли-товсько! мови [5]. В робот досягнута точнiсть розтзнавання 80 % на базi з 750 слв.

В якосп ознак, якi витягнутi з мови, добре вь домi LPC (коефщент лiнiйного передбачення), кепстр, спектр та шшг На спектральному часовому образi (СЧО), за осями якого ввдкладаються час i час-тоти, одержуван в результатi подiлу мови на коротка iнтервали i спектрального аналiзу на цих iнтервалах, добре виражеш особливостi мови. Зчитуючи спектр, людина може «читати» по СЧО вимовлеш звуки.

Як зазначалося вище, людина вимовляе слова, змшюючи органом мови резонансну частоту, тому особливо важливими в СЧО е резонанснi частоти, тобто викиди. Резонанснi частоти для голосних звуков називають формант, проте використовують i на-зву «локальний викид» як розширення поняття форманта на приголоснi звуки. У методi розпiзнавання сказаного слова, запропонованого в дослiдженнi [6], розтзнавання здшснюеться шляхом визначення, який локальний викид присутнш i як вш змiнюеться в часi. Оскшьки штерес представляе лише мiсце розташування локального викиду, данi можна предста-вити у двiйковому виглядi: 1 - на мющ локального викиду, 0 - в шших мюцях, локалiзувавши тим самим положення викиду i скоротивши обсяг даних. Отри-маний образ називають двiйковим спектральним ча-совим образом (ДСЧО) i використовують його як особливiсть мови. Застосування ДСЧО при зютав-ленш образiв полягае в тому, що для слова, вираже-ного за допомогою ДСЧО, розглядаеться функцiя приналежносп, що враховуе те, як проявляються на ДСЧО змiни частоти для рiзних людей i як вщбува-ються змiни в часi. Цей метод називають нечггким зi-ставленням образiв [6].

За допомогою описаного вище методу розпi-знавання була створена реальна система розтзнавання. Експерименти на цш системi проводилися японсь-кою, англiйською та тмецькою мовами. Японський набiр включав 110 команд управлшня апаратурою для автоматизаци установ, доповнений цифрами i звичай-ними словами [7], англiйська та тмецька - 120 слiв такого ж змюту, а також назви тварин i квiтiв [8]. Результата розтзнавання, що отримат: японська мова -93,2 %, англшська - 92,8 %, нiмецька - 95,7 %.

Вiдомi iншi спроби використання нечiтко! ло-гiки в цих цшях. В працях [9, 10] представлет системи, побудоват на базi нечiтких [9] та еволюцшних нейро-нечiтких систем [10]. Результати тестування цих систем показали схожу точшсть розтзнавання, як i в попередшх розглянутих працях.

Багато праць присвячено проблемi оцiнки ваги потоку. Наприклад, в працi [11] ощнюються на базi алгоритму максимально! правдоподiбностi. В працях [12, 13] ваги потоку були розглянуп як параметри моделi i оцiненi з використанням породжуючих або дискримiнацiйних критерi!в. У працях [14, 15] ваги потоку вважаються залежними i оцiнюються для кожного кадру, грунтуючись на рiзних мiрах надiйностi за допомогою евристично визначених функцiй вiдо-браження, таких як сигмо!да або експоненщальна функцiя. Однак в цих працях не показано, чи е щ фу-нкцi! оптимальним вибором. У даному дослщженш пропонуеться аудiовiзуальна система з неявним вибором вщповвдно! функци зiставлення.

3. Мета та задачi дослвдження

Мета дослiдження - створення аудiовiзуальноï системи розпiзнавання мови.

Для досягнення мети дослiдження необхiдно було виршити наступнi задачi:

1. Розробити загальну структуру аудiовiзуаль-ноï системи розтзнавання мови.

2. Розробити класифжатори аудю та ввдео компонент мови.

3. Дослiдити побудовану систему на якiсть розпiзнавання мови.

4. Аудю-ввдео системи розмпнавання

Проаналiзувавши алгоритми i моделi розтзна-вання з розглянутих вище праць була запропонована наступна структура моделi всieï системи розтзна-вання мови (рис. 1).

Розглянемо основш елементи системи бшьш детально.Для пошуку i вщстеження областi рота була розроблена наступна модель (рис. 2).

Як видно з рис. 2, ядром моделi е автомат з двома станами: пошук i ввдстеження.

Система починае багатомасштабний пошук об-ластi обличчя за допомогою форсованого каскадного класифшатора, побудованого згiдно [16] з використан-ням ознак Хаара. Далi, двокаскадний класифiкатор (один каскад для област рота, iнший - для област рота з п!дбор!ддям) в1дТТ|укуе область рота в нижнiй дiлянцi обличчя. Якщо обличчя знайдено в декшькох послвдов-них кадрах, то автомат переходить в стан ввдстеження.

У режимi вiдстеження алгоритм детектуван-ня рота застосовуеться до маленько! обласп навко-ло передбаченого положення обласп рота з попе-реднiх кадрiв.

Рис. 1. Загальна структура моделi системи розпiзнавання мови

Невдача

Невдача

Початок

Удача

Ввдстеження

Детектор рота

Удача Фiльтр Калмана

Постобробка

Результати вщстеження

Рис. 2. Структура моделi для пошуку та вiдстеження обласи рота

Центр областi пошуку вираховуеться за допомогою лшшного ф№тра Калмана [17].

Оцiнка положення рота на будь-якому часовому вiдрiзку е плавною величиною, тому рiзкi скачки оцiнки вiдкидаються за допомогою триетапно! пос-тобробки. На першому етапi виконуеться лiнiйна iн-терполящя для заповнення прогалин в траекторп ру-

ху областi рота в зв'язку з помилками пошуку. На другому еташ застосовуеться медiанний ф№тр для виключення неправильного детектування. На остан-ньому етапi застосовуеться фшьтр Гауса для приду-шення ефекту тремтiння траекторii руху областi рота.

Отримана за допомогою функцii вщстеження областi рота послiдовнiсть зображень цих же облас-

тей норматзуегься до po3Mipy 32x32 mкселiв i подаеть-ся на каскад видобування ознак (рис. 3). Перш за все, зображення обласп рога вщображаеться в 32-мiрний проспр ознак за допомогою функцц анашу головних компонент (РСА). Далi, для векторно! послвдовносп т-двищуегься дискретизащя до 100 Гц з метою вщповщ-ностi аyдiальнiй ознацi i тсля цього, векторна послщо-

Область рота

PCA

втсть проганяеться через алгоритм нормалiзацiï усере-днених ознак [18]. Дал^ всi вектори ознак об'еднуються в один вектор ознак за допомогою операци конкатена-ци. I нареши, вектор ознак обробляеться за допомогою методу аналiз головних компонент (LDA) на основi вь зем. На виходi каскаду перетворень отримуемо вектор вiзyального спостереження.

Вектор в1зуально-

го спостереження

Рис. 3. Структура моделi видобування вiзyальних ознак

Модель класифiкатора на 6asi ПММ. Акусти-чними одиницями моделювання е елементи вимови слiв, яш називаються фонемами (монофонiя). Речен-ня (набiр слiв) представляеться як об'еднана послщо-внiсть фонем кожного слова. Для моделювання ефек-ту зчленування мови використовуються контекстнi трифони.

На рис. 4 показана модель навчання, що скла-даеться з наступних 3 еташв:

1) фонемного навчання;

2) контекстного трифонного навчання;

3) кластерного трифонного навчання.

Розшзнавач мови побудований на базi алгоритм пошуку Вiтербi (пошук найкращоï' послiдовностi сташв, що вiдповiдае данiй вимовi мови). Для роботи розшзнавача потрiбнi:

1) акустична модель для пiдборy акустичних

даних;

2) мовна модель для визначення синтаксису i семантики;

3) словник вимов для правильноï органiзацiï ПММ при пошуку.

Структура моделi пошуку показана на рис. 5. На виходi розпiзнавача мови зшмаеться або транск-рипцiя мови, або граф ств, або i те, i шше.

Модель класифкатора на базi ЗПММ. Зв'язанi приховаш Марк1вськ1 моделi (ЗПММ) можуть розгля-датися як набiр звичайних ПММ, в якому кожна ПММ використовуеться для одного потоку даних i де приховаш основш вузли часу t для кожноï ПММ залежать вщ стану основних вузлш часу t-1 всiх ЗПММ. На рис. 6 представлена модель двопотоковоï ЗПММ для сис-теми аyдiовiзyального розпiзнавання мови.

Квадратиками на рисунку позначен прихованi дискретнi вузли (основш i змшаш вузли), кружечками - вузли, що постшно спостер^аються. На вщшну вiд ПММ, яш використовуються для аyдiо-та вщео-даних, ЗПММ мае можливiсть фiксyвати взаемодш м1ж аyдiо- та вiдеопотоками за допомогою передачi ймовiрностей м1ж основними вузлами. ЗПММ мае можливють моделювати аyдiовiзyальний стан асинхронно i таким чином, зберегти звичайну залежшсть м1ж аyдiо i вщео в чай.

1

Навчальна виб1рка

Видобування ознак

¡шщатзащя фонем

/- N

Фонемне

навчання

V У

Клонування три-фошв

Контекстне трифонне навчання

Кластеризащя сташв

Кластерне трифонне навчання

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Подш / об'еднання послщовностей

Кластерне трифонне навчання

Акустична модель

Рис. 4. Структура моделi навчання

Рис. 5. Структура моделi тестування

Рис. 6. Структура моделi двопотокового класифiкатора на 6a3i ЗПММ

розтзнавання наступнi:

- тiльки аудiо;

- тшьки ввдео;

- аудiовiзуальне розтзнавання.

Таблиця1

Класифкатор Результат розтзнавання

СММ (пльки аудю) 92 %

СММ (тшьки ввдео) 51 %

ССММ (аудiовiзульна система) 98 %

МСММ [18] 55 %

Навчання ЗПММ параметрiв виконуеться в два етапи. На першому етапi, параметри ЗПММ обчислю-ються для iзольованих пар фонема^зема. Параметри iзольованих пар фонема-вiзема ЗПММ спочатку оць нюються за допомогою алгоритму шщитзацд Вiтербi [2] i далi проганяються через алгоритм оцшюван-ня/максимiзацii (ЕМ) [19]. На другому етат параметри ЗПММ, обчисленi шдиввдуально на першому етапi, уточнюються за допомогою вкладеного навчання всiх ЗПММ. Схожим способом вкладеного навчання для ПММ [20], до кожно! моделi, отримано! на першому етапi, додаеться один вхщний i один вихiдний стани.

Аудiовiзуальне розпiзнавання виконуеться за допомогою декодера графiв, який застосовуеться до мережi слiв, що складаеться з уах слiв тестового словника. Кожне слово в мережi зберiгаеться як пос-лiдовнiсть фонем-вiзем ЗПММ, i найкраща послвдов-нiсть слiв визначаеться за допомогою розширеного алгоритму передачi маркера [20].

5. Експериментальнi результати

Запропонована аудiовiзуальна система розт-знавання була протестована на базi цифр ввд 0 до 9. Кожна цифра в базi даних повторюеться десять разiв кожним з десяти мовщв. Для кожного оратора дев'ять прикладiв кожно! цифри використано для навчання, а приклад, що залишився, використано для тестування.

Усереднет результати розтзнавання для трьох режимiв розпiзнавання представлен в табл. 1. Режим

Для режиму розтзнавання мови «лише аудю» вектори акустичного спостереження (15 МБСС кое-фiцiентiв, якi визначенi з вшна 20 мс) моделюються з використанням ПММ. Для розпiзнавання в режимi «аудю-вщео» використана ЗПММ з п'ятьма станами для зв'язаних вузлiв як в аудiо-, так i в вiдеопотоках, без зворотних переходiв i трьома змiшуваннями на кожний стан.

Експериментальт результати показали, що рь вень розтзнавання аудiовiзуальноi мови на основi ЗПММ збiльшуеться на 43 % щодо розтзнавання мови в режимi «тшьки аудю». У порiвняннi з багато-потоковою ПММ [18] запропонований варiант ЗПММ для аудiовiзуально! системи розтзнавання показуе кращi результати.

6. Висновки

1. Розроблено загальну структуру аудiовiзуа-льно! системи розпiзнавання мови.

2. Розроблено класифшатори аудiо та вщео компонент мови на базi прихованих Маркiвських моделей.

3. Дослвджено побудовану систему на яшсть розпiзнавання мови на прикладi аудiовiзуального розпiзнавання цифр.

Побудована система показала яшсть розтзнавання на рiвнi 98 %.

В подальшому плануеться розглянути алгори-тми зважування потошв з метою покращення загаль-но! розпiзнавальноi здатностi.

.HiTepaTypa

1. Liang, L. Speaker independent audio-visual continuous speech recognition [Text] / L. Liang, X. Liu, Y. Zhao, X. Pi, A. V. Nefian // International Conference on Acoustics, Speech and Signal Processing. - Lausanne, 2002. doi: 10.1109/icme.2002. 1035365

2. Nefian, A. V. An coupled hidden Markov model for audio-visual speech recognition [Text] / A. V. Nefian, L. Liang, X. Pi, X. Liu, C. Mao // International Conference on Acoustics, Speech and Signal Processing. - Lausanne, 2002. doi: 10.1109/ icassp.2002.1006167

3. Liang, L. Audio-Visual continuous speech recognition using a coupled hidden markov models [Text] / L. Liang, X. Liu, Y. Zhao, X. Pi, A. V. Nefian // International Conference on Acoustics, Speech and Signal Processing. - Lausanne, 2002. doi: 10.1109/ icassp.2002.1006166

4. Gurban, M. Audio-visual speech recognition with a hybrid SVM-HMM system [Electronic resource] / M. Gurban, J. P. Thiran // 13th European Signal Processing Conference. - 2005. - Available at: https://infoscience.epfl.ch/record/ 87309/files/Gurban2005_1391.pdf

5. Raskinis, G. Building Medium-Vocabulary Isolated-Word Lithuanian HMM Speech Recognition System [Text] / G. Raskinis, D. Raskinien'e // Infoimatica. - 2003. - Vol. 14, Issue 1. - P. 75-84.

6. Kass, M. Snakes: Active contour models [Text] / M. Kass, A. Witkin, D. Terzopoulos // International Journal of Computer Vision. - 1988. - Vol. 1, Issue 4. - P. 321-331. doi: 10.1007/bf00133570

7. Rao, R. R. Lip modeling for visual speech recognition [Text] / R. R. Rao, R. M. Mesereau // 28th Annual Asilomar Conference on Signals, Systems, and Computers. - 1994. - Vol. 1. - P. 587-590. doi: 10.1109/acssc.1994.471520

8. Sanchez, M. U. R. Statistical chromaticity-based lip tracking with B-splines [Text] / M. U. R.Sanchez, J. Matas, J. Kittler // IEEE International Conference on Acoustics, Speech and Signal Processing. - Munich, 1997. doi: 10.1109/icassp.1997.595416

9. Malcangi, M. Audio-visual fuzzy fusion for robust speech recognition [Text] / M. Malcangi, K. Ouazzane, P. Patel // The 2013 International Joint Conference on Neural Networks (IJCNN). - Dallas, 2013. doi: 10.1109/ijcnn.2013.6706789

10. Malcangi, M. Bio-inspired Audio-Visual Speech Recognition Towards the Zero Instruction Set Computing [Text] / M. Malcangi, H. Quan // International Conference on Engineering Applications of Neural Networks EANN 2016: Engineering Applications of Neural Networks. - 2016. - P. 326-334. doi: 10.1007/978-3-319-44188-7_25

11. Hernando, J. Maximum likelihood weighting of dynamic speech features for CDHMM speech recognition [Text] / J. Hernando // IEEE International Conference on Acoustics, Speech, and Signal Processing. - Munich, 1997. doi: 10.1109/ icassp.1997.596176

12. Gravier, G. Maximum entropy and MCE based HMM stream weight estimation for audio-visual ASR [Text] / G. Gravier, S. Axelrod, G. Potamianos // IEEE International Conference on Acoustics Speech and Signal Processing. - Orlando, 2002. doi: 10.1109/icassp.2002.5743873

13. Peng, L. Stream weight training based on MCE for audio-visual LVCSR [Text] / L. Peng, W. Zuoying // Tsinghua Science and Technology. - 2005. - Vol. 10, Issue 2. - P. 141-144. doi: 10.1016/s1007-0214(05)70045-6

14. Estellers, V. On dynamic stream weighting for audio-visual speech recognition [Text] / V. Estellers, M. Gurban, J.-P. Thiran // IEEE Trans. Audio, Speech, and Language Processing. - 2012. - Vol. 20, Issue 4. - P. 1145-1157. doi: 10.1109/tasl.2011.2172427

15. Garg, A. Frame-dependent multi-stream reliability indicators for audio-visual speech recognition [Text] / A. Garg, G. Potamianos, C. Neti, T. S. Huang // International Conference on Multimedia and Expo. - Baltimore, 2003. doi: 10.1109/ icme.2003.1221384

16. Lienhart, R. An extended set of Haar-like features for rapid objection detection [Text] / R. Lienhart, J. Maydt // Proceedings. International Conference on Image Processing. - Rochester, 2002. - P. 900-903. doi: 10.1109/icip.2002.1038171

17. Cordea, M. D. Real-time 2(1/2)-D head pose recovery for model-based video-coding [Text] / M. D. Cordea, E. M. Petriu, N. D. Georganos, D. C. Petriu, T. E. Whalen // IEEE Transactions on Instrumentation and Measurement. - 2001. - Vol. 50, Issue 4. -P. 1007-1013. doi: 10.1109/19.948316

18. Neti, C. Audio-visual speech recognition: Final Workshop 2000 Report, Center for Language and Speech Processing [Text] / C. Neti, G. Potamianos, J. Luettin et. al. - Baltimore: The Johns Hopkins University, 2000.

19. Jensen, F. V. An Introduction to Bayesian Networks [Text] / F. V. Jensen. - London: UCL Press Limited, 1998. - 178 p.

20. Young, S. The HTK Book [Text] / S. Young et. al. - Cambridge: Entropic Cambridge Research Laboratory, 1995.

Рекомендовано до публгкацИ д-р техн. наук Телеником С. Ф.

Дата надходженнярукопису 26.10.2017

Горносталь Олександр Миколайович, кафедра автоматики i управлшня в техшчних системах, Нацю-нальний технчний ушверситет Украши «Кшвський полггехшчний шститут iMeHi 1горя Окорського», пр. Перемоги, 37, м. Кив, Украша, 03056 E-mail: gornostal.alexandr@gmail.com

Дорогий Ярослав Юршович, кандидат техшчних наук, доцент, кафедра автоматики i управлшня в техшчних системах, Нацюнальний техшчний ушверситет Украши «Кшвський полiтехнiчний шститут iменi 1горя Окорського», пр. Перемоги, 37, м. Кшв, Украша, 03056 E-mail: cisco.rna@gmail.com

i Надоели баннеры? Вы всегда можете отключить рекламу.