Научная статья на тему '2015. 03. 016. Труды 16-й международной конференции «Speech and computer» (SPECOM 2014). Proceedings of the 16 Th International Conference on Speech and computer, SPECOM 2014, ser. Lecture notes in artificial intelligence (including subseries lecture notes in computer Science), 8773 lnai / ed. By: Ronzhin A. , Potapova R. et al.. - Heidelberg etc. : Springer Intern. Publishing, 2014. - 484 p'

2015. 03. 016. Труды 16-й международной конференции «Speech and computer» (SPECOM 2014). Proceedings of the 16 Th International Conference on Speech and computer, SPECOM 2014, ser. Lecture notes in artificial intelligence (including subseries lecture notes in computer Science), 8773 lnai / ed. By: Ronzhin A. , Potapova R. et al.. - Heidelberg etc. : Springer Intern. Publishing, 2014. - 484 p Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
61
15
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СИНТЕЗ "ТЕКСТ РЕЧЬ" / РЕЧЕВЫЕ ТЕХНОЛОГИИ / СИНТЕЗИРОВАННАЯ РЕЧЬ / АКУСТИЧЕСКИЙ АНАЛИЗ / АВТОМАТИЧЕСКОЕ ПОСТРЕДАКТИРОВАНИЕ / КОРПУС ТЕКСТА / ПАРСИНГ / АУДИОВИЗУАЛЬНЫЙ РЕЧЕВОЙ КОРПУС / НЕЙРОННО-СЕТЕВАЯ СИСТЕМА / ЧАСТОТА ОСНОВНОГО ТОНА / ГЛОТТАЛИЗАЦИЯ / КОГНИТИВНОЕ РАЗВИТИЕ / МАРКОВСКИЕ МОДЕЛИ / РИТМИЧЕСКИЕ МОДЕЛИ / ИДЕНТИФИКАЦИЯ ГОВОРЯЩЕГО / СЕМАНТИЧЕСКОЕ ПОЛЕ "АГРЕССИЯ" / АССОЦИАТИВНОЕ ВОСПРИЯТИЕ / РАСПОЗНАВАНИЕ РЕЧИ / СПОНТАННАЯ РЕЧЬ / СВЕРТОЧНАЯ НЕЙРОННАЯ СЕТЬ
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Потапова Р. К., Потапов В. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «2015. 03. 016. Труды 16-й международной конференции «Speech and computer» (SPECOM 2014). Proceedings of the 16 Th International Conference on Speech and computer, SPECOM 2014, ser. Lecture notes in artificial intelligence (including subseries lecture notes in computer Science), 8773 lnai / ed. By: Ronzhin A. , Potapova R. et al.. - Heidelberg etc. : Springer Intern. Publishing, 2014. - 484 p»

приближенных к реальной профессиональной среде. Этому посвящена часть пятая «Потенциал контекстного подхода для формирования иноязычной коммуникативной компетентности у будущих менеджеров». Этот подход основан на моделировании в процессе обучения предметного и социального содержания деятельности, о чем более подробно речь идет в части шестой «Модель формирования иноязычной коммуникативной компетентности у будущих менеджеров на основе контекстного подхода». Эта модель представлена в виде структуры из нескольких блоков: целевого, содержательного, технологического и оценочно-результативного (схема 1 на с. 134).

Н.Н. Трошина

2015.03.016. ТРУДЫ 16-й МЕЖДУНАРОДНОЙ КОНФЕРЕНЦИИ «SPEECH AND COMPUTER» (SPECOM 2014). Proceedings of the 16 th International Conference on Speech and Computer, SPECOM 2014, Ser. Lecture notes in artificial intelligence (including subseries Lecture notes in computer science), 8773 LNAI / Ed. by: Ronzhin A., Potapova R. et al. - Heidelberg etc.: Springer intern. publishing, 2014. - 484 p.

Ключевые слова: синтез «текст - речь»; речевые технологии; синтезированная речь; акустический анализ; речевые технологии; автоматическое постредактирование; корпус текста; парсинг; аудиовизуальный речевой корпус; нейронно-сетевая система; частота основного тона; глоттализация; когнитивное развитие; марковские модели; ритмические модели; идентификация говорящего; семантическое поле «агрессия»; ассоциативное восприятие; распознавание речи; спонтанная речь; сверточная нейронная сеть.

5-9 октября 2014 г. в г. Нови-Сад (Сербия) на базе факультета технических наук (FTN) университета г. Нови-Сад состоялась XVI Международная конференция SPECOM'2014 «Speech and computer» («Речь и компьютер»). В данном реферате представлены статьи, связанные, прежде всего, с лингвистической проблематикой.

Доклад Э. Брина (Великобритания) «Формирование набора голосов с учетом их экспрессивности, предназначенных для использования в системах синтеза "текст-речь"» посвящен про-

блеме преобразования текста в звучащую речь. Преобразование «текст - речь» (ТТ8 - «Тех1-То-8рееск») традиционно рассматривается в качестве компонента «черного ящика», где стандартные имеющиеся в наборе голоса соответствуют, как правило, профессионально-подготовленному нейтрально-разговорному стилю речи. Для коммерчески наиболее престижных языков может быть предложено множество разнообразных голосов в похожем разговорном стиле. Заказчик, желающий использовать в коммерческих целях систему ТТ8, как правило, выбирает один из этих голосов. Единственной альтернативой является выбор в пользу решения «голос на заказ». В этом случае клиент платит за конечный продукт - создание, например, рекламы на базе преобразования «текст - речь» с использованием отобранного «голосового источника». Подобный подход позволяет реализовать некоторую предварительную «настройку» сценариев (скриптов) на используемый голос. В некоторых случаях могут быть добавлены определенные элементы сценариев, что необходимо для обеспечения большего охвата элементов сценария в области, указанной заказчиком. При подготовке конечного материала могут быть включены также специальные фразы, которые содержат примеры идеального произнесения конкретных фрагментов текста. При таком подходе процесс записи строго контролируется, а стандартные сценарии перерабатываются не с нуля, а расширяются. Подход «черный ящик» к ТТ8 позволяет создать системы, которые удовлетворяют потребностям большого числа заказчиков.

Последние достижения в области применения систем «текст -речь» изменили мнение людей о том, как должен звучать и влиять на человека «компьютерный» голос. Оказалось, что для ТТ8 системы (особенно в коммерческих сферах применения) гораздо важнее представить конкретное лицо, которое соответствует максимальному достижению цели коммуникации. Практика показала, что подобные системы требуют более яркого, оптимистичного и выразительного голоса. Подхода «черный ящик» уже недостаточно. Голоса для высокопроизводительных «посредников» речевого общения в настоящее время явно «предназначены» для удовлетворения потребностей таких приложений. Эти голоса одновременно и выразительны, и легки, а также образуют контраст по сравнению с более «консервативными» голосами, используемыми традиционно

на мировом рынке. Данный доклад в рамках проекта Nuance R&D посвящен описанию нового подхода к особому типу речевого синтеза TTS с использованием речевых образцов экспрессивного разговорного стиля.

Большой интерес вызвал пленарный доклад Г. Немета (Венгрия) «Нерешенные проблемы в области речевых технологий», в котором утверждается следующее: несмотря на то что в последнее время наблюдается значительный прогресс в области использования и принятия в производство речевых технологий, в ряде развитых стран по-прежнему существуют серьезные пробелы, которые не позволяют большинству возможных пользователей найти конкретные решения, связанные с применением речевых технологий. В докладе перечислены некоторые из этих пробелов (нерешенных проблем) и предлагаются пути их ликвидации. Возможно, что наиболее значительным расхождением является мышление разработчиков программного обеспечения по типу «черный ящик», которые полагают, что ввод текста в систему преобразования текста в речь (TTS) приведет к голосовому продукту на выходе, который имеет отношение к данному контексту применения. Применительно к автоматическому распознаванию речи (ASR) разработчики ждут получения точной транскрипции текста на выходе, включая знаки препинания. При этом не принимается во внимание, что даже люди находятся под сильным влиянием априорного знания контекста, партнеров по коммуникации и т.д. По мнению докладчика, знания в области семантического моделирования все еще находятся в зачаточном состоянии. Для создания успешных приложений исследователи речевых технологий должны найти пути для «встроенного» априорного знания в среде приложений, адаптировать свои технологии и интерфейсы для данного сценария. Например, разборчивость и изменчивость скорости речи являются наиболее важными параметрами оценки TTS для слабовидящих пользователей. В то же время для информационных систем на железнодорожных станциях необходимы «человекоподобные» объявления с обычным темпом и в разговорном стиле. Увеличивающийся разрыв наблюдается между «большими» и «малыми» языками / рынками. Еще один пробел - между закрытыми и открытыми прикладными средами. Например, вряд ли существует мобильная операционная система, которая обеспечивает переадресацию TTS при непосредст-

венном телефонном разговоре, что является основной потребностью реабилитационных приложений для людей, испытывающих проблемы с речью. В этой ситуации может помочь создание открытой платформы, где «мелкие» и «крупные» игроки на поле могут одинаково внедрять свои средства / решения при надлежащем качестве продукта и больших доходах. В докладе приведены некоторые примеры попыток устранения указанных пробелов.

В докладе П. Чистикова, Д. Захарова и А. Таланова (г. Санкт-Петербург) «Повышение качества синтеза речи с использованием базы данных аудиокниг» представлен подход к повышению качества синтезированной речи с использованием базы данных, полученных на материале аудиокниг. Данные включают речевой материал, прочитанный одним диктором. Звучащий материал сравнивался с соответствующими письменными текстами. Основные проблемы исследования связаны со следующими факторами: а) запись проведена в разное время в разных акустических условиях; б) диктор читает текст с разной интонационной и акцентно-ритмической вариативностью, что ведет к большей вариативности голосовых параметров. Кроме того, автоматические методы маркировки звукового файла приводят к большему числу ошибок из-за большой вариативности составляющих базы данных, особенно при наличии несоответствия между текстом и соответствующими звуковыми файлами. Вышеуказанные факторы существенно влияют на качество синтеза речи, поэтому надежный метод их решения так необходим для голосов, созданных с использованием аудиокниг. Подход, описанный в докладе, основан на статистических моделях голосовых параметров и специальных алгоритмах конкатенации и модификации речевых сегментов. Перцептивно-слуховое тестирование в значительной степени повышает качество синтезированной речи.

В докладе М. Кото-Хименеса, Дж. Годдарда-Клоуза и Ф.М. Мартинез-Ликона (Мексика) «Оценка качества синтеза речи на основе НММ с использованием акустического анализа гласных» описана синтезированная речь, которая получена с использованием скрытых моделей Маркова (НММ). При сравнении с естественной речью данная синтезированная речь характеризуется часто наличием глухого тембра, чему есть несколько причин: некоторые тонкие характеристики естественной речи удаляются, мини-

мизируются или существуют в скрытом виде; траектории изменения параметров получаемой на выходе речи становятся «сверх-сглаженными» вариантами речевых сигналов. Это означает, что каждый синтетический голос, созданный системой на основе НММ, должен быть проверен на качество речи. Как правило, требуется дорогостоящее субъективное исследование (эксперимент), поэтому было бы интересно разработать альтернативные подходы. В докладе рассматриваются девять акустических параметров, связанных с дрожанием (джиттер) и мерцанием (шиммер), а также их статистическая значимость как объективных измерений качества синтетической речи.

Доклад В. Делича, М. Сечуйски, Н. Вуйнович Седлар, Д. Мишковича, Р. Мака и М. Боянича (Сербия) «Как речевые технологии могут помочь людям с ограниченными возможностями» посвящен проблемам мультимодальной коммуникации «человек - машина». В речевой коммуникации «человек - машина», как правило, не используются невербальные средства коммуникации (например, ручная жестикуляция), а также паравербалика (например, окулесика). И человек и машина используют вербалику, что может помочь людям с физиологическими или патологическими отклонениями. Помимо слабовидящих людей и людей с физическими недостатками, речевые технологии могут помочь людям с нарушениями речи и слуха, а также пожилым людям. Доклад представляет собой обзор речевых технологий, которые полезны для людей с различными ограниченными физиолого-физическими отклонениями. Так, например, технологии преобразования письменного ТТ8 текста в звучащую речь ТТ8 (текст - речь - технологии) применимы в случаях ослабленного зрения, т.е. в ситуации замены зрительного канала слуховым. Автоматическое распознавание устной речи - в ситуациях распознавания голосовых команд с малым по объему словарем в условиях смарт-жилища. Автоматизированное распознавание говорящего и его эмоционального состояния по голосу и речи может способствовать усовершенствованию диалога «человек - машина».

В совместном докладе Х. Эхизенья, К. Араки, Ю. Учида (Япония) и Э. Хови (США) «Метод автоматического постредактирования с использованием базы знаний по переводоведению, полученной путем статистического накопления общих интуи-

тивно выделенных языковых фрагментов» предлагается новый метод постредактирования для текстов - результатов машинного перевода. Метод предполагает использование при постредактировании базы знаний, полученной от перевода на основе параллельного рассмотрения лингвистических корпусов вне зависимости от лингвистического инструментария. Правила перевода, которые приобретаются на основе интуитивного суммарного фрагментосо-держащего континуума (Intuitive common parts continuum, ICPC), могут применяться при сопоставлении целостной структуры исходного и целевого высказываний без дополнительного лингвистического анализа. Более того, предлагаемый метод помогает получить более качественные переводы путем параллельного применения правил перевода и результатов перевода ICPC, полученного с использованием статистического накопления общих фрагментов машинного перевода. Полученные экспериментальным путем данные подтверждают эффективность применения предлагаемых правил перевода на базе статистического накопления общих интуитивно выделенных языковых фрагментов.

В докладе К. Галиуллина, А. Гизатуллиной, Е. Горобец, Г. Каримуллиной, Р. Каримуллиной и Д. Мартьянова (г. Казань) «Исследования региолектов на основе корпусов текстов: Казанский регион» рассматривается специфика создания и использования электронных корпусов, созданных в Казани (Казанский (Приволжский) федеральный университет). Состав корпуса: словарь и текстовый корпус «Казанский край: язык русских документов (XVI-XVII вв.), электронный корпус русских диалектов Казанского региона (XIX-XXI вв.), электронный корпус русских текстов, связанных с Казанским регионом / Республикой Татарстан (XX-XXI вв.). В докладе представлен информационный потенциал содержащихся в них электронных ссылок с аннотационными данными и специфическими характеристиками Казанского региолекта (территориального варианта русского языка, используемого в Казанском регионе, который хорошо известен как регион межъязыковых контактов).

В докладе Б. Яковлевич, А. Ковачевича, М. Сечуйски и М. Маркович (Сербия) «Банк деревьев зависимостей для сербского языка: Начальные эксперименты» представлена разработка банка деревьев зависимостей для сербского языка, предназна-

ченного для различных применений в области обработки естественного языка, прежде всего, в области понимания естественного языка в рамках диалога «человек - машина». Банк данных создан с учетом добавления синтаксических аннотаций в Текстовый корпус сербского языка AlfaNum с метками частей речи (part-of-speech, POS). Аннотирование осуществляется в соответствии со стандартами, установленными Пражским банком дерева зависимостей, который был принят в качестве основы при разработке банков деревьев для некоторых родственных языков в данном регионе. Первые эксперименты по парсингу (синтаксическому) анализу на основе грамматики зависимостей на материале уже аннотированной части корпуса, содержащей 1148 предложений (7117 слов), показали относительно низкую точность синтаксического анализа, как и ожидалось, от банка деревьев такого размера в ходе проведения предварительных экспериментов.

В докладе И. Йокича, С. Йокича, В. Делича и З. Перича (Сербия) «Влияние эмоциональной речи на автоматическое распознавание говорящих - эксперименты с использованием базы речевых данных GEES» описывается эксперимент с использованием устройства автоматической идентификации говорящих по базе данных эмоциональной речи. Устройство автоматической идентификации говорящих основано на применении кепстральных коэффициентов значений частоты основного тона (в мелах) как признаков речи говорящего и ковариационных матриц модели говорящего. Модели формируются с использованием одного предложения эмоционально нейтральной речи для каждого говорящего. Другие предложения из той же базы речевых данных, в том числе нейтральные, а также характеризующие четыре эмоциональных состояния - счастье, страх, печаль и гнев, - используются для дальнейшего тестирования. Целью исследования является изучение влияния эмоциональной речи на точность автоматической идентификации говорящих.

В докладе А. Карпова, И. Кипятковой (г. Санкт-Петербург) и М. Железны (Чешская Республика) «Условия записи аудиовизуальных речевых корпусов с микрофоном и высокоскоростной камерой» представлено новое программное обеспечение для записи аудиовизуальных речевых корпусов с высокоскоростной видеокамерой (JAI Pulnix RMC-6740) и динамическим микрофоном (Ок-

тава МК-012). Описывается архитектура программного обеспечения, разработанного для записи аудиовизуального корпуса русской речи, что помогает синхронизировать и объединять слияние аудио-и видеоданных, записанных с помощью отдельных датчиков. Программное обеспечение обнаруживает речь в аудиосигнале и сохраняет только информативные речевые фрагменты, отбраковывая неинформативные сигналы. При этом также учитывается и обрабатывается естественная асинхронность аудиовизуальных речевых модальностей.

В докладе К. Килгура и А. Вайбеля (Германия) «Нейронно-сетевая система поиска по ключевым словам, предназначенная для телефонной речи» предлагается система поиска по ключевым словам на основе «нейронной сети» (NN), разработанная по программе IARPA Babel для разговорной телефонной речи. Использование общего показателя оценки поиска по ключевому слову, т.е. «реально взвешенного значения» (ATWV), позволяет утверждать, что NN-система поиска по ключевому слову может достичь показателей, схожих с более сложной и более медленно функционирующей системой распознавания речи на основе «гибридной глубокой нейронной сети - скрытой модели Маркова» (DNN-СММ Hybrid) без использования декодера HMM или языковой модели.

В докладе Д. Кочарова, П. Скрелина и Н. Вольской (г. Санкт-Петербург) «Модели нисходящей частоты основного тона F0 в русской речи» описываются разновидности нисходящей конфигурации частоты основного тона (F0), для русской речи. Перед исследователями стояла задача - определить на базе корпуса русской речи, сформированного с использованием чтения текстов дикторами-профессионалами, разновидностей понижения значений частоты основного тона (F0) и на этой основе выявить существующие в русской речи модели понижения F0, связанные с различными интонационными контурами, чтобы подтвердить или опровергнуть зависимость типа «понижение F0-длительность», обнаруженную в других языках.

Полученные результаты подтверждают прямую связь между понижением F0 и длительностью высказывания. В то же время обнаруживается сильная зависимость понижения F0 от общего интонационного рисунка высказывания: так, модель завершенного утвердительного повествования характеризуется более крутым

«наклоном» по сравнению с незавершенным повествованием. Вопросительные предложения, характеризующиеся подъемом основного тона, не обнаружили понижения основного тона на участке предтакта. Результаты, таким образом, позволяют предполагать наличие отдельных индивидуальных стратегий в процессе предварительного планирования вида падения основного тона в интонационной фразе.

В докладе И. Кралевски, М.П. Биссири, Г. Стречи и Р. Хофф-мана (Германия) «Анализ и синтез глоттализации в английской речи с немецким акцентом» описывается анализ и синтез глоттализации в английской речи носителей немецкого языка. Глоттализация в начале слога-слова отмечалась вручную на материале фрагмента корпуса английской речи носителей немецкого языка. Для каждого глоттализованного сегмента синтезировались значения нормированной по времени F0 и «низкоэнергетические» контуры. Кроме того, был проведен анализ на множествах контура F0. Центроидные контуры кластеров использовались для реконструкции контуров в экспериментах по повторному синтезу. Прототип-ные контуры интонации и интенсивности накладывались на не-глоттализованные гласные в начале слов с целью синтезирования «скрипучего» голоса. Эта процедура позволяла автоматически создавать речевые стимулы, которые могли бы быть использованы в перцептивных экспериментах для проведения фундаментальных исследований в области глоттализации.

Глоттализация рассматривалась в двух разновидностях: твердый приступ и «скрипучий голос» - твердый приступ как результат резкого смыкания и размыкания голосовых связок и «скрипучий голос» как своеобразный перцептивно-слуховой феномен, являющийся результатом нерегулярных, низкочастотных вибраций голосовых связок.

В докладе Е. Красновой и Е. Булгаковой (г. Санкт-Петербург) «Использование речевых технологий в системах компьютерного обучения языку» рассматриваются способы применения автоматического распознавания речи (ASR) и технологии преобразования текста в речь (TTS) для систем обучения языку при помощи компьютера (CALL). Речевые технологии могут эффективно использоваться для таких методических целей, как отработка произношения, овладение навыками коммуникации, проверка словарно-

го запаса студентов и навыки аудирования (понимания речи на слух). Несмотря на некоторые ограничения, в настоящее время в обучении можно применять различные типы речевых технологий, что является эффективным средством упрощения реализации процесса обучения. В докладе представлена интеграция ASR в систему CALL, разработанная Центром речевых технологий (СПб.).

В докладе Е. Ляксо, А. Григорьева, А. Куразовой и Е. Ого-родниковой (г. Санкт-Петербург) «"INFANT.MAVS" - Мультимедийная модель для изучения когнитивного и эмоционального развития детей» описана модель мультимодальной сенсорной среды «INFANT.MAVS», которая включает две базы стимулов с различной сложностью восприятия: а) простые стимулы (зрительные, звуковые, тактильные и графические) и б) набор сложных стимулов, синтезированных как комбинации простых. Программное обеспечение включает компонент управления базами данных и саму базу данных. Компонент управления создается с помощью Microsoft Visual Basic v. 6.0 и предназначен для работы на операционных системах Windows. Результаты испытаний модели показали, что стимулы вызывали реакцию у детей - сосредоточенное внимание, вокализацию, улыбки и попытки повторить звуки; у взрослых они вызывали положительные эмоции. Полученные данные позволили сделать вывод, что модель «INFANT.MAVS» соответствует целям, которые были поставлены разработчиками.

В докладе Л. Мохаси (Южная Африка), М. Сечуйски, Р. Мака (Чешская Республика) и Т. Нислера (Южная Африка) «Сравнение двух подходов к моделированию просодии в языке сесото и сербском языке» речь идет о том, что точное прогнозирование просодических особенностей является одной из важнейших задач в рамках разработки системы преобразования «текст - речь» и что особенно значимо для языков с ограниченными ресурсами и сложной лексической просодией. Авторы считают, что чтобы синтезированная речь имела естественно звучащий интонационный контур, следует использовать адекватную просодическую модель. В данном исследовании сравниваются модель Фудзисаки и просодическое моделирование на основе HMM в контексте преобразования «текст - речь» для двух неродственных языков с богатыми просодическими системами: сесото, тонального языка семьи банту, и сербского, южнославянского языка с тоническим ударением. Ре-

зультаты экспериментов показали, что для обоих языков использование модели Фудзисаки дает лучшие результаты, чем использование модели НММ при моделировании интонационных контуров высказываний. Модель Фудзисаки разработана специально для анализа значений частоты основного тона (Б0) естественного высказывания и ее сегментации на основные компоненты, которые совместно образуют контур Б0, похожий на исходный оригинальный контур Б0. К числу основных компонентов относятся: частота основного тона, часть фразы, которая включает как более замедленные изменения в контуре Б0, так и более быстрые изменения в Б0. Тоновые команды модели Фудзисаки являются индикатором тех или иных тонов в высказывании. Метод был впервые предложен Фудзисаки и его сотрудниками в 70-80-х годах в качестве аналитической модели, описывающей изменения частоты основного тона.

В докладе Э. Пакочи, Н. Яковлевича, Б. Поповича, Д. Миш-ковича и Д. Пекара (Сербия) «Идентификация говорящего с использованием скрытых марковских моделей для конкретных звукотипов» представлено описание системы идентификации говорящего на основе использования скрытой марковской модели для конкретного звукотипа в сочетании с гауссовой моделью (моделью совокупности нормальных распределений). Использование данного подхода связано с тем, что система НММ на основе конкретного звукотипа может моделировать временные вариации, что обеспечивает возможность рассмотрения десятков конкретных звуков, а также ведет к эффективному отбраковыванию значений. Эффективность системы была оценена на речевой базе данных, которая содержит речевые высказывания 250 говорящих - носителей сербского языка. Предлагаемая модель сравнивается с системой, основанной на гауссовой модели (модели совокупности нормальных распределений) и универсальной модели. Разработанная авторами модель продемонстрировала значительное повышение точности идентификации.

В докладе В. Потапова (г. Москва) «Речевые ритмические модели в славянских языках» представлено описание сопоставительного экспериментального акустического исследования субъективных и объективных характеристик ритмической организации речи, проводимого на материале чешского, болгарского и русского языков. Настоящее исследование подтвердило справедливость ги-

потезы о существовании иерархии факторов, определяющих ритмический рисунок в рассмотренных славянских языках. Результаты акустического анализа выявили фонетическую специфику ритмических структур (РС) и ритмических схем синтагм (РСС), которая определяется фонетической структурой ударения в РС, реализуемого в исследуемых языках различными средствами: определенными комбинациями просодических характеристик гласных на границах РС в чешской речи, динамической составляющей в болгарской речи, а также спектральной и временной компонентами в русской речи.

Доклад Р. Потаповой, А. Собакина и А. Маслова (г. Москва) «О возможности идентификации говорящего с использованием 8куре-канала (на основе акустических параметров)» посвящен описанию метода идентификации говорящего по речевому сигналу в системе 8куре (в случае искусственной модификации внешности личности) на базе импульсного преобразования речи. В ходе эксперимента для сравнения исследовались речевые сигналы (гласные русского языка), записанные в безэховой камере, и те же речевые сигналы, прошедшие через канал передачи 1Р-телефонии 8куре. И в том и в другом случае привлекались одни и те же дикторы. Цель исследования - определение индивидуальных особенностей функционирования голосового источника говорящего (фонации) в зависимости от канала передачи речевого сигнала для установления возможности идентификации говорящего по голосовым характеристикам в информационных системах. Результаты позволили установить ряд особенностей при порождении речи в условиях тракта 1Р-телефонии системы 8куре, а также перспективность разрабатываемого метода.

В докладе Р. Потаповой и Л. Комаловой (г. Москва) «Об основных подходах к формированию аннотированных баз данных семантического поля "агрессия"» описаны основные критерии, использованные при разработке аннотированных баз данных семантического поля «агрессия», а также русских и английских цифровых полнотекстовых баз данных СМИ, содержащих вербальные составляющие семантического поля «агрессия». Каждая база данных включала 120 вручную аннотированных текстовых блоков, где представлены лексический, семантический и прагматический уровни языка. Каждый текст сопровождается специальными указа-

телями и локальным словарем семантического поля «агрессия». Базы данных предназначены для научных исследований в области прикладного речеведения: для автоматизированных систем обучения по Интернету, дальнейшей разработки поисковых систем, включающих семантическое поле «агрессия», и др.

Доклад Р. Потаповой и В. Потапова (г. Москва) «Ассоциативный механизм восприятия иностранной разговорной речи (судебно-криминалистический аспект)» был посвящен проблеме восприятия на слух иностранной разговорной речи с целью формирования единиц интерферирования речи для сегментного состава. Эксперимент включал декодирование на слух ad-hoc материала иностранной разговорной речи, который был специально разработан и фонетически сбалансирован. В исследовании особое внимание уделяется слуховому восприятию, обусловленному межъязыковой интерференцией. В этой ситуации слушающий должен использовать различные наборы воспринимаемых образцов фонетических единиц. Предполагается, что в случае декодирования на слух высказываний иностранной разговорной речи слушатели построят фонемную, слоговую, ритмическую и просодическую модели речевых высказываний на родном языке, а также модели звуковых и интонационных расхождений родного и воспринимаемого неродного языков, которые могут быть использованы в дальнейшем для построения системы line-up, включающей образцы интерферированной речи и их релевантных признаков. Проблема восприятия на слух разговорной речи связана с проблемами распознавания голоса и речи в области судебно-криминалисти-ческой фонетики и языковой компетенции экспертов-криминалистов. Предложена методика использования механизма ассоциативных связей на сегментном и супрасегментном уровнях.

В докладе Д. Соутнера, Я. Зелинки и Л. Мюллера (Чешская Республика) «О гибридной системе распознавания речи NN / HMM на базе RNN-ориентированной языковой модели» представлено описание новой системы распознавания речи. Используемая акустическая модель на основе нейронной сети вычисляет апостериорные данные для состояний контекстно-зависимых акустических блоков. В качестве языковой модели использовалась нейронная сеть с максимальным расширением энтропии. Данная гибридная система сравнивалась с предыдущей гибридной систе-

мой, оснащенной стандартной п-граммной языковой моделью. В экспериментах также сравнивались данные со стандартной системой ОММ / НММ. Характеристики системы оценивались с использованием Речевого корпуса британского варианта английского языка некоторых предыдущих систем.

В докладе Я. Швеца и Л. Шмидла (Чешская Республика) «Обнаружение семантического объекта на материале переговоров при управлении воздушным транспортом» рассматривается обнаружение необходимого семантического объекта в системах автоматического распознавания речи применительно к диалогам, относящимся к управлению воздушно-транспортным трафиком. Представленный метод предназначен для использования в автоматическом учебном пособии для авиадиспетчеров. Семантические объекты моделируются с помощью определенных экспертами контекстно-свободных грамматик. Использован новый подход, который позволяет обрабатывать неопределенные данные на входе в виде взвешенного преобразователя с конечным числом состояний. Этот метод был экспериментально оценен с привлечением реальных данных. Проведено также сравнение методов с использованием знаний в области условий ведения диалогов. Результаты показывают, что система со знаниями целевых семантических объектов снижает частоту ошибок с 24,7 до 17,1% по сравнению со стандартными системами обнаружения необходимого семантического объекта.

Доклад В. Верходановой и В. Шапранова (г. Санкт-Петербург) «Обнаружение заполненных пауз и звуковых артикуляций, продленных во времени, в зависимости от акустических особенностей спонтанной русской речи» посвящен акустическому анализу спонтанной речи. Акустический анализ спонтанной речи связан с рядом проблем, к числу которых относятся также так называемые «речевые паразиты». Хотя большинство из них легко обнаруживается самими говорящими и они, как правило, не вызывают каких-либо трудностей при понимании, для системы автоматического распознавания речи (Л8Я) их появление приводит к большому числу ошибок распознавания. В докладе рассматриваются наиболее частотные из них: заполненные паузы и артикуляционные «растяжки» на основе анализа их акустических параметров. Для выявления звонких хезитационных участков применительно к

звонким согласным и гласным использовался метод, основанный на функции автокорреляции, а для обнаружения хезитационных участков применительно к глухим согласным - метод полосовой фильтрации. Для экспериментов по обнаружению заполненных пауз и «растяжек» использовался специально собранный корпус спонтанных диалогов на русском языке (например, описание маршрута по карте и др.). Точность выявления озвонченных заполненных пауз и артикуляционных «растяжек» составила 80%, для оглушенных - 66%.

Целью доклада З. Зайича, Я. Зелинки, Я. Ванека и Л. Мюллера (Чешская Республика) «Сверточная нейронная сеть для уточнения дикторо-адаптивной трансформации» является обсуждение метода уточнения акустической модели речи диктора с помощью сдвига линейной регрессии максимального правдоподобия (MLLR) в случае ограниченного количества данных по адаптации, что может привести к неполным матрицам преобразований. Предлагается метод подавления влияния плохо оцененных параметров преобразования с использованием искусственной нейронной сети (ANN), в частности, сверточной нейронной сети (CNN). Плохо оцениваемое преобразование сдвига MLLR распространяется через ANN (заранее прошедшую соответствующее обучение), а выходные данные сети используются в качестве новой уточненной трансформации. Для обучения ANN в качестве входных и выходных данных ANN используются полные и неполные преобразования сдвига MLLR, соответственно.

Р.К. Потапова, В. В. Потапов

КОММУНИКАЦИЯ. ДИСКУРС. РЕЧЕВЫЕ ЖАНРЫ

2015.03.017. ХРАМЧЕНКО Д.С. АНГЛИЙСКИЙ ДЕЛОВОЙ ДИСКУРС В РАЗВИТИИ: Функционально-синергетические аспекты. -Тула, 2014. - 271 с. - Библиогр.: с. 236-271.

Ключевые слова: английский язык; дискурс; синтаксис; семантика; стилистика.

Монография посвящена проблеме эволюции функционального пространства современного английского делового дискурса.

i Надоели баннеры? Вы всегда можете отключить рекламу.