Научная статья на тему '2016. 02. 014. Труды XVII международной конференции «Речь и компьютер»: серия лекций по искусственному интеллекту (включая серию лекций по компьютерной лингвистике) // Proceedings of the 17 Th International Conference on speech and computer, SPECOM 2015 / ed. By Ronzhin A. , Potapova R. , Fakotakis N. - Heidelberg etc. : Springer Intern. Publ. , 2015. - 506 p. - (ser. : Lecture notes in artificial intelligence (including subseries Lecture notes in computer Science); 9319 lnai)'

2016. 02. 014. Труды XVII международной конференции «Речь и компьютер»: серия лекций по искусственному интеллекту (включая серию лекций по компьютерной лингвистике) // Proceedings of the 17 Th International Conference on speech and computer, SPECOM 2015 / ed. By Ronzhin A. , Potapova R. , Fakotakis N. - Heidelberg etc. : Springer Intern. Publ. , 2015. - 506 p. - (ser. : Lecture notes in artificial intelligence (including subseries Lecture notes in computer Science); 9319 lnai) Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
98
22
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ / МУЛЬТИМОДАЛЬНОЕ ВЗАИМОДЕЙСТВИЕ / ДИСКРИМИНАНТНОЕ МОДЕЛИРОВАНИЕ / АКУСТИЧЕСКИЕ МЕТОДЫ / ДИАЛОГОВАЯ СИСТЕМА / АУДИО-ВИЗУАЛЬНЫЙ АНАЛИЗ / АВТОМАТИЧЕСКОЕ ТЕКСТОВОЕ СОПРОВОЖДЕНИЕ / РЕГРЕССИОННЫЕ МОДЕЛИ / РАСПОЗНАВАНИЕ ГОВОРЯЩЕГО / РЕЧЕВОЙ КОРПУС / КОРПУС ДЕТСКОЙ РЕЧИ / ДЕКОДИРОВАНИЕ РЕЧЕВОГО ДИСКУРСА / СИНТЕЗ РЕЧИ / ГЕНДЕРНАЯ КЛАССИФИКАЦИЯ / СПОНТАННАЯ РЕЧЬ / СЕМАНТИКА СЛОВ / ИНВАРИАНТНЫЕ КОМПОНЕНТЫ / РЕЧЕВЫЕ СИГНАЛЫ / МУЛЬТИМОДАЛЬНОЕ ПРЕДСТАВЛЕНИЕ РЕЧИ / ОЦЕНОЧНАЯ МОДАЛЬНОСТЬ / ВЕРИФИКАЦИЯ ГОВОРЯЩЕГО / СИНТЕЗИРОВАННАЯ И ЕСТЕСТВЕННАЯ РЕЧЬ
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Потапова Р. К., Потапов В. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «2016. 02. 014. Труды XVII международной конференции «Речь и компьютер»: серия лекций по искусственному интеллекту (включая серию лекций по компьютерной лингвистике) // Proceedings of the 17 Th International Conference on speech and computer, SPECOM 2015 / ed. By Ronzhin A. , Potapova R. , Fakotakis N. - Heidelberg etc. : Springer Intern. Publ. , 2015. - 506 p. - (ser. : Lecture notes in artificial intelligence (including subseries Lecture notes in computer Science); 9319 lnai)»

привлеченных видных ученых и т.д. Поэтому многие учебные курсы вынуждены доказывать свою значимость на рынке востребованности.

В докладе Б. Ройтер «От примадонны до девушки, которую никто не приглашает на танец» автор излагает ситуацию, сложившуюся с преподаванием немецкого языка в Финляндии. Финская система образования в настоящее время преобразуется по образцу неолиберальных реформ, распространенных в Польше, прибалтийских и др. странах. Это означает дедемократизацию школьного и высшего образования из-за введения New Public Management, соревновательной системы между школами и вузами и других отрицательных нововведений, в результате которых старые «проверенные» временем учебные курсы заменяются другими, обещающими «капитализацию знания» (с. 334). Автор указывает пути выхода из сложившейся ситуации.

Э.Б. Яковлева

2016.02.014. ТРУДЫ XVII МЕЖДУНАРОДНОЙ КОНФЕРЕНЦИИ «РЕЧЬ И КОМПЬЮТЕР»: СЕРИЯ ЛЕКЦИЙ ПО ИСКУССТВЕННОМУ ИНТЕЛЛЕКТУ (включая серию лекций по компьютерной лингвистике) // Proceedings of the 17 th International conference on speech and computer, SPECOM 2015 / Ed. by Ronzhin A., Potapova R., Fakotakis N. - Heidelberg etc.: Springer intern. publ., 2015. - 506 p. -(Ser.: Lecture notes in artificial intelligence (including subseries Lecture notes in computer science); 9319 LNAI).

Ключевые слова: автоматическое распознавание речи, муль-тимодальное взаимодействие, дискриминантное моделирование, акустические методы, диалоговая система, аудио-визуальный анализ, автоматическое текстовое сопровождение, регрессионные модели, распознавание говорящего, речевой корпус, корпус детской речи, декодирование речевого дискурса, синтез речи, гендерная классификация, спонтанная речь, семантика слов, инвариантные компоненты, речевые сигналы, мультимодальное представление речи, оценочная модальность, верификация говорящего, синтезированная и естественная речь.

20-24 сентября 2015 года в г. Афины (Греция) на базе Университета г. Патры (Греция) в сотрудничестве с Московским госу-

дарственным лингвистическим университетом (МГЛУ), Санкт-Петербургским институтом информатики и автоматизации РАН (СПИИРАН) и Санкт-Петербургским Национальным исследовательским университетом информационных технологий, механики и оптики (университет ИТМО) состоялась XVII Международная конференция SPEC0M'2015 «Speech and computer» («Речь и компьютер»). В данном реферате представлены статьи, связанные, прежде всего, с лингвистической проблематикой.

Доклад Г. Риголла (Германия) «Мультимодальное взаимодействие человека и робота с позиции специалиста-речеведа» посвящен проблеме коммуникации «человек - робот» (КЧР). Отмечается, что в то время как роботы в течение ХХ века создавались в основном для автономного применения, повышение спроса на «обслуживающих» роботов обусловило разработку эффективных методов коммуникации между пользователями-людьми и самими роботами. Разработка подобных систем ускорилась в связи с созданием антропоморфных роботов, где потребность в эффективном взаимодействии «человек - робот» является еще более очевидной. В докладе подчеркивается, что благодаря успеху систем КЧР в сфере обслуживания и робототехники интерфейсы «человек - робот» становятся в настоящее время привлекательными даже в тех областях, где КЧР ранее никогда не играла важной роли, особенно для промышленных роботов (или «роботов под открытым небом»). По сравнению с классическим взаимодействием «человек - компьютер», по мнению автора, основные алгоритмы взаимодействия «человек - робот» будут отличаться не столь сильно. Прежде всего, это относится к функционированию системы автоматического распознавания речи и жестов. Основные различия между системами «человек - компьютер» и «человек - робот» могут заключаться в использовании различных форм взаимодействия, которые также будут зависеть от типа и предназначения робота. В докладе описаны основные различия между коммуникацией «человек - компьютер» и «человек - робот», представлены наиболее важные формы взаимодействия, используемые в этих видах коммуникации. Автор затрагивает также вопрос взаимодействия «человек - робот» в зависимости от различных типов доступных в данное время робото-технических платформ. Мультимодальное взаимодействие включает также задачу разработки интерфейса «мозг человека - машина».

В докладе М. Сараклара, Э. Дикичи и Э. Арисойя (Турция) «Десятилетие метода дискриминантного моделирования языка, применяемого для разработки систем автоматического распознавания речи» обобщаются результаты исследований методом дискриминантного моделирования языка применительно к автоматическому распознаванию речи (АРР). Дискриминантная модель языка (ДМЯ), как правило, является линейной или логарифмиче-ско-линейной моделью, включающей весовой вектор, ассоциируемый с векторным представлением признаков представления предложения. Подобное гибкое представление предложения может включать лингвистически и статистически обусловленные признаки, которые обладают морфологической и синтаксической информацией. В процессе тестирования ДМЯ используется для дальнейшего переранжирования данных на выходе системы АРР, представленных как список наилучших Н-репрезентаций или как фреймовая решетка. Во время обучения используются как корректные, так и некорректные примеры с целью оптимизации выявления частоты ошибок. Для оценки параметров ДМЯ использованы различные методы машинного обучения, например, структурно-пер-септронный метод, метод прогнозирования, метод максимального условного логарифмического правдоподобия. Корректные примеры для обучения ДМЯ берутся из выборки выполненных вручную транскрипций акустических данных, а некорректные примеры получают путем обработки тех же акустических данных системой АРР. Результаты последних исследований позволяют обобщить данные обучения ДМЯ либо путем использования автоматических транскрипций для корректных примеров, либо с помощью моделирования некорректных примеров.

В докладе Р. Потаповой, Л. Комаловой, Н. Боброва (Москва) «Акустические методы исследования эмоционального состояния 'агрессия'» представлены результаты сопоставления данных перцептивно-слухового и акустического видов анализа образцов звучащей речи на русском, английском, испанском и татарском языках применительно к эмоциональному состоянию, приближенному к состоянию агрессии (по Р.К. Потаповой). Описываются особенности выбора информативных характеристик речи в подобного рода исследованиях. Отмечается, что состояние агрессии (как специфический частный случай состояния эмоционального возбу-

ждения) на акустическом уровне характеризуется рядом маркированных параметров, не всегда совпадающих с перцептивно-слуховой оценкой стимулов аудиторами. Как показали результаты исследования, воспринимаемые признаки, связываемые аудиторами с проявлением состояния, близкого к агрессии, не всегда соотносятся с акустическими параметрами, которые обычно считаются их коррелятами. Кроме того, установлено, что характер соотношения между вышеуказанными характеристиками в ряде случаев зависит от анализируемого языка.

В докладе приведены предварительные данные произносительной маркированности эмоционального состояния, близкого к состоянию агрессии, для исследуемых языков: максимальные значения частоты основного тона соответствуют воспринимаемому признаку «высокий голос» и играют определяющую роль при слуховом восприятии состояния, близкого к агрессии, только для татарского языка; максимальные значения уровня интенсивности речевого сигнала соответствуют воспринимаемому признаку «сильный голос» и являются релевантными при восприятии состояния, близкого к агрессии исключительно для испанского языка; значения параметров акустического анализа подтверждают данные перцептивно-слуховых экспериментов в отношении изрезанности мелодического контура для подавляющего большинства примеров применительно к анализируемым языкам; максимальные значения параметра «скорость речи» (количество слогов за единицу времени) соотносятся с воспринимаемым признаком «темп речи» для русского и татарского языков, в то время как для испанского языка этот признак не является информативным.

В докладе М. Койта (Эстония) «Анализ взаимодействия 'человек-человек' с целью разработки диалоговой системы» анализируются диалоги из корпуса диалогов на эстонском языке с целью разработки диалоговой системы на естественном языке. Проанализированы три подкорпуса: (1) телефонный маркетинг, где менеджер по продажам образовательной организации уговаривает клиента пройти курс обучения; (2) разговоры между турагентом и клиентом, который планирует поездку; и (3) бытовые разговоры, где один из участников требует, чтобы партнер выполнил некоторое действие. Особый случай коммуникативного взаимодействия -обсуждение, при котором у коммуникантов противоположные

коммуникативные цели. Данный вид коммуникации был реализован в виде экспериментальной диалоговой системы.

В докладе М. Железны, З. Крноула, П. Йедлички (Чехия) «Анализ лицевой мимики для разработки синтеза визуальной "речи"» представлена интерпретация данных анализа фиксации движения лицевых мышц лица (мимики) для последующего синтеза визуальной «речи». Для решения задачи была записана артику-ляционно-фонационная и визуальная «речь» одного испытуемого с использованием 170 искусственно составленных слов. Запись проводилась на современной аппаратуре фиксации тончайших нюансов лицевой мимики. В докладе предлагается новый нелинейный метод аппроксимации данных фиксации движений с использованием заранее определенного набора артикуляционных параметров. Результаты сравнения показывают, что предлагаемый метод дает более надежные результаты, чем базовый метод с тем же числом параметров. Точность аппроксимации оценивается по значениям параметров, полученных на базе набора данных, а также проверяется на анимационной трехмерной (3 Э) модели головы человека. В качестве выходных данных имеется воспроизведение визуальной «речи» искусственным образом.

В докладе Р. Потаповой и Л. Комаловой (Москва) «Перцептивно-слуховое распознавание эмоционального состояния агрессии» предлагается многоэтапное исследование вербально-когнитивных механизмов, относящихся к становлению и развитию вербальной реализации эмоционального состояния «агрессия». В докладе описывается ряд экспериментальных исследований, которые включают перцептивно-слуховой анализ сценической речи мужчин, передающих эмоциональное состояние агрессии для русского, американского варианта английского, кастильского варианта испанского и казанского варианта татарского языков. Полученные статистически выверенные данные подтверждают обнаруженные ранее перцептивно-слуховые маркеры эмоционального состояния «агрессия» в анализируемых языках. Эмоционально-модальное состояние, близкое к состоянию агрессии, на уровне слухового восприятия речевых высказываний характеризуется, как правило, следующим набором просодических признаков: средней или максимальной высотой голоса, большей степенью громкости голо-

са, изрезанным мелодическим контуром, наличием коротких пауз, нечетким (смазанным) речевым ритмом.

Н.А. Мадзлан (Ирландия, Малайзия), Ю. Хуань, Н. Кэмпбелл (Ирландия) в своем докладе «Автоматическая классификация прогнозирования эмоционального настроения: аудио-визуальный анализ видеоблогов» описывают мультимодальное исследование автоматического распознавания эмоционального настроя на материале корпуса, состоящего из 500 фрагментов, из видеоблогов. Проанализировано три различных поведенческих состояния говорящих. Использовался материал от 10 различных коммуникантов, мужчин-носителей американского варианта английского языка в возрасте от 18 до 25 лет. Исследовались три вида эмоционального настроя: позитивное, негативное и нейтральное. Проанализированы также акустические (в данном случае просодические) и визуальные характеристики информантов. В работе использовались методы и приемы машинного обучения системы. Мультимодальный подход позволил определить максимальную информативность признака частоты основного тона и движения бровей применительно к выявлению позитивных и негативных эмоций.

В докладе «Автоматическое текстовое сопровождение (субтитры) для транслируемой в прямом телеэфире венгерской речи: быстрый и ресурсосберегающий подход» А. Варга, Б. Тарьян, З. Тоблер, Г. Шашак, Т. Фегио, Ч. Бордас и П. Михайлик (Венгрия) рассматривают применение технологии распознавания слитной речи на материале большого словаря в режиме реального времени в условиях ограниченных ресурсов для обеспечения текстового сопровождения (субтитров) звучащей речи. Трудность заключается в транскрибировании разговорной речи в прямом эфире, что необходимо для разработки программ для глухих и тугоухих зрителей. В связи с ограничениями вычислительных возможностей применительно к режиму в реальном времени и требованиям к объему памяти встает вопрос о декодировании сигнала. При этом используются различные модели (преобразование устной речи в письменную) в прямом эфире для венгерского языка. При выполнении задачи транскрибирования фонограмм сравниваются два декодера, а также испытываются установки с участием специалистов, владеющих техникой транскрибирования. Модели оцениваются

при выполнении задачи транскрибирования транслируемых новостей, а также проходят испытания различные языковые модели.

В. Симаки, К. Аравантину, И. Мпорас и В. Мегалуиконому (Греция) в докладе «Автоматическая оценка возраста блогеров с использованием регрессионных моделей» обращаются к проблеме автоматической оценки возраста веб-пользователей на основе их сообщений. В большинстве исследований по определению возраста этот вопрос рассматривается как проблема классификации. Вместо того, чтобы следовать подходу классификации по возрастной категории, в работе исследуется вопрос о целесообразности использования нескольких алгоритмов регрессии в задаче оценки возраста. Авторами оценивается ряд хорошо известных и широко используемых алгоритмов машинного обучения для численной оценки, чтобы определить их уместность для решения данной задачи. Используется корпус, состоящий из 42 текстов. Результаты эксперимента показали, что алгоритм Bagging на базе программы RepTree обеспечивает наилучшие показатели и оценки возраста веб-пользователей (средняя абсолютная погрешность равна 5,44, среднеквадратичная погрешность - 7,14).

В докладе К. Симончика, С. Алейника, Д. Иванко и Г. Лаврентьевой (Санкт-Петербург) «Автоматическая предварительная обработка речевого сигнала с целью обнаружения поврежденных фрагментов записи и дальнейшего распознавания говорящего» предлагается метод предварительной обработки, который позволяет обнаружить «щелчки», клиппированный сигнал, музыкальную помеху и т.д., а также сегменты речевого сигнала хорошего качества. В результате использования предлагаемого метода эффективность распознавания системы значительно возрастает. Следует отметить, что при описании детекторов шума авторы ставили целью лишь представить полный список алгоритмов, которые использовались, а также их параметров, полученных в экспериментах. Основная цель данной работы заключается в том, чтобы показать, что использование набора простых детекторов достаточно эффективно при обнаружении речи для задачи распознавания говорящего в условиях реального шума.

В докладе Т. Теодору, И. Мпораса и Н. Факотакиса (Греция) «Автоматическое распознавание звука в условиях городской среды» рассматривается автоматическая система распознавания

звуков, которая анализирует звуковые акустические «события» в условиях городской среды. Эксперименты проводились с использованием набора звуковых событий, из которых были извлечены хорошо известные и широко используемые аудиодескрипторы, а также моделей, которые обучались с использованием мощных алгоритмов машинного обучения. Лучшее распознавание звуков городской среды достигается 8УМ (методом опорных векторов) с точностью, равной примерно 93%.

В совместном докладе Е. Ляксо, О. Фроловой, Е. Дмитриевой, А. Григорьева, А. Карпова (Санкт-Петербург) и Х. Кая, А.А. Салаха (Турция) «Корпус эмоциональной детской русской речи "ЕшоСЫМКи"» представлен первый корпус эмоционально окрашенной детской русской речи под названием «ЕшоСЫЫЯи», который содержит аудиозаписи речи детей от трех до семи лет. База данных включает более 20 тыс. записей (прибл. 30 час.) речи 100 детей. Записи проводились в трех типах контролируемых условий, при которых «вызывались» различные эмоциональные состояния детей: игры со стандартным набором игрушек; повторение слов с использованием игрушечного попугая в условиях игры «магазин»; просмотр мультфильма и пересказ сюжета. Корпус предназначен для изучения эмоционального состояния детей по голосу и речи, а также для изучения формирования эмоциональных состояний в онтогенезе. Часть корпуса аннотирована с учетом трех эмоциональных состояний (дискомфорт, нейтральное состояние, комфорт). Дополнительные данные включают измерения активности мозга (исходные ЭЭГ, запись «вызванных» мозговых потенциалов), результаты анализа взрослыми слушателями речи ребенка, анкеты и описание диалогов. В работе описаны два эксперимента по анализу детской эмоциональной речи: взрослыми реальными слушателями и с помощью автоматического классификатора. Результаты автоматической классификации схожи с результатами восприятия речи человеком. Вместе с тем точность оценки в обоих случаях ниже 55%, что свидетельствует о трудности определения детских эмоций по речи в естественных условиях.

Доклад Р. Потаповой и В. Потапова (Москва) «Когнитивный механизм декодирования смыслового содержания речевого дискурса в шуме» содержит результаты экспериментальных исследований в области слухового распознавания смыслового со-

держания речи на основе устных текстов на русском языке в условиях шума. В процессе анализа слушателям было предложено несколько текстов в условиях шума. Затем определялись основные темы и подтемы текстов-стимулов. В исследованиях по речевос-приятию слушающий обычно «декодирует» звуки и слоги, фрагменты речи или просодию высказываний. Подобного рода эксперименты являются относительно простыми. Более сложной является задача распознавания речевых сигналов с учетом разборчивости в условиях шума, а наиболее сложными являются эксперименты по перцептивному распознаванию и пониманию смыслового содержания речевого высказывания в условиях шума. На основе проведенного многоэтапного экспериментального исследования предпринята попытка определить когнитивную специфику функционирования лингвистического механизма применительно к декодированию смысловой информации в речемыслительной деятельности человека в затрудненных условиях. Предполагается, что процесс восприятия, когнитивного анализа, осмысления и семантического «восстановления» текста с учетом медиа- и макросегментации письменной и устной речи активирует разноуровневые речемысли-тельные процессы на базе когнитивной рефлексии и коммуника-тивно-деятельностного подхода. Степень вариативности медиасег-ментации при восстановлении текстов существенно ниже, чем степень вариативности макросегментации.

Л. Демри, Л. Фалек и Х. Теффахи (Алжир) в докладе «Вклад в разработку системы синтеза выразительной речи для арабского языка» обсуждают процесс разработки системы синтеза выразительной речи для арабского языка. Система использует сочетание (конкатенацию) дифонов как метод синтеза для генерирования 10 фонетически сбалансированных предложений на арабском языке применительно к таким эмоциональным состояниям, как страх, счастье, удивление и др. Описываются правила транскрипции, а также используемая методика записи базы данных дифонов. Качество синтеза оценивалось с помощью перцептивно-слухового анализа.

В докладе Е. Ляксо и О. Фроловой (Санкт-Петербург) «Голосовые признаки проявления эмоций: применительно к шимпанзе, детям разного возраста, взрослым» представлены результаты анализа голосовых характеристик как человека в различном

возрасте, так и шимпанзе при изменении эмоционального состояния. В качестве испытуемых выступили дети в возрасте от трех до 12 месяцев, а также в возрасте от трех до семи лет; взрослые (по профессии - актеры) и шимпанзе в возрасте 3-17 лет. В перцептивно-слуховом эксперименте принимали участие взрослые слушатели (п=360). Использовались перцептивно-слуховые акустические (спектрографические) методы анализа. Воспринимаемые состояния распределялись по бинарной шкале: комфорт - дискомфорт. Отражение состояния дискомфорта в речевых сигналах детей различного возраста в вокализациях шимпанзе и в речи взрослых воспринималось слушателями более однородно, чем отражение в голосе состояния комфорта. Установлено, что значения частоты основного тона и их вариативность, значения третьей «эмоциональной» форманты и продолжительность стимула являются важными акустическими характеристиками, служащими для распознавания состояния дискомфорта по голосовому сигналу.

К. Аравантину, В. Симаки, И. Мпорас и В. Мегалуиконому (Греция) в докладе «Гендерная классификация авторов веб-блогов с использованием отбора признаков и моделей языка» рассматривают проблему автоматической гендерной классификации авторов веб-блогов. Авторы применяют восемь широко используемых алгоритмов машинного обучения с целью изучения влияния выбора характеристик на повышение точности гендерной классификации. Оценка характеристик осуществляется по набору статистических функций, функций маркирования частей речи и функций модели языка. В экспериментах использовались модели классификации на основе деревьев решений, методы опорных векторов и алгоритмы «отложенного» обучения. Экспериментальная оценка показала значимость особенностей языковой модели для решения поставленной задачи классификации пола автора блога.

Целью доклада А. Прудникова, И. Меденникова, В. Менде-лева, М. Кореневского и Ю. Хохлова (Санкт-Петербург) «Совершенствование акустических моделей, предназначенных для распознавания спонтанной русской речи» является изучение путей совершенствования акустических моделей, предназначенных для распознавания слитной спонтанной русской речи. Авторы использовали ряд этапов существующих методов применительно к русской речи, на основе которых были разработаны два подхода:

использование нейронной сети на основе ^вектора и информация о зависящих от говорящего особенностей, что обеспечивает снижение частоты ошибок.

В докладе М. Конопика и О. Пражака (Чехия) «Источники информации для методов вычисления семантики слов» изучается качество и ортогональность информационных источников, используемых в методах вычисления семантики слов. Качество методов для сравнения измеряется по нескольким созданным вручную наборам данных. Ортогональность оценивается путем измерения характеристик, когда два источника информации являются линейно интерполированными и используют оптимальные параметры интерполяции. Выводы эксперимента включают как ожидаемые, так и не ожидаемые результаты. Тем самым подчеркивается роль более глубокого понимания информационного вклада отдельных методов.

В докладе В. Женило и В. Потапова (Москва) «Инвариантные компоненты речевых сигналов: анализ и визуализация» рассмотрена проблема передачи информации с помощью звуковых волн, которые в реальных условиях весьма вариативны. Информацию можно передавать только лишь с помощью инвариантных структур, каковыми могут выступать частоты гармонических составляющих речевых сигналов. Некоторые подобные инвариантные структуры формируются непосредственно в аппарате речеоб-разования в виде частот свободно затухающих колебаний воздушного столба речевого тракта. А некоторые образуются в слуховой системе человека, например, обертоны голоса. Экспериментально показано, что слуховая система человека наиболее чувствительна к изменениям именно инвариантных компонентов звука речи - гармоническим компонентам речевого сигнала. При невозможности восприятия по отдельности быстро повторяющихся голосовых импульсов слух воспринимает часто повторяющуюся последовательность голосовых импульсов как совокупность обертонов голоса, описываемых сигналами гармонического типа. А механизмы диагностики и визуализации реально продуцируемых гармоник и слышимых гармоник одни и те же. Таким образом, экспериментально показано, что слуховая система человека наиболее чувствительна к изменениям именно инвариантных компонентов речевых

сигналов. Предлагаются методы диагностики гармонических составляющих речевых сигналов, т. е. его инвариантных компонентов.

Д. Попов и В. Попова (Болгария) в своем докладе «Мульти-модальное представление детской речи на материале болгарского языка» останавливаются на некоторых возможностях наиболее часто используемых интерактивных платформ, таких как Та1кВапк и СИ1ЬВЕ8, чьи различные корпуса имеют чрезвычайно широкий спектр применения в различных областях науки и общественной жизни, что, в свою очередь, определяет их как социально значимые и важные. Кроме того, в докладе представлен корпус детской речи на болгарском языке, созданный в рамках презентации мультимодальной парадигмы.

А. Кумпури, И. Мпорас и В. Мегалуиконому (Греция) в докладе «Определение оценочной модальности отзывов на фильмы методом объединения классификаторов» представили комбинированную схему определения мнений, основанную на дискриминантных и вероятностных алгоритмах, деревьях решений. Предложенная схема включает комплексную информацию, представленную в каждой из моделей распознавания на уровне принятия решения. Результаты эксперимента показали, что предложенная комбинированная схема достигает степень эффективности распознавания в 87,90%, повышая точность наиболее эффективной модели распознавания мнений на 3,5%.

В настоящее время использование информационных технологий в терминографии приводит к появлению принципиально новой лексикографической парадигмы по сравнению с классическими представлениями об упорядочивании семантического компонента естественно-языковых единиц.

В докладе Р. Потаповой и К. Оськиной (Москва) «Семантические многоязычные различия терминологических дефиниций (на примере концепта 'Искусственный интеллект')» рассматриваются подходы к формализации представления семантического компонента лексики на примере термина «Искусственный интеллект» на материале русского, английского и немецкого языков. Предпринимается также попытка разработать оптимальную стратегию формирования контекстно-ориентированного терминологического электронного переводного словаря. Анализ диапазона значений термина «Искусственный интеллект» наглядно

демонстрирует необходимость применения данной концепции вследствие разрушения априорной эквивалентности терминов Тх, Ту и Т2. Такого рода уязвимость подтверждает необходимость формирования контекстно-ориентированного электронного переводного словаря. Определяющей чертой такого словаря является его прикладная направленность. Стратегия формализации семантической информации, представленная в данной статье, открывает новые возможности для автоматизации процесса перевода. Предложенная в работе концепция позволяет свести к минимуму или избежать получения нерелевантных результатов на выходе при использовании систем машинного перевода.

В докладе А. Степихова (Санкт-Петербург) «Роль социолингвистических факторов в определении границы предложения в тексте» рассматриваются взаимосвязи между восприятием спонтанной речи на основе текстовой информации и исходной речи в виде звукозаписи. Автор исследует факторы, которые могут повлиять на степень читательской «интуитивной оценки» просодических характеристик исходной речи. Для изучения просодической «компетенции» читателя внимание докладчика было сосредоточено на паузе как наиболее очевидном признаке просодических границ. Был проведен статистический анализ с целью выяснить, с одной стороны, существует ли корреляция между оценкой конца предложения аннотатором (лицом, выполняющим реферирование текста) и реальной паузой в этих позициях, и, с другой стороны, влияют ли на эту оценку тип текста и социолингвистические характеристики говорящего.

В докладе «Метод разреженности и компенсации на основе ьвектора применительно к верификации говорящего» В. Ли,

Т. Фан Фу, Д. Жу и Н. Чен (Китай) представили результаты анализа, показывающие, что в случае, если продолжительность регистрации или тестового высказывания ограничивается, то в системе на основе 1-вектора может возникнуть проблема предвзятой оценки. Для того чтобы решить эту проблему, авторы предложили улучшенный алгоритм извлечения 1-вектора, который был назван «Адаптированным статистическим анализом Баума-Велша первого порядка» (АБ8А). Этот новый алгоритм подавляет и компенсирует отклонения статистических данных Баума-Велша первого порядка, вызванные недостаточностью фонетической информации и фоне-

тическим дисбалансом. Эксперименты проводились на основе наборов данных 8ЯЕ М8Т 2008. Результаты эксперимента показывают, что по сравнению с базовой традиционной системой на основе ^вектора достигается относительное улучшение верификации на 10-15%.

В докладе «Идентификация говорящего с использованием полууправляемого процесса обучения системы» Н. Фаза-кис, С. Карлос, С. Котсиантис и К. Сгарбас (Греция) представили новый автоматический метод идентификации говорящего. В методах классификации с использованием полууправляемого процесса обучения основное значение приобретают имеющиеся в базе данных немаркированные примеры наряду с небольшим набором маркированных примеров. Подобное сочетание может повысить точность классификации по сравнению с методом обучения, где используются исключительно маркированные примеры. После сравнения с другими известными методами обучения системы авторы пришли к выводу, что представленный метод обеспечивает в большинстве случаев более высокую точность результатов идентификации говорящего.

В докладе Е. Булгаковой, А. Шолохова, Н. Томашенко и Ю. Матвеева (Санкт-Петербург) «Верификация говорящего с использованием спектральных и сегментно-временных характеристик» сообщается о некоторых результатах, полученных путем совмещения методов верификации говорящего с участием человека, т. е. полуавтоматических методов с использованием характеристик формант, с одной стороны, и статистических данных с учетом значений длительности звуков, с другой стороны. Эксперименты на базе спонтанной речи показали, что с помощью использования характеристик длительности звуковых сегментов можно достичь лучших результатов применительно к задаче верификации говорящего.

Исследование, описанное в докладе Н. Богдановой-Бегларян, Г. Мартыненко и Т. Шерстиновой (Санкт-Петербург) «Корпус 'Повседневная речь': Фонетика и синтаксис бытовой русской

речи», проведено на базе корпуса повседневной русской речи, который содержит постоянно проводимые аудиозаписи повседневной речевой коммуникации. Корпус включает богатый аутентичный материал для исследований в области фонетики и синтаксиса раз-

говорной русской речи и может быть использован, например, для настройки и совершенствования систем синтеза и распознавания речи. Текущие фонетические исследования корпуса соотносятся с исследованиями в области изучения редукции речи, фонетических реализаций слов и аффиксов, фонетических ошибок и «ослышек», ритмических структур и пауз хезитаций и т. д. Синтаксические исследования, прежде всего, касаются порядка слов, синтаксических групп, синтаксической сложности устных высказываний и конкретных синтаксических явлений спонтанной речи и т.д. В докладе авторы кратко описывают основные результаты, полученные в фонетических и синтаксических исследованиях с применением данного корпуса и намечают некоторые направления для дальнейших исследований.

В докладе «Роль просодии при восприятии синтезированной и естественной речи» М. Маркович, Б. Яковлевич, Т. Мили-чев и Н. Мильевич (Сербия) представлены результаты исследования восприятия синтезированной и естественной речи, а также результаты по изучению роли просодических характеристик и пауз в процессе понимания речи. Исследование включало ряд задач, связанных с восприятием, в том числе оценку качества, задачу на определение разборчивости и задачу на понимание тестов, состоящих из десяти коротких и одного длинного текста на сербском языке, «произнесенных» синтезатором речи А^аНиш и профессиональным актером, а также последующее задание на понимание синтезированной речи с модифицированными паузами. Результаты исследования разборчивости речи демонстрируют аналогичные результаты для обеих групп испытуемых. Задача на понимание решается лучше для естественной, а не синтезированной речи. Результаты решения последующих задач показывают, что модифицированная просодия способствовала получению лучших оценок со стороны испытуемых. Тестирование оценки качества показало предпочтение испытуемыми естественной речи, главным образом, на основе просодических характеристик и пауз.

Т. Валента и Л. Шмидл (Чехия) в докладе «^еЬТгашс - Веб-интерфейс для создания и анализа речевых корпусов» представили веб-приложение, которое было разработано для подготовки и обработки речевых корпусов - основных источников данных для автоматического распознавания речи, анализа естественного языка,

синтеза речи и многих других задач. Приложение позволяет пользователям анализировать данные корпусов с использованием исключительно веб-браузера с доступом в Интернет без привлечения других средств. Приложение использовалось, обновлялось и совершенствовалось в течение нескольких лет.

Р.К. Потапова, В. В. Потапов

КОММУНИКАЦИЯ. ДИСКУРС. РЕЧЕВЫЕ ЖАНРЫ

2016.02.015. ГУЛИНОВ Д.Ю. ДИСКУРСИВНЫЕ ХАРАКТЕРИСТИКИ ЯЗЫКОВОЙ ПОЛИТИКИ СОВРЕМЕННОЙ ФРАНЦИИ. -

Волгоград: «Перемена», 2015. - 220 с.

Ключевые слова: языковая политика; французская лингво-культура; резистентность коммуникативного поведения; языковое планирование; языковое строительство; языковое обустройство; прескрипции.

Гулинов Дмитрий Юрьевич - канд. филол. наук, доц. каф. романской филологии Волгогр. гос. соц.-пед. ун-та, спец. в обл. социолингвистики и теории дискурса.

В монографии характеризуется проявление языковой политики в различных типах современного французского дискурса. При этом сохранение резистентности французского коммуникативного поведения по отношению к глобализации трактуется как фактор языковой политики.

Книга состоит из введения, трех глав и заключения.

Во введении автор отмечает, что «своеобразие языковой политики Франции выражается в целенаправленной лингвокреатив-ной деятельности государственных структур и общественности, происходящей в социальных институтах. Языковую политику Франции отличает также дискурсивная вариативность, предполагающая существование зон сопротивляемости языка внешнему давлению в виде иноязычных заимствований. Наконец, основу языковой политики Франции составляют прескрипции применительно к различным типам дискурса и коммуникативным ситуациям в современном французском социуме» (с. 5).

i Надоели баннеры? Вы всегда можете отключить рекламу.