Научная статья на тему 'XIX международная конференция SPECOM’2017 "Speech and computer" ("речь и компьютер"). (обзор)'

XIX международная конференция SPECOM’2017 "Speech and computer" ("речь и компьютер"). (обзор) Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
101
17
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕЧЕВЫЕ ТЕХНОЛОГИИ / КОММУНИКАЦИЯ "ЧЕЛОВЕК МАШИНА" / МУЛЬТИМОДАЛЬНОЕ ВЗАИМОДЕЙСТВИЕ "ЧЕЛОВЕК МАШИНА" / РАСПОЗНАВАНИЕ РЕЧИ / АВТОМАТИЧЕСКАЯ ИДЕНТИФИКАЦИЯ / ПРЕОБРАЗОВАНИЕ "ТЕКСТ РЕЧЬ"
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Потапова Р.К., Потапов В.В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «XIX международная конференция SPECOM’2017 "Speech and computer" ("речь и компьютер"). (обзор)»

гражданской обороной и прочее (губернатор Пермского края) и определение основ государственной политики, а также осуществление внешнего представительства федеральной земли (премьер-министр Нижней Саксонии). Анализ позволил выявить небольшое количество симметричных наименований отделов и должностей.

Авторы считают, что при обучении переводчиков необходимо разъяснять понятие протокольного старшинства, тренировать обучающихся в переводе наименований структурных единиц и должностей правительств, указывать на необходимость соблюдения последовательности при именовании принимающих участие во встречах на высоком уровне лиц, предоставлять ссылки на достоверные интернет-источники, которыми может пользоваться переводчик во избежание недоразумений.

2018.02.023. Р.К. ПОТАПОВА, В В. ПОТАПОВ. XIX МЕЖДУНАРОДНАЯ КОНФЕРЕНЦИЯ SPECOM'2017 «SPEECH AND COMPUTER» («РЕЧЬ И КОМПЬЮТЕР»). (Обзор). Speech and computer: SPECOM 2017 / Ed. by Karpov A., Potapova R., Mporas I. - Cham; Heidelberg; N.Y.; Dordrecht; L.: Springer intern. publishing, 2017. - Vol. 10458. - 831 p. - (Lecture notes in artificial intelligence ser., including Lecture notes in computer science subser.).

Ключевые слова: речевые технологии; коммуникация «человек - машина»; мультимодальное взаимодействие «человек - машина»; распознавание речи; автоматическая идентификация; преобразование «текст - речь».

С 12 по 16 сентября 2017 г. в г. Хэтфилде (Великобритания) в университете Хертфордшир (University of Hertfordshire) состоялась очередная XIX Международная конференция «Речь и компьютер» (SPECOM'2017), объединенная со II Международной конференцией по интерактивной коллаборативной робототехнике (ICR 2017). В качестве организаторов конференции традиционно выступили Московский государственный лингвистический университет (МГЛУ) и Санкт-Петербургский институт информатики и автоматики РАН (СПИИ РАН). Кроме того, к этому мероприятию в 2017 г. присоединился Санкт-Петербургский национальный исследова-

тельский университет информационных технологий, механики и оптики, а также вышеупомянутый университет Великобритании.

В реферате отражены материалы докладов, имеющие непосредственное отношение исключительно к проблемам прикладной лингвистики. Большая часть докладов была посвящена разработке речевых и мультимодальных технологий, программным средствам, новым технологиям.

Лингвистическая тематика, нашедшая отражение в докладах, представленных на конференции, включала все те области лингвистических знаний, которые связаны с коммуникацией «человек -машина» на базе информации о конкретных признаках и параметрах письменной и устной речи. Например, известно, что для развития современных информационных технологий в цифровой среде необходимы репрезентативные массивы лингвистических данных, что обусловило стремительное развитие корпусной лингвистики с охватом устной и письменной речи. Подтверждение этому мы находим в целом ряде докладов. Например, в докладе Н. Богдановой-Бегларян, Т. Шерстиновой и др. (Санкт-Петербург) «Лингвистические признаки и социолингвистическая вариативность повседневной русской речи» (Linguistic Features and Sociolinguistic Variability in Everyday Spoken Russian) представлены результаты исследования, проведенного с использованием аннотированного субкорпуса повседневной русской речи, содержащего 125 000 слов, входящих в состав аннотированного корпуса повседневной русской речи, сформированного по данным 256 информантов с учетом ген-дера, возраста, профессии и социального статуса. В ходе исследования авторы опираются на три категории: а) диагностические признаки, которые отражают статистически надежные различия между социальными группами; б) лингвистические признаки, которые могут быть рассмотрены как общие для всех социолектов и относящиеся к постоянным универсальным проявлениям реализации повседневного русского языка; в) потенциально диагностические признаки, которые отражают количественные на текущий момент различия между исследуемыми группами (пока статистически не

оцененными). Данное исследование базируется на теоретическом фундаменте отечественных лингвистов1.

Метод лонгитюдного формирования корпуса фонограмм, содержащих повседневную русскую речь, изложен в докладе А. Мустайоки (Хельсинки), Т. Шерстиновой (Санкт-Петербург) «Ретроспективное комментирование как предмет лонгитюдного процесса записи повседневной русской речи» (The «Retrospective Commenting» Method for Longitudinal Recordings of Everyday Speech). В докладе рассматриваются ситуации «неудавшейся» коммуникации при наличии обоих партнеров, что связано с переспросом всех видов дискурса и эмоциональным напряжением коммуникантов. Авторы формируют суббазу различного рода переспросов в составе основной базы данных для повседневной русской речи. В докладе рассматриваются различные виды межличностной коммуникации, реализующиеся в режиме непонимания, уточнения, эмоционального напряжения и т.д.

Доклад Р. Потаповой и Л. Комаловой «Лексико-семантичес-кие показатели корреляции модальности "депривация - агрессия" в социально-сетевом дискурсе» (Lexico-Semantical Indices of «Deprivation - Aggression» Modality Correlation in Social Network Discourse) (Москва) посвящен описанию результатов дальнейшей разработки базы данных, содержащих лексику агрессивных высказываний на материалах четырех языков: русского, английского, испанского, татарского - репрезентантов различных языковых семей. В докладе представлены результаты количественного анализа русскоязычной базы данных с опорой на наличие высказываний, содержащих утверждения агрессивного характера (в режиме диалога). При этом учитывалось гендерное различие коммуникантов, что позволило установить особенности ответной реакции адресата на агрессию со стороны адресанта.

Наряду с корпусной лингвистикой активно разрабатываются программные способы извлечения информации об эмоциональной насыщенности текстов в Интернете в режиме дихотомии «положительная оценка события» - «отрицательная оценка события». Речь

1 Например, Современный русский язык: Активные процессы на рубеже ХХ-ХХ1 вв. / Отв. ред. Крысин Л.П. - М.: Языки славян. культуры, 2008. - 710 с.; Потапова Р.К., Потапов В.В. Язык, речь, личность. - М.: Языки славян. культуры, 2006. - 496 с. - Прим. реф.

идет о так называемой «тональности текста». Определение «тональности текста» вызывает особый интерес, так как позволяет установить программным способом эмоциональную окраску текста в Интернете, а также при передаче сообщения по различным современным каналам связи. В качестве примера можно привести доклад М. Лоро, В. Родригес-Донцель и др. «Корпус высказываний на испанском языке, предназначенных для анализа тональности на материале рекламных брендов в Интернете» (Spanish Corpus for Sentiment Analysis Towards Brands) (Испания). Данный доклад по своей целевой установке объединяет два направления: корпусную лингвистику и анализ тональности на материале рекламных постов в социально-сетевом пространстве Интернета. Исследование включает анализ тональности текстов с ориентацией на восемь эмоционально-модальных состояний: любовь - ненависть, счастье - печаль, доверие - боязнь (недоверие), удовлетворенность -неудовлетворенность и др. Материалом исследования послужили тексты в твиттере, проанализированные с учетом наличия вышеупомянутых состояний, определяющих положительную или отрицательную тональность текстов-реакций на функционирующие в Интернете рекламные бренды в области продуктов питания, банковского дела, продажи автомобилей, спорта и т.д. Авторы подчеркивают, что исследование является первым для испанского языка относительно оценочных вербальных показателей различных рекламных брендов в твиттере.

Особое внимание уделено исследованию текстов в социально-медийных каналах с позиции лексических, синтаксических и морфологических особенностей языка. Не обошли вниманием участники конференции проблематику, связанную с исследованием лингвистических особенностей текстов в Интернете. Например, социально-сетевой дискурс подробно анализировался в докладе Н. Масловой, В. Потапова «Использование нейросетевой программы Doc2 vec для автоматизированного анализа тональности кратких бытовых текстов» (Neural Network Doc2 vec in Automated Sentiment Analysis for Short Informal Texts) (Москва). В целом же особенностям вербальной, паравербальной и невербальной коммуникации с позиции корпусной лингвистики на конференции 2017 г. было посвящено незначительное число докладов по сравнению с прошлогодними конференциями.

Не менее активно исследуются, как и ранее, индивидуальные знаки устной речи говорящих, «пропущенной» по различным каналам связи (IP-телефонии, Skype и др.), что обусловлено поиском решения задачи автоматической идентификации говорящего по голосу и речи, атрибутики говорящего, распознавания его физического и эмоционального состояния, определения его биометрических параметров, распознавания особенностей изменения социальных признаков личности. В непосредственной связи с исследованиями в области тональности текста находится совершенно новое направление, базирующееся на понятии «акмеоло-гия», что отражено в докладе Р. Потаповой и В. Потапова «Личность как акмеологическая сущность в социально-сетевом дискурсе (многоаспектный подход)» (Human as Acmeologic Entity in Social Network Discourse (Multidimensional Approach) (Москва). В докладе впервые представлена концепция формирования и динамического развития индивидуального портрета личности по данным социально-сетевого дискурса в Интернете, рассматриваемого во времени с учетом изменения «речевого продукта» личности с опорой на многоаспектный подход: вербальный, паравербальный, невербальный, экстравербальный. Каждая из вышеуказанных составляющих соотносится с: а) вербальным контентом устного или письменного высказывания информанта в социально-сетевом дискурсе; б) паравербальными просодико-интонационными особенностями устной речи или эмотивной диакритикой письменных сообщений; в) сопровождающими речевое поведение информанта мимикой, жестами, проксемикой; в) экстравербальными, показателями социально-сетевого дискурса: одеждой, ситуацией и т.д.

Особое внимание уделено когнитивному аспекту перцептивно-слухового восприятия эмоционально-модальных состояний коммуникативного взаимодействия партнеров, принадлежащих к различным языкам и культурам. В определенном смежном ракурсе с вышеприведенным примером находится разработка проблемы когнитивистики применительно к восприятию эмоционально-модальных состояний, представленная в докладе Р. Потапова, В. Потапов «Когнитивная энтропия при перцептивно-слуховой оценке эмоционально-модального состояния иноязычного партнера по коммуникации» (Cognitive Entropy in the Perceptual-Auditory Evaluation of Emotional Modal States of Foreign Language

Communication Partner) (Москва). В докладе представлены результаты лонгитюдного исследования, охватывающего 10 лет и проводимого в России и Германии с опорой на многоаспектную культурно-языковую идиосинкразию носителей русского и немецкого языков. В результате исследования удалось установить статистически значимую дивергенцию в перцептивно-слуховой оценке одних и тех же эмоционально-модальных речевых стимулов носителями вышеуказанных языков.

В связи с развитием робототехники к исследованиям в области управления роботом техническими системами с помощью устной речи добавляются исследования, предметом которых является использование невербалики (мимики, жестикуляции, проксемики), что объясняется расширением способов управления и контроля поведения робототехнических систем. Особое внимание уделяется изучению общей сенсорики человека. Все эти подходы объединяются в интегративную область исследования: «Мультимодальное взаимодействие "человек - машина" с опорой на биометрические данные». В качестве примера обращения к невербалике и биометрическим данным следует упомянуть доклад М. Хлавача, И. Грубера, А. Карпова и др. (Чешская Республика; Санкт-Петербург) на тему «Формирование лицевых "ключевых" мимических точек» (Semi-automatic Facial Key-Point Dataset Creation), в котором описан полуавтоматический метод создания, считывания и формирования биометрических лицевых показателей, что необходимо для дальнейшей разработки системы управления роботами.

Из материалов докладов следует, что большое внимание по сравнению с предыдущими конференциями SPECOM уделено проблеме автоматического распознавания речи. При этом наблюдается расширение круга языков, на материале которых разрабатываются новые алгоритмы.

Результаты исследований в области распознавания речи отражают два направления автоматического распознавания речевых образов на материале различных языков (например, доклады М. Мюллера, С. Штюкера и А. Вайбеля на тему «Автоматическое распознавание мультилингвальной речи» (ФРГ) (Language Adaptive Multilingual CTC Speech Recognition); Е. Пакоци, Б. Поповича и Д. Пекар «Оптимизация лингвистической модели, построенной на основе глубокой нейронной сети, предназначен-

ной для системы распознавания сербской речи» (Сербия) (Language Model Optimization for a Deep Neural Network Based Speech Recognition System for Serbian); Э. Эдвардса, В. Сэллоума, Г.Р. Финли и др. (США) на тему «Неавтоматическое распознавание английской речи в сфере медицины» (Medical Speech Recognition: Reaching Parity with Humans) и др.).

На конференции было представлено значительное число докладов, посвященных автоматической идентификации говорящих по голосу и речи, например, «Автоматическое обнаружение курящего говорящего по речи, передаваемой по телефонному каналу» (А. Пурьям, С. Хезараки, С. Сафави и др.) (Дания; Иран; Великобритания и Бельгия) (Automatic Smoker Detection from Telephone Speech Signals); «Различение голосов говорящих на базе фузи-онного подхода» (Х. Саюд, С. Квамур, З. Хамадахе) (Алжир) (Discriminating Speakers by Their Voices - A Fusion Based Approach); «Нейронно-сетевой дескриптор диарезации говорящих по телефонному каналу» (З. Заич, Я. Зелинка, Л. Мюллер) (Чешская Республика) (Neural Network Speaker Descriptor in Speaker Diarization of Telephone Speech), «Эксперименты по обнаружению аномальных личностных особенностей на базе просодических признаков» (Ц. Файе, А. Делэ, Д. Лолив и др.) (Франция) (First Experiments to Detect Anomaly Using Personality Traits vs. Prosodic Features) и др.

Одной из классических тем конференции остается тема «Преобразование "текст - речь"», т.е. синтез речи с опорой на письменный текст. Были представлены результаты разработок в области синтеза речи. Например, в докладе В. Захариева, Е. Азарова и А. Петровского (Белоруссия), описана многоголосая система синтеза речи на базе конкатенативного подхода. В докладе «Голосовой обмен в системе TTS (text-to-speech) с настройкой на «целевого говорящего» (Voice Conversion for TTS Systems with Tuning on the Target Speaker Based on GMM) использована, в частности, методика гауссовой, смешанной модели и метода текстоне-зависимого обучения, базирующаяся на модели марковских цепей и модифицированного алгоритма Витерби.

В заключение следует подчеркнуть, что проведенная конференция SPEC0M'2017 продемонстрировала широкий тематический охват и дальнейшее углубление знаний с учетом междисциплинар-

ного подхода к решению приоритетных задач в области человеко-машинного взаимодействия на базе цифровых технологий.

КОММУНИКАЦИЯ. ДИСКУРС. РЕЧЕВЫЕ ЖАНРЫ

2018.02.024. РЕГИСТРЫ ЯЗЫКОВОЙ ПОЛИТИКИ: Власть и сети // Настройка языка: Управление коммуникациями на постсоветском пространстве: Кол. монография. - М.: Новое лит. обозрение, 2016. -Гл. 2. - С. 153-260.

Ключевые слова: интернет-дискурс (онлайн-дискурс); дискурс власти; дискурс оппозиции; новостной дискурс в сетевых СМИ; социальная стратификация в Интернете, прецедентные тексты в Интернете; язык «падонков» (олбанский язык); мета-языковые комментарии в Рунете.

Данная глава коллективной монографии посвящена вопросам взаимодействия официального дискурса (дискурса власти) и дискурсов общества, состоящего из разных социально-культурных групп.

В статье «С экрана на плакат: Дискурс власти в языковой игре оппозиции» (авторы - А. Архипова, А. Сомин и А. Шевелева) анализируются лозунги, представленные на протестных акциях, проходивших в Москве, Санкт-Петербурге и других городах России с декабря 2011 г. по март 2012 г.1 Лозунги манифестантов исследовались, во-первых, на предмет связи с прецедентным текстом или ситуацией, во-вторых - в плане присутствия в них языковой игры (т.е. как проявление карнавализации протеста).

Для систематизации лозунгов в статье применяется термин «фрейм», понимаемый авторами как «прецедентный текст / ситуация и ассоциативное поле, возникающее вокруг них» (с. 180). Среди основных фреймов - 'бандерлоги'; 'как раб на галерах'; 'Чуров -волшебник'; 'ВВП'; 'раскачивать лодку'; 'вертикаль власти' и др.

1 Эта волна митингов, как отмечают авторы, была вызвана главным образом многочисленными сообщениями о нарушениях и фальсификациях, имевших место в ходе выборов. - Прим. реф.

i Надоели баннеры? Вы всегда можете отключить рекламу.