Научная статья на тему '2016. 03. 018. Труды XVII международной конференции "речь и компьютер" (Афины, Греция, 20-24 сентября 2015 Г. ). Proceedings of the 17 Th International Conference "Speech and computer", SPECOM 2015 (Athens, Greece, September 20-24 2015) / ed. By Fakotakis N. , Ronzhin A. , Potapova R. - Patras: Univ.. Of Patras Press, 2015. - vol. 2. - 126 p'

2016. 03. 018. Труды XVII международной конференции "речь и компьютер" (Афины, Греция, 20-24 сентября 2015 Г. ). Proceedings of the 17 Th International Conference "Speech and computer", SPECOM 2015 (Athens, Greece, September 20-24 2015) / ed. By Fakotakis N. , Ronzhin A. , Potapova R. - Patras: Univ.. Of Patras Press, 2015. - vol. 2. - 126 p Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
58
10
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПРОСОДИЧЕСКИЕ ИНДИКАТОРЫ / ЯЗЫКОВОЙ КОНТЕНТ / СЕМАНТИЧЕСКИЙ КОНТЕНТ / ЭЛЕКТРОННЫЙ КОРПУС / УСТНО-РЕЧЕВЫЕ БАЗЫ ДАННЫХ / АКУСТИЧЕСКИЕ РАЗЛИЧИЯ / АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ / ИДЕНТИФИКАЦИЯ ПОЛА АВТОРОВ / СТАТИСТИЧЕСКАЯ КЛАССИФИКАЦИЯ / ОБЛАЧНЫЕ ТЕХНОЛОГИИ / ЛИНГВИСТИЧЕСКИЕ БАЗЫ ДАННЫХ / АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТА / КОМПЬЮТЕРНАЯ КОММУНИКАЦИЯ / ИНТЕРНЕТ-АНОНИМНОСТЬ / РЕЧЕВОЙ КОРПУС
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Потапова Р. К., Потапов В. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «2016. 03. 018. Труды XVII международной конференции "речь и компьютер" (Афины, Греция, 20-24 сентября 2015 Г. ). Proceedings of the 17 Th International Conference "Speech and computer", SPECOM 2015 (Athens, Greece, September 20-24 2015) / ed. By Fakotakis N. , Ronzhin A. , Potapova R. - Patras: Univ.. Of Patras Press, 2015. - vol. 2. - 126 p»

ВЕТЮТЕНЬ, -я, -и, м. Дикий голубь, горлица. Ветютень вьет гнездо (П. Поляков. Господь казаков воскресит!).

ГРАЙ [грай], -я, -и, м. Громкий беспорядочный птичий крик, карканье. А от сугроба под плетнем Не стало и следа. В лесу не молкнет птичий грай, Пошла в наслус вода (П. Поляков. Господь казаков воскресит!).

ДЕДАНЯ, -и, -и, м. Ласк. Отец отца или матери, дедушка. Ну, ни свет ни заря слез деданя с печи (П. Поляков. Господь казаков воскресит!).

ДОНЧИХА, -и, -и, ж. Кобыла донской породы. Но тогда мне шестнадцать сравнялось, И Маруська - дончиха моя, К Разуваеву хутору рвалась, И родные виднелись края (П. Поляков. Господь казаков воскресит!).

ИЗВАТЛАТЬСЯ, -аюсь, -ешься, сов. Испачкаться, загрязниться. Мы с псом изватлались в муке (П. Поляков. Господь казаков воскресит!).

А.Б. Бушев

2016.03.018. ТРУДЫ XVII МЕЖДУНАРОДНОЙ КОНФЕРЕНЦИИ «РЕЧЬ И КОМПЬЮТЕР» (Афины, Греция, 20-24 сентября 2015 г.). Proceedings of The 17 TH International conference «Speech and computer», Specom 2015 (Athens, Greece, September 20-24 2015) / Ed. by Fakotakis N., Ronzhin A., Potapova R. - Patras: Univ. of Patras press, 2015. - Vol. 2. - 126 p.

Ключевые слова: просодические индикаторы; языковой контент; семантический контент; электронный корпус; устно-речевые базы данных; акустические различия; автоматическое распознавание; идентификация пола авторов; статистическая классификация; облачные технологии; лингвистические базы данных; автоматическая обработка текста; компьютерная коммуникация; интернет-анонимность; речевой корпус.

20-24 сентября 2015 г. в г. Афины (Греция) на базе Университета г. Патры (Греция) в сотрудничестве с Московским государственным лингвистическим университетом (МГЛУ), Санкт-Петербургским институтом информатики и автоматизации РАН (СПИИРАН) и Санкт-Петербургским Национальным исследовательским университетом информационных технологий, механики и

оптики (Университет ИТМО) состоялась XVII Международная конференция SPECOM'2015 «Speech and computer» («Речь и компьютер»).

Второй том трудов XVII Международная конференция SPEC0M'2015 «Speech and computer» («Речь и компьютер»), изданный Университетом г. Патры (Греция), включал следующие работы.

В докладе «Просодические индикаторы семантического контента Skype-текстов (в аспекте судебной фонетики)» Р. Потапова и В. Потапов (Москва) описывают результаты экспериментального исследования устно-речевых текстов при коммуникации в режиме Skype применительно к русскому языку. В центре внимания авторов проблема, связанная с возможностью перцептивно-слухового распознавания семантического фокуса (ремы) всего сообщения в целом в условиях такого отвлекающего фактора, как видеоряд, который в определенных случаях выступает в качестве эмоционального маневра для сокрытия истинного смысла сообщения. Более того, визуальный ряд может преднамеренно содержать паравербалику с целью маскировки семантического фокуса сообщения. В этой ситуации особую роль приобретают просодические средства, служащие для передачи семантического фокуса (ремы) сообщения. Проводимое исследование относится к экспериментам по перцептивно-слуховой идентификации личности и распознаванию смысловой доминанты текста с опорой на публичные выступления в реальной ситуации и в реальном времени. Согласно гипотезе исследования семантический контент любого публичного устно-реализуемого текста характеризуется индивидуальной просодической структурой этого текста, а также специфической структурой распределения тематических и рематических участков как в формате отдельных речевых высказываний в составе текста, так и в формате всего текста в целом, что может быть представлено в виде решетки смысловых просодических микро- и макрофокусов. На материале пилотного исследования проанализированы выступления информантов - носителей русского языка в режиме Skype-коммуникации. В ходе эксперимента все устно реализованные тексты сегментировались по методике, разработанной авторами ранее. Данная методика позволяет выделить три основных смысловых компонента текста: инициаль с включением фатического элемента

и представления общей проблематики сообщения; медиаль, соотносящуюся с более подробной разработкой тематической составляющей, и финаль, содержащую заключительную итоговую часть, сопровождающуюся, как правило, наличием фатического элемента. Предъявляемые аудиторам стимулы включали устно реализуемые тексты, в которых число семантико-синтаксических конструкций для инициали, медиали и финали не превышало числа 7±2, что соотносится с объемом оперативной памяти аудиторов (п=40). Предъявляемый для решения задачи материал включал монологическую речь, диалоги и полилоги. Общее время звучания отобранного для эксперимента материала составило 19,5 часов. Испытуемым при прослушивании материала предлагалось ответить на вопросы специальной анкеты, включающей различные просодические детерминанты, соотносящиеся с микро-тема-рематической и макро-тема-рематической сегментацией предъявленных стимулов.

Полученные на данном этапе результаты исследования позволили подтвердить выдвинутую авторами гипотезу, согласно которой определенные просодические параметры могут «сигнализировать» локализацию семантического фокуса (ремы) текстового высказывания в целом. Полученные данные имеют непосредственное отношение к решению криминалистической задачи восстановления смысловой доминанты устно реализуемого текста, подвергнутого предварительной операции изменения первоначальной конфигурации инициали, медиали и финали в целях сокрытия смыслового фокуса сообщения.

Группа авторов К. Галиулин, Е. Горобец, Г. Каримуллина, Р. Каримуллина и Д. Мартьянов (Казань) представила доклад на тему «Лексические единицы русского языка, представленные в материалах авторов, не являющихся носителями русского языка: о создании представленного репрезентативного электронного корпуса». В докладе дано описание уникального электронного корпуса лексических единиц в записях иностранцев за период с XV по XVII в. Корпус включает более 120 000 единиц из 63 источников различного жанра: словарей, дневников, записных книжек, календарей, посольских писем и т.д. Инвентарь корпуса содержит слова, сочетания слов, фразы, мини-тексты, диалоги, пословицы, поговорки.

Особое внимание уделено инвентарю единиц русского языка, представленных не кириллицей, а латиницей. Вариативность графических средств объясняется целым рядом факторов, например языком самого описания (английским, латинским, немецким, французским); родным языком или близким к родному языком автора документа; графическими символами звуков русского языка, употребляемых автором, и т.д. Например, слово царь [tsar, king] в некоторых документах употребления этого слова иностранцами: chare, szar, tsare, tsar, zar и др. При работе над корпусом установлено, что возможны два типа неправильной интерпретации данных: а) регистрация записи, которая является результатом ошибочного написания, а также неаккуратная запись реально существующего варианта русского слова; б) классификация ошибок. Корпус лексических единиц распределен по зонам: единицы и их варианты на базе оригинального текста; наличие корреспондирующей формы в русском языке; контекст, перевод, интерпретация, перевод с оригинального текста; перевод на русский язык, интерпретация; ссылки, включающие сопоставительный материал. Представленный в данном электронном корпусе материал расширяет возможности проведения исторического и лексикологического видов анализа языковых единиц.

Доклад на тему «Устно-речевые базы данных, соотносящиеся с реализацией иностранного акцента: проблема аннотирования» представлен группой авторов - В. Завьяловой, Д. Подузовой, Д. Шайдуллиной и Е. Лукиных (Владивосток). Внимание авторов сконцентрировано на проблеме сложности аннотирования речи с иностранным акцентом на примере русско-азиатского корпуса английского языка, созданного в Дальневосточном федеральном университете (Россия). Базой для создания корпуса послужили результаты фонетических исследований восточно-азиатского английского языка. Как показал целый ряд исследований, восточно-азиатский английский характеризуется специфическим акцентом, основанным на фонологической типологии родных языков говорящих, включая слоговую организацию, влияющую на сегментацию конечного интерферируемого речевого высказывания. Сформированный корпус интерферированной рус-ско-азиатско-английской речи содержит социолингвистическую информацию о говорящем, включая возраст, пол, национальность,

страну рождения и т.д. Сюда же относится информация о коммуникативной ситуации, качестве записи материала и т.д. Охвачены такие виды речевой деятельности, как квазиспонтанная речь и подготовленные образцы интерферированной английской речи. Кроме того, были подготовлены для записи дикторов, не являющихся носителями языка, тексты, содержащие сложные фонетические пассажи применительно к сегментному и супрасегментному уровням, в том числе звуковые единицы, не имеющие соответствий в восточно-азиатских языках. Многоуровневая аннотация материала данного корпуса реализовывалась с помощью ряда программных средств, например WavEd, Elan, VoiceScrive, EXMARaLDA Editor. При работе над аннотированным корпусом интерферированной русско-азиатско-английской речи авторы использовали для сравнения такие корпусы, как, например, венско-оксфордский международный корпус английского языка; речевой подкорпус национального корпуса калмыцкого языка; интерактивный обучающий корпус разговорной речи, предназначенный для итальянского и немецкого языкового контингента, изучающего английский язык, и др.

В докладе В. Симаки, Й. Морас, М. Кондили (Греция) на тему: «Акустические различия между литературным греческим языком и греческим языком, функционирующим на территории о. Кипр» указывается на то, что в современной диалектологии большое значение придается исследованиям в области географически обусловленного языкового варьирования. Различия между литературным языком и его диалектальным варьированием могут быть выявлены применительно ко всем уровням лингвистического анализа. Авторы останавливаются на описании акустических различий вокализма и консонантизма между вышеназванными языковыми ареалами и предлагают восемь правил, которые позволяют дифференцировать литературный греческий язык и греческий язык, функционирующий на о. Кипр. Предлагаемые в докладе правила базируются на аллофоническом варьировании и дифференциальных акустических признаках вокализма и консонантизма.

Доклад И. Йокича, С. Йокича, В. Делича и З. Перича (Сербия) «Влияние языкового контента на точность автоматического распознавания говорящего» содержит результаты исследования, на базе которого устанавливалась зависимость между

индивидуальными акустическими характеристиками говорящего, выраженными с помощью кепстральных коэффициентов частоты основного тона (в мелах), и звучащим текстом. Модель говорящего, созданная на базе ковариационной матрицы, включает особенности языкового наполнения устно реализованного текста. Проблема решения задачи возникает в тех случаях, когда либо тестовый материал произносится быстром темпе, либо тестовые фразы являются слишком короткими. Точность автоматического распознавания говорящего повышается в тех случаях, когда тестовый материал фонетически сбалансирован и максимально приближен к тестовым таблицам. Тестирование проводилось на специально разработанном приложении к системам Android, предназначенном для автоматического распознавания говорящего. Для надежного распознавания говорящего достаточным оказалось десятисекундное тренировочное обучение системы с использованием тестового материала.

Доклад на тему: «Идентификация пола авторов блогов: предпочитают ли мужчины и женщины различные лингвистические знаковые обозначения при написании униграмм» (авторы: В. Симаки, А. Кумпури, И. Мпорас, В. Мегалуиконому; Греция) посвящен проблеме: существуют ли гендерные различия в употреблении на письме буквенно-знаковых средств в их текстовой реализации? Исследование проведено с использованием аннотированного корпуса «Классификация лингвистических данных с учетом гендерного признака (на материале блог-текстов)», разработанного в США и содержащего 3232 блог-текста. Данные вышеназванного корпуса включают информацию персонального характера, стилистическую, тематическую и т.д. конкретизацию. В этом же исследовании впервые статистически анализируется план знаковых (букв, знаков препинания и т.д.) единиц / униграмм, употребляемых информантами. Использовались также обозначения типа #, &, @, %, {, }, [, ] и др. Всего было проанализировано 57 униграмм, входящих в состав текстов. Статистический анализ с применением t-критерия показал наличие статистической значимости для 25 униграмм, дифференцирующихся по признаку: 14 - с учетом мужского фактора предпочтительности, 11 - с учетом женского фактора предпочтительности. В число гендерно значимых предпочтений вошли 14 буквенных обозначений, 11 специальных

знаков и знаков пунктуации, что показало перспективность проведения дальнейших исследований.

Описанная в докладе А. Харламова, А. Маслова, Р. Потаповой (Москва) «Статистическая классификация небольших по объему текстов» замена чисто статистического подхода к классификации массива малых текстов на небольшое число классов продемонстрировала улучшение качества классификации по сравнению с методом «мешок слов». Для экспериментов использовался программный продукт Тех1Лпа1у81 Эксперименты проводились на текстовом корпусе обращений граждан в муниципальные органы, связанных с общественными и личными просьбами. Модификация подхода была связана с использованием при построении семантической сети анализируемого текста помимо самого текста также множества текстов, содержащих описание предметных областей, соответствующих анализируемым подклассам. Модификация статистического когнитивного подхода позволила улучшить качество классификации малых текстов по сравнению с использованием метода «мешок слов» в среднем на 10%, что является приемлемым результатом по сравнению с использованием хорошо известных, несложных и вычислительно не очень емких методов.

Анализ результатов отдельных экспериментов показал возможность увеличения количества классов при сохранении качества классификации за счет включения в статистический подход лингвистических алгоритмов, в том числе алгоритмов формирования расширенной предикатной структуры предложения. Расширенная предикатная структура предложения как граф смысловой структуры предложения может быть использована при формировании пар понятий семантической сети, в которой ассоциативные связи между понятиями могут быть заменены на связи, размеченные типами отношений предикатной структуры. Введение в статистический когнитивный анализ лингвистической информации, таким образом, увеличит количество используемой при анализе информации и тем самым позволит увеличить качество анализа, в первую очередь анализа небольших по объему текстов.

В докладе предложен метод модификации статистического подхода к классификации текстов на небольшое число классов. Ранее этот подход использовался только для анализа средних и больших по объему текстов, что давало хорошие устойчивые результа-

ты при сравнительно небольших вычислительных затратах. Использование модифицированного подхода также продемонстрировало приемлемые, в том числе по сравнению с методом на основе «мешка слов», результаты, что позволяет рекомендовать его при анализе больших объемов текстов в случае необходимости их классификации на малое число подклассов. Экспериментов по выяснению предельно достижимого числа классов при сохранении качества классификации не проводилось.

В докладе Р. Потаповой, В. Потапова, И. Баженовой (Москва) впервые предложен метод использования облачных технологий в целях хранения и санкционированного доступа к лингвистическим базам данных, в данном случае к устно-речевым базам данных. Название доклада «Разработка исследовательского стенда применительно к использованию облачных технологий в области интегрированных устно-речевых баз данных» свидетельствует о том, что авторами предлагается совершенно новая парадигма для организации инфраструктуры и создания распределенных приложений, что поможет разработать пакет веб-сервисов для унифицированной мультиплатформы на базе облачного шкалирования. Разработка обеспечит доступ интегрированных устно-речевых баз данных к облачному хранилищу. В докладе отмечается, что в настоящее время корпусная лингвистика развилась в своеобразную «лингвистическую индустрию», содержащую конкретные средства, активно используемые для решения целого ряда в первую очередь прикладных задач. Корпусная лингвистика, содержащая аннотированные базы данных как для устных, так и для письменных текстов различных языков мира, позволяет в электронной форме получать, пополнять, хранить, передавать и использовать информацию, необходимую при решении различных задач фундаментального и прикладного характера. В качестве примера в докладе представлена аннотированная база данных арабского языка, содержащая материал телефонных переговоров на современном разговорном арабском языке. В докладе особое внимание уделено анализу существующих систем облачных хранилищ, что дало авторам возможность остановиться на системе определенного типа, например Windows Azure и SQL Azure, и разработать исследовательский стенд для решения поставленной задачи.

Доклад Р. Потаповой и Н. Боброва (Москва) «К вопросу о разностороннем способе аннотирования лингвистических баз данных: практические результаты и новый гибкий подход» содержит описание нового подхода к аннотации лингвистических устно-речевых баз данных и метаданных, который может быть определен как многостороннее (многопараметрическое) аннотирование. Авторы исходят из следующих требований: аннотация должна быть максимально транспарентной и менее сложной для лингвистов, чем XML, формат аннотации должен автоматически конвертироваться в XML, структура аннотации должна быть достаточно гибкой для ввода новых полей и значений. В докладе представлен образец подобного подхода к аннотации устно-речевой базы данных.

Доклад Р. Потаповой и Д. Гордеева (Москва) «Влияние интернет-анонимности на уровень агрессии и использование об-сценной лексики» посвящен анонимным форумам, которые часто называют имиджбордами из-за возможности прикреплять изображения к сообщениям (англ. image, «изображение»). Имиджборды являются наиболее известной и популярной разновидностью форумов с принудительной анонимностью. В рамках данного исследования ставилась цель выявить вербальную специфику формирования и функционирования в мировой электронной медийной среде (на базе анонимных форумов) социально-сетевого дискурса, определяемого как дистантный опосредованный многовекторно-разнонаправ-ленный, одновременно-разновременный многотематический электронный макрополилог, который отражает межличностные, межэтнические, межконфессиональные, социально-экономические, геополитические и т.д. отношения, что находит прямое отражение в специфике вербальных и паравербальных коррелятов письменных и устных текстов (по Р.К. Потаповой).

Анонимные имиджборды известны своей агрессией и преобладанием ненормативной лексики. Данное исследование подтвердило данный факт. Так, 12,5% сообщений содержали признаки агрессии, а 8,2% - ненормативную лексику. В большинстве случаев агрессия была направлена против собеседника. Это косвенно свидетельствует о низкой культуре общения и отсутствии аргументации на форуме. Высокий процент сообщений содержат политическую или этническую агрессию, но это обусловлено небольшим

объемом выборки. Предположительно, при росте объема выборки будет и еще больше расти доля агрессии, направленной на собеседника. Виды выражения агрессии являются типичными для русского языка. Анонимные форумы выделяются лишь интересным словообразованием. Примитивность способов выражения агрессии тоже может свидетельствовать о невысокой культуре общения на соответствующем форуме (2 ch.hk).

Таким образом, обилие сообщений, содержащих агрессию, а также бедность ее проявления косвенно свидетельствуют о низкой культуре общения на форуме. Наработки, полученные в ходе данного исследования, в дальнейшем позволят создать базу данных для анализа агрессивной составляющей текстовых сообщений.

В докладе «Автоматическая обработка текста в межъязыковой компьютерной коммуникации» И. Борисовой (Москва) особое внимание уделяется проблеме понимания текстов на иностранном языке в многоязыковой среде социальных медиасредств (форумы, блоги, социальные сети и т.д.). Автор предпринимает попытку подойти к решению проблемы быстрого понимания смысла текстов, доступных в социальных сетях, без потери части обсуждаемого содержания. С этой целью автором проведен эксперимент с использованием систем машинного перевода (Google и Promt) на материале русско-английских технических текстов, представленных на авиационных форумах. На базе экспериментов автор приходит к выводу о том, что коммуникация специалистов в области авиационных технологий, использующих машинный перевод, вполне состоятельна даже без проведения постредактирования. Отмечается, что в зависимости от цели, стоящей перед пользователем, результаты машинного перевода можно считать вполне приемлемыми, если они предназначены для того, чтобы понять общий смысл исходного текста.

В докладе «Компьютерный инструментарий для создания речевого корпуса» А. Широковой, И. Главатских, Т. Платоновой, В. Рогожиной, А. Смолиной, М. Котова (Москва) обсуждаются способы оптимизации процесса создания речевых корпусов, суммируется опыт разработки и использования собственного программного обеспечения для автоматизации и технологического упрощения ряда этапов, включающих подготовку фонетического обеспечения для формирования речевого корпуса, разработку стан-

дартов для транскрипции речевого сигнала на разных уровнях, подготовку текстового материала; разработку программного обеспечения для формирования речевого корпуса, проверку качества записи речевых фрагментов; создание детальных инструкций по разметке и фонетической интерпретации (транскрипции) речевых сигналов; фонетической верификации речевых фрагментов и их разметку; верификацию разметки и аннотаций речевого материала, полученных автоматически; обработку результатов верификации. Авторы подчеркивают, что формируемые речевые базы имеют в первую очередь технологическое назначение и собираются для нужд конкретного проекта по автоматической обработке речи.

В докладе представлено описание программного продукта 8реесИ_1;о_1ех1;, который создавался как многофункциональная программа-клиент для взаимодействия пользователя с системой распознавания речи, установленной на удаленном сервере.

Р.К. Потапова, В. В. Потапов

КОММУНИКАЦИЯ. ДИСКУРС. РЕЧЕВЫЕ ЖАНРЫ

2016.03.019. АСТАФУРОВА Т.Н., ИОНОВА ТА. ЛИНГВОСЕ-МИОТИКА БРИТАНСКОГО МЕДИЙНОГО КОММЕНТАРИЯ. -Волгоград: ВолГУ, 2015. - 144 с. - Библиогр.: с. 131-142.

Ключевые слова: медийный дискурс; комментарий как вторичный жанр; металинеарность и гипертекстуалъностъ медийных текстов; лингвосемиотические преобразования информации в комментарии.

В монографии, состоящей из предисловия и двух глав, на примере британского медиадискурса исследуются свойства комментария как особого типа текста, представляющего собой вторичную переработку знания.

В предисловии авторы отмечают, что в современном обществе настолько быстро меняются характеристики форм коммуникации, в том числе в СМИ, что эти изменения следует считать признаками информационной революции. К особенностям данной ситуации, в частности, относятся: резкое увеличение объема коммуникации; развитие разных средств коммуникации; возрастание

i Надоели баннеры? Вы всегда можете отключить рекламу.