УДК 81'34
Р. К. Потапова, В. В. Потапов
Р. К. Потапова, доктор филологических наук, профессор; академик Международной академии информатизации; заведующая кафедрой прикладной и экспериментальной лингвистики; директор Института прикладной и математической лингвистики ФАЯ МГЛУ; e-maiL: [email protected]
В. В. Потапов, доктор филологических наук, главный научный сотрудник НИР кафедры прикладной и экспериментальной лингвистики факультета английского языка МГЛУ; ст. научный сотрудник филологического факультета МГУ; e-maiL: [email protected]
РЕЧЕВЫЕ БАЗЫ ДАННЫХ КАК ЧАСТЬ МУЛЬТИМОДАЛЬНЫХ КОРПУСОВ В ИНТЕРНЕТЕ1
В статье представлена история развития речевых баз данных (РБД), приведены принципы формирования подобных баз, даны примеры РБД, в том числе и базы, разрабатываемые на кафедре прикладной и экспериментальной лингвистики МГЛУ. В связи с развитием мультимодальных баз данных, включающих, наряду с речью, зрительные и слуховые образы, указанные направления приобретают особое значение в аспекте изучения мультимодальных средств передачи информации в Интернете и их воздействия на пользователей Интернета. Речевые базы данных - широкий инструментарий, используемый как в классических дидактических целях, так и в целях разработки новых информационных технологий. Существуют самые разнообразные цели формирования баз данных. Сформированные базы могут иметь как узкое, так и широкое применение. Сегодня спектр речевых БД насчитывает огромное количество узкоспециальных баз. В настоящее время одним из перспективных направлений в развитии различных баз данных является формирование мультимодальных баз данных, отражающих информационное поле Интернета в целом и специфику социально-сетевого дискурса в Интернете. Особое внимание привлекают формы передачи мультимодальной информации, включающей вербальный, паравербальный, невербальный и экстравербальный каналы коммуникации в социально-сетевом дискурсе (далее - ССД). Именно данное направление позволит раскрыть специфику как реализации намерений коммуникантов в социально-сетевом дискурсе, так и их индивидуальную оценку происходящих событий, что непосредственно связано с проблемами социального прогнозирования и акмеологической динамики общества в целом.
Ключевые слова: речевая база данных; мультимодальность; Интернет; автоматическое распознавание речи.
1 Исследование поддержано Российским Научным Фондом (РНФ). Проект № 18-18-00477.
R. K. Potapova
Sc.D., Prof., FuLL Member of the International Informatization Academy, Head of Department of Applied and Experimental Linguistics, Director of Institute for Applied and Mathematical Linguistics of Moscow State Linguistic University (MSLU); e-mail: [email protected]
V. V. Potapov
D. Sc. Chief Researcher, Department of Applied and Experimental Linguistics, Institute of Applied and Mathematical Linguistics, Faculty of the Humanities and Applied Sciences of Moscow State Linguistic University (MSLU); Senior Researcher, Faculty of Philology, Lomonosov Moscow State University; e-mail: [email protected]
SPOKEN LANGUAGE DATABASES AS A PART OF MULTIMODAL CORPS ON THE INTERNET1
The article presents the history of development of speech databases (RDB), provides principles for the formation of such databases, gives examples of RDB, including the bases developed at the Department of Applied and Experimental Linguistics at the Moscow State Linguistic University. In connection with the development of multimodal databases, including visual and auditory images along with speech, these directions take on special significance in the aspect of studying multimodal means of information transmission on the Internet and their impact on Internet users. Speech databases are a broad toolkit used both for classical didactic purposes and for the development of new information technologies. There are a variety of purposes for the formation of databases. Formed bases can have both narrow and wide application. Today the spectrum of speech databases has a huge number of highly specialized databases. Currently, one of the promising areas in the development of various databases is the formation of multimodal databases reflecting the information field of the Internet in general and the specificity of social-network discourse on the Internet. Particular attention is attracted to the forms of transmission of multimodal information, including verbal, paraverbal, nonverbal and extraverbal communication channels in social-network discourse (SDS). It is this direction that wiU make it possible to disclose the specifics of both the implementation of the intentions of communicants in the social-network discourse and their individual assessment of current events, which is directly related to the problems of social forecasting and the acmeological dynamics of society as a whole.
Keywords: spoken language data base; multimodality; automated speech recognition.
Введение
Интерес к созданию корпусов звучащей речи был в значительной степени инициирован разработками в области автоматического
1 This research is supported by the Russian Science Foundation, Project № 18-18-00477.
распознавания речи, где исследователям приходится сталкиваться с огромной акустической вариативностью звуковых единиц языка, которая имеет весьма разнообразные источники - от системной контекстной вариативности, обусловленной коартикуляцией, до психофизиологического состояния говорящего или технических характеристик микрофона, который используется при записи речевого ма-териала1.
Согласно результатам ряда исследований [Потапова 1992; Потапова 2009а; Потапова 20096; Потапова 2017; Potapova 2011], при создании систем распознавания речи используют два подхода: глобальный и аналитический. При первом подходе осуществляется общее распознавание изолированного слова (отделяемые паузой примерно в 200 с) или связного текста, но с сокращенным словарем и произнесенного одним диктором. Второй подход позволяет приступить к проблеме распознавания слитной речи, произнесенной большим количеством дикторов. Он осуществляется в два этапа: в первую очередь распознаются звуки (речь идет о фонетическом, или аналитическом распознавании), затем обрабатывается информация «высшего» уровня (лексика используемых слов, структуры произносимых фраз).
Процесс распознавания речи (глобальный, или аналитический) начинается с анализа речевого сигнала, предварительно преобразованного в электрический сигнал с помощью микрофона. Электрический сигнал преобразовывается в дискретный, т. е. в последовательность чисел с изменением амплитуды сигнала с соответствующими интервалами с помощью вычислительных машин. Однако чаще предпочитают работать со спектральным представлением сигнала с более продолжительными временными интервалами (около 10 мс).
В системах общего распознавания необходима фаза обучения, во время которой пользователь произносит список слов с нужной лексикой. Для каждого произнесенного слова осуществляется акустический анализ и его результат вводится в запоминающее устройство ЭВМ.
Во время фазы распознавания при произнесении слова пользователем акустический образ распознаваемого слова сравнивается со словами-эталонами. Слово, наиболее схожее с произнесенным, соответствующим образом распознается и воспроизводится.
Именно на речевых корпусах, или речевых базах данных, и проводится обучение систем автоматического распознавания речи (далее -
1 Цит. по: [Кривнова, Захаров, Строкин 2001].
АРР). Первые речевые корпусы появились в середине 1980-х гг. в США, где их разработка финансировалась прежде всего Министерством обороны. При поддержке этого ведомства были созданы: TI-DIGITS корпус (1984) для тестирования систем распознавания изолированных цифр и цифровых последовательностей; Road Rally для анализа и распознавания ключевых слов (word spotting) и King Corpus для систем идентификации говорящего (speaker recognition). В рамках государственной программы развития лингвистических технологий, известной как ARPA / DARPA (the Advanced Research Projects Agency), это же Министерство финансировало создание корпуса TIMIT, который послужил прототипом для многих других речевых баз данных. При этой же финансовой поддержке были разработаны специализированные речевые корпусы Resourse Management (RM) и Wall Street Journal (WSJ) для исследований в области распознавания слитной речи, а также Air Travel Information Service (ATIS) для исследования спонтанной речи и понимания естественного языка в диалоговых системах [Кривнова, Захаров, Строкин 2001].
Накопленный к концу 1980-х гг. в. опыт показал, что создание представительных речевых корпусов требует совместных усилий исследовательских институтов, индустриальных компаний и государственных спонсоров. Финансовые и временные затраты на разработку высококачественных ресурсов оказались очень велики. Эксперты отметили, что дорогостоящие, но необходимые для развития информационных технологий ресурсы не должны разрабатываться для какой-то одной специальной системы или задачи [Cole 1997]. Разработчики пришли к выводу, что ресурсы должны обеспечивать возможность их многократного использования разными пользователями, т. е. быть общедоступными, и более чем для одной цели, т. е. быть многофункциональными. В связи с этими требованиями возникла проблема стандартизации лингвистических описаний, согласования форматов представления информации в разных видах лингвистических ресурсов и их типологии [Cole 1997].
Следует, однако, отметить, что чаще РБД разрабатываются именно для конкретной задачи, так как круг возможных применений велик, а конкретная задача задает непосредственные характеристики базы. В настоящее время одним из таких стандартов можно назвать фонетический алфавит Sampa (Speech Assessment Methods Phonetic Alphabet). Он представляет собой Международный фонетический алфавит, записанный символами ASCII c рядом изменений под конкретный язык.
В 1991 г. в США был создан лингвистический консорциум (LDC)1, который поддерживает создание новых языковых корпусов и распространяет ресурсы, полученные из разных источников. В частности, в настоящее время LDC предлагает более 50 речевых корпусов, включая упомянутые выше, которые в совокупности содержат многие сотни часов звучащей речи. Технологический Центр в штате Орегон (CSLU Center for Spoken Language Understanding) коллекционирует, аннотирует и распространяет телефонные речевые корпусы. Активность Центра поддерживается индустриальными спонсорами, но собранные корпусы доступны университетам по всему миру. Этот Центр располагает также многоязычным корпусом для оценки алгоритмов идентификации языка, который состоит из фрагментов спонтанной речи на одиннадцати разных языках мира. В 1995 г. координационный центр лингвистических ресурсов (ELRA European Language Resources Assosiation) был образован и в Европе. В распоряжении этого Центра находятся речевые корпусы для большинства официальных языков Европейского союза: для британского и шотландского вариантов английского языка, голландского, датского, шведского, немецкого, французского, итальянского, испанского, а также несколько многоязычных корпусов. В настоящее время в результате осуществления программы Copernicus ELRA распространяет также речевые корпусы для языков Восточной Европы (польский, болгарский, эстонский, румынский, венгерский и др.). На сайте Европейской Ассоциации в Интернете можно найти предложения и в области речевых корпусов для русского языка. В их разработке принимала участие Санкт-Петербургская компания «Одитек» [Викторов, Викторова, Воронцова ... 1999].
Принципы создания речевых баз данных (РБД)
Сравнение различных акустических баз данных позволяет сформулировать некоторые обязательные требования к современной фонетической базе данных, предназначенной для фундаментальных и прикладных исследований. Базы данных (далее - БД) для прикладных исследований, в частности в области синтеза и распознавания речи, должны обеспечивать решение следующих задач [Скрелин, Щербаков 2003]:
1 LDC - Linguistic Data Consortium.
• внесение в БД звуковых эталонов - оцифрованных записей речи нормативных дикторов в разных стилях речи, от спонтанной речи и чтения текстов, полученных на основе ее расшифровок, до чтения списка слов. Другими словами, в БД необходимо включить звуковой материал, представляющий максимальную вариативность реализации языковых единиц (фонем и интонационных конструкций) в различных условиях речевой деятельности человека;
• внесение сегментной информации и подробного фонетического описания включаемых звуковых образцов, поскольку необходимо снабдить этот материал подробным описанием: адресами границ звуков и интонационных единиц, словоформ и слогов, так как существуют различные методики распознавания и синтеза речи с точки зрения базовых единиц; а также фонемной и подробной фонетической транскрипцией;
• обеспечение эффективного выполнения запросов к содержимому БД для поиска нужных звуковых фрагментов по их транскрипционным описаниям и указанным в описаниях признакам.
Недостаточная проработка реализации любого из вышеперечисленных пунктов существенно снижает ценность БД в целом [Скре-лин, Щербаков 2003].
Запись речевого материала проводятся как в лабораторных условиях, так и из доступных источников, например, теле- и радиотрансляции, вещаний в Интернете и т. п. Для записи интернет-трансляций понадобится программа-soft, которая может выполнять функции магнитофона, и программа, поддерживающая и воспроизводящая формат потокового аудио из Интернета. Например, CoolEdit 1.0, который, выполняя функции записи, является одновременно и звуковым редактором; и Windows Media Player, RealPlayer, и т. д.
Чтобы облегчить сбор и хранение данных РБД, разрабатывается специальная оболочка. Она представляет собой отдельную программу-приложение, которая обладает возможностью:
- записи / воспроизведения фрагментов;
- хранения информации о фрагменте;
- хранения информации о дикторе (если такая информация нужна);
- осуществления поиска информации по различным параметрам.
После записи речевого материала, ввода речевого материала
в компьютер (оцифровки) и сохранения его, эксперт-фонетист производит транскрибирование материала; файл транскрипции имеет, как
правило, формат .txt. Затем эксперт-акустик проводит сегментацию материала, сохраненного в файлах форматов .wav и .txt, с его последующим сохранением в двух папках, обозначенных соответственно WAVE и TEXT. Эксперт-фонетист создает правила перехода звук-буква, причем звуки представлены специальным алфавитом Sampa, варианты которого создаются для каждого языка. Эксперты создают файлы-примечания, если в их создании есть необходимость (при особенностях отдельных частей материала). База записывается на CD или DVD диски.
3. Примеры баз данных
3.1. Краткое описание репрезентативного речевого корпуса TIMIT (американский вариант английского языка)
Американский корпус TIMIT до сих является прототипическим образцом корпуса репрезентативного типа. Поэтому полезно рассмотреть, каким образом при его создании были решены вопросы содержательного характера. Акустико-фонетический корпус TIMIT предназначался для широких фонетических исследований, а также для разработки и тестирования автоматических систем распознавания слитной речи в рамках американского варианта английского языка. В его разработке принимало участие несколько широко известных организаций и исследовательских центров: MIT1, SRI2 and TI3 и NIST4. Это один из первых речевых корпусов, который начал распространяться на CD-дисках. В записи корпуса принимали участие 630 дикторов из 8 региональных диалектных зон США, причем разработчики стремились к одинаковому процентному представительству диалектов, хотя это удалось сделать не для всех зон. Соотношение дикторов по полу также выдерживалось - каждый записанный диалект представляют около 70 % дикторов-мужчин и 30 % женщин. Среди прочих признаков при подборе и записи дикторов учитывались: возраст, рост, расовая принадлежность, образовательный уровень, время записи речи. Текстовый материал TIMIT включает 2342 отдельных предложения. Из них два предложения представляют со-
1 The Massachusetts Institute of Technology.
2 Stanford Research Institute.
3 Texas Instruments.
4 National Institute of Standards and Technology.
бой специально сконструированные фразы, насыщенные контекстами, в которых можно ожидать максимального проявления диалектной принадлежности диктора. Остальные 2340 предложений делятся на две группы следующим образом. Первая состоит из 450 специальных фонетически сбалансированных предложений, которые обеспечивают полное покрытие фонемного инвентаря и встречаемость фонем в особых «проблемных» контекстах. 1890 предложений второй группы отбирались из имевшихся текстовых корпусов, критерий отбора - увеличение разнообразия типов предложений и фонетических контекстов употребления фонем [Кривнова, Захаров, Строкин 2001]. В TIMIT корпусе звуковые файлы, полученные от разных дикторов, разделены на тренировочную и тестовую части. При этом разработчики руководствовались следующими соображениями [Кривнова, Захаров, Строкин 2001]. Тестовая часть корпуса должна составлять от 20 до 30 % всего корпуса, ни один из дикторов не должен участвовать одновременно в обеих частях, в каждой части должны быть представители всех диалектов разного пола, тренировочный и тестовый наборы не должны содержать одинаковых предложений, тестовый набор должен обеспечивать полное покрытие фонемного инвентаря, достаточное разнообразие их фонетических контекстов и частоту встречаемости.
С каждым предложением, как в тренировочном, так и тестовом наборе, ассоциированы четыре разных файла, которые отличаются только расширением и содержат разную информацию о произнесенном предложении. Один из файлов звуковой, а остальные - текстовые. Структура ассоциированных текстовых файлов одинакова и отражает временную соотнесенность (time-alignment) разных языковых объектов с сигналом, т. е. разные уровни его разметки [Кривнова, Захаров, Строкин 2001]. Корпус RuSpeech (www.mdi.ru/aspnews/ body/03.12.2001_39303.html).
Это речевая база данных, которая содержит фрагменты непрерывной русской речи с соответствующим текстом, фонетической транскрипцией и дополнительной информацией о дикторах. Cognitive Technologies ставила перед собой цель - создать дикторонезависимую систему распознавания непрерывной речи.
В настоящее время в состав RuSpeech входит более 50 тыс. предложений с фонетической разметкой каждого произнесенного предложения. Для создания корпуса были приглашены 220 дикторов, каждый из которых наговорил в среднем по 250 предложений. RuSpeech
содержит около 50 часов непрерывной речи объемом 15 Гб, которые размещаются более чем на 30 компакт-дисках, что превышает объемы аналогичных речевых баз английского языка WSJ Speech и TIMIT. Речевой интерфейс состоит из системы сценария диалога, синтеза речи по тексту и системы распознавания речевых команд.
База данных для систем верификации / идентификации диктора
(www. auditech.ru)
Речевой материал
Речевой материал состоит из четырех фонетически сбалансированных фраз и 20 слов (названия 10 штатов США и названия 10 российских городов). Ниже приведена таблица фраз и слов и их фонетическая транскрипция (см. табл. 1).
Таблица 1
Пример речевого материала
Фразы, слова Фонетическая транскрипция
Мама мыла Маню м«амам«ылам«ан'ю
Саша кусал сало с«ашакус«алс«ала
Это жирные фазаны ушли под палубу этаж«ырныйифаз«аны ушл'«ипатп«алубу
Не видали мы такого невода н'ив'ид«ал'имытак«ова н'«евада
Арканзас арканз«ас
Алабама алаб«ама
Калифорния кал'иф«орн'ийа
Колорадо калар«ада
Аризона ар'из«она
Монтана мант«ана
Джорджия дж«орджыйа
Миссури м'ис«ур'и
Вашингтон вашынкт«он
Оклахома аклах«ома
Ленинград л'ин'ингр«ат
Петербург п'ит'ирб«урк
Москва маскв«а
Вильнюс в'«ил'н'ус
Владимир
Ярославль
Иваново
Суздаль
Рязань
и в «а н а в а с «у з д а л'
влад'«им'ир й и р а с л «а в л'
р' и з «а н' н «о в г а р а т
Новгород
В фонетической транскрипции знак [«] обозначает ударение и ставится перед ударным гласным, знак ['] обозначает мягкость согласного. Редукция предударных и заударных гласных приведена в соответствие с правилами русской орфографии (московско-петербургского произношения).
Информантами (дикторами) были 39 мужчин и 29 женщин в возрасте от 25 до 55 лет, не имеющие профессиональных навыков чтения в микрофон. (Предполагаемые «наивные» пользователи систем автоматического распознавания речи). Среди них - научные сотрудники, программисты, учителя, врачи, сотрудники радиомастерской, участники хоровой студии.
Записи производились с использованием сменяемых двух элек-третных и трех угольных микрофонов, вмонтированных в трубку телефонного аппарата, нагруженного на цепь, эквивалентную телефонной линии. Для каждого диктора речевой материал был записан по 10 раз в течение 1 - 1.5 мес. Акустические условия записи: офис, учебный класс, лаборатория. Для 46 дикторов (31 мужчина и 15 женщин) записи были пропущены дополнительно через реальную телефонную сеть. Речевой материал вводился в компьютер через Sound Blaster. Частота дискретизации 16 кГц. Определение начала и конца производилось вручную с помощью программы Marker.exe
Файловая структура:
SPBASE README.DOC DESIGN_R.DOC DESIGN_E.DOC Структура имени файла:
Дикторы
Файлы записаны в формате Windows PCM (*.wav). DDYZNNSX
DD Y Z NN S X
N диктора N сессии N подхода N слова Пол Тип
[00-68] [1-2] [0-4] [0-23] [M, F] [E, C, T]
Базы данных в рамках европейских программ SPEECHDAT (II) и SPEECHDAT (Е) (www.auditech.ru)
Речевые базы данных для русского языка создавалась в рамках европейских проектов SpeechDat(II) и SpeechDat(E). Целью проектов, объединенных названием SpeechDat, является создание речевых баз данных в странах Европы посредством записи речи в реальных условиях через телефонный канал стандарта ISDN. Базы данных призваны служить общим ресурсом для 20-и европейских языков и диалектов и способствовать разработке общих систем телесервиса. В проектах SpeechDat, профинансированных Европейским союзом, были представлены крупнейшие промышленные и академические организации. Все базы данных, созданные в рамках этих проектов, имеют стандартный дизайн и прошли все этапы валидации. Созданные в рамках проектов SpeechDat речевые базы данных удовлетворяют следующим требованиям:
• охватывают фонетически насыщенные слова, слова-команды, словосочетания, числа, цифры, числовые последовательности, фонетически богатые предложения;
• представляют различные типы произношения и стили произношения (команды, речь-чтение и спонтанная речь);
• фиксируют окружающую акустическую обстановку;
• пригодны для разработки и обучения надежных систем распознавания для телесервисов.
В речевой базе данных SpeechDat(II) представлено 48 (в базе данных SpeechDat(E) - 50) слов и выражений, как спонтанно произнесенных, так и прочитанных. Продолжительность записи (диалога между диктором и компьютером) составляла 8-10 минут в зависимости от темпа речи. Исходный словарь базы данных содержит списки наиболее употребительных слов и команд из компьютерной лексики, цифр и цифровых последовательностей, названий крупных городов и фирм,
обозначающих время фраз, дат, денежных единиц, телефонных номеров, номеров кредитных карт, сочетаний «имя-фамилия», фонетически богатых слов и предложений, спеллинг (побуквенное произнесение) слов. Технические характеристики записывающей установки были стандартизированы для всех речевых баз данных. Записи производились в автоматическом режиме через реальный цифровой телефонный канал европейского стандарта ISDN. Сигнал имеет формат: 8 бит, 8 кГц, А-закон. Качество соединения и линии связи характеризовалось отношением сигнал / шум. Непригодные по зашумленности записи исключались.
Обработка речевого материала выполнялась экспертами по речевой акустике. Она заключалась в многократном прослушивании всех звуковых файлов и их аннотации, которая производилась в соответствии со спецификацией, разработанной для участников проекта SpeechDat(II). Аннотация подразумевала внесение следующей информации в файл-метку:
- орфографическая запись высказывания;
- специальные пометки, указывающие на наличие возможных шумов, оговорок, обрывов записи;
- оценка качества записи;
- данные о дикторе (возраст, пол, региональный акцент);
- тип телефонного аппарата;
- тип акустического окружения.
Из всех слов, произнесенных дикторами разборчиво и без оговорок, был составлен лексикон (файл LEXICON) с указанием частоты встречаемости каждого слова и его фонематической транскрипции. Часть слов приведена с вариантами произнесения (разговорный вариант). Полученный лексикон насчитывает около 16500 единиц. Фонематическая транскрипция лексикона выполнена в соответствии с системой символов Russian SAMPA (машинно-ориентированного языка). Кроме того, содержится файл акустического качества каждого речевого сигнала, файл информации о респонденте (пол, возраст, регионально-диалектальная принадлежность), файл содержимого базы данных. Файл DISIGN содержит полное описание базы, ее словаря, записывающей платформы, полную информацию о лексиконе (особенности произношения, частота встречаемости фонем и др.).
Поддержание стандартов качества баз данных, которые были созданы, обеспечено двумя ступенями валидации, которая выполняется
фирмой SPEX (Speech Processing Expertise Centre), созданной в рамках проекта SpeechDat для проверки качества и соответствия стандартам созданных баз данных.
3.2. Речевая база данных французского языка
Данная база данных разрабатывалась на кафедре прикладной и экспериментальной лингвистики МГЛУ по проекту «Корпусная лингвистика многоцелевого назначения». В задачу входило формирование фонетической базы данных французского языка, представленной звучащими текстами. Первой задачей разработки РБД была разработка корпуса правил соотношения «фонема-буква» для французского языка. Правила были сведены в таблицы, состоявшие из четырех классов: фонема, буква / буквосочетание, примеры, примечание. В примечании указывались исключения из правил и различного рода дополнительная информация (см. табл. 2).
Таблица 2
Пример из таблицы «Соотношение "фонема-буква" (носовые гласные)»
Фонема Буква / буквосочетание Примеры Примечание
/ W / In Le vin/Lq -vW / in /in/ в заимствованных
словах :
Le kronprinz
/Lq-krOn-'prints/
Le mackintosh
/Lq-ma-kin-'tOs/
Le meeting
/Lq-mi-'tiü /
La ring/La-'riü/
Le smoking
/Lq- smO - 'kiü /
Im Le timbre/Lq'-tW :br/
Ain Le pain/Lq - 'pW /
Aim La faim /La - 'fW /
Ein Le peintre
/Lq -'pW :tr/
Для оформления таблицы выбран формат «Простой 3». Текст набран шрифтом Times New Roman, 14 кеглем; при транскрибировании фонем использовались фонетические шрифты: NewtonPhoneticNt,Phonetic TM, Phonetic TMUniv, WP Phonetic. Помимо этих правил в этот же корпус входили таблицы французских гласных, согласных, полугласных, носовых гласных; таблица используемых в базе транскрипционных значков международного фонетического алфавита. Информация сохранена в файлах .doc (см. табл. 3).
Таблица 3
Пример базы исследуемых транскрипционных знаков
Международные транскрипционные знаки
/ i / / m /
/ e / / ü /
/ E / / k /
/ о / / g /
/ O / / O /
/ o / / Z /
/ u / / j /
/ У / / w /
/ Q /
/ oe /
/ q /
/ A /
/ W /
/ P /
/ H /
Второй корпус базы представлен фрагментами французской речи, подлежащей фрагментации до фразового и фонемного уровней, в зависимости от внутренней спецификации задачи. Записи производились программами Cool Edit 2000 и Real Player Plus 8.0. Ряд записей представляет собой оцифрованные записи текстов разного характера с аудиокассет. Условия оцифровки: 22050 Гц, 16 бит, моно. Тексты включают монологи, диалоги, полилоги, театральные постановки и др. в исполнении 25 мужчин и 20 женщин. Другие записи представляют собой сообщения новостей, взятые с разных порталов Интернета, в прочтении 25 мужчин и 20 женщин. Источником служили файлы форматов .m3, .rm.
При записи новостей он-лайн возникли некоторые трудности: при загрузке файлом реального времени .rm происходили изменения бит-рейта, которые отразились на качестве звучания речи. Последующая стадия обработки звука позволяет компенсировать этот недостаток. После записи речь в файлах подлежит сегментации и созданию в отдельных файлах, соответствующих определенному сегменту. Далее проводится аннотирование. Результаты сохраняются на CD-ROM. По ряду текстов имеются и видеозаписи, что существенно расширяет базу данных.
Особенности базы:
- 45 дикторов;
- общее время звучания - 785 минут;
- записи производились в разных условиях.
- РБД для арабского языка
База данных разрабатывалась по проекту «Корпусная лингвистика многоцелевого назначения» («Разработка транскрибированных баз данных для арабского языка» [Потапова, Лебедев, Бобров 2011] по заказу ГПКБ «Спецвузавтоматика»).
Таблица 4
Фонема Буква/ б-уквосочетанне Примеры
/У • (ха) •VI [?ila:h] божество
лунная (jljAj [rahwa:n] иноходец
[mudhiS] удивительный
[Dahaba] уходить, отправляться
JAj [zahada] отказываться
V_lA Q [wahaba] одарять
В задачу входило формирование фонетической базы данных арабского языка, представленной звучащими текстами. Первой задачей разработки РБД была разработка корпуса правил соотношения «фонема-буква» для арабского языка.
Помимо правил база содержала:
- папку с файлами текста (Лх^;
- папку со звуковыми файлами (.wav);
- папку со звуковыми файлами неотсегментированного материала (тренировочный комплекс).
Исходным материалом служили файлы, представленные в следующих двух таблицах.
Таблица 5
Данные о числе файлов, времени их звучания и источниках звучащей речи (общее время звучания - 8,5 часов; дикторы: М - 41; Ж - 16)1
№ Файл Время звучания** Дикторы Источники звучащей речи
1 1 a 45:17 7m,1f ALjazeera
2 1 b 22:46 5m ALjazeera
3 2 a 30:10 8m,3f ALjazeera
4 2 b 14:16 7m, ALjazeera
5* 3 a 45:34 4m,3f London course of Arabic
6* 3 b 15:31 4m,3f London course of Arabic
7* 4 a 45:05 4m,3f London course of Arabic
8* 4 b 11:28 4m,3f London course of Arabic
9* 5 a 45:32 4m,3f London course of Arabic
10* 5 b 13:04 4m,3f London course of Arabic
11* 6 a 46:09 4m,3f London course of Arabic
12* 6 b 12:37 4m,3f London course of Arabic
13*** 7 a 45:21 3f ALarabia
14*** 7 b 45:09 3f ALarabia
15**** 8 a 46:08 10 m,6f ALjazeera
16**** 8 b 28:16 10m,6f ALjazeera
Ниже представлены оцифрованные записи (22050Hz, 16 bit, mono) с аудиокассет. Все файлы типа Windows PCM (.wav) (см. табл. 6).
Таблица 6
Данные по оцифрованным файлам (время звучания отсегментированного материала 6,5 часов; представлена на 2 СР; дикторы: 59 мужчин и 20 женщин).
№ Файл Время звучания** Дикторы Источники звучащей речи
1 ALjazeera1 13:42 5m ALjazeera
2 Bbc1 9:48 2m, 1f BBC
3 Dw2 30:19 7m,1f Deutsche WeLLe
4 Jaber Ibn Hayan 27:26 4m,2f VOA
1 Примечание: * - в файлах с 5 по 12 представлены одни и те же дикторы. В данном наборе файлов представлен лондонский курс арабского языка.
** - время звучания представлено в формате минуты: секунды (мм: сс)
*** - в файлах с 13-14 представлены одни и те же дикторы.
****- в файлах 15 и 16 представлены одни и те же дикторы.
Заключение
Речевые базы данных - широкий инструментарий, используемый как в классических дидактических целях, так и в целях разработки новых информационных технологий. Существуют самые разнообразные цели формирования баз данных. Сформированные базы могут иметь как узкое, так и широкое применение. Сегодня спектр речевых БД насчитывает огромное количество узкоспециальных баз. Базы для широкого спектра решаемых задач требуют хорошего финансирования, значительной доли участия в их создании человеческого фактора. Успешность созданных баз определяется многими факторами - как внутренними, так и внешними. Например, для русского языка наиболее проблематично создать речевую базу из-за сложности грамматики и фонетики. Так или иначе, создание речевых БД имеет большое будущее в свете развития новых информационных технологий, о чем свидетельствует большое наличие узкоспециальных БД, которые, возможно, будучи обобщенными, сформируют в будущем полифункциональную базу данных специального назначения. Так, например, в настоящее время одним из перспективных направлений в развитии различных баз данных является формирование мультимо-дальных баз данных, отражающих информационное поле Интернета в целом и специфику социально-сетевого дискурса в Интернете, в частности [Потапова 2017; Potapova, Bobrov 2015; Potapova, Potapov 2016; Potapova, Potapov, Bazhenova 2015 и др.]. Особое внимание привлекают формы передачи мультимодальной информации, включающей вербальный, паравербальный, невербальный и экстравербальный каналы коммуникации в социально-сетевом дискурсе (ССД). Именно данное направление позволит раскрыть специфику как реализации намерений коммуникантов в ССД, так и их индивидуальную оценку происходящих событий, что непосредственно связано с проблемами социального прогнозирования и акмеологической динамики [Potapova, Potapov 2017 и др.] общества в целом.
СПИСОК ЛИТЕРАТУРЫ
Викторов А. Б. [и др.]. Речевые базы данных для задач автоматического распознавания речи и верификации говорящего // Современные речевые технологии: сб. тр. IX Сессии Российского акустического общества. М. : Геос, 1999. С. 142-145.
Кривнова О. Ф., Захаров Л. М., Строкин Г. С. Речевые корпусы (опыт разработки и использование): сб. 2001 (Dialog). М. : МГУ, 2001. URL: www. dialog-21.ru/digest/2001/articles/krivnova/
Потапова Р. К. Тайна современного кентавра. М. : Радио и связь, 1992. 248 с.
Потапова Р. К. Основные тенденции развития многоязычной корпусной лингвистики (часть 1) // Речевые технологии. 2009а. № 2. С. 92-114.
Потапова Р. К. Основные тенденции развития многоязычной корпусной лингвистики (часть 1) // Речевые технологии. 2009б. № 3. С. 93-112.
Потапова Р. К. Речевая коммуникация в информационном пространстве. М. : Ленанд, 2017. 112 с.
Потапова Р. К., Потапов В. В. Основы многоаспектного исследования «электронной личности» по голосу и речи в информационно-коммуникационной среде Интернета // Человек: Образ и сущность. Гуманитарные аспекты. М., 2017. № 1-2 (28-29). С. 87-111.
Скрелин П. А., Щербаков П. П. Требования к современной фонетической базе данных для фундаментальных и прикладных исследований // Технологии информационного общества - Интернет и современное общество: тр. VI Всероссийской объединенной конференции. Санкт-Петербург, 3-6 ноября 2003 г. СПб. : Изд-во филол. ф-та СПбГУ, 2003. С. 62-63.
Cole R. (ed. in chief). Survey of the state of the art in human language technology. Cambridge: Cambridge University Press and Giardini, 1997. 526 p.
Potapova R. Multilingual spoken language databases in Russia // R. Potapova, A. Ronzhin (eds.) Speech and Computer 2011 (SPEC0M'2011). Kazan, 2011. P. 13-17.
Potapova R., Bobrov N. Versatile linguistic database annotation: practical issues and a new flexible approach // Fakotakis N., Ronzhin A., Potapova R. (eds.) Proc. of the 17th Intern. conference "Speech and Computer 2015" (Athens, Greece September 20-24, 2015). University of Patras. Vol. II. P. 41-53.
Potapova R., Potapov V. Polybasic attribution of social network discourse // Ronzhin A., Potapova R., Nemeth G. (eds.) SPECOM 2016. LNCS. Vol. 9811. Heidelberg: Springer, 2016. P. 539-546.
Potapova R., Potapov V. Human as acmeologic entity in social network discourse (multidimensional approach) // A. Karpov, R. Potapova, I. Mporas (eds.). SPECOM 2017. LNAI. Vol. 10458. Cham: Springer, 2017. P. 407-416.
Potapova R., Potapov V., Bazhenova I. Development of the research cloud technology stand-alone system (regarding integrated speech databаses) // N. Fakotakis, A. Ronzhin, R. Potapova (eds.) Proc. of the 17th Intern. conference "Speech and Computer 2015" (Athens, Greece September 20-24, 2015). University of Patras. Vol. II. P. 1-7.