О.Д.Черепанова
ЛИНГВИСТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ РЕЧЕВЫХ ТЕХНОЛОГИЙ: ИСПОЛЬЗОВАНИЕ АНГЛОРУССКОЙ ПРАКТИЧЕСКОЙ ТРАНСКРИПЦИИ В СИСТЕМЕ РУССКОЯЗЫЧНОГО СИНТЕЗА «ТЕКСТ - РЕЧЬ»
Статья посвящена проблеме озвучивания англоязычных имен собственных в русскоязычной системе автоматического синтеза устной речи по письменному тексту. Для перевода таких имен в графическую или фонетическую систему записи, с которой синтезатор может работать, в настоящей работе предлагается метод англо-русской практической транскрипции, который позволяет переводить английские слова в кириллическую запись с учетом их произношения в английском языке и озвучивать их, не расширяя систему англоязычным звуковым материалом. В статье приведены результаты перцептивного эксперимента по оценке качества синтеза речи английских слов, озвученных по предлагаемым правилам транскрипции.
Ключевые слова: синтез речи по тексту, нормализация текста, практическая транскрипция, оценка, разборчивость речи, естественность речи, русский язык, английский язык
Russian texts often contain English words and word combinations. These are mostly names of companies, mass media, different brands and computer programs. As English words are written in the Latin alphabet, they must be rendered into a graphic or phonetic system that the Russian synthesizer can interpret. In our work we propose to use the English-Russian orthographic transcription in order to transform English words into the Cyrillic alphabet. This method relies on word pronunciation and allows to phonetize English words using only Russian sounds without extending the TTS-system with English phonemes or extra acoustic databases. We also describe a perceptual experiment that was carried out in order to assess the quality of English words synthesized in this way.
Key words: text-to-speech-synthesis, text normalization, orthographic transcription, evaluation, intelligibility, naturalness, Russian, English.
1. Введение. Метод практической транскрипции
В настоящее время во многих русских текстах, будь то научная или публицистическая статья, новостной сайт в сети Интернет или инструкция по эксплуатации технического прибора, встречается большое количество вставок на латинице, чаще всего англоязычных. В первую очередь это институциональные имена собственные: названия компаний и орга-
низаций, издательств, средств массовой информации, брендов, программного обеспечения. Чтобы озвучивать англоязычные словоупотребления, которые представляют собой последовательность знаков латинского алфавита, в системе автоматического русскоязычного синтеза устной речи по тексту1, необходимо перевести эти иноязычные вставки в ту же графическую (соответственно и фонетическую) систему, которая используется для озвучивания обычного русскоязычного текста, написанного на кириллице. Для решения данной задачи нами предлагается метод практической транскрипции. В отличие от транслитерации, которая широко используется в ситуациях, когда через другую графическую систему требуется передать написание последовательности знаков определенного языка на кириллице, практическая транскрипция позволяет передать ее звучание, и именно это важно при озвучивании английских словоупотреблений русскоязычной системой синтеза речи по тексту. Действительно, с помощью практической транскрипции мы переводим последовательность символов графической системы языка-источника L1 (латиницы) в последовательность символов графической системы языка-восприемника L2 (кириллицы), озвучивание которой в языке-восприемнике ближе всего к произношению исходной последовательности в языке-источнике [Успенский, 2002]. Имея в распоряжении фонетическую транскрипцию английского слова, по предложенным в настоящей работе правилам англо-русской практической транскрипции можно получить следующие примеры обработки англоязычных вставок:
(1) Bloomberg ['blumbarg] - /блу+мберг/
(2) Microsoft ['maikrausuft] - /ма+йкрософт/
(3) British Airways [ bntij eaweiz] - /бри+тиш э+рвэйс/2.
Система правил англо-русской практической транскрипции была разработана нами на основе работ [Ермолович, 2009], [Гиляревский, Старостин, 1985]. Полный перечень правил приведен в таблицах 1-3 в конце работы.
Нужно отметить, что изначально правила создавались указанными выше авторами для графической передачи английских имен собственных в русских текстах. В целях адаптации оригинальных правил Д.И. Ермо-
1 Автоматический синтез речи по тексту - это «технология, позволяющая преобразовать входную текстовую информацию в звучащую речь» [Рыбин, 2014: 92].
2 Здесь и далее практическая транскрипция выделяется с двух сторон косой чертой («/»), а знаком «+» после гласного обозначается ударение. По умолчанию ударение ставится на тот же слог, что и в фонетической транскрипции английского слова.
ловича и Р.С. Гиляревского к возможностям и требованиям русскоязычного синтеза речи мы провели несколько перцептивных экспериментов на разборчивость англоязычных словоупотреблений, озвученных русскоязычным синтезатором с использованием предложенной ими системы практической транскрипции. С учетом анализа речи телеведущих и дикторов российских новостных каналов (см. ниже раздел 2) и результатов проведенных экспериментов (см. ниже раздел 3) исходные правила были скорректированы под задачу синтеза речи и протестированы дополнительно в озвученном синтезированном варианте.
К важным преимуществам предлагаемого нами способа обработки слов на латинице относится среди прочего его оптимальность: вместо составления обширных словарных списков или написания дополнительного языкового модуля в системе русскоязычного синтеза мы используем сравнительно небольшой набор правил англо-русской практической транскрипции для перевода английских слов на кириллиц . Кроме того, предлагаемый метод универсален, то есть может быть использован в любой русскоязычной системе синтеза речи: после того, как вставка на латинице переведена в кириллическую графическую систему, она может обрабатываться на всех дальнейших этапах синтеза речи по тем же правилам, что и обычные (нормализованные) русские слова на кириллице. Однако, поскольку озвучивание англоязычных вставок на основе правил практической транскрипции осуществляется с помощью звуков русского языка (в популярных конкатенативных синтезаторах аллофонного типа), принципиально важной становится оценка качества и приемлемости такого способа озвучивания с точки зрения русскоязычных пользователей данных систем. Этой задаче посвящена основная часть настоящей работы.
2. Критерии оценки качества синтезированной речи
Существует большое количество различных подходов к оценке систем синтеза речи по тексту (например, см.: [Campbell, 2007]). Чтобы оценить качество озвучивания английских слов и словосочетаний в русскоязычной системе синтеза, вероятно, стоит обратить внимание на две основные качественные характеристики синтезированной речи: разборчивость (количество правильно распознанных единиц) и естественность (оценка близости синтезированной речи к естественной).
2.1. О разборчивости озвученных англоязычных вставок
Обычно оценка качества синтезированной речи начинается с параметра разборчивости. В этой связи нужно отметить, что около 90% англоя-
зычных вставок в русских текстах - это институциональные имена собственные и любые другие названия, обычно в той или иной степени знакомые пользователю (The New York Times, Forbes, Apple, Bloomberg). Соответственно, под разборчивостью (или распознаваемостью) синтезированного словоупотребления в проведенном нами исследовании понимается способность слушателя определить, о какой сущности идет речь, или же (в ситуациях, когда название или слово слушателю незнакомо) воспроизвести примерное написание озвученного фрагмента. Для оценки разборчивости англоязычных вставок, озвученных с помощью практической транскрипции, нами были проведено несколько целевых перцептивных экспериментов. Систематические ошибки испытуемых при восприятии определенных словоупотреблений позволили выделить ряд спорных вопросов в оригинальных правилах практической транскрипции, на которых имеет смысл остановиться подробнее, что будет сделано в разделе 3.
2.2. Естественность озвученных англоязычных вставок в русскоязычном контексте
Второй параметр качества синтеза английских словоупотреблений -естественность - является, на наш взгляд, более неоднозначным и субъективным. С одной стороны, метод практической транскрипции в русскоязычном синтезе, при всех его достоинствах, «обречен» на малую естественность озвученных англоязычных вставок относительно норм произносительного стандарта английского языка. С другой стороны, если понимать под естественностью «соответствие норме, эталону», то каким именно нормам должны соответствовать озвученные английские словоупотребления? Нормам произношения английского или русского языка? Можно ли вообще четко определить, как произносительные нормы русского языка распространяются на английские слова в русскоязычном контексте?
Для того чтобы изучить, как русскоговорящие дикторы произносят английские названия в русском контексте, нами был проанализирован аудио- и видеоматериал новостных сайтов и технические обзоры Интернет-магазинов. Выбор данных ресурсов объясняется тем, что произношение телеведущих и дикторов в официальных источниках информации зачастую рассматривается как некий произносительный стандарт, который влияет на распознаваемость акцентно окрашенных английских слов носителями русского языка и который, следовательно, надо учитывать при озвучивании англоязычных вставок русскоговорящим синтезатором.
Анализ материала показал, что русскоязычные дикторы имеют привычку фонетически модифицировать английские слова, заимствованные в русскую речь. Для английских звуков, отсутствующих в русском языке, подыскиваются ближайшие по звучанию звуки-замены: вместо Twitter ['twits] и Forbes ['fo:bz] произносятся «русифицированные» [тв'итър], [форпс]. В окончании —ing на месте сочетания [ig] в британском английском произносится русское [ьнк] («консалтинг», «драйвинг» -[кансалт'ьнк], [драйв'ьнк]), а в союзе and не происходит редукции, поэтому в названии компании Ernst & Young мы слышим отчетливое [энт] вместо английского [эп].
В результате анализа нами было выделено несколько факторов, которые влияют на степень выраженности русского произносительного акцента при озвучивании англоязычных фрагментов. Безусловно, большое значение имеет уровень владения английским языком говорящего. Но, как показал анализ аудиоматериала, говорящий лишь в редких случаях полностью переключается на английский язык вне зависимости от его уровня владения языком. Не менее важным фактором является распространенность англоязычной вставки в повседневной жизни носителей русского языка. Чем выше частотность слова, тем больше вероятность того, что оно будет озвучено диктором «по-русски». Так, в проанализированных материалах социальная сеть Twitter действительно произносится всегда русифицировано. То же самое можно сказать о Bluetooth, Word, Amazon, Microsoft, Facebook и многих других англоязычных вставках. Однако даже менее распространенные слова (WhatsApp, Verge, Silencer и др.) в проанализированном материале часто произносятся говорящими «по-русски». Еще один существенный фактор - длина англоязычной вставки. Целые фразы на английском языке и просто длинные словосочетания редко употребляются в русскоязычных текстах, но во всех прослушанных записях они озвучиваются диктором с английским произношением (насколько это позволяет уровень владения английским языком говорящего): we are hunted, Glass Explorer Edition; News of the world. Тем не менее длинные англоязычные фрагменты иногда озвучиваются русифицированно, особенно если данные словосочетания достаточно известны: Work & Travel, Windows Phone 7, Amazon Kindle Paper-white.
Таким образом, если говорить о естественности синтеза речи по тексту, можно сделать вывод, что при озвучивании отдельных английских слов и не очень длинных словосочетаний вполне допустимо (а иногда
даже желательно) использовать звуковой материал русского языка. С этой точки зрения практическая транскрипция как способ передачи англоязычных вставок при синтезе речи кажется вполне оправданной.
3. Разборчивость синтезированных англоязычных вставок (экспериментальные данные)
3.1. Материал и методика эксперимента
Чтобы оценить качество синтеза англоязычных вставок по предложенным правилам практической транскрипции и проверить текущие корректировки исходных правил, был проведен перцептивный эксперимент с участием 16 русскоязычных испытуемых (с неоконченным или оконченным высшим образованием, в возрасте от 18 до 54 лет). Два участника эксперимента практически не владели английским языком, остальные же знали английский на уровне не ниже начинающего. Из русских новостных текстов было отобрано 27 англоязычных слов и словосочетаний на латинице. Практическая транскрипция, написанная вручную для всех 27 словосочетаний, была озвучена с помощью русского синтезатора «Агафья»3. Каждому испытуемому необходимо было прослушать 27 озвученных англоязычных словосочетаний и после каждой записи выполнить контрольное задание: выбрать правильный ответ из нескольких вариантов или самостоятельно написать услышанное слово / словосочетание.
3.2. Результаты эксперимента
Для каждого из 27 словосочетаний был подсчитан процент его распознаваемости испытуемыми. Если определять разборчивость озвученных англоязычных вставок как относительное количество испытуемых, успешно их распознавших, то с помощью правил англо-русской практической транскрипции, использованных в настоящем исследовании, достигается средний уровень разборчивости 86,6%.
Отметим еще раз, что значительная часть озвученных словосочетаний - имена собственные, в той или иной степени знакомые носителям русского языка. Как и следовало ожидать, названия известных компаний (Dream Works, Adidas Global), компьютерных программ и сервисов сети Интернет (Microsoft Word, WebMoney), спортивных команд (Manchester United) испытуемые успешно распознали. Тем не менее, среди идентифицированных в 100% случаев словосочетаний оказались и явно менее распространенные Market Watch и Drag and Drop, в то время как попу-
3 Разработан речевой группой ОТиПЛ МГУ [Кривнова, 1998], [Бабкин, Захаров, 1999].
лярная социальная сеть Twitter была распознана лишь каждым третьим испытуемым. Как видно из вышеприведенных примеров, известность названия не влияет напрямую на его распознаваемость.
Систематические ошибки испытуемых позволили выделить следующие спорные вопросы в использованных правилах англо-русской практической транскрипции:
1. Место словесного ударения. Целый ряд английских слов был заимствован в русский язык со смещением ударения на последний (или предпоследний) слог. Речь идет о таких словах, как email, Facebook, Android, YouTube, Manchester и многих других. Оказалось, что озвучивание подобных вставок с ударением «по-английски» понижает их распознаваемость4:
(4) Email ['i:meil] /и+мейл/ - распознаваемость 45%
/имэ+йл/ - 96%
(5) Facebook ['feisbuk] /фе+йсбук/ - 67%.
/фэйсбу+к/ - 78%.
2. Фонема [w]. Гиляревский и Старостин предлагают передавать фонему [w] через /в/ перед буквой «у» и через /у/ во всех остальных случаях (woods - /вудс/, windows - /уи+ндоус/). В связи с систематическими ошибками испытуемых в таких словах как Twitter («тулитер», «tuiter»), Windows («уинданс»), Paperwhite («paperlight») данную фонему мы предлагаем передавать только через /в/. Откорректированные правила транскрипции позволили улучшить разборчивость синтезированных слов, содержащих звук [w]: Microsoft Word /ма+йкрософт ворд/, Market Watch / ма+ркет вотч/ и Web Money /вэб ма+ни/ были успешно распознаны в 100% случаев, Black and White /блэк энд ва+йт/ - в 97%, swift /свифт/- почти в 85%.
3. Суффиксы -er и -ed. Изначально по правилам Д.Е. Ермоловича фонема [э] передавалась транслитерацией (Twitter ['twite] - /тви+тер/, Amazon [smazan] - /э+мазон/, Russian [mjan] - /ра+шиан/). Но в таких словах, как Twitter или partner [pa:tna] /па+ртнер/, участники перцептивного эксперимента допускали большое количество ошибок. Так, при озвучивании синтезатором практической транскрипции /па+ртнер/ зубной [т] перед мягким [н'] по правилам ассимиляции смягчался ([п^рт'н'ер]), что привело к таким ответам испытуемых, как «партиз», «partes», «parties», «partiers», «partirs», «parteers». Как показал анализ русской речи
4 Следует отметить, что распознаваемость примеров (4) и (5), скорее всего, повысилась также из-за более удачной транскрипции дифтонга [ei] как /эй/.
дикторов (см. выше), телеведущие при произнесении англоязычных вставок часто смягчают согласные так же, как и в русском языке: Christies - [кр'ис'т'ьс]; Acoustic - [ъкус'т'ьк]. Однако есть ряд суффиксов, перед которыми (или в которых) смягчения обычно не происходит. Сюда относятся суффиксы -er (Warner Brothers, partners), -ed (associated, limited), -ment (entertainment). В связи с этим по откорректированным нами правилам практической транскрипции суффиксы -er, -ed, -ment транскрибируются как /эр/, /эд/, /мэнт/ соответственно.
4. Транскрипция фонем [ô] и [0]. Передача английского [0] через /с/ в BBC Earth [bi: bi: si: з:0] /би би си эрс/ привела к низкому уровню различимости вставки (31%): многие участники эксперимента услышали вместо earth слово ears. Учитывая, что состав согласных звуков в русском и английском языках не позволяет установить однозначного соответствия между ними, подобных трудностей при практической транскрипции англоязычных вставок на кириллицу избежать нельзя. При передаче фонем [ô] и [0] приходится так или иначе выбирать между русскими согласными [д], [т] (по Р.С. Гиляревскому), [з] и [с] [Мещеряков и др., 2011] или [в], [ф] [Potapov, 2003], с помощью которых также транскрибируются английские [d], [t], [z], [s], [v], [f]. Анализ речи русских дикторов говорит в пользу передачи фонем [ô] и [0] через /з/ и /с/, об этом же свидетельствует и уже укоренившаяся в русском языке форма «блютуз» для английского Bluetooth. В откорректированных правилах англо-русской практической транскрипции мы остановились именно на этом варианте передачи фонем [ô] и [0].
Полный перечень правил англо-русской практической транскрипции с учетом внесенных изменений представлен в таблицах 1-3. Структура правил практической транскрипции взята из работы Д.И. Ермоловича [Ермолович, 2009: 52-55]. Внесенные в правила изменения и дополнения выделены заливкой.
Таблица 1. Правила англо-русской практической транскрипции (ПТ)
для гласных фонем
Англ. фонема Примечание ПТ Примеры
Л а sun [sAn] - /сан/ honey [hAni] - /ха+ни/
œ основной вариант э capital ['k^pitsl] - /кэ+питал/
после /ж/, /ч/, /ш/ е Jackson ['^rekssn] - /джексон/
ai ай light [lait] - /лайт/
Англ. фонема Примечание ПТ Примеры
ais айр wire ['wais] - /вайр/
au аУ now [nao] - /на+у/
aus основной вариант ауэ trowel [trausl] - /тра+уэль/
если обозначается сочетанием с буквой г ауэр tower [taus] - /та+уэр/
а: основной вариант а castle ['ka:sl] - касл
если обозначается сочетанием с буквой 1 ал palm [pa:m] - /палм/
если обозначается сочетанием с буквой г ар car [ka:] - /кар/
э передается транслитерацией; при наличии буквы г последняя записывается как р Amazon ['®mszsn] - /э+мазон/ Russian ['rAjsn] - /ра+шиан/ partner ['pa:tns] - /па+ртнер/
в некоторых морфемах — см. раздел (в)
эи основной вариант оУ motor [ msota] - /мо+утор/
без ударения, если обозначается буквой o в конце слова или перед слоговой гласной о Delano [di'lansu] - /дила+но/ Roanoke [гэиэпэик] - / ро+аноук/
Е в начале слова; после гласной э empire [Empaisr] - /эмпайр/
после согласной е special ['spejal] - /спешл/
ei эй aim [eim] - /эйм/ mail [meil] - /мэйл/
еэ эр airways [ esweiz] - / э+рвэйс/
з: в начале слова; после гласной эр earth [з:0] - /эрс/
после согласной ер Percy ['p3:si] - /перси/
если обозначается сочетанием our, or °р journal ['^3:nl] - /джо+рнал/ work [w3:k] - /ворк/
i и British ['britif] - /бритиш/ event [i'vEnt] - /ивент/
i: и steel [sti:l] - /стил/
is основной вариант иа ideal [ai'disl] - /айди+ал/
если обозначается сочетанием с буквой г ир Geer [gis] - /гир/
Ю о lock [lnk] - /лок/
Англ. фонема Примечание ПТ Примеры
о: основной вариант о Fawkes [fo:ks] - /фокс/ Albany [э:1Ьэш] - /о+лбани/
если обозначается сочетанием с буквой г оР Gore [go:] - /гор/ Norton ['nD:tsn] - /но+ртон/
01 ой oil [ail] - /ойл/
и у book [bok] - /бук/
u: у tool [tu:1] - /тул/
из ур tour [tus] - /тур/
Таблица 2. Правила англо-русской практической транскрипции (ПТ)
согласных фонем
Англ. ПТ Англ. ПТ Англ. ПТ Англ. ПТ
фонема фонема фонема фонема
b б d д nk нк h х
P п t т g г дж
f ф 6 з5 k к tf ч
v в 8 с6 1 л 3 ж
m м n н r р J ш
n нг s с
Таблица 3. Правила англо-русской практической транскрипции (ПТ)
согласных фонем /¡/, М/, /г/
Англ. фонема Примечание ПТ Примеры
j основной вариант й York [jo:k] /йорк/
вместо сочетания *йа я Young [jAlj] /янг/
то же, после согласной ья Trevelyan [to'veljsn] /треве+льян/
вместо сочетания *йу ю eugenics [ju:'d3Eniks] /юдже+никс/
то же, после согласной ью new [nju:] /нью/
w в Windows ['windaoz] /виндоус/
z основной вариант з easy [ i:zi] /и+зи/
допустимый вариант в конце слова, если обозначается буквой £ с woods [wudz] /вудс/
5 Bluetooth - /блуту+с/, Google Earth - /гугл эрс/
6 Brothers - /бра+зэрс/
4. Заключение
В настоящей работе рассматривается одна из задач нормализации текста в рамках русскоязычного синтеза речи по тексту - обработка англоязычных слов и словосочетаний на латинице. Основными преимуществами метода практической транскрипции, предлагаемого в настоящей работе, являются его доступность и универсальность. Данный метод позволяет озвучивать английские слова и словосочетания на латинице в русскоязычной системе синтеза без дополнения синтезатора отдельным модулем для английского языка, как это делается, например, в синтезаторах-полиглотах polySVOX. В последнем случае для добавления звуковых единиц английского языка в звуковую библиотеку русскоязычного синтезатора приходится либо использовать два разных голоса для разных языков, либо искать для записи материала донора-билингва. Универсальность метода практической танскрипции заключается в том, что на выходе блока нормализации текста формируются «нормализованные» слова на кириллице, которые на всех дальнейших этапах синтеза обрабатываются программой по тем же правилам, что и обычные слова русского языка. Благодаря этому одни и те же правила практической транскрипции можно включить в любую русскоязычную систему синтеза речи по тексту, независимо от прочих правил фонетизации текста, которые в ней используются.
Как показывают результаты анализа речи телеведущих, носители русского языка привыкли озвучивать и воспринимать на слух английские слова в их русифицированной форме. Таким образом, озвучивание английских слов с помощью звукового материала русского языка, подобранного по правилам англо-русской практической транскрипции, может повысить не только разборчивость, но и естественность синтезируемой русской речи.
Список литературы
Бабкин А.В., Захаров Л.М. Оценка качества системы синтеза речи, разработанного в МГУ // Труды Межд. семинара по компьютерной лингвистике и ее приложениям «Диалог'99». М., 1999. Гиляревский Р.С., Старостин Б.А. Иностранные имена и названия в русском тексте: Справочник. 3-е изд. М., 1985. Ермолович Д.И. Методика межъязыковой передачи имен собственных. М., 2009.
Кривнова О. Ф. Автоматический синтез русской речи по произвольному тексту (вторая версия с женским голосом) // Труды Межд. семинара по компьютерной лингвистике и ее приложениям «Диалог'98». М., 1998.
Мещеряков Р.В., Тиунов С.Д., Лирмак Ю.М., Шевкунова А.Е. Речевые технологии в задаче обучения студентов-носителей русского языка произношению на иностранном языке. // Анализ разговорной русской речи (АРЗ-2011): Труды пятого междисциплинарного семинара. СПб., 2011.
Рыбин С.В. Синтез речи: Учеб. пособие по дисциплине «Синтез речи». СПб., 2014.
Успенский В.А. Труды по нематематике. М., 2002.
Campbell N. Evaluation of speech synthesis: From Reading Machines to Talking Machines // L. Dybkjoer et al. Evaluation of Text and Speech Systems. Springer Verlag, 2007.
Potapov V. The American English Interference in Russian on the Segmental Level // Proc. of the Intern. workshop «Speech and computer» (SPECOM'2003). Moscow, 2003.
Сведения об авторе: Черепанова Ольга Дмитриевна, аспирантка кафедры теоретической и прикладной лингвистики филологического факультета МГУ имени М.В. Ломоносова. E-mail: [email protected].