Применение методов машинного перевода для анализа древнерусских музыкальных рукописей
Марина Даньшина МГТУ имени Н.Э. Баумана, Москва, Россия. marina [email protected]
Введение
Предшественником линейной нотации, используемой в настоящее время для фиксирования мелодии, была знаменная нотация. Ее особенностью было то, что мелодия записывалась не с помощью нот на линейках, а специальными знаками -крюками, которые имели сложную структуру. Изначально рукописи не содержали подсказок исполнителю о высоте или длительности ноты, однако спустя некоторое время в музыкальные книги стали добавлять пометы, облегчающие чтение песнопения. С течением времени знания о том, как необходимо воспроизводить мелодию стали фиксировать в специальных книгах (азбуках), позже появились рукописи, содержащие мелодию в двух нотациях - знаменной и нотной. Такие книги являются аналогами параллельных корпусов текстов и именно они являются главным источником информации для расшифровки знаменных песнопений, несмотря на то, что данные в них неполны и иногда противоречивы. Помимо этого следует учитывать, что рукописи содержат специальные структуры (фиты, лица), которые, аналогично фразеологизмам в тексте, необходимо переводить особенным образом. [7] Общее количество знамен, с помощью которых производилась запись, оценивается по-разному. В нашем исследовании были экспериментально выявлено 202 знамени. При этом каждое знамя может переводиться одной или несколькими нотами. Пример знаменной рукописи приведен на рисунке 1.
Обработка рукописей
В рамках проекта «Компьютерная семиография» реализуются задачи по созданию конкретных инструментов, позволяющих автоматизировать рутинные операции перевода знаменных песнопений в линейную нотацию. Данная работа поддержана грантом РГНФ №110412025в.
В качестве основных исходных данных были выбраны четыре типа музыкальных рукописей:
• музыкальные азбуки;
• кокизники (сборники фит и лиц);
• сборники попевок;
• двоезнаменники.
Для обработки каждого типа рукописей предложены отдельные инструменты и технологии. Например, для перевода на основе азбук можно составить список продукционных правил с приоритетами и осуществить экспериментальную
' 1 >VI h , (>■ С IЛ vn h--
1> -< j »J/Í .'i -1. rlj
Рис. 1. Пример знаменной рукописи
дешифровку. Для этого создан музыкальный проигрыватель, который показывает результаты перевода не только визуально, но и позволяет проанализировать мелодию на слух. Приоритеты используются в тех случаях, когда при дешифровке нужно переводить сочетания знамен.
Пример результата перевода музыкальным проигрывателем приведен на рисунке
2.
Л|
Рис. 2. Пример перевода музыкальным редактором
Исходными данными для музыкального редактора являются:
1. Знаменное песнопение в формате XML (Рис. 3)
<ROW Znair.="a" S1oc="ko" Stil=" обычный" DFoir.=IT■/>
<ROW Znair.= "Ap" Sloc = rrE34n Stil=" обычный Italic" VPoir.= "B" DPüir.= rTIT/> <ROW Zr.air.="a,r S1oc="ho" Stil=" Bold" VPoir.="n" DPoir.=""/> <RDW Zr.air.= "a" Slog="My" Stil=" Bold" VPoir.= "n" DPoir.= " "/>
<ROW Zr.anr.="a,r S1oc="ot" Stil=" Bold" VPoir.="n" DPoir.=""/> <RDW Znair.= "a" 31од="шу" Stil=" Bold" VPoir.= "n" DPoir.= ""/> <RDW Znair.="a" Slog="cH" Stil=" Italic" VPoir.="n" DPoir.=""/>
Рис. 3. Пример песнопений в XML-формате
2. Словарь для перевода в формате XML (Рис. 4), в котором закодированы ноты, которыми переводится знамя или последовательность знамен, а также соответствующие длительность и приоритет.
▼ <ROWDATA>
<ROW cod=IT2 0017 note = rre_l' <ROW cod=ITl 4 4 " note = rrf_l' <ROW cod=IT30 4" note = rrg_l' <ROW cod=IT2 note = rrf_l' <ROW cüd=rr177IT note=rre_l' <ROW cod=IT2 5 6" note = rrf l1
length=rr04rr p=rr0.7rr/> length=rr04rr р=гг0.Эгг/> length=rr04rr р=гг0.Эгг/> length=rr04rr p=rr0 . 4 "/> length=rr04rr p=rr0 . 4 "/> length=rr04rr p=rr0.5rr/>
Рис. 4. Пример словаря для дешифровки рукописи
Для анализа двузнаменников разработаны и апробированы различные технологии статистического перевода:
• методы построения "модели языка": на основе М-граммной модели -вероятность следования знамени определяется с учетом вероятностей предшествующих знамен.
• построение "модели перевода" в зависимости от характера "знаменных конструкций" (их размерности) может быть реализовано на основе:
1) текстовых фраз, которые сопровождают нотную запись - выбираются последовательности знамен, соответствующие предложению или его части (до знака препинания);
2) попевок - устойчивых сочетаний знамен из соответствующих сборников, составленных вручную древними авторами или исследователями;
3) фиксированного контекстного окна - выбранного количества знамен (используется в М-граммной модели).
Построение модели языка и модели перевода
В качестве модели языка строится триграммная языковая модель. Исходными данными для построения является двоезнаменный Ирмологий, который переведен в электронный вид и хранится в базе данных (Рис. 5).
Рис. 5. Пример двоезнаменника в электронном виде
Рис. 6. Пример языковой модели песнопений
Согласно статистическому машинному переводу модель языка назначает наибольшую вероятность наиболее частотным строкам (словам или фразам). В качестве «граммы» для знаменных песнопений выбраны последовательности нот, которые соответствуют знамени. Для учета недостатка неполноты исходных данных
используется метод сглаживания Лапласа, в соответствии с которым вероятность каждой п-граммы вычисляется следующим образом:
Р>ап\А{\А{_л) = —----(1)
Где с - исходное количество триграммы в тексте, |У| - число уникальных грамм в тексте [5,6,9].
Результаты построения языковой модели представлены в электронном виде на сайте проекта.
Модель перевода вычисляется по двуязымному корпусу и назначает наибольшую вероятность парам строк (слов или фраз) с одним значением.
Для построения модели перевода рассчитывается вероятность для каждой пары Р(п|ъ), где ъ - последовательность знамен, а п - перевод этой последовательности. Данная вероятность рассчитывается по формуле (2.2).
Р(п\г) = СС—(2), где С(п,ъ) - количество раз, когда последовательность
С(к)
знамен ъ переводится нотами п.
Триграмма Перевод Вероятность
и к Ш 0,017327
1" ш ЧР 0,316162
и и 0,014851
иг 7 ш ^Р 0,272727
Аг У* / ч ш 0,073529
V ■ ■ 0,3125
и IV Ь" Ш — 0,153846
0 т ; ^р 0,111111
Ь" ; Ш 0,333333
<* Ь" и ш <> 0,2
Рис. 7. Пример модели перевода Построение общего словаря для расшифровки знаменных песнопений
Итоговый словарь строится на основе предварительно полученных на основе азбук, сборников попевок и двоезнаменников словарей. А также у экспертов имеется возможность добавить в словарь новые правила, полученные на основе анализа материалов. При этом каждому правилу в словаре соответствует приоритет, который определяет очередность замены знамен. Таким образом, учитывается перевод попевок и других специальных структур.
Выводы
Полученный словарь позволяет перевести древнерусские музыкальные рукописи из крюковой нотации в линейную с учетом особенностей знаменных песнопений.
Использование нескольких методов построения словарей позволяет исследователям различным образом анализировать полученные переводы.
Построенные модель языка и модель перевода являются исходными данными для следующего этапа расшифровки знаменных песнопений - декодирования.
Список источников
1. Даньшина И.В., Даньшина М.В. Структура и обработка древнерусских певческих рукописей.// Сборник тезисов докладов «Печатные средства информации в современном обществе (к 80-летию МГУП)». Секция «Электронные средства информации в современном обществе», М. 2010
2. Даньшина М.В. Программа для ввода и обработки семиографических песнопений IPSM. Информационные технологии и письменное наследие: материалы междунар. науч. конф. / отв. Ред. В.А.Баранов. - Уфа;Ижевск: Вагант, 2010
3. Даньшина М.В. Метод выделения, сохранения и обработки попевок в музыкальной рукописи. Информационные технологии и письменное наследие: материалы IV междунар. науч. конф. (Петрозаводск, 2012 г.)
4. Даньшина М.В. Исследование семантической структуры попевок в знаменных песнопенях. Тезисы докладов на международном междисциплинарном форуме по прикладной когнитивистике CrossLingua'2012 "Когниция. Коммуникация. Культура"
5. Даньшина М.В. Использование n-граммной языковой модели для изучения знаменных песнопений. Сборник тезисов и статей Российско-Германской молодежной дистанционной научной школы «Актуальные и перспективные направления создания систем, обеспечивающих семантический анализ данных в режиме реального времени», 2012.
6. Knight K. A Statistical MT Tutorial Workbook. 1999
7. М.Бражников. «Древнерусская теория музыки». - «Музыка», 1972г.
8. Шабалин Д.С. Певческие азбуки Древней Руси. - Кемерово: Кузбассвузиздат, 1991. 211 с.
9. Bird S., Klein E., Loper E. Natural Language Processing with Python. 2009