Применение методов машинного перевода для анализа древнерусских музыкальных рукописей

Даньшина Марина

Марина Даньшина МГТУ имени Н.Э. Баумана, Москва, Россия. marina danshina@mail.ru

Введение

Предшественником линейной нотации, используемой в настоящее время для фиксирования мелодии, была знаменная нотация. Ее особенностью было то, что мелодия записывалась не с помощью нот на линейках, а специальными знаками -крюками, которые имели сложную структуру. Изначально рукописи не содержали подсказок исполнителю о высоте или длительности ноты, однако спустя некоторое время в музыкальные книги стали добавлять пометы, облегчающие чтение песнопения. С течением времени знания о том, как необходимо воспроизводить мелодию стали фиксировать в специальных книгах (азбуках), позже появились рукописи, содержащие мелодию в двух нотациях - знаменной и нотной. Такие книги являются аналогами параллельных корпусов текстов и именно они являются главным источником информации для расшифровки знаменных песнопений, несмотря на то, что данные в них неполны и иногда противоречивы. Помимо этого следует учитывать, что рукописи содержат специальные структуры (фиты, лица), которые, аналогично фразеологизмам в тексте, необходимо переводить особенным образом. [7] Общее количество знамен, с помощью которых производилась запись, оценивается по-разному. В нашем исследовании были экспериментально выявлено 202 знамени. При этом каждое знамя может переводиться одной или несколькими нотами. Пример знаменной рукописи приведен на рисунке 1.

Обработка рукописей

В рамках проекта «Компьютерная семиография» реализуются задачи по созданию конкретных инструментов, позволяющих автоматизировать рутинные операции перевода знаменных песнопений в линейную нотацию. Данная работа поддержана грантом РГНФ №110412025в.

В качестве основных исходных данных были выбраны четыре типа музыкальных рукописей:

• музыкальные азбуки;

• кокизники (сборники фит и лиц);

• сборники попевок;

• двоезнаменники.

Для обработки каждого типа рукописей предложены отдельные инструменты и технологии. Например, для перевода на основе азбук можно составить список продукционных правил с приоритетами и осуществить экспериментальную

' 1 >VI h , (>■ С IЛ vn h--

1> -< j »J/Í .'i -1. rlj

Рис. 1. Пример знаменной рукописи

дешифровку. Для этого создан музыкальный проигрыватель, который показывает результаты перевода не только визуально, но и позволяет проанализировать мелодию на слух. Приоритеты используются в тех случаях, когда при дешифровке нужно переводить сочетания знамен.

Пример результата перевода музыкальным проигрывателем приведен на рисунке

2.

Л|

Рис. 2. Пример перевода музыкальным редактором

Исходными данными для музыкального редактора являются:

1. Знаменное песнопение в формате XML (Рис. 3)

Рис. 3. Пример песнопений в XML-формате

2. Словарь для перевода в формате XML (Рис. 4), в котором закодированы ноты, которыми переводится знамя или последовательность знамен, а также соответствующие длительность и приоритет.

▼ <ROWDATA>

<ROW cod=IT2 0017 note = rre_l' <ROW cod=ITl 4 4 " note = rrf_l' <ROW cod=IT30 4" note = rrg_l' <ROW cod=IT2 note = rrf_l' <ROW cüd=rr177IT note=rre_l' <ROW cod=IT2 5 6" note = rrf l1

length=rr04rr p=rr0.7rr/> length=rr04rr р=гг0.Эгг/> length=rr04rr р=гг0.Эгг/> length=rr04rr p=rr0 . 4 "/> length=rr04rr p=rr0 . 4 "/> length=rr04rr p=rr0.5rr/>

Рис. 4. Пример словаря для дешифровки рукописи

Для анализа двузнаменников разработаны и апробированы различные технологии статистического перевода:

• методы построения "модели языка": на основе М-граммной модели -вероятность следования знамени определяется с учетом вероятностей предшествующих знамен.

• построение "модели перевода" в зависимости от характера "знаменных конструкций" (их размерности) может быть реализовано на основе:

1) текстовых фраз, которые сопровождают нотную запись - выбираются последовательности знамен, соответствующие предложению или его части (до знака препинания);

2) попевок - устойчивых сочетаний знамен из соответствующих сборников, составленных вручную древними авторами или исследователями;

3) фиксированного контекстного окна - выбранного количества знамен (используется в М-граммной модели).

Построение модели языка и модели перевода

В качестве модели языка строится триграммная языковая модель. Исходными данными для построения является двоезнаменный Ирмологий, который переведен в электронный вид и хранится в базе данных (Рис. 5).

Рис. 5. Пример двоезнаменника в электронном виде

Рис. 6. Пример языковой модели песнопений

Согласно статистическому машинному переводу модель языка назначает наибольшую вероятность наиболее частотным строкам (словам или фразам). В качестве «граммы» для знаменных песнопений выбраны последовательности нот, которые соответствуют знамени. Для учета недостатка неполноты исходных данных

используется метод сглаживания Лапласа, в соответствии с которым вероятность каждой п-граммы вычисляется следующим образом:

Р>ап\А{\А{_л) = —----(1)

Где с - исходное количество триграммы в тексте, |У| - число уникальных грамм в тексте [5,6,9].

Результаты построения языковой модели представлены в электронном виде на сайте проекта.

Модель перевода вычисляется по двуязымному корпусу и назначает наибольшую вероятность парам строк (слов или фраз) с одним значением.

Для построения модели перевода рассчитывается вероятность для каждой пары Р(п|ъ), где ъ - последовательность знамен, а п - перевод этой последовательности. Данная вероятность рассчитывается по формуле (2.2).

Р(п\г) = СС—(2), где С(п,ъ) - количество раз, когда последовательность

С(к)

знамен ъ переводится нотами п.

Триграмма Перевод Вероятность

и к Ш 0,017327

1" ш ЧР 0,316162

и и 0,014851

иг 7 ш ^Р 0,272727

Аг У* / ч ш 0,073529

V ■ ■ 0,3125

и IV Ь" Ш — 0,153846

0 т ; ^р 0,111111

Ь" ; Ш 0,333333

<* Ь" и ш <> 0,2

Рис. 7. Пример модели перевода Построение общего словаря для расшифровки знаменных песнопений

Итоговый словарь строится на основе предварительно полученных на основе азбук, сборников попевок и двоезнаменников словарей. А также у экспертов имеется возможность добавить в словарь новые правила, полученные на основе анализа материалов. При этом каждому правилу в словаре соответствует приоритет, который определяет очередность замены знамен. Таким образом, учитывается перевод попевок и других специальных структур.

Выводы

Полученный словарь позволяет перевести древнерусские музыкальные рукописи из крюковой нотации в линейную с учетом особенностей знаменных песнопений.

Использование нескольких методов построения словарей позволяет исследователям различным образом анализировать полученные переводы.

Построенные модель языка и модель перевода являются исходными данными для следующего этапа расшифровки знаменных песнопений - декодирования.

Список источников

1. Даньшина И.В., Даньшина М.В. Структура и обработка древнерусских певческих рукописей.// Сборник тезисов докладов «Печатные средства информации в современном обществе (к 80-летию МГУП)». Секция «Электронные средства информации в современном обществе», М. 2010

2. Даньшина М.В. Программа для ввода и обработки семиографических песнопений IPSM. Информационные технологии и письменное наследие: материалы междунар. науч. конф. / отв. Ред. В.А.Баранов. - Уфа;Ижевск: Вагант, 2010

3. Даньшина М.В. Метод выделения, сохранения и обработки попевок в музыкальной рукописи. Информационные технологии и письменное наследие: материалы IV междунар. науч. конф. (Петрозаводск, 2012 г.)

4. Даньшина М.В. Исследование семантической структуры попевок в знаменных песнопенях. Тезисы докладов на международном междисциплинарном форуме по прикладной когнитивистике CrossLingua'2012 "Когниция. Коммуникация. Культура"

5. Даньшина М.В. Использование n-граммной языковой модели для изучения знаменных песнопений. Сборник тезисов и статей Российско-Германской молодежной дистанционной научной школы «Актуальные и перспективные направления создания систем, обеспечивающих семантический анализ данных в режиме реального времени», 2012.

6. Knight K. A Statistical MT Tutorial Workbook. 1999

7. М.Бражников. «Древнерусская теория музыки». - «Музыка», 1972г.

8. Шабалин Д.С. Певческие азбуки Древней Руси. - Кемерово: Кузбассвузиздат, 1991. 211 с.

9. Bird S., Klein E., Loper E. Natural Language Processing with Python. 2009

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Даньшина Марина

Текст научной работы на тему «Применение методов машинного перевода для анализа древнерусских музыкальных рукописей»