Научная статья на тему 'Применение методов машинного перевода для анализа древнерусских музыкальных рукописей'

Применение методов машинного перевода для анализа древнерусских музыкальных рукописей Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
138
91
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Применение методов машинного перевода для анализа древнерусских музыкальных рукописей»

Применение методов машинного перевода для анализа древнерусских музыкальных рукописей

Марина Даньшина МГТУ имени Н.Э. Баумана, Москва, Россия. marina [email protected]

Введение

Предшественником линейной нотации, используемой в настоящее время для фиксирования мелодии, была знаменная нотация. Ее особенностью было то, что мелодия записывалась не с помощью нот на линейках, а специальными знаками -крюками, которые имели сложную структуру. Изначально рукописи не содержали подсказок исполнителю о высоте или длительности ноты, однако спустя некоторое время в музыкальные книги стали добавлять пометы, облегчающие чтение песнопения. С течением времени знания о том, как необходимо воспроизводить мелодию стали фиксировать в специальных книгах (азбуках), позже появились рукописи, содержащие мелодию в двух нотациях - знаменной и нотной. Такие книги являются аналогами параллельных корпусов текстов и именно они являются главным источником информации для расшифровки знаменных песнопений, несмотря на то, что данные в них неполны и иногда противоречивы. Помимо этого следует учитывать, что рукописи содержат специальные структуры (фиты, лица), которые, аналогично фразеологизмам в тексте, необходимо переводить особенным образом. [7] Общее количество знамен, с помощью которых производилась запись, оценивается по-разному. В нашем исследовании были экспериментально выявлено 202 знамени. При этом каждое знамя может переводиться одной или несколькими нотами. Пример знаменной рукописи приведен на рисунке 1.

Обработка рукописей

В рамках проекта «Компьютерная семиография» реализуются задачи по созданию конкретных инструментов, позволяющих автоматизировать рутинные операции перевода знаменных песнопений в линейную нотацию. Данная работа поддержана грантом РГНФ №110412025в.

В качестве основных исходных данных были выбраны четыре типа музыкальных рукописей:

• музыкальные азбуки;

• кокизники (сборники фит и лиц);

• сборники попевок;

• двоезнаменники.

Для обработки каждого типа рукописей предложены отдельные инструменты и технологии. Например, для перевода на основе азбук можно составить список продукционных правил с приоритетами и осуществить экспериментальную

' 1 >VI h , (>■ С IЛ vn h--

1> -< j »J/Í .'i -1. rlj

Рис. 1. Пример знаменной рукописи

дешифровку. Для этого создан музыкальный проигрыватель, который показывает результаты перевода не только визуально, но и позволяет проанализировать мелодию на слух. Приоритеты используются в тех случаях, когда при дешифровке нужно переводить сочетания знамен.

Пример результата перевода музыкальным проигрывателем приведен на рисунке

2.

Л|

Рис. 2. Пример перевода музыкальным редактором

Исходными данными для музыкального редактора являются:

1. Знаменное песнопение в формате XML (Рис. 3)

<ROW Znair.="a" S1oc="ko" Stil=" обычный" DFoir.=IT■/>

<ROW Znair.= "Ap" Sloc = rrE34n Stil=" обычный Italic" VPoir.= "B" DPüir.= rTIT/> <ROW Zr.air.="a,r S1oc="ho" Stil=" Bold" VPoir.="n" DPoir.=""/> <RDW Zr.air.= "a" Slog="My" Stil=" Bold" VPoir.= "n" DPoir.= " "/>

<ROW Zr.anr.="a,r S1oc="ot" Stil=" Bold" VPoir.="n" DPoir.=""/> <RDW Znair.= "a" 31од="шу" Stil=" Bold" VPoir.= "n" DPoir.= ""/> <RDW Znair.="a" Slog="cH" Stil=" Italic" VPoir.="n" DPoir.=""/>

Рис. 3. Пример песнопений в XML-формате

2. Словарь для перевода в формате XML (Рис. 4), в котором закодированы ноты, которыми переводится знамя или последовательность знамен, а также соответствующие длительность и приоритет.

▼ <ROWDATA>

<ROW cod=IT2 0017 note = rre_l' <ROW cod=ITl 4 4 " note = rrf_l' <ROW cod=IT30 4" note = rrg_l' <ROW cod=IT2 note = rrf_l' <ROW cüd=rr177IT note=rre_l' <ROW cod=IT2 5 6" note = rrf l1

length=rr04rr p=rr0.7rr/> length=rr04rr р=гг0.Эгг/> length=rr04rr р=гг0.Эгг/> length=rr04rr p=rr0 . 4 "/> length=rr04rr p=rr0 . 4 "/> length=rr04rr p=rr0.5rr/>

Рис. 4. Пример словаря для дешифровки рукописи

Для анализа двузнаменников разработаны и апробированы различные технологии статистического перевода:

• методы построения "модели языка": на основе М-граммной модели -вероятность следования знамени определяется с учетом вероятностей предшествующих знамен.

• построение "модели перевода" в зависимости от характера "знаменных конструкций" (их размерности) может быть реализовано на основе:

1) текстовых фраз, которые сопровождают нотную запись - выбираются последовательности знамен, соответствующие предложению или его части (до знака препинания);

2) попевок - устойчивых сочетаний знамен из соответствующих сборников, составленных вручную древними авторами или исследователями;

3) фиксированного контекстного окна - выбранного количества знамен (используется в М-граммной модели).

Построение модели языка и модели перевода

В качестве модели языка строится триграммная языковая модель. Исходными данными для построения является двоезнаменный Ирмологий, который переведен в электронный вид и хранится в базе данных (Рис. 5).

Рис. 5. Пример двоезнаменника в электронном виде

Рис. 6. Пример языковой модели песнопений

Согласно статистическому машинному переводу модель языка назначает наибольшую вероятность наиболее частотным строкам (словам или фразам). В качестве «граммы» для знаменных песнопений выбраны последовательности нот, которые соответствуют знамени. Для учета недостатка неполноты исходных данных

используется метод сглаживания Лапласа, в соответствии с которым вероятность каждой п-граммы вычисляется следующим образом:

Р>ап\А{\А{_л) = —----(1)

Где с - исходное количество триграммы в тексте, |У| - число уникальных грамм в тексте [5,6,9].

Результаты построения языковой модели представлены в электронном виде на сайте проекта.

Модель перевода вычисляется по двуязымному корпусу и назначает наибольшую вероятность парам строк (слов или фраз) с одним значением.

Для построения модели перевода рассчитывается вероятность для каждой пары Р(п|ъ), где ъ - последовательность знамен, а п - перевод этой последовательности. Данная вероятность рассчитывается по формуле (2.2).

Р(п\г) = СС—(2), где С(п,ъ) - количество раз, когда последовательность

С(к)

знамен ъ переводится нотами п.

Триграмма Перевод Вероятность

и к Ш 0,017327

1" ш ЧР 0,316162

и и 0,014851

иг 7 ш ^Р 0,272727

Аг У* / ч ш 0,073529

V ■ ■ 0,3125

и IV Ь" Ш — 0,153846

0 т ; ^р 0,111111

Ь" ; Ш 0,333333

<* Ь" и ш <> 0,2

Рис. 7. Пример модели перевода Построение общего словаря для расшифровки знаменных песнопений

Итоговый словарь строится на основе предварительно полученных на основе азбук, сборников попевок и двоезнаменников словарей. А также у экспертов имеется возможность добавить в словарь новые правила, полученные на основе анализа материалов. При этом каждому правилу в словаре соответствует приоритет, который определяет очередность замены знамен. Таким образом, учитывается перевод попевок и других специальных структур.

Выводы

Полученный словарь позволяет перевести древнерусские музыкальные рукописи из крюковой нотации в линейную с учетом особенностей знаменных песнопений.

Использование нескольких методов построения словарей позволяет исследователям различным образом анализировать полученные переводы.

Построенные модель языка и модель перевода являются исходными данными для следующего этапа расшифровки знаменных песнопений - декодирования.

Список источников

1. Даньшина И.В., Даньшина М.В. Структура и обработка древнерусских певческих рукописей.// Сборник тезисов докладов «Печатные средства информации в современном обществе (к 80-летию МГУП)». Секция «Электронные средства информации в современном обществе», М. 2010

2. Даньшина М.В. Программа для ввода и обработки семиографических песнопений IPSM. Информационные технологии и письменное наследие: материалы междунар. науч. конф. / отв. Ред. В.А.Баранов. - Уфа;Ижевск: Вагант, 2010

3. Даньшина М.В. Метод выделения, сохранения и обработки попевок в музыкальной рукописи. Информационные технологии и письменное наследие: материалы IV междунар. науч. конф. (Петрозаводск, 2012 г.)

4. Даньшина М.В. Исследование семантической структуры попевок в знаменных песнопенях. Тезисы докладов на международном междисциплинарном форуме по прикладной когнитивистике CrossLingua'2012 "Когниция. Коммуникация. Культура"

5. Даньшина М.В. Использование n-граммной языковой модели для изучения знаменных песнопений. Сборник тезисов и статей Российско-Германской молодежной дистанционной научной школы «Актуальные и перспективные направления создания систем, обеспечивающих семантический анализ данных в режиме реального времени», 2012.

6. Knight K. A Statistical MT Tutorial Workbook. 1999

7. М.Бражников. «Древнерусская теория музыки». - «Музыка», 1972г.

8. Шабалин Д.С. Певческие азбуки Древней Руси. - Кемерово: Кузбассвузиздат, 1991. 211 с.

9. Bird S., Klein E., Loper E. Natural Language Processing with Python. 2009

i Надоели баннеры? Вы всегда можете отключить рекламу.