Представление разметки корпуса народной речи Среднего Прииртышья

Лавров Д.Н.; Харламова М.А.; Костюшина Е.А.

Математические структуры и моделирование 2018. №4(48). С. 85-91

УДК 004.622:801.81 DOI: 10.25513/2222-8772.2018.4.85-91

ПРЕДСТАВЛЕНИЕ РАЗМЕТКИ КОРПУСА НАРОДНОЙ РЕЧИ СРЕДНЕГО ПРИИРТЫШЬЯ

Д.Н. Лавров

к.т.н., доцент, e-mail: lavrov@omsu.ru М.А. Харламова к.фил.н., доцент, e-mail: khr-spb@mail.ru Е.А. Костюшина

д.ф.-м.н., доцент, e-mail: kea.omsu@gmail.com

Омский государственный университет им. Ф.М. Достоевского, Омск, Россия

Аннотация. В статье рассматриваются способы репрезентации диалектных записей в региональном корпусе. В центре внимания — модели представления тематической, структурной и отчасти фонетической разметок. Особое внимание уделяется и модели представления экстралингвистических данных. Предложенные решения основаны на представлении реляционных баз данных и формате XML.

Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 18-012-00519.

Ключевые слова: тематическая разметка, метатекстовая разметка, формат XML, региональный диалектный корпус.

Введение

Корпус народной речи Среднего Прииртышья формируется за счёт сбора и последующей расшифровки записанных в экспедициях диалектных текстов. Для хранения полученных данных разрабатывается специализированная информационная система — корпус народной речи.

Ранее в рамках проекта электронного словаря была разработана система для репрезентации фонетических особенностей говоров Среднего Прииртышья [13]. В рамках нового проекта — регионального корпуса народной речи — перед коллективом стоят следующие задачи: (1) описать манифестацию в корпусе экстралингвистической информации; (2) описать структурную и тематическую разметки текстов.

1. Экстралингвистическая разметка

Модель экстралингвистической информации после проведённого анализа распадается на две сущности: «Паспорт информанта» и «Паспорт текста». Анализ позволил выделить атрибуты каждой сущности.

Паспорт информанта:

• Фамилия — lname.

• Имя — fname.

• Отчество — sname.

• Пол — gender.

• Год рождения — birth_year.

• Место рождения — birth_location.

• Место рождения родителей — birth_parent_location.

• Кем себя считает — who_i_am.

• Образование — education.

• Род занятий — occupation. Говор — dialect.

Паспорт текста: Место записи — location.

• Год записи — year.

• Источник (материальный носитель записи) — source. Размеченный текст — record.

Рис. 1. Модель экстралингвистической информации

2. Фонетические знаки и их представление

В редакторе разметки необходимо ограничить количество вводимых символы для того, чтобы, с одной стороны, показывать фонетику, а с другой — не дозволять ввода служебных для XML символов. Для представления фонетических знаков принято решение использовать utf-8, а также стандартные теги и символы HTML (см. табл. 1).

Таблица 1. Представление фонетических знаков

Фонетический знак Внутреннее представление Пример

У &#1118 (или у в utf-8) у-Репинки, хлеу

w w краwа, маркоwка

h h hр'ибы, аhароч'чик

7 &gamma Мно7 a

Жен'шина

" " ч"иста

a <sup>a</sup> чисто"

l l Бы1о

3. Структурная разметка

Структурная разметка выполняется на основе формата XML. Для структурной разметки достаточно двух пар тегов: <вопрос>...</вопрос> и <ответ>...</ответ>.

4. Тематическая разметка

Для отображения тематической разметки предлагается использовать русскоязычные теги, название которых совпадают с названиями тем. Темы образуют иерархическую древовидную структуру. Вложения тем друг в друга описываются знаком «:». Так, если в тексте актуализируется тема «родина» и её подтема «деревня», то соответствующий тег будет <родина:деревня>.

Пример внешнего представления разметки Пример размеченного текста с фонетической, структурной и фонетической разметками:

<вопрос>А жили вы где? В какой деревне?</вопрос>

<ответ> Юрьифка//</ответ>

<вопрос>

Сестра сказала, что вы последней оттуда съехали? </вопрос> <ответ>

Да//

Да/ Пач'ти последняя/ <жизнь>

Жалею вот ужэ пятый гот жыву кажэца-и жыз'нь и-жывёш </жизнь>

/ ни-магу привыкнуть г-гораду// <родина:деревня>

Панимаити ни-магу я привыкнуть/

а-там-эт жыла/ диревня свая// Природа и-кажэца вот вырасла там/ там радилась /там-и моладась мая прахадила/ там дитей наражала/ ну-вот фсё идиал'на// А-время-та нашэ како идиал'на-та была // </родина:деревня> </ответ>

Обратите внимание на то, что данное представление используется только для отображения на экране в редакторе разметки (так что использование символа «:» на данном этапе некритично), внутреннее представление иное, и о нём пойдёт речь в следующем разделе.

5. Внутренне представление, используемое для обмена данными между приложениями

Предыдущий раздел описывал внешнее представление разметки.

Для визуализации разметки чем короче тег, тем лучше. Это вполне устраивает и разработчиков, и программистов. Казалось бы, почему не использовать это представление и для обмена данными между приложениями?

Есть несколько причин. На уровне спецификаций без внешних описаний только по названию тега невозможно определить, какой это тег — структурный или тематический. Кроме того, в указанном выше представлении вложение тем обозначается двоеточием, что для форматов HTML и XML неприемлемо. В тоже время исследователи-филологи активно его используют при выполнении ручной разметки. Решение состоит в создании внутреннего представления данных, которое будет скрыто от пользователя приложения-редактора.

Принципы, реализованные во внутреннем представлении.

Все названия тегов — и структурных, и тематических — заменены на английские названия.

Экстралингвистическая разметка соответствует полям таблиц базы данных (см. рис. 1).

• Структурные теги превращаются в <question> и <answer>.

• Тематический тег один <theme с1азз="тема--подтема">.

Пример представления экстралингвистической, тематической и фонетической разметок во внутреннем формате для обмена данными между разрабатываемыми приложениями (данные вымышленные).

<doc>

<£пате>Ольга</£пате>

^пате>Карловна<^пате>

<1пате>Карнелс</1пате>

<gender>женский</gender>.

<Мг^_уеаг>1930</Мг^_уеаг>

<Ь1г-ЬЬ_1оса'Ыоп>

д. Новоникольск, жила в д. Баженово Тарского района 10 лет </Ыг'Ь_1оса'1оп> <Ыг'Ь_рагвп'_1оса'1оп>

родители переехали из Белоруссии, д. Николка в 1961 г. в Большие Уки </Ыг'Ь_рагвп'_1оса'1оп> ^Ьо_1_ат>

считает себя «российской» <^Ьо_1_ат>

<е^са'1оп>4 класса</education> <осира^оп>

пенсионерка, сортировщик на почте </осира^оп>

<dia1ect>старожильческий</dia1ect> <гетагк>

Год прожила в Казахстане, около 30 лет прожила в Таджикистане, 9 лет жила в Новосибирске. </гетагк> <^п£огтап'>

<1ocation>

д. Большие Уки Большеуковский район </1ocation> <уеаг>2005</уеаг> <эоигсе>

тетрадь №122, кассета №82, записи произведены: Митюшовой Ириной, гр. ЯФ - 303, Полозковой Марией, гр. ЯФ - 302. </эоигсе> <гетагк></гетагк> <гесо^> <![СБАТА[

<question>А жили вы где? В какой деревне?</диеэ^оп> <answer><Ь>Ю</Ь>рьифка//</answer>

Сестра сказала, что вы последней оттуда съехали? <^иеэ^оп> <answer>

Д<Ь>а</Ь>//

Д<Ь>а</Ь>/ Пач'т<Ь>и</Ь> посл<Ь>е</Ь>дняя/ <theme с1азз="жизнь">

Жал<Ь>е</Ь>ю вот уж<Ь>э</Ь> пятый г<Ь>о</Ь>т жыв<Ь>у</Ь> к<Ь>а</Ь>жэца-и ж<Ь>ы</Ь>з'нь и-жыв<Ь>ё</Ь>ш </^ете>

/ ни-маг<Ь>у</Ь> прив<Ь>ы</Ь>к.нуть

г-г<Ь>о</Ь>раду//

Паним<Ь>а</Ь>ити ни-маг<Ь>у</Ь> <Ь>я</Ь> прив<Ь>ы</Ь>к.нуть/ а-т<Ь>а</Ь>м-эт жыл<Ь>а</Ь>/ дир<Ь>е</Ь>вня сва<Ь>я</Ь>// Прир<Ь>о</Ь>да и-к<Ь>а</Ь>жэца в<Ь>о</Ь>т в<Ь>ы</Ь>расла т<Ь>а</Ь>м/ т<Ь>а</Ь>м радил<Ь>а</Ь>сь /т<Ь>а</Ь>м-и м<Ь>о</Ь>ладась ма<Ь>я</Ь> прахад<Ь>и</Ь>ла/ там дит<Ь>е</Ь>й нараж<Ь>а</Ь>ла/ ну-в<Ь>о</Ь>т фсё иди<Ь>а</Ь>л'на// А-вр<Ь>е</Ь>мя-та н<Ь>а</Ь>шэ как<Ь>о</Ь> иди<Ь>а</Ь>л'на-та б<Ь>ы</Ь>ла // </theme>

</answer> ]]>

</record> </text> </doc>

Использование CDATA позволяет не заботиться о точном соответствии спецификациям XML внутри поля record и без дополнительных преобразований использовать данный код для отображения на HTML-странице web-приложения.

Заключение

В настоящее время на основе разработанной модели представления созданы два прототипа приложений: десктоп-редактор для создания разметки в условиях экспедиций и отсутствия доступа к среде интернет и веб-приложение, позволяющее делать выборку из базы данных на основе MySQL по экстралингвистической информации и отображать её в виде HTML-страниц с возможностью интерактивной тематической разметки. Прототип веб-приложения создан на языке Python c использованием фраймворка Django и библиотеки jQuery.

В момент написания статьи проходило опытное тестирование и апробация указанных прототипов.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Результаты данной статьи были представлены в докладе на конференции «Математическое и компьютерное моделирование» [4].

Благодарности

Выражаем признательность Лапину Александру Петровичу и Черкащенко Илье Александровичу за ценные замечания и помощь в реализации прототипов. Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта №18-012-00519.

Литература

1. Лавров Д.Н., Харламова М.А. Словарь констант народной речи: выбор платформы представления // Вестник Омского университета. 2015. № 1(75). С. 213-216.

2. Харламова М.А. Константы народной речемысли и их лексикографическая интерпретация. Омск : Изд-во Ом. гос. ун-та, 2014. 290 с.

3. Балезин И.А., Лавров Д.Н., Харламова М.А. Архитектура мобильного клиента под ЮБ для доступа к веб-словарю народной речи Среднего Прииртышья // Математические структуры и моделирование. 2016. № 4(40). С. 133-142.

4. Лавров Д.Н., Харламова М.А., Костюшина Е.А. Модель представления экстралингвистической и тематической разметки в корпусе народной речи // У1-я Междунар. науч. конф. «Математическое и компьютерное моделирование», посвящ. памяти проф. Б.А. Рогозина. 23 ноября 2018. С. 115-118.

REPRESENTATION OF THE CORPUS OF MEDIUM IRTYSH FOLK DIALECT

D.N. Lavrov

Ph.D. (Eng.), Associate Professor, e-mail: lavrov@a.ru M.A. Kharlamova Ph.D. (Philological), Associate Professor, e-mail: khr-spb@mail.ru

E.A. Kostushina

Ph.D. (Eng.), Associate Professor, e-mail: kea.omsu@gmail.com

Dosotevsky Omsk State University, Omsk, Russia

Abstract. The article discusses ways of representing dialect entries in the regional corpus. The focus is on models for the presentation of thematic, structural and partly phonetic markings. Particular attention is paid to the presentation model of extralinguistic data. The proposed solutions are based on the representation of relational databases and XML format.

The reported study was funded by RFBR according to the research project № 18012-00519.

Keywords: thematic markup, metatext markup, XML format, regional dialect body.

Дата поступления в редакцию: 20.11.2018

Представление разметки корпуса народной речи Среднего Прииртышья Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Лавров Д.Н., Харламова М.А., Костюшина Е.А.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Лавров Д.Н., Харламова М.А., Костюшина Е.А.

Representation of the Corpus of Medium Irtysh Folk Dialect

Текст научной работы на тему «Представление разметки корпуса народной речи Среднего Прииртышья»