Научная статья на тему 'Особенности транскрибирования украинской устной речи в программе elan'

Особенности транскрибирования украинской устной речи в программе elan Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
203
31
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АКУСТИЧЕСКИЙ КОРПУС / ACOUSTIC CORPUS / УКРАИНСКАЯ РЕЧЬ / UKRAINIAN SPEECH / БАЗА ДАННЫХ АУДИОЗАПИСЕЙ / AUDIO RECORDINGS DATABASE / АННОТАЦИЯ / АЛЛОФОНЕМА / КИРИЛЛИЧЕСКАЯ ТРАНСКРИПЦИЯ / CYRILLIC TRANSCRIPTION / IPA TRANSCRIPTION / ТРАНСКРИПЦИЯ IPA / ПРОГРАММА ELAN / ELAN PROGRAM / МЕЖДУНАРОДНЫЙ ФОНЕТИЧЕСКИЙ АЛФАВИТ / INTERNATIONAL PHONETIC ALPHABET / ANNOTATION / ALLOPHONE

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Плахотникова Елена Юрьевна

Проблема создания транскрипционных записей устной речи находится в поле зрения многих современных исследователей; учёные используют различные принципы подбора транскрипционных символов, в зависимости от заданий и цели исследования. В данной статье внимание сосредоточено на особенностях использования компьютерной программы ELAN для транскрибирования звукозаписей Корпуса украинской устной речи. В частности, в исследовании охарактеризованы основные принципы создания кириллической аллофонемной транскрипции и аллофонемной транскрипции на основе Международного фонетического алфавита (International Phonetic Alphabet, IPA). Корпус транскрибированной украинской устной речи это научный проект на базе учебной лаборатории экспериментальной фонетики Института филологии Киевского национального университета имени Т.Г. Шевченко. Особенностью создания нашего Корпуса является ввод транскрипции вручную, что предоставляет возможность учитывать вариативность устной речи, фиксировать специфику речи дикторов и разрабатывать специальные обозначения для транскрипционных записей. Также частью Корпуса являются специально созданные протокол использования транскрипционных символов IPA и таблица сопоставления кириллических и IPA-символов, которые соответствуют международным стандартам транскрипции. Опыт создания Корпуса с фонетической аннотацией на базе программы ELAN может послужить моделью для будущих корпусных исследований украинской устной речи на фонетическом уровне.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Плахотникова Елена Юрьевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

PECULIARITIES OF UKRAINIAN SPEECH TRANSCRIPTION IN ELAN PROGRAM

The problem of creating speech transcription is in the focus of attention of many modern researchers; scientists use different principles of transcription characters selection, it depends on the tasks and aims of the research. This article describes the peculiarities of the ELAN computer program use for transcribing audio recordings of the Ukrainian speech corpus. In particular, the study characterizes the main principles of creating a Cyrillic allophonic transcription and an allophonic transcription based on the International Phonetic Alphabet. The Transcribed Ukrainian Speech Corpus is a scientific project on the basis of the Experimental Phonetics Educational Laboratory, Institute of Philology, National Taras Shevchenko University of Kyiv. The peculiarity of creating our Corpus lies in entering a transcription manually, it provides an opportunity to consider speech variability, to capture the characteristics of speakers’ pronunciation, and select special symbols for transcription notation. The Corpus also contains a specially created protocol of the International Phonetic Alphabet transcription symbols, and a comparison table of Cyrillic and IPA symbols that correspond to international transcription standards. The experience of creating a corpus containing phonetic annotation on the basis of the ELAN program can be a model for future corpus research of Ukrainian speech at the phonetic level.

Текст научной работы на тему «Особенности транскрибирования украинской устной речи в программе elan»

Е. Ю. Плахотникова

ОСОБЕННОСТИ ТРАНСКРИБИРОВАНИЯ УКРАИНСКОЙ .

УДК 811.161.2'34

ОСОБЕННОСТИ ТРАНСКРИБИРОВАНИЯ УКРАИНСКОЙ УСТНОЙ РЕЧИ

В ПРОГРАММЕ ELAN

© 2015

Е. Ю. Плахотникова, соискатель кафедры «Современный украинский язык» Киевский национальный университет имени Т. Г. Шевченко, Киев (Украина)

Аннотация. Проблема создания транскрипционных записей устной речи находится в поле зрения многих современных исследователей; учёные используют различные принципы подбора транскрипционных символов, в зависимости от заданий и цели исследования. В данной статье внимание сосредоточено на особенностях использования компьютерной программы ELAN для транскрибирования звукозаписей Корпуса украинской устной речи. В частности, в исследовании охарактеризованы основные принципы создания кириллической аллофонемной транскрипции и аллофонемной транскрипции на основе Международного фонетического алфавита (International Phonetic Alphabet, IPA). Корпус транскрибированной украинской устной речи - это научный проект на базе учебной лаборатории экспериментальной фонетики Института филологии Киевского национального университета имени Т. Г. Шевченко. Особенностью создания нашего Корпуса является ввод транскрипции вручную, что предоставляет возможность учитывать вариативность устной речи, фиксировать специфику речи дикторов и разрабатывать специальные обозначения для транскрипционных записей. Также частью Корпуса являются специально созданные протокол использования транскрипционных символов IPA и таблица сопоставления кириллических и IPA-символов, которые соответствуют международным стандартам транскрипции. Опыт создания Корпуса с фонетической аннотацией на базе программы ELAN может послужить моделью для будущих корпусных исследований украинской устной речи на фонетическом уровне.

Ключевые слова: акустический корпус, украинская речь, база данных аудиозаписей, аннотация, аллофо-нема, кириллическая транскрипция, транскрипция IPA, программа ELAN, Международный фонетический алфавит.

Постановка проблеми в загальному виглядг та ïï зв'язок 1з важливими науковими й практичними за-вданнями. Сучасш лшгвютичш комп'ютерш програми дають можливють дослщникам оперативно й ефектив-но аналiзувати експериментальний матерiал i робити об'ективш висновки про реальну вимову дикторiв. На базi комп'ютерних ресурав створюють анотоваш кор-пуси усного мовлення (акустичш); рiзнi види анотацш акустичних корпуав дозволяють описати лшгвютичну шформацш, що метиться в аудю- та видеофайлах. Шд анотащею маемо на увазi асоцшовану лшгвютичну ш-формацш про вщповвдщ вiдрiзки звучання. Процес анотування усного мовлення передбачае виршення багатьох складностей теоретичного (теоретична база дослвдження) й практичного характеру (вибiр про-грам, формування алгоритму створення корпусу тощо). Фонетична анотац1я, що мютить транскрипцш, врахо-вуе деталi вимови мовщв, i, вщповвдно, дае уявлення про стан усного мовлення конкретно1 мови, а також умож-ливлюе систематизацiю iндивiдуальних i типових вщхи-лень вщ орфоепiчних норм.

Аналгз остантх дослгджень i публ1кац1й, у яких було розглянуто аспекти ще1 проблеми i яких дотримуеться автор; визначення нез'ясованих ратше складниюв за-гально'1 проблеми. Корпусш дослвдження в Укра!ш набу-вають усе бшьшого значення для украшсько1 лшгвюти-ки. На сьогодш вже створено калька корпусiв писемного й усного украшського мовлення, але необхщна бiльша кiлькiсть фонетично анотованих акустичних масивiв даних, що дають можливють опрацьовувати звукову ре-алiзацiю записаних текстiв [1, с. 243]. На базi навчаль-но1 лаборатори експериментально1 фонетики 1нституту фiлологiï Кшвського нацiонального унiверситету iменi Тараса Шевченка ми створюемо власний Корпус усного транскрибованого украшського мовлення з фонетичною анотацiею. Як уже було визначено рашше, для нашого дослвдження першочерговим завданням е анотування аудiофайлiв i розробка принцитв транскрипцiйного за-пису для аудютекспв корпусу залежно вiд програмно-го забезпечення й мiжнародних стандартiв [2, с. 193]. Для анотування аудюфамв Корпусу транскрибованого усного украшського мовлення використано програму ELAN - ввдкритий безкоштовний програмний ресурс, створений шдерландським 1нститутом психолiнгвiстики iменi Макса Планка (The Language Archive, м. Неймеген) [3]. На базi програми ELAN уже створено чимало муль-тимедшних (мультимодальних) корпусiв в усьому свт,

як-от: база даних Child Language Data Exchange System, CHILDES (транскрибоваш видеозаписи дiтей - 6iMO-дальних бiлiнгвiв, що володiють звуковою i жестовою мовами) [4], British Sign Language Corpus Project (анотоваш видеозаписи британського варiанту жестово! мови глухошмих) [5], CorpAfroAs (корпус афроазiат-ських мов, при створеннi якого використано програму ELAN-Corpa, розширену версш програми ELAN 4.7.3) [6], росшський проект «Рассказы о сновидениях и другие корпуса звучащей речи» (частина оповвдань корпусу була анотована в ELAN) [7], проект Росшськомовного емоцшного корпусу (вiдеозаписи поведiнки людей в ре-альних емоцiйних ситуащях) [8].

Потреби фонетичного аналiзу (варiативнiсть, iнди-вiдуальнi особливостi мовлення, навички сприйняття) сприяли розробленню фонетично! транскрипци як допо-м1жного iнструмента для фжсацп звукового складу мови. У 1886 р. була заснована Мжнародна фонетична асоща-цiя, яка згодом розробила принципи мiжнародно! фонетично! транскрипци й почала створювати М1жнародний фонетичний алфавiт (IPA). В опрацювання IPA зроби-ли внесок фонетисти Щербiвсько! фонологiчно! школи (Л. Зшдер, М. Матусевич, Л. Вербицька, Л. Бондарко), розвиваючи вде! Л.В. Щерби [9, с. 175]. При транскри-буванш усних текстiв ми дотримуемося принципiв зга-дано! фонологiчно! школи. Над створенням транскрипци укра!нсько! мови на основi засобiв IPA працювала дослвдниця Тоня Бiлоус (2005) [10], шзшше !! доробок доповнила С. Бук (2008) [11]. Наше завдання полягае у створеннi мультимедшного корпусу укра!нського усного мовлення з двома видами транскрипци для розши-рення можливостей сучасних фонетичних дослвджень в Укра!нi, зокрема наближення до м1жнародних стандар-тiв за рахунок використання власного протоколу тран-скрипцiйних символiв IPA для укра!нсько! мови.

Формулювання мети cmammi (постановка завдання). Метою дослщження е опис особливостей створення транскрипцiйних запиав укра!нського усного мовлення в комп'ютернш програмi ELAN.

Виклад основного матерiалу до^дження з повним обтрунтуванням отриманих наукових результатiв. Матерiалом нашого дослвдження слугувало укра!н-ське природне усне мовлення, а саме фрагмента акус-тичного корпусу (46 аудiозаписiв читаного мовлення i два - спонтанного). На основi вказаних 48 звукозапиав (загальною тривалiстю 173 хв. 85 сек.) було створено 64 анотацшш файли в програмi ELAN у формат *.eaf,

Е. Ю. Плахотникова

ОСОБЕННОСТИ ТРАНСКРИБИРОВАНИЯ УКРАИНСКОЙ ...

що мютять орфографiчний запис аудiотекстiв i3 пункту-ацiйними знаками та спрощену кириличну алофонемну транскрипцiю для кожного аудюзапису. Частина мате-рiалiв корпусу (21 аудюзапис тривалiстю 70 хв. 9 сек.) мютить також i алофонемну транскрипцш за стандартами IPA (ISO 15924) [12], яка надалi називатиметься транскрипщя IPA.

Варто вщзначити, що в нашому корпусi присутш три види даних для кожного файлу: медiаданi, анота-цiйнi даш, метаданi (у розумiннi спецiальноï шформа-цiï про файл). Медiаданi - це аудюзаписи читаного й спонтанного украшського мовлення (у форматi *.wav). Анотацiйнi данi - це анотаци аудiозаписiв (анотацiйнi файли з розширенням *.eaf), якi мiстять транскрипцш та орфографiчний запис аудiотекстiв. Оск1льки таш анота-цiï передбачають ieрархiчну структуру рiвнiв анотацiй, саме програма ELAN виявляеться найбiльш придатною для створення подiбних анотацiй. Метаданi корпусу - це супутня iнформацiя про аудю- та анотацiйнi файли (на-приклад, вiдомостi про дикторiв, читанi тексти, авторiв розмiтки тощо).

Розгляньмо детальшше особливостi роботи зi створення транскрипцш аудютекслв у програмi ELAN. Створення оновлених трирiвневих анотацiй для кожного аудюфайлу проходить у чотири етапи в режимах сегментацп, розмiтки й транскрипцп в програмi ELAN. Спецiально для потреб транскрибування призначений режим транскрипцiï, який дозволяе збшьшити швид-к1сть i ефектившсть роботи з транскрипцiями. Усi анотаци певного рiвня ввдображено у вертикальному списку для полегшення вiзуального сприйняття; новi анотацiï на залежних рiвнях створюються автоматично ще при сегментуванш головного рiвня в режимi сегментацiï [13, с. 1559]. Для графiчного вiдображення усного мовлення використовуються два види транскрипцп: кирилична й транскрипщя IPA. На рисунку 1 представлено трирiвне-ву анотацiю iз транскрипцiями в програмi ELAN.

ELAN - Litvinl2_new.eaf

об'eднанi з ввдповщним аудiозаписом за допомогою процесу «time-alignment», що дозволяе легко шука-ти iнформацiю в 6a3i даних i прослуховувати частини зaписiв, що ввдповщають конкретним результатам по-шуку [16, с. 421-422]. Ми здшснюемо транскрибування за алофонемним вaрiaнтом, достaтнiм для початко-вого ознайомлення з нaйтиповiшими вiдхиленнями вiд орфоешчних норм. Пвд алофонемою маемо на увaзi виз-начення Ю. Маслова: «алофонеми (вaрiaнт фонеми) - це фiзично рiзнi звуки, об'еднувaнi як рiзновиди одше1 фонеми»; суфжс цього термiнa пiдкреслюе нaлежнiсть оз-начуваного явища до норми мови [17; с. 48, 52]. У нашш алофонемнш транскрипцп використовуемо рiзнi знаки на позначення рiзних вaрiaнтiв пе1 ж фонеми.

Також варто ввдзначити проблему взаемного впливу й перетину грaфiчних i звукових, оптичних i акустич-них уявлень у сввдомосп освiчених людей, яку наводить 1.О. Бодуен де Куртене у свош стaттi «До питания про сонанти» [18]. Цей взаемовплив призводить до змiшувaння понять, адже aкустичнi уявлення зазвичай завуальовуються грaфiчними, оптичними [18, с. 64]. При створенш Корпусу транскрибованого украшського усного мовлення спочатку було обрано ввдображення рiвня орфогрaфiчного запису в прогрaмi ELAN як головного, якому пвдпорядковуються рiвнi алофонемних транскрипцш - кирилично! й транскрипцп IPA. Однак практика засввдчила, що вплив орфогрaфiчного запису негативно позначаеться на якосп транскрипцп: при переглядi тексту aперцептивнi знаки на позначення го-лосних i приголосних звуков aсоцiюються з уявлення-ми про звуки, що нaспрaвдi вимовляються (зокрема це стосуеться явища асиммцп, наприклад, грaфiчно пи-шеться, у транскрипцп - ['пиш(еи)ц':а]). Зважаючи на вищевказаш факти, було вирiшено внести змши до створення транскрипцп для аудюзапиав Корпусу:

1) при визначенш структури рiвнiв анотаци (типiв i стереотипiв) i створеннi рiвнiв анотацш iз зазначенням гх

II—|ja.|^t.

Файл Правка Аннотация Слой Тип Поиск Вид Параметры Окно Справка

]j| ! ► ! |>S I X 1 □ Циклический режи»

Интервал времени: 00:00:39.834 - 00:00:42.725 2891

00:00:40.000 00:00:41.000 00:00:42.000

00:

-МнфнИ^Н-

Громкость 100

=Çb

Настройки

Е Автоматическое воспроизведение 0 Создавать недостающие аннотации 0 показывать названия слоев

□ Показывать цвета только в столбце N0. у; Переходить в следующий столбец □ Показывать текущую ячейку в центре

Нет Тип1 : Transcription Тип2 : TranscriptionJPA ТипЗ: Orthography

4 ш'ч'о || II Що?

5 # # #

6 ша'ноунЧ ша'ноунЧ ко'леги | Ja'noum Ja'noum ko'leh'i | LUaHOBHi LUaHOBHi колеги,

7 # # #

8 в'щ 'фракц'ф KOMy'H'ic':ÎB а^'також в1дз^соц'1ал'Гстич'но1 u'id 'frakfeiji komu'nii&iiu a_'tako3 uJicb^soteiaH sti^noi 'fraktei: Bifl фракцм комун1ст1в, а також вщ соц1алютично1 фракцм

9 посту'пила за]ава 'прос(ие)мо на'дати п(еи)'рерву на^'триц'ет' postu'pila za'jaua 'pros(ie)mo na'dati p(ei)'rsrwu na__'trTteJet fr'lin || поступила заява: просимо надати перерву на тридцять хвилин.

10 в'1(дт)по'в'щно до_р(еи)'глам(еи) нту гол(оу)'ву]'уч'м 'може на'дати | uJi(dt)po'i>idno do^r(ei)'hlam(ei)ntu hol(ou)'wujutfjj 'тозе na'dati | Вщповщно до Регламенту, головуючий може надати,

11 a^'cK'ÎK'i ми 'зараз зна'ходимс'а у^про'цесЧ приш'а'т'а 'рЧшен' | a^'skiik'i mi 'zaraz zna'xodims'a u^pro'tecsJi priinia'ta 'nijeni | а осктьки ми зараз знаходимося в процеа прийняття р1шень,

12 ja ти ба Ta'K'ix пТдз'став н(еи) ___'бачу О ja ti ba ta'k'ix pjicfc'stau n(ei)^'batju || я тут ба таких пщстав не бачу.

Рисунок 1 - Транскрипщя, набрана вручну в програмi ELAN

У транскрипцiйних записах вiдображаемо реаль-ну вимову диктора, увесь етап транскрибування проводиться вручну. Як i в попередшх дослвдженнях, при транскрибуванш на осцилограмах визначаемо меж1 сполук, де вiдбуваються асимiлятивнi процеси, i за характером амплгтуди коливань проводимо iдентифiкацiю вимовлених звуков [14, с. 368]. Ми надаемо перевагу iндивiдуальним транскрипцiям мовлення дикторiв, що сприяють виявленню й систематизаци iндивiдуальних i типових вiдхилень ввд орфоепiчних норм, i передбачають максимально точну фiксацiю вимовлених мов-цями звуков [15, с. 193]. Транскрипцшш записи ус-ного мовлення, створет на базi ELAN, систематично

iерархiï (кореневих шарiв i залежних) [19, с. 241] голов-ним (кореневим) рiвнем вiдтепер стае шар Transcription, а тдпорядковуються йому рiвнi Transcription IPA i Orthography ввдповщно. Отже, типу Transcription присвоюемо стереотип None, а типам Transcription IPA i Orthography - Symbolic Association;

2) етап сегментацп звукового сигналу проводиться без змш паузи вщокремлюемо вiд решти звукового потоку, дiлимо решту аудiозапису на пофразовi та поскладовi сегменти. При введеннi анотацiй в режимi розмiтки створюемо кириличну алофонемну транскрипцш вио-кремлених сегментiв. 1з метою уникнення некоректного вiдображення анотацш тсля 1'х перемiщення необхiдно встановити у вкладцi «Параметри» режим зсуву у вкладщ «Поведiнка при перемщенш анотацiй»;

3) у режимi транскрипцп вводимо транскрипцшш

Е. Ю. Плахотникова филологические

ОСОБЕННОСТИ ТРАНСКРИБИРОВАНИЯ УКРАИНСКОЙ ... науки

алофонемш записи сегменпв на 6a3i символiв IPA та орфогрaфiчний текст. При налаштуванш режиму транскрипци першим обираемо тип piBHH Transcription у колонцi, що вiдповiдaе головного рiвню; для шших колонок можна вибрати лише типи рiвнiв 3i стереотипом Symbolic Association, яш прив'язaнi в час до першого типу [20, с. 285-286], у нашому випадку - це типи Transcription IPA i Orthography. Для контролю треба прослуховувати вс створеш сегменти на пaнелi вiдобрaження звукозапи-су, щоб уважно добирати трaнскрипцiйнi вiдповiдники. При транскрибуванш aудiозaписiв кириличними та IPA-символами використовуемо алофонемну трaнскрипцiю, спрямовану на фшсацш виразних вiдхилень вiд нор-ми, що можна вщстежити лише з усного мовлення. Ми обираемо шрифт Lucida Sans Unicode (Тоня Бшоус ство-рювала трaнскрипцiю IPA для укра!нсько! мови також на основi цього шрифта) [10], використовуемо клaвiaтурнi та неклaвiaтурнi фонетичнi символи, а також спещальш символьнi позначення.

Протокол використання допомiжних

трaнскрипцiйних символiв:

1) для транскрибування як кирилицею, так i символами IPA, супрасегментш явища повно! паузи (мов-чання) мiж фразами позначаемо знаком #, а знаками ## позначаемо паузу на вдиху на вСх трьох рiвнях aнотaцii;

2) ~ верхня дужка використовуеться на позначення африкат [дж], [дз] у кирилищ, у трaнскрипцii IPA африка-ти мають влaснi позначення (народження [на'родж(еи) н':а], [na'ro^(ei)nJ:a], вгдзначаю [e'id33Ha'4'ajy], [vii&zna'tfaju], одинадцятого [од(ие)'на(д3)ц'атого], [od(ie) 'naij№atoFio]);

3) ^ нижню дужку ставимо у фонетичних словах (у тиквах [у^тиквах], в селi [f^s(ei) 'Vi], в той же [у ~ тог ^ же], [u ^ toi ^je]);

4) ['] - знак м'якосп (пaлaтaльностi); ['] - знак пом'якшення (вiн [в'iн], дешлька [дек'ш'ка], мовi [мов'Г], досить [dos^t-i], мелодiя [т(е1)Муа], на Хмельниччиш [na _ xm^l-ni^^n-i]);

5) [] - позначення основного наголосу (Kueei ['rnj(ei)e'i], своеi [ceojeji], прийняття [prm-ia'Pa], народш [na'rodwi]); [] - позначення побiчного наголосу (шecmrnidepHoi [:ш(еи)стив^ 'дернoji], [J(ei) stivJi'dernoji], багатоголового [ба^гатого'лового], [ba^atofio 'lovofio]);

6) [:] - подовження вщповщного приголосного (повинна [по'вин:а], життя [ж(ие)'т':а], тнування [isnu vaW:a], безупинно [bezu'pin:o]).

У зв'язку зi введенням ново!, трирiвневоi транскрипцii для aнотaцii кожного медiaфaйлу, пщ час транскрибування символами IPA виникають труднощi при познaченнi позицшних i комбiнaторних змiн звукiв у потощ мовлення. З метою виршення цих склaднощiв пропонуемо тaкi позначення:

- голосш [е], [i], [о] в деяких ненаголошених позициях позначаемо аналопчно до кирилично! трaнскрипцii (Киевi ['kj(ei)v>i], розминутися [rozm(ie) 'nutisa], почу-ти [р(ои) 'tfuti]);

- також виникае необхщшсть позначення нескла-дових звушв, як з'являються в позицiях початку складу перед приголосним та кiнця складу шсля голосного на мiсцi приголосних [в], [й] (виправдовуеться [v(ie) prau 'dowuje&i:a], традицшне [tradi 'Ыте]);

- для позначення частково! асиммцп за глухютю дужки використано aнaлогiчно до кирилично1 тран-скрипцii, у дужках зазначено саму звукосполуку: (тяжких [tia(jf) 'kix], коробки [ko 'ro(bp)ki], загадка ['zaha(dt) ka]).

Висновки i перспективи подальших дoслiджень у цьому напрямку. Отже, транскрибування украшського усного мовлення в прогрaмi ELAN мае сво! особливостг по-перше, потрiбно спиратися на акустичний сигнал i виявляти специфiку вимови дикторiв; по-друге, потрiбно дотримуватися протоколу використання кири-личних i IPA-символiв. Транскрипцгя IPA, що мiститься 42

в анотацiйних файлах Корпусу усного транскрибовано-го украшського мовлення, дозволяе узгодити Корпус iз мiжнародними фонетичними стандартами. У майбут-ньому плануемо доповнити Корпус новими аудю- та вiдеозаписами iз залученням iнших дикторiв, а також створити анотацшш файли з транскрипцiйними записа-ми на основi IPA для вах медiафайлiв корпусу.

СПИСОК Л1ТЕРАТУРИ:

1. Плахотнiкова О. Ю. Сучасний стан корпусних дослщжень в Украш // Науковi записки Нацiонального ушверситету «Острозька академiя». Серiя «Фшолопчна», 2015. - Вип. 56. - С. 242-244.

2. Плахотникова Е. Ю. О проекте создания корпуса украинской устной речи [Електронний ресурс] // Сборник Тезисов 2-й Всероссийской Интернет-конференции «Грани науки 2013». Казань: СМУиС, 2013. - C. 192-193. 1 электрон. опт. диск (CD-ROM), 12 см. Систем. требования: ПК с процессором 486+; Windows 95; дисковод CD-ROM; Adobe Acrobat Reader. URL: http://grani2.kznscience.ru/data/documents/Tezisy_ GraniNauki-2013.pdf (дата звернення: 23.11.2015).

3. EUDICO Linguistic Annotator (ELAN). [Електронний ресурс] // Max Planck Institute for Psycholinguistics, The Language Archive, Nijmegen, The Netherlands. URL: http://tla.mpi.nl/tools/tla-tools/elan (дата звернення: 23.11.2015).

4. Chen Pichler D., Hochgesang J., Lillo-Martin D., Müller de Quadros R. M. Conventions for sign and speech transcription of child bimodal bilingual corpora in ELAN // Language, Interaction and Acquisition. 2010. - Vol. 1. Issue 1. - P. 11-40. doi: 10.1075/lia.1.1.03che.

5. British Sign Language Corpus Project [Електронний ресурс]. URL: http://www.bslcorpusproject.org (дата звернення: 23.11.2015).

6. CorpAfroAs: a corpus for Afroasiatic languages [Електронний ресурс]. URL: http://corpafroas.tge-adonis. fr/ (дата звернення: 23.11.2015).

7. Рассказы о сновидениях и другие корпуса звучащей речи [Електронний ресурс]. URL: http:// spokencorpora.ru/ (дата звернення: 23.11.2015).

8. Проект создания Русскоязычного эмоционального корпуса [Електронний ресурс]. URL: http://www. harpia.ru/rec/ (дата звернення: 23.11.2015).

9. Сучасна укра!нська лтературна мова: Лексиколопя. Фонетика / А. К. МойСенко, О. В. Бас-Кононенко, В.В. Бондаренко та ш К.: Знання, 2010. 270 с.

10. Бшоус Т. Передмова до Мiжнародного фоне-тичного алфавггу IPA (виправлено та доповнено). [Електронний ресурс]. URL: ruthenia.info/txt/rusa/ UkrIPA.doc (дата звернення: 23.11.2015).

11. Buk S., Macutek J., Rovenchak A. Some properties of the Ukrainian writing system // Glottometrics. 2008. V. 16. P. 63-79.

12. International Phonetic Association [Електронний ресурс]. URL: https://www.internationalphoneticassociatio n.org/ (дата звернення: 11.12.2015).

13. Wittenburg P., Brugman H., Russel A., Klassmann A., Sloetjes H. ELAN: a Professional Framework for Multimodality Research [Електронний ресурс] // Proceedings of the 5th International Conference on Language Resources and Evaluation. LREC, 2006. Р. 15561559. URL: http://hdl.handle.net/11858/00-001M-0000-0013-1E7E-4 (дата звернення: 08.12.2015).

14. Плахотшкова О. Ю. Як ми говоримо? (ек-спериментально-фонетичне дослщження мовлення украшського студентства) // Мовш i концептуальш кар-тини свггу: наукове видання, 2012. - Вип. 42. Част. 1. -С. 365-371.

15. Плахотшкова О. Ю. Асиммцшш процеси в укра!нському мовленш (на матерiалi вистушв депутатiв Верховно! Ради Укра!ни) // Мовш i концептуальнi карти-ни свпу, 2011. - Вип. 37. - С. 191-195.

16. Плахотшкова О.Ю. Сучаст шдходи до створен-Балтийский гуманитарный журнал. 2015. № 4(13)

Е. Ю. Плахотникова

ОСОБЕННОСТИ ТРАНСКРИБИРОВАНИЯ УКРАИНСКОЙ ...

ня електронних корпуав усного мовлення // Украшське мовознавство, 2013. Вип. 43. - Част. 1. - С. 419-424.

17. Маслов Ю. С. Введение в языкознание. - М.: Высшая школа, 1987. - 272 с.

18. Бодуен де Куртене I. О. До питання про сонанти // Мовознавство, 2002. - № 1. - С. 63-68.

19. Плахотшкова О. Використання програми Elan в робот зi звукозаписами корпусу украшського усного

мовлення // Украшське мовознавство, 2014. - Вип. 44. Част. 1. - С. 238-243.

20. Hellwig B., et al. ELAN - Linguistic Annotator. Version 4.9.1. [Електронний ресурс] // The Language Archive, Max Planck Institute for Psycholinguistics, Nijmegen, The Netherlands. URL: http://www.mpi. nl/corpus/manuals/manual-elan.pdf (дата звернення: 23.11.2015).

ОСОБЛИВОСТ1 ТРАНСКРИБУВАННЯ УКРАШСЬКОГО УСНОГО МОВЛЕННЯ В ПРОГРАМ1 ELAN

© 2015

О. Ю. Плахотткова, здобувач кафедри «Сучасна украшська мова» Кигвсъкий нащоналъний утверситет 1мен1 Т.Г. Шевченка, Кигв (Украгна)

Аношащя. Проблема створення транскрипцшних запиав усного мовлення перебувае в цен^ уваги багатьох сучасних дослщнишв; нaуковцi використовують рiзнi принципи добору транскрипцшних символiв, залежно ввд за-вдань та мети дослщження. Ця стаття присвячена особливостям використання комп'ютерно1 програми ELAN для транскрибування звукозaписiв Корпусу украшського усного мовлення. Зокрема в дослщженш схарактеризовано основш засади створення кирилично1 алофонемно1 транскрипцп i алофонемно1 трaнскрипцii на основi Мiжнaродного фонетичного aлфaвiту. Корпус транскрибованого украшського усного мовлення - це науковий проект на бaзi на-вчально1 лaборaторii експериментально1 фонетики 1нституту фiлологii Кшвського нaцiонaльного унiверситету iменi Т. Г. Шевченка. Особливiстю створення нашого Корпусу е введення транскрипцп вручну, що дае можливють вра-ховувати вaрiaтивнiсть усного мовлення, фжсувати специфiку вимови дикторiв та розробляти спещальш позначки для трaнскрипцiйних запиав. Також частиною Корпусу е спещально створенi протокол використання транскрипцшних символiв Мiжнaродного фонетичного aлфaвiту i таблиця зiстaвлення кириличних i МФА-символiв, котрi вiдповiдaють мiжнaродним стандартам транскрипцп. Досввд створення Корпусу з фонетичною анотащею на бaзi програми ELAN може слугувати моделлю для подальших корпусних дослiджень украшського усного мовлення на фонетичному рiвнi.

Ключовi слова: акустичний корпус, украшське мовлення, база даних аудюзапиав, aнотaцiя, алофонема, кири-лична трaнскрипцiя, трaнскрипцiя IPA, програма ELAN, Мiжнaродний фонетичний алфавит.

PECULIARITIES OF UKRAINIAN SPEECH TRANSCRIPTION IN ELAN PROGRAM

© 2015

O. J. Plakhotnikova, applicant of the department of «Modern Ukrainian language»

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Taras Shevchenko National University of Kyiv, Kyiv (Ukraine)

Abstract. The problem of creating speech transcription is in the focus of attention of many modern researchers; scientists use different principles of transcription symbols selection, it depends on the tasks and aims of the research. This article describes the peculiarities of the ELAN computer program use for transcribing audio recordings of the Ukrainian speech corpus. In particular, the study characterizes the main principles of creating a Cyrillic allophonic transcription and an allophonic transcription based on the International Phonetic Alphabet. The Transcribed Ukrainian Speech Corpus is a scientific project on the basis of the Experimental Phonetics Educational Laboratory, Institute of Philology, National Taras Shevchenko University of Kyiv. The peculiarity of creating our Corpus lies in entering transcription manually, it provides an opportunity to consider speech variability, to capture the characteristics of speakers' pronunciation, and select special symbols for transcription notation. The Corpus also contains a specially created protocol of the International Phonetic Alphabet transcription symbols, and a comparison table of Cyrillic and IPA symbols that correspond to international transcription standards. The experience of creating a corpus containing phonetic annotation on the basis of ELAN program can be a model for future corpus research of Ukrainian speech at the phonetic level.

Keywords: acoustic corpus, Ukrainian speech, audio recordings database, annotation, allophone, Cyrillic transcription, IPA transcription, ELAN program, International Phonetic Alphabet.

i Надоели баннеры? Вы всегда можете отключить рекламу.