Научная статья на тему 'Частотний аналіз використання букв української мови'

Частотний аналіз використання букв української мови Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
2312
159
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Архипова Елена Александровна, Журавлев Владамир Николаевич

В статті розглянуті невирішені задачі в галузі дослідження якості каналів мовної комунікації. Проведено частотний аналіз використання букв української мови для текстів загальним обсягом біля 580 тисяч знаків художнього, публіцистичного та технічного спрямування. Вперше отримано гістограму частот використання букв алфавіту для сучасної української мови.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

In this paper is considered unresolved tasks in the research field of the communications speech quality. The frequency analysis of the Ukrainian letters usage for total amount of texts about 580 thousand signs in art, publicistic and technical area is carried out. For the first time it is received the frequency histogram of letters usage of the Ukrainian alphabet for modern language.

Текст научной работы на тему «Частотний аналіз використання букв української мови»

О. О. Архипова, В. М. Журавльов: ЧАСТОТНИЙ АНАЛ13 ВИКОРИСТАННЯ БУКВ УКРАШСЬКО!

мови

МАТЕМАТИЧНЕ ТА КОМП'ЮТЕРНЕ МОДЕЛЮВАННЯ

МАТЕМАТИЧЕСКОЕ И КОМПЬЮТЕРНОЕ МОДЕЛИРОВАНИЕ

MATHEMATICAL AND COMPUTER MODELLING

УДК 681.391

О. О. Архипова, В. М. Журавльов

ЧАСТОТНИЙ АНАЛ13 ВИКОРИСТАННЯ БУКВ УКРА1НСЬК01 МОВИ

В статт1 розглянут1 невир1шет задач1 в галуз1 до-сл1дження якост1 канал1в мовног комуткацп. Проведено частотний анал1з використання букв украгнськог мови для текст1в загальним обсягом б1ля 580 тисяч знатв художнього, публщистичного та техтчного спрямуван-ня. Вперше отримано глстограму частот використання букв алфав1ту для сучасног украгнськог мови.

ВСТУП. ПОСТАНОВКА ЗАДАЧ!

Яюсть передач! мовлення - це одна !з головних характеристик каналу мовного зв'язку. Зпдно [1], головними критер1ями якоси канал1в мовно! комуткацп е:

1) розб1рлив1сть (зрозумШсть, ясшсть);

2) гучн1сть (голосн1сть);

3) природшсть (натуральн1сть).

Розб1рлив1сть, безперечно, можна назвати голо-

вним параметром, осюльки вона в1дображае виконан-ня системою прийому-передач1 мови свого головного призначення - забезпечення того, щоб слухач правильно зрозум1в зм1ст переданого.

Гучтсть — визначае бажаний р1вень прийнятих сигнал1в, який для оптимальних умов мае бути таким, щоб не викликати стомленост! та перенапружен-ня слухового апарата. Цей параметр не е самодо-

© Архипова О. О., Журавльов В. М., 2009

статн1м i використовуеться разом i3 першим, а в умо-вах використання спецiально'i техшки, що регулюе ry4HicTb, втрачае сенс.

Природтстъ - оцшюе здатнicть системи вщтворю-вати не тiльки змшт мови, що передаеться, але й ii iндивiдyальнi оcобливоcтi, притаманнi рiзним мов-цям. Цей параметр не такий важливий як розбiрли-вшть. Виключенням е випадки cпецiальних систем зв'язку, наприклад, систем, у яких потрiбне визна-чення особи Одентифжащя) мовця за голосом, або для художнього вщтворення мови та музики.

Yci вiдомi на цей час методи оцшки якоcтi переда-4i мовлення можуть бути роздiленi на двi великi гру-пи: суб'ективт експертт методи i об'ективт методи [1].

Артикуляцшш випробування е суб'ективним методом оцiнки розбiрливоcтi - це найбiльш прямий й очевидний, а iнодi й единий, шлях доcлiдження яко-cтi каналу мовного зв'язку. Головними перевагами методу артикуляцшних випробувань е його ушверса-льнicть та вiдноcна простота. Однак процедура орга-нiзацii суб'ективних експертиз за оцшкою розбiрли-воcтi мови - справа громiздка, тривала й досить дорога.

Серйозною й самост!йною складною проблемою методу артикуляцшних випробувань е створення спе-ц!альних артикуляцшних таблиць. Як показуе практика вим!рювань, тип таблиць, що використовуються, !стотно впливае на результати вим!рювань. Артикуля-ц!йн! таблиц! складаються за певними правилами [2]. Ц правила враховують л!нгв!стичн! (мовн!) ! техн!ч-н! вимоги до таблиць. Л!нгв!стичн! вимоги полягають у тому, щоб таблиц! достатньою м!рою воображали фонетичну структуру мови. Техн!чн! вимоги передба-чають забезпечення максимально'1' економност! п!д час виконання вим!р!в, мш!мально! надм!рност! !з максимально можливою однор!дн!стю для того, щоб змен-шити розкид результат!в одиночних вим!р!в. Поед-нання в таблицях л!нгв!стичних ! техн!чних вимог можливе т!льки у раз! розумного компром!су, оск!ль-ки вони взаемно суперечлив!.

Для укра!нсько! мови не складено артикуляцшних таблиць, !х складання е актуальною науково-тех-н!чною задачею. Для забезпечення л!нгв!стичних вимог до артикуляцшних таблиць для украшсько! мови необх!дним е буквений та, у подальшому, фонемний частотн! анал!зи.

ЧАСТОТНИЙ АНАЛ13 ВИКОРИСТАННЯ

БУКВ УКРА1НСЬКО1 МОВИ

К!льк!сть р!зних букв, як ! фонем, у кожн!й мов! обмежена. Важливими характеристиками мови е по-

вторюван!сть букв (монограм), пар букв (б!грам) ! взагал! ж-грам, сполучуван!сть букв одна з одною, чергування голосних ! приголосних тощо. Прим!тно, що ц! характеристики е досить ст!йкими [3].

Якщо апаГ2...а1т) - к!льк!сть появ т-грами апаГ2...аы у текст! Т, а Ь - загальне число п!драхо-ваних ж-грам, то при досить великих Ь частоти

а11а ¿2 - •• а г т) (1 )

Ь (1)

для дано! ж-грами мало в!др!зняються одна в!д одно!'.

Виходячи з цього, в!дносну частоту (1) вважають наближеною ймов!рностю Р (аг1аг2...агж) появи дано! т-грами у випадково обраному м!сц! тексту (за ста-тистичним визначенням !мов!рност!).

Частотний анал!з використання букв проведений для ряду европейських мов, його результати наведен! у книз! [4]. Необх!дно зазначити, що частота ви-користання букв для французько!, н!мецько!', анг-л!йсько! !спансько! та !тал!йсько! мов р!зна. Деяка р!зниця значень частот у таблицях, як! наводяться з р!зних джерел, пояснюеться тим, що частоти !стотно залежать не т!льки в!д довжини тексту, але й в!д його характеру. Наприклад, у техн!чних текстах р!д-ка буква Ф може стати досить частою у зв'язку !з частим використанням таких сл!в, як функц!я, ди-ференц!ал, дифуз!я, коеф!ц!ент ! т. п.

Таблиця 1 - Частоты використання букв росшсъког моей

— О Е, Ё А И Т Н С

0.175 0,09 0,072 0,062 0,062 0,053 0,053 0,045

Р В Л К М Д П У

0,04 0,038 0,035 0,028 0,026 0,025 0,023 0,021

Я Ы 3 ь, ъ Б г Ч Й

0,018 0,016 0,016 0,014 0,014 0,013 0,012 0,01

X ж Ю ш Ц щ э Ф

0,009 0,007 0,006 0,006 0,004 0,003 0,003 0,002

Рисунок 1 — Пстограма частот використання букв алфав1ту росшсъког мови

54

1607-3274 «Радтелектрошка. 1нформатика. Управл1ння» № 2, 2009

О. О. Архипова, В. М. Журавльов: ЧАСТОТНИЙ АНАЛ13 ВИКОРИСТАННЯ БУКВ УКРА1НСЬКО1 мОВИ

Рисунок 2 — Пстограма частот використання букв алфав1ту украгнськог мови

Таблиця 2 - Осереднет частоти та дисперсп використання букв украгнськог мови

Техшчш тексти В1рш1 Гумаштарш твори

частота дисперая частота дисперс!я частота дисперс!я

А 0,0709 2,350Е-05 0,0871 1,564Е-04 0,0840 2,870Е-05

Б 0,0136 1,092Е-05 0,0211 6,685Е-08 0,0183 4,918Е-06

В 0,0533 2,066Е-05 0,0468 1,573Е-05 0,0604 9,286Е-05

Г 0,0142 7,898Е-06 0,0150 1,450Е-05 0,0173 2,897Е-06

д 0,0350 3,305Е-05 0,0332 9,669Е-07 0,0332 3,025Е-06

Е 0,0458 7,780Е-05 0,0544 3,143Е-07 0,0483 3,821Е-05

Ж 0,0066 2,227Е-06 0,0108 1,457Е-06 0,0106 3,962Е-06

3 0,0238 2,096Е-05 0,0220 3,176Е-06 0,0239 7,000Е-06

И 0,0613 3,346Е-05 0,0633 3,170Е-05 0,0632 9,140Е-07

Й 0,0114 8,932Е-06 0,0162 4,442Е-08 0,0139 7,501Е-06

К 0,0358 1,231Е-05 0,0330 1,674Е-07 0,0373 4,538Е-07

Л 0,0305 8,335Е-06 0,0432 7,376Е-06 0,0370 2,138Е-05

м 0,0283 3,545Е-05 0,0328 4,833Е-08 0,0297 8,720Е-06

Н 0,0836 1,155Е-05 0,0562 6,087Е-06 0,0645 3,203Е-05

О 0,0950 2,055Е-05 0,0920 3,702Е-05 0,0956 9,878Е-06

п 0,0304 3,369Е-05 0,0264 1,494Е-06 0,0303 2,258Е-06

Р 0,0499 5,291Е-05 0,0400 4,206Е-06 0,0445 9,543Е-06

С 0,0406 4,418Е-05 0,0458 4,125Е-06 0,0407 6,013Е-06

Т 0,0546 8,941Е-06 0,0576 6,375Е-06 0,0483 5,564Е-05

У 0,0321 2,617Е-05 0,0333 1,083Е-06 0,0353 5,434Е-06

ф 0,0061 1,096Е-05 0,0004 1,239Е-08 0,0020 1,871Е-06

X 0,0129 1,185Е-05 0,0123 1,771Е-06 0,0105 5,424Е-07

Ц 0,0108 8,155Е-06 0,0061 2,982Е-06 0,0080 6,574Е-06

Ч 0,0136 7,865Е-06 0,0144 4,283Е-09 0,0144 3,963Е-06

ш 0,0060 2,921Е-06 0,0083 7,629Е-07 0,0085 1,252Е-06

щ 0,0040 1,147Е-06 0,0063 3,813Е-06 0,0065 8,882Е-07

I 0,0628 3,037Е-05 0,0530 2,239Е-04 0,0568 2,204Е-05

I 0,0076 4,060Е-06 0,0060 1,413Е-06 0,0058 2,993Е-06

Ь 0,0167 7,304Е-06 0,0211 2,969Е-06 0,0153 6,865Е-06

е 0,0080 5,295Е-06 0,0062 1,243Е-06 0,0042 3,730Е-06

ю 0,0082 4,378Е-06 0,0116 4,322Е-08 0,0081 1,980Е-06

Я 0,0268 5,537Е-05 0,0240 2,921Е-06 0,0236 3,870Е-06

Таблиця 3 - Ранжоват частоты використання букв укратсъкоЧ моей

О 0,0942 р 0,0448 я 0,0248 ж 0,0093

А 0,0807 с 0,0424 з 0,0232 ю 0,0093

Н 0,0681 л 0,0369 б 0,0177 ц 0,0083

И 0,0626 к 0,0354 ь 0,0177 ш 0,0076

I 0,0575 д 0,0338 г 0,0155 ' 0,0065

В 0,0535 у 0,0336 ч 0,0141 е 0,0061

Т 0,0535 м 0,0303 й 0,0138 щ 0,0056

Е 0,0495 п 0,0290 х 0,0119 ф 0,0028

Ще б1льш1 в1дхилення вщ норми в частот вживания окремих букв спостер1гаються в деяких худож-Hix творах, особливо у в1ршах. Тому для надшного визначення середньо'1' частоти букв бажано мати наб!р р!зних текспв, запозичених з р!зних джерел. Разом iç тим, як правило, под!бш вщхилення незначш i, в першому наближенш, ними можна знехтувати.

Для росшсько' мови частоти знаюв алфав!ту (у порядку зменшення), де ототожнено E з Ё, Ь з Ъ, а також е знак пробшу (—) м!ж словами, наведен! в табл. 1 (див. [5]), або у вигляд! наочно' д!аграми, приведено'' на рис. 1.

Нами був проведений частотний анал!з повторю-ваност букв украшсько'' мови за допомогою програ-ми, написано'' на мов! програмування C++ та пакету Excel. У ход! анал!зу оброблено б!ля 580 тисяч знаюв укра'нських тексив. Серед них 260 тисяч -сучасш тексти техшчного спрямування (роботи та стати по захисту шформаци, математичнш статис-тищ, диференцшним р!внянням) 76 тисяч знаюв -в!рш! (Т. Шевченко та сучасна поетеса Н. Доценко) та 253 тисяч - в!дома художня проза та публщи-стика (твори Д. Лондона, Е. По, А. Гофмана, газета «Дзеркало тижня»). Осереднеш частоти та дисперсп використання букв укра'1'нсько1 мови наведен! у табл. 2.

У табл. 3 м!стяться середн! ймов!рност! появи букв укра'нського алфавиу ранжоваш у порядку спа-дання, а на рис. 2 - д!аграма частот використання букв алфав!ту украшсько' мови. У зв'язку !з тим, що у багатьох текстах не розр!зняються лиери Г ! Г, 1'х було ототожнено.

Пор!внюючи г!стограми частот використання букв росшсько'1', укра'1'нсько1 та европейських мов [4], по-м!тно р!зницю у 'х розпод!л!, яка досягае десяти в!д-сотк!в. Даний факт св!дчить про ймов!рне виник-нення методично' похибки визначення розб!рливоси за словами та складами при використанн! рос!йсько-мовних артикуляц!йних таблиць для оц!нки якост! укра'номовних канал!в мовно' комунiкацiï.

ВИСНОВКИ

1. Вперше сформульована науково-техн!чна задача створення артикуляцшних таблиць для украшсько! мови.

2. Виконано необхщний пром!жний етап ще' задач!, що забезпечуе л!нгв!стичн! вимоги до артикуляцшних таблиць (в!дображення структури мови), -побудовано пстограму частот використання букв ал-фав!ту сучасно' украансько' мови.

3. Отримана д!аграма дозволяе скласти к!лька ар-тикуляц!йних таблиць з р!зним характером набор!в сл!в (в залежност! в!д тематичного спрямування) для проведення подальших артикуляцшних випробувань. У майбутньому необх!дно зробити фонемний частот-ний анал!з, також бажаним е мовний анал!з б!грам i триграм.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ПЕРЕЛ1К ПОСИЛАНЬ

1. Покровский Н. Б. Расчет и измерение разборчивости речи / Н. Б. Покровский. - М. : Связьиздат, 1962. -392 с.

2. Вемян Г. В. Передача речи по сетям электросвязи / Г. В. Вемян. - М. : Радио и связь, 1985. - 272 с.

3. Обмен опытом [Електронний ресурс]. - Режим доступу: http://www.statsoft.ru/home/portal/exchange / textanalysis.htm. - Назва з екрана.

4. Baudouin C. Elements de cryptographie / C. Baudouin, Ed. A. Pedone. - Paris, 1939. - 214 p.

5. Яглом A. M. Вероятость и информация / A. М. Яглом, И. М. Яглом. - М. : Наука, 1973. - 374 с.

Надшшла 16.02.2009 Шсля доробки 27.04.2009

В статъе рассмотрены нерешенные задачи е области исследования качества речевой коммуникации. Проведен частотный анализ исполъзования букв украинского языка для текстов общим объемом 580 тысяч знаков художественного, публицистического и технического характера. Впервые получено гистограмму частот исполъ-зования букв алфавита для современного украинского языка.

In this paper is considered unresolved tasks in the research field of the communications speech quality. The frequency analysis of the Ukrainian letters usage for total amount of texts about 580 thousand signs in art, publicis-tic and technical area is carried out. For the first time it is received the frequency histogram of letters usage of the Ukrainian alphabet for modern language.

56

ISSN 1607-3274 «Радтелектрошка. 1нформатика. Управл1ння» № 2, 2009

i Надоели баннеры? Вы всегда можете отключить рекламу.