Научная статья на тему 'Подсчет энтропии карачаево-балкарских текстов и моделирование фраз'

Подсчет энтропии карачаево-балкарских текстов и моделирование фраз Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
101
21
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЭНТРОПИЯ / КАРАЧАЕВО-БАЛКАРСКИЙ АЛФАВИТ / ВЕРОЯТНОСТЬ / ИЗБЫТОЧНОСТЬ / ENTROPY / KARACHAY-BALKARIAN ALPHABET / PROBABILITY / REDUNDANCY

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Тхамоков М.Б., Нагоров А.Л., Бесланеев З.О., Кодзоков А.Х.

В этой статье сделана попытка оценить энтропию карачаево-балкарских печатных текстов. В качестве исследуемого объекта были взяты произведения известных национальных писателей, а также тексты периодических изданий. С помощью программы, написанной авторами, проведены расчеты частотности букв, различных комбинаций, а также смоделированы фразы на основе полученных результатов. При подсчете характеристик использовались известные стандартные методики. Получено значение энтропии до двадцать пятого порядка и значение избыточности языка. Приведены результаты исследований отечественных и иностранных авторов в области подсчета энтропии. Проведен сравнительный анализ порядков энтропии для различных европейских языков.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CALCULATION OF ENTROPY KARACHAY-BALKAR TEXTS AND SIMULATION OF PHRASES

This article attempts to estimate the entropy Karachay-Balkar printed texts. As of the object were taken by famous national writers, as well as the texts of periodicals. With this program, written by the authors calculated the frequency of the letters, different combinations and phrases modeled on the basis of the results obtained. When calculating performance used known standard techniques. An entropy to the twenty-fifth day of the order and the value of the redundancy of the language. The results of studies of domestic and foreign authors in the field of counting entropy. A comparative analysis of the different orders of the entropy for European languages.

Текст научной работы на тему «Подсчет энтропии карачаево-балкарских текстов и моделирование фраз»

Вестник КРАУНЦ. Физ.-мат. науки. 2016. № 2(13). C. 68-72. ISSN 2079-6641

DOI: 10.18454/2079-6641-2016-13-2-68-72

ИНФОРМАЦИОННЫЕ И ВЫЧИСЛИТЕЛЬНЫЕ

ТЕХНОЛОГИИ

УДК 519.722

ПОДСЧЕТ ЭНТРОПИИ КАРАЧАЕВО-БАЛКАРСКИХ ТЕКСТОВ И

МОДЕЛИРОВАНИЕ ФРАЗ

М. Б. Тхамоков, А. Л. Нагоров, З.О. Бесланеев, А. Х. Кодзоков

Кабардино-Балкарский государственный университет им. Х.М. Бербекова

360004, КБР, г. Нальчик, ул. Чернышевского, 173

E-mail: kidmus@mail.ru

В этой статье сделана попытка оценить энтропию карачаево-балкарских печатных текстов. В качестве исследуемого объекта были взяты произведения известных национальных писателей, а также тексты периодических изданий. С помощью программы, написанной авторами, проведены расчеты частотности букв, различных комбинаций, а также смоделированы фразы на основе полученных результатов. При подсчете характеристик использовались известные стандартные методики. Получено значение энтропии до двадцать пятого порядка и значение избыточности языка. Приведены результаты исследований отечественных и иностранных авторов в области подсчета энтропии. Проведен сравнительный анализ порядков энтропии для различных европейских языков.

Ключевые слова: энтропия, карачаево-балкарский алфавит, вероятность, избыточность

(с) Тхамоков М. Б. и др., 2016

INFORMATION AND COMPUTATION TECHNOLOGIES

MSC 54C70

CALCULATION OF ENTROPY KARACHAY-BALKAR TEXTS AND

SIMULATION OF PHRASES

M. B. Tkhamokov, A. L. Nagorov, Z. O. Beslaneev, A. Kh. Kodzokov

Kabardino-Balkarian state university of H.M. Berbekov 360004, KBR, Nalchik,

Chernyshevsky str., 173

E-mail: kidmus@mail.ru

This article attempts to estimate the entropy Karachay-Balkar printed texts. As of the object were taken by famous national writers, as well as the texts of periodicals. With this program, written by the authors calculated the frequency of the letters, different combinations and phrases modeled on the basis of the results obtained. When calculating performance used known standard techniques. An entropy to the twenty-fifth day of the order and the value of the redundancy of the language. The results of studies of domestic and foreign authors in the field of counting entropy. A comparative analysis of the different orders of the entropy for European languages.

Key words: entropy, Karachay-Balkarian alphabet, probability, redundancy

@ Tkhamokov M. B. et al, 2016

Введение

Известно [1, с. 237], что для передачи М - буквенного сообщения (где считается достаточно большим) по линии связи, допускающей т различных элементарных

сигналов, требуется затратить сигналов, где п - число букв «алфавита», с по-

Logm

мощью которого записано сообщение. Так как карачаево-балкарский «телеграфный» алфавит содержит 32 буквы (мы здесь не различаем буквы е и ё, ь и ъ, которые в большинстве телеграфных кодов передаются одной и той же комбинацией элементарных сигналов, но причисляем к числу букв и «нулевую букву» - пустой промежуток между словами), то согласно этому результату на передачу М - буквенного сообще-

MLog32 МНо _ „ г „ _

ния надо затратить -=- элементарных сигналов. Здесь Но = Log232 = 5

Logm Logm

- энтропия опыта, заключающегося в приеме одной буквы карачаево-балкарского текста (информация содержащаяся в одной букве), при условии, что все буквы считаются одинаково вероятными. На самом деле, однако, появление в сообщении на карачаево-балкарском языке разных букв совсем не одинаково вероятно. Для получения текста, в котором каждая буква содержит 5 бит информации, нельзя просто взять отрывок из какой-либо книги на балкарском языке; для этого требуется выписать 32 буквы на отдельных билетиках, сложить все эти билеты в урну и затем вытаскивать их по одному, каждый раз записывая вытянутую букву, а билетик, возвращая обратно в урну, и снова перемешивая ее содержимое. Произведя такой опыт, мы придем к «фразе» вроде следующей:

пспеи хмревф дквддяиъсчюцшзмфоофвэшкю

тбйэзблзиеюиемщвъзъпъбвфпючфпючфхюуаакдцвчтэфйгеждчъзшврпючржжес.

Этот текст, хоть он и составлен из букв балкарского алфавита, имеет мало общего с балкарским языком!

Для более точного вычисления информации, содержащейся в одной букве балкарского текста, надо знать вероятности появления различных букв. Эти вероятности можно определить, взяв достаточно большой отрывок, написанный на балкарском языке, и рассчитав для него относительные частоты отдельных букв. Строго говоря, эти частоты могут несколько зависеть от характера текста; поэтому для надежного определения «средней частоты» буквы желательно иметь набор различных текстов, заимствованных из различных источников.

В качестве исследуемого текста были использованы различные источники: книга Мусукаевой С.А. « КЪАРАЧАЙ-МАЛКЪАР ХАЛКЪ ЖОМАКЪЛА », статьи газеты «Заман» и журнала «Минги тау».

Методика исследования

Исследование состояло в непосредственном подсчете Но и Н\ - энтропий нулевого и первого порядка приближения - и нахождения верхних оценок Нп для энтропий порядка приближения п. При этом графемы балкарского языка разлагались на составные элементы. Таким образом, считалось, что алфавит, с помощью которого составлен текст, содержит 32 буквы (31 буква русского языка, и пробел). Поэтому Но оказалось равным ^232 = 5. Н\ подсчитывалась обычным образом с помощью таблицы 1, составленной на основе исследования указанного выше текста.

Таблица 1

буква относит. частота 0,141 А 0,128 Л 0,066 Н 0,063 Е,Ё 0,054 И 0,053 Ы 0,049 Р 0,042

буква У Д К T Ъ,Ь Г Б С

относит. частота 0,040 0,037 0,035 0,033 0,031 0,030 0,027 0,022

буква М Й Ю О З П Х Ж

относит. частота 0,021 0,016 0,016 0,015 0,014 0,015 0,012 0,012

буква Ш Э Ч Я Ф В Ц Щ

относит. частота 0,010 0,010 0,007 0,002 0,005 0,000 0,000 0,000

Приравняв эти частоты вероятностям появления соответствующих букв, получим для энтропии одной буквы балкарского текста приближенное значение:

Н1 = -0,141^0,141 - 0,128^0,128 - 0,066^0,066 - ... - 0,001^0,001 - 4,168024002.

Из сравнения этого значения с величиной Щ = Log232 = 5 видно, что неравномерность появления различных букв алфавита приводит к уменьшению информации, содержащейся в одной букве балкарского текста, примерно на 0,831975998 бит.

Воспользовавшись этим обстоятельством, можно уменьшить число элементарных сигналов, необходимых для передачи - буквенного сообщения до значения

М Н| (т.е. в случае двоичного кода - до значения НцМ « 4,463793204). Но и рав-Logm

Н1

ное - значение среднего числа элементарных сигналов, приходящихся на од-

Logm

ну букву передаваемого сообщения, также не является наилучшим. В самом деле, при определении энтропии Щ = Н(«1) опыта «1, состоящего в определении одной буквы балкарского текста, мы считали все буквы независимыми. Это значит, что для составления «текста», в котором каждая буква содержит Щ = 4,168024022 бит информации, мы должны прибегнуть к помощи урны, в которой лежат тщательно перемешанные 1000 бумажек, на 141 которых не написано ничего, на 128 - написана буква А, на 66 - Л,..., наконец, на 1 бумажке - буква Ф. Извлекая из такой урны бумажки по одной, придем к «фразе» вроде следующей:

лр ег таатеи ыхзаалыптаалйлйурск гаеъее агс ъш заае ууаашаии ршзл алг-сианм нл скбтбанеюлыкзъълха уры.

Эта «фраза» несколько более похожа на осмысленную балкарскую речь, чем предыдущая (здесь все же наблюдается сравнительно правдоподобное распределение числа гласных и согласных и близкая к обычной средняя длина «слова»), - но и она, разумеется, еще очень далека от разумного текста.

Несходство нашей фразы с осмысленным текстом естественно объясняется тем, что на самом деле последовательные буквы балкарского текста вовсе не независимы друг от друга.

Наличие в балкарском языке дополнительных закономерностей, не учтенных в нашей «фразе», приводит к дальнейшему уменьшению степени неопределенности (энтропии) одной буквы балкарского текста. Поэтому при передаче такого текста

по линии связи можно еще уменьшить среднее число элементарных сигналов, затрачиваемых на передачу одной буквы. Для этого надо лишь подсчитать условную энтропию Н2 = На1 («2) опыта «2, состоящего в определении одной буквы балкарского текста, при условии, что нам известен исход опыта «1, состоящего в определении предшествующей буквы того же текста (заметим, что при приеме очередной буквы сообщения мы всегда знаем уже предшествующую букву). Условная энтропия Н2 определяется следующей формулой:

H2 = Ho(«2) = H(ai«2) -H(ai) = -p(—)logp(—) -p(-a)logp(-a) - ... ... - pH)logM+p(-)logp(-)+... +p^)log^).

В результате подсчета этих величин с помощью программы были получены следующие результаты:

H2 = Нщ (a2) = H(a1a2) - H(a1) = 3,474717828,

H3 = Haia2(a3) = H(a1a2a3) - H(a1a2) = 2,5452550748, H4 = Ha1a2a3 («4) = H(a1«2a3a4) - H(«1«2«3) = 1,5699993722,

H5 = Ha1a2a3a4(«5) = H(a1a2a3a4a5) - H(a1a2a3«4) = 1,0138214113,

.....................................................................................1

H25 = Ha1a2a3...a24(025) = H(a^...025) - H(a^..^) = 0,0019254910.

Зная величину H2, можно провести эксперимент и получить следующий результат:

лататодайы болалыдып къармни аханинген келауаннды ай шчы деры. Зная величину H3, можно провести эксперимент и получить следующий результат:

дермекди мемюрегенг бол хшюн ал жону да бла салдюрлик. По звучанию эта «фраза» заметно ближе к балкарскому языку, чем фраза выписанная в первом случае и во втором случае.

Для H5 моделирование привело к следующему результату: жетгендиле бошады да да халкъ берсенг да къоюп келген.

Обсуждение результатов исследования

Среднее число элементарных сигналов, необходимое для передачи одной буквы

H—

текста, не может быть меньшим-; с другой стороны, возможно кодирование, при

log m

котором это среднее число сколь угодно близко к величине ——. Разность 1--—,

log m H0

показывающую, насколько меньше единицы отношение «предельной энтропии» H— к величине Ho = logn, характеризующей наибольшую информацию, которая может содержаться в одной букве алфавита с данным числом букв, Шеннон назвал избыточностью языка. В нашем случае имеем следующий результат:

R = 1 - — = 0,999614901. Ho

Такая избыточность языка позволяет сокращать телеграфный текст за счет отбрасывания некоторых легко отгадываемых слов (предлогов и союзов); она же позволит легко восстановить истинный текст даже при наличии значительного числа ошибок в телеграмме или описок в книге.

Избыточность ^ является весьма важной статистической характеристикой языка. Для сравнения результатов, полученных для балкарского языка, приведем значения энтропии некоторых европейских языков:

Таблица 2

язык Англ. Немецк. Франц. Испанск. Балк.

Hi 4,03 4,10 3,96 3,98 4,17

Для английского языка Шеннон получил следующие значения энтропий:

Таблица 3

Ho Hi H2 Нз Н5 Hg

4,76 4,03 3,32 3,10 2,1 ~1,9

Для балкарского языка мы получили следующие результаты:

Таблица 4

Ho Hi H2 H3 H5 Hg

5 4,1680 3,2883 2,7266 1,6285 0,5713

Опыты Шеннона [2, с. 669] показали, что величина H100, по-видимому, заключена между 0,6 и 1,3бит. И для английского языка избыточность составляет порядка 80%. Для немецкого языка К. Кюнфмюллером [3, с. 265-272] было получено значение -70%. Для французского языка избыточность была подсчитана Н.В. Петровой [4, с. 130-152] и она составила порядка 71%.

Список литературы

[1] Яглом А.М., Яглом И.М., Вероятность и информация, Наука, М., 1973, 512 с.

[2] Шеннон К., Работы по теории информации и кибернетике, ИЛ, М., 1963, 830 с.

[3] Кюпфмюллер К., "Энтропия немецкого языка", FTZ, 1954, №6, 265 - 272.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

[4] Петрова Н.В., "Энтропия французского печатного текста", Известия Академии наук СССР. Серия литературы и языка, 24:1 (1965), 63-67.

Поступила в редакцию / Original article submitted: 29.03.2016

i Надоели баннеры? Вы всегда можете отключить рекламу.