Научная статья на тему 'Об анаграммах в произведениях А. С. Пушкина'

Об анаграммах в произведениях А. С. Пушкина Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
375
38
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Усманов З.Д., Косимов А.А.

С помощью специального кодирования словоформ получены данные о многообразии анаграмм произведений А.С.Пушкина. Анонсирован ряд анаграмм с наибольшим количеством словоформ.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Об анаграммах в произведениях А. С. Пушкина»

Об анаграммах в произведениях А.С.Пушкина

Усманов З.Д., Институт математики им. А.Джураева АН Республики Таджикистан,

zafar-usmanov@rambler.ru Косимов А.А., Худжандский политехнический институт Таджикского технического университета им. акад. М.С.Осими, abdunabi_kbtut@mail.ru

Аннотация

С помощью специального кодирования словоформ получены данные о многообразии анаграмм произведений А.С.Пушкина. Анонсирован ряд анаграмм с наибольшим количеством словоформ.

1 Введение

Настоящая статья посвящена изучению количественных закономерностей, связанных с анаграммами произведений А.С.Пушкина, [Полные содержания произведений Пушкина] . Согласно определению, анаграмма - это, по крайней мере, пара слов естественного языка, составленных из одного и того же набора букв, [Анаграмма]. Известно, что всякой анаграмме при "упорядоченном алфавитном" кодировании соответствует единственный образ, так называемый ар-код, [Усманов, 2012]. Такое кодирование используется в качестве инструмента для эффективного распознавания словоформных анаграмм.

2 Материал

Творчество А.С.Пушкина представляется указанной во введении электронной коллекцией текстов из 50 произведений с суммарным числом словоупотреблений 297356.

3 Обработка данных

Обработка данных с целью обнаружения всего многообразия анаграмм в упомянутой коллекции выполнялась в два этапа:

- построение списка различных словоформ (таковых оказалось 50630) с частотами их встречаемости;

- а/ -кодирование полученных словоформ и формирование списка различных кодов с частотами их встречаемости.

Напомним, что при таком кодировании произвольной словоформе Ж ="

длины п, в которой а (к = 1, п) - буквы русского алфавита, ставится в соответствие цепочка СЖ = "аа^ ...апп" из тех же самых букв, что и в Ж, но упорядоченных по алфавиту (например: Ж = "книга" ® СЖ = "агикн" или Ж = "предмет" ® СЖ = "де-емпрт"), [Усманов, 2012].

4 Предварительные результаты

Первичная информация о результатах обработки пушкинской коллекции текстов приведена в Табл.1.

Табл. 1. Соотношение кодов без учёта их частот встречаемости

1 2 3 4 5 6 7

Размер коллекции Число словоформ Число различных кодов Число однозначных кодов Число многозначных кодов Отношение (4)/(3) в % Отношение (5)/(3) в %

297356 50 630 48 876 47 276 1600 96.7 3.3

В столбце 1 указывается размер коллекции в словоупотреблениях. В соответствии с первым этапом обработки данных на основе словоупотреблений построен частотный словарь, из которого в столбец 2 выписано только число различных словоформ (без дубликатов). Кодирование последних позволило сформировать список различных кодов, число

которых 48876 показано в столбце 3. Как и следовало ожидать, число различных кодов оказалось меньше числа различных словоформ. В самом

деле, по отношению к а/кодированию всё множество словоформ Ж может быть представлено в виде:

Ж = Ж(1) + А , (1)

где Ж 1}( Ж с Ж ) - подмножество тех словоформ, которые не входят в состав анаграмм и которые также, как и в [Усманов, До-вудов, Холматова, 2013], назовём "тривиальными" анаграммами, и ^-подмножество всех реальных анаграмм, причём всем словоформам, входящим в состав одной анаграммы, соответствует один и тот же код, многозначный при декодировании.

В Табл. 1 числа однозначно и многозначно декодируемых кодов (соответственно "тривиальных" и реальных анаграмм) приведены в столбцах 4 и 5; в столбцах 6 и 7 они выражены в процентах по отношению к общему количеству различных кодов столбца 3. Из этих

данных видно, что для произведений А.С.Пушкина количество однозначно декодируемых кодов (96.7%) значительно больше суммарного количества кодов анаграмм (3.3%) при условии, что частота встречаемости кодов не принимается во внимание. Интересно отметить, что подобные отношения получены ранее для английского, русского, таджикского и литовского языков, а также для искусственного языка эсперанто, [Усма-нов, Нормантас, 2012].

Учёт частот встречаемости однозначно и многозначно декодируемых кодов создаёт точное представление о мощности множества словоформ, входящих в состав анаграмм А.С.Пушкина.

Табл. 2. Соотношение кодов словоформ с учётом их частот встречаемости

1 2 3 4 5

Размер коллекции Число однозначных кодов Число многозначных кодов Отношение (2)/(1) в % Отношение (3)/(1) в %

297356 250 913 46443 84.4 15.6

5

В Табл. 2 следует отметить тот факт, что данные столбцов 4 и 5 значимо отличаются от аналогичных показателей современного русского языка, для которых отношение (2)/(1) равно 54.3%, а (3)/(1) - 45.7% [Усманов, Нормантас, 2012]. Но тогда напрашивается вывод о том, что анаграммы в творчестве А.С.Пушкина занимают значительно меньше места, чем в современном русском языке.

Табл. 3. Распределение анаграмм А.С.Пушкина

Распределение количеств анаграмм по их мощностям

Статистическое распределение, полученное в результате анализа коллекции пушкинских произведений, представлено в табличном виде:

Мощность анаграммы (т) 1 2 3 4 Итого

Число различных анаграмм (и) 47276 1457 132 11 48876

В этой таблице в первой строке отмечены четыре допустимые значения целочисленной переменной т - количества словоформ, входящих в состав анаграмм. Во второй строке указывается количество п анаграмм мощности т. При т = 1 мы имеем дело с "тривиальными" анаграммами, то есть с 47276 словоформами, находящимися во взаимно одно-

Табл. 4. Распределение словоформных

значном соответствии со своими аЬ-кодами.

Для значений т > 1 речь идёт уже о реальных анаграммах, число которых п уменьшается на порядок по мере увеличения мощности т на единицу, причём максимальную мощность т = 4 имеют всего лишь одиннадцать анаграмм, а суммарное количество обнаруженных нетривиальных слово-формных пушкинских анаграмм оказалось равным 1600 (1457 + 132 + 11). анаграмм современного русского языка

Мощность анаграммы (т) 1 2 3 4 5 6

Число различных анаграмм (и) 1399604 106725 29431 12287 6494 3705

Продолжение 1

7 8 9 10 11 12 13 14 15 16 17

2083 1367 846 622 389 326 214 144 112 77 50

Продолжение 2

18 19 20 21 22 23 24 25 26 27 Итого

39 25 19 17 7 4 5 1 2 1 1564596

В этой связи представляет интерес обратиться к аналогичным данным для современного русского языка, приведенным в Табл. 4.

В основу формирования этой таблицы положена коллекция текстов, которая объединяет в одно целое два доступных в Интернете корпуса русского языка, [Russian web corpus] и [Национальный корпус русского языка]. Коллекция содержит 331991248 словоупотреблений и 1863691 различных словоформ. Обработка такой коллекции позволила получить информацию о словоформных анаграммах современного русского языка. Приведенные в Табл. 4 количественные показатели являются уточнёнными данными результатов,

Табл. 5. Список одиннадцати анаграмм

опубликованных ранее в статье [Усманов, Довудов, 2013].

Сравнение данных Табл. 3 и 4 показывает, что наследие А.С.Пушкина составляет лишь небольшую часть словоформных анаграмм современного русского языка. В самом деле, в Табл. 3 отмечаются только три значения мощностей т = 2, 3, 4 и 1600 нетривиальных анаграмм, в то время как в Табл. 4 соответствующие показатели равны 26 (т = 2, 3, ..., 27) и 164992. Главная причина столь ощутимого различия объясняется тем, что пушкинская коллекция текстов составляет менее 1110 доли суммарного объёма упомянутых двух корпусов.

Коды анаграмм А.С.Пушкин Русский язык

Мощность анаграммы Состав словоформ в анаграммах Мощность анаграммы Состав словоформ в анаграммах

абилорс 4 бросали, бросила, собрали, собирал 7 бросила, собрали, собирал, бросали, робасил, обсирал, обрасли

авелс 4 славе, весла, слева, свела 15 слева, славе, весла, свела, велса, савел, власе, слаев, еслав, асвел, лесав, алвес, савле, велас, свале

авилст 4 власти, встали, ставил, славит 9 власти, встали, ставил, листва, свалит, славит, листав, свитла, всатли

адно 4 одна, дона, надо, дано 13 надо, одна, дано, дона, адно, андо, адон, анод, нода, онда, доан, одан, ндао

аекмр 4 мраке, рамке, ермак, рекам 16 краем, камер, мраке, крема, рамке, марке, рекам, ермак, карме, марек, мерка, карем, керам, мерак, керма, макер

аенст 4 стане, насте, тесна, стена 19 стена, сенат, стане, насте, тесна, санте, неста, сента, астен, атенс, асент, антес, ентас, санет, есант, тасен, насет, снает, наест

велос 4 лесов, слове, свело, весло 12 слове, слоев, лесов, весло, свело, лосев, солве, волес, всело, слево, велос, солев

еорт 4 трое, отер, роте, роет 15 трое, орет, роте, торе, роет, отер, теор, трео, отре, етро, орте, ртое, рето, ерот, теро

илмот 4 томил, ломит, молит, милот 9 ломит, молит, ломти, томил, литом, мотли, литмо, тимол, толми

клооть 4 только, отколь, локоть, колоть 8 только, локоть, колоть, толкьо, отколь, тольок, тоьлко, отлько

кот 4 кто, ток, кот, окт 6 кто, кот, ток, окт, отк, тко

6 Фрагмент списка анаграмм

Из 1600 нетривиальных пушкинских анаграмм мы выписываем в качестве примера лишь одиннадцать. В Табл. 5, состоящей из пяти столбцов, первый указывает Ocß-код анаграммы, иными словами тот упорядоченный по алфавиту набор букв, который имеют все словоформы, входящие в состав анаграммы. Во втором и четвертом столбцах указываются мощности анаграмм в произведениях А.С.Пушкина и в коллекции текстов современного русского языка, соответственно. В третьем и пятом столбцах проводится список словоформ, образующих анаграммы.

7 Заключение

Необходимо отметить, что настоящее исследование формирует, вообще говоря, не окончательное представление о анаграммах в творчестве великого русского поэта и писателя А.С.Пушкина. При исчерпывающем охвате всех его текстов можно надеяться на дальнейшее расширение базы анаграмм и их мощностей. Отметим также, что в списках анаграмм могут присутствовать ошибочные словоформы, причина появления которых обуславливается, очевидно, ошибками, имеющими место в текстовых массивах корпусов, подвергнутых обработке. Даже несмотря на то, что подобных ошибок может оказаться незначительное количество, они будут искажать истинную картину описания множества анаграмм того или иного естественного языка. Именно в этой связи к корпусам и коллекциям текстов, предназначенным для выявления множества анаграмм, следует предъявлять особо высокие требования к недопустимости ошибок в написании слов. В пятом столбце Табл. 5 такие ошибки проглядывают.

Список литературы

Полные содержания произведений Пушкина. URL:

http://www.litra.ru/fullwork/work/wrid/000718011 84773068698/(дата обращения 16.02.2016).

Анаграмма. Википедия. URL:

http://ru.wikipedia.org/wiki/%D0%90%D0%BD% D0%B0%D0%B3%D 1 %80%D0%B0%D0%BC% Р0%ВС%Р0%В0(дата обращения 16.02.2016).

Усманов З.Д. 2012. Об упорядоченном алфавитном кодировании слов естественных языков,

т^, № 7, с. S4S-S48.Доклады Академии наук Республики Таджикистан.

Усманов З.Д., Довудов Г.М., Холматова С.Д. 2013. О множестве анаграмм таджикского языка, № 1(1S0), с. 32-39.Известия Акаде

мии наук Республики Таджикистан. Отделение физико-математических, химических, геологических и технических наук.

Усманов З.Д., Нормантас В. 2012. Статистические свойства aß-кодирования слов естественных языков, т^, № 8, с. 622-62S.Доклады Академии наук Республики Таджикистан.

Russian web corpus. URL: https://ske.fi.muni.cz (дата обращения 23.02.201б).

Национальный корпус русского языка. URL: http://www.ruscorpora.ru/ (дата обращения 23.02.201б).

Усманов З.Д., Довудов Г.М. 2013. О многообразии словоформных анаграмм, т^б, № 3, с.19б-200.Доклады Академии наук Республики Таджикистан.

i Надоели баннеры? Вы всегда можете отключить рекламу.