Научная статья на тему 'Индексы концентрации частотных словарей'

Индексы концентрации частотных словарей Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
609
80
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЧАСТОТНЫЙ СЛОВАРЬ / АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТА / РАНГОВОЕ РАСПРЕДЕЛЕНИЕ / СТАТУСНОЕ РАСПРЕДЕЛЕНИЕ / КОНЦЕНТРАЦИЯ / РАССЕЯНИЕ / РАНГОВОЕ СРЕДНЕЕ / ИНДЕКС КОНЦЕНТРАЦИИ / ИНДЕКС ДЖИНИ / ИНДЕКС ТРОФИМОВА / ИНДЕКСЫ МАРТЫНЕНКО / РАСПРЕДЕЛЕНИЕ ЦИПФА / РАСПРЕДЕЛЕНИЕ ВЕЙБУЛЛА / ЛОГИСТИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ / WORD FREQUENCY LIST / AUTOMATIC TEXT ANALYSIS / RANK DISTRIBUTION / STATUS DISTRIBUTION / CONCENTRATION / DISPERSION / RANK MEANS / CONCENTRATION INDEX / GINI INDEX / THE TROFIMOV INDEX / THE MARTYNENKO INDEXES / ZIPF DISTRIBUTION / WEIBULL DISTRIBUTION / LOGISTIC DISTRIBUTION

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Мартыненко Григорий Яковлевич, Григорьев Юрий Дмитриевич

Рассматривается система индексов, характеризующих частотную концентрацию и рассеяние лексических единиц в частотных словарях. Если представить частотный словарь в форме рангового распределения, то к нему может быть применен классический индекс итальянского ученого К. Джини, а также индексы отечественного статистика В. П. Трофимова и два индекса Г. Я. Мартыненко, основанные на ранговом среднем. Исследуются связи между данными индексами, показана возможность их применения при исследовании структуры частотных словарей. Исследуемые индексы представляют собой важные обобщающие статистики, позволяющие сравнивать частотные словари друг с другом с точки зрения экспликации феномена концентрации и рассеяния. Рассматриваются классические статистические распределения (Ципфа Парето, Вейбулла, логистическое) в ранговой форме и аналитические выражения, соответствующие этим распределениям. Возможность применения рассматриваемых индексов концентрации показана на материале трех частотных словарей художественной прозы (А. П. Чехов, Л. Н. Андреев и А. И. Куприн), специализированного словаря по электронике и двух малых частотных словарей.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CONCENTRATION INDICES FOR MEASURING AND COMPARING OF WORD FREQUENCY LISTS

We analyze the system of indices that characterize frequency concentration and scattering of lexical units in word frequency lists. If a word frequency list is presented in the form of rank distribution, the classic index proposed by the Italian scholar C. Gini (the Gini index, or Gini ratio) can be applied to it. The other indices applicable here are the index proposed by the Russian statistician V. P. Trofimov and two indices proposed by G. Ya. Martynenko, which are based on the rank mean. The relationship between these four indices is examined, and the possibility of their application for studying the structure of word frequency lists is shown. The analyzed indices represent the important generalizing statistics, which allow to compare different word frequency lists with each other in terms of concentration and scattering of lexical units. Further, the paper examines the classical statistical distributions (Zipf Pareto, Weibull, logistic) in a rank form and the analytical expressions corresponding to these distributions. The possibility of pplying the analyzed concentration indices is shown on the material of three word frequency lists of classical Russian fiction (by Anton Chekhov, Leonid Andreev and Alexander Kuprin), a specialized word frequency dictionary on electronics, and two small frequency dictionaries.

Текст научной работы на тему «Индексы концентрации частотных словарей»

УДК 81'33 + 81'32 + 81'322.2

Г. Я. Мартыненко Ю. Д. Григорьев 2

1 Санкт-Петербургский государственный университет Университетская наб., 11, Санкт-Петербург, 199034, Россия

2 Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» ул. Профессора Попова, 5, Санкт-Петербург, 197376, Россия

[email protected], [email protected]

ИНДЕКСЫ КОНЦЕНТРАЦИИ ЧАСТОТНЫХ СЛОВАРЕЙ

Рассматривается система индексов, характеризующих частотную концентрацию и рассеяние лексических единиц в частотных словарях. Если представить частотный словарь в форме рангового распределения, то к нему может быть применен классический индекс итальянского ученого К. Джини, а также индексы отечественного статистика В. П. Трофимова и два индекса Г. Я. Мартыненко, основанные на ранговом среднем. Исследуются связи между данными индексами, показана возможность их применения при исследовании структуры частотных словарей. Исследуемые индексы представляют собой важные обобщающие статистики, позволяющие сравнивать частотные словари друг с другом с точки зрения экспликации феномена концентрации и рассеяния. Рассматриваются классические статистические распределения (Ципфа - Парето, Вейбулла, логистическое) в ранговой форме и аналитические выражения, соответствующие этим распределениям. Возможность применения рассматриваемых индексов концентрации показана на материале трех частотных словарей художественной прозы (А. П. Чехов, Л. Н. Андреев и А. И. Куприн), специализированного словаря по электронике и двух малых частотных словарей.

Ключевые слова: частотный словарь, автоматический анализ текста, ранговое распределение, статусное распределение, концентрация, рассеяние, ранговое среднее, индекс концентрации, индекс Джини, индекс Трофимова, индексы Мартыненко, распределение Ципфа, распределение Вейбулла, логистическое распределение.

Введение

Ранговые распределения являются средством и объектом исследования во многих областях науки: лингвистике, науковедении, информационных технологиях, технетике, интернет-технологиях, системном анализе и др. (см., например, [Горькова, 1988; Кудрин, 1980; Мартыненко, 1988; Шрейдер, Шаров, 1982; Яглом, 1980]). Представляют интерес как теоретические, так и эмпирические ранговые распределения.

При построении ранговых распределений актуальными являются такие процедуры, как

аппроксимация эмпирических ранговых распределений аналитическими выражениями, их расслоение на ядро и периферию, оценивание моментных характеристик и индексов, изучение закономерностей неравномерности (концентрации и рассеяния) частотных масс и др. Статья посвящена рассмотрению последнего вопроса. Наша задача состоит в систематизации индексов концентрации, которые используются в продуктах упорядочивающей деятельности лингвиста, например в частотных словарях. Статья имеет преимущественно методический характер, привлекая внимание лингвистов к малознакомому

Мартыненко Г. Я., Григорьев Ю. Д. Индексы концентрации частотных словарей // Вестн. Новосиб. гос. ун-та. Серия: Лингвистика и межкультурная коммуникация. 2017. Т. 15, № 1. С. 41-53.

ISSN 1818-7935

Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2017. Том 15, № 1 © Г. Я. Мартыненко, Ю. Д. Григорьев, 2017

им инструментарию. Этому способствуют практические подсчеты, произведенные на материале некоторых частотных словарей, интерпретация индексов концентрации на примере популярных в лингвистике распределений Ципфа - Парето и Вейбулла, а также логистической функции.

Статья построена следующим образом. В разделе 1 говорится о различных способах упорядочивания лингвостатистических данных и месте ранговых распределений в этой системе упорядочивания, обсуждается значимость феномена концентрации. В разделе 2 вводится определение рангового распределения и рангового среднего. В разделе 3 представлен перечень индексов концентрации ранговых распределений и формулируется теорема об отношении порядка между ними. В разделе 4 приводятся примеры вычисления индексов концентрации на материале нескольких частотных словарей, и, наконец, в разделе 5 используемые индексы интерпретируются для трех теоретических распределений в ранговой форме.

1. Статусные распределения

и явление концентрации

Частотный словарь представляет собой лексикографический продукт, в котором каждая словарная статья содержит имя лексической единицы (словоформы или лексемы) в сопровождении различного рода статистических данных - ранга лексической единицы, частоты, числа единиц с данной частотой, величины логарифмической функции правдоподобия и др. На основании информации, содержащейся в частотном словаре, могут быть построены статистические распределения определенного типа в зависимости от того, какая информация используется в качестве зависимой или независимой переменной. Основными среди них являются: полиномиальное распределение, ранговое и спектровое (частотное) распределения. В полиномиальном распределении в качестве независимой переменной выступает варьирующее имя лексической единицы, а в качестве зависимой переменной - ее частота; в ранговом распределении в качестве независимой переменной выступает ранг лексической единицы, а в качестве зависимой - ее часто-

та (имя в таком распределении «исчезает»); в спектровом распределении роль независимой переменной выполняет частота лексической единицы, а роль зависимой - число единиц, обладающих данной частотой [Нешитой, 1968; Тулдава, 1986; Мартыненко, 1989].

Детальный перечень способов систематизации лексико-статистических данных представлен в табл. 1. Показано, что при переходе от кумулятивного распределения к ранговому значения случайной переменной и их статистические веса меняются местами: варианты становятся значениями зависимой переменной (т. е. функции), а статистические веса - значениями независимой переменной (т. е. аргумента). Обращает на себя внимание и то обстоятельство, что при переходе к ранговым распределениям накопляемые численности объектов «превращаются» в последовательность чисел натурального ряда, т. е. в ранговую последовательность.

В исследовательской практике активно используются лишь некоторые из перечисленных распределений. В математическом смысле они равноправны и представляют собой статистические «вариации» на одну и ту же тему.

Предпочтения лингвиста определяются преимущественно психологическими факторами. Так, лингвисты в подавляющем большинстве случаев строят ранговые распределения, сохраняя при этом информацию об именах лексических единиц, стоящих за рангами и частотами. Причем в 100 % случаев это убывающие ранговые распределения, в которых слова расположены в порядке убывания частоты.

В таких распределениях элементы обычно упорядочиваются по функциональному признаку, отражающему функциональный вес (статус, рейтинг) элементов, образующих конкретную систему. Такие распределения называются статусными в отличие от структурных распределений, с помощью которых упорядочиваются объекты с точки зрения внутренней структуры единиц совокупности [Мартыненко, 1988. С. 32].

Статусные распределения, несмотря на свое эмпирическое качественное разнообразие, имеют много общих черт. Все они, в частности, крайне асимметричны и отли-

Таблица 1

Формы упорядочивания данных лингвостатистического наблюдения

Распределение Статистические данные

варианты статистические веса

Полиномиальное Имя лексической единицы Частота лексической единицы

Спектровое (частотное) Частота лексической единицы Число лексических единиц с данной частотой

Спектрово-кумулятивное Частота лексической единицы Число лексических единиц, частота которых не превышает данную

Спектрово- * декумулятивное Частота лексической единицы Число лексических единиц, частота которых равна или превышает данную

Возрастающее ранговое Число лексических единиц, частота которых не превышает данную (ранг «текущей» лексической единицы) Частота лексической единицы

Убывающее ранговое Число лексических единиц, частота которых равна или превышает данную (ранг «текущей» лексической единицы) Частота лексической единицы

Кумулятивное возрастающее ранговое Ранг лексической единицы Накопленная частота лексических единиц

Кумулятивное убывающее ранговое Ранг лексической единицы Накопленная частота лексических единиц

* Примечание: термин «декумулятивный» используется в эконометрии при построении распределений, в которых значения случайной величины образуют размер дохода, а статистическими весами являются значения численности лиц с доходом, превышающим данный [Ланге, 1964].

чаются патологически большой вариацией признака. Во всех случаях небольшое число элементов несет основную функциональную нагрузку (концентрация активности), а функциональная роль большинства элементов сильно уступает лидерам. Другими словами, можно говорить о зоне концентрации и зоне рассеяния в таких распределениях. В экономике говорят о концентрации производства на крупных предприятиях, в демографии - о концентрации населения в больших городах, в геохимии - о концентрации химических элементов в различных районах планеты

Земля, в науковедении - о концентрации научного продукта в трудах известных ученых, в языкознании - о концентрации активных лексических единиц в верхней зоне частотного словаря и т. д.

Этот феномен диктует необходимость разыскания объективных способов измерения концентрации в ранговых статусных распределениях, в том числе в частотных словарях.

Важным инструментом исследования частотной концентрации является ранговое среднее, обладающее одной важной особенностью. Оно может рассматриваться не

только как мера центральной тенденции, но и как индикатор концентрации / рассеяния единиц в частотном словаре, структурирующем текст или корпус. При этом минимальная концентрация (максимальное рассеяние) характерно для равномерного рангового распределения, в котором все единицы имеют одинаковую активность (например, частоту). Чем больше перепад между «головой» и «хвостом» рангового распределения, тем выше уровень концентрации относительно равномерного распределения. Иначе говоря, это распределение может рассматриваться как эталон концентрации.

2. Ранговое распределение

и ранговое среднее

Следуя [Мартыненко, 1988; 1989; Мар-тыненко, Фомин, 1989], обсудим основные понятия, которые нам понадобятся в последующем изложении. Терминология приближена к используемой в лингвистике и информационных технологиях, т. е. к тем областям, в которых теория ранговых распределений играет заметную роль.

Рассмотрим произвольное дискретное вероятностное пространство с мерой Р, заданной на конечном множестве объектов словаря М объемом К. Пусть р1,р2,р3,...рк,

I pi = 1 - вероятность словоупотреблений х1,х2,х3,...хк, образующих некоторый текст, yi - элемент выборки (у1,у2,у3,...уп), т. е. значение дискретной случайной величины Y с носителем 8ирр Y = M такой, что P{Y = х.} = p .

Пусть вероятности р1,р2,р3,...рК упорядочены по убыванию, т. е. р1 > р2 > > р3 >... > рк . Данное распределение, сосредоточенное в точках натурального ряда и приписывающее каждому числу г нагрузку рг, называется ранговым распределением, соответствующим исходной вероятностной мере Р. Соответствующий ряд с частотами / > /2 > /3 > .../к образует убывающий ранжированный ряд

рг =

г К

I /г

(1)

а статистические веса - соответствующее ему распределение Р. Аналогично определяется возрастающий ранжированный ряд. Ранговые распределения Р с упорядоченными вероятностями словоупотреблений х1,х2,х3,...хк в лингвистике принято называть статусными.

Ранговым начальным моментом порядка к распределения Р называется величина к

Мгк =1 р.хк

(2)

Если р > р2 > рз > ... рк или А < р2 <

< р3 < ...рк , то средние и дисперсии убы-

вающего и возрастающего ранговых рас-

2 _2

'и?'V и ' V

пределений обозначаем ги, гу и С2, с„ соответственно. Пусть

N

рг (N) = N-111 (у. - хг) = ®, .=1 ™

N

I®; = N, г = 1...к

1=1

есть оценки вероятностей рг , тогда верна следующая теорема.

Теорема 1. Имеют место утверждения:

1) если х1,х2,... - бесконечная последовательность независимых, одинаково распределенных случайных величин с распределением Р, то рг (N) ^ рг, N ^ ж;

2) гу + ги = кг +1;

3) гУ > ги;

4) С >С

Доказательство. Согласно п. 1 теоремы 1 оценка рг (Щ является состоятельной. Это утверждение вместе с п. 3 доказано в [Кендал, Стюарт, 1964]. Утверждение 2 очевидно. Утверждение 4 высказано в [Мартыненко, 1988. С. 82]. Для того, чтобы убедиться в нем, поступим следующим образом.

Пусть ф(2) = Мгг =1К - произ-

водящая функция распределения Р. Из определения ф( 2) следует, что

фк (1) = Мг(г - 1)...(г +1 - к), и, следовательно,

Мг = ф/(1)

Бг = ф//(1) + ф/(1) -[ ф/(1)]2.

(3)

г=1

Обозначим

«_V /,

r=1

b =itrfr,

r=1

^ = tr 2 fr .

содержательные меры неравномерности распределений должны быть такими функциями от частот /г, которые обращаются в нуль для равномерного распределения Р. В работе показано, что перечисленные выше меры неравномерности являются функция-

ми только от ru и rv .

3. Индексы концентрации

Отсюда, учитывая (2) и полагая Xj = j, получаем

<PU0) = -,

а

<PU'(1) =

//ПЧ (с - b)

ф/(1) = ( K +1) —,

а

ф?(1) = K ( K +1) - (2 K +1) - + С.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

а а

Подставив полученные выражения в (3), находим, что

_2 2 С,, _ G, _

ас - b

что и требовалось доказать.

Наряду со средним Mr, дисперсией с2 и

коэффициентом вариации v _

= с/

Шг

важное

место в изучении ранговых распределений занимают различные индексы, характеризующие степень неравномерности (концентрации, неоднородности) соответствующих ранговых распределений. Наиболее известным среди них является индекс, или коэффициент, рассеяния Джини G [Джини, 1970]. Известны и другие индексы, в их числе индекс неравномерности Трофимова R [Трофимов, 1985. C. 25] и индекс концентрации Мартыненко H [Мартыненко, 1989; Мартыненко, Фомин, 1989] и др.

В силу того что дисперсии убывающих и возрастающих ранжированных рядов совпадают, их использование в качестве мер неравномерности без сочетания с другими моментами не дает желаемого результата. С другой стороны, равенство rv - ru _ 0 имеет место только для равномерного распределения p1 = p2 _ ... = pK _ K-1. Поэтому

Пусть P - статусное распределение с частотам / > / > .../k

sr V ' fn- j+1,

j=1 r

fr _V f ,

j=1

U = t*r,

r=1 zk

V = Z',

г=1

Тогда [Кендал, Стюарт, 1966]

а = 1 .

К а

Поскольку

и = Ь = аги, - = (К +1) а - Ь = агу, то отсюда и из (4) следует, что

G _ rv - ru _K +1 rv - ru

(4)

K K rv + ru

(5)

Индекс концентрации Мартыненко-1 [Мар-тыненко, 1989] по определению имеет вид

H _ 1 -

Отсюда и из (5) следует, что

v K (i - r-1) f

, , r ¿-tr=1y K r

с = GH- _-v =--Л-< 1.

K

(6)

v K=1 /r

Следовательно, Н = еС > С.

Индекс концентрации Трофимова Я назван коэффициентом неравномерности. В терминах наших обозначений имеем

r - r r - r

r_ v u _ v u

K + 1 rv + ru

2

а

r

u

r

v

Таким образом, О > Я.

Следуя логике построения индексов, основанной на использовании средних ги и

Г, введем индекс Мартыненко-2:

J = -

К +1 г + г

(8)

Легко проверить, что здесь выполняется неравенство J > Н. Объединяя полученные результаты (5)-(8), заключаем, что имеет место следующая теорема.

Теорема 2. Индексы концентрации Трофимова, Джини, Мартыненко-1 и Марты-ненко-2 связаны цепочкой неравенств

Я < О < Н < J.

(9)

При этом

Я =

Н

2 - Н

О = 11 +1 ^ Н

К ) 2 - Н

Н = 1 ,

ГУ

1

J = -

(10)

2-Н

В случае если все частоты fi одинаковы,

имеем Я = О = Н = 0, J = — .

2

4. Примеры измерения концентрации и рассеяния в частотных словарях

В табл. 2 представлены значения коэффициентов Я, О, Ни J, вычисленные для трех частотных словарей по 200 тыс. словоупотреблений: [ЧС рассказов А. П. Чехова, 1999; ЧС рассказов Л. Н. Андреева, 2003; ЧС рассказов А. И. Куприна, 2006], частотного словаря по электронике [Алексеев, 1968] и двух малых специальных частотных словарей: частотного словаря предикатных слов [Мартыненко, 1988] и частотного словаря ассоциатов слова-стимула «береза» [Мартинович, Мартыненко, 2002].

Из табл. 2 видно, что все индексы являются производными от индекса Мартынен-

ко-1, который для ранговых распределений мы считаем базовым. Также можно обратить внимание на то, что в индексе Джини множитель в скобках не оказывает существенного влияния на величину индекса в малых словарях (ведь даже в них число лексем больше 100). По этой же причине индексы Джини и Трофимова дают практически идентичные результаты. То же самое можно сказать и об индексах Мартыненко-1 и 2. Заметные отличия дают только индексы Джини и Мартыненко, но индекс Марты-ненко-1 чуть проще для вычислений и дает более высокий результат.

В целом каждый из перечисленных индексов может использоваться для измерения сходства и различия частотных словарей с точки зрения феномена концентрации и рассеяния. Предпочтительными применительно к лингвистическому материалу нам представляются индексы Трофимова и Марты-ненко.

Все индексы обладают хорошими диагностическими свойствами. Они могут найти широкое применение в статистической лексикографии, корпусной лингвистике, лингвистической экспертизе и стилеметрии, в частности при атрибуции и таксономии текстов. Хорошим примером такого использования является индекс концентрации закона Ципфа, который совпадает с показателем степени у в формулировке этого закона -но только для тех исследователей, которые придерживаются ципфовской парадигмы. Кстати, этот показатель степени в данном случае через индекс концентрации получает содержательную интерпретацию.

Однако, используя индексы концентрации на практике, следует иметь в виду следующую неопределенность. Несмотря на то что ранговое среднее, на основе которого вычисляются предложенные индексы, обладает теоретической состоятельностью в статистическом смысле, практическая состоятельность этой характеристики исследована недостаточно. Поэтому необходимы тщательные тесты этой статистики на материале разного объема. Опыт, накопленный в этом направлении, пока весьма незначительный.

Таблица 2

Эмпирические значения индексов концентрации в частотных словарях

Показатель Коэффициенты

Трофимов К = Н Джини а Гт 1 11 Н Мартыненко-1 г Н = 1 Г Мартыненко-2 у = 1

2 - Н а = 111 | ^ К ) 2 - Н 2 - Н

ЧС рассказов А. П. Чехова К = 13736, а = 198066 0,850 0,85 0,919 0,925

ЧС рассказов Л. Н. Андреева К = 14132, а = 192482 0,841 0,841 0,914 0,921

ЧС рассказов А. И. Куприна К = 21163, а =288260 0,883 0,883 0,938 0, 936

Предикатные слова К = 465, а = 50000 0,923 0,925 0,960 0,961

Ассоциативный словарь К = 119, а = 2500 0,639 0,644 0,780 0,819

Так, в работе [Мартыненко, 1988] получены данные о состоятельности рангового среднего, функционально связанного с индексами концентрации. Установлено, что ранговое среднее тематически и функционально-стилистически ограниченных текстов стабилизируется при сравнительно небольших объемах выборки. Так, на материале для частотного словаря по электронике [Алексеев, 1968] была изучена зависимость объема словаря от объема выборки и установлено, что эта характеристика обладает практической состоятельностью [Мартыненко, 1988. С. 92-93].

В настоящее время тестирование состоятельности индексов концентрации проводится на материале речевого корпуса «Один

речевой день» [Косарева, Мартыненко, 2015; Шерстинова, 2015]. По предварительным данным, ранговое среднее и индексы концентрации также обнаруживают хорошую сходимость к предельным теоретическим величинам.

5. Индексы концентрации некоторых теоретических распределений

В табл. 3 представлены три ранговых распределения в форме возрастающего и убывающего ранжированных рядов, соответствующих известным непрерывным распределениям Парето, Вейбулла и логистическому [Мартыненко, 1982]:

Индексы концентрации некоторых теоретических распределений

Таблица 3

Ранговое распределение

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Распределение Г (х)

Ципфа - Парето

1 - Л, У> 1

Вейбулла

1 - е~ех , у > 1

логистическое

1

1 + ах

, У> 1

Возрастающее

1 —

г ] у

К +1

1 1 Я^ 1п Л 1 -

К +1

-1

1 -

К +1

Убывающее

К +1V

1 1 Я^ 1п *

К +1

^И - 1

Возрастающее и убывающее ранговые распределения /и (г) и ^ (г) распределения Парето возникают следующим образом.

Домножив у = Г(х) = 1 —— на К +1 и вы-

х1

разив через х и у , после замены х на г ,

получаем

Л (г) = |1 -

К +1

К+1V

/и (г) =

г = 1...К +1.

Необходимость домножения на К +1 объясняется тем, что гу + ги = К +1, а также тем, что при г = К частота /К не должна равняться нулю. Аналогично вычисляются ранжированные ряды и для других распределений.

Легко проверить, что в табл. 4 выполня-

ются равенства гу

Я и

-ги = К +1 и у = Н .

Вычисления моментов осуществляются по следующей схеме. Выдвигается предположение, что при достаточно больших значениях К и/или у (причем должно быть у > 2) можно осуществить замену дискретных распределений соответствующими непре-

/

К +1

рывными. Если ' - плотность рас-

пределения вероятностей, соответствующая

ряду частот , г = 1.К, то нахождение всех

моментов

Ыг"

сводится к вычислению ин-

тегралов вида

К+1

К +1 ✓ ч 1

С =| [К+Г]^ = (К +1)"+1 К(х*Ь,

которые для трех рассматриваемых случаев удается вычислить в явном виде. Пусть

1

Б( р, д) = | хр (1 - х) дёх,

Г(а) = | ха-1в-хёх

есть бета- и гамма-функции соответственно.

С,

(К +1)"+1

Интегралы для возрастающих

=

рядов частот см. в табл. 5. Заключение

Хотя индексы концентрации были введены в разное время и разными авторами, нам удалось их объединить в систему на основе рангового среднего, предложенного в работе [Мартыненко, 1988]. Прикладной ценностью рассмотренных индексов явля-

1

у

Таблица 4

Параметры некоторых теоретических распределений

Параметр Распределение

Парето Вейбулла логистическое

rv ru а2 K +1 2 -Y-1 (к+1) [1 - 1 ' 2Y +1 V 2 J (к + 1)(1 + Y-1) 2

(K + 1)(1 -Y-1) 2 -Y-1 к +1 2Y-1+1 (к + 1)(1 -Y-1) 2

(к + 1)2(1 -Y-1) (3 -Y-1)(2 -Y-1)2 ( 1 1 ^ (K +1)2 1 1 13Y +1 4Y +1 J (к + 1)2(1 -Y-2) 12

H R — H 2 - H j 1 Y-1 2y-1+1 - 2 2Y-1+1 -1 2 Y + 1

1 2Y-1 1 - 2! Y-1

Y 1 - 1 Y + 1

J — 2 - H 2y-1 2Y-1+1 2Y

Таблица 5

Интегралы возрастающих рядов частот для теоретических распределений

Распределение

Парето Вейбулла логистическое

Is, s > 0, y > 1 B( s + 1,1 -Y-1) Г(1 + Y-1) (s + 1)1+Y-1 B(s + 1 + Y-1, 1-Y-1)

ется их диагностический потенциал при систематизации текстов, корпусов и их частей.

Наш подход позволяет содержательно, с точки зрения эффекта концентрации рассеяния, проинтерпретировать постоянные коэффициенты теоретических распределений. Так, в распределении Ципфа - Парето коэффициент у является ничем иным, как индексом концентрации в версии Мартынен-ко-1.

Рассмотренные индексы нуждаются в проверке на состоятельность, так как достаточно сильно зависят от объема выборки (объема частотного словаря).

Индексы концентрации могут быть сопряжены с другими характеристиками, от-

ражающими неравномерность, асимметричность, неоднородность ранговых распределений, их расслоение на качественно однородные зоны. Такой подход в различных вариациях реализован в работах В. Парето [Pareto, 1896], С. Брэдфорда [Bradford, 1948], Г. Хердана [Herdan, 1964], Б. Брукса [Brooks, 1969], Р. Г. Пиотровского [Пиотровский Р. Г. и др., 1977], В. И. Горьковой [1969], Дж. Хирша [Hirsch, 2005], И.-И. По-песку, К.-Х. Беста и Г. Альтмана [Popescu, Altmann, 2006; Popescu et al., 2007; Popescu, 2009] и др. Сопряжение с результатами таких работ предусмотрено в наших дальнейших исследованиях.

Список литературы

Алексеев П. М. Частотный словарь английского подъязыка электроники. Статистика речи. Л.: Наука, 1968. С. 151-166.

Горькова В. И. Ранговое распределение на множестве научно-технической информации // Научно-техническая информация. Сер. 2. 1968. № 5. С. 5-11.

Горькова В. И. Информетрия (количественные методы в научно-технической информации). Итоги науки и техники. Серия «Информатика». М.: ВИНИТИ, 1988. Т. 10. 328 с.

Григорьев Ю. Д., Мартыненко Г. Я., Ми-тягин С. А. Индексы концентрации ранговых распределений // Информационные технологии и системы: управление, экономика, транспорт, право: Межвуз. сб. науч. тр. СПб.: Андреевский издательский дом, 2009. Вып. 1 (7). С. 37-42.

Джини К. Средние величины. М.: Статистика, 1970. 448 с.

Кендалл М. Дж., Стьюарт А. Теория распределений. М.: Наука, 1966. 588 с.

Косарева Е. О., Мартыненко Г. Я. Отношение текст-словарь в повседневной устной речи // Структурная и прикладная лингвистика. 2015. № 11. С. 220-228.

Кудрин Б. И. Исследование технических систем как сообществ изделий техноценозов // Системные исследования. Методологические проблемы. Ежегодник 1980. М.: Наука, 1981. С. 236-254.

Ланге О. Введение в эконометрику. М.: Прогресс, 1964. 295 с.

Мартинович Г. А., Мартыненко Г. Я. Многопараметрический статистический анализ результатов ассоциативного эксперимента. СПб.: Изд-во СПбГУ, 2003. 28 с.

Мартыненко Г. Я. Некоторые закономерности концентрации и рассеяния элементов в лингвистических и других сложных системах // Структурная и прикладная лингвистика. Л.: Изд-во ЛГУ, 1978. Вып. 1. С. 63-79.

Мартыненко Г. Я. Типология лингвостати-стических распределений // Лингвостатисти-ка и вычислительная лингвистика. Тарту: Изд-во Тартуского гос. ун-та, 1982. С. 103-120.

Мартыненко Г. Я. Основы стилеметрии. Л.: Изд-во ЛГУ, 1988. 176 с.

Мартыненко Г. Я. Статистические характеристики ранговых распределений // Квантитативная лингвистика и автоматический анализ текстов. Учен. зап. Тартуского университета. Тарту, 1989. С. 50-68.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Мартыненко Г. Я., Фомин С. В. Ранговые моменты // Научно-техническая информация. Сер. 2. 1989. № 8. С. 9-14.

Нешитой В. В. О взаимосвязи ранговых распределений со спектровыми // Научно-техническая информация. Сер. 2. 1968. № 10. С. 19-24.

Пиотровский Р. Г., Бектаев К. Б., Пиотровская А. А. Математическая лингвистика. М.: Высш. шк., 1977. 383 с.

Трофимов В. П. Логическая структура статистических моделей. М.: Финансы и статистика, 1985 (Серия «Математическая статистика для экономистов»). 192 с.

Тулдава Ю. А. Проблемы и методы квантитативно-системного анализа лексики. Таллинн: Валгус, 1987. 203 с.

ЧС - Частотный словарь рассказов А. И. Куприна. СПб.: Изд-во СПбГУ, 2009. 550 с.

ЧС - Частотный словарь рассказов А. П. Чехова. СПб.: Изд-во СПбГУ, 1999. 172 с.

ЧС - Частотный словарь рассказов Л. Н. Андреева. СПб.: Изд-во СПбГУ, 2003. 397 с.

Шерстинова Т. Ю. Наиболее употребительные слова повседневной русской речи (в гендерном аспекте и в зависимости от условий коммуникации) // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». М.: Изд-во РГГУ, 2016. Вып. 15 (22). С. 616-631.

Шрейдер Ю. А. О смысле ранговых распределений // Научно-техническая информация. Сер. 2. 1975. № 1. С. 9-20.

Шрейдер Ю. А., Шаров А. А. Системы и модели. М.: Радио и связь, 1982. 152 с.

Яглом И. М. Математические структуры и математическое моделирование. М.: Сов. радио, 1980. 144 с.

Bradford S. C. Documentation. London: Crosby Lockwood, 1948. 156 p.

Brooks B. C. Bradford's law and the bibliography of Science // Nature. 1969. № 9. P. 953956.

Herdan H. Quantitative Linguistics. London: Butterworths, 1964. 284 p.

Hirsch J. E. An index to quantify an individual's scientific research output. PNAS 102 (46): 16569-16572, 2005. http://www.pnas.org/ content/102/46/16569.full.

Pareto W. Cours d'économie politique. Lausanne: F. Rouge, 1896. Vol. 1-2. 438 p.

Popescu I.-I. Quantitative Linguistics: Word Frequency Studies. Berlin; New York: Mouton de Gruyter, 2009. 278 p.

Popescu I.-I., Altmann G. Some aspects of word frequencies // Glottometrics. 2006. Vol. 13. P. 23-46.

Popescu I.-I., Best K.-H., Altmann G. On the dynamics of word classes in text // Glottometrics, 2007. Vol. 14. P. 58-71.

Материал поступил в редколлегию 05.02.2017

G. Ya. Martynenko, Yu. D. Grigoriev

Saint Petersburg State University 11 Universitetskaya nab., St. Petersburg, 199034, Russian Federation

Saint Petersburg Electrotechnical University «LETI» 5 Professor Popov Str., St. Petersburg, 197376, Russian Federation

yuri_grigoriev@mail. ru

CONCENTRATION INDICES FOR MEASURING AND COMPARING OF WORD FREQUENCY LISTS

We analyze the system of indices that characterize frequency concentration and scattering of lexical units in word frequency lists. If a word frequency list is presented in the form of rank distribution, the classic index proposed by the Italian scholar C. Gini (the Gini index, or Gini ratio) can be applied to it. The other indices applicable here are the index proposed by the Russian statistician V. P. Trofimov and two indices proposed by G. Ya. Martynenko, which are based on the rank mean. The relationship between these four indices is examined, and the possibility of their application for studying the structure of word frequency lists is shown. The analyzed indices represent the important generalizing statistics, which allow to compare different word frequency lists with each other in terms of concentration and scattering of lexical units.

Further, the paper examines the classical statistical distributions (Zipf - Pareto, Weibull, logistic) in a rank form and the analytical expressions corresponding to these distributions. The possibility of pplying the analyzed concentration indices is shown on the material of three word frequency lists of classical Russian fiction (by Anton Chekhov, Leonid Andreev and Alexander Kuprin), a specialized word frequency dictionary on electronics, and two small frequency dictionaries.

Keywords: word frequency list, automatic text analysis, rank distribution, status distribution, concentration, dispersion, rank means, concentration index, the Gini index, the Trofimov index, the Mar-tynenko indexes, Zipf distribution, Weibull distribution, logistic distribution

References

Bradford S. C. Documentation. London: Crosby Lockwood, 1948. 156 p.

Brooks B. C. Bradford's law and the bibliography of Science. Nature. 1969. № 9. Pp. 953-956.

Herdan H. Quantitative Linguistics. London: Butterworths, 1964. 284 p.

Hirsch J. E. An index to quantify an individual's scientific research output. PNAS 102 (46): 16569-16572, 2005. http://www.pnas.org/content/102/46/16569.full.

Pareto W. Cours d'économie politique. V. 1-2. Lausanne: F. Rouge, 1896. 438 p.

Popescu I.-I. Quantitative Linguistics: Word Frequency Studies. Berlin-New-York: Mouton de Gruyter, 2009. 278 p.

Popescu I.-I., Altmann, G. Some aspects of word frequencies. Glottometrics, 2006. V. 13. Pp. 2346.

Popescu I.-I.; Best K.-H.; Altmann, G. On the dynamics of word classes in text. Glottometrics, 2007. V. 14. Pp. 58-71.

Alekseev P. M. Chastotnyy slovar' angliyskogo pod"yazyka elektroniki [A specialized word frequency dictionary on electronics]. Statistika rechi [Speech statistics]. Leningrad: Nauka, 1968. 151166 p. (In Russ.)

Gor 'kova V. I. Rangovoe raspredelenie na mnozhestve nauchno-tekhnicheskoy informatsii [Rank distributions on a set of scientific and technical information]. Nauchno-tekhnicheskaya informatsi-ya - [Scientific and technological information]. Ser. 2. 1968. № 5. Pp. 5-11. (In Russ.)

Gor 'kova V. I. Informetriya (kolichestvennye metody v nauchno-tekhnicheskoy informatsii) [In-formetrics (Quantitative methods in the scientific and technical information)]. Itogi nauki i tekhniki. Seriya "Informatika" - The results of science and technology. "Informatics" Series. Vol. 10. Moscow: VINITI, 1988. 328 p. (In Russ.)

Grigor 'ev Yu. D., Martynenko G. Ya., Mityagin S. A. Indeksy kontsentratsii rangovykh raspredele-niy [Concentration indices for rank distributions]. Informatsionnye tekhnologii i sistemy: upravlenie, ekonomika, transport, pravo. [Information technology and systems: management, economics, law]. St Petersburg: OOO «Andreevskiy izdatel'skiy dom». 2009. № 1 (7). Pp. 37-42. (In Russ.)

Gini K. Srednie velichiny [Mean values]. Moscow: Statistika, 1970. 448 p. (In Russ.)

Kendall M. G., Stewart A. Teoriya raspredeleniy [Distributions theory]. Moscow: Nauka, 1966. 588 s. (In Russ.)

Kosareva E. O., Martynenko G. Ya. Otnoshenie tekst-slovar' v povsednevnoy ustnoy rechi [The type-token ratio in everyday spoken Russian]. Strukturnaya i prikladnaya lingvistika - [Structural and Applied Linguistics]. 2015. № 11. Pp. 220-228. (In Russ.)

Kudrin B. I. Issledovanie tekhnicheskikh sistem kak soobshchestv izdeliy tekhnotsenozov [The study of technical systems as a community of technocenosis products]. Sistemnye issledovaniya. Metodologicheskie problemy. Ezhegodnik 1980 [System research. Methodological problems. The Yearbook 1980]. Moscow: Nauka, 1981. Pp. 236-254. (In Russ.)

Lange O. Vvedenie v ekonometriku [Introduction to Econometrics]. Moscow: Progress, 1964. 295 p. (In Russ.)

Martinovich G. A., Martynenko G. Ya. Mnogoparametricheskiy statisticheskiy analiz rezul'tatov assotsiativnogo eksperimenta [Multivariable statistical analysis of the results of associative experiment]. St Petersburg: St Petersburg State University Publ., 2003. 28 p. (In Russ.)

Martynenko G. Ya. Nekotorye zakonomernosti kontsentratsii i rasseyaniya elementov v lingvis-ticheskikh i drugikh slozhnykh sistemakh [Some regularities concerning concentration and dispersion in the linguistic elements, and other complex systems]. Strukturnaya i prikladnaya lingvistika -[Structural and Applied Linguistics]. № 1. Leningrad: Leningrad State University, 1978. Pp. 63-79.

Martynenko G. Ya. Tipologiya lingvostatisticheskikh raspredeleniy [The typology of linguostatis-tical distributions]. Lingvostatistika i vychislitel'naya lingvistika [Linguostatistics and computational linguistics]. Tartu: Tartu State University, 1982. Pp. 103-120. (In Russ.)

Martynenko G. Ya. Osnovy stilemetrii [Foundations of Stylometrics]. Leningrad: Leningrad State University, 1988. 176 p. (In Russ.)

Martynenko G. Ya. Statisticheskie kharakteristiki rangovykh raspredeleniy [Statistical characteristics of rank distributions]. Kvantitativnaya lingvistika i avtomaticheskiy analiz tekstov [Quantitative linguistics and automatic text analysis]. Tartu: Uchenye zapiski Tartuskogo universiteta, 1989. Pp. 50-68. (In Russ.)

Martynenko G. Ya., Fomin S. V. Rangovye momenty [Rank moments]. Nauchno-tekhnicheskaya informatsiya. Seriya 2 - [Scientific and technical information. Series 2], 1989. № 8. Pp. 9-14. (In Russ.)

Neshitoy V. V. O vzaimosvyazi rangovykh raspredeleniy so spektrovymi // Nauchno-tekhnich-eskaya informatsiya. Seriya 2 - [Scientific and technical information. Series 2], 1968. № 10. Pp. 1924. (In Russ.)

Piotrovskiy R. G., Bektaev K. B., Piotrovskaya A. A. Matematicheskaya lingvistika [Mathematical linguistics]. Moscow: Vysshaya shkola, 1977. 383 c. (In Russ.)

Trofimov V. P. Logicheskaya struktura statisticheskikh modeley [The logical structure of statistical models]. Moscow: Finansy i statistika, 1985 (Seriya "Matematicheskaya statistika dlya ekonomis-tov" - ["Mathematical Statistics for Economists" Series]). 192 c. (In Russ.)

Tuldava Yu. A. Problemy i metody kvantitativno-sistemnogo analiza leksiki [Problems and methods of quantitative and systematic lexical studies]. Tallinn: Valgus, 1987. 203 p. (In Russ.)

Chastotnyyslovar'rasskazovA. I. Kuprina [Frequency list of stories by Alexander Kuprin]. St Petersburg: St Petersburg State University Publ., 2009. 550 p. (In Russ.)

Chastotnyy slovar' rasskazov A. P. Chekhova [Frequency list of stories by Anton Chekhov]. St Petersburg: St Petersburg State University Publ., 1999. 172 p. (In Russ.)

Chastotnyy slovar' rasskazov L. N. Andreeva [Frequency list of stories by Leonid Andreev]. St Petersburg: St Petersburg State University Publ., 2003. 397 p. (In Russ.)

Sherstinova T. Yu. Naibolee upotrebitel'nye slova povsednevnoy russkoy rechi (v gendernom aspekte i v zavisimosti ot usloviy kommunikatsii) [The Most Frequent Words in Everyday Spoken Russian (in the gender dimension and depending on communication settings)]. Komp'yuternaya lingvistika i intellektual'nye tekhnologii: Po materialam ezhegodnoy Mezhdunarodnoy konferentsii «Dialog» - [Computational Linguistics and Intellectual Technologies. Proc. of the Int. Conference Dialogue], Vol. 15 (22). Moscow: RGGU, 2016. Pp. 616-631. (In Russ.)

Shreyder Yu. A. O smysle rangovykh raspredeleniy [On the meaning of rank distributions]. Nauch-no-tekhnicheskaya informatsiya. Seriya 2 - [Scientific and technical information. Series 2], 1975. № 1. Pp. 9-20. (In Russ.)

Shreyder Yu. A., Sharov A. A. Sistemy i modeli [Systems and models]. Moscow: Radio i svyaz', 1982. 152 p. (In Russ.)

Yaglom I. M. Matematicheskie struktury i matematicheskoe modelirovanie [Mathematical structures and mathematical modeling]. Moscow: Sovetskoe radio, 1980. 144 p. (In Russ.)

i Надоели баннеры? Вы всегда можете отключить рекламу.