Научная статья на тему 'К вопросу о распределении цифр в младших разрядах чисел в данных электоральной статистики'

К вопросу о распределении цифр в младших разрядах чисел в данных электоральной статистики Текст научной статьи по специальности «Философия, этика, религиоведение»

CC BY
219
16
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПРЕДЕЛЕНИЕ ЦИФР В МЛАДШИХ РАЗРЯДАХ / LAST DIGIT DISTRIBUTION / ПАРЛАМЕНТСКИЕ ВЫБОРЫ / PARLIAMENTARY ELECTIONS / ПРЕЗИДЕНТСКИЕ ВЫБОРЫ / PRESIDENTIAL ELECTIONS / ВОСТОЧНАЯ ЕВРОПА / EASTERN EUROPE / СТАТИСТИКА / STATISTICS / ЗАКОН БЕНФОРДА / ЭФФЕКТИВНОЕ ЧИСЛО ПАРТИЙ / EFFECTIVE NUMBER OF PARTIES / BENFORD LAW

Аннотация научной статьи по философии, этике, религиоведению, автор научной работы — Шалаев Никита Евгеньевич

В области электоральной криминалистики нет консенсуса относительно того, какому закону должны подчиняться распределения цифр в числах электоральной статистики. Есть публикации, выдвигающие на эту роль закон Ньюкомба Бенфорда, и есть публикации, этот закон отвергающие. Есть публикации, которые допускают отбрасывание «неудобных чисел», и есть публикации, допускающие игнорирование «неудобных разрядов». В настоящей статье делается попытка установить, какой из известных законов описывает эмпирические данные наиболее точным образом; при этом данные рассматриваются во всей полноте, без исключения миноритарных участников и иных упрощений. Анализ 28 случаев из стран Восточной Европы показывает, что при всем несовершенстве аппроксимации закон Бенфорда наиболее перспективный кандидат на роль истинного закона распределения, а гипотеза равновероятного распределения оказывается несостоятельной. При этом качество аппроксимации улучшается с увеличением электоральной фрагментации. По итогам эксперимента делается вывод о необходимости выработки поправки к закону Бенфорда, которая приблизила бы предсказываемые вероятности в старших разрядах к наблюдаемым на практике.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

On Digit Distribution in The Final Positions of Numbers in Electoral Statistics Data

There is no consensus in Electoral Forensics over the law which the distribution of digits in the electoral statistics data should follow. Some papers suggest the Newcomb-Benford law, and some reject it. Some papers support excluding small “inconvenient numbers”, and some accept turning a blind eye to certain digit positions. This paper makes an attempt to determine which of the wellknown laws reflects the observed distributions most closely, without omitting minor participants or using other simplifications. The analysis of 28 cases from Eastern Europe demonstrates that, even though the approximation isn’t perfect, the Newcomb-Benford law appears to be the most promising candidate for the role of the actual distribution law, while the uniform distribution hypothesis is unsound. The quality of achieved approximation is positively related to the levels of electoral fragmentation. The experiment suggests that the Newcomb-Benford law should be adjusted in order to match the observed frequencies in the leading digits more closely.

Текст научной работы на тему «К вопросу о распределении цифр в младших разрядах чисел в данных электоральной статистики»

УДК 324

К ВОПРОСУ О РАСПРЕДЕЛЕНИИ ЦИФР В МЛАДШИХ РАЗРЯДАХ ЧИСЕЛ В ДАННЫХ ЭЛЕКТОРАЛЬНОЙ СТАТИСТИКИ

Н. Е. Шалаев

Санкт-Петербургский государственный университет, Университетская наб., 7-9, Санкт-Петербург, 199034, Россия

В области электоральной криминалистики нет консенсуса относительно того, какому закону должны подчиняться распределения цифр в числах электоральной статистики. Есть публикации, выдвигающие на эту роль закон Ньюкомба — Бенфорда, и есть публикации, этот закон отвергающие. Есть публикации, которые допускают отбрасывание «неудобных чисел», и есть публикации, допускающие игнорирование «неудобных разрядов». В настоящей статье делается попытка установить, какой из известных законов описывает эмпирические данные наиболее точным образом; при этом данные рассматриваются во всей полноте, без исключения миноритарных участников и иных упрощений. Анализ 28 случаев из стран Восточной Европы показывает, что при всем несовершенстве аппроксимации закон Бенфорда — наиболее перспективный кандидат на роль истинного закона распределения, а гипотеза равновероятного распределения оказывается несостоятельной. При этом качество аппроксимации улучшается с увеличением электоральной фрагментации. По итогам эксперимента делается вывод о необходимости выработки поправки к закону Бенфорда, которая приблизила бы предсказываемые вероятности в старших разрядах к наблюдаемым на практике.

Ключевые слова: распределение цифр в младших разрядах, парламентские выборы, президентские выборы, Восточная Европа, статистика, закон Бенфорда, эффективное число партий.

Разработка способов обнаруживать аномалии в данных электоральной статистики с опорой лишь на свойства распределений чисел — это без преувеличения аналог поиска «философского камня» в области электоральной криминалистики. Если такой метод (или методы) удастся найти, то окажется возможным проверять результаты выборов на отсутствие искажений, не вовлекая какие-либо дополнительные предположения о поведении избирателей, от чего страдают различные методы, оперирующие понятием явки. Ведь, как следует из работ таких авторов, как Аренд Лейпхарт (Lijphart, 1997) и Вольф Линдер (Linder, 2010), повышение явки может реализовываться в основном за счет вполне определенной части электората (например, настроенной либерально), и в результате прирост явки будет сопровождаться увеличением поддержки либеральных кандидатов и партий абсолютно естественным образом. Если же окажется, что сами числа, выражающие результаты голосования, должны обладать определенными свойствами по своей математической природе, то подобные спорные моменты можно будет обойти стороной.

Претендентов на роль законов, описывающих распределение цифр в данных электоральной статистики, не так уж и много. Прежде всего, это закон Бенфор-

© Н. E. Шалаев, 2015

да (Ньюкомба—Бенфорда), который гласит, что в массивах чисел, описывающих реальность (длины рек, население городов, суммы финансовых транзакций и т. п.), вероятность встретить ту или иную цифру в разных разрядах чисел неодинакова: на первых разрядах (старших) вероятнее всего встретить цифры 1, 2 или 3, и только к четвертому-пятому разряду вероятность становится равной. Применительно к электоральным данным этот закон считается работающим не в полной мере: для первого разряда чисел он не соблюдается (Mebane,

2011), поэтому исследователи обычно опираются на второй разряд. В качестве варианта поправки предлагалось корректировать вероятности по закону Бен-форда с учетом ограничения на возможную величину чисел, ведь участки для голосования, как правило, обслуживают сравнительно небольшое число избирателей (Pericchi, Torres, 2011). Впрочем, есть точка зрения, что и такой подход лишен смысла, а закон Бенфорда должен быть исключен из рассмотрения вовсе (Deckert, Myagkov, Ordeshook, http://vote.caltech.edu). Альтернативный вариант был предложен Берндом Бебером и Александрой Скакко (Beber, Scacco,

2012) и заключался в том, что внимание должно быть переключено на младшие разряды чисел. По мнению авторов, для большинства проверенных ими гипотез об истинном распределении чисел цифры в последних разрядах должны оказаться распределенными равновероятно. Фактически они предположили, что эффекты — предсказываемые и вышеупомянутым законом Бенфорда для последних разрядов достаточно длинных чисел — наступают гораздо раньше, и скромная длина чисел не должна иметь большого значения. Это предположение было дополнено наработками психологических исследований, обращавшихся к восприятию «случайных чисел» человеком, и в итоге предложенный ими метод должен был фиксировать подделывание результатов протоколов подсчета голосов, при котором цифры выдумывались заполняющим их человеком, пытающимся создать иллюзию естественно полученных в ходе голосования случайных чисел. Дело в том, что человек склонен избегать идущих подряд одинаковых цифр в «случайных числах», воспринимая такие числа как «недостаточно случайные». В то же время, если следовать предположению Бебера и Скакко, «настоящие случайные» числа должны заканчиваться на две одинаковые цифры в 10 % случаев, а в сфабрикованных человеком числах таких пар будет значительно меньше.

К сожалению, исследования на эту тему, как правило, ограничиваются всего несколькими случаями и зачастую проводятся на небольшом количестве данных (например, с нескольких тысяч избирательных участков). В рамках же данной работы мы рассмотрим результаты исследования 28 наборов данных (первый и второй туры президентских выборов учитываются раздельно) по общенациональным выборам в Восточной Европе, большинство из которых насчитывают больше 10 тыс. протоколов: это выборы депутатов сейма Польши (2005, 2007, 2011 и 2015 гг.), президента Польши (2000, 2005, 2010 и 2015 гг.), депутатов парламента Болгарии (2005, 2009, 2013 и 2014 гг.), президента и вице-президента Болгарии (2006 и 2011 гг.), президента Чехии (2013 г.). Последний случай введен для того, чтобы разрешить сомнения относительно результатов исследования выборов в Польше и Болгарии — выборы 2013 г в Чехии были первыми прямыми

выборами президента страны и могут считаться чистым результатом, свободным от влияния тенденций прошлых лет. Наконец, в работе рассматриваются выборы в парламент Эстонии (1992, 1995, 1999, 2003, 2007, 2011 и 2015 гг.) как пример небольшого государства, напоминающего случаи, изученные, например, Бебером и Скакко: в Польше насчитывается примерно 25 тыс. избирательных участков, в Чехии — 14 тыс., в Болгарии — 12 тыс., в Эстонии же их меньше 1000. При этом история парламентских выборов в Эстонии доступна нам во всей ее полноте с начала 1990-х гг, что позволяет установить, являются ли свойства электорального процесса постоянными или же подверженными изменению во времени.

Для сравнения используются три распределения цифр: 1) равновероятное; 2) по Бенфорду; 3) по Бенфорду с поправкой Стиглера для первого разряда. О последних двух необходимо сказать подробнее. Как было сказано выше, закон Бенфорда предполагает, что вероятность встретить ту или иную цифру в том или ином разряде числа разная. Если с началом числа неопределенности не возникает (это всегда первый разряд), то конец числа может приходиться на любой разряд. Очевидно, что последние цифры в совокупности чисел разной длины не будут следовать закону Бенфорда для какого-то конкретного разряда. Для этого случая Лукас Лееманн и Даниель Бохслер (Leemann, Bochsler, 2014) предложили определять, в какой пропорции в общей совокупности содержатся числа той или иной длины, и получать итоговую вероятность как сумму произведений вероятности по Бенфорду для того или иного разряда и доли чисел, для которых этот разряд является последним (второй — для чисел из двух разрядов, третий — для чисел из трех и т. д.). Впрочем, как уже было упомянуто выше, существуют сомнения в том, что числа в данных электоральной статистики следуют закону Бенфорда по первому разряду. В качестве альтернативы выступает вариант с поправкой Стиглера. Он построен аналогично предыдущему распределению, но для первого разряда используются вероятности, предсказанные законом Стиглера (Lee, Tam Cho, Judge, 2010) — менее известным законом, который тем не менее иногда более точно соответствует реально наблюдаемым числам, например в области финансовых рынков (Rodriguez, 2004). Вероятности по законам Бенфорда и Стиглера представлены в табл. 1.

Гистограммы распределений для всех случаев представлены на рис. 1. Как несложно заметить, рассматриваемые случаи делятся на две группы: 1) группу, где распределение очевидно не является равновероятным и меньшие цифры (1, 2, 3) встречаются значительно чаще остальных; 2) группу, где распределение очень близко к равновероятному. При этом в первую группу входят парламентские выборы и первые туры (P1) президентских выборов, а вторую составляют вторые туры (P2) президентских выборов. Кроме того, в первую группу вошли и выборы президента Польши в 2000 г., результат которых определился сразу в первом и единственном (P) туре. Разумеется, гистограммы являются лишь иллюстрацией, позволяющей составить мнение о ситуации в целом. Для конкретных выводов будет использован более точный инструмент.

В качестве инструмента сравнения близости предсказанных вероятностей к наблюдаемым мы используем G-тест отношения правдоподобия. Тест

Таблица 1. Распределение цифр по законам Бенфорда и Стиглера

Распределение цифр в 1-4 разрядах по закону Бенфорда

Разряд 0 1 2 3 4 5 6 7 8 9

1 — 0,3010 0,1761 0,1249 0,0969 0,0792 0,0669 0,0580 0,0512 0,0458

2 0,1197 0,1139 0,1088 0,1043 0,1003 0,0967 0,0934 0,0904 0,0876 0,0850

3 0,1018 0,1014 0,1010 0,1006 0,1002 0,0998 0,0994 0,0990 0,0986 0,0983

4 0,1002 0,1001 0,1001 0,1001 0,1000 0,1000 0,0999 0,0999 0,0999 0,0998

Распределение цифр в первом разряде по закону Стиглера

Разряд 0 1 2 3 4 5 6 7 8 9

1 — 0,2413 0,1832 0,1455 0,1174 0,0950 0,0764 0,0605 0,0465 0,0340

/-квадрат, более широко известный, но постепенно им вытесняемый, является аппроксимацией отношения правдоподобия, которым оперирует G-тест; таким образом, мы будем оперировать более точным инструментом. Разумеется, мы заранее можем быть уверены в том, что, скорее всего, ни один из предлагаемых для сравнения вариантов не совпадет с наблюдаемым распределением с высокой степенью точности, поэтому от рассмотрения нулевой гипотезы можно отказаться — заранее можно утверждать, что на таком объеме наблюдений вероятность нулевой гипотезы будет пренебрежимо мала. Вместо этого имеет смысл сравнивать значения G-статистики, чтобы выявить более точно соответствующее наблюдаемому распределение. Результаты сравнений приведены в табл. 2.

Из табл. 2 видно, что во всех вторых турах (Р2) президентских выборов наилучшее правдоподобие показано равновероятным распределением, в пяти случаях можно даже остаться в рамках нулевой гипотезы об отсутствии статистически значимых на пятипроцентном уровне различий между ожидаемым и наблюдаемым распределениями. Что же касается остальных случаев, то более близко отражающими реальность оказались распределения по Бенфорду и по Бенфорду с поправкой Стиглера. Поскольку одним из наиболее очевидных отличий вторых туров президентских выборов от первых туров, а равно и от парламентских выборов является количество участников и соотношение сил между ними, вышеописанные результаты были сопоставлены с показателями фрагментации — общим числом участников, эффективным числом партий по Лааксо и, в качестве альтернативы, эффективным числом партий по Голосову ^о!оэоу, 2010). Полученные результаты представлены в табл. 3.

Из трех рассмотренных вариантов наиболее перспективным оказалось, как ни странно, обычное число участников выборов. Впрочем, эффективное число партий по Лааксо и Голосову дают хорошо согласующиеся друг с другом результаты и также выделяют равномерное распределение в одну группу. Однако при этом случай первого тура Чехии становится исключением, где успех равновероятного распределения сопровождается высоким уровнем фрагментации.

Рис. 1. Распределение цифр в младших разрядах (наблюдаемое; равновероятное; по Бенфорду; по Бенфорду с поправкой Стиглера) для всех случаев ■ Наблюдаемое ■ Равномерное □ Бенфорд □ Бенфорд+Стиглер

При этом обычное число участников не только группирует Чехию с остальными аналогичными случаями (если не считать первый тур выборов президента Болгарии в 2006 г.), но и выделяет группу (18 участников и более), где наилучшие результаты показал закон Бенфорда. В середине списка (10-18 участников) законы Бенфорда и Бенфорда с поправкой Стиглера можно называть равными по силе соперниками.

Разумеется, у подобного рода наблюдений должно быть и практическое применение. Прежде всего, должен подвергнуться поправкам метод Бебера и Скакко, опирающийся на равную вероятность цифр в последнем разряде чисел. Из вышеизложенного следует, что цифры в младших разрядах чисел (как минимум, на парламентских выборах) отнюдь не равновероятны, и, следовательно, вероятность встретить пару из одинаковых цифр в двух младших разрядах числа не равна одной десятой. По аналогии с поправкой Лееманна и Бохслера можно вычислить вероятность встретить парную цифру в конце числа любой длины из имеющихся (как произведение вероятностей встретить эту цифру в последнем и предпоследнем разрядах) и домножить на долю чисел соответствующей длины в общем массиве данных. Результаты сравнения наблюдаемых пропорций парных и непарных чисел с предсказанными приведены в табл. 4 (указана вероятность нулевой гипотезы). Поскольку Бебер и Скакко использовали тест /-квадрат, то и в этом случае использовался он же. Очевидно, тест проводился только на числах из двух разрядов и более, тем самым были отброшены числа голосов меньше 10, которые при этом делали существенный вклад в частоты появления цифр, ведь для них первый и последний разряд совпадают, а соотношение

Таблица 2. Результаты сравнения распределений цифр с помощью й-теста (число степеней свободы = 9 во всех случаях)

Равновероятное По Бенфорду По Бенфорду/ Стиглеру

Случай Р(Нс) Р(Нс) Р(Нс) Лучшее

1 2 3 4 5 6 7 8

Болгария, 2005 67143,3756 0 6486,8275 0 13216,2987 0 Бенфорд

Болгария, 2009 29499,7206 0 1702,6529 0 4836,9339 0 Бенфорд

Болгария, 2013 99524,5326 0 7946,8926 0 17072,9371 0 Бенфорд

Болгария, 2014 90923,2949 0 9984,1207 0 19139,5949 0 Бенфорд

Болгария, Р1.2006 17302,4506 0 888,6533 0 1551,5336 0 Бенфорд

Болгария, Р1.2011 49286,6226 0 1836,4130 0 5129,8883 0 Бенфорд

Болгария, Р2.2006 25,3891 0 139,3948 0 118,3444 0 Равновероятное

Болгария, Р2.2011 15,6823 0,07 51,0256 0 44,9488 0 Равновероятное

Польша, 2005 42661,7036 0 290,1490 0 1399,9185 0 Бенфорд

Польша, 2007 2502,5705 0 4100,9800 0 2414,0156 0 Бенфорд/ Стиглер

Польша, 2011 8226,3286 0 1445,1625 0 465,7731 0 Бенфорд/ Стиглер

Польша, 2015 6736,7797 0 1635,2154 0 971,5211 0 Бенфорд/ Стиглер

Польша, Р. 2000 30217,0165 0 243,3475 0 957,9000 0 Бенфорд

Польша, Р1.2005 46320,5225 0 2435,7676 0 7049,4934 0 Бенфорд

Польша, Р1.2010 18327,9366 0 964,1143 0 612,3362 0 Бенфорд/ Стиглер

Польша, Р1.2015 23912,3083 0 1039,0941 0 206,6652 0 Бенфорд/ Стиглер

Польша, Р2.2005 8,0182 0,53 43,7082 0 41,2271 0 Равновероятное

Польша, Р2.2010 12,5349 0,18 41,0480 0 39,8009 0 Равновероятное

Польша, Р2.2015 4,6154 0,87 72,7400 0 68,9519 0 Равновероятное

Чехия, Р1.2013 1349,6206 0 3327,8600 0 2277,4104 0 Равновероятное

Чехия, Р2.2013 13,0093 0,16 60,7785 0 57,3888 0 Равновероятное

Эстония, 1992 191,3646 0 104,5922 0 60,9819 0 Бенфорд/ Стиглер

Окончание табл. 2

1 2 3 4 5 6 7 8

Эстония,1995 506,4336 0 77,1481 0 31,7398 0 Бенфорд/ Стиглер

Эстония,1999 275,3201 0 30,8558 0 19,2751 0,02 Бенфорд/ Стиглер

Эстония, 2003 276,1467 0 29,6658 0 18,0272 0,03 Бенфорд/ Стиглер

Эстония, 2007 325,5691 0 15,2396 0,08 40,9804 0 Бенфорд

Эстония, 2011 227,0926 0 50,5935 0 22,7782 0,01 Бенфорд/ Стиглер

Эстония, 2015 467,9976 0 11,7089 0,23 25,8713 0 Бенфорд

Таблица 3. Соотношение результатов и показателей фрагментации

Случай Эффективное число партий (Лааксо) Эффективное число партий (Голосов) Число партий (кандидатов) Лучшее распределение

Болгария, Р2.2006 1,5885 1,3254 2 Равновероятное

Болгария, Р2.2011 1,9940 1,8960 2 Равновероятное

Польша, Р2.2005 1,9870 1,8504 2 Равновероятное

Польша, Р2.2010 1,9952 1,9064 2 Равновероятное

Польша, Р2.2015 1,9755 1,7998 2 Равновероятное

Чехия, Р2.2013 1,9813 1,8227 2 Равновероятное

Болгария,Р1.2006 2,1552 1,6866 7 Бенфорд

Чехия, Р1.2013 5,6965 5,6266 9 Равновероятное

Польша, 2007 3,5267 3,2251 10 Бенфорд/Стиглер

Польша, Р1.2010 3,0863 2,8565 10 Бенфорд/Стиглер

Эстония, 2011 4,7526 4,6193 10 Бенфорд/Стиглер

Польша, 2011 3,7410 3,2145 11 Бенфорд/Стиглер

Польша, Р1.2015 3,5114 3,1690 11 Бенфорд/Стиглер

Эстония, 2003 5,5241 4,9368 11 Бенфорд/Стиглер

Эстония, 2007 4,9773 4,7820 11 Бенфорд

Эстония, 2015 4,7326 3,9476 11 Бенфорд

Польша, Р. 2000 2,8610 2,1763 12 Бенфорд

Польша, Р1.2005 3,6304 3,3381 12 Бенфорд

Эстония, 1999 6,6240 6,1157 12 Бенфорд/Стиглер

Эстония, 1995 5,6118 4,4819 16 Бенфорд/Стиглер

Польша, 2015 4,4498 3,6482 17 Бенфорд/Стиглер

Эстония, 1992 8,2198 7,4219 17 Бенфорд/Стиглер

Болгария, 2009 4,4008 3,4283 18 Бенфорд

Болгария, Р1.2011 3,7345 3,2177 18 Бенфорд

Болгария, 2005 5,7592 4,8775 22 Бенфорд

Польша, 2005 5,8599 5,5094 22 Бенфорд

Болгария, 2014 6,0075 4,8595 25 Бенфорд

Болгария, 2013 6,0693 5,9533 36 Бенфорд

Таблица 4. Соотношение результатов и показателей фрагментации

Случай Год Равновероятное Р(Нс), /2 Бенфорд Р(Нс), /2 Бенфорд/ Стиглер Р(Нс), /2 Лучшее

Польша 2015 0,0001 0,8351 0,6811 Бенфорд

Польша, Р1 2015 0,0000 0,0000 0,0000 —

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Польша, Р2 2015 0,1251 0,3363 0,2981 Бенфорд

Польша 2011 0,0000 0,0011 0,0002 —

Польша, Р1 2010 0,0000 0,0000 0,0000 —

Польша, Р2 2010 0,2810 0,5715 0,5263 Бенфорд

Польша 2007 0,0000 0,0000 0,0000 —

Польша 2005 0,0000 0,0000 0,0000 —

Польша, Р1 2005 0,0000 0,0000 0,0000 —

Польша, Р2 2005 0,3803 0,1385 0,1619 Равновероятное

Польша, Р 2000 0,0000 0,0000 0,0000 —

Болгария 2014 0,0000 0,0000 0,0000 —

Болгария 2013 0,0000 0,0000 0,0000 —

Болгария, Р1 2011 0,0000 0,0000 0,0000 —

Болгария, Р2 2011 0,0338 0,1379 0,1149 Бенфорд

Болгария 2009 0,0000 0,0000 0,0000 —

Болгария, Р1 2006 0,0001 0,0115 0,0058 —

Болгария, Р2 2006 0,3685 0,9949 0,8973 Бенфорд

Болгария 2005 0,0000 0,0001 0,0000 —

Эстония 2015 0,9859 0,6303 0,6812 Равновероятное

Эстония 2011 0,2722 0,5647 0,5124 Бенфорд

Эстония 2007 0,4794 0,8602 0,7974 Бенфорд

Эстония 2003 0,2902 0,1151 0,1344 Равновероятное

Эстония 1999 0,1147 0,3455 0,2985 Бенфорд

Эстония 1995 0,0236 0,1114 0,0903 Бенфорд

Эстония 1992 0,0604 0,2487 0,2062 Бенфорд

Чехия, Р1 2013 0,0000 0,0007 0,0001 —

Чехия, Р2 2013 0,0907 0,0120 0,0168 Равновероятное

вероятностей для первого разряда наиболее неравномерно. Это не могло не повлиять на результат.

Как следует из этих данных, в большинстве случаев, когда были получены статистически значимые результаты, закон Бенфорда показал лучшие результаты по сравнению с равновероятным распределением (10 случаев против 4). Как ни парадоксально это выглядит в свете предыдущего сравнения распределений, в двух случаях равновероятное распределение оказалось лучшим для парламентских выборов (Эстония, 2003 и 2015 гг.), а закон Бенфорда, в свою очередь, лучше показал себя во втором туре президентских выборов в Польше и Болгарии. А вот закон Бенфорда с поправкой Стиглера себя не проявил никак, показав промежуточные результаты — лучше равновероятного распределения,

но хуже Бенфорда. Подобная картина, скорее всего, и является следствием отбрасывания наиболее проблемных, одноразрядных чисел. Таким образом, закон Бенфорда неплохо аппроксимирует распределение цифр в разрядах, начиная со второго, но плохо отражает распределение в первом разряде. Когда вводится поправка Стиглера и рассматриваются все числа, то поправка оказывается конкурентоспособной, но с отбрасыванием самых малых чисел ее вклад сходит на нет, и Бенфорд снова становится лучшим вариантом из рассматриваемых.

Из изложенного можно сделать многообещающие выводы. Прежде всего, следует отбросить гипотезу о безусловной равновероятности цифр в младших разрядах чисел в данных электоральной статистики. Практика показывает, что истинное распределение имеет гораздо больше общего с законом Бенфорда при большом количестве участников (и в целом высоком уровне фрагментации) и стремится к равновероятному распределению лишь при снижении этих показателей до «демократического минимума» в ходе вторых туров президентских выборов, где происходит напряженная борьба между двумя кандидатурами. Кроме того, закон Бенфорда, очевидно, нуждается в корректировке, с тем чтобы ближе соответствовать реально наблюдающимся распределениям — особенно применительно к старшим разрядам, но сам по себе не так уж далек от истины. При этом закон Стиглера оказался плохим кандидатом на роль такого корректирующего фактора. Возможно, следует обратить внимание на ограниченный сверху закон Бенфорда (Restricted Newcomb — Benford Law, RNBL), предложенный Луисом Перикки и Дэвидом Торресом (Pericchi, Torres, 2011). Наконец, у психологического подхода Бебера и Скакко, безусловно, есть существенный потенциал, прежде всего потому, что их метод не предполагает необходимости уверенных ответов на сложные вопросы, касающиеся электорального поведения избирателей; однако до нахождения закона распределения цифр, точно описывающего реальные данные, его применимость по-прежнему является ограниченной. Ведь, как несложно заметить из табл. 4, в 14 случаях из 28 рассмотренных этот метод «забраковал» результаты выборов как явно сфабрикованные — в странах, где такое не представляется возможным ни в силу их репутации, ни в силу масштаба необходимых для этого фальсификаций.

Литература

Beber B., Scacco A. What the Numbers Say: A Digit-Based Test for Election Fraud // Political Analysis. 2012. Vol. 20. P. 211-234.

Deckert J., Myagkov M., Ordeshook P. C. The Irrelevance of Benford's Law for Detecting Fraud in Elections // Caltech/MIT Voting Technology Project Working Paper. N 9. 2010. URL: http://vote. caltech.edu/content/irrelevance-benfords-law-detecting-fraud-elections (accessed: 20.10.2014).

Golosov G. The Effective Number of Parties: A New Approach // Party Politics. 2010. Vol. 16. P. 171-192.

Lee J. Tam Cho W. K., Judge G. G. Stigler's approach to recovering the distribution of first significant digits in natural data sets // Statistics & Probability Letters. 2010. Vol. 80, issue 2. P. 82-88.

Leemann L., Bochsler D. A systematic approach to study electoral fraud // Electoral Studies. 2014. Vol. 35. P. 33-47.

Lijphart A. Unequal Participation: Democracy's Unresolved Dilemma // The American Political Science Review. Vol. 91, N 1 (March, 1997). P. 1-14.

Linder W. Swiss Democracy: Possible Solutions to Conflict in Multicultural Societies. 3rd ed. New York: Palgrave McMillan, 2010. 271 p.

Mebane W. R. Jr. Comment on "Benford's Law and the Detection of Election Fraud" // Political Analysis. 2011. Vol. 19. P. 269-272.

Pericchi L., Torres D. Quick Anomaly Detection by the Newcomb — Benford Law, with Applications to Electoral Processes Data from the USA, Puerto Rico and Venezuela // Statistical Science. 2011. Vol. 26, N 4. P. 502-516.

Rodriguez R.J. First Significant Digit Patterns From Mixtures of Uniform Distributions // The American Statistician. 2004. Vol. 58, N 1. P. 64-71.

Шалаев Никита Евгеньевич — аспирант; nikita.e.shalaev@gmail.com

Статья поступила в редакцию: 28 апреля 2015 г.;

рекомендована в печать: 3 сентября 2015 г.

Для цитирования: Шалаев Н. Е. К вопросу о распределении цифр в младших разрядах чисел в данных электоральной статистики // Политическая экспертиза: ПОЛИТЭКС. 2015. Т. 11, № 4. С. 208-219.

ON DIGIT DISTRIBUTION IN THE FINAL POSITIONS OF NUMBERS IN ELECTORAL STATISTICS DATA

Nikita E. Shalaev

Saint-Petersburg State University,

7-9, Universitetskaya nab., St. Petersburg, 199034, Russia; nikita.e.shalaev@gmail.com

There is no consensus in Electoral Forensics over the law which the distribution of digits in the electoral statistics data should follow. Some papers suggest the Newcomb-Benford law, and some reject it. Some papers support excluding small "inconvenient numbers", and some accept turning a blind eye to certain digit positions. This paper makes an attempt to determine which of the well-known laws reflects the observed distributions most closely, without omitting minor participants or using other simplifications. The analysis of 28 cases from Eastern Europe demonstrates that, even though the approximation isn't perfect, the Newcomb-Benford law appears to be the most promising candidate for the role of the actual distribution law, while the uniform distribution hypothesis is unsound. The quality of achieved approximation is positively related to the levels of electoral fragmentation. The experiment suggests that the Newcomb-Benford law should be adjusted in order to match the observed frequencies in the leading digits more closely.

Keywords: last digit distribution, parliamentary elections, presidential elections, Eastern Europe, statistics, Benford law, effective number of parties.

References

Beber B., Scacco A. What the Numbers Say: A Digit-Based Test for Election Fraud. Political Analysis, 2012, vol. 20, pp. 211-234.

Deckert J., Myagkov M., Ordeshook P. C. The Irrelevance of Benford's Law for Detecting Fraud in Elections. Caltech/MIT Voting Technology Project Working Paper. N 9. 2010. Available at: http://vote. caltech.edu/content/irrelevance-benfords-law-detecting-fraud-elections (accessed: 20.10.2014).

Golosov G. The Effective Number of Parties: A New Approach. Party Politics, 2010, vol. 16, pp. 171-192.

Lee J. Tam Cho W. K., Judge G. G. Stigler's approach to recovering the distribution of first significant digits in natural data sets. Statistics & Probability Letters, 2010, vol. 80, issue 2, pp. 82-88.

Leemann L., Bochsler D. A systematic approach to study electoral fraud. Electoral Studies, 2014, vol. 35, pp. 33-47.

Lijphart A. Unequal Participation: Democracy's Unresolved Dilemma. The American Political Science Review, 1997, vol. 91, no. 1, pp. 1-14.

Linder W. Swiss Democracy: Possible Solutions to Conflict in Multicultural Societies. 3rd ed. New York, Palgrave McMillan, 2010. 271 p.

Mebane W. R. Jr. Comment on "Benford's Law and the Detection of Election Fraud". Political Analysis, 2011, vol. 19, pp. 269-272.

Pericchi L., Torres D. Quick Anomaly Detection by the Newcomb — Benford Law, with Applications to Electoral Processes Data from the USA, Puerto Rico and Venezuela. Statistical Science, 2011, vol. 26, no 4, pp. 502-516.

Rodriguez R. J. First Significant Digit Patterns From Mixtures of Uniform Distributions. The American Statistician, 2004, vol. 58, N 1, pp. 64-71.

For citation: Shalaev N. E. On digit distribution in the final positions of numbers in electoral statistics data. Political expertise: POLITEX, 2015, vol. 11, no. 4, pp. 208-219.

i Надоели баннеры? Вы всегда можете отключить рекламу.