ВЕСТН. МОСК. УН-ТА. СЕР. 12. ПОЛИТИЧЕСКИЕ НАУКИ. 2013. № 2
ТЕОРИЯ И ПРАКТИКА ПАРТИЙНОГО СТРОИТЕЛЬСТВА
Е.Д. Корнилина, А.П. Петров
ЛАТЕНТНО-СЕМАНТИЧЕСКИЙ АНАЛИЗ ПРЕДВЫБОРНЫХ ПАРТИЙНЫХ ПРОГРАММ НА ВЫБОРАХ В ГОСУДАРСТВЕННУЮ ДУМУ 2007 и 2011 гг.1
В работе представлен новый подход к исследованию политических программ и блогов с помощью латентно-семантического анализа. В соответствии с лежащей в основе данной методики гипотезой, синтагматическая близость программ понимается как близость высказанных в этих программах политических позиций. C помощью предложенного подхода проанализированы предвыборные программы четырех партий (ЕР, КПРФ, ЛДПР, «Яблоко») на выборах 2007 и 2011 гг. в Государственную думу.
Ключевые слова: предвыборная программа партии, политическая позиция, близость текстов, латентно-семантический анализ, синтагматическая близость.
Введение
В настоящей работе представлена методика определения близости политических позиций, заявленных в таких текстах, как предвыборные программы партий, выступления политических деятелей, записи в блогах и проч.
Сравнения проведены для четырех партий: «Единая Россия» (ЕР), КПРФ, ЛДПР, «Яблоко». Три из них традиционно представлены в Государственной Думе, также в круг рассмотрения была включена программа партии «Яблоко», так как она имеет репутацию «наиболее непохожей» на другие партии. Эта ожидаемая «непохожесть» послужила причиной того, что значительное место в докладе занимает сравнение ЕР и «Яблока». Программы других (кроме четырех указанных) партий — участников выборов также могут быть включены в рассмотрение, методика не содержит ограничений на количество изучаемых партийных программ.
Основой данной методики является латентно-семантический анализ (ЛСА) — метод анализа текстов естественного языка, раз-
1 Работа выполнена при финансовой поддержке РФФИ (проекты 10-01-00332-а и 12-01-31461-мол-а) и РГНФ (проект 12-03-00431).
работанный группой американских ученых в 1988 г.2 Заметим, что ЛСА может быть реализован лишь программно, так как исследование даже сравнительно небольшого текста требует проведения довольно сложных и массивных вычислений, которые не могут быть проведены вручную. Основной сферой применения ЛСА являются задачи интеллектуального поиска. Среди других приложений отметим эпизодические исследования произведений художественной литературы3.
Работы, использующие ЛСА в целях политического анализа, нам неизвестны.
1. Описание методики
Традиционные методики анализа и сравнения политических программ основаны на применении контент-анализа. Наиболее известная из них представлена в проекте "Manifesto"4, ее основным элементом является специального вида рубрикатор. Анализируя тексты, выражающие предвыборные партийные манифесты (под которыми понимаются не только официальные предвыборные программы, но и прочие тексты, публикуемые партиями с целью привлечения избирателей), эксперты определяют позиции партий по различным пунктам рубрикатора и в результате агрегирования получают для каждой из партий определенное числовое значение на шкале Rile (сокр. от right-left), имеющей пределы -100 (крайне левая партия) и 100 (крайне правая партия). Расположение политических позиций на прямой в настоящее время укоренено в политической науке5.
Предлагаемая в настоящей работе методика является альтернативной прежде всего в том смысле, что она базируется не на контент-анализе, а на ЛСА. Кроме того, она предполагает попарное сравнение партийных программ, поэтому результат имеет вид расстояний между партийными позициями, а не их шкальных значений.
2 См., например: Landauer T., FoltzP. W., Laham D. Introduction to Latent Semantic Analysis // Discourse Processes. 1998. Vol. 25. P. 259-284.
3 Nakov P. Latent Semantic Analysis for German literature investigation // Computational Intelligence. Theory and Applications: International Conference "7th Fuzzy Days" (Dortmund, Germany, October 1-3): Proceedings / Ed. by B. Reusch. Dortmund, 2001. P. 834-641; Idem. Latent Semantic Analysis for Bulgarian Literature // Математика и ма-тематическо образование: Доклади на Тридесетата пролетна конференция на Съюза на математиците в България (Боровец, 8-11 април, 2001). Бровец, 2001. С. 279-284; Наков П. Изследване на руска литература с латентен семантичен анализ // Морски научен форум. Т. 4: Механоинженерство и математика. Информационни технологии. Варна, 2001. С. 292-299.
4 VolkensA., Lacewell O., Lehmann P. et al. The Manifesto Data Collection. Manifesto Project (MRG/CMP/MARPOR). Berlin, 2011.
5 Оно было введено в: Downes A. An economic Theory of Democracy. N.Y., 1957. Обзор современного состояния теории см., например: Ахременко А.С. Структуры электорального пространства. М., 2007.
ЛСА основан на «гипотезе о том, что между отдельными словами и обобщенным контекстом (предложениями, абзацами и целыми текстами), в которых они встречаются, существуют неявные (латентные) взаимосвязи, обусловливающие совокупность взаимных ограничений»6.
Наше предположение состоит в том, что данные взаимосвязи являются различными в текстах, выражающих разные политические позиции. Так, нетрудно представить себе, что фамилия политического деятеля употребляется, как правило, в положительном контексте его сторонниками, и в негативном — противниками. Это относится не только к фамилиям и названиям партий, но также к отдельным политическим событиям, проектам и т.д. Тем самым выражающие политические позиции тексты могут быть классифицированы путем выделения контекста, в который эти тексты погружают отдельные слова. Вероятно, возможности ЛСА еще шире: как свидетельствуют наши эксперименты, не обязательно сравнивать различные тексты, посвященные одному и тому же узкому, локализованному вопросу. Например, при сопоставлении партийных программ нет необходимости сравнивать отдельно экономические разделы программ, отдельно — армейский вопрос и т.д. Различия между партийными программами оказываются достаточно явными и при сравнении программ «в целом». Наш оптимизм основан на результатах7, свидетельствующих о том, что ЛСА способен улавливать довольно тонкие особенности текста — например, различия между произведениями Пушкина, Гоголя и Булгакова, между отдельными произведениями одного писателя и т.д.
Контекст, в понимании ЛСА — ближайшее окружение слова в тексте. Более конкретно: для проведения анализа исследуемый текст нарезается на фрагменты, и контекст образуется всеми словами, входящими в один фрагмент с данным. Далее, ЛСА устанавливает для каждых двух фрагментов меру их близости, которую мы называем синтагматической близостью8.
Фактически наша основная гипотеза заключается в том, что близость политических позиций связана с синтагматической близостью текстов (фрагментов, образующих тексты), выражающих эти позиции.
После предварительной обработки текст разбивается на отдельные фрагменты, и составляется матрица «фрагмент-слово», строки
6 Митрофанова О.А. Семантические расстояния: проблемы и перспективы // XXXIV Междунар. филол. конф. Вып. 21: Прикладная и математическая лингвистика. СПб., 2005.
7 Nakov P. Latent Semantic Analysis for German literature investigation; Idem. Latent Semantic Analysis for Bulgarian Literature; Наков П. Указ. соч.
8 Более подробно о синтагматическом подходе к измерению семантических расстояний в тексте и между текстами см.: Митрофанова О.А. Указ. соч.
которой соответствуют фрагментам, столбцы — словам, а элементом матрицы является число употреблений данного слова в данном фрагменте. Матрица подвергается специальной математической процедуре, основанной на так называемом сингулярном разложении (singular value decomposition — SVD), результатом является новая матрица, строки которой по-прежнему соответствуют фрагментам, а столбцы — словам исходного единого текста9.
Соотношение близости между фрагментами исходного текста понимается как соотношение близости между векторами — строками этой новой матрицы; при этом будем говорить о синтагматической близости фрагментов. В свою очередь в качестве синтагматического расстояния (меры близости между векторами) мы выбрали косинус угла между ними.
Изложенная методика была реализована нами в виде программного продукта.
2. Диаграммы сходства
Одним из способов представления результатов анализа являются диаграммы, подобные изображенной на рис. 1. Каждому фрагменту соответствуют одна строка и один столбец диаграммы. Ячейка, находящаяся на пересечении, например, строки 10 и столбца 25 (так же как ячейка строки 25 и столбца 10) описывает степень синтагматической близости 10 и 25-го фрагментов. При этом чем более синтагматически близкими являются два фрагмента, тем более темным цветом закрашена ячейка.
На рис. 1 фрагменты 1-15 принадлежат программе «Единой России», фрагменты 16-46 — программе «Яблока». Темный квадрат, составленный из строк и столбцов 1-15, свидетельствует о высокой синтагматической близости этих фрагментов и в соответствии с нашей гипотезой — о близости высказанных в этих фрагментах политических позиций. Диаграмма также показывает, что в программе «Яблока» выделяются две части, каждая из которых обладает более высокой внутренней связностью, чем программа в целом. Граница между ними приходится на фрагмент 30. Более подробное рассмотрение показало, что она соответствует границе разделов II «Альтернатива — социальное государство» и III — «Благосостояние для всех» программы «Яблока».
Подчеркнем, что граница между разделами II и III программы «Яблока» (как и граница между программами партий) определилась автоматически с помощью ЛСА, т.е. мы не делали никаких «под-
9 Подробнее о технической стороне вопроса см.: КорнилинаЕ.Д., Петров А.П. Исследование близости политических позиций методом латентно-семантического анализа // XII Междунар. науч. конф. по проблемам развития экономики и общества. Кн. 2. М., 2012. С. 334-342.
сказок» программному продукту относительно структуры единого текста. В то же время границу между разделами I и II программы «Яблока» на диаграмме увидеть не удается, так как раздел II слишком мал: он занимает лишь часть фрагмента 28, весь фрагмент 29 и часть фрагмента 30.
5 10 15 20 25 30 35 40 45
ЕР Яблоко I, II Яблоко III
Рис. 1. Диаграмма сходства для программ «Единой России» и «Яблока» на выборах 2007 г. Программа ЕР (фрагменты 1-15) четко отделена от программы «Яблока», в которой можно выделить две внутренне связные части, соответствующие разделам I, II (фрагменты 16-30) и разделу III (фрагменты 31-46)
Перед дальнейшим обсуждением напомним, что в 2011 г. на съезде «Единой России» было принято решение считать предвыборной программой тексты выступлений Д. Медведева и В. Путина.
Априори можно было бы предположить, что выступление Д. Медведева, имеющего репутацию либерала, окажется более близким программе «Яблока», чем выступление В. Путина. Однако латентно-семантический анализ (на рис. 2 показаны только строки, соответствующие программе «Яблока») показывает, что это не так: пересечение столбцов 1-11 (Д. Медведев) и строк 41-67 (программа «Яблока») имеет более светлый тон, чем пересечение столбцов и строк, отражающее сходство выступлений В. Путина и программы «Яблока».
Сопоставление программ КПРФ и ЕР 2011 г. показывает, в частности, что они слабо различимы, если рассматривать программу ЕР как целое. Если же отдельно рассмотреть корреляцию строк 1-26
Рис. 2. Диаграмма сходства предвыборных программ ЕР и «Яблока» 2011 г. (показаны только строки, соответствующие программе «Яблока»)
(КПРФ) со столбцами 27-37 (Медведев) и 38-64 (Путин), то можно отметить несходство программы КПРФ с выступлением Медведева, высокую степень близости с первой частью выступления Путина и расхождение с последней частью (рис. 3).
КПРФ | Медведев | Путин
Рис. 3. Диаграмма сходства предвыборных программ КПРФ и ЕР 2011 г. (показаны только строки, соответствующие программе КПРФ).
3. Числовая мера синтагматической близости программ
Выше, в разделах 1 и 2 обсуждались вопросы сходства отдельных фрагментов, составляющих тексты программ: вычисление синтагматического расстояния и визуализация.
В то же время политологически более содержательной является мера сходства партийных программ в целом, агрегирующая данные о сходстве отдельных фрагментов. В качестве такой меры мы выбрали отношение нормированных на отрезок [0;1] средних синтагматических расстояний между фрагментами, входящими в разные программы и в одну и ту же программу.
Обозначим синтагматическое расстояние между /-м и у'-м фрагментами через г у, тогда нормированное на отрезок [0;1] расстояние
равно (1 + Гу)/2. Если на диаграмме сходства фрагменты первой программы занимают строки от 1 до Ы1, а второй — от Ы1 + 1 до N + Ы2, то среднее нормированное расстояние между фрагментами, входящими в одну и ту же программу, равно10
Л лг1+ЛГ2ЛГ1+ЛГ2Л+гЛ
■+ X X ^
А =
Ъ N, (1
XX
1=1 j-\
+rij
N?+Ni
а в разные программы
в =
1
vv2 X
i=l j=Ni +1
1 + Гу
Их отношение, нормированное на шкалу от 0 до 100, является мерой синтагматической близости программ: Я = 100В/А. При этом значения Я от 0 до 50 являются скорее гипотетическими, так как соответствуют преобладанию отрицательных значений г у. Значения Я > 100 также являются гипотетически возможными, это означало бы, что фрагменты программы первой партии ближе к программе второй партии, чем к своей. Для реальных текстов следует ожидать значения Я от 50 для наиболее далеких программ до 100 для наиболее близких. Отметим, что попадание эмпирических значений Я в данный интервал может рассматриваться как аргумент в пользу валидности методики.
Вычисленные таким образом значения Я для предвыборных партийных программ четырех российских партий на выборах 2007 и 2011 гг. сведены в табл.1 и табл. 2.
Полученные результаты свидетельствуют о довольно высокой степени близости программ указанных партий. Визуальное сопоставление построенных нами диаграмм сходства с результатами исследования произведений художественной литературы11 также свидетельствует о том, что программы российских партий являются менее синтагматически разнообразными, чем художественные произведения. Вероятно, этого и следовало ожидать. Отметим также, что довольно высокие значения близости программ согласуются с результатами исследований проекта «Манифесто»12. При том, что ЯПе-шкала проекта «Манифесто» простирается от -100 до 100, российские партии расположены на ней весьма кучно (кампания
10 Вывод формул см.: Корнилина Е.Д., Петров А.П. Указ. соч.
11 Nakov P. Latent Semantic Analysis for German literature investigation; Idem. Latent Semantic Analysis for Bulgarian Literature; Наков П. Указ. соч.
12 Volkens A., Lacewell O., Lehmann P. et al. The Manifesto Data Collection. Manifesto Project (MRG/CMP/MARPOR). Berlin, 2011.
Таблица 1
Синтагматическая близость партийных программ 2007 г.
2007 ЕР КПРФ ЛДПР «Яблоко»
ЕР 0 99 92 87
КПРФ 0 95 91
ЛДПР 0 91
«Яблоко» 0
Таблица 2
Синтагматическая близость партийных программ 2011 г.
2011 ЕР КПРФ ЛДПР «Яблоко»
ЕР 0 87 91 89
КПРФ 0 96 85
ЛДПР 0 90
«Яблоко» 0
2007 г.): СР = -8,65; ЕР = -2,61; КПРФ = 3,16; ЛДПР = 16,59 (к сожалению, партия «Яблоко» не покрывается проектом «Манифесто»). Для сравнения укажем, что французские партии (2007 г.) имеют ЯПе-шкальные значения от -48 до 28,49; итальянские (2006 г.) — от -17,71 до 48,19.
Проанализируем с помощью метода иерархической кластеризации данные табл. 1 в отношении того, какие партийные программы наиболее близки и далеки друг от друга (рис. 4).
Рис. 4. Структура синтагматической близости программ 2007 и 2011 гг.
В предвыборную кампанию 2007 г. наиболее близкими были программы ЕР и КПРФ, а наиболее отдаленной от других — программа «Яблока». В кампанию 2011 г. произошла определенная перестройка: наиболее близкими были программы КПРФ и ЛДПР, а наиболее отдаленной от других — программа ЕР.
СПИСОК ЛИТЕРАТУРЫ
1. Ахременко А.С. Структуры электорального пространства. М., 2007 [Akhremenko A.S. Struktury ehlektoral'nogo prostranstva. M., 2007.]
2. Митрофанова О.А. Семантические расстояния: проблемы и перспективы // XXXIV Междунар. филол. конф. Вып. 21: Прикладная и математическая лингвистика. СПб., 2005 [Mitrofanova O.A. Semanticheskie rasstojanija: problemy i perspektivy // XXXIV Mezhdunar. filol. konf. Vyp. 21: Prikladnaja i matemat-icheskaja lingvistika. SPb., 2005.]
3. Корнилина Е.Д., Петров А.П. Исследование близости политических позиций методом латентно-семантического анализа // XII Междунар. науч. конф. по проблемам развития экономики и общества. Кн. 2. М., 2012 [Kornilina E.D., Petrov A.P. Issledovanie blizosti politicheskikh pozicijj metodom latentno-semanticheskogo analiza // XII Mezhdunar. nauch. konf. po problemam razvitija ehkonomiki i obshhestva. Kn. 2. M., 2012. S. 334-342.]
4. Наков П. Изследване на руска литература с латентен семантичен анализ // Морски научен форум. Т. 4. Механоинженерство и математика. Ин-формационни технологии. Варна, 2001. [Nakov P. Izsledvane na ruska literatura s latenten semantichen analiz // Morski nauchen forum. T. 4. Mekhanoinzhenerstvo i matematika. Informacionni tekhnologii. Varna, 2001. S. 292-299.]
5. Downes A. An economic Theory of Democracy. N.Y., 1957.
6. Landauer T., FoltzP. W., Laham D. Introduction to Latent Semantic Analysis // Discourse Processes. 1998. Vol. 25.
7. Nakov P. Latent Semantic Analysis for German literature investigation // Computational Intelligence. Theory and Applications: International Conference "7th Fuzzy Days" (Dortmund, Germany, 1-3 October): Proceedings / Ed. by B. Reusch. Dortmund, 2001. (Lecture Notes in Computer Science, vol. 2206). P. 834-641.
8. Volkens A., Lacewell O., Lehmann P. et al. The Manifesto Data Collection. Manifesto Project (MRG/CMP/MARPOR). Berlin, 2011.