Научная статья на тему 'Латентно-семантический анализ предвыборных партийных программ на выборах в государственную Думу 2007 и 2011 годов'

Латентно-семантический анализ предвыборных партийных программ на выборах в государственную Думу 2007 и 2011 годов Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
101
22
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПРЕДВЫБОРНАЯ ПРОГРАММА ПАРТИИ / ПОЛИТИЧЕСКАЯ ПОЗИ ЦИЯ / БЛИЗОСТЬ ТЕКСТОВ / ЛАТЕНТНО-СЕМАНТИЧЕСКИЙ АНАЛИЗ / СИНТАГМАТИЧЕСКАЯ БЛИЗОСТЬ / PRE-ELECTION PROGRAM / POLITICAL POSITION / TEXT SIMILARITY / LSA / SYNTAGMATIC SIMILARITY

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Корнилина Елена Дмитриевна, Петров Александр Петрович

В работе представлен новый подход к исследованию политических про грамм и блогов с помощью латентно-семантического анализа. В соответ ствии с лежащей в основе данной методики гипотезой, синтагматическая близость программ понимается как близость высказанных в этих программах политических позиций. C помощью предложенного подхода проанализированы предвыборные программы четырех партий (ЕР, КПРФ, ЛДПР, «Яблоко») на выборах 2007 и 2011 гг. в Государственную думу.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Корнилина Елена Дмитриевна, Петров Александр Петрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Latent Semantic Analysis of the pre-election programs in 2007 and 2011 State Duma election campaigns

The paper presents a new approach to political programs and blogs research using LSA. According to the underlying hypothesis of the presented method, syntag matic similarity of political programs is treated as similarity of statements made in those programs. The proposed approach was employed to analyze the pre-election programs of four parties (Edinaja Rossija, KPRF, LDPR, Jabloko ) in State Duma election campaigns (2007 and 2011).

Текст научной работы на тему «Латентно-семантический анализ предвыборных партийных программ на выборах в государственную Думу 2007 и 2011 годов»

ВЕСТН. МОСК. УН-ТА. СЕР. 12. ПОЛИТИЧЕСКИЕ НАУКИ. 2013. № 2

ТЕОРИЯ И ПРАКТИКА ПАРТИЙНОГО СТРОИТЕЛЬСТВА

Е.Д. Корнилина, А.П. Петров

ЛАТЕНТНО-СЕМАНТИЧЕСКИЙ АНАЛИЗ ПРЕДВЫБОРНЫХ ПАРТИЙНЫХ ПРОГРАММ НА ВЫБОРАХ В ГОСУДАРСТВЕННУЮ ДУМУ 2007 и 2011 гг.1

В работе представлен новый подход к исследованию политических программ и блогов с помощью латентно-семантического анализа. В соответствии с лежащей в основе данной методики гипотезой, синтагматическая близость программ понимается как близость высказанных в этих программах политических позиций. C помощью предложенного подхода проанализированы предвыборные программы четырех партий (ЕР, КПРФ, ЛДПР, «Яблоко») на выборах 2007 и 2011 гг. в Государственную думу.

Ключевые слова: предвыборная программа партии, политическая позиция, близость текстов, латентно-семантический анализ, синтагматическая близость.

Введение

В настоящей работе представлена методика определения близости политических позиций, заявленных в таких текстах, как предвыборные программы партий, выступления политических деятелей, записи в блогах и проч.

Сравнения проведены для четырех партий: «Единая Россия» (ЕР), КПРФ, ЛДПР, «Яблоко». Три из них традиционно представлены в Государственной Думе, также в круг рассмотрения была включена программа партии «Яблоко», так как она имеет репутацию «наиболее непохожей» на другие партии. Эта ожидаемая «непохожесть» послужила причиной того, что значительное место в докладе занимает сравнение ЕР и «Яблока». Программы других (кроме четырех указанных) партий — участников выборов также могут быть включены в рассмотрение, методика не содержит ограничений на количество изучаемых партийных программ.

Основой данной методики является латентно-семантический анализ (ЛСА) — метод анализа текстов естественного языка, раз-

1 Работа выполнена при финансовой поддержке РФФИ (проекты 10-01-00332-а и 12-01-31461-мол-а) и РГНФ (проект 12-03-00431).

работанный группой американских ученых в 1988 г.2 Заметим, что ЛСА может быть реализован лишь программно, так как исследование даже сравнительно небольшого текста требует проведения довольно сложных и массивных вычислений, которые не могут быть проведены вручную. Основной сферой применения ЛСА являются задачи интеллектуального поиска. Среди других приложений отметим эпизодические исследования произведений художественной литературы3.

Работы, использующие ЛСА в целях политического анализа, нам неизвестны.

1. Описание методики

Традиционные методики анализа и сравнения политических программ основаны на применении контент-анализа. Наиболее известная из них представлена в проекте "Manifesto"4, ее основным элементом является специального вида рубрикатор. Анализируя тексты, выражающие предвыборные партийные манифесты (под которыми понимаются не только официальные предвыборные программы, но и прочие тексты, публикуемые партиями с целью привлечения избирателей), эксперты определяют позиции партий по различным пунктам рубрикатора и в результате агрегирования получают для каждой из партий определенное числовое значение на шкале Rile (сокр. от right-left), имеющей пределы -100 (крайне левая партия) и 100 (крайне правая партия). Расположение политических позиций на прямой в настоящее время укоренено в политической науке5.

Предлагаемая в настоящей работе методика является альтернативной прежде всего в том смысле, что она базируется не на контент-анализе, а на ЛСА. Кроме того, она предполагает попарное сравнение партийных программ, поэтому результат имеет вид расстояний между партийными позициями, а не их шкальных значений.

2 См., например: Landauer T., FoltzP. W., Laham D. Introduction to Latent Semantic Analysis // Discourse Processes. 1998. Vol. 25. P. 259-284.

3 Nakov P. Latent Semantic Analysis for German literature investigation // Computational Intelligence. Theory and Applications: International Conference "7th Fuzzy Days" (Dortmund, Germany, October 1-3): Proceedings / Ed. by B. Reusch. Dortmund, 2001. P. 834-641; Idem. Latent Semantic Analysis for Bulgarian Literature // Математика и ма-тематическо образование: Доклади на Тридесетата пролетна конференция на Съюза на математиците в България (Боровец, 8-11 април, 2001). Бровец, 2001. С. 279-284; Наков П. Изследване на руска литература с латентен семантичен анализ // Морски научен форум. Т. 4: Механоинженерство и математика. Информационни технологии. Варна, 2001. С. 292-299.

4 VolkensA., Lacewell O., Lehmann P. et al. The Manifesto Data Collection. Manifesto Project (MRG/CMP/MARPOR). Berlin, 2011.

5 Оно было введено в: Downes A. An economic Theory of Democracy. N.Y., 1957. Обзор современного состояния теории см., например: Ахременко А.С. Структуры электорального пространства. М., 2007.

ЛСА основан на «гипотезе о том, что между отдельными словами и обобщенным контекстом (предложениями, абзацами и целыми текстами), в которых они встречаются, существуют неявные (латентные) взаимосвязи, обусловливающие совокупность взаимных ограничений»6.

Наше предположение состоит в том, что данные взаимосвязи являются различными в текстах, выражающих разные политические позиции. Так, нетрудно представить себе, что фамилия политического деятеля употребляется, как правило, в положительном контексте его сторонниками, и в негативном — противниками. Это относится не только к фамилиям и названиям партий, но также к отдельным политическим событиям, проектам и т.д. Тем самым выражающие политические позиции тексты могут быть классифицированы путем выделения контекста, в который эти тексты погружают отдельные слова. Вероятно, возможности ЛСА еще шире: как свидетельствуют наши эксперименты, не обязательно сравнивать различные тексты, посвященные одному и тому же узкому, локализованному вопросу. Например, при сопоставлении партийных программ нет необходимости сравнивать отдельно экономические разделы программ, отдельно — армейский вопрос и т.д. Различия между партийными программами оказываются достаточно явными и при сравнении программ «в целом». Наш оптимизм основан на результатах7, свидетельствующих о том, что ЛСА способен улавливать довольно тонкие особенности текста — например, различия между произведениями Пушкина, Гоголя и Булгакова, между отдельными произведениями одного писателя и т.д.

Контекст, в понимании ЛСА — ближайшее окружение слова в тексте. Более конкретно: для проведения анализа исследуемый текст нарезается на фрагменты, и контекст образуется всеми словами, входящими в один фрагмент с данным. Далее, ЛСА устанавливает для каждых двух фрагментов меру их близости, которую мы называем синтагматической близостью8.

Фактически наша основная гипотеза заключается в том, что близость политических позиций связана с синтагматической близостью текстов (фрагментов, образующих тексты), выражающих эти позиции.

После предварительной обработки текст разбивается на отдельные фрагменты, и составляется матрица «фрагмент-слово», строки

6 Митрофанова О.А. Семантические расстояния: проблемы и перспективы // XXXIV Междунар. филол. конф. Вып. 21: Прикладная и математическая лингвистика. СПб., 2005.

7 Nakov P. Latent Semantic Analysis for German literature investigation; Idem. Latent Semantic Analysis for Bulgarian Literature; Наков П. Указ. соч.

8 Более подробно о синтагматическом подходе к измерению семантических расстояний в тексте и между текстами см.: Митрофанова О.А. Указ. соч.

которой соответствуют фрагментам, столбцы — словам, а элементом матрицы является число употреблений данного слова в данном фрагменте. Матрица подвергается специальной математической процедуре, основанной на так называемом сингулярном разложении (singular value decomposition — SVD), результатом является новая матрица, строки которой по-прежнему соответствуют фрагментам, а столбцы — словам исходного единого текста9.

Соотношение близости между фрагментами исходного текста понимается как соотношение близости между векторами — строками этой новой матрицы; при этом будем говорить о синтагматической близости фрагментов. В свою очередь в качестве синтагматического расстояния (меры близости между векторами) мы выбрали косинус угла между ними.

Изложенная методика была реализована нами в виде программного продукта.

2. Диаграммы сходства

Одним из способов представления результатов анализа являются диаграммы, подобные изображенной на рис. 1. Каждому фрагменту соответствуют одна строка и один столбец диаграммы. Ячейка, находящаяся на пересечении, например, строки 10 и столбца 25 (так же как ячейка строки 25 и столбца 10) описывает степень синтагматической близости 10 и 25-го фрагментов. При этом чем более синтагматически близкими являются два фрагмента, тем более темным цветом закрашена ячейка.

На рис. 1 фрагменты 1-15 принадлежат программе «Единой России», фрагменты 16-46 — программе «Яблока». Темный квадрат, составленный из строк и столбцов 1-15, свидетельствует о высокой синтагматической близости этих фрагментов и в соответствии с нашей гипотезой — о близости высказанных в этих фрагментах политических позиций. Диаграмма также показывает, что в программе «Яблока» выделяются две части, каждая из которых обладает более высокой внутренней связностью, чем программа в целом. Граница между ними приходится на фрагмент 30. Более подробное рассмотрение показало, что она соответствует границе разделов II «Альтернатива — социальное государство» и III — «Благосостояние для всех» программы «Яблока».

Подчеркнем, что граница между разделами II и III программы «Яблока» (как и граница между программами партий) определилась автоматически с помощью ЛСА, т.е. мы не делали никаких «под-

9 Подробнее о технической стороне вопроса см.: КорнилинаЕ.Д., Петров А.П. Исследование близости политических позиций методом латентно-семантического анализа // XII Междунар. науч. конф. по проблемам развития экономики и общества. Кн. 2. М., 2012. С. 334-342.

сказок» программному продукту относительно структуры единого текста. В то же время границу между разделами I и II программы «Яблока» на диаграмме увидеть не удается, так как раздел II слишком мал: он занимает лишь часть фрагмента 28, весь фрагмент 29 и часть фрагмента 30.

5 10 15 20 25 30 35 40 45

ЕР Яблоко I, II Яблоко III

Рис. 1. Диаграмма сходства для программ «Единой России» и «Яблока» на выборах 2007 г. Программа ЕР (фрагменты 1-15) четко отделена от программы «Яблока», в которой можно выделить две внутренне связные части, соответствующие разделам I, II (фрагменты 16-30) и разделу III (фрагменты 31-46)

Перед дальнейшим обсуждением напомним, что в 2011 г. на съезде «Единой России» было принято решение считать предвыборной программой тексты выступлений Д. Медведева и В. Путина.

Априори можно было бы предположить, что выступление Д. Медведева, имеющего репутацию либерала, окажется более близким программе «Яблока», чем выступление В. Путина. Однако латентно-семантический анализ (на рис. 2 показаны только строки, соответствующие программе «Яблока») показывает, что это не так: пересечение столбцов 1-11 (Д. Медведев) и строк 41-67 (программа «Яблока») имеет более светлый тон, чем пересечение столбцов и строк, отражающее сходство выступлений В. Путина и программы «Яблока».

Сопоставление программ КПРФ и ЕР 2011 г. показывает, в частности, что они слабо различимы, если рассматривать программу ЕР как целое. Если же отдельно рассмотреть корреляцию строк 1-26

Рис. 2. Диаграмма сходства предвыборных программ ЕР и «Яблока» 2011 г. (показаны только строки, соответствующие программе «Яблока»)

(КПРФ) со столбцами 27-37 (Медведев) и 38-64 (Путин), то можно отметить несходство программы КПРФ с выступлением Медведева, высокую степень близости с первой частью выступления Путина и расхождение с последней частью (рис. 3).

КПРФ | Медведев | Путин

Рис. 3. Диаграмма сходства предвыборных программ КПРФ и ЕР 2011 г. (показаны только строки, соответствующие программе КПРФ).

3. Числовая мера синтагматической близости программ

Выше, в разделах 1 и 2 обсуждались вопросы сходства отдельных фрагментов, составляющих тексты программ: вычисление синтагматического расстояния и визуализация.

В то же время политологически более содержательной является мера сходства партийных программ в целом, агрегирующая данные о сходстве отдельных фрагментов. В качестве такой меры мы выбрали отношение нормированных на отрезок [0;1] средних синтагматических расстояний между фрагментами, входящими в разные программы и в одну и ту же программу.

Обозначим синтагматическое расстояние между /-м и у'-м фрагментами через г у, тогда нормированное на отрезок [0;1] расстояние

равно (1 + Гу)/2. Если на диаграмме сходства фрагменты первой программы занимают строки от 1 до Ы1, а второй — от Ы1 + 1 до N + Ы2, то среднее нормированное расстояние между фрагментами, входящими в одну и ту же программу, равно10

Л лг1+ЛГ2ЛГ1+ЛГ2Л+гЛ

■+ X X ^

А =

Ъ N, (1

XX

1=1 j-\

+rij

N?+Ni

а в разные программы

в =

1

vv2 X

i=l j=Ni +1

1 + Гу

Их отношение, нормированное на шкалу от 0 до 100, является мерой синтагматической близости программ: Я = 100В/А. При этом значения Я от 0 до 50 являются скорее гипотетическими, так как соответствуют преобладанию отрицательных значений г у. Значения Я > 100 также являются гипотетически возможными, это означало бы, что фрагменты программы первой партии ближе к программе второй партии, чем к своей. Для реальных текстов следует ожидать значения Я от 50 для наиболее далеких программ до 100 для наиболее близких. Отметим, что попадание эмпирических значений Я в данный интервал может рассматриваться как аргумент в пользу валидности методики.

Вычисленные таким образом значения Я для предвыборных партийных программ четырех российских партий на выборах 2007 и 2011 гг. сведены в табл.1 и табл. 2.

Полученные результаты свидетельствуют о довольно высокой степени близости программ указанных партий. Визуальное сопоставление построенных нами диаграмм сходства с результатами исследования произведений художественной литературы11 также свидетельствует о том, что программы российских партий являются менее синтагматически разнообразными, чем художественные произведения. Вероятно, этого и следовало ожидать. Отметим также, что довольно высокие значения близости программ согласуются с результатами исследований проекта «Манифесто»12. При том, что ЯПе-шкала проекта «Манифесто» простирается от -100 до 100, российские партии расположены на ней весьма кучно (кампания

10 Вывод формул см.: Корнилина Е.Д., Петров А.П. Указ. соч.

11 Nakov P. Latent Semantic Analysis for German literature investigation; Idem. Latent Semantic Analysis for Bulgarian Literature; Наков П. Указ. соч.

12 Volkens A., Lacewell O., Lehmann P. et al. The Manifesto Data Collection. Manifesto Project (MRG/CMP/MARPOR). Berlin, 2011.

Таблица 1

Синтагматическая близость партийных программ 2007 г.

2007 ЕР КПРФ ЛДПР «Яблоко»

ЕР 0 99 92 87

КПРФ 0 95 91

ЛДПР 0 91

«Яблоко» 0

Таблица 2

Синтагматическая близость партийных программ 2011 г.

2011 ЕР КПРФ ЛДПР «Яблоко»

ЕР 0 87 91 89

КПРФ 0 96 85

ЛДПР 0 90

«Яблоко» 0

2007 г.): СР = -8,65; ЕР = -2,61; КПРФ = 3,16; ЛДПР = 16,59 (к сожалению, партия «Яблоко» не покрывается проектом «Манифесто»). Для сравнения укажем, что французские партии (2007 г.) имеют ЯПе-шкальные значения от -48 до 28,49; итальянские (2006 г.) — от -17,71 до 48,19.

Проанализируем с помощью метода иерархической кластеризации данные табл. 1 в отношении того, какие партийные программы наиболее близки и далеки друг от друга (рис. 4).

Рис. 4. Структура синтагматической близости программ 2007 и 2011 гг.

В предвыборную кампанию 2007 г. наиболее близкими были программы ЕР и КПРФ, а наиболее отдаленной от других — программа «Яблока». В кампанию 2011 г. произошла определенная перестройка: наиболее близкими были программы КПРФ и ЛДПР, а наиболее отдаленной от других — программа ЕР.

СПИСОК ЛИТЕРАТУРЫ

1. Ахременко А.С. Структуры электорального пространства. М., 2007 [Akhremenko A.S. Struktury ehlektoral'nogo prostranstva. M., 2007.]

2. Митрофанова О.А. Семантические расстояния: проблемы и перспективы // XXXIV Междунар. филол. конф. Вып. 21: Прикладная и математическая лингвистика. СПб., 2005 [Mitrofanova O.A. Semanticheskie rasstojanija: problemy i perspektivy // XXXIV Mezhdunar. filol. konf. Vyp. 21: Prikladnaja i matemat-icheskaja lingvistika. SPb., 2005.]

3. Корнилина Е.Д., Петров А.П. Исследование близости политических позиций методом латентно-семантического анализа // XII Междунар. науч. конф. по проблемам развития экономики и общества. Кн. 2. М., 2012 [Kornilina E.D., Petrov A.P. Issledovanie blizosti politicheskikh pozicijj metodom latentno-semanticheskogo analiza // XII Mezhdunar. nauch. konf. po problemam razvitija ehkonomiki i obshhestva. Kn. 2. M., 2012. S. 334-342.]

4. Наков П. Изследване на руска литература с латентен семантичен анализ // Морски научен форум. Т. 4. Механоинженерство и математика. Ин-формационни технологии. Варна, 2001. [Nakov P. Izsledvane na ruska literatura s latenten semantichen analiz // Morski nauchen forum. T. 4. Mekhanoinzhenerstvo i matematika. Informacionni tekhnologii. Varna, 2001. S. 292-299.]

5. Downes A. An economic Theory of Democracy. N.Y., 1957.

6. Landauer T., FoltzP. W., Laham D. Introduction to Latent Semantic Analysis // Discourse Processes. 1998. Vol. 25.

7. Nakov P. Latent Semantic Analysis for German literature investigation // Computational Intelligence. Theory and Applications: International Conference "7th Fuzzy Days" (Dortmund, Germany, 1-3 October): Proceedings / Ed. by B. Reusch. Dortmund, 2001. (Lecture Notes in Computer Science, vol. 2206). P. 834-641.

8. Volkens A., Lacewell O., Lehmann P. et al. The Manifesto Data Collection. Manifesto Project (MRG/CMP/MARPOR). Berlin, 2011.

i Надоели баннеры? Вы всегда можете отключить рекламу.