Научная статья на тему 'Исследование возможности применения метода позитивного анализа текста (На материале твитов)'

Исследование возможности применения метода позитивного анализа текста (На материале твитов) Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
156
16
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
твитер / текст / комментарий / tweeter / text / comment

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Хитина М. В.

Исследуются тексты социальной сети «Twitter». Результаты исследования показали, что метод позиционного анализа не очень подходит для анализа короткого текста, особенно если его разделять на предложения.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Research of texts positive analysis method implementation on tweets

The paper explores text represented on the social-network site Twitter. The results of the research argue that the method of positive analysis poorly corresponds with the aims of evaluating short text, especially if it is divided into utterances.

Текст научной работы на тему «Исследование возможности применения метода позитивного анализа текста (На материале твитов)»

УДК: 81'42

Хитина М.В.

Исследование возможности применения метода позитивного анализа текста (На материале твитов)

Московский государственный лингвистический университет, Россия, Москва, [email protected]

Аннотация. Исследуются тексты социальной сети «Twitter». Результаты исследования показали, что метод позиционного анализа не очень подходит для анализа короткого текста, особенно если его разделять на предложения.

Ключевые слова: твитер; текст; комментарий.

Khitina M.V.

Research of texts positive analysis method implementation on tweets

Moscow State Linguistic University, Russia, Moscow, [email protected]

Abstract. The paper explores text represented on the social-network site Twitter. The results of the research argue that the method of positive analysis poorly corresponds with the aims of evaluating short text, especially if it is divided into utterances.

Keywords: tweeter; text; comment.

Данная работа посвящена исследованию одной из самых популярных социальных сетей Twitter. Анализировались сообщения публичных лиц, лично ведущих свои аккаунты в сети. Эксперимент предполагал изучение возможности применения метода позиционного анализа текста для исследования твитов (анализ «золотого сечения»). Особенностью твитов является ограничение по объему (140 символов для одного сообщения), а также компрессия на всех языковых уровнях, активное применение хэштегов.

Введение

Пропорция золотого сечения - это такое отношение трех отрезков, при котором меньший отрезок так относится к большему, как больший ко всему. Позиции текста (указатели-константы), в которых наблюдалось увеличение элементов симметрии, получили название «сильных», а те, в которых наблюдалось увеличение элементов асимметрии - «слабых» позиций [Белоусов, Блазнова, 2005]. Координаты данных позиций коррелируют с серией пропорций «золотого сечения».

Результатом самоорганизации текста как системы, по мнению ряда авторов, являются аттракторы. Точечные аттракторы представляют собой точечные области, находящиеся: в определенных координатах

текста: 0,236 и 0,618 от целого. Это гармонический центр зоны начала (ГЦн) и гармонический центр всего текста (ГЦ). Циклические аттракторы являются механизмом, устанавливающим дистантную связь различных единиц текста, при этом гармонизация элементов, связанных друг с другом, происходит в пространстве целого. Под креативным аттрактором (КА) понимается интервал с самой большой плотностью циклических связей, который несет в себе важный смысл текста и создает различные возможности для его интерпретации [Москальчук, 1998].

Кроме позиций ГЦ и ГЦн выделен ряд других позиций текста: позиция зачина (пропорция 0,146), абсолютно слабая позиция первая (далее - АСП1) и абсолютно слабая позиция вторая (далее - АСП2) (откладываются в пропорции от ГЦ на 0,236 вправо и влево). И, наконец, абсолютное начало (Абс.н.) и абсолютный конец текста (Абс.к.) [Корбут, 1994]. Область гармонического центра, а также области абсолютного начала и абсолютного конца образуют содержательный стержень текста-инварианта. В сильных позициях с большей вероятностью представлена наиболее значимая информация.

Исследование

В данной работе представлен анализ текстов малого объема (более 100 твитов публичных лиц - оппозиционеров и журналистов - на разные темы). Все вычисления проводились при помощи специально подготовленной программы. Код был написан на Python 3.5+ (версии). «Абс.н., Абс.к., ГЦн, ГЦ - называются позициями и в пространстве текста имеют протяженность равную словоформе. Например, Абс.н -занимает место первой словоформы текста. Зачин, АСП1, АСП2 являются срезами и в текстовом пространстве приходятся на «разъеме» между словоформами. АСП1, АСП2 являются границами позиционных зон текста: зоны начала (Абс.н. - АСП1), зоны гармонического центра (АСП1 - АСП2) и зоны конца (АСП2 - Абс.к.)». Рассмотрим пример:

Оппозиция попросила у власти разрешения на протест. Власть поломалась немного и согласилась. Торжество суверенной демократии!

В твите 12 словоформ: Абсолютное начало - 1; Зачин - 3; Гармонический центр зоны начала - 4; Гармонический центр - 5; АСП1 - 8; АСП2 - 10; Абсолютный конец - 12. По этой программе были проанализированы отобранные твиты.

Сравним результаты применения метода позиционного анализа с субъективными данными испытуемых. Сначала проанализируем каждое предложение, затем твит целиком. Анализ твитов по предложениям дает почти полное совпадение результатов испытуемых и данных применения метода позиционного анализа. Возможно, причиной является маленькое количество словоформ в твите. Так, в предложении

из 4 словоформ все позиции текста соответствуют всем словам. Если же рассматривать твит целиком, то каждый испытуемый выбирает наиболее важную для него словоформу.

Анализ твитов показал, что метод позиционного анализа не очень подходит для анализа короткого текста, особенно если его разделять на предложения. Возможно, причина следующая - важными становятся все слова, а на некоторых маркируются несколькими позициями одновременно. Так, словоформа Торжество в предложении одновременно представляет: 1) абсолютное начало 2) гармонический центр зоны начала и 3) зачин.

Таким образом, в предложении каждое слово является ГЦ, или АСП, или зачином, что позволяет говорить, что в твитах не может быть незначимых слов.

Твиты представляют собой своего рода «выжимку» из более крупного текста. Искусственное ограничение количества символов требует от автора изложения самой важной, по его мнению, информации. Однако если анализировать твит целиком, считая его единым сообщением, которым оно (по философии сервиса) и является, то ситуация меняется. В данном случае нет фиксации позиций на одном слове, но возникает другая проблема. Предположим, что выписав только позиционно маркированные слова, мы получаем сообщение, содержащее самые важные словоформы. Пример:

Оппозиция (у) власти разрешения (на)протест. Немного. Торжество Демократии!

Субъективно хочется передвинуть зачин влево, на «попросила», а также выделить словосочетание «власть поломалась». В последнем предложении позиционно выделены основные смысловые единицы. К сожалению, этот случай не единственный (возможно, это закономерность). Причина, отчасти, в том, что имеет место инверсия, а слова расставляются случайным образом.

В сети также существует практика разбиения одного сообщения на несколько. В конце, как правило, указывается, какой частью единого сообщения данный твит является и из скольких частей он состоит. Для проведения анализа надо четко определить, что является сообщением (это череда твитов с единым смыслом и тематикой или каждый твит существует отдельно). В качестве примера рассмотрим «составной» твит, соединив два разных твита в один:

Если так даже Генпрокуратура считает, как считать нам.

Особенно умилительно звучат слова "... могут красть еще 125 млрд."

Сотни тысяч пенсий, сотни тысяч родительских пособий, сотни тысяч зарплат.

Как и в предыдущем случае, здесь присутствует наложение абсолютного начала и зачина на слово «Если» и ГЦ зоны начала и АСП1 на слово «генпрокуратура», зачина и ГЦ зоны начала на «умилительно» и «тысяч». Для данного сообщения позиционный анализ представляется приемлемым, но только при разделении твита на предложения, а с «составным» твитом метод не работает (пропускаются важные словоформы).

Выводы

Следует отметить, что метод позиционного анализа показал неоднозначные результаты. С одной стороны, исследуя твиты по предложениям, мы получаем следующее: каждая словоформа маркируется одновременно несколькими позициями текста, не задействованные участки отсутствуют. То есть можно говорить о том, что твиты - это своего рода реферат. Исходными могут быть события, статьи и т.д., комментируемые пользователем. Основанием, позволяющим так полагать, является то, что в результате применения метода отсутствуют неинформативные участки. Применение метода позиционного анализа для целого твита (при игнорировании разделительных знаков) также дает неоднозначную картину. В одних случаях можно видеть успешный результат применения метода, в других - нет. Данные, полученные от испытуемых, отличаются от результатов применения метода. Каждый из испытуемых выбирал наиболее значимые единицы, которые не всегда совпадали с позиционно маркированными. Все зависело от интерпретации, а также от того, кто интерпретирует (чем сложнее текст, тем разнообразнее интерпретация).

При подготовке использовались материалы, полученные в магистерской диссертации А.И. Борденюка, выполненной под руководством автора статьи.

Список литературы Белоусов К.И., Блазнова Н.А. Введение в экспериментальную лингвистику: Учебное пособие. - М.: Изд. Флинта: Наука, 2005. -136 с.

Корбут А.Ю. Повтор как средство структурной организации художественного прозаического текста (элементы симметрии): дис. канд. филол. наук - Иркутск, 1994. - 139 с. Москальчук Г.Г. Элементы структурной самоорганизации текста / Известия Алтайского государственного университета. История. Педагогика. Философия. Филология. - Барнаул: Алт. гос. ун-т, 1998. № 3. - С. 117 - 124.

i Надоели баннеры? Вы всегда можете отключить рекламу.