Научная статья на тему 'База данных русскоязычных текстов, содержащая единицы семантического поля «Агрессия»'

База данных русскоязычных текстов, содержащая единицы семантического поля «Агрессия» Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
361
108
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВЕРБАЛЬНАЯ РЕАЛИЗАЦИЯ АГРЕССИИ / АГРЕССИЯ / СЕМАНТИЧЕСКОЕ ПОЛЕ "АГРЕССИЯ" / ПОЛНОТЕКСТОВАЯ БАЗА ДАННЫХ / ЦИФРОВЫЕ СМИ / SEMANTIC FIELD "AGGRESSION" / VERBAL REPRESENTATIVES OF AGGRESSION / FULL-TEXT DATABASE / DIGITAL MASS MEDIA

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Потапова Р.К., Комалова Л.Р.

Описывается полнотекстовая база данных русскоязычных письменных текстов цифровых СМИ, содержащая лексико-семантические репрезентанты концепта «агрессия», за период с 2011 по 2013 гг. База данных содержит 120 исходных текстовых единиц с учетом 12 параметров аннотирования из 29 цифровых СМИ на русском языке. Аннотация охватывает разные уровни языка: лексический, семантический, прагматический. Каждый текст сопровождается метрикой, указывающей соотношение числа слов семантического поля «агрессия» (СПА) к общему числу слов текста. К каждому тексту сформирован словарь СПА. База данных может использоваться для проведения научных исследований в области речеведения, для обучения автоматизированных систем мониторинга текстового пространства русскоязычного интернета, для проведения практических занятий в рамках учебно-методических дисциплин «Лингвоконфликтология», «Лингвокриминалистика», для создания информационно-поисковой системы на базе СПА.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Database of Russian texts containing units of the semantic field “agression”

The article represents a Digital Mass Media Russian Full-Text Database containing lexical-semantic representatives of the concept “aggression”. The database was collected in 2011-2013 from 29 digital mass media in Russian and consists of 120 text units annotated according to twelve parameters. The annotation covers the lexical, semantic and pragmatic levels. Special metrics and a local dictionary of the semantic field “aggression” accompany each text. The database can be implemented in scientific research on Speechology, in computer-aided Internet monitoring systems teaching, in the educative process for “Linguoconflictology” and “Linguocriminology”, for the elaboration of searching systems based on the semantic field “aggression”.

Текст научной работы на тему «База данных русскоязычных текстов, содержащая единицы семантического поля «Агрессия»»

УДК 81'33

Р. К. Потапова, Л. Р. Комалова

Потапова Р. К., д-р филол. наук, проф.,

зав. каф. прикладной и экспериментальной лингвистики МГЛУ;

директор Института прикладной и математической лингвистики МГЛУ;

e-mail: RKPotapova@yandex.ru

Комалова Л. Р., канд. филол. наук, каф. прикладной

и экспериментальной лингвистики факультета ГПН МГЛУ,

ст. научный сотрудник НИР МГЛУ, докторант каф. прикладной

и экспериментальной лингвистики МГЛУ; e-mail: GenuinePR@yandex.ru

БАЗА ДАННЫХ РУССКОЯЗЫЧНЫХ ТЕКСТОВ, СОДЕРЖАЩАЯ ЕДИНИЦЫ СЕМАНТИЧЕСКОГО ПОЛЯ «АГРЕССИЯ»1

Описывается полнотекстовая база данных русскоязычных письменных текстов цифровых СМИ, содержащая лексико-семантические репрезентанты концепта «агрессия», за период с 2011 по 2013 гг. База данных содержит 120 исходных текстовых единиц с учетом 12 параметров аннотирования из 29 цифровых СМИ на русском языке. Аннотация охватывает разные уровни языка: лексический, семантический, прагматический. Каждый текст сопровождается метрикой, указывающей соотношение числа слов семантического поля «агрессия» (СПА) к общему числу слов текста. К каждому тексту сформирован словарь СПА. База данных может использоваться для проведения научных исследований в области речеведения, для обучения автоматизированных систем мониторинга текстового пространства русскоязычного интернета, для проведения практических занятий в рамках учебно-методических дисциплин «Лингвоконфликтология», «Лингвокриминалистика», для создания информационно-поисковой системы на базе СПА.

Ключевые слова: вербальная реализация агрессии; агрессия; семантическое поле «агрессия»; полнотекстовая база данных; цифровые СМИ.

Potapova R. K., Komalova L. R.

Potapova R. K., Doctor of Philology, Professor; Director, the Institute of Applied and Mathematical Linguistics, MSLU; Head of the Department of Applied and Experimental Linguistics, MSLU; e-mail: RKPotapova@yandex.ru Komalova L. R., Candidate of Philology (PhD); Senior Research Fellow, MSLU; Post-doctoral Scholar, the Department of Applied and Experimental Linguistics, MSLU; e-mail: GenuinePR@yandex.ru

1 Исследование проводится при поддержке Российского научного фонда (РНФ), проект № 14-18-01059, на базе ФГБОУ ВПО МГЛУ под научным руководством Р. К. Потаповой.

DATABASE OF RUSSIAN TEXTS CONTAINING UNITS OF THE SEMANTIC FIELD "AGRESSION"

The article represents a Digital Mass Media Russian Full-Text Database containing lexical-semantic representatives of the concept "aggression". The database was collected in 2011-2013 from 29 digital mass media in Russian and consists of 120 text units annotated according to twelve parameters. The annotation covers the lexical, semantic and pragmatic levels. Special metrics and a local dictionary of the semantic field "aggression" accompany each text. The database can be implemented in scientific research on Speechology, in computer-aided Internet monitoring systems teaching, in the educative process for "Linguoconflictology" and "Linguocriminology", for the elaboration of searching systems based on the semantic field "aggression".

Key words, verbal representatives of aggression; semantic field "aggression"; full-text database; digital mass media.

Бесспорно то, что тексты средств массовой информации являются открытым источником, средством формирования общественного мнения и установок реципиентов к окружающей их действительности. Так, по мнению Ю. В. Щербининой, «воздействие масс-медия на сознание зрителя ... объясняется механизмом прайминга ... - активацией так называемой скрытой памяти, специфических воспоминаний и пробуждения соответствующих мыслей и идей, а также актуализацией определенных эмоций и тенденций поведения» [7, с. 149]. Если следовать этой логике, то продуцируемые в текстах СМИ эмоции положительного или отрицательного знака актуализируют смежные эмоции и последующие переживания соответствующего знака у реципиента.

В рамках исследования языковых и речевых индикаторов состояния «агрессия» в центре внимания находятся средства и механизмы реализации и побуждения негативных эмоций и переживаний реципиента, в том числе, опосредованные цифровыми СМИ. В силу того, что анализ содержания современных СМИ свидетельствует о расширении набора слов семантического поля «агрессия», представленных в СМИ, и о снижении порога критичности восприятия, весьма актуальной и перспективной является разработка баз данных и баз знаний, позволяющих кластеризировать современные языковые и речевые тенденции текстов цифровых СМИ в совокупности с возможностью оценивания их воздействующей силы, в том числе потенциала побуждения реципиента к разным формам агрессии.

Полнотекстовая база данных русскоязычных письменных текстов цифровых СМИ, содержащая вербальные репрезентанты концепта «агрессия», разрабатывается в рамках научно-исследовательского проекта № 6.4411.2011 «Исследование лингвокогнитивного механизма становления и развития состояния агрессии в межъязыковой и межкультурной коммуникации (применительно к многоязыковому дискурсу)», выполняемого по заказу Министерства образования и науки Российской Федерации с 2011 г. по настоящее время на базе ФГБОУ ВПО МГЛУ под научным руководством доктора филологических наук, профессора Р. К. Потаповой.

Разработка и создание базы данных ориентированы на решение широкого круга прикладных задач. Принципы структурирования базы данных неоднократно уточнялись на конференциях «Информационная структура текстов разных жанров и эпох» (Институт языкознания РАН), «Проблемы языка: взгляд молодых ученых» (Институт языкознания РАН), «Speech & Computer» (МГЛУ, СПИИ РАН), «Семиотическая гетерогенность межкультурной коммуникации» (МГЛУ).

Параллельно с формированием базы данных было проведено исследование лексикографических источников, которое дало представление о преобладающем контекстуальном характере формирования семантического поля «агрессия» на страницах СМИ [4]. Работа по подготовке текстов к введению в базу данных показывает, насколько различны тексты печатных СМИ, имеющие цифровые аналоги, и тексты Интернет-СМИ, существующие только в среде Интернета.

При публикации текста в базе данных оригинальное оформление снимается, графические изображения удаляются. Все тексты приводятся к стандартизированной форме: кегль 12, межстрочный интервал 1 пт, красная строка 1 пт.

На сегодняшний день база данных состоит из 121 файла Microsoft Word 2003 (содержит один файл-интегратор и 120 исходных аннотированных единиц - текстов цифровых СМИ, содержащих вербальные единицы семантического поля «агрессия»).

База данных русскоязычных письменных текстов цифровых СМИ, содержащая вербальные репрезентанты концепта «агрессия», является лингвистически паспортизированной полнотекстовой открытой базой данных. В составе базы данных представлены русскоязычные тексты из мировых, федеральных и региональных СМИ, имеющих цифровые аналоги в сети Интернет. Репрезентативность

корпуса обеспечивается за счет включения текстов широкого круга источников: печатные СМИ, новостные передачи теле-, радиовещательных компаний, сообщения новостных агентств, новостные ленты интернет-порталов, описывающие состояние дел в мире в целом и в РФ, в частности (см. табл. 1).

Таблица 1

Цифровые СМИ, тексты которых вошли в базу данных

Электронный адрес Тип СМИ Название СМИ

aif.ru Газета «Аргументы и факты»

bbc.co.uk Информационный портал BBC

echo.msk.ru Радио Эхо Москвы

gazeta.ru Газета «Газета»

itar-tass.com Информационное телеграфное агентство России ИТАР-ТАСС

izvestia.ru Газета «Известия»

komionline.ru Информационный портал КомиОн-лайн

kp.ru Газета «Комсомольская правда»

lenta.ru Информационный портал Лента.ру

memo.ru Правозащитный центр «Мемориал»

mk.ru Газета «Московский комсомолец»

mn.ru Газета «Московские новости»

news.mail.ru Новостная лента Портал Мейл

news.rambler.ru Новостная лента Портал Рамблер

newsru.com Информационный портал НьюзРу

novayagazeta.ru Газета «Новая газета»

ntv.ru Теле-, радиовещательная компания НТВ

online812.ru Информационный портал Он-лайн812

rbcdaily.ru Информационный портал РБК

regnum.ru Информационное агентство Регнум

rg.ru Газета «Российская газета»

ria.ru Информационное агентство РИА-Новости

ridus.ru Лента новостей «Ридус»

ru.euronews.com Теле-, радиовещательная компания «Евроньюз»

Электронный адрес Тип СМИ Название СМИ

rus.ruvr.ru Радио Голос России

tambov.mk.ru Газета «Московский комсомолец - Тамбов»

top.rbc.ru Информационное агентство РБК - весь мир

utro.ru Электронная газета Утро.ру

vesti.ru Телевизионная служба новостей Вести

Тексты отбирались методом сплошной выборки за период с 1 января 2011 г. по 1 марта 2013 г. Принципы и методы отбора текстов, а также способы конструирования семантического поля «агрессия» описаны в работах [2; 4; 3; 8].

Единицей базы данных является исходная текстовая единица, которая содержит аннотацию, включающую:

а) выходные данные текста:

• название текста;

• название источника;

• дата публикации текста;

• адрес публикации в сети Интернет;

• информация об авторе текста;

б) лингвистический паспорт текста:

• жанр, в котором написан текст:

◦ заметка;

◦ репортаж;

◦ статья;

◦ листовка;

◦ комментарий;

◦ фельетон;

◦ интервью;

◦ эссе;

◦ справка;

◦ коммюнике;

◦ рекламный текст;

• прагматическая составляющая текста:

◦ информирование;

◦ аналитика;

◦ полемика;

◦ разъяснение;

◦ заявление;

◦ обращение;

◦ агитация;

◦ пропагандирование;

◦ критика;

◦ воздействие;

• тема:

◦ политические конфликты;

◦ геполитические конфликты;

◦ военные действия;

◦ криминал;

◦ насилие над личностью;

◦ насилие в семье;

◦ агрессивная экономика;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

◦ судебные разбирательства;

◦ проявления экстремизма;

◦ проявления расизма;

◦ проявления шовинизма;

◦ проявление межнациональной розни;

◦ проявление ксенофобии;

◦ межконфессиональные конфликты;

◦ призывы к насилию;

◦ призывы к дискриминации;

• основная подтема;

в) каждый текст сопровождается метрикой, представляющей

• общее количество знаменательных и незнаменательных слов в тексте;

• количество знаков (графем) без пробела в тексте;

• список слов текста, входящих в семантическое поле «агрессия» (СПА);

• относительная величина - плотность СПА, т. е. отношение числа слов СПА к общему числу слов в тексте (в %).

В каждой исходной текстовой единице приводится полный исходный текст публикации.

В настоящее время база данных включает 120 исходных аннотированных единиц русскоязычных текстов (с учетом двенадцати

параметров-помет), которые были отобраны из репрезентативной выборки в 2000 русскоязычных текстов цифровых СМИ.

Анализ текстов и выявление структурных компонентов, репрезентирующих концепт «агрессия», выполнялся по методике контент-анализа, применяемой в работах речеведов, а именно - по комплексной методике контент-анализа текста / дискурса Р. К. Потаповой, В. В. Потапова [5; 6].

Плотность закодированных вложений в анализируемом тексте рассчитывалась при помощи компьютерной программы с открытой лицензией «TextusPro 1.0» [1].

База данных выполнена в приложении Microsoft Word 2003. Каждая исходная текстовая единица (ИТЕ) с учетом двенадцати параметров аннотирования располагается в отдельном файле. Файл-интегратор выполнен в виде гипертекста и является своего рода содержанием БД. Из файла-интегратора возможно открыть любую ИТЕ базы данных. Из любой ИТЕ текста по ссылке можно перейти в файл-интегратор.

В отдельной ячейке ИТЕ представлены все присутствующие в данном тексте лексические единицы, входящие в состав семантического поля «агрессия». Данные единицы выделены в исходном тексте подчеркиванием и / или цветом.

Схематично базу данных можно представить следующим образом (см. рис. 1).

Рис. 1. Структура базы данных

Таблица 2

Пример представления текстов в Базе данных русскоязычных письменных текстов цифровых СМИ, содержащей вербальные репрезентанты концепта «агрессия» (ИТЕ № 49)

Название текста Президент Сирии ужесточил наказание за похищения и убий-

ства людей

Название источника Информационный Интернет-портал РИА-Новости

Дата публикации текста 02 апреля 2013 года

Автор текста Денис Малков

Ссылка на источник http://ria.ru/arab_sy/20130402/930583218.html

Тема текста Основной тематической составляющей данного текста является похищение. Об этом свидетельствует абсолютная доминирующая позиция следующих слов и словосочетаний: «похищения», «похитил», «похититель», «смерть похищенного», «массовые похищения» в составе семантического поля «агрессия» для данного текста

Жанр текста Заметка

Прагматическая составляющая текста Информирование

Количество слов 151

Количество знаков (графем) без пробелов 969

Слова, относящиеся к семантическому полю «агрессия» Ужесточение наказания, похищение людей, похитить человека, приговорить, пожизненные каторжные работы, причинение вреда здоровью, изнасилование, смерть, похищенный, похититель, казнить, наказание, сроки заключения, массовые похищения людей, повстанцы, криминальные группировки, похищенный, вооруженный конфликт, оппозиция, погибнуть, противостоять организованным действиям, вооруженный, боевик, наемник

Плотность СПА 25,16 %

Исходный текст Президент Сирии Башар Асад подписал указ об ужесточении наказания за похищение людей, - сообщает во вторник пресс-служба главы государства. «Каждый, кто похитил человека, будет приговорен к пожизненным каторжным работам, а в случае причинения вреда здоровью, в случае изнасилования или смерти похищенного, похититель будет казнен», - говорится в указе сирийского президента. Ранее наказание в зависимости от последствий предусматривало различные сроки заключения. Массовые похищения людей в Сирии отмечаются на территориях, контролируемых повстанцами, суммы выкупа, которые криминальные группировки требуют от близких и родственников похищенных, колеблются от нескольких тысяч до нескольких миллионов долларов. Вооруженный конфликт в Сирии между властями и оппозицией продолжается с марта 2011 г. По данным ООН, за это время в стране погибли около 70 тыс. человек. Сирийские власти заявляют, что противостоят организованным действиям хорошо вооруженных и обученных местных боевиков и наемников из-за рубежа

База данных применима на практике в качестве:

- базы данных словоформ семантического поля «агрессия» для обучения автоматизированных систем мониторинга текстов цифровых СМИ на предмет выявления потенциально провока-тивных / конфликтогенных сообщений, а также для определения «горячих» точек в мире (например, для обучения системы Europe Media Monitor: http://emm.newsbrief.eu);

- базы данных словоформ для составления тематического частотного словаря семантического поля «агрессия»;

- базы данных словоформ для создания информационно-поискового тезауруса семантического поля «агрессия»;

- базы данных текстов для проведения тематического морфо-лого-синтаксического анализа с целью выявления структуры текстов, порождающих состояние агрессии у реципиента;

- базы данных текстов для использования в составе учебно-методических комплексов дисциплин «Лингвоконфликтология», «Лингвокриминалистическая экспертиза текста», «Фундаментальное и прикладное речеведение», «Социолингвистика»;

- базы данных текстов в составе комплексного исследования языковых и речевых признаков передачи и порождения состояния агрессии посредством сообщений СМИ в сети Интернет.

Дальнейшее развитие базы данных предполагается связать с разработкой внутренней поисковой системы на базе гипертекстовых технологий с использованием XML-разметки.

СПИСОКЛИТЕРАТУРЫ

1. Каплунов Д. А. Программа «TEXTUSPRO 1.0». - URL : http://www.blog-kaplunoff.ru/programmy-dlya-kopirajterov.html .

2. Потапова Р. К., Комалова Л. Р. и др. Промежуточный отчет (1-й этап

2012 г.) по проекту: 6.4411.2011 «Исследование лингвокогнитивного механизма становления и развития состояния агрессии в межъязыковой и межкультурной коммуникации (применительно к многоязыковому дискурсу). - М. : МГЛУ, 2012. - 310 с.

3. Потапова Р. К., Комалова Л. Р. и др. Промежуточный отчет (2-й этап

2013 г.) по проекту: 6.4411.2011 «Исследование лингвокогнитивного механизма становления и развития состояния агрессии в межъязыковой и межкультурной коммуникации (применительно к многоязыковому дискурсу). - М. : МГЛУ, 2013. - 168 с.

4. Потапова Р. К., Комалова Л. Р. Лингвокогнитивное исследование состояния «агрессия» в межъязыковой и межкультурной коммуникации: письменный текст // Семиотическая гетерогенность языковой коммуникации: теория и практика. - Ч. II. - М. : Рема, 2013. - С. 164-175. (Вестн. Моск. гос. лингвист. ун-та; вып. 15 (675). Сер. Языкознание).

5. Потапова Р. К., Потапов В. В. Семантическое поле «наркотики»: Дискурс как объект прикладной лингвистики. - М.: УРСС, 2004. - 190 с.

6. Потапова Р. К., Потапов В. В. Язык, речь, личность. - М. : Языки славянской культуры, 2006. - 496 с.

7. Щербинина Ю. В. Речевая агрессия. Территория вражды : учеб. пособие. - М. : Форум, 2013. - 400 с.

8. Potapova R. K., Komalova L. R. Lingua-Cognitive Survey of the Semantic Field "Aggression" in Multicultural Communication: Typed Text // The 15th International conference "Speech and Computer" (SPECOM'2013). Proceedings. - Plzen, 2013. - 368 p. - Pp. 227-232. // SPECOM 2013, LNAI 8113 / M. Zelezny et al. (Eds.). - Springer International Publishing Switzerland, 2013. - 368 p. - Pp. 227-232.

i Надоели баннеры? Вы всегда можете отключить рекламу.