Научная статья на тему 'Корпус текстов интервью как инструмент лингвокультурологического исследования'

Корпус текстов интервью как инструмент лингвокультурологического исследования Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
390
69
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЛИНГВИСТИЧЕСКИЙ КОРПУС ТЕКСТОВ / РАЗМЕТКА / РЕПРЕЗЕНТАТИВНОСТЬ / ВЫСКАЗЫВАНИЯ ОТ 1-ГО ЛИЦА / LINGUISTIC CORPUS / TAGGING / REPRESENTATIVENESS / 1 ST PERSON UTTERANCES

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Кожевникова Анна Дмитриевна

В данной статье рассматривается понятие «корпус тестов», описывается методика создания специализированного письменного размеченного корпуса текстов интервью и его использования в качестве инструмента для лингвокультурологического исследования.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Корпус текстов интервью как инструмент лингвокультурологического исследования»

21. HELLO! 16 June [Text] / Hello, 2005. - 21 p.

22. Jackson, M. The song «Hollywood_tonight» [Электронный ресурс] / M.

Jackson. - URL :

http://www.lyrics.uz/publ/m/michael jackson/hollywood tonight/62-1-0-11376 (дата обращения: 13.02.12.).

23. Lette, K. An Ode to the Barbie Doll on her 40th Birthday [Text] / K. Lette // Some girls do.. .My Life as teenager : Jacinta Tynan, 2007. - 351 p.

24. Mellen, J. Big Bad Wolves [Text] / J. Mellen. Pantheon Books, 1987. -365 p.

25. P.O.D. The song “Hollywood” (“Live Las Vegas”) [Электронный ресурс] / P.O.D. - URL : http://www.zapevka.ru/SongInfo.aspx?songId=250460 (дата обращения: 12.01.12).

26. Saliva The song “Hollywood” [Электронный ресурс] / Saliva. - URL : http://lyricsgoody.com/ru/lyrics/Saliva/Hollywood.html (дата обращения: 25.010.11).

27. Scherzinger, Nicole feat. Flo Rida The song “Hollywood” [Электронный ресурс] / Scherzinger. - URL: http ://text-you.ru/eng text pesni/13558-nicole-scherzinger-hollywood-feat.-flo-rida-.html (дата обращения: 2.04.12).

28. Sheldon, S. A Stranger in the Mirror [Text] / S. Sheldon. - London : Pan Books LTD, 1977. - 304 p.

29. Star, November 13 [Text] / Star, 2006. - P. 42.

30. Wikipedia [Электронный ресурс] / URL : http://ru.wikipedia.org/wiki (дата обращения: 27.09.11).

Кожевникова Анна Дмитриевна

Магистрант 2 курса факультета европейских языков ФГБОУ ВПО «ИГЛУ», г. Иркутск, Россия, направление подготовки: информационные технологии в филологическом образовании

УДК 81’33 ББК 81.1

КОРПУС ТЕКСТОВ ИНТЕРВЬЮ КАК ИНСТРУМЕНТ ЛИНГВОКУЛЬТУРОЛОГИЧЕСКОГО ИССЛЕДОВАНИЯ

В данной статье рассматривается понятие «корпус тестов», описывается методика создания специализированного письменного размеченного корпуса текстов интервью и его использования в качестве инструмента для лингвокультурологического исследования.

Ключевые слова: лингвистический корпус текстов; разметка; репрезентативность; высказывания от 1-го лица.

LINGUISTIC CORPUS OF INTERVIEWS AS A TOOL OF CULTUROLOGICAL RESEARCH

The article deals with the definition of «linguistic corpus», methods of creating a specialized written annotated text corpus of interviews and its use in a culturological research.

Key words: linguistic corpus; tagging; representativeness; 1st person utterances.

В последнее время все большую значимость в лингвистических исследованиях приобретает корпусная лингвистика. Ещё несколько десятилетий назад создание корпусов проводилось только вручную, что отнимало массу времени и сил. Поэтому создавались они только в случаях наличия широкого круга заинтересованных лиц. Теперь же структурировать и синхронизировать какой-либо материал стало намного легче благодаря развитию сначала компьютерной, а потом и корпусной лингвистики. Появилась возможность создавать корпусы текстов практически для любой области науки, для более узкого круга пользователей, что является актуальным для исследований в этих сферах (см., например, [Богданова, 2010, с. 203-211]).

В современной лингвистике под лингвистическим корпусом текстов понимается «большой, представленный в машиночитаемом виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач» [Захаров, 2011, с. 7]. Основные признаки, характеризующие корпус текстов: 1) логическое единство замысла; 2) конечный размер; 3) обязательное расположение на машинном носителе (для компьютерного корпуса текстов); 4) стандартное представление или разметка словесного материала в корпусе (для удобства его программной обработки); 5) представительность/репрезентативность (representativeness); 6) отбор (sampling); 7) размеченность.

На основании признаков лингвистического корпуса текстов, приведенных выше, нами был создан специализированный письменный размеченный корпус интервью. Исследование устной речи, к которой, в частности, относится и интервью, с применением корпусных технологий является одной из важных задач лингвистики на современном этапе (см. [Мордовин, 2009]), даже в том случае, если исследованию подвергается записанный (и, вероятно, несколько отредактированный) текст. Для создания корпуса на данный момент отобраны 30 интервью, при этом использовались тексты в электронном виде [Журнал «Интервью» - официальный сайт, 2012. Режим доступа: http://interviewmg.ru/; Интервью с известными людьми, 2012. Режим доступа: http : //beatle2. narod. ru/int-with. html ; TOPPOP.ru: Интервью с известными людьми, 2012. Режим доступа: http : // www.toppop.ru/ interview/], а также тексты из журнала «Телесемь», которые путем сканирования приводились в машиночитаемый формат. Все интервью переведены в формат .txt. Проведен графематический анализ:

1. Разделение входного текста на слова, разделители и т.д.

2. Сборка слов, написанных в разрядку.

3. Выделение предложений из входного текста.

Далее производится разметка текста. Для большинства современных корпусов текста характерно наличие разметки. Можно сказать, что разметка -ключевое понятие при создании корпусов. Она заключается в приписывании текстам и их компонентам специальных меток: внешних, экстралингвистиче-ских (автор, название, год издания, жанр и т.д.) - метаразметка, и внутри-лингвистических, описывающих лексические и грамматические характеристики элементов текста. «Набор метаданных во многом определяет возможности, предоставляемые корпусами исследователям. При выборе этих данных необходимо руководствоваться целями исследования» [Захаров, 2011, с. 49]. В нашем корпусе используется следующий набор метаданных:

1. Автор текста (человек, у которого берут интервью):

- имя;

- пол;

- дата рождения.

2. Объем текста.

В соответствии с данной разметкой можно легко выделять подкорпусы текстов по одному или нескольким признакам.

Одним из важных признаков лингвистического корпуса является репрезентативность. Этот признак определяет, какую внекорпусную реальность отражает корпус (или желает отразить его составитель). Задача создателей корпуса - собрать как можно большее количество текстов, относящихся к тому подмножеству языка, для изучения которого корпус создается, но при этом особенно важно пропорционально представить в корпусе тексты разных жанров, периодов времени, авторов и т.д. Для нашего корпуса мы отобрали 15 интервью с авторами, рожденными до 1975 года, и 15 интервью с авторами, рожденными после 1975 года. Всего корпус составляют 30 интервью общим объемом около 29000 слов. Внутри каждой возрастной группы представлено 7 текстов интервью мужчин и 8 текстов интервью женщин.

На базе представленного корпуса интервью можно проводить различные лингвистические исследования:

- брать примеры для подтверждения выдвигаемых гипотез,

- информацию по частотности для слов, фраз и конструкций для количественных исследований в теоретической и компьютерной лингвистике, применяя один из корпусных менеджеров (корпусный менеджер - специализированная поисковая система, которая включает программные средства для поиска данных в корпусе и получения различной статистической информации, нами, например, использовался сайт www.voyeurtools.org),

- метаинформацию о возрасте и поле автора для сравнения разных групп говорящих.

Наш корпус интервью является специализированным, то есть он создан для конкретного лингвистического исследования.

Проводимое нами исследование относится к области лингвокультуроло-гии. В настоящее время в мировой культуре наблюдается процесс вестернизации (экспансии экономической модели развития, ценностей, стиля и образа жизни, свойственных западным промышленно развитым странам) [Культурология, 2007, с. 369-370]. Этот процесс, несомненно, затрагивает и Россию. Пришел ли на смену русскому коллективизму индивидуализм, свойственный европейской и американской культуре? Если изменение коренных установок произошло уже на уровне сознания русских людей, это должно найти отражение в языке, так как «язык - продукт культуры, ее важная составная часть, условие существования» [Маслова, 2001, с. 5]. В связи с этим мы рассматриваем типы синтаксических конструкций, применяющихся в высказываниях от 1 -го лица, в которых, по нашему мнению, особенно четко проявляются установки сознания русских людей.

Можно выделить 5 основных типов синтаксических конструкций, используемых в высказываниях от 1 -го лица в русском языке (все рассматриваемые конструкции являются синтаксическими синонимами): 1) личные двусоставные предложения, в которых субъект действия является подлежащим и выражается личным местоимением 1 лица. ед.ч. («я»); 2) определенноличные односоставные предложения с глаголом, указывающим личным окончанием на говорящего; 3) безличные предложения, в которых выражаются действия или состояния, возникающие и существующие независимо от производителя действия и носителя признака, и где может присутствовать субъект действия, выраженный часто формой дат. п.; 4) пассивные конструкции, представляющие собой двусоставное предложение, в котором значение субъекта (деятеля) выражено формой творительного падежа (иногда формой дательного падежа), а в роли подлежащего выступает объект; 5) неполные двусоставные предложения с пропущенным подлежащим «я», которое легко восстанавливается из контекста. Конструкции второго, третьего, четвертого и пятого типов отражают, по нашему мнению, традиционную установку на коллективизм в сознании русского человека. Мы предположили, что если в последнее время увеличилось количество двусоставных личных предложений с подлежащим «я» (эти конструкции отражают установку на личность, а не на коллективизм русского менталитета), то, можно сказать, процесс вестернизации уже затронул сознание русских людей, и началось изменение коренных установок русской культуры. Для подтверждения выдвинутой гипотезы мы использовали данные корпуса текстов интервью.

Мы классифицировали интервью по двум направлениям:

1. Возрастные характеристики. По этому признаку тексты интервью разделены нами на две группы: до 1975 года рождения и после 1975 года рождения. Мы предполагаем, что люди, рожденные после 1975 года, основную часть своей жизни прожили уже в новом обществе, и в их речи наиболее явно могли отразиться изменения коренных установок русской культуры, если таковые уже произошли на уровне сознания русских людей. Речь этих людей

мы противопоставляем речь людей старшего поколения, которые, по нашему мнению, сохранили в сознании установку на коллективизм.

2. Гендерный признак. Термином гендер (gender) называется пол как социокультурный феномен, противопоставленный биологическому полу (sex, sexus), и первый термин шире второго, включает его в свой состав. Использование термина гендер призвано подчеркнуть не природную, а социокультурную причину межполовых различий. Современные исследователи [Гриценко, 2001; Кирилина, 1999] активно анализируют отражение гендера в языке и убедительно доказывают, что существуют специфические особенности употребления языка мужчинами и женщинами. В связи с этим нам важно узнать, зависит ли количественное употребление высказываний от 1 -го лица от гендерного признака автора или этот признак в данном вопросе роли не играет.

В соответствии с целью нашего исследования нами дополнительно была осуществлена внутрилингвистическая разметка по типам рассматриваемых синтаксических конструкций, представляющих высказывания от 1 -го лица (тексты размечались вручную). Был создан набор парных «тэгов» (открывающий и закрывающий), которые пишутся в треугольных скобках: </dp> -двусоставные предложения с подлежащим «я»; </op> - определенно-личные предложения; </bp> - безличные предложения; </pk> - пассивные конструкции; </np> - неполные двусоставные предложения с пропущенным подлежащим «я». Подсчет конструкций осуществляется автоматически в программе Exel. Для этого был написан специальный макрос.

Исследование проводилось на двух подкорпусах, которые выделялись по возрасту авторов интервью: 1 подкорпус - авторы, рожденные до 1975 года, 2 подкорпус - авторы, рожденные после 1975 года. Пока проведен подсчет конструкций 1-го и 2-го типов. Полученные результаты представлены в таблице 1.

Таблица 1

Распределение конструкций 1-го и 2-го типов________________

Подкорпус Вид предложения 1-й подкорпус (13601 слово, 1200 предложений) 2-й подкорпус (15439 слов, 1395 предложений)

Двусоставные предложения с подлежащим «я» 25% 37%

Определенно-личные предложения 7% 9%

По предварительным данным наблюдается тенденция к увеличению употребления двусоставных предложений с личным местоимением «я» в качестве подлежащего, что подтверждает выдвинутую нами на начальном этапе исследования гипотезу.

Таким образом, корпус текстов может быть полезным инструментом, в том числе в лингвокультурологическом исследовании.

Библиографический список

1. Богданова, С. Ю. Исследование слова и предложения компьютерными методами [Текст] / С. Ю. Богданова // Слово в предложении : кол. монография / под ред. Л. М. Ковалевой (отв. ред.), С. Ю. Богдановой, Т. И. Семеновой. - Иркутск : ИГЛУ, 2010. - С. 194-213.

2. Гриценко, Е. С. Гендер в семантике слова [Текст] / Е. С. Гриценко // Гендер: язык, культура, коммуникация. - М. : МГЛУ, 2001. - С. 13-14.

3. Журнал «Интервью» - официальный сайт [Электронный ресурс]. -URL: http : //interviewmg.ru/ (дата обращения 21 янв.2012).

4. Захаров, В. П. Корпусная лингвистика [Текст] : учебник / В. П. Захаров, С. Ю. Богданова. - Иркутск : ИГЛУ, 2011. - 161 с.

5. Интервью с известными людьми [Электронный ресурс]. - URL: http ://beatle2.narod. ru/int-with. html (дата обращения 21 янв.2012).

6. Кирилина, А. В. Гендер: лингвистические аспекты [Текст] / А. В. Кирилина. - М. :изд-во «Институт социологии РАН», 1999. - 180 с.

7. Культурология [Текст] : учебник / под ред. Ю. Н. Солонина, М. С. Кагана. - М. : Высшее образование, 2007. - 566 с.

8. Маслова, В. А. Лингвокультурология [текст] : учеб. пособие для студентов высших учебных заведений / В. А. Маслова. - М. : издательский центр «Академия», 2001. - 208 с.

9. Мордовин, А. Ю. К вопросу о жанровой полноценности современных неспециализированных корпусов текстов [Текст] / А. Ю. Мордовин // Вестник ИГЛУ. - 2009. - № 2. - С. 48-52.

10. TOPPOP.ru: Интервью с известными людьми [Электронный ресурс]. -URL : http : //www. toppop. ru/interview/ (дата обращения 21 янв.2012).

ЭТНОЛИНГВИСТИКА Шизер Ганс

почетный профессор Университета Де Пола (Чикаго, США)

Prof.Dr. Hans Schieser, Professor emeritus DePaul University Chicago

УДК 81.-114.2 ББК 80

ДИАЛЕКТЫ - „ВАШ ЯЗЫК ПОКАЗЫВАЕТ КТО ВЫ - И ВО ЧТО ВЫ

ВЕРИТЕ!“

Диалект - это не только специализированная лексика, но также и «акцент», который предает место происхождения человека и его этническую принадлежность. Текст также предает идеологическую ориентацию автора. Мы признаем влияние «окружающей среды» (этнические корни семьи, школы) и ее воздействие на образ мышления и диалект.

Ключевые слова: диалект; акцент; география и этническая принадлежность; разговорный и письменный язык; влияние на мышление и язык; идеологический фон; отчуждении на языке.

i Надоели баннеры? Вы всегда можете отключить рекламу.