Научная статья на тему '2019.02.015. ФЕРНАНДЕС А.Г. ВСЕМИРНАЯ СЕТЬ КАК КОРПУС ДАННЫХ. FERNáNDEZ A.G. LA WEB COMO CORPUS: UN ESBOZO // LENGUA Y HABLA. - 2017. - N 21. - P. 126-150'

2019.02.015. ФЕРНАНДЕС А.Г. ВСЕМИРНАЯ СЕТЬ КАК КОРПУС ДАННЫХ. FERNáNDEZ A.G. LA WEB COMO CORPUS: UN ESBOZO // LENGUA Y HABLA. - 2017. - N 21. - P. 126-150 Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
51
11
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОРПУСНАЯ ЛИНГВИСТИКА / КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА / АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТА / ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА / ИНТЕРНЕТ / ВСЕМИРНАЯ СЕТЬ
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «2019.02.015. ФЕРНАНДЕС А.Г. ВСЕМИРНАЯ СЕТЬ КАК КОРПУС ДАННЫХ. FERNáNDEZ A.G. LA WEB COMO CORPUS: UN ESBOZO // LENGUA Y HABLA. - 2017. - N 21. - P. 126-150»

5. Украинцева Н.Е. Эквиполентные оппозиции в фольклоре Южного Зауралья // 8-е Лазаревские чтения: «Лики традиционной культуры в современном культурном пространстве: Ренессанс базовых ценностей?»: Сб. материалов меж-дунар. науч. конф. Челябинск, 27-28 февр. 2018 г.: В 2 ч. - Челябинск, 2018. -Ч. 1. - С. 46-49.

6. Шестеркина Н.В. Антропоцентризм и антропоморфизм березы // 8-е Лазаревские чтения: «Лики традиционной культуры в современном культурном пространстве: Ренессанс базовых ценностей?»: Сб. материалов междунар. науч. конф. Челябинск, 27-28 февр. 2018 г.: В 2 ч. - Челябинск, 2018. - Ч. 1. -С. 66-69.

7. Бычков Д.М. О возрождении агиографической традиции в современной литературе // 8-е Лазаревские чтения: «Лики традиционной культуры в современном культурном пространстве: Ренессанс базовых ценностей?»: Сб. материалов междунар. науч. конф. Челябинск, 27-28 февр. 2018 г.: В 2 ч. - Челябинск, 2018. - Ч. 1. - С. 74-79.

8. Кляузер А.В. Категории пространства и времени в устных рассказах ветеранов-афганцев // 8-е Лазаревские чтения: «Лики традиционной культуры в современном культурном пространстве: Ренессанс базовых ценностей?»: Сб. материалов междунар. науч. конф. Челябинск, 27-28 февр. 2018 г.: В 2 ч. -Челябинск, 2018. - Ч. 1. - С. 95-97.

9. Корсакова Ю.И. Дискурсивные маркеры установления контакта в сказах П.П. Бажова // 8-е Лазаревские чтения: «Лики традиционной культуры в современном культурном пространстве: Ренессанс базовых ценностей?»: Сб. материалов междунар. науч. конф. Челябинск, 27-28 февр. 2018 г.: В 2 ч. -Челябинск, 2018. - Ч. 1. - С. 151-154.

10. Загидуллина М.В. Журлор: Как работают механизмы фольклоризации информационного пространства // 8-е Лазаревские чтения: «Лики традиционной культуры в современном культурном пространстве: Ренессанс базовых ценностей?»: Сб. материалов междунар. науч. конф. Челябинск, 27-28 февр. 2018 г.: В 2 ч. - Челябинск, 2018. - Ч. 1. - С. 17-20.

КОРПУСНАЯ ЛИНГВИСТИКА

2019.02.015. ФЕРНАНДЕС А.Г. ВСЕМИРНАЯ СЕТЬ КАК КОРПУС ДАННЫХ.

FERNÁNDEZ A.G. La web como corpus: Un esbozo // Lengua y Habla. - 2017. - N 21. - P. 126-150.

Ключевые слова: корпусная лингвистика; компьютерная

лингвистика; автоматическая обработка текста; обработка

естественного языка; Интернет; Всемирная сеть.

В статье А.Г. Фернандес представлен обзор современных подходов к описанию Всемирной сети1 как корпуса данных. В работе описываются позиции таких ученых, как А. Килгарифф и Г. Грефенштедте2, М. Хундт3, У. Флетчер4, Д. Кристалл5 и др. Сопоставляя принципы построения и диапазон применения традиционных корпусов и Всемирной сети, автор статьи приходит к выводу, что использование сети в качестве корпуса данных имеет ряд преимуществ.

Появление всемирной сети Интернет значительно способствовало развитию коммуникации, экономическому и научному прогрессу, в целом, и развитию лингвистического знания, в частности. Благодаря большому объему текстов, доступных в Сети, их актуальности и простоте обработки стали активно развиваться такие лингвистические направления, как корпусная лингвистика и компьютерная лингвистика, в которых отдельно выделяется обработка

1 Для обозначения одного явления автор использует следующие обозначения: Всемирная сеть (World Wide Web), Сеть, всемирная сеть Интернет, Интернет. - Прим. реф.

2 Kilgarriff A., Grefenstette G. Introduction to the Special Issue on the Web as Corpus // Computational linguistics, 2003. - Vol. 29 (3). - P. 333-347. - Mode of access: https://dl.acm.org/citation.cfm?id=964752; Kilgarriff A. Web as corpus // Proceedings of the Corpus linguistics Cconference (CL 2001). Univ. Centre for computer research on language technical paper. - Lancaster, 2001. - Vol. 13, Spec. iss. - P. 342344. - Mode of access: http://ucrel.lancs.ac.uk/publications/CL2003/CL2001% 20conference/papers/kilgarri.pdf.

3 Corpus linguistics and the web / Ed. by Hundt M., Nesselhauf N., Biewer C. -Amsterdam; Atlanta, 2007. - 312 p.

4 Fletcher W.H. Facilitating the compilation and dissemination of ad-hoc Web corpora // Corpora and language learners / Ed. by Aston G., Bernardini S., Stewart D. -Amsterdam, 2004 a. - P. 271-300.; Fletcher W.H. Making the web more useful as a source for linguistic corpora // Applied corpus linguistics: A multidimensional perspective / Ed. by Connor U., Upton T. - Amsterdam, 2004 b. - P. 191-205.; Fletcher W.H. Concordancing the web: Promise and problems, tools and techniques // Corpus linguistics and the web / Ed. by Hundt M., Nesselhauf N., Biewer C. - Amsterdam, 2007. -P. 25-46.; Fletcher W.H. Corpus analysis of the world wide Web // Encyclopedia of applied linguistics / Ed. by Chapelle C. - L., 2012. - DOI: 10.1002/9781405198431. wbeal0254. - Mode of access: http://citeseerx.ist.psu.edu/viewdoc/download; jses sionid=098072500C15FBA6E587DABEC8C7BF94?doi=10.1.1.360.9984&rep=rep1&t ype=pdf

5 Crystal D. Language and the Internet. - Cambridge, 2003. - 272 p.

естественного языка, извлечение информации, семантический анализ текста и другие языковые технологии. Таким образом, всемирная сеть Интернет открывает новые горизонты и предоставляет большое количество языкового материала для исследований в области лингвистики.

В настоящее время сформировалось два подхода в отношении использования Интернета в корпусной лингвистике. В первом Интернет рассматривается как неисчерпаемый источник языковой информации, которую можно напрямую использовать для исследования функционирования и использования языка. То есть предполагается, что Интернет является корпусом данных (the web as corpus - p. 127). Второй подход предлагает использовать Сеть в качестве источника текстового материала для создания общих и специальных корпусов данных, предназначенных для анализа языковых явлений (web for corpus - p. 133).

Автор статьи уделяет большое внимание первому подходу, т.е. рассмотрению всемирной сети Интернет как огромного, постоянно изменяющегося и расширяющегося корпуса языковых данных. Автор выделяет следующие преимущества данного подхода:

• большую представленность лексических и морфологических единиц, грамматических явлений, в том числе и новых, только возникающих и еще и не закрепившихся в языке;

• представленность различных вариантов языка;

• появление новых жанров и субжанров;

• небольшие экономические издержки на лингвистические исследования с использованием интернет-данных;

• возможность изучения «языка Интернета»1.

К недостаткам использования Сети как корпуса данных автор относит неготовность современных поисковых систем выполнять роль интерфейса данного корпуса, закрытость некоторых материалов и непостоянный характер получаемых результатов исследований ввиду динамической природы самого корпуса.

1 Автор ссылается на работу Crystal D. Language and the Internet. - Cambridge, 2003. - 272 p., в которой вводится понятие «язык Интернета» («netlish», «Internet language», «cyberspeak», «electronic discourse», «electronic language», «interactive written discourse» o «computer-mediated communication (CMC)»). - Прим. реф.

В статье подробно обсуждаются следующие характеристики Интернета как корпуса: аутентичность (p. 136-137), репрезентативность (p. 137-139), объем (p. 139-141), содержание (p. 141144), а также вопросы авторского права (p. 144-145).

Аутентичные тексты, представленные в Сети, в большинстве своем являются продуктом каждодневной деятельности человека и характеризуют актуальное состояние языка.

Репрезентативность является одним из основных условий, необходимых при создании текстового корпуса. Она позволяет эмпирически формулировать и доказывать гипотезы и изучать отклонения. Интернет как корпус является репрезентативным, т. к. включает тексты как традиционных, так и новых, не до конца сформированных жанров (например, блог, чат, форум и т.д.).

Объем Сети как корпуса на несколько порядков превышает объем традиционных корпусов, что обеспечивает представленность и позволяет изучать даже малораспространенные языковые явления и дает исследователю возможность шире взглянуть на рассматриваемую задачу.

Содержание Сети как корпуса охватывает материалы на различных языках, разнообразные темы, регистры и жанры.

Спорным остается вопрос об авторском праве в Интернете. В отличие от традиционных корпусов в Интернет как корпус входят только те тексты, которые находятся в открытом доступе. В связи с этим исследователь (составитель корпуса) ограничен в возможностях лишь в меньшей мере, чем создатель поисковой интернет-системы (web-crawler - p. 129).

Обобщая все вышесказанное, автор делает прогноз о будущем Сети как корпуса: развитие компьютерных технологий продолжится, что повлечет за собой качественное изменение инструментов обработки текста. Это позволит развивать уже существующие и создавать новые междисциплинарные исследовательские и конструкторские проекты на стыке лингвистики и информационных технологий.

Е.В. Майорова

i Надоели баннеры? Вы всегда можете отключить рекламу.