Научная статья на тему 'Корпусные исследования в лингвистике на материале институционального дискурса'

Корпусные исследования в лингвистике на материале институционального дискурса Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
98
17
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЗАИМСТВОВАНИЕ ТЕКСТА / ЯЗЫК УРДУ / КОРПУС ТЕКСТОВ / АННОТАЦИЯ / СИНТАКСИС / ЛОГИЧЕСКАЯ РЕГРЕССИЯ / ЭЛЛИПСИС / НЕПОЛНОЕ ПРЕДЛОЖЕНИЕ / АНГЛИЙСКИЙ ЯЗЫК
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Корпусные исследования в лингвистике на материале институционального дискурса»

что учащиеся (иммигранты) не борются за свои права на включение их в принимающее общество.

Авторы обнаружили также отсутствие культурологических сравнений и / или информации о странах происхождения иммигрантов или их жизни до прибытия в Каталонию. В учебниках нормы поведения в каталонском обществе обычно представляются без каких-либо упоминаний о культурных различиях или опыте межкультурного взаимодействия, который переживает новоиспеченный член общества (иммигрант). Это отрицание культурного и семейного фона иммигранта может отрицательным образом сказываться на учащихся, формируя представление о незначительности их культуры в принимающем обществе, о необходимости по прибытии в Каталонию забыть свои корни и без всяких сомнений принять все нормы каталонского общества.

Исследователи рекомендуют авторам учебников избегать отрицательных стереотипов, включать больше информации о традициях, убеждениях и ценностях иммигрантов и не скрывать внутренние конфликты, с которыми сталкиваются иммигранты в Каталонии. «Таким образом, учебники по каталанскому языку как второму языку для взрослых стали бы инструментом для социальных перемен» (2, с. 74).

Список литературы

1. Berkin S.C., Le Mür R. Racismo en la imagen de los indígenas en los libros de texto gratuitos (2012-2015) // Comunicación y sociedad. - Guadalajara, 2017. -Núm. 28. - P. 11-33. - Mode of access: http://www.scielo.org.mx/scielo.php? script=sci_arttext&pid=S0188-252X2017000100011&lng=en&nrm=iso

2. Bori P., Petanovic J. The representation of immigrant characters in Catalan as a second language textbooks: A critical discourse analysis perspective // Lengua y migración. - Alcalá, 2017. - Núm. 9 (2). - P. 61-75. - Mode of access: https://www.academia.edu/35555285/The_representation_of_immigrant_characters _in_Catalan_as_a_second_language_textbooks_a_critical_discourse_analysis_pers pective

2019.02.023. Л.Р. КОМАЛОВА. КОРПУСНЫЕ ИССЛЕДОВАНИЯ В ЛИНГВИСТИКЕ НА МАТЕРИАЛЕ ИНСТИТУЦИОНАЛЬНОГО ДИСКУРСА. (Обзор).

Ключевые слова: заимствование текста; язык урду; корпус текстов; аннотация; синтаксис; логическая регрессия; эллипсис; неполное предложение; английский язык.

В работе (3) предпринята попытка решения задачи отслеживания повторного использования текста (заимствования текста из существующих документов для создания новых текстов), которая в настоящее время осложняется наличием и легкодоступностью публикаций из крупных онлайн-хранилищ. По мнению авторов, основным препятствием в разработке существующих и оценке новых методов одноязычного повторного использования текста (особенно для южноазиатских языков) является отсутствие стандартизированных контрольных корпусов.

В статье описывается подобный контрольный корпус для языка урду. «COUNTER (COrpus of Urdu News TExt Reuse)» содержит 1200 документов с реальными примерами повторного использования текста на материале институционального дискурса СМИ. Массив текстов, составляющих корпус, был аннотирован вручную и представляет три уровня повторного использования: 1) полное заимствование, 2) частичное заимствование и 3) отсутствие заимствования. В статье приводится ряд методов оценки сходства с целью демонстрации возможностей использования корпуса для разработки, оценки и сравнения систем обнаружения повторного использования текста для языка урду.

Авторы статьи (1) приводят результаты эмпирического исследования эллиптических конструкций в неполном предложении (verb phrase ellipsis) на материале корпуса публикаций всех разделов «Wall Street Journal». Предложенная аннотация проводилась вручную (три аннотатора): кодировался вспомогательный глагол, при котором опускалась глагольная фраза; начало и конец антецедента; синтаксический тип антецедента и тип синтаксической связи между исходными и целевыми предложениями эллиптической конструкции и его антецедентом. Далее результаты аннотирования сопоставлялись с результатами, полученными на том же материале при помощи системы автоматического аннотирования «Penn Treebank».

В ходе исследования было обнаружено 487 эллиптических конструкций (включая предикативный эллипсис; антецедент, содержащий делецию; сравнительные конструкции и псевдоопуще-

ния), а также 67 случаев использования смежных приемов, таких как анафора. Согласие между аннотаторами было высоким (F = 0,97). Авторы пришли к выводу, что разработанная ими аннотация не зависит от применяемого в исследовании теоретического подхода и дает лучшие результаты, чем иные аннотации, основанные на автоматических методах. Полученный аннотированный корпус будет полезен для изучения эллиптических конструкций в неполном предложении, а также для оценки систем обработки естественного языка, оснащенных алгоритмами, учитывающими использование многоточия.

В работе (2) представлены алгоритмы автоматического извлечения и аннотирования образцов дативного чередования (dative altemation) на базе корпуса текстов на английском языке. В качестве языкового материала используется два набора данных, отобранных вручную: 930 образцов из корпуса устной и письменной речи на британском варианте английского языка (ICE-TRAD) для адаптации разрабатываемых алгоритмов и оценки ошибок; 2349 образцов из корпуса американского варианта английского языка (SWB-TRAD) в качестве тестового корпуса для количественной оценки результативности разрабатываемых алгоритмов.

Предлагается следующая последовательность действий для автоматического обнаружения исследуемого явления: 1) создание списка дательных глаголов; 2) извлечение всех предложений с этими глаголами из корпуса; 3) разбор предложений с помощью парсера FDG; 4) извлечение образцов из парсера; 5) фильтрация образцов с применением эвристических правил. При помощи построения модели логической регрессии результаты автоматического аннотирования сопоставляются с результатами ручного аннотирования.

В ходе исследования было выявлено, что парсер FDG обнаруживает образцы дативного чередования недостаточно успешно: больше всего трудностей возникает при обработке образцов устной спонтанной речи, длинных предложений. Отвечая на вопрос о применимости в ходе лингвистических исследований разработанных алгоритмов автоматического извлечения и аннотации образцов дативного чередования в том случае, если они содержат ряд ошибок, авторы приходят к выводу, что данный подход применим для выявления синтаксических, семантических и дискурсивных

особенностей, но по-прежнему требует сопровождения и коррекции со стороны специалиста.

Список литературы

1. Bos J., Spenader J. An annotated corpus for the analysis of VP ellipsis // Language resources and evaluation. - 2011. - Vol. 45. - P. 463-494. - DOI: 10.1007/s10579-011-9142-3. - Mode of access: https://link.springer.com/article/10.1007/s10579-011-9142-3

2. Evaluating automatic annotation: Automatically detecting and enriching instances of the dative alternation / Theijssen D., Boves L., van Halteren H., Oostdijk N. // Language resources and evaluation. - 2012. - Vol. 46. - P. 565-600. - DOI: 10.1007/s10579-011-9156-x. - Mode of access: http://daphnetheijssen.ruhosting. nl/publications/Theijssen_et_al_2011_Evaluating_automatic_annotation.pdf

3. Sharjeel M., Adee Nawab R.M., Rayson P. COUNTER: Corpus of Urdu news text reuse // Language resources and evaluation. - 2017. - Vol. 51. - P. 777-803. -DOI: 10.1007/s10579-016-9367-2.

i Надоели баннеры? Вы всегда можете отключить рекламу.