ЧЕЛОВЕК И ОБЩЕСТВО
уДк 378.14
применение навыков компьютерной обработки текста в ходе практических занятий по иностранному языку
Е.и. Бойчук, н.и. кожемякин
Рассматривается специфика применения компьютерных средств обработки текста с ориентированием на анализ ритмики французских текстов. Представлен алгоритм создаваемой компьютерной программы анализа ритма по основным языковым параметрам: фонетическому, лексическому, грамматическому, а также описаны методические способы их применения в ходе занятий по иностранному (французскому) языку.
Ключевые слова: компьютерная программа; обработка текста; анализ ритма; французский язык; метод; практические занятия; алгоритм.
E.I. Boytchuk, N.I. Kozhemyakin. APPLICATION OF COMPUTER TEXT-PROCESSING METHODS WHILE TEACHING FOREIGN LANGUAGE
The object of this article is to consider the peculiarities of the application of computer means of text-processing implementing the rhythm analysis of French texts. The algorithm of rhythm analysis is fulfilled form the point of view of free parameters: phonetic, lexical and grammatical. This article also represents the main methods of program application while teaching French.
Keywords: computer program; text-processing; rhythm analysis; French; method; workshops; algorithm.
Аспект исследования, описанный в данной статье, представлен одним из методов работы с текстом в рамках компьютерной лингвистики, в частности, таких ее направлений, как системная обработка, автоматическое извлечение фактов. Извлечение определенной информации из текста определяется конкретным коммуникативным намерением исследователя. Предлагаемая система обработки является проблемно-ориентированной, направленной на исследование ритмических характеристик французского текста.
В современной компьютерной лингвистике существует множество программ, направленных на исследование текста с точки зрения различных его аспектов. Так, существуют программы, позволяющие реализовать полный лингвистический анализ текстов на русском, английском, немецком и французском языках
(ПОЛИГЛОТ, Russian Context Optimizer, .Hndex. Server, Link Grammar Parser и др.). Модули лингвистического анализа включают в себя морфологию (словарную и бессловарную), синтаксис, семантику (включая толково-комбинаторные словари). Имеется модуль семантической рубрикации текстов. Однако зачастую анализ текста на таких уровнях лингвистического анализа, как графематический, морфологический, семантический - ограничивается использованием тематических синонимов, а также поиска по ключевым словам и формирования отчетов по частоте встречаемости слов в документах.
Наибольший интерес представляют программы, позволяющие дифференцировать иди-остиль писателя, выявлять принадлежность текста тому или иному автору, а также программы, определяющие функциональные стили речи. В разряде таких программ «Лингво-
126
Вестник Российского УНИВЕРСИТЕТА КООПЕРАЦИИ. 2013. №3(13)
анализатор» Д.В. Хмелева, «Худломер» Л. Де-лицына. Целью первой является определение близости любого из предлагаемых пользователем текстов к одному из авторских эталонов, определенных заранее и взятых из ресурсов Русской фантастики. Программа анализирует входной текст и выдает имена трех писателей, которые могли бы быть его наиболее вероятными авторами. Кроме этого программа находит три произведения каждого из авторов, которые наиболее близки данному тексту. Вторая программа производит автоматическую классификацию функциональных стилей текста (разговорного, художественного, газетно-ин-формационного, научно-делового) на основе спектров длин слов.
Кроме того, большой интерес представляет лингвистическая программа «Rhymes» Н. Кецариса, выполняющая поиск рифм на основе словаря А.А. Зализняка. При поиске программа реализует фонетическое сравнение слов с учетом ударения, позволяет находить для заданного слова синонимы и антонимы.
Программа, алгоритм которой описан в данной статье, позволяет комплексно подойти к проблеме проявления ритмических характеристик художественного текста. С практической точки зрения данные навыки работы с текстом применимы в ходе работы с аутентичными художественными как прозаическими, так и поэтическими текстами. Ритмический анализ, выполненный при помощи данной программы, позволяет глубже проникнуть в суть произве-
дения, в идею автора, более полно представить рисуемые образы.
В рамках данной статьи описывается начальный этап работы над компьютерной лингвистической программой, позволяющей анализировать французские художественные прозаические тексты. Программа осуществляет парсинг введенного текста, т.е. разбор строки по определенным правилам, осуществляемый пошаговым методом. При парсинге исходный текст преобразуется в структуру данных, обычно - в дерево, которое отражает синтаксическую (в рамках информатики, не путать с синтаксисом в лингвистике) структуру входной последовательности и хорошо подходит для дальнейшей обработки [1].
Условия разбора текста описаны правилами произношения и слогоделения во французском языке. При создании программы использовались следующие языки программирования: QML (для написания интерфейса), JavaScript (для написания логики, связанной с интерфейсом (внешним видом программы), HTML (для оформления текста), C++ и Qt (для создания функциональной части программы).
Анализ художественного текста осуществляется с точки зрения трех основных параметров: поиска фонетических, лексико-стилисти-ческих и грамматических средств ритмизации. Наиболее полно данный аспект представлен в монографии автора статьи [2].
Интерфейс программы выглядит следующим образом:
og
Анализ ритма французского художественного прозаического
текста
Фонетическим Лексический Стилистический Грамматический
аспект аспект аспект аспект
ритмических единиц Аллитерация Ассонанс Анноминация Таутацизм Рифма
Как видно из скриншота, в рамках фонетического аспекта предлагается анализ таких средств реализации ритма, как длина ритмических единиц (выявление равенства или последовательности слогов), рифма, аллитерация, ассонанс, анноминация, таутацизм. Внутри тайла «рифма» существует деление на точные и неточные рифмы, позволяющее оценивать текст с точки зрения их характера в разных экранах ввода.
Лексико-стилистический аспект представлен следующими средствами: анафора, эпифора, симплока, а также различные типы повторов (простой, градационный, эпаналепсис, антанаклаза, мимезис, пситтацизм), частота употребления антонимов и синонимов.
Анализ грамматического аспекта ритмизации проводится на основе анализа морфемного состава слов, выявления однородных членов, характеризующихся наличием определенных графических символов, частотности предложений общих по цели высказывания (вопрос, восклицание, умолчание (апозиопеза, апория), особенности порядка слов в предложении (инверсия, хиазм, симплока). Необходимо отметить, что программой выявляется частотность проявления перечисленных средств, что позволяет судить о периодичности их появления в тексте, а следовательно, о ритмичности текста. Наполнение прозаического текста теми или иными ритмическими средствами, в свою очередь, позволяет судить об особенностях языка того или иного писателя, его идиостиля.
Поиск и выявление перечисленных средств в тексте рассматриваются как типы его обработки. При этом анализируемый текст является динамическим, поскольку программа позволяет изменять существующие параметры при работе с ним. Необходимо отметить, что предлагаемая программа является вспомогательной при обработке художественного прозаического текста с точки зрения фонетического, лексико-стилистического и грамматического аспектов. Кроме того, ряд ритмических составляющих в рамках предложенных аспектов, зачастую зависящих от субъективных факторов, в частности от манеры чтения, от темпа речи, от стиля изложении, а также от возможностей компьютера, во внимание не принимается. Среди таких средств, например, можно отметить интонационные характеристики звучащего текста (мелодика, темп, тембр, интенсивность, паузы, цезуры, сустентации (замедления), синтаксический параллелизм, цепное нанизывание предложений и др.
В рамках наиболее показательного с точки зрения ритма фонетического аспекта выяв-
ление большинства описанных выше средств сводится в первую очередь к делению на слоги предложенного программе текста. Правила, позволяющие программе делить текст на слоги, сформулировать довольно сложно в связи с тем, что компьютер воспринимает не звуки, фонемы или буквы, а знаки. При создании программы за основу принимались правила слогоделения, правила чтения, звуковые сочетания, дифтонги, которые должны распознаваться программой как один слог (iè, ieu, eai и др.), а также всевозможные позиции согласных, звучание которых зависит от ближайшего окружения.
В программе прописаны правила произношения е беглого, что составило большую трудность, поскольку четко регламентированных правил произношения этого звука нет, все зависит от стиля, от темпа и многих других факторов, в том числе и от индивидуальной манеры чтения. За основу были приняты правила произношения беглого е в позиции двух согласных перед третьей. Кроме того, программа прописывает случаи сокращений, типа Mme, M., которые составляют по два и более слогов, в отличие от прописного варианта.
На основе этих и многих других введенных правил слогоделения прописывается алгоритм выделения ритмических единиц текста. В связи с тем, что выделение ритмических групп в рамках программы сложно подчинить общим правилам, существующим в фонетике, поскольку разграничение частей речи и членов предложения - задача для машины мало возможная, здесь были использованы правила деления на группы при помощи графических знаков, а именно запятых, двоеточий, точки с запятой, тире, а также союзов, как сочинительных, так и подчинительных. В рамках деления на ритмические единицы и нахождения равных по количеству слогов отрезков программа не различает конкретных звуков, а делит все существующие знаки на токены: пробелы, знаки препинания, союзы, а также знаки, соответствующие согласным и гласным буквам.
Безусловно, такое деление нельзя назвать точным, однако на данном этапе можно назвать это делением не на ритмические группы, а на некие ритмические единицы, облегчающие работу с ритмом текста. Деление на ритмические единицы и подсчет в них слогов позволяет выявить их равенство, прогрессии или последовательность, что напрямую связано с ритмом текста: единицы, равные с точки зрения слогового состава или представляющие собой слоговую последовательность с разницей в один слог, являются наиболее ритмичными. Приведем при-
мер деления текста на ритмические единицы и одновременного подсчета слогов в рамках выделенных единиц. Каждому количеству слогов в рамках единицы соответствует свой цвет.
Цветовая гамма составлена в соответствии с нарастанием и убыванием количества слогов в порядке увеличения или уменьшения интенсивности цвета:
С целью выявления повторяющихся согласных и гласных звуков в определенном фрагменте текста были сформулированы правила, позволяющие программе дифференцировать произносимые/непроизносимые согласные (гласные) в зависимости от их позиции и
сочетаемости. Для каждого знака указывается общее количество его употреблений в предлагаемом тексте с той целью, чтобы восприятие аллитерационных и ассонансных повторений звуков было более наглядным при работе с большими фрагментами текста:
Отражение повторяющихся гласных звуков основано на понимании ассонанса как повтора не только ударных, но и безударных гласных звуков, что связано с все возрастающим интересом исследователей к ритму прозы, одним из средств ритмизации которого является ассонанс как явление общелитературоведческое, а не стиховедческое. Особенностью программы в данном аспекте является выделение в качестве ассонирующего звука не каждого звука в отдельности, а группы звуков, имеющих фонетическое сходство, так, например, под транскрипционным знаком [а] подразумевается группа звуков [а, а, wa, иа, уа, aj, ja], под транскрипционным знаком [е] объединены [ej, je, е, je, еъ уе, ие] и т.д.
Создание программы для анализа ритма текста, прежде всего, необходимо для облегчения работы исследователя по таким параметрам, как подсчет слогов для выявления их равенства или последовательностей, имеющих ритмический характер, для механического выявления повторов, создающих ритмику текста и проявляющихся на всех языковых уровнях: фонетическом, лексическом и грамматическом. Все это необходимо для достижения высокой степени продуктивности в работе с текстом, проявляющейся в экономии времени исследователя, в исключении человеческого фактора, допускающего разного рода ошибки.
Как уже было отмечено, материал статьи отражает начальный этап работы над созданием программы. Последующие изменения в программе, позволяющие анализировать ритмику текста с точки зрения различных языковых аспектов, будут отражены в цикле статей, посвященных данному вопросу.
Основными методологическими целями
при работе с данной компьютерной программой в ходе преподавания иностранного языка является формирование умений и навыков работы с аутентичным текстом, формирование коммуникативной и информационной компетентности, а также стимулирование исследовательской деятельности учащихся.
Основными этапами работы с данной программой в ходе практических занятий по французскому языку (в частности по анализу текста) могут служить: 1) анализ литературного уровня произведения, в ходе которого учащийся выражает свое мнение об основной идее текста, формулируемой на основании результатов поиска программой ключевых слов отрывка или всего произведения; 2) анализ речевого уровня, подкрепляемого программным поиском средств выразительности речи персонажей или авторского повествования. Данный подход в вопросе анализа текста в большей степени стимулирует учащихся к чтению аутентичной литературы, повышает уровень самообразовательных навыков, формирует умение ориентироваться в большом потоке информации, анализировать, сравнивать, аргументировать, обобщать и делать выводы.
Список литературы
1. Альфред В. Ахо, Моника С. Лам, Рави Сети, Джеффри Д. Ульман. Компиляторы: принципы, технологии и инструментарий = Compilers: Principles, Techniques, and Tools [Электронный ресурс]. 2-е изд. М.: Вильямс, 2008. URL: http://dragonbook.stanford.edu/ (дата обращения: 10.10.2013).
2. Бойчук Е.И. Ритм прозы (на материале французского языка): монография. Ярославль: Изд-во ЯГПУ, 2013. 224 с.
БОЙЧУК Елена Игоревна - кандидат филологических наук, доцент кафедры иностранных языков. Ярославский государственный университет им. П.Г. Демидова. Докторант. Институт лингвистики и межкультурной коммуникации Московского государственного областного университета. Россия. Ярославль. E-mail: www.elena-boychouk@rambler.ru
КОЖЕМЯКИН Никита Ильич - девелопер. ООО «Хинт солюшнс». Россия. Ярославль. E-mail: www.enginegl@mail.ru
BOYTCHUK, Elena Igorevna - Candidate of Philology, Assistant Professor оf the Department of Foreign Languages and Communication. Yaroslavl State University named after P.G. Demidov. Post Doctorate Associate. Institute of Linguistics andIntercultural Communication of Moscow State Regional University. Russia. Yaroslavl. E-mail: www.elena-boychouk@rambler.ru
KOZHEMYAKIN, Nikita Iliych - Developer. «Hint solutions». Russia. Yaroslavl. E-mail: www. enginegl@mail.ru