Научная статья на тему 'Использование программ-конкордансеров в обучении лингвистов на примере обработки специализированного корпуса текстов'

Использование программ-конкордансеров в обучении лингвистов на примере обработки специализированного корпуса текстов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1495
203
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОРПУСЫ / КОНКОРДАНСЕРЫ / КОНКОРДАНС / CONCORDANCE / КЛАСТЕРЫ / CLUSTERS / ЧАСТОТНЫЙ АНАЛИЗ / FREQUENCY ANALYSIS / ЧАСТОТНЫЕ ТЕРМИНЫ / FREQUENCY TERMS / ЛИНГВИСТИЧЕСКОЕ ИССЛЕДОВАНИЕ / LINGUISTIC RESEARCH / CORPORA / CONCORDANCE TOOLS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Алексеева Н.И.

В статье представлены результаты проведения частотного анализа специализи рованного корпуса текстов с использованием лингвистического программного обеспечения программы-конкордансера на примере обработки корпуса текстов энциклопедии CALS авиационно-космического машиностроения для получения списка основных терминов. Специализированный корпус текстов, приемы статистической обработки текстовых данных могут быть использованы в обучении студентов магистратуры по направлению Лингвистика (переводчиков, преподавателей иностранного языка, PR-специалистов) для проведения индивидуального исследования.The article presents the results of specialized corpora processing with the use of linguistic software programs concordances. Specialized corpora, data-processing tools, can be used in training graduate students and allow them to carry out an individual linguistic research.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Использование программ-конкордансеров в обучении лингвистов на примере обработки специализированного корпуса текстов»

ИСПОЛЬЗОВАНИЕ ПРОГРАММ-КОНКОРДАНСЕРОВ В ОБУЧЕНИИ ЛИНГВИСТОВ НА ПРИМЕРЕ ОБРАБОТКИ СПЕЦИАЛИЗИРОВАННОГО КОРПУСА ТЕКСТОВ

Н.И. Алексеева

196

Аннотация. В статье представлены результаты проведения частотного анализа специализированного корпуса текстов с использованием лингвистического программного обеспечения - программы-конкордансера на примере обработки корпуса текстов энциклопедии CALS авиационно-космического машиностроения для получения списка основных терминов. Специализированный корпус текстов, приемы статистической обработки текстовых данных могут быть использованы в обучении студентов магистратуры по направлению «Лингвистика» (переводчиков, преподавателей иностранного языка, PR-специалистов) для проведения индивидуального исследования.

Ключевые слова: корпусы, конкордансеры, конкорданс, кластеры, частотный анализ, частотные термины, лингвистическое исследование

Summary. The article presents the results of specialized corpora processing with the use of linguistic software programs - concordances. Specialized corpora, data-processing tools, can be used in training graduate students and allow them to carry out an individual linguistic research.

Keywords: corpora, concordance tools, concordance, clusters, frequency analysis, frequency terms, linguistic research.

Одним из аспектов подготовки студентов магистратуры по направлению «Лингвистика» является знакомство с электронными корпусами текстов, программами-конкор дан се-рами, освоение их возможностей для решения практических и исследовательских задач.

Компьютерный корпус представляет собой массив естественных текстов современного языка (как письменных, так и устных), представленных на машинном носителе и долж-

ным образом упорядоченных с целью их использования в научных или практических целях. Применение корпусов текстов дает возможность выявить лексико-грамматическую сочетаемость слов, их частотность, образцы словоупотребления, использовать в качестве источника дополнительной информации о предметной области, использовании термина [1].

Использование таких электронных текстов, как Национальный корпус русского языка (НКРЯ), British

Преподаватель ^

4 / 2012

National Corpus, Bank of English, American National Corpus, целесообразно при работе с текстами общего характера.

Работа с текстами, содержащими лексику языков для специальных целей (ЯСЦ, англ. LSP) (техническими, экономическими, медицинскими и др.), языков профессиональной коммуникации, в настоящее время не поддержана готовыми корпусами, требует создания собственного массива специально подбираемых текстов. Для обработки таких текстов эффективно использование конкордансеров, программмного обеспечения, применяемого для проведения лингвистических исследований и статистической обработки массивов текстов.

Рассмотрим пример применения программы-конкордансера для выявления основных терминов в области CALS1 авиационно-космического машиностроения, где, как и в любой другой специальной области знаний или деятельности, для обозначения понятий используется множество терминов. К настоящему времени наиболее полным изданием на русском языке в этой области является энциклопедия [2].

Ниже приведены результаты частотного лингвистического анализа корпуса текстов энциклопедии [там же]. В результирующий список определений основных терминов CALS авиационно-космического машиностроения включены определения, содержащиеся в работах [2-5].

Одним из современных способов классификации терминов является анализ их использования в текстах для выделения высокочастотных,

среднечастотных и низкочастотных терминов. Частота употребления терминов позволяет выделить множество основных терминов, обозначающих понятия объектов CALS авиационно-космической индустрии на разных ступенях иерархии, в разных аспектах рассмотрения.

В классификации терминов по их формальной структуре можно выделить термины-слова, термины-словосочетания, аббревиатуры, заимствования из другого языка с одновременным формированием термина в языке реципиента [6]. В текстах энциклопедии [2] часто используются термины-словосочетания на русском и английском языках, и их аббревиатуры.

Электронный корпус составлен из текстов энциклопедии [там же] в формате txt.

Компьютерная обработка электронного корпуса программой-кон-кордансером применялась для решения следующих задач:

• выявления частоты и контекстов употребления в текстах составленного списка терминов; .

• пополнения списка значимых терминов в области CALS в результате проведения анализа высокочастотных слов и выявления новых терминов;

• отработки методики отбора терминов специальной области знаний по частотному критерию с использованием возможностей програм-мы-конкордансера.

Частотный анализ проводился в следующем порядке:

• Создание специальной лингвистической базы данных CALS (СЛБД) в форме частотно-алфавитного словаря слов текстов энциклопедии [там

1 CALS (Continuous Acquisition and Life cycle Support). См. определение в приведенном списке терминов.

4 / 2012

Преподаватель XXI

ВЕК

198

же]. Каждый экземпляр объекта (слово) СЛБД характеризуется атрибутом - абсолютной частотой употребления слова в текстах.

• Определение частот употребления терминов статьи [3] на основе анализа содержимого кластеров для словоформ терминообразующих элементов.

• Определение списка высокочастотных слов для СЛДБ CALS.

• Выделение в списке высокочастотных слов однословных терминов и терминоэлементов.

• Построение кластеров для поиска основных терминов.

• Формирование расширенного списка основных терминов.

Терминоэлементы - слова, имеющие самостоятельное значение и входящие в состав простого или сложного термина.

Конкордансер позволяет построить конкорданс - вертикальный список употребления слов в электронном корпусе текстов в контексте левого и правого окружения, и кластеры выделенных слов (словосочетаний).

Отбор в кластер по заданному критерию позволяет создать урезанный конкорданс. В качестве критерия отбора в кластер можно задавать искомое слово или словосочетание, минимальное / максимальное количество слов в записи кластера, левый или правый горизонтальный контекст, маски (*,?), минимальную частоту употребления. Результаты отбора в кластер можно дополнительно сортировать по варианту положения искомых слов в записи - крайнее левое или крайнее правое.

В процессе анализа обработано 342100 слов и построена СЛБД CALS для 39135 слов. 2490 тысяч слов с ча-

стотой употребления 1229-20 отнесены к высокочастотным и среднеча-стотным словам.

К высокочастотным и среднеча-стотным словам относятся, например, такие однословные термины и терминоэлементы, как система, данные, изделие, производство, информация, управление, продукция, проектирование, процессы, модели, технологии, средства, CALS, обеспечение, документация, детали, цикл, работы, эксплуатация, контроль, двигатели, элементы, модели, обработка, предприятия, подготовка, моделирование, испытания, качество, модели, изготовление, информационные, комплексы, авиационные, технологические, материалы, параметры, ГОСТ, конструкции, технические, ЧПУ, требования, стандарты, CAD, оснастка, документы, реализация, измерения, характеристики, автоматизация, САПР, поддержка, PDM, управление, этапы, процессы, хранение, безопасность, структура, операции, CAM, информация, поверхности, разработка, станки, ИЭТР, период, автоматизированные, MRP, геометрия, планирование, сеть, цикл, интеграция, макет, электронный, описание, поддержка, лопатки, подготовка, сертификация, CAE, оптимизация, организация, ресурсы, структура, ЖЦ, процедуры, синтез, модуль, ЖЦИ, представление, ЛА, станок, КИМ, ИИС, база, метрологическая, компьютерная, интерфейс, логистическая, обслуживание, план, ТПП, инфраструктура, программное, программирование, макет, ЖРД, машиностроение, унифицированные, образец, оценка, планы, пространство, ПО, компоненты, PLM, объект, представление, оснащение, STEP, АСТПП.

Преподаватель XX

ЕК

4 / 2012

Расширенный список основных терминов целесообразно использовать для ориентации в структуре специальных знаний (CALS авиационно-космического машиностроения).

Специализированный корпус текстов, приемы статистической обработки текстовых данных могут быть использованы для проведения практических занятий при обучении студентов магистратуры направления «Лингвистика».

Ниже приведен фрагмент сформированного списка, в котором после определения термина в круглых скобках указана частота его употребления.

Фрагмент списка основных терминов CALS

Continuous Acquisition and Life cycle Support (CALS). CALS - аббревиатура, которая сменила несколько значений. Сегодня придерживаются мнения, что CALS (Continuous Acquisition and Life cycle Support) - непрерывная информационная поддержка жизненного цикла продукции. Объединяет три группы стандартов США и ряда европейских стран, включающих: функциональные стандарты на процессы и методы формализации данных; информационные стандарты описания данных о продуктах и процессах; стандарты технического обмена, контролирующие носители информации и процессы обмена данными между передающими и принимающими системами. Функциональные стандарты охватывают область разработки функциональных требований к следующим процессам: управления конфигурацией; поставок запасных частей (начальных и дополнительных); технического обслуживания, ремонта и капитального ремонта; модификации и пересмотра (обновления информации)

эксплуатационного мониторинга и сообщения о неисправностях. Область действия указанных стандартов распространяется и на информацию, необходимую для работы организаций заказчика и поставщика, а также для обмена данными между ними (23).

Авиастроение - отрасль промышленности по производству самолетов и вертолетов, приборов и оборудования для авиации (50).

Авиационные ГТД - тепловая машина, предназначенная для преобразования энергии сгорания топлива в кинетическую энергию реактивной струи и (или) в механическую работу на валу двигателя, основными элементами которой являются компрессор, камера сгорания и газовая турбина (50).

Авиационные двигатели (АД) - тепловые установки, служащие для управляемого перемещения воздушных судов (в первую очередь самолетов и вертолетов) за счет создания достаточной и необходимой движущей силы тяги (50).

Авиация - 1) теория и практика передвижения в атмосфере на летательных аппаратах тяжелее воздуха; 2) воздушный флот, совокупность летательных аппаратов тяжелее воздуха, объединенных по какому-либо признаку, например: гражданская авиация, военная авиация, легкомоторная авиация, сельскохозяйственная авиация, бомбардировочная и т.д. (60).

Автоматизированная система (АС) - система, состоящая из персонала и комплекса средств автоматизации его деятельности, реализующая информационную технологию выполнения установленных функций [ГОСТ 34.003-90, статья 1.1] (242).

Автоматизированное проектирование (англ. Computer Aided Design - CAD) -

199

4 / 2012

Преподаватель ^

200

совокупность методов и инструментальных средств для проектирования (347).

Автоматизированное рабочее место (АРМ) - индивидуальный комплекс технических и программных средств, предназначенный для автоматизации профессионального труда специалиста и обеспечивающий подготовку, редактирование, поиск и выдачу на экран, и печать необходимых ему документов и данных (38).

Автоматизированные системы для проектирования техпроцессов и оформления технологической документации (англ. Computer Aided Process Planning -CAPP) - совокупность методов и инструментальных средств для проектирования техпроцессов и оформления технологической документации (26).

Автоматизированные системы для расчетов (англ. Computer Aided Engineering - CAE) - совокупность методов и инструментальных средств для выполнения инженерных расчетов (86).

Автоматизированные системы производства (англ. Computer Aided Manufacturing - CAM) - совокупность методов и инструментальных средств для программирования оборудования с ЧПУ (131).

База знаний - совокупность знаний, относящихся к некоторой предметной области и формально представленных таким образом, чтобы на их основе можно было осуществлять рассуждения (27).

Банк данных - автоматизированная информационная система централизованного хранения и коллективного использования данных, включаю-

щая одну или несколько баз данных и СУБД (24).

Блиск (англ. bladed disk, blisk) - моноколесо, представляющее собой диск, выполненный заодно с лопатками (60).

Быстрое прототипирование (англ. Rapid Prototyping - RP) - процесс послойного построения физической модели (прототипа) в соответствии с геометрией математической модели (17).

СПИСОК ИСТОЧНИКОВ И ЛИТЕРАТУРЫ

1. Шевчук В.Н. Электронные ресурсы переводчика: Справочные материалы для начинающего переводчика. - М.: Либрайт, 2010. - 136 с.

2. Российская энциклопедия CALS. Авиационно-космическое машиностроение / Гл. ред. А.Г.Братухин. - М.: ОАО "НИЦ АСК", 2008. - 608 с.: илл.

3. АчуевН.Р., СуровВ.И. Основные понятия и определения CALS // Российская энциклопедия CALS. Авиационно-космическое машиностроение / Гл. ред. А.Г. Братухин. - М.: ОАО "НИЦ АСК", 2008. - 608 с.: илл. - С. 594-600.

4. Боргест Н.М., Данилин А.И., Комаров В.А. Краткий словарь авиационных терминов / Под ред. В.А. Комарова. - М.: Изд-во МАИ, 1992.

5. Безъязычный В.Ф., Замятин А.Ю., Замятин В.Ю., Замятин Ю.П., Семенов В.А. Авиадвигателестроение. Качество, сертификация, лицензирование. - М.: Изд-во Машиностроение, 2002.

6. Лейчик В.М. Терминоведение: Предмет, методы, структура. - М., 2006.

7. Лотте Д.С. Основы построения научно-технической терминологии: Вопросы теории и методики. - М.: Изд-во Академии Наук СССР, 1961. ■

Преподаватель век

4 / 2012

i Надоели баннеры? Вы всегда можете отключить рекламу.