УДК 378.147
Филологические науки
Гусева Алла Ханафиевна, канд. пед. н., доцент кафедры теории и практики
перевода Института филологии и истории ФГБОУ ВО «Российский государственный гуманитарный университет» («РГГУ»)
О СПЕЦИАЛЬНЫХ ЗАДАЧАХ ОСВОЕНИЯ ОСНОВНЫХ ИНСТРУМЕНТОВ ЛИНГВИСТА В ЭПОХУ КОМПЬЮТЕРНЫХ
ТЕХНОЛОГИЙ
Аннотация: В статье рассмотрены базовые программные продукты, являющиеся основными инструментами профессиональной деятельности лингвиста. Приведена типология корпусов текстов и словарных баз данных, изучаемых студентами в процессе освоения дисциплин профессионального цикла. Сформулированы задачи успешного освоения обучаемыми компьютерных инструментов, обязательных для применения в профессиональной деятельности.
Ключевые слова: компьютерные технологии, программное обеспечение, программный продукт, инструмент лингвиста, гипертекст, словарная база данных, корпус текстов.
Abstract: The article discusses the basic software products, which are the main tools for the professional activity of a linguist. The typology of text corpora and vocabulary databases studied by students in the process of mastering the disciplines of the professional cycle is given. The tasks of successful mastering by trainees of computer tools, which are mandatory for use in professional activities, are formulated.
Keywords: computer technology, software, software product, linguist's tool, hypertext, dictionary database, text corpus.
В эпоху повсеместного распространения компьютерных технологий все чаще возникает необходимость разработки и интеграции в информационную среду качественно новых программных продуктов, а также модифицируются и оптимизируются все с большей периодичностью существующие версии программного обеспечения. В этой связи востребован труд не только программистов, но и лингвистов, устанавливающих концептуальные основы взаимодействия человека с компьютером.
Лингвистика как наука подразумевает постоянную работу с объемными массивами данных в таких аспектах функционирования языка, как лексика, грамматика, стилистика и других. С возникновением баз банных как программного продукта профессиональная деятельность лингвистов претерпела существенные изменения.
В первую очередь, появилась возможность создания корпусов текстов. Корпус текстов является базовой категорией для качественной лингвистической обработки и понимается специалистами как «большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач» [1, с. 31]. Среди перспективных направлений исследовательской деятельности в области корпусной лингвистики перечислим основные, т.е. создание и пополнение таких корпусов текстов, как: 1. корпусы текстов отдельных типов, стилей, жанров, в т.ч. связанных единством тематики, времени создания и др.; 2. корпусы текстов, интертекстуально связанных с «центрами интертекстуального излучения» [2, с. 9]; 3. корпусы инфотекстов, т. е. единых корпусов индивидуально авторских художественных текстов и соответствующих критических материалов; 4. аспектные корпусы текстов, сформированных вокруг единой проблематики; 5. корпусы текстов вокруг конкретных интертекстем (например, базовых метафор и метафорических архетипов).
Во-вторых, большое внимание лексикографов (лингвистов отдельной специализации) было уделено разработке лингвистических баз данных,
электронных словарей (как моно- так и мультиязычных, переводных, толковых, визуальных, тезаурусов, банков данных и других).
В этой связи освоение специализированного ПО занимает особое место в обучении лингвистов и переводчиков в системе высшего образования. Например, образовательный модуль «Технологии в переводе» читается студентам 5 курса Института лингвистики и Института филологии и истории РГГУ (направление «Лингвистика», профиль «Перевод и переводоведение»).
Изучение иностранных языков и практики перевода предполагает ежедневную работу со словарными базами данных (СБД) как в устном, так и в письменном режимах. По типологии известного лингвиста В.Н. Шевчука ЛБД следует относить к информационным системам, которые «обеспечивают автоматический поиск лингвистической и экстралингвистической информации в Интернете, а также управление информационными потоками (энциклопедии, электронные библиотечные каталоги, банки терминов, серверы поиска и т. д.)» [5, с. 18].
Современные базы данных можно разделить на следующие виды: 1. простейшие (простые структуры БД); 2. иерархические; 3. сетевые; 4. реляционные; 5. «ключ-значение»; 6. документоориентированные; 7. графовые; 8. колоночные; 9. комбинированные; 10. многомодульные.
С появлением мультимедийных ресурсов студентам и преподавателям стали доступны как СБД на дисковых носителях, являющиеся электронной версией толковых, переводных и энциклопедических словарей, так и сетевые и онлайн версии данных продуктов.
Вне зависимости от вида, объектом описания СБД является лексическая единица, сопровожденная словарной статьей и входящая в состав машиночитаемого словарного массива. Среди основных типов СБД следует перечислить такие, как: 1. рубрикаторы; 2. тезаурусы; 3. классификаторы; 4. терминологические словари; 5. тематические словари; 6. иллюстрированные и визуальные словари.
Конкретизируем понятие гипертекста, поскольку в информатике, лингвистике и литературоведении данный термин трактуется по-разному: и с точки зрения технологии, и как текстовый формат, и как структура баз данных: «гипертекст - текст, устроенный таким образом, что он превращается в систему, иерархию текстов, одновременно составляя единство и множество текстов. Простейший пример гипертекста - любой словарь или энциклопедия, где каждая статья имеет отсылки к другим статьям этого же словаря. В результате читать такой текст можно по-разному: от одной статьи к другой, по мере надобности, игнорируя гипертекстовые отсылки; читать статьи подряд, справляясь с отсылками; наконец, пуститься в гипертекстовое плавание, то есть от одной отсылки переходить к другой. Гипертекст — это нелинейный лабиринт, своеобразная картина мира, и выйти из него, войдя один раз, труднее, чем может показаться на первый взгляд» [4, с. 46].
Как правило, все лингвистические базы данных словарного типа основаны на жестком структурировании и нуждаются в регулярном редактировании и обновлении в связи с возникновением в языке и в конкретной области деятельности человека новых лексических единиц, терминов и терминированных понятий. В этой связи используемые технологии при разработке СБД на иностранных языках по своей сути представляют собой тезаурусы и классификаторы, а по структуре чаще всего являются колоночными, комбинированными и реляционными.
Для многомодульных СБД характерна опция конвертации при работе в системах перевода с целью ведения терминологической, тематической и проектной баз данных перевода. В этом случае лексическая единица также выступает структурной единицей БД, связывающей по технологии гипертекста различные модули системы. В МСБД используются различные представления для разных типов данных и объединены функциональные возможности нескольких видов БД. Например, в случае работы группы переводчиков над одним текстовым проектом навигация МСБД позволяет управлять всеми элементами в рамках одного запроса.
Следует отметить, что данная функция особенно важна при переводе объемного корпуса текстов, т.к. она обеспечивает согласованные действия в случае обновления, редактирования и изменения хранящейся лексической информации. Основными преимуществами МСБД для ведения переводческой деятельности с крупными проектами можно считать следующие: непрерывный доступ, простое распределение данных, постоянство базовой инфраструктуры, расширение за счет добавочных модулей, снижение нагрузки на СУБД.
Безусловно, для грамотного изучения и освоения иностранного языка, а также активизации лексического запаса студентов необходимо постоянное пополнение БД дидактическими материалами и текстами разнообразной тематики.
Данную задачу решают документоориентированнные БД, совместно использующие базовую семантику доступа и поиска хранилищ ключей и значений. Накопитель текстовых проектов или хранилище документов имеет ключ для уникальной идентификации данных ДОБД. Необходимо отметить, что в данном случае семантика предполагает однозначное значение лексической единицы, являющейся структурной единицей системы в том числе.
В обязательном порядке единообразно структурирован текстовый проект ДОБД, что требует от студентов определенной лингвистической обработки при внесении того или иного текстового проекта в ДОБД. Среди неоспоримых преимуществ данного вида СБД следует назвать такие, как: наличие собственной внутренней структуры, оперативность разработки, возможность изменения свойств при постоянной структуре, сохранение данных в стандартном формате по заданной схеме.
Для обучения переводу как письменному, так и устному, ДОБД является ценным дидактическим материалом преподавателя, к которому можно неоднократно обращаться в случае необходимости при дальнейшей работе, а студенты, создав ДОБД приобретают привычку работы с лексическим материалом в формате текстовых проектов и корпусов на постоянной основе.
Следует упомянуть о визуализации данных как одного из эффективных методов изучения иностранного языка и присвоения иноязычной информации. При размещении лексики в реляционные базы данных студенты приобретают навыки построения логико-семантических схем. РБД в основном структурированы в виде таблицы, где каждый столбец в таблице имеет имя и тип, а каждая строка представляет отдельную запись или элемент данных в таблице, который содержит значения для каждого из столбцов.
Как и в ДОБД, в РБД связи между данными организованы с помощью табличного гипертекста. Основными функциями данного вида СБД являются: высокоорганизованная структура и гибкость, возможность адаптации к различным типам данных, наличие нескольких полей (ключей) в формате внешней и внутренней ссылки, возможность ссылочного соединения с полями других таблиц.
При редактировании стандартной СБД словарного типа (в первую очередь, переводных словарей) закономерно применения такого формата, как колоночные базы данных. КБД следует отнести, скорее всего, к нереляционным колоночным хранилищам или БД с широкими столбцами. Как и РБД, КБД хранят данные, используя строки и столбцы, но с иной связью между элементами. Например, все строки РБД соотнесены по фиксированной схеме, определяющей назначение столбцов, типы данных и другие критерии.
В КБД используются так называемые «колоночные семейства», которые, в отличие от таблиц, содержат строки, каждая из которых определяет собственный формат. Функция поиска осуществляется уникальным идентификатором, определяющим значения и имена.
Строка состоит из уникального идентификатора, используемого для поиска, за которым следуют наборы имён и значений столбцов. В качестве преимуществ КБД для разработки и редактирования словаря укажем высокую производительность, доступность по одному идентификатору, гарантированное размещение всех данных строки в одном кластере, что упрощает сегментацию и масштабирование данных.
Высокая образовательная ценность вышеперечисленных СБД как для преподавателя иностранного языка и его научной деятельности, так и для студента, изучающего язык и культуру зарубежных стран, зависит от типа контента и формата навигации.
Разработка и редактирование студентами СБД направлены на выполнение креативных заданий как удаленно, не выходя из дома, так и в компьютерном классе, в аудиторном режиме.
Перечислим образовательные задачи при работе СБД:
1. ознакомить со спецификой чтения и перевода источников гипертекстового формата на иностранном языке;
2. выработать умение применять полученные теоретические знания в практической деятельности при дискурсивном и поисковом чтении материалов и аргументировано обосновывать собственные переводческие решения;
3. научить проводить лингвистический и лингвостилистический анализ посредством аналитического чтения;
4. научить анализировать структуру текстовых материалов при размещении в СБД;
5. совершенствовать навыки работы в сетевых средах профессиональных приложениях переводчика с целью разработки и поддержки СБД.
В заключение отметим, что СБД как технология и формат должны использоваться в комплексе с традиционными источниками информации, в первую очередь, образовательной литературой, что обусловлено концептуально новыми факторами образовательного процесса - как индивидуального, внеаудиторного (оффлайн), так и коллективного, аудиторного (онлайн).
Основным выводом по вопросам использования баз данных в преподавании иностранного языка является констатация факта, что лингвистическая обработка аутентичного материала в цифровом формате позволяет сократить время поисковой деятельности, оптимизировать усвоение информации гипер-объема, совершенствовать коммуникативную компетенцию, и, как следствие, повысить мотивацию к освоению технологий перевода.
Библиографический список:
1. Захаров В.П. Корпусная лингвистика: уч.-метод. пособ. / СПб.: СПбГУ, 2005. 48 с.
2. Коваль В.И., Кураш С.Б., Аматов А.М. «Текст в мире текстов» как глобальная метафора (интертекст - гипертекст - корпус текстов) // Научный результат. Вопросы теоретической и прикладной лингвистики. 2019. Т.5, №1. С. 4-11.
3. Полонский В.М. Словарь по образованию и педагогике. / М.: Высш. шк., 2004. 511 с.
4. Руднев В.П. Словарь культуры XX века: ключевые понятия и тексты / М.: Аграф, 1999. 381 с.
5. Шевчук В.Н. Информационные технологии в переводе. Электронные ресурсы переводчика 2. / М.: Зебра Е, 2013. 384 с.