Научная статья на тему '2010. 04. 023. Современные изыскания в области прикладной и экспериментальной лингвистики'

2010. 04. 023. Современные изыскания в области прикладной и экспериментальной лингвистики Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
113
17
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МАТЕМАТИЧЕСКАЯ ЛИНГВИСТИКА / МАШИННЫЙ ПЕРЕВОД / РЕЧЬ АВТОМАТИЧЕСКИЙ АНАЛИЗ
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «2010. 04. 023. Современные изыскания в области прикладной и экспериментальной лингвистики»

1. Выявлены и описаны признаки недостаточности недея-тельностных концепций речевой коммуникации, имеющих хождение в настоящее время: механицизм, информационность, редукционизм, досистемный тип рефлексии.

2. Установлена природа внутренней объективной необходимости речевой коммуникации: она состоит в знаковой координации деятельностей участников коммуникации средствами языка.

3. Сформулированы содержательные и взаимосвязанные дефиниции деятельности, речевой деятельности, коммуникативной деятельности, значимые и продуктивные для теории речевой коммуникации.

4. Обоснован необходимый системный состав отдельного акта речевой коммуникации: коммуникативная деятельность говорящего, текст (высказывание), коммуникативная деятельность реципиента, на системном фоне некоммуникативных деятельностей субъектов коммуникации, условий общения и референтной ситуации.

5. Представлена характеристика базового механизма речевой коммуникации как механизма знаковой координации коммуникативных деятельностей участников и схема его функционирования в виде переходящих друг в друга координационных колец.

6. Выявлен характер обусловленности целого ряда факторов речевой коммуникации действием базового механизма речевой коммуникации, состоящего в знаковой координации деятельностей коммуникантов.

Список литературы (с. 149-153) включает в себя работы на русском и английском языках.

М.Б. Раренко

ПРИКЛАДНОЕ ЯЗЫКОЗНАНИЕ

2010.04.023. СОВРЕМЕННЫЕ ИЗЫСКАНИЯ В ОБЛАСТИ ПРИКЛАДНОЙ И ЭКСПЕРИМЕНТАЛЬНОЙ ЛИНГВИСТИКИ. 1. ПОТАПОВА Р.К. Лингвистика и информационно-коммуникативные технологии применительно к речеведению // Концептуальный спектр изысканий в современном речеведении / Отв. ред. Потапова Р.К. - М.: ИПК МГЛУ «Рема», 2009. - С. 9-24.

2. БЕЛЯКОВ М.В., МАКСИМЕНКО О.И. Элементы систем машинного перевода в процессе обучения иностранным языкам // Там же. - С. 25-31.

3. БОРИСОВА И. А. Дискурсивные слова в дистантном опосредованном устно-речевом дискурсе // Там же. - С. 38-48.

4. ДОЛИНСКИЙ В.А. Методология квантитативной и синергети-ческой лингвистики // Там же. - С. 67-83.

5. КУЗНЕЦОВ В.Б., КУЛАЙ А.Ю. О некоторых аспектах автоматической идентификации языка речевых сообщений // Там же. -С.190-199.

6. ХИТИНА М.В. Использование статистического инструментария в области прикладного речеведения // Там же. - С. 244-253.

Р.К. Потапова в статье (1) указывает на необходимость качественного образования и подготовки специалистов по теоретической и прикладной лингвистике, что обусловливает способности индивидов к самостоятельной работе и поиску решений в областях, связанных с программированием, речевыми технологиями, лингвистическими отраслями, системами обучения и т.д.

Преимущества информатизации лингвистического образования характеризуются наличием следующих признаков: возможностью органического соединения языковой информации с информацией, основанной на любых других культурно-значимых семиотических системах (графика, музыка, символика, изобразительное искусство, фотография, кинематография, видеодокументалистика и т.д.); практически неограниченным объемом используемых информационных массивов; скоростью проведения рутинных интеллектуальных операций с лингвистическими массивами; многомерным анализом информационных массивов; возможностью сопряжения письменной и устной форм речи при наличии видеоряда (т.е. мультимедийным подходом); оступом к новейшим информационным массивам в режиме реального времени на удаленном расстоянии.

Вышеназванные особенности информационно-коммуникационных технологий (ИКТ) открывают широкие перспективы для разработки и эксплуатации новых образовательных технологий, направленных на: создание представительных корпусов текстов, электронных словарей разных типов, справочных таблиц, тестовых

массивов; создание программных электронных продуктов (анализирующих, синтезирующих, обучающих программ).

В связи с этим следует подчеркнуть, что к числу конкретных типов электронных продуктов лингвистического профиля относятся: различные типы электронных словарей; одноязычные толковые словари и тезаурусы; двуязычные и многоязычные переводные словари (общеязыковые и отраслевые - по различным подъязыкам); многоязычные терминологические словари; системы автоматизированного перевода (разной степени автоматизированности); гипертекстовые системы энциклопедического типа, электронные энциклопедии; электронные базы данных (массивы текстов различных жанров); экспертные лингвистические системы; обучающие программы, разрабатываемые в соответствии с конкретными задачами и этапами обучения; - дистанционное обучение (развитие современных методов обучения иностранным языкам на базе ИКТ).

Таким образом, векторы развития лингвистики в рамках направления «Лингвистика и новые информационные технологии» можно определить с учетом следующих аспектов: создание лингвистических баз данных, включающих наряду с учебными материалами корпуса текстов на русском и иностранных языках; целесообразное и необходимое распределение материалов по серверам сети; выбор подходящей web-технологии; построение образовательных порталов применительно к лингвистическим знаниям; разработка онтологии лингвистических предметных областей; унификация средств представления лингвистических онтологий; разработка лингвистических процессоров для интеллектуальных систем; моделирование лингвистических процессов и структур в информационно-образовательной среде; развитие семантического Web; создание лингвистических центров фундаментальных и прикладных исследований, инкорпорированных в информационно-образовательную среду; снижение временных и материальных затрат на создание электронных учебников за счет привлечения новых информационных технологий; создание виртуальных мульти-лингвальных и мультикультурных миров.

В статье (2) особое внимание уделяется компьютерным и мультимедийным технологиям, позволяющим пользователям решать когнитивные задачи при работе с текстом.

Главным в проблеме машинного перевода (МП) была и остается лингвистическая часть, необычайно широкая, охватывающая все уровни языка: от довольно простых морфологических структур до сложных семантических. Поскольку необходимо максимально повысить качество машинного продукта (перевода) в человеко-машинной системе, сделать МП близким по качеству к переводу, который осуществляет человек, лингвистическая проблематика МП остается неисчерпаемой, и можно сказать, что машинный перевод остается областью интенсивного развития и порождения разнообразных идей.

Современные системы машинного перевода (СМП) представляют собой сложный комплекс, содержащий не только собственно двуязычный переводной словарь особой, характерной только для СМП структуры, но и обладающий описанием грамматической системы языка. Надо сказать, что в разных системах объем грамматической информации различен. В некоторых системах ограничиваются парадигмами слов, в других же в систему включено также описание синтаксических и (намного реже) семантических отношений.

Согласно последним аналитическим обзорам, большинство современных программ МП выполняет пословный (или клишированный) перевод, опирающийся на некоторый набор правил. Разработчики систем МП признают, что относительно неплохой результат можно получить только после настройки системы на конкретную языковую ситуацию, т.е. после установки словаря по соответствующей предметной области, указания типа текста и корректировки нескольких первых страниц перевода, что задает программе определенные эталоны. При правильном выборе словаря получается вполне удовлетворительный результат, иногда не требующий большого последующего редактирования.

Кроме известных морфологических и синтаксических правил в каждом языке существуют свои особенности, которые иногда весьма трудно предусмотреть при машинном переводе. До сих пор наиболее часто встречающимися ошибками при текстовом анализе являются неправильное распознавание антецедентов местоимений, анафорических отношений и эллиптических структур, а одна из самых распространенных грамматических ошибок при переводе СМП с английского языка на русский - по-прежнему появляющий-

ся в русском варианте глагол-связка «есть». Кроме того, для качественного перевода очень важно, чтобы практически все слова исходного текста легко было найти в словаре системы. Те слова исходного текста, которых нет в словаре, обычно переносятся в выходной текст непереведенными, и их впоследствии переводят вручную при постредактировании. Такие слова могут существенно повлиять на качество перевода предложения, поскольку для определения принадлежности слова к той или иной части речи система производит анализ предложения в целом, и если значение хотя бы одного слова в предложении не определено, то это может исказить результаты анализа предложения. При выполнении анализа имитируется мыслительная деятельность человека (такие системы принято называть системами с элементами искусственного интеллекта).

В настоящее время СМП, как правило, используют для перевода больших массивов однородных текстов с небольшим узкоспециализированным словарным запасом и упрощенной грамматикой. Больших - потому что настройка программы на текст определенного типа требует времени и оправдывает себя, только если необходимо перевести достаточно объемный текст. Однородных и с небольшим словарным запасом, - потому что для каждого переводимого текста следует сразу же решить вопрос омонимов для всех входящих в текст слов. С упрощенной грамматикой - потому что со сложными грамматическими конструкциями современные программы по-прежнему не справляются.

В статье (3) рассматривается возможность использования дискурсивных слов (ДС) в качестве идентификационных признаков при решении экспертных задач. Автор также предлагает рекомендации для экспертов, касающиеся использования полученных статистических показателей в качестве идентификационных признаков, и объясняет важность их применения в криминалистической экспертизе.

Материалом для экспериментального исследования послужил дистантный опосредованный устно-речевой дискурс (аутентичные телефонные диалоги, переведенные из устной формы в письменную). От обычного устно-речевого дискурса такой дискурс отличается тем, что он порождается в специфических условиях (отсутствует визуальный канал коммуникации), он в какой-то степени запланирован, необходима постоянная проверка канала связи.

В данном исследовании анализируются дискурсивные слова, отмечающие границы тем диалогов. В экспериментальном корпусе используемые темы оказались достаточно разнообразны: они включали обсуждение судебных дел, подбор кандидатов для выполнения определенных работ, обсуждение участия в судебных делах коммуникантов (в этой группе тем нередко использовался профессиональный дискурс юристов); а также вопросы организации встреч, передачи материалов и документов, оплаты работы. Кроме того, присутствуют также бытовые темы (дети, здоровье, ремонт в квартире, на даче). Стиль последних тем можно охарактеризовать как разговорно-обиходный.

Методика обработки материала заключалась в следующем. В каждом из текстов выявлялись дискурсивные слова, отмечающие границы тем в устно-речевом дискурсе, выписывались в отдельную таблицу, затем просчитывалось их количество. Далее была составлена сводная таблица используемых при смене тем дискурсивных слов с указанием частоты их использования в рассматриваемом материале. Затем был проведен анализ частоты встречаемости определенных дискурсивных слов у каждого из участников диалогов.

Также была произведена классификация дискурсивных слов для каждого из участников коммуникации, что позволило выявить группы наиболее часто употребляемых маркеров (для дальнейшего анализа было отобрано по пять наиболее объемных групп).

Полученные данные были проанализированы с применением элементов математической статистики.

Средняя частота употреблений дискурсивных слов оказалась индивидуальной у каждого коммуниканта.

Автор отмечает общую тенденцию, присутствующую у всех коммуникантов: чем чаще менялась тема диалога, тем ниже оказывались показатели отношения количества употреблений ДС в диалоге к количеству словоупотреблений в диалоге и отношения количества различных ДС в диалоге к количеству их употреблений в диалоге.

В результате проведенного исследования были получены следующие основные выводы: во-первых, всего в диалогах было выделено 35 048 словоупотреблений. Из них дискурсивных слов -2206 (6,29% от общего числа слов). Во-вторых, самой большой является группа оценочных маркеров (они составляют 52,58% от об-

щего числа употреблений дискурсивных слов). Далее в порядке убывания следуют: маркеры привлечения внимания (9,61%), оценочные маркеры конца ДЕ (9,42%), маркеры прерывания диалогического единства (ДЕ) и метатекстовые комментаторы завершения (7,43%), маркеры возвращения к теме и подведения итога (4,71%), маркеры начала разговора (типа «але») (4,39%), обращения (4,21%), приветствия (3,39%), маркеры вежливого начала темы разговора (например, «Как дела?») (1,26%), маркеры прерывания и начала новой ДЕ (1,17%), этикетные показатели конца (например, реакция на вопрос типа «Как дела?») (0,77%), выражение вежливости/благодарности/извинения (0,63%), представление собеседником себя (0,36%).

Статья (4) посвящена междисциплинарным аспектам речеве-дения и лингвистики, поиску связей между количественной и качественной сторонами языка, проблемам языковой саморегуляции, изучению зависимостей и распределений языковых единиц и структур, выдвижению гипотез с применением математического аппарата.

Одной из важнейших задач квантитативной лингвистики является составление частотных словарей, необходимость использования которых для решения прикладных и исследовательских задач постоянно возрастает. Частотный словарь - это модель особым образом преобразованного текста, модель распределения частот употребления единиц в тексте. Частотный словарь включает в себя упорядоченный список слов или других языковых единиц (словоформы, словосочетания), которые зарегистрированы составителем в обследованном им тексте, фрагменте текста или корпусе текстов и снабжены данными о частоте их употребления в тексте (речи). (В конкордансе к этим данным добавляются и данные об их адресе в тексте и/или данные о контекстах). С помощью частотных словарей можно пытаться ответить на вопросы: каков вокабуляр (лексический состав) языка (текста), с какой интенсивностью слова используются в речи, какие из них предпочтительнее в той или иной сфере коммуникации. Частотные словари используются в лингводидактике, стилистике, психолингвистике, терминологической лексикографии, лингвистической синергетике, когнитивисти-ке, культурологии, медицине, юриспруденции, криминологии и т.д.

Корпусный подход в лингвистике основан на анализе больших баз данных реальных языковых массивов, хранящихся на компьютере. Корпусная лингвистика включает фонетику, лексикографию, грамматику, дискурс, изменение регистра, овладение языком, историческую лингвистику. Во всех случаях, когда рассматриваются корпусные исследования (тексты естественного языка, даные психолингвистических экспериментов и т.п.), наблюдается так называемый эффект концентрации и рассеяния, который состоит в том, что имеется небольшая группа очень частых слов («ядро», или «голова» частотного словаря), и большая группа редких слов («хвост» частотного словаря). Такая неравномерность обнаруживается не только в распределении слов, но и в отношении других языковых единиц (букв, фонем, морфем, словосочетаний и т.д.).

Язык служит как раскрытию и сохранению смыслов, так и их сокрытию и утрате. Противоречивый «скрывающе-раскрывающий» статус слова по отношению к смыслам определяет квантитативную структуру ассоциативных полей - совмещение гомогенности и гетерогенности распределений. Эффект концентрации и рассеяния, характерный для частотной структуры текстов, имеет своим источником, по-видимому, такой механизм порождения текста, который обусловлен ассоциативной природой языкового сознания. С одной стороны, одна или несколько особо прочных ассоциаций играют роль социальных «сторожей» и «ограничителей» смыслов; с другой стороны, множество уникальных непрочных ассоциаций выступают в роли индивидуальных «первопроходцев» и «расшатывателей» смыслов. Фактами языка являются и «голова» и «хвост» распределения, независимо от их употребительности и отношения к «норме».

Первая тенденция сохранения смыслов проявляется в гомогенности распределения ассоциаций, ограничении их ассортимента, доминировании принципа наименьших усилий; она служит сохранению языка от естественных шумов, разрушающих его строй. Вторая тенденция раскрытия смыслов проявляется в гетерогенности распределения, расширении ассортимента, доминировании принципа наибольших усилий; она служит сохранению языка от преднамеренных попыток людей выхолостить его смысл.

Искусство квантитативной лингвистики заключается не в сложной математике, а в порождении и формулировании гипотез. Построение гипотез - это «качественная» лингвистика, оперирую-

щая четкими определениями и ставящая четкие лингвистические формулировки проблем.

В статье (5) рассматривается ряд специальных вопросов автоматической идентификации языка (АИЯ): унификация и оптимизация системы транскрибирования баз речевых данных, формирование набора фонетических распознавателей в схеме РРЯЬМ на основе анализа результатов тестирования.

С теоретической точки зрения задача АИЯ не представляет сложности, так как языки мира отличаются друг от друга множеством разноуровневых лингвистических признаков (фонетических, лексических, синтаксических и т.д.), которые хорошо известны специалистам. Трудности возникают при практическом решении задачи АИЯ. Сегодня требуется, чтобы идентификация языка производилась, во-первых, автоматически и в реальном масштабе времени или с минимальной задержкой, во-вторых, независимо от содержания сообщения (длительностью не более 10-30 секунд), пола и возраста говорящего, в-третьих, идентификация должна быть устойчива к шуму и искажениям в канале связи.

Реальные предпосылки для решения задачи АИЯ появились благодаря бурному развитию речевых технологий в таких областях, как автоматическое распознавание речи и идентификация диктора. К ним в первую очередь следует отнести разработку эффективных алгоритмов параметризации речевого сигнала, методы вероятностного моделирования и классификации звуков речи (скрытые Марковские модели, нейронные сети), а также неоценимый опыт в создании речевых баз данных и стандартизации условий тестирования эффективности распознающих систем.

Как уже отмечалось, в схеме РРЯЬМ используются несколько фонетических распознавателей. При этом необязательно используются распознаватели всех языков, которые идентифицируются системой. Более того, могут использоваться фонетические распознаватели других языков или вообще не связанные явно с каким-либо языком (например, определяющие только, является звук гласным или согласным). Скорость идентификации обратно пропорциональна количеству распознавателей, поэтому использование дополнительных распознавателей может приводить к ощутимому уменьшению скорости при незначительном увеличении точности идентификации.

Эффективность схемы РРЯЬМ во многом зависит от множества идентифицируемых языков и используемых фонетических распознавателей. Выбор распознавателей для решения конкретной задачи АИЯ может осуществляться на основе лингвистических знаний (в зависимости от идентифицируемых языков и возможных распознавателей).

Построение качественных, т.е. обеспечивающих определение фонов с заданной надежностью, распознавателей на практике часто затруднено, так как для этого необходимы размеченные речевые базы большого объема, охватывающие многообразие устной речи и разные половозрастные группы дикторов. Использование недостаточно качественных распознавателей может приводить к снижению точности идентификации языка. Вследствие этого возникает проблема формирования оптимального набора фонетических распознавателей, которые будут использоваться в конкретной системе АИЯ с учетом требований к точности и скорости идентификации.

Таким образом, в данной работе рассмотрены унификация и оптимизация системы транскрибирования Worldbet при решении задачи АИЯ для английского, испанского, китайского, немецкого и японского языков на примере речевой базы 001-Т8. Авторами предложен подход к формированию оптимального набора фонетических распознавателей в схеме РРЯЬМ на основе анализа результатов тестирования.

В статье (6) рассматривается возможность разработки методов стилеметрического анализа звучащей речи, что необходимо в условиях разнообразия информационного потока (Интернет, СМИ, специфика речи конкретных людей и т.д.).

В стилеметрии интерес представляет количественная организация текста. И если это исследование осуществляется в компьютерной среде, то познавательные принципы реализуются достаточно жестко. Видение текста становится процедурно-технологическим. Исследователь с помощью компьютерных программ исследует текст как материальное образование, построенное по конкретным лингвополиграфическим законам. При этом может быть потеряна комплексность филологического подхода, но появляется возможность для единообразной и быстрой обработки массивов данных, получаемых из печатного текста. Особенно эффективны варианты компьютерной работы с текстами, если нужно

использовать сложные процедуры многомерного анализа текста (дистрибутивно-статистический метод, алгоритмы лингвистической дешифровки, методы квантитативной типологии и таксономии текстов, алгоритмы стилистической диагностики).

Стилеметрия имеет дело с количественным классифицированием. В качестве основных направлений стилеметрии обычно выделяются: 1) теоретические исследования; 2) первичная статистическая обработка данных; 3) систематико-таксономические задачи, среди которых наибольший интерес представляют: а) обработка многомерных данных с использованием стандартных алгоритмических процедур (факторного, дискриминантного, кластерного и других методов многомерного анализа); б) обработка лингвистических данных с помощью специальных лингвистических методов: де-шифровочных алгоритмов, дистрибутивно-статистического метода; методов датировки; атрибуции, диагностики и типологии текстов; 4) лексикографическая обработка текстовых данных (создание частотных и алфавитно-частотных словарей, словарей-конкордансов, словоуказателей, словарей ключевых слов и др.); 5) информационно-поисковые задачи; 6) лингводидактические задачи.

Новые проблемы, возникающие в связи со спецификой изучения устно-речевого дискурса и использованием формально-статистических методов, расширение возможностей получения материалов (сеть Интернет), определение степени подготовленности речи, дифференциация читаемой и спонтанной речи, использование специфических речевых элементов и конструкций также требуют применения аппарата математической статистики. Поэтому современное речеведение остро нуждается в разработке методов стилеметрического анализа звучащей речи (устно-речевого дискурса), представленной в орфографической форме, с применением новых информационных технологий.

В.В. Потапов

2010.04.024. ХИТРИК КН., ПОЛИЩУК А.И. ТЕОРИЯ ПЕРЕВОДА: ПЕРСИДСКИЙ ЯЗЫК. КОГНИТИВНЫЙ АСПЕКТ. - М.: ИПК МГЛУ «Рема», 2009. - 222 с.

Реферируемая работа состоит из введения, трех частей, краткого словаря дефиниций терминов и понятий, содержащихся в книге.

i Надоели баннеры? Вы всегда можете отключить рекламу.