Научная статья на тему 'Модель автоматизированного построения двуязычных лексиконов'

Модель автоматизированного построения двуязычных лексиконов Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
150
42
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДВУЯЗЫЧНЫЙ ЛЕКСИКОН / АВТОМАТИЧЕСКОЕ ВЫРАВНИВАНИЕ СЛОВ / ПАРАЛЛЕЛЬНЫЙ КОРПУС / АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ ЗНАНИЙ / ЛИНГВИСТИЧЕСКИЕ ЗНАНИЯ / АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТА / BILINGUAL LEXICON / WORD ALIGNMENT / PARALLEL CORPORA / AUTOMATIC KNOWLEDGE ACQUISITION / LINGUISTIC KNOWLEDGE / NATURAL LANGUAGE PROCESSING

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Дюмин Никита Юрьевич

Предлагается модель автоматизированного построения двуязычных лексиконов на основе автоматического извлечения и выравнивания слов. Проведенная на русско-английском параллельном корпусе текстов апробация модели показывает ее эффективность

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Automated Bilingual Lexicon acquisition Model

The paper presents an automated bilingual lexicon acquisition model, based on automatic lexicon extraction and word alignment. Series of experiments with Russian-English parallel corpus reveals effectiveness of the proposed model

Текст научной работы на тему «Модель автоматизированного построения двуязычных лексиконов»

Филологические науки

УДК 81'322

Дюмин Никита Юрьевич Nikita Dyumin

МОДЕЛЬ АВТОМАТИЗИРОВАННОГО ПОСТРОЕНИЯ ДВУЯЗЫЧНЫХ ЛЕКСИКОНОВ

AUTOMATED BILINGUAL LEXICON ACQUISITION MODEL

£

Предлагается модель автоматизированного построения двуязычных лексиконов на основе автоматического извлечения и выравнивания слов. Проведенная на русско-английском параллельном корпусе текстов апробация модели показывает ее эффективность

Ключевые слова: двуязычный лексикон, автоматическое выравнивание слов, параллельный корпус, автоматическое извлечение знаний, лингвистические знания, автоматическая обработка текста

The paper presents an automated bilingual lexicon acquisition model, based on automatic lexicon extraction and word alignment. Series of experiments with Russian-English parallel corpus reveals effectiveness of the proposed model

Key words: Bilingual lexicon, word alignment, parallel corpora, automatic knowledge acquisition, linguistic knowledge, natural language processing

Лексиконы являются неотъемлемой частью многих систем автоматической обработки текста (АОТ), таких как машинный перевод, информационный поиск, автоматическое аннотирование и реферирование и др. Эффективность работы многих систем, разработанных как в рамках рационалистического подхода, так и в рамках эмпирического, зависит во многом от полноты и качества лексикона. Вместе с тем, задача построения лексикона, тем более двуязычного, представляется весьма трудоемкой и времязатратной.

Известно несколько подходов к решению задачи построения двуязычных лексиконов на основе корпуса текстов. Одним из самых распространенных является метод коллокаций [7]. В рамках метода для всех слов текстов на обоих языках составляются матрицы коллокаций, которые впоследствии выравниваются, соответс-

твующие строки матриц двух языков считаются межъязыковыми эквивалентами. Существует несколько расширений метода коллокаций, например, метод с использованием опорного словаря [2]. Для создания многоязычных лексиконов также нередко прибегают к автоматическому поиску эквивалентов в сети Интернет [5].

Другим, хорошо проработанным подходом к построению двуязычных лексиконов является автоматическое выравнивание слов [4, 8], которое появилось и развивается в рамках статистического подхода к разработке систем машинного перевода. Существует два основных способа выравнивания слов: вероятностный, основанный на вычислении вероятности (модели IBM), и эвристический, использующий различные меры близости (коэффициент Дайса, мера косинуса и др.)[6].

Модель построения двуязычных лексиконов

Модель предполагает наличие исходного параллельного корпуса текстов, соответствующие предложения которого либо выравнены, либо выравниваются автоматически на первом этапе работы. Существует множество эффективных алгоритмов и систем выравнивания текстов по предло-

жениям, поэтому мы оставляем этот вопрос за рамками данного исследования.

Ключевым моментом является выравнивание извлеченной лексики, которое осуществляется в рамках геометрического подхода к автоматической обработке текста.

Модель построения двуязычного лексикона

Текст T рассматривается как многомерное Евклидово пространство, в котором в качестве измерений выступают предложения {бг..бп} (впрочем, необязательно

предложения, в зависимости от конкретного языка и особенностей текста, можно выбрать отрезки как меньшие по протяженности (синтагма), так и большие (абзацы)

— при условии, что имеется эффективный способ выравнивания таких отрезков). Количество измерений п равно количеству предложений. Т = |8г..8п}.

Тогда координаты каждого слова "" можно представить в виде вектора:

щ = (пит(щ •, ), пит(, я2 ) • • пит(щ •, яп )) ,

где пиш(".,8.) — функция вычисления координаты, например, возвращающая количество вхождений слова в предложение б.. В зависимости от цели исследования эту функцию представляется возможным изменять, к примеру, использовать вместо подсчета количества вхождений, устанавливать факт вхождения (бинарное значение).

Известно множество способов сравнения векторов в многомерном Евклидовом пространстве. Чаще других при автоматической обработки текста на естественном языке используются следующие: мера ко-

синуса, коэффициент Дайса, коэффициент сходства Жаккара, реже — Евклидова метрика и манхэттенское расстояние. Эти меры дают разные результаты на различных пространствах, поэтому каждый раз при проведении автоматического выравнивания слов для новой пары языков ( либо при изменении функции вычисления координаты) следует проводить пилотажный эксперимент с тем, чтобы установить наиболее эффективную меру.

После того, как подсчитаны векторы для всех слов обоих текстов, проводится их сравнение, и наиболее близкие векторы из разных текстов считаются межъязыковыми эквивалентами. Чтобы устранить последствия неточного выравнивания, используется отдельная система интерактивного ввода полученных списков в двуязычный лексикон.

Полностью модель построения лексикона изображена на рисунке.

Повышение точности выравнивания

На рисунке также видно, что модель включает два шага предварительной обработки: лемматизация и упаковка слов, а также шаг сложения списков извлеченных эквивалентов. Эти шаги призваны повысить точность и охват выравнивания.

Лемматизация

Очевидно, что структурно разные языки, например, русский и английский, опе-

рируют разным количеством словоформ, в частности, две словоформы английского существительного (единственное и множественное число) соответствуют 12 словоформам русского (6 падежей * 2 числа). Следовательно, соответствие вектород эквивалентных слов^ языка оригинала М^д и языка перевода описывается следую -щим образом:

щк = щЕ, если

к к к = (Xпит(щ^,я1) ^пит(щ^,я2)--Хпит(щ^,яп))

7=1 7=1 7=1

и

к к к щЕ =(Xпит(щЕ,я1) Xпит(щЕ,я2Л-Хпит(щЕ,яп))

7=1 7=1 7=1

где - словоформа русского слова щ К ; к - к°личеств° разных сл°в°ф°рм в сл°в°-

изменительной парадигме слова щ ц .

Поскольку модель не предусматривает базы лингвистических знаний, и достраивать парадигму для каждого слова не представляется возможным, предлагается проводить лемматизацию в качестве этапа предварительной обработки текста.

Упаковка слов

Упаковка слов [3] решает проблему выравнивания многокомпонентных терминов. Известно, что при переводе может возникать ситуация, когда одно слово ЯО соответствует нескольким ЯП (1-ton, «здравоохранение^health care») или, наоборот, несколько слов ЯО переводятся одним словом ЯП (n-to-1, «повестка дня^а§епёа»). Кроме того, возможна ситуация n-to-m («точка зрения^ро1М of view») или ее частный случай n-to-n.

Чтобы решить эту проблему, предлагается объединять компоненты термина специальным символом, таким образом, чтобы при выравнивании компьютерная программа распознавала их как одно слово, напри-

мер: «повестка дня» — «повестка_дня». А значит их совместная встречаемость вы-считывается автоматически, и нет необходимости каким-то образом складывать векторы отдельных словоформ.

Сложение результатов выравнивания

В ходе экспериментов замечено, что изменение направления выравнивания приводит к изменению точности выравнивания. Так, например, оказалось, что направление «Английский-Русский» дает примерно на 10 % худший результат, чем «Русский-Английский». Интересно, что списки эквивалентов из разных направлений выравнивания соответствуют не полностью, например, при выравнивании 2000 слов направление «Русский-Английский» вернуло 1744 (712 уникальных) верных соответствий, а «Английский-Русский» только 1510 (478 уникальных), следовательно, общее количество правильных эквивалентов — 2222 пары.

Имплементация метода

Для проведения апробации были созданы компьютерные приложения, импле-ментирующие этапы метода.

Первое приложение извлекает слова из текстов, опционально можно удалять слова по спискам стоп-слов, чтобы не выравнивать слова служебных частей речи, т.к. часто такие слова не имеют полных эквивалентов в разных языках. Также имеется возможность извлекать только наиболее частотные слова, т.к. дальнейшее вычисление всех слов является достаточно ресурсоемким.

Следующее приложение вычисляет векторы для извлеченных слов, имеется возможность выбора функции вычисления: количество вхождений в предложение или факт вхождения.

Третье приложение выполняет собственно выравнивание, на данный момент

имплементировано две меры близости: мера косинуса и Евклидово расстояние.

Мы предположили, что в некоторых случаях, когда выравнивание будет неверным, соответствующий эквивалент находится в числе наиболее близких, при этом не являясь самым близким. Для проверки предусмотрена опция вывода множественных близких векторов. Оказалось, что среди наиболее близких слов находятся различные словоформы, синонимы слова-эквивалента. Также встречаются переводы омонимов исходного слова.

Последнее приложение создано для интерактивного ввода эквивалентных пар в лексикон. Для создания размеченного лексикона в программе предусмотрена возможность присвоения меток с грамматическим значением слов.

Эксперименты

Для проведения эксперимента нами использован двуязычный корпус, выровненный по предложениям (данные предоставлены компанией Яндекс — www.yandex. ru). Объем корпуса — 200 тыс. предложений; 4,1 млн русских словоупотреблений и 4,6 млн английских словоупотреблений. Всего словоформ на русском языке — 260 тыс., на английском — 150 тыс. Текст со-

держит общеупотребительную лексику.

Первый эксперимент: сравнительный анализ эффективности функций вычисления координат и мер близости. Первоначальное направление выравнивания — «Английский-Русский», количество выравниваемых единиц — 1000 наиболее частотных словоформ.

Таблица 1

Результаты эксперимента

Стоплист Без стоплиста

считать вхождения факт вхождения считать вхождения факт вхождения

cos Euc cos Euc cos Euc cos Euc

643 246 664 229 659 220 598

Эксперимент показал (см. табл. 1), что Евклидова метрика дает менее точный результат, чем мера косинуса. Расчет вхождений слов в предложения оказался более эффективным для выравнивания служебной лексики (каковой являлась большая часть не фильтрованного стоп-листом списка), однако при выравнивании знаменательной лексики проверки факта вхождения оказалось достаточно, более того, эта функция показала лучший результат. Так как для создания лексикона нас главным образом интересовало извлечение знаменательных

Результаты:

частей речи, для дальнейших экспериментов мы использовали меру косинуса с проверкой на факт вхождения.

Второй эксперимент: проверка эффективности этапа лемматизации. Для этого исходные тексты были лемматизированы при помощи алгоритма корпусного морфологического анализа [1]. Отметим, что указанный алгоритм работает только в случае представленности словоизменительной парадигмы анализируемого слова в корпусе (хотя бы 50 % словоформ), иначе лемматизации не происходит.

Таблица 2

лемматизация

Лемматизация Извлечено правильно % Извлечено неправильно Шум

+ 671 67,1 229 229

- 664 66,4 234 234

Как видно из табл. 2, лемматизация незначительно улучшила результат выравнивания, тем не менее, мы считаем, что на выборке более чем 1000 слов влияние лем-матизации должно быть большим.

Третий эксперимент: проверка эффективности упаковки слов. В качестве объекта упаковки мы выбрали именные группы (ИГ), т.к. нас не интересовали служебные части речи, а глаголы в паре «Ан-

глийский-Русский» чаще всего переводятся одним словом, в случае аналитических словоформ переводу подлежит только значащая часть словоформы. Для выделения ИГ использовано стороннее приложение LanA-Кеу [9], т.к. данная система основывается на лексикалистских правилах отбора кандидатов при извлечении ИГ, что подразумевает поверхностный лингвистический анализ.

Таблица 3

Результаты: лемматизация и упаковка

Лемма Упаковка Извлечено правильно % Извлечено неправильно Шум

- - 664 66,4 234 234

+ - 671 67,1 229 229

+ + 759 75,9 241 241

Упаковка слов (табл. 3) привела к значительному улучшению результата выравнивания (8 %). Причем, стоит отметить не только количественное, но и качественное

улучшение.

Четвертый эксперимент: направление выравнивания.

Таблица 4

Результаты: лемматизация и изменение направления

Направление Всего слов Правильно % Неправильно

Англ -> Рус 1000 671 61,7 229

Рус — Англ 1000 825 82,5 175

Англ — Рус 2000 1510 75,5 490

Рус — Англ 2000 1744 87,2 256

Разница в результатах выравнивания (см. табл. 4) оказалась существенной — направление «Русский-Английский» показало на 10-20 % более точный результат, что объяснимо большей конкуренцией русских словоформ при выравнивании в направлении «Английский-Русский». Также заметно улучшение при увеличении объема выборки (5... 14 %), что обусловлено неодинаковой частотностью эквивалентных слов в текстах разных языков.

Таким образом, описана модель интерактивного построения двуязычных лексиконов на основе параллельных корпусов текстов. Центральным компонентом модели представлено автоматическое вырав-

нивание слов, на основе их совместной встречаемости в предложениях текстов на языке оригинала и языке перевода. Кроме того, представлены дополнительные этапы обработки — лемматизация, упаковка слов и сложение выровненных по разным направлениям списков. Проведена апробация модели и показана ее эффективность: описаны результаты экспериментов по автоматическому выравниванию слов.

Дальнейшее развитие модели построения лексиконов и алгоритма автоматического выравнивания слов представляется в их переносе на материал других пар языков.

Литература

1. Бабина О.И., Дюмин Н.Ю. Нестрого аддитивный подход к автоматическому морфологическому анализу флективных языков // Наука и современность — 2010. Ч-III. Новосибирск: 2010. С. 12-17.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2. Fiser, D., N. Ljubesic, S. Vintar, S. Pollak. 2011. Building and using comparable corpora for domain-specific bilingual lexicon extraction. 4th BUCC. Portland, Oregon, 19-26.

3. Ma Y., N. Stroppa, A. Way. 2007. Bootstrapping Word Alignment via Word Packing. Proceedings of the 45th Annual Meeting of the ACL. Prague, Czech Republic, 304-311.

4. Melamed I. D. 2000. Models of translational equivalence among words. Computational Linguistics, 26(2):221—249.

5. Nazar R., L. Wanner, J. Vivaldi. 2008 Two-Step Flow in Bilingual Lexicon Extraction from Unrelated Corpora. Proceedings of the 12th EAMT, Hamburg, Germany, 140-149.

6. Och F.J., and H. Ney. 2003. A systematic comparison of various statistical alignment models. Computational Linguistics, 29(1).

7. Rapp Reinhard. 1995. Identifying Word Translations in Non-parallel Texts. Proceedings of ACL'95, 320-322.

8. Smadja F., K. R. McKeown, and V. Hatzivassiloglou. 1996. Translating collocations for bilingual lexicons: A statistical approach. Computational Linguistics Journal, 22(1):1-38.

9. Sheremetyeva S. 2009. On Extracting Multiword NP Terminology for MT. EAMT-2009. Barcelona, Spain, 205-212.

Коротко об авторе_

Дюмин Н.Ю., аспирант, Южно-Уральский государственный университет (ЮУрГУ) Сл. тел.: +7(351)2679751

Научные интересы: компьютерная лингвистика, автоматическая обработка текста, автоматическое извлечение знаний

_Briefly about the author

N. Dyumin, postgraduate student, South Ural State University

Scientifics interests: computational linguistics, natural language processing, automatic knowledge acquisition

i Надоели баннеры? Вы всегда можете отключить рекламу.