Извлеч ение переводного словаря знач имых словосоч етаний из параллельных текстов с использованием методов дистрибутивной семантики
Аннотация: Данная работа посвящена актуальным проблемам исследования семантики лингвистических единиц с использованием корпусных методов. В работе дается описание нового направления лингвистических исследований - дистрибутивной семантики. Предлагается расширение существующих моделей дистрибутивной семантики за счет перехода от описания лексем к описанию значимых словосочетаний. Описывается методика извлечения переводного словаря из параллельных текстов.
Ключевые слова: дистрибутивная семантика, векторные пространства, значимые словосочетания, коллокации, параллельные тексты.
1 Обзор моделей дистрибутивной семантики
Дистрибутивная семантика - область научных исследований, занимающаяся вычислением степени семантической близости между лингвистическими единицами на основании их дистрибуционных признаков в больших массивах лингвистических данных. Модели векторных пространств находят все более широкое применение в исследованиях, связанных с семантическими моделями естественного языка, и имеют разнообразный спектр потенциальных и действующих приложений. Основными сферами применения дистрибутивных моделей являются: разрешение лексической неоднозначности, информационный поиск, кластеризация документов, автоматическое формирование словарей (словарей семантических отношений, двуязычных словарей), создание семантических карт, моделирование перифраз, определение тематики документа, определение тональности высказывания, биоинформатика.
Теоретические основы данного направления восходят к дистрибутивной методологии 3. Харриса [7, 8]. Близкие идеи выдвигали основоположники
структурной лингвистики Ф. де Соссюр и Л. Витгенштейн. Дистрибутивная семантика основывается на дистрибутивной гипотезе о том, что лингвистические элементы со схожей дистрибуцией имеют близкие значения [12, 15].
В качестве вычислительного инструмента и способа представления моделей используется линейная алгебра. Информация о дистрибуции лингвистических единиц представляется в виде многоразрядных векторов, а семантическая близость ме ду лингвистическими единицами вычисляется как расстояние ме ду векторами. Многоразрядные векторы образуют матрицу, где ка дый вектор соответствует лингвистической единице (слово или словосочетание), а ка дое измерение вектора соответствует контексту (документ, параграф, предло ение, словосочетание, слово).
Для вычисления меры близости ме ду векторами могут использоваться различные формулы: расстояние Минковского, расстояние Манхеттена, Евклидово расстояние, расстояние Чебышева, скалярное произведение, косинусная мера. Наиболее популярной является косинусная мера:
Морозова Ю.И.
ИПИРАН
Существует множество разновидностей моделей дистрибутивной семантики, которые различаются по следующим параметрам:
- тип контекста (размер контекста, правый или левый контекст, ранжирование);
- количественная оценка частоты встречаемости слова в данном контексте (абсолютная частота, энтропия, совместная информация и пр.);
- метод вычисления расстояния ме ду векторами (косинус, скалярное произведение, расстояние Минковского и пр.);
- метод уменьшения размерности матрицы (случайная проекция, сингулярное разло ение и пр.).
Наиболее известными моделями дистрибутивной семантики являются латентный семантический анализ, разработанный для решения проблемы синонимии при информационном поиске [9], и модель языка как гиперпространства, разработанная как модель семантической памяти человека [10].
Концепция семантических векторных пространств (СВП) впервые была реализована в информационно-поисковой системе SMART [14]. Идея СВП состоит в представлении ка дого документа из коллекции в виде точки в пространстве, т.е. вектора в векторном пространстве. Точки, расположенные ближе друг к другу в этом пространстве, считаются более близкими по смыслу. Пользовательский запрос рассматривается как псевдодокумент и то е представляется как точка в этом е пространстве. Документы сортируются в порядке возрастания расстояния, т.е в порядке уменьшения семантической близости от запроса, и в таком виде предоставляются пользователю.
Впоследствии концепция СВП была успешно применена для других семантических задач. Например, в работе [11] контекстное векторное пространство было использовано для оценки семантической близости слов. Данная система достигла результата 92.5% на тесте по выбору наиболее подходящего синонима из стандартного теста английского языка TOEFL, в то время как средний результат при прохождении теста человеком был 64.5%.
В настоящее время ведутся активные исследования по унификации модели СВП и выработке общего подхода к различным задачам выявления семантических связей из корпусов текстов [16].
В работе [13] предлагается методика применения моделей дистрибутивной семантики для извлечения переводных соответствий однословных терминов из выровненных параллельных текстов. Обычно в качестве базовой информации для систем извлечения переводных соответствий используется частота совместной встречаемости терминов из соответствующих друг другу фрагментов на исходном и целевом языках. Однако предполо ение о том, что перевод основывается на пословных соответствиях, не соответствует действительной сло ности процесса перевода. Поэтому авторы предлагают использовать в качестве минимальной единицы анализа не слово, а предложение. Лексические единицы, встречающиеся в одном предложении, связаны друг с другом синтагматическими отношениями, в то время как все предло ение целиком связано с его переводом на целевой язык отношениями переводного соответствия. Поэтому каждое слово в исходном предложении связано с каждым словом в целевом предложении.
В предлагаемой модели «контекстом» для слов предложений на исходном языке выступают слова предложений на целевом языке. Контекстные векторы, описывающие слова исходного и целевого языков, помещаются в одну и ту е матрицу. Корреляция между словами вычисляется по формуле косинуса угла между
их контекстными векторами. Слова из различных языков с наиболее близкими векторами считаются переводами друг друга.
Данный подход особенно продуктивен, когда нужно извлечь не только самый лучший перевод данного слова, но и несколько возможных переводов.
2 Выделение значимых словосочетаний
Целью нашей работы является применение модели СВП для извлечения переводного словаря значимых словосочетаний из параллельных текстов. Развитие существующих подходов к построению СВП заключается в использовании значимых словосочетаний (ЗС) вместо отдельных лексем. Под значимыми словосочетаниями мы понимаем лексические последовательности, имеющие тенденцию к совместной встречаемости.
В лингвистике для обозначения значимых словосочетаний используется так е термин «коллокация». Этот термин был впервые введен в Словаре лингвистических терминов Ахмановой О. С. [1]. Исследованиям коллокаций русского языка посвящено большое количество литературы, например, монография Борисовой Е. Г. [2]. В теоретической лингвистике под коллокациями понимают словосочетания из двух или более слов, которые обуславливают друг друга семантически и грамматически [4]. В корпусной лингвистике коллокациями называют статистически устойчивые словосочетания, причем они могут быть как фразеологизированными, так и свободными.
Для выделения значимых словосочетаний в компьютерной лингвистике используются различные статистические меры (меры ассоциации, меры ассоциативной связанности, англ. association measures), вычисляющие силу связи между элементами в составе коллокации. В литературе упоминается несколько десятков мер ассоциативной связанности. Чаще других используются MI, t-score и log-likelihood [3].
Мера MI (mutual information), введенная в работе [5], сравнивает зависимые контекстно-связанные частоты с независимыми частотами слов в тексте. Если значение MI превосходит определенное пороговое значение, то словосочетание считают статистически значимым. Мера MI вычисляется по следующей формуле:
, f(n, с) х N
MI = log2 7 ---
62 f (n) х f (с)
где n - первое слово словосочетания; с - второе слово словосочетания; f(n,c) -частота совместной встречаемости двух слов; f(n), f(c) - абсолютные частоты встречаемости каждого слова по отдельности; N - общее число словоупотреблений в корпусе.
Мера t-score также используется при ответе на вопрос, насколько не случайным является сочетание двух или более слов в тексте. Для вычисления t-score используется следующая формула:
Также достаточно часто применяется мера, известная под названием НкеНИоо^ или логарифмическая функция правдоподобия, введенная в работе [6]. Для вычисления log-likelihood применяется следующая формула:
N
t - score =
Vf (n, с)
log- likelihood = 2^ f (n, с) х log
f(n,с)хN 2 f (n) х f (с)
3 Построение семантического векторного пространства
В рамках нашего исследования был создан корпус параллельных текстов на французском и русском языках, выровненный на уровне предложений. В корпус вошли тексты научных патентов по различным темам.
Применив различные меры ассоциативной связанности слов к материалам научных патентов, мы составили частотный словарь значимых словосочетаний для предметной области научных патентов. Примеры выделенных значимых словосочетаний: благородный металл, вспомогательное устройство, жесткий элемент, измерительная ячейка, опорный карниз, оптический луч, система охлаждения, тяжелая фракция.
В продолжение исследования планируется построить СВП для выделенных значимых словосочетаний с помощью программы Б-Брасе [7]. Модель семантического векторного пространства, которая будет создана, обладает следующими характеристиками:
- тип изучаемых единиц: значимые словосочетания;
- тип контекста: лексемы;
- размер контекста - предложение;
- ранжирование контекста - нет;
- количественная оценка частоты встречаемости изучаемой единицы в данном контексте: абсолютная частота;
- метод вычисления расстояния между векторами: косинусная мера.
4 Заключение
В работе были рассмотрены основные направления и модели нового направления исследований в компьютерной лингвистике - дистрибутивной семантики. На основании автоматической обработки больших массивов лингвистических данных возмо но создавать различные лингвистические ресурсы: семантические словари, многоязычные словари, семантические карты предметных областей. В качестве математической модели используются многоразрядные векторы и матрицы линейной алгебры, что представляет собой удобный формализм для компьютерной реализации. В рамках данного направления планируется разработать методику извлечения переводных соответствий из параллельных текстов, где в качестве изучаемых единиц будут выступать значимые словосочетания, выделенные из текстов с использованием мер ассоциативной связанности слов.
Литература
1. Ахманова О. С. Словарь лингвистических терминов, М.: 1966.
2. Борисова Е. Г. Коллокации. Что это такое и как их изучать. М.: 1995.
3. Захаров В. П., Хохлова М. В. Анализ эффективности статистических методов выявления коллокаций в текстах на русском языке // Компьютерная лингвистика и интеллектуальные технологии: Труды Международной конференции Диалог’2010. -М.: Изд-во РГГУ, 2010.
4. Иорданская Л. Н., Мельчук И. А. Смысл и сочетаемость в словаре. М.: 2007.
5. Church K., Hanks P. Word association norms, mutual information, and lexicography // Computational Linguistics, 1996, № 16(1). - P. 22-29.
6. Dunning T. Accurate Methods for the Statistics of Surprise and Coincidence // Computational Linguistics, 1993. Volume 19, №1. - P. 61-74.
7. Harris Z. S. Papers in Structural and Transformational Linguistics. - Dordrecht, Reidel, 1954.
8. Harris Z. S. Mathematical Structures of Language. - Interscience publishers, 1968.
9. Landauer Th. K., McNamara D. S., Dennis S., Kintsch W. Handbook of Latent Semantic Analysis. - Mahwah NJ, Lawrence Erlbaum, 2007.
10. Lund K., Burgess C. Producing high-dimensional semantic spaces from lexical cooccurrence // Behavior Research Methods, Instruments & Computers, 1996, 28(2). - P. 203208.
11. Rapp R. Word sense discovery based on sense descriptor dissimilarity // Proceedings of the 9th MT Summit. - New Orleans, LA, 2003. - P. 315-322.
12. Sahlgren M. The Distributional Hypothesis. From context to meaning // Distributional models of the lexicon in linguistics and cognitive science (Special issue of the Italian Journal of Linguistics), Rivista di Linguistica, volume 20, numero 1, 2008.
13. Sahlgren M., Karlgren J. Automatic Bilingual Lexicon Acquisition Using Random Indexing of Parallel Corpora // Journal of Natural Language Engineering, Special Issue on Parallel Texts, 2005, №11(3).
14. Salton G. M. The SMART Retrieval System: Experiments in Automatic Document Processing. - Prentice-Hall, 1971.
15. Turney P. D., Pantel P. From frequency to meaning: Vector space models of semantics // Journal of Artificial Intelligence Research (JAIR), 2010, №37. - P. 141-188.
16. Turney P. A uniform approach to analogies, synonyms, antonyms and associations // Proceedings of COLING, Manchester, 2008. - P. 905-912.
17. Интернет-сайт программы S-Space: https://github.com/fozziethebeat/S-Space