© Вестник Военного университета. 2012. № 2 (30). С. ?- ?.
Потемкин Сергей Борисович, кандидат технических наук, научный сотрудник лаборатории обеспеченного компьютером обучения филологического факультета ФГБОУ ВПО «Московский государственный университет имени М.В.Ломоносова», г. Москва.
119991, Москва, ГСП-1, Ленинские горы, МГУ, д. 1, стр. 51, 1-й уч. корпус, филологический
факультет.
Тел:(495) 939-14-78. E-mail:potemkin@philol.msu.ru
Потемкин С.Б.
ПРОБЛЕМЫ РАЗРАБОТКИ ПАРАЛЛЕЛЬНОГО КОРПУСА ПЕРЕВОДОВ РУССКОЙ КЛАССИКИ
Развитие науки о переводе в целом и различных направлений корпусной лингвистики в частности в большой степени связано с использованием современных лингвистических ресурсов и методов, в том числе больших объемов текстов, научных, общественно-политических, юридических, экономических и их переводов на иностранные языки, собранных в параллельных корпусах [20, с. 87]. Возможность использования обширных параллельных корпусов переводов1 вносит реальные перемены в способы доступа к двуязычной лингвистической информации, открывает новые возможности ее анализа и обобщения с последующим применением полученных знаний для целей ручного и машинного перевода, составления словарей, обучения иностранным языкам.
Важнейшую роль для использования этих ресурсов играет аннотирование исходных текстовых материалов, собранных из самых разных источников, в первую очередь, из сети Интернет, начиная от простого сопоставления разделов, глав, параграфов исходного текста аналогичным структурам целевого текста - к выравниванию предложений, фраз и слов внутри предложений, с морфологическим, синтаксическим и семантическим разбором и сравнением деревьев разбора, либо в модели непосредственных составляющих, либо в
1 Параллельный корпус (Parallel Corpora) - это электронный аналог параллельных переводных текстов, состоящий, как правило, из множества блоков "текст-оригинал и один/несколько его переводов". Электронные тексты в корпусе могут представлять собой целое оригинальное словесное произведение или какую-либо его часть. - С.П.
модели семантико-синтаксических зависимостей. Размер и степень аннотированности корпуса определяется задачами его исследователей. Большие сбалансированные по тематике, хронологии и жанрам корпуса служат для изучения общих свойств языка, тогда как при создании специализированных параллельных корпусов стараются преимущественно решать вопросы анализа конкретных аспектов перевода, или конкретных типов текстов, определения авторства и пр.
Практика свидетельствует, что в отличие от моноязычных корпусов, таких, как Британский национальный корпус [2] или Национальный корпус русского языка (НКРЯ) [23], Компьютерный корпус текстов русских газет конца XX века [22], параллельные корпуса, содержащие только переведенные тексты, имеют значительно меньшие размеры и гораздо менее сбалансированы. Так, например, подкорпус параллельных (русско-английских) текстов НКРЯ составляет по объему около 10% от основного корпуса. Нетрудно понять причины такого положения: использование языка его носителями предоставляет избыток данных в каждой области науки, культуры, общественной жизни, тогда как переводные тексты используются в ограниченном масштабе, при обучении языкам, переводе различных слушаний, на конференциях. Фактически, параллельные корпуса в настоящее время являются специализированными для определенной предметной области (нормативные документы, технические руководства, художественные произведения, для которых имеются переводы и т.д.).
Автоматическая обработка и аннотирование параллельных корпусов выполняется иначе, чем корпусов моноязычных. Первой технической проблемой в этом случае является точное автоматическое выравнивание исходного и переведенного текстов на уровне предложений, словосочетаний и слов, что само по себе представляет одну из наиболее трудных проблем автоматической обработки текстов. Поскольку алгоритмы полностью автоматического выравнивания основаны на вероятностной модели и поиск в пространстве состояний для оптимального выравнивания является КР-сложной задачей [7, с. 165-172], используются эмпирические и лингвистические соображения, разнообразные статистические методы, сопоставление частотных или, напротив, редких для данного текста слов. Совместные усилия лингвистов и программистов привели к заметному повышения качества выравнивания и упрощению построения специализированных параллельных корпусов, в
основном для европейских языков и других языков с обширной ресурсной базой, таких, как китайский или японский [18, с. 237-248].
В то же время стоимость использования и авторские права на такие корпуса часто не позволяют широко применять их в образовательных и исследовательских целях, чем объясняется появление небольших корпусов, собранных из текстов одного автора или одного периода, которые фактически и составляют сегодня основную долю корпусов в научных проектах для перевода и обучения [например: 26, с. 16-20]. Несмотря на малый объем, такие корпуса, используемые совместно с большими моноязычными корпусами, могут быть чрезвычайно полезны, а данные, извлеченные из них, могут заметно контрастировать по частотности словоупотреблений, наличию специфической лексики, грамматических конструкций, отсутствующих в корпусе общего назначения, что составляет особую ценность таких частных корпусов.
Проблема построения параллельного корпуса заключается в высокой трудоемкости, т.е. часто оказывается гораздо проще заново перевести текст, чем выполнить его выравнивание с готовым переводом. Вследствие этого наиболее точное ручное выравнивание выполняется лишь для нескольких сотен предложений в исследовательских целях, в частности, для оценки качества автоматического выравнивания, которое активно развивалось в течение двадцати последних лет [3, с. 263-311; 10, с. 535-554; 12, с. 87-99; 14, с. 295-302; 19, с. 8794]. Несмотря на достигнутые успехи, методы автоматического выравнивания дают ошибки, особенно если в текстах встречаются редкие слова и фразы. Отсюда необходимость разработки таких методов и алгоритмов, которые давали бы близкое к ручному качество выравнивания, при существенном снижении затрат. Ниже излагаются некоторые проблемы создания и использования корпуса текстов русской классики и параллельных переводов на английский язык, а также подходы к их решению.
* * *
Выбор текстов
Современный русский литературный язык, созданный великими писателями XIX в., несмотря на многочисленные девиации, отклонения от литературной нормы, сохраняет свое лексическое и грамматическое ядро. Овладение русским языком иностранными студентами, перевод иностранной литературы на русский язык и обратно, требует изучения наследия русской
классической литературы и переводов, выполненных профессиональными переводчиками, носителями целевого языка. Интерес всего мира к русской классике XIX в. возник в конце XIX - начале XX столетия и не снижается до настоящего времени. Этот интерес удовлетворяется как изучением русского языка, так и в гораздо большей степени, переводами классических произведений на иностранные языки. Наиболее многочисленны и доступны в электронном виде переводы на английский язык, чем объясняется обращение автора данной статьи к составлению корпуса русско-английских параллельных текстов, для которого были выбраны переводы произведений «Петербургские повести» Н.В. Гоголя [16], «Преступление и наказание» Ф.М. Достоевского [6] и сборника коротких рассказов А.П. Чехова [17] в несколько старомодном переводе на английский Констанс Гарнетт.
Выравнивание текстов на уровне предложений
Одна из первых по значимости и по порядку решения задач состоит в установлении соответствий между текстами на уровне предложений. Для многих целей, в частности, учебных, такого выравнивания достаточно, кроме того, дальнейшее выравнивание (на уровне словосочетаний и отдельных слов) невозможно без этого предварительного этапа. Соответствие между предложениями исходного и целевого текстов очень часто не является взаимнооднозначным, т.е. одному предложению исходного текста могут соответствовать несколько предложений перевода и наоборот; какие-то предложения и целые абзацы исходного текста могут выпадать в переводе, границы предложений могут не совпадать, т.е. группа слов в переводе переходит в следующее предложение и т.п. Особенно часто отсутствие однозначного соответствия между предложениями и фразами в парах текстов характерно для перевода художественных произведений.
При выравнивании на уровне предложений применяются чисто структурные (по длине, числу слов, предложений) и статистические методы (по частотности составляющих слов), которые не требуют развитой словарной базы и могут использоваться для языков с небольшой ресурсной базой. Методы выравнивания по длине очень чувствительны к пропускам или вставкам предложений в том смысле, что отдельный пропуск или вставка может приводить к неправильному последующему выравниванию от точки пропуска/вставки до конца текста. Статистические методы также часто дают ошибочные результаты
выравнивания, требуя в последующем дорогостоящей ручной проверки и исправления.
Для научных текстов часто применяют метод транскрибирования, поскольку многие научные термины происходят из одного источника -греческого, латинского, позднее из английского, немецкого, французского. Сопоставленные таким образом термины служат опорными точками для дальнейшего выравнивания. Использование двуязычных словарей для выравнивания текстов менее распространено, и применялось в основном для специализированных текстов, (англо-французские протоколы канадского парламента [1], юридические тексты ЕС, спецификации программ, и т.п.).
Предлагаемый автором метод выравнивания содержит определенные ограничения, а именно (a) порядок предложений в русском и английском текстах совпадает; (b) в параллельных текстах нет значительных (более 200 слов) пропусков; (с) длина параллельных текстов не слишком большая - порядка 40 тыс. словоупотреблений. Метод основан на использовании двустороннего англорусского словаря [24] объемом около 1,5 млн. пар эквивалентов, по которому выполняется поиск переводных эквивалентов из анализируемых текстов. Вначале рассматриваются только низкочастотные слова, а именно слова, встречающиеся только 1 раз в каждом тексте (hapax legomena). Для каждого такого слова исходного (русского) текста определяется переводной эквивалент, который также встречается однократно в тексте перевода. Если для русского hapax legomena находится несколько эквивалентов, все они исключаются из рассмотрения. Если найденные эквиваленты связывают предложения с нарушением порядка их следования в тексте перевода, они также исключаются. В результате такой ограничительной стратегии получается набор уникальных пар слов-эквивалентов в двух текстах. Такие пары образуют первичную структуру опорных точек или «якорей», связывающих те предложения текстов, к которым они относятся. Затем исходные тексты разбиваются на отрезки, ограниченные найденными парами предложений. Эти отрезки рассматриваются как новые параллельные тексты и процедура расстановки опорных точек повторяется. Итерации продолжаются, пока появляются новые якоря. На практике число итераций в обработанных текстах не превышало 6.
Во многих случаях сопоставление предложений исходного и переводного текстов достигается уже после определения опорных точек. Если же эта цель не достигнута, для определения эквивалентов применяется метод динамического
программирования на отрезках русского и английского текстов между опорными точками. Для каждого слова отрезка русского текста (назовем его для краткости параграфом) в словаре отыскивается словарный эквивалент (эквиваленты) в соответствующем отрезке английского текста. Число таких эквивалентов подсчитывается для каждой пары предложений, что определяет меру сходства между предложениями. Мера сходства записываются в ячейку таблицы, строки которой соответствуют предложениям исходного текста, а столбцы -предложениям перевода (матрица смежности).
Через заполненные ячейки матрицы смежности можно провести несколько различных путей - от начала до конца параграфа. Наиболее вероятное согласование предложений исходного и переводного параграфов соответствует критическому пути, т.е. такому пути, сумма величин в ячейках, через которые он проходит, максимально. Поиск критического пути осуществлялся стандартными методами динамического программирования.
Лемматизация для русского текста была выполнена по словарю словоформ, построенному с использованием программы StarLing [25]. Для устаревших, редких и диалектных слов вручную строились словоизменительные парадигмы, которые использовались при лемматизации и пополняли словарь словоформ. Лемматизация английского текста не проводилась ввиду относительно бедного словоизменения в английском языке и наличия в двуязычных словарях многих словоформ, отличных от исходной.
В результате выравнивания рассказа А.П. Чехова «Анна на шее» и его перевода на английский язык в русском тексте были выделены 223 предложения, в английском тексте - 239 предложений. Получено 182 пары предложений (78% текста), из которых 165 предложений (90,5%) представляли полный и точный перевод, 16 предложений (9%) - часть перевода оригинала (или наоборот) и 1 предложение (0,5%) было сопоставлено переводу ошибочно. Аналогичные соотношения сохраняются для других текстов рассматриваемой коллекции.
Типичный пример несоответствия, когда одно предложение переводится двумя: "Что это, вы больны?" <> "What's this?" "Are you ill?" Такие ошибки легко исправляются путем анализа лексики. Другой, более трудный для обработки случай - когда несколько предложений (2-3) переводятся 2-3 предложениями, однако их границы не совпадают: "Эк ведь спит! - вскричала она с негодованием, - и все-то он спит!" <> "My goodness; how he sleeps! - she cried indignantly: And he is always asleep". В таких случаях приходилось
проводить выравнивание, не определяя границ предложений. После нескольких итераций такого слияния по всему тексту несвязанными остались около 5% предложений, для которых сопоставление выполнялось вручную.
Фрагментация параллельных предложений
Выравнивание на уровне ниже уровня предложений обычно выполняется с использованием статистических моделей машинного перевода [3, с. 263-311], где любое слово предложения целевого языка (ЦЯ) считается возможным переводом любого слова предложения исходного языка (ИЯ). Вероятность некоторого слова ЦЯ быть переводом слова ИЯ зависит от частоты, с которой оба слова встречаются в той же самой или близкой позиции в параллельном корпусе. Наиболее вероятные пары принимаются в качестве переводных эквивалентов. Такой подход имеет ряд недостатков, связанных с большим количеством редких словоупотреблений, что обычно для малого корпуса, различиями в порядке слов в языках и наличием словосочетаний, переводимых одним словом. Приблизительно половина словника корпуса состоит из так называемых редких событий, встречающихся в тексте с частотой менее 10 ipm (словоупотреблений на миллион). Редкие события, очевидно, не дают достаточно информации для статистического анализа. С другой стороны, от 5 до 10% словника корпуса состоит из высоко частотных слов, то есть слов с частотами 100 ipm или выше. Поскольку такие слова встречаются практически в любой позиции в корпусе, они могут сопоставляться с чем угодно, если решение о выравнивании основано исключительно на статистике.
Другая проблема, которая была отмечена уже в первых исследованиях по выравниванию на уровне слов, касается различий в порядке слов между исходным и целевым языком [5; 13, с. 107-130]. Многие предложения английского и русского языков имеют совпадающий в основном порядок слов, однако могут включать локальные инверсии. Наиболее распространенным примером инверсии служит атрибутивная именная конструкция, порядок слов в которой инвертирован относительно русского оригинала. Сопоставление неравных по числу слов цепочек ИЯ и ЦЯ было отмечено в качестве трудной задачи для статистического выравнивания по словам [8, с. 75-102]. Устойчивое словосочетание, зафиксированное в словаре, должно обрабатываться именно как таковое и эквивалентом для него в тексте перевода будет слово или словосочетание из словарной статьи.
Параллельные предложения можно расположить по двум осям так называемого пространства билингвы [13, с. 107-130]. Обычно номер слова в предложении берется в качестве его координаты в пространстве билингвы. Будем принимать в качестве координатных отсчетов не слова как таковые, а разделители (пробелы) между соседними словами. При таком подходе отображение фрагмента исходного предложения на фрагмент целевого предложения представляет собой отрезок с координатами начала и конца фрагмента ИЯ на оси X и начала и конца фрагмента ЦЯ на оси Y. Теперь можно ставить в соответствие (на основе двуязычного словаря) не только однословные эквиваленты, но также эквиваленты типа словосочетаний. Например, в параллельных предложениях "Но теперь его вдруг что-то потянуло к людям " <> "But now all at once he felt a desire to be with other people" [6] слово ИЯ вдруг переведено в ЦЯ словосочетанием all at once и такой перевод зафиксирован в русско-английском словаре. Построив по двуязычному словарю опорное пословное отображение, можно переходить непосредственно к фрагментации, то есть к отображению интервалов ИЯ на интервалы ЦЯ, которые лежат между уже определенными опорными отрезками. Если мы рассматриваем только монотонные отображения (т.е. считаем порядок слов исходного и целевого предложения по большей части совпадающим), задача попадает в класс задач динамического программирования. Однако исходное предложение и его перевод, даже имеющие в основном совпадающий порядок слов, содержат фрагменты с инверсией, например: "изредка только" <> "only occasionally". Такую локальную инверсию желательно включить в критический путь, но общий алгоритм динамического программирования этого не допускает. Поиск инверсных фрагментов выполняется отдельным алгоритмом, после чего найденные фрагменты целиком включаются в общий набор сопоставленных отрезков и участвуют в алгоритме поиска критического пути.
Вернемся к приведенному примеру. Критический путь разбивает исходную пару предложений на следующие фрагменты:
1. Но теперь == But now
2. теперь его вдруг == now all at once
3. вдруг что-то потянуло к == all at once he felt a desire to be with
4. к людям == with other people
Границы фрагментов представлены словами и словосочетаниями,
зафиксированными в словарях. Интерес представляет часть фрагмента, лежащая между границами - это не вошедшие в словари «эквиваленты», которые могут рассматриваться как кандидаты для включения в словарь авторского языка, либо как образец перевода, который можно использовать в учебных целях или для построения систем автоматического перевода.
Ниже приводится часть списка таких новых пар эквивалентов, извлеченных после выравнивания на уровне слов из перевода «Петербургских рассказов» Н.В. Гоголя [16]:
злодеяние <> evil deed; поручить <> enjoin; примороженный <> frozen; полгорсти <> half a handful; поднести <> raise; будочники <> watchmen; получить <> conceive; свой <> your; оставить <> neglect; требовать <> compel; движение <> impulse; задуматься <> begin to think; представляться <> recur; бледный <> poor; слышал <> hearkened; развлечься <> divert; расположение <> state; приятный <> delightful; как известно <> as every one knows [21].
Синтаксический анализ
Дальнейшее уточнение выравнивания на уровне слов требует выполнения синтаксического анализа предложений ИЯ и ЦЯ. В последнее время прилагались большие усилия по использованию для синтаксического анализа размеченных корпусов, которые позволяют проводить проверку грамматических теорий, а также формировать сами правила синтаксиса. Этот процесс называется «тренировкой» формальной грамматики и должен завершиться при достижении некоторого малого процента ошибок. Для тренировки грамматики составляются синтаксически аннотированные корпуса, получившие название «treebank» [9, с. 368-375]. Имеются хорошие синтаксические анализаторы (парсеры) для модели непосредственных составляющих для английского и некоторых других языков. Также имеются работы, основанные на модели дерева зависимостей, например, MALT-парсер [11]. Для большинства языков мира, однако, отсутствуют хорошие синтаксические анализаторы, либо вообще какие-либо анализаторы.
В описанной ниже модели локальных связей [15] структура зависимостей строится снизу вверх. Вначале устанавливаются локальные связи между соседними словами, которые объединяются в синтагмы или «юниты», затем устанавливаются связи между соседними юнитами, и так далее, пока не достигается последний, верхний уровень объединения, чем и завершается
построение дерева зависимостей. Существенным в этом процессе является выбор последовательности объединения юнитов, который определяется весом связи между ними. В качестве веса связи R между отдельными словами в предложении принимается отношение числа установленных связей R между словами Wi и Wj в предложениях корпуса, к числу обнаружений пар слов Wi и Wj в одном и том же предложении корпуса. Если какая-либо пара слов (напр., предлог и существительное в предложном падеже) всегда синтаксически связаны, вес такой связи будет равен 1, во всех других случаях - меньше 1, то есть, связь с более высокой вероятностью имеет больший вес.
Алгоритм парсинга заключается в последовательном установлении локальных связей, то есть связей между соседними словами или уже связанными фрагментами предложения. Фрагмент имеет «открытые» и «закрытые» слова. Закрытым называем слово, над которым уже проведена синтаксическая связь, все остальные слова фрагмента являются открытыми. Связи могут устанавливаться только между открытыми словами. Например, в предложении "Доктор мгновенно проникается уважением к пациенту" связи устанавливаются в следующем порядке: к - пациенту, проникается - уважением, мгновенно -проникается, доктор - проникается, уважением - пациенту.
Первоначальные веса связей устанавливались по 3-граммной модели, т.е. все предложения корпуса разбивались на 3-словные цепочки, слова в которых предполагались синтаксически связанными. Исходя из этого предположения, вычислялись веса связей, затем выполнялось несколько итераций синтаксического анализа, в результате чего веса изменялись. После 4-6 итераций результаты анализа переставали меняться и считались окончательными. Поскольку первоначальные связи устанавливались только в пределах окна длиной 3 слова, а согласно алгоритму должны связываться слова, далеко отстоящие друг от друга, необходимо задавать вес связи между любыми двумя словами предложения. С этой целью используется приближение, описанное в работе [4, с. 505-512].
В алгоритм заложены также некоторые лингвистические знания, например, вес связей типа предлог - существительное, прилагательное - существительное (согласованные) и т.п. увеличивается. Полученный в результате парсер локальных зависимостей дает примерно 80% точности установления связей. Аналогичный метод можно применить для синтаксического анализа английского
текста, однако мы использовали уже разработанные и хорошо себя зарекомендовавшие и открытые анализаторы типа MiniPar, дающие еще более высокую точность (до 85%). Деревья зависимостей для русского и английского предложения, как правило, не совпадают. В приведенном примере из Достоевского "Но теперь его вдруг что-то потянуло к людям " корнем дерева разбора ИЯ является глагол потянуло, в дереве разбора ЦЯ - глагол felt, а весь комплекс, связанный с ним feel a desire to be with переводится как потянуть(ся) к... . В то же время, связь к - людям соответствует связи with - people, что дает уточняющую информацию для фрагментации. Без учета этой синтаксической информации предлог к был бы поставлен в соответствие показателю инфинитива to, распознанному как предлог, поскольку в словарях такой перевод является преобладающим.
Автоматический парсинг может быть улучшен при использовании параллельных предложений, выровненных на уровне слов. Так, при наличии достоверного парсера английского языка и выровненных английского и русского предложений, можно выполнить проекцию дерева разбора английского предложения на соответствующее русское предложение и наоборот. Устранение расхождений, выявленных при сравнении прямого синтаксического анализа и анализа, выполненного путем проекции, позволят улучшить качество применяемого алгоритма. В этом смысле использование параллельных текстов русской классики и их английских переводов особенно продуктивно благодаря богатству использованной лексики и разнообразию синтаксических конструкций в классических произведениях.
* * *
Создание параллельного корпуса для пополнения словарей, обучения, перевода, машинного перевода, является важной и одновременно весьма сложной задачей. Причина, по которой в статье рассматривались переводы русской классической литературы, а не современные специальные тексты, заключается в том, что перевод терминов является скорее нормативной задачей, то есть должен фиксироваться в стандартизованных словарях, где каждому термину (в данной предметной области) присваивается единственный допустимый эквивалент. Все, что остается переводчику или студенту - это обратиться к такому терминологическому словарю. То же самое происходит и при машинном переводе: обращение к терминологической словарной базе решает вопрос адекватного перевода. Также и разнообразие синтаксических конструкций в
специальных текстах стараются свести к минимуму, чтобы не затруднять понимание сути (если неоднозначность не вносится автором намеренно).
Ситуация же с переводом общей лексики иная, перевод зависит от контекста, который не может включаться в словари. Доступ к параллельному корпусу текстов, включающих лучшие литературные образцы, позволит переводчику, по мнению автора, с уверенностью использовать эти образцы в своей работе, а в дальнейшем и переложить часть работы переводчика на
программы автоматического машинного перевода.
* * *
1. Aligned Hansards of the 36th Parliament of Canada Release 2001-1a [Электронный ресурс] // Information Sciences Institute: [сайт]. URL: http://www.isi. edu/natural-language/download/hansard/ (дата обращения: 22.04.2012).
2. British National Corpus (BNC) [Электронный ресурс] // British National Corpus: [сайт]. URL: http : //www.natcorp . ox . ac.uk/ (дата обращения: 22.04.2012).
3. P.F. Brown, V.J. Della Pietra, S.A. Della Pietra, R.L. Mercer. The mathematics of statistical machine translation: parameter estimation // Computational Linguistics. 1993. Vol. 19(2).
4. М. Collins., J. Hajic, E. Brill, L. Ramshaw, C. Tillmann. A statistical parser for Czech [Электронный ресурс] // The Association for Computational Linguistics: [сайт]. URL: http://www.aclweb.org/anthology-new/P/P99/P99-1065.pdf (дата обращения: 27.04.2012).
5. Collins М., Koehn Р., Kucerova I. Clause restructuring for statistical machine translation // Proceedings of the Association for Computational Linguistics (2005) [Электронный ресурс] // Faculty of Humanities - McMaster University: [сайт]. URL: www . humanities.mcmaster.ca/~kucerov/ACL2005.pdf (дата обращения: 27.04.2012).
6. Crime and Punishment by Fyodor Dostoyevsky [Электронный ресурс] // Project Gutenberg: [сайт]. URL: http://www . gutenberg.org/ebooks/2554 (дата обращения: 22.04.2012).
7. Dzemyda G., Sakalauskas L. Optimization and knowledge-based technologies // Informatica. 2009. Vol. 20(2).
8. Gale W.A., Kenneth W.C. A Program for Aligning Sentences in Bilingual Corpora // Computational Linguistics. 1993. Vol. 9(1).
9. Large-Scale Induction and Evaluation of Lexical Resources from the Penn-II Treebank / R. O'Donovan, M. Burke, A. Cahill, J. van Genabith, A. Way // Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics. Barcelona, 2004.
10. Laukaitis A., Vasilecas O. Multi-alignment templates induction // Informatica. 2008. Vol. 19(4).
11. MaltParser [Электронный ресурс] // MaltParser: [сайт]. URL: http://www.maltparser.org/ (дата обращения: 27.04.2012).
12. Marcu D., Wong W. A phrase-based, joint probability model for statistical machine translation // Proceedings of the Conference on Empirical Methods in Natural Language Processing. Philadelphia, 2002.
13. Melamed I. Bitext Maps and Alignment via Pattern Recognition // Computational Linguistics. 1999. Vol. 25 (1).
14. Och F.J., Ney H. Discriminative training and maximum entropy models for statistical machine translation [Электронный ресурс] // ACL Anthology: [сайт]. URL: http://acl.ldc.upenn.edU/P/P02/P02-1038.pdf (дата обращения: 23.04.2012).
15. Potemkin S.B. Unsupervised parsing of the Russian sentence // Conceptual Structures for Extracting Natural language Semantics (SENSE'09) [Электронный ресурс] // CEUR Workshop Proceedings: [сайт]. URL: http://ceur-ws . org/Vol-476/paper6.pdf (дата обращения: 22.04.2012).
16. The Collected Tales of Nikolai Gogol / translator Pevear R., Volokhonsky L. New York: Pantheon Books, 1998. 435 p.
17. The Lady with the Dog and Other Stories by Anton Pavlovich Chekhov [Электронный ресурс] // Project Gutenberg: [сайт]. URL: http://www.gutenberg.org/ebooks/13415 (дата обращения: 27.04.2012).
18. Tiedemann J. News from OPUS - A Collection of Multilingual Parallel Corpora with Tools and Interfaces // Recent Advances in Natural Language Processing. 2009. Vol V. P. 237248.
19. Toutanova K., Ilhan H.T., Manning C.D. Extensions to HMM-based statistical word alignment models // Proceedings of Empirical Methods in Natural Langauge Processing. Philadelphia, 2003.
20. Беляева Л.Н. Корпусная лингвистика и перевод: потенциал и ограничения // Труды международной конференции «Корпусная лингвистика - 2011» (Санкт-Петербург, 27-29 июня 2011г.) СПб: Изд-во филологического ф-та СПбГУ, 2011. С. 87 - 91.
21. Кедрова Г.Е., Потемкин С.Б. Использование корпуса параллельных текстов для пополнения специализированного двуязычного словаря // Труды и материалы III Международного Конгресса исследователей русского языка «Русский язык: исторические судьбы и современность» (Москва, 20-23 марта 2007):. М.: МАКС Пресс, 2007. С. 27-628.
22. Компьютерный корпус текстов русских газет конца XX-ого века [Электронный ресурс] // Сайт филологического факультета МГУ имени М. В. Ломоносова: [сайт]. URL: http : //www.philol.msu.ru/~lex/corpus (дата обращения: 27.04.2012).
23. Национальный корпус русского языка (НКРЯ) [Электронный ресурс] // Национальный корпус русского языка: [сайт]. URL: http://www.ruscorpora.ru/ (дата обращения: 27.04.2012).
24. Потемкин С.Б. Лексическая база данных с наложенной семантической метрикой // II Международный конгресс русистов-исследователей «Русский язык: исторические судьбы и современность» (Москва, 18-21 марта 2004): сб. тезисов. М., 2004.
25. Программа для работы с базами данных СТАРЛИНГ [Электронный ресурс] // Вавилонская башня: [сайт]. URL: http:// starling. rinet . ru/morpho . php?l an=ru (дата обращения: 27.04.2012).
26. Электронный корпус текстов по памятникам древнерусской агиографической литературы / А.С. Герд., Е.Л. Алексеева, И.В. Азарова, Л.А. Захарова // Научно-техническая информация. Информационные процессы и системы. Серия 2. 2004. № 9.
C. 1б - 20.