УДК 811.111:34: 81322
М. А. ГРОСС
Омский государственный технический университет, г. Омск
АВТОМАТИЗИРОВАННОЕ ВЫДЕЛЕНИЕ ТЕРМИНОЛОГИИ ИЗ ТЕКСТОВ ДОГОВОРОВ НА АНГЛИЙСКОМ ЯЗЫКЕ ПРИ ПОМОЩИ СРЕДСТВ КОРПУСНОЙ ЛИНГВИСТИКИ
Рассмотрены возможности использования средств корпусной лингвистики для автоматизированного выделения терминологии из специального корпуса договоров. Указаны достоинства и недостатки различных методов применительно к поиску терминов-слов и терминов-словосочетаний.
Ключевые слова: терминология, договор, английский язык, корпусная лингвистика, корпус текстов.
При проведении терминоведческих исследований главной и первоочередной задачей для исследователя является поиск существующего терминологического словаря или составление нового. На первых этапах развития терминоведения с этой целью проводилась кропотливая работа сначала по подбору специальных научных и/или технических текстов, а затем по выделению терминов и терминологических словосочетаний из накопленного массива текстов. Эта работа проводилась вручную и сопровождалась составлением терминологических карточек. Анализ собранной терминологии, а также сбор необходимых количественных данных так же проводился без использования каких-либо технических средств. С появлением и повсеместным распространением компьютеров данные, конечно же, стали хранить в электронном варианте, но вычленение терминологии осуществлялось по-прежнему вручную.
Компьютерные и информационные технологии стали неотъемлемой частью нашей повседневной жизни и постепенно проникли в гуманитарные науки. В результате этого появилась корпусная лингвистика, которая существует уже полвека в зарубежных странах, но для России — это наука XXI века. До сих пор нет однозначного мнения относительно статуса корпусной лингвистики — является ли она самостоятельной наукой, особым лингвистическим методом исследования либо чем-то третьим. Но одно очевидно — с ее помощью можно проверять лингвистические гипотезы эмпирически и подтверждать их статистическими данными.
Корпусными исследованиями за границей занимаются Лич (Leech), Байбер (Biber), Йохансон (Johansson), Фрэнсис (Francis), Ханстон (Hunston), МакКарти (McCarthy) и Синклэр (Sinclair) [1, c. 2], в России эту проблему исследуют М. Копотев, О. Митренина, Е. Грудева, А. Поликарпов, С. Шаров и другие. Ряд работ российских исследователей
посвящен как раз проблематике автоматизированного выделения терминологии из корпусов текстов, например, работы таких ученых, как Н. В. Виноградова, П. В. Паничева, О. А. Митрофанова, В. П. Захаров, П. И. Браславский и Е. А. Соколов.
Главной характеристикой корпусных исследований является изучение корпусов текстов с использованием компьютеров. Под корпусом текстов понимается коллекция аутентичных текстов, отобранных в соответствии с определенным принципом, которая хранится в электронном виде [1, с. 2]. Такие корпусы исследуются при помощи специальных приложений — корпус-менеджеров (corpus-managers) или конкордансовых программ (concordances).
Используемый в данном исследовании корпус договоров, в соответствии с классификацией Мак-Энери [2], является одноязычным (monolingual), включает юридические тексты письменной речи, и состоит из полных текстов. Поскольку данный корпус состоит лишь из контрактов, то он представляет собой специальный корпус, одной из особенностей которого является присутствие жёстких ограничений тематики, а также типа текстов, включенных в него [3, с. 321]. Данный корпус был составлен специально для проведения исследования договорной терминологии, и его подробные характеристики (тип договоров, количество токенов и слов, источники) представлены в нашей предыдущей работе [4].
Исследователи говорят о трех классах методов, используемых для извлечения терминологии из корпуса текстов [3]:
— лингвистические — методы выделения терминологии из корпусов текстов вручную, как описывалось ранее;
— статистические — такие методы, как MI-score, T-score, Z-core Log-Likelihood, C-value, Pearson's R (линейный коэффициент корреляции Пирсона), Chi Squared test (критерия согласия Пирсона);
— комбинированные методы — методы, включающие совместное использование двух предыдущих классов.
В данной работе мы рассмотрим использование именно группы статистических методов при составлении терминологической выборки. При этом следует помнить, что традиционно термины делятся на термины-слова (состоящие из одного слова) и термины-словосочетания (состоящие из двух и более слов), и поэтому выделяться из корпуса они будут отдельно и разными способами.
Для выделения терминов-слов, как правило, применяется метод TF-IDF (term frequency — inverse document frequency). Данный статистический метод используется для составления списка ключевых слов, который отражает, насколько важна та или иная лексическая единица для данного специального корпуса по сравнению с другим (чаще всего, представительным) корпусом [5]. В нашем случае в качестве корпус-менеджера использовалось бесплатное приложение AntConc (версия 3.4.4w), которое автоматически создает список ключевых слов, основываясь на одном из двух статистических методов: Log-Likelihood и Chi Squared. Для сравнения использовался BNC — British National Corpus (100 млн слов), содержащий примеры как устной так и письменной речи.
При первичном составлении списка ключевых слов (на основе Log-Likelihood) было обнаружено, что в список вошли не только знаменательные, но и служебные слова, а также имена собственные (например, Yahoo — компания, являющаяся сторо-
ной договора) (табл. 1). Такой список может представлять интерес с точки зрения стилистических особенностей текстов договоров, но не подходит для автоматизированного выделения терминологии. Для большей точности полученных результатов был составлен список стоп-слов, включающий артикли, союзы, предлоги, местоимения, вспомогательные и модальные глаголы и имена собственные, которые не могут являться терминами. Использование стоп-слов значительно улучшило точность итогового списка.
Обратите внимание, что списки ключевых слов, составленных при помощи двух методов (табл. 1), мало отличаются: оба списка включают термины agreement, party, landlord, seller, lease, tenant среди первых 10 самых значимых слов. Остальные термины также присутствуют в списках, но под разными порядковыми номерами: section (Log Likelihood — 3, Chi Squared — 15), termination (LL — 13, CS — 6), date (LL — 8, CS — 28), lessee (LL — 19, CS — 8) buyer (LL — 9, CS — 11), pursuant (LL — 16, CS — 9), premises (LL — 10, CS — 18), supplier (LL — 12, CS — 10). Таким образом, можно сделать вывод, что вне зависимости от используемого метода, список ключевых слов подходит для автоматизированного выделения терминов из корпуса текстов при условии использования стоп-слов.
Как уже упоминалось ранее, помимо терминов-слов существуют также термины-словосочетания, которые могут состоять как из двух — четырех слов, так и из пяти либо шести (но реже). П. И. Браслав-ский и Е. А. Соколов посвятили несколько работ
Таблица 1
Список ключевых слов (с 1 до 10), отсортированных по значимости
Ключевые слова (Log-Likelihood) Ключевые слова (Log-Likelihood) после добавления стоп-слов Ключевые слова (Chi Squared) после добавления стоп-слов
or agreement agreement
shall party party
agreement section seller
any landlord landlord
party seller lease
yahoo tenant termination
such lease tenant
section date lessee
landlord buyer pursuant
microsoft premises supplier
Таблица 2
Коллокации самых частотных ключевых слов корпуса договоров (курсивом выделены термины-словосочетания)
agreement agreement supercedes, nonseverable agreement, entire agreement, agreement embodies, sublicensing agreement, omnibus agreement, integral agreement, remarketing agreement, underwriting agreement
party indemnifying party, party endeavors, disclosing party, defaulting party, breaching party, notify party, party informs, auditing party, receiving party
section sublicensing section, mitigation section, sublicensable section, section heading, conflicting section, meaning section, section unenforceability
landlord landlord nominee, landlord mortgage, superior landlord, landlord solicitors, landlord considers, landlord endeavours
Таблица 3
Результаты использования инструмента n-gгams для анализа корпуса договоров (первые 10 результатов)
2-CAOBHtie 3-CAOBHtie 4-CAOBHtie
aaaa standard aaaa standard terms aaaa standard terms and
aaipharma inc aaipharma inc a aaipharma inc a delaware
aas tw aas tw or aas tw or such
abating a abating a nuisance abating a nuisance and
abbreviations of abbreviations term expression abbreviations term expression definition
abbreviations term abc network espn abc network espn go
abc network abidance of such abidance of such policies
abetting a abiding by fire abiding by fire prevention
abidance of abl aguas argentinas abl aguas argentinas s
abiding by abnormal storage or abnormal storage or operating
Таблица 4
Результаты использования инструмента n-gгams для анализа корпуса договоров (первые 10) с контрастным корпусом BNC (курсивом выделены термины-словосочетания)
2-CAOBHtie 3-CAOBHbie 4-CAOBHbie
Party B set forth in set forth in Section
this Agreement of this Agreement the meaning set forth
Party A under this Agreement meaning set forth in
set forth Party B shall set forth in the
forth in forth in Section the Joint Venture Company
the Tenant Paid Search Services as set forth in
Search Sevices of the Premises Paid Search Services and
this Section Joint Venture Company obligations under this Agreement
the Buyer as set forth the terms and conditions
Confidential Information to this Agreement this Agreement shall be
проблеме извлечения многословных терминов. Они установили, что методы freq и T-score подходят для выделения терминов, состоящих из двух слов, хотя эти методы ошибочно выделяют и устойчивые общеупотребительные выражения помимо терминов [6]. Что касается терминов-словосочетаний, состоящих из большего количества слов, то автоматизированное выделение таких терминов осложнено тем, что их встречаемость в корпусе уменьшается с увеличением числа элементов [7]. В результате сравнения пяти методов было выяснено, что методы C-value и k-factor показали лучшие результаты, но итоговый список требует экспертной либо формальной оценки. Таким образом, выделение многословных терминов на данном этапе развития корпусной лингвистики возможно лишь при помощи комбинированных методов.
Используемый корпус-менеджер AntCont имеет ограниченные возможности для автоматизированного выделения словосочетаний: коллокации (collocations), n-grams и кластеры (clusters). С помощью коллокаций можно найти, в каких фразах чаще всего встречается интересующая лексическая единица. Данный способ изначально предполагает активное участие исследователя и позволяет находить термины-словосочетания, одним из компонентов которых являются термины-слова. Достоинствами данного способа также являются возможность использовать список стоп-слов и то, что они формируются при помощи таких статистических методов, как MI и T-score, для вычисления степени устойчивости найденного словосочетания. А недостаток состоит в том, что данный способ позволяет найти
лишь термины-словосочетания, состоящие из двух слов, а также устойчивые словосочетания, не являющиеся терминами. Использование списка ключевых слов, стоп-слов и инструмента поиска коллока-ций позволяет получить результаты, отображенные в табл. 2.
Что касается инструмента n-grams, то он автоматически находит цепочки, состоящие из п слов, которые встречаются в тексте наиболее часто, но при этом нельзя использовать стоп-слова или другой корпус для сравнения. Даже использование относительной вероятности в качестве критерия сортировки не улучшает полученных результатов (табл. 3).
Использование неспециального корпуса BNC в качестве контрастного значительно улучшает результаты (данную опцию предоставляет сервис SketchEngine), на что уже указывалось в работах П. И. Браславского и Е. А. Соколова [7]. Тем не менее даже этот список можно использовать лишь как основу для составления терминологической выборки (табл. 4).
Инструмент кластеров представляет собой промежуточный вариант между коллокациями и n-grams. С одной стороны, как n-grams он позволяет выбирать количество элементов в строке слов, и как в коллокациях, требует введения лексической единицы для поиска, с другой — он не позволяет использовать стоп-слова и в качестве статистической меры применяет лишь относительную вероятность. Главным отличием данного способа является возможность выбора, должна ли цепочка слов начинаться или заканчиваться с искомого слова. Так же как и в случае n-grams, данный способ не подхо-
Таблица 5
Результаты поиска кластеров со словом agreement, состоящих из 2—4 элементов (первые 10 результатов)
agreement в начале ряда agreement в конце ряда
agreement and agreement shall agreement or agreement will agreement shall be agreement is agreement to agreement may agreement by agreement and the of this agreement able to reach agreement accepted upon separate agreemеnt accepting this agreement according to this agreement accrued under this agreement acknowledges that the agreement activities under this agreement addendum to this agreement additions to this agreement
дит для автоматизированного выделения терминов, а только для уменьшения количества анализируемого материала (табл. 5).
Таким образом, для выделения терминов словосочетаний, состоящих из двух слов, лучше всего подходит поиск коллокаций. Что касается трехи многословных терминов, то ни один из способов невозможно использовать без последующего анализа полученных результатов специалистом.
Использование средств корпусной лингвистики для автоматизированного выделения терминологии из корпусов текстов широко изучается не только отечественными, но и зарубежными учеными. Эти исследования направлены не только на поиск оптимальных средств для данной цели, но и на выявление существующих проблем, а также на определение возможных направлений для развития. Хотя автоматизированное выделение терминов-слов представляется выполнимой задачей на данном этапе, для терминов-словосочетаний это пока невозможно. Несмотря на это, использование корпусных методов позволяет значительно уменьшить объем данных, которые нужно проанализировать для составления терминологической выборки и оптимизировать исследовательский процесс для ученых-терминоведов.
3. Митрофанова О. А., Захаров В. П. Автоматизированный анализ терминологии в русскоязычном корпусе текстов по корпусной лингвистике // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной Меж-дунар. конф. «Диалог 2009». М., 2009. T. 8 (15). С. 321-328.
4. Гросс М. А. Использование корпусной лингвистики при исследовании терминологии договорного права // Язык науки и техники в современном мире: материалы V Междунар. науч.-практ. конф. Омск: Изд-во ОмГТУ, 2016. С. 57-63.
5. Новикова Д. С. Автоматическое выделение терминов из текстов предметных областей и установление связей между ними. URL: http://masters.donntu.org/2012/iii/sarry/library/ novikova.htm (дата обращения: 23.12.2016).
6. Браславский П., Соколов Е. Сравнение четырех методов автоматического извлечения двухсловных терминов из текста // Компьютерная лингвистика и интеллектуальные технологии: тр. Междунар. конф. «Диалог 2006». М.: Изд-во РГГУ, 2006. С. 88-94.
7. Браславский П., Соколов Е. Сравнение пяти методов извлечения терминов произвольной длины // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной Междунар. конф. «Диалог 2008». М.: РГГУ, 2008. Вып. 7 (14). С. 67-74.
Библиографический список
1. Bennett Gena R. Using Corpora in the Language Learning Classroom: Corpus Linguistics for Teachers. Michigan: Michigan ELT, 2010. 144 p.
2. McEnery Tony, Xiao Richard, Tono Yukio. Corpus-based Language Studies: An Advanced Resource Book. New York: Routledge, 2006. 386 p.
ГРОСС Милена Александровна, преподаватель кафедры иностранных языков. Адрес для переписки: [email protected]
Статья поступила в редакцию 17.01.2017 г. © М. А. Гросс