Гуманитарные исследования. История и филология. 2022. № 5. С. 69-78. Humanitarian studies. History and philology. 2022. No. 5. P. 69-78.
Научная статья УДК 81 '33
doi: 10.24412/2713-0231 -2022-5-69-78
МЕРЫ АССОЦИАЦИИ ДЛЯ УСТАНОВЛЕНИЯ СИЛЫ СЕМАНТИКО-СИНТАГМАТИЧЕСКОЙ СВЯЗИ ЭЛЕМЕНТОВ СЛОВОСОЧЕТАНИЯ
1 2 Юлия Валерьевна Богоявленская , Дарья Александровна Палийчук
1 Уральский федеральный университет имени первого Президента России Б.Н. Ельцина, Екатеринбург, Россия; Петрозаводский государственный университет, Петрозаводск, Россия j vb og@yandex. ru
2 Уральский федеральный университет имени первого Президента России Б.Н. Ельцина, Екатеринбург, Россия, [email protected]
Аннотация. Коллокации находятся в центре внимания лингвистов в связи с решением различных вопросов теоретической и прикладной лингвистики, преподавания родного и иностранных языков. Под коллокацией понимается комбинация двух или более лексических единиц, имеющих тенденцию к совместной встречаемости. Исследование комбинаторных свойств языковых единиц имеет большое значение как для лексикографии, комбинаторной лингвистики, прикладной лингвистики, в преподавании языка, так и способствуют изучению иностранных языков, а также межкультурному взаимопониманию и повышению коммуникативного уровня представителей разных культур, что неоднократно подчеркивалось в научной литературе. Для установления силы связи между коллокатами используется математико-статистический аппарат — меры ассоциации (меры ассоциативной связанности), учитывающих как линейную близость и частоту совместной встречаемости, так и частоту в данном корпусе и некоторые другие факторы. Наиболее известными и широко применяемыми статистическими мерами ассоциации являются MI и его варианты, t-score, log-likelihood, logDice и некоторые другие. Они обладают как достоинствами, так и недостатками. Исследования показывают, что использование нескольких мер показывает более успешные результаты, но до сих пор не существует меры ассоциации, успешно выделяющей словосочетания разных синтаксических типов и степеней устойчивости, которую можно было бы применять для оценки силы синтагматической связи в разных языках.
Ключевые слова: меры ассоциации, коллокации, синтагматическая сочетаемость, лингвистический корпус, корпусная лингвистика
Для цитирования: Богоявленская Ю.В., Палийчук Д.А. Меры ассоциации для установления силы семантико-синтагматической связи элементов словосочетания // Гуманитарные исследования. История и филология. 2022. № 5. С. 69-78. https://doi.org/10.24412/2713-0231- 2022-5-69-78
Original article
© Богоявленская Ю.В., Палийчук Д.А., 2022
ASSOCIATION MEASURES FOR ESTABLISHING THE FORCE OF SEMANTIC-SYNTAGMATIC CONNECTION OF ELEMENTS OF WORD COMBINATION
1 2 Yuliya V. Bogoyavlenskaya , Darya A. Palytchuk
1 Ural Federal University named after the first President of Russia B.N. Yeltsin, Ekaterinburg, Russia; Petrozavodsk State University, Petrozavodsk, Russia, [email protected]
Ural Federal University named after the first President of Russia B.N. Yeltsin, Ekaterinburg, Russia, [email protected]
Abstract. Collocations are in the focus of linguists' attention in connection with the solution of various issues of theoretical and applied linguistics, teaching native and foreign languages. Collocation refers to a combination of two or more lexical units that tend to occur together. The study of the combinatorial properties of linguistic units is of great importance both for lexicography, combinatorial linguistics, applied linguistics, in language teaching, and contribute to the study of foreign languages, as well as intercultural understanding and improving the communicative level of representatives of different cultures, which has been repeatedly emphasized in the scientific literature. To establish the force of connection between collocates, a mathematical and statistical apparatus is used - measures of association (measures of associative connectivity), taking into account both linear proximity and frequency of joint occurrence, as well as the frequency in a given corpus and some other factors. The most famous and widely used statistical measures of association are MI and its variants, t-score, log-likelihood, logDice and some others. They have both advantages and disadvantages. Studies show that the use of several measures shows more successful results, but so far there is no measure of association that successfully distinguishes phrases of different syntactic types and degrees of stability, which could be used to assess the force of syntagmatic connection in different languages.
Keywords: association measures, collocations, syntagmatic compatibility, linguistic corpus, corpus linguistics
For citation: Bogoyavlenskaya Yu.V., Palytchuk D.A. Association measures for establishing the force of semantic-syntagmatic connection of elements of word combination. Humanitarian studies. History and philology. 2022;5:69-78. (In Russ.). https://doi.org/10.24412/2713-0231- 2022-5-69-78
Введение
Коллокации являются «ключевыми концепциями корпусных исследований» [Горина 2011: 33] и в течение долгого времени привлекают активный интерес лингвистов в связи с изучением методов их автоматического выявления в корпусах, лексико-грамматических особенностей, выполняемых функций, места в обучении родному и иностранным языкам. Термин «коллокация» вошел в научный обиход благодаря трудам представителей Лондонской лингвистической школы в 1930-1950 годах. В России интерес к вопросам синтагматической сочетаемости слов стал проявляться еще в XIX веке в трудах Н.В. Крушевского, Л.В. Щербы, В.В. Виноградова, А.И. Смирницкого и многих других исследователей. Исследование комбинаторных свойств языковых единиц имеет большое значение как для лексикографии, комбинаторной лингвистики, прикладной лингвистики, в преподавании языка, так и способствуют изучению иностранных языков, а также межкультурному взаимопониманию и повышению коммуникативного уровня
представителей разных культур, что неоднократно подчеркивалось в научной литературе (см., например, [Влавацкая 2015: 33]).
Близким к понятию «коллокация» является понятие «фразеологизм». В научной литературе коллокация может рассматриваться как родовое понятие по отношению к идиомам, как одна из разновидностей устойчивых сочетаний, как единицы, имеющие признаки синтаксически и семантически целостной единицы, выходящие за пределы фразеологического фонда языка или же как единицы, промежуточные между лексическими и фразеологическими. В корпусной лингвистике под коллокациями понимается статистически устойчивые словосочетания [Захаров, Хохлова 2010: 137]. В данном исследовании мы опираемся на понимание коллокации как комбинации двух или более лексических единиц, имеющих тенденцию к совместной встречаемости. Основными свойствами коллокаций являются определенная устойчивость, рекуррентность, воспроизводимость (употребление в готовом виде).
Установление силы синтагматической связи между элементами словосочетаний является одним из наиболее спорных вопросов, решаемых в корпусной лингвистике. Этой цели служат меры ассоциации (меры ассоциативной связанности, уникальности коллокации) - статистические метрики, учитывающие как линейную близость и частоту совместной встречаемости, так и частоту в данном корпусе и некоторые другие факторы. Как отмечают корпусные лингвисты, наиболее распространенными статистическими мерами ассоциации являются MI и его варианты (MI2, MI3, MI.log-f), t-score, log-likelihood, хи-квадрат, коэффициенты Жаккарда, Фишера и Пуассона, MS (minimum sensitivity) и другие. Существует большое количество иных мер ассоциации, но они почти не описаны и используются довольно редко.
Сопоставление эффективности применения различных мер ассоциации при оценке силы синтагматической связи проводилось в различных исследованиях и на материале различных видов коллокаций (см. [Pecina 2009], [Хохлова 2008], [Zakharov 2017]). Например, М.В. Хохлова выделяет MI3, t-score, коэффициенты Фишера и Пуассона как наиболее надежные меры для выявления значимых глагольных коллокаций русского языка. Цитируемое исследование построено на материале подмножества корпуса «Тайга», содержащее 2,1 млн токенов, содержащее 43 808 глагольных сочетаний с существительными типа «глагол + объект» [Хохлова 2019а: 15].
П. Песина подробно описывает 82 ассоциативные меры, которые позволяют определять силу связанности единиц внутри биграмм. Исследователь делит меры на три группы:
1) меры, учитывающие наблюдаемые и ожидаемые частоты слов, образующих словосочетание;
2) меры, оценивающие энтропию между словами;
3) меры, учитывающие контекст [Pecina 2009].
М.В. Хохлова, рассматривающая статистический подход к изучению словосочетаний как путь к машинному обучению, оценивает упомянутую монографию как наиболее полное описание статистического инструментария на данный момент [Хохлова 2019б].
Следует подчеркнуть, что эксперименты по использованию мер ассоциации проводятся на корпусах английского языка, другие же языки рассматриваются значительно реже.
В разных корпусных менеджерах могут использоваться разные меры, в некоторых случаях предлагаются комбинации статистических метрик, что дает возможность сопоставления результатов и более точного выявления закономерностей сочетаемости лексических единиц в биграммах. Каждая из ассоциативных мер имеет свои достоинства и недостатки. Рассмотрим наиболее используемые меры ассоциации.
Основная часть
MI (mutual information) - коэффициент взаимной информации, который сравнивает зависимые контекстно-связанные частоты с независимыми. Размер корпуса напрямую влияет на значения данной меры ассоциации. Следует добавить, что порядок слов внутри коллокации при подсчете меры MI не учитывается - она отражает взаимозависимость двух лексем, но не значимость конкретной коллокации. С позиции теории вероятности данная мера представляет собой способ верификации «степени независимости появления двух слов в тексте - если слова полностью независимы, то вероятность их совместного появления равно произведению вероятностей появления каждого из них, то есть произведению частот, а значение меры равно нулю» [Автоматическая обработка текстов 2011: 31]. Среди недостатков меры MI называют завышение значимости коллокаций, представляющих собой сочетания с редкими словами, опечатками, иностранными словами [Пивоварова, Ягунова 2010; Manning, Shutze 2002]. Также, если коллокация встречается чаще, чем её составляющие по отдельности, то значение меры MI будет высоким, что может отразить не совсем реальную ситуацию. В научной литературе отмечают, что при применении MI2 фиксируются те же проблемы. М.В. Хохлова предлагает использовать эту меру как «детектор» ошибок в текстах, редких терминологических сочетаний или для редкие осмысленные сочетания на большом объеме данных [Хохлова 2019а: 13]. MI3-Score - вариант меры, пытающийся бороться с этими недостатками. Он показывает более высокую точность, но, тем не менее, изредка допускает включение сочетаний с опечатками.
T-score является мерой, которая учитывает частоту совместной встречаемости ключевого слова и его коллокатов. Мера является несколько модифицированным ранжированием коллокаций по частоте встречаемости в корпусе. Е.В. Ягунова и Л.М. Пивоварова отмечают, что значение данной меры тем выше, чем выше частота коллокации в коллекции. Отмечается, что t-score лучше работает при выделении стилистических особенностей, жанровых характеристик, анализе устойчивых конструкций [Пивоварова, Ягунова 2010: 4], выделения коллокаций с высокочастотными компонентами, но она малопригодна для анализа терминологических номинаций и словосочетаний.
Log-Likelihood - логарифмическая функция правдоподобия, используемая для анализа коллокаций и ключевых слов. В log-Likelihood используется отношение функции правдоподобия, соответствующая двум гипотезам - о случайной и неслучайной природе биграммы.
В корпусах Лейпцигского университета применяется, в частности, мера log-Likelihood ratio (см. рис. 1).
Words occurring in the Same Sentence Q
China (21,976), Putin (11,476), Russian (10,817), Turkey(10,561), Moscow (10,520), Russia investigation (8,065), Ukraine (7,685), Saudi Arabia (7,438), Arabia (7,395), Iran (7,233), Vladimir (6,890), Saudi (6,885), United (6,647), Belarus (6,537), Trump (6,254), United States (5,824), States (5,692), counties (5,513), US (5,398), Vladimir Putin (5,292), in (4,818), France (4,797), OPEC (4,579), U.S. (4,340), Moscow, Russia (4,306), and (4,210), oil (4,052), Syria (3,895), Germany (3,709), war (3,662), Russia probe (3,471), President Vladimir Putin (3,435), Brazil (3,406), its (3,362), Investigation (3,320), military (3,260), price war (3,223), Armenia (3,140), intelligence (3,062), between (3,000), nuclear (2,961), Kremlin (2,929), India (2,840), President (2,811), Europe (2,725), Soviet (2,694), allies (2,556), sanctions (2,523), NATO (2,490), has (2,385), 2016 (2,379), Korea (2,357), Azerbaijan (2,330), Navalny (2,311), Crimea (2,302), ties (2,262), election (2,242), the (2,213), In Russia (2,179), vaccine (2,135)
4-10 +25 |
a Neighbour Cooccurrences 0
Left Right
in (6,987), and (6,495), with (4,914), from (4,112), thai (3,023), between (2,198), by (1,646), against (1,013), From (994), Mueller's (874), Putin's (823), including (713), Soviet (570), ally (570), of (423), Mueller's (402), such as (395), like (364), accused (352), FBI's (326), United (310), post-Soviet (305), Tsarist (274), to (256), conflict with (255), toward (242), on (213), southern (200), regions of (191), dependence on (190), both (175), deal with (165), linked to (162), deter (159), along with (154), Putin's (154), towards (149), In (137), while (137), western (132), bordering (129), come from (126), punish (123), coming from (121), called on (118), invite (117), Mother (117), allies (114), at war with (112), living in (110), Stalinist (109), whether (107), Both (105), power-brokers (103), urged (95), as (94), blamed (88), trade with (88), 'From (87), Is (85)
+10 +25
Рис. 1. Выдача коллокатов слова Russie в корпусе News 2020 Лейпцигского университета, ранжированных при помощи коэффициента log-Likelihood ratio
В различных корпусах применяются различные меры ассоциаций. В некоторых корпусных менеджерах лингвист может самостоятельно выбрать подходящую для реализации задач исследования меру. В частности, сервис AntConc предлагает на выбор использование всех трех перечисленных мер, а также комбинацию MI + Log-Likelihood (см. рис. 2).
Рис. 2. Выбор меры ассоциации в сервисе AntConc
Sketch Engine ранее использовалась мера MI, затем этот метод был заменен на AssociationScore (Ascore). В настоящее время в системе применяется мера logDice, основанная на коэффициенте Дайса.
LogDice выражает степень типичности коллокации. Она рассчитывается с учетом как частотности ключевого слова, так и его коллоката. Одним из важнейших достоинств данной меры заключается в том, что размер корпуса не оказывает влияния на ее значение, что позволяет получать объективные результаты на материале многомиллиардных корпусов, в частности из семейства TenTen, которыми можно воспользоваться на платформе Sketch Engine. Корпуса данного семейства представляют собой совокупности текстов, собранные в World Wide Web. Их целевой размер корпусов составлял 10 миллиардов слов на каждый язык, что и дало название семейству.
В сервисе поиск коллокаций осуществляется во вкладке Word Sketch, где пользователь может получить «скетчи», то есть «описание речевого поведения слова, полученное автоматическим путем обобщения информации о всех контекстах, в которых исследуемое слово встретилось в корпусе» [Кротова 2019: 110].
Результаты поиска представлены в виде списков коллокатов, построенных по определенным лексико-синтаксическим шаблонам, отражающим частотные грамматические взаимодействия изучаемого слова с другими словами (см. рис. 3).
Рис. 3. Списки коллокатов слова Russie в сервисе Sketch Engine, ранжированные
при помощи коэффициента logDice
Коэффициент Дайса используется для выявления слов, использующихся в подобных контекстах в корпусах Лейципгского университета (см. рис. 4). Сервис также дает информацию о ранге слова и классе его частотности.
Russia
x
Word: Russia Number of occurrences: 39,686 Rank: 1,955 Frequency class: 10
О
See also: RUSSIA, russia Part of speech: Proper rioun Baseform of: Russias
Part of: Russia investigation, Moscow, Russia. Russia probe, in Russia, United Russia, Petersburg, Russia, Russia hoax, Soviet Russia, Sochi, Russia, From Russia With Love, St. Petersburg. Russia, Bank of Russia, Russia Today, The Russia, President of Russia, Russia 2018, From Russia with Love, Russia report, Russia today, Omsk. Russia, Open Russia, Mother Russia, St Petersburg, Russia, Prime Minister of Russia, Tsarist Russia, more
Words with Similar Context
О
Iran (0.32), Turkey (0.31), China (0.29), Moscow (0.26), Germany (0.25), Putin (0.24), Israel (0.22), France (0.21), Saudi Arabia (0.21), Britain (0.20), Syria (0.20), Egypt (0.20), Greece (0.19), Brazil (0.19), Beijing (0.19), Japan (0.19), Ukraine (0.18), Russian (0,18), Italy (0.18), President Trump (0.17), Europe (0.17), Spain (0.17), Trump (0.16), the government (0.16)
Рис. 4. Выдача слов, употребляющихся в схожих контекстах, в корпусе News 2020 Лейпцигского университета, ранжированных при помощи коэффициента logDice
Во многих работах было убедительно показано, что использование нескольких мер показывает более успешные результаты (см., например, [Ramisch et al. 2010]). Эксперименты показывают эффективность подобного подхода.
Исследователи также отмечают, что по-прежнему не существует статистического метода, который автоматически выдавал бы одинаково успешно словосочетания разных синтаксических типов, а также степеней устойчивости [Хохлова 2019б].
Заключение
Коллокации находятся в фокусе внимания корпусных лингвистов в связи с решением различного рода вопросов. Коллокация определяется как комбинация двух или более лексических единиц, имеющих тенденцию к совместной встречаемости. Для установления силы семантико-синтагматической связи между элементами коллокации используется меры ассоциации, учитывающих как линейную близость и частоту совместной встречаемости, так и частоту в данном корпусе и некоторые другие факторы.
Наиболее известными и широко применяемыми статистическими мерами ассоциации являются MI и его варианты MI2, MI3, t-score, log-likelihood, logDice и некоторые другие. Они обладают рядом достоинств и недостатков, которые следует учитывать в исследованиях. MI сравнивает зависимые контекстно-связанные частоты с независимыми, позволяет верифицировать степень независимости появления двух слов в тексте, но не учитывает значимость конкретной коллокации и порядок слов в ней, завышает значимость коллокаций, включающих редкие слова, опечатки, иностранные слова.
Более высокую точность показывает ее вариант, MI3-Score. T-score является модифицированным ранжированием коллокаций по частоте встречаемости в корпусе. Мера хорошо работает при выделении стилистических особенностей, жанровых характеристик, не
очень эффективна для анализа терминологических словосочетаний. Log-Likelihood и ее варианты достаточно объективно определяют природу биграммы.
Коэффициент Дайса выражает степень типичности коллокации, рассчитывающийся с учетом как частотности ключевого слова, так и его коллоката. Достоинством данной меры заключается в том, что размер корпуса не оказывает влияния на ее значение.
Исследователями отмечается, что до сих пор не существует меры ассоциации, которая успешно бы выделяла словосочетания разных синтаксических типов и степеней устойчивости и которую можно было бы применять для оценки силы синтагматической связи в разных языках. Эксперименты показывают, что использование нескольких мер показывает более успешные результаты, чем применение только одной меры.
Список литературы
1. Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. М.: МИЭМ, 2011. 272 с.
2. Влавацкая М.В. Комбинаторная лингводидактика в контексте современного языкового образования // Сибирский педагогический журнал. 2015. № 4. С. 40-43.
3. Горина О.Г. Применение методов корпусной лингвистики для определения контекстно-специфических слов и коллокаций // Вестник Ленинградского государственного университета им. А С. Пушкина. 2011. № 3. Т. 7. С. 27-36.
4. Захаров В.П. Лингвистика больших корпусов // Компьютерная лингвистика и вычислительные онтологии: сб. науч. статей. Труды XVIII объедин. конф. «Интернет и современное общество» (IMS-2015), СПб, 23-25 июня 2015 г. СПб.: Университет ИТМО, 2015. С. 82-93.
5. Захаров В.П., Хохлова М.В. Анализ эффективности статистических методов выявления коллокаций в текстах на русском языке // Компьютерная лингвистика и интеллектуальные технологии. 2010. № 9 (16). С. 137-143.
6. Кротова Е.Б. Sketch Engine для лингвистических исследований // Германистика сегодня. 2019. С. 107-112.
7. Онал И.О. Коллокация как объект изучения в отечественной и зарубежной науке: диахронический аспект // Вопросы языкознания в мультикультурном пространстве современного мира: монография. Новосибирск: Издательство ЦРНС, 2018. C. 169-191.
8. Пивоварова Л.М., Ягунова Е.В. От коллокаций к конструкциям // Acta Lingüistica Petropolitana. Труды института лингвистических исследований. 2014. № 2. С. 568-617.
9. Сервис AntConc (версия 3.5.9). [Электронный ресурс] URL: https://www.laurenceanthony.net/software/antconc/ (дата обращения: 27.12.2021).
10. Сервис Sketch Engine. [Электронный ресурс] URL: https://www.sketchengine.eu/ (дата обращения: 27.12.2021).
11. Leipzig Corpora Collection. [Электронный ресурс] URL: https://corpora.uni-leipzig.de/en?corpusId=fra_mixed_2012 (дата обращения: 04.01.2022).
12. Хохлова М.В. Экспериментальная проверка методов выделения коллокаций // Slavica Helsingiensia 34. Инструментарий русистики: корпусные подходы. Хельсинки, 2008. С. 343-357.
13. Хохлова М.В. К вопросу о сходстве мер ассоциации применительно к задаче автоматического извлечения глагольных коллокаций // Компьютерная лингвистика и вычислительные онтологии. 2019а. № 3. С. 9-18.
14. Хохлова М.В. Статистический подход применительно к исследованию сочетаемости: от мер ассоциации к машинному обучению // Структурная и прикладная лингвистика: Межвузовский
сборник / Под редакцией И.С. Николаева. СПб.: Санкт-Петербургский государственный университет, 2019б. С.106-122.
15. Manning C., Shutze H. Collocations // Foundations of Statistical Natural Language Processing, 2002. P. 151-189.
16. Pecina P. Lexical Association Measures. Collocation Extraction. Prague: Institute of Formal and Applied Linguistics, 2009. 131 р.
17. Zakharov V. Automatic Collocation Extraction: Association Measures Evaluation and Integration // Computational Linguistics and Intellectual Technologies: Papers from the Annual conference Dialogue. Volume 1 of 2. Computational Linguistics: Practical Applications. Moscow: RSUH, 2017. Pp. 396-407.
18. Ramisch C., Villavicencio A., Boitet Ch. Mwetoolkit: a Framework for Multiword Expression Identification. Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC 2010), 2010, Valetta, Malta. European Language Resources Association, 2010. P. 662-669.
References
1. Bol'shakova E.I., Klyshinskii E.S., Lande D.V., Noskov A.A., Peskova O.V., Yagunova E.V. Avtomaticheskaya obrabotka tekstov na estestvennom yazyke i komp'yuternaya lingvistika [Automatic processing of natural language texts and computational linguistics]. Moscow, MIEM, 2011, 272 p. (In Russ.)
2. Vlavatskaya M.V. Kombinatornaya lingvodidaktika v kontekste sovremennogo yazykovogo obrazovaniya [Combinatorial linguodidactics in the context of modern language education]. Sibirskii pedagogicheskii zhurnal, 2015, no. 4, pp. 40-43. (In Russ.)
3. Gorina O.G. Primenenie metodov korpusnoi lingvistiki dlya opredeleniya kontekstno-spetsificheskikh slov i kollokatsii [Application of corpus linguistics methods to determine context-specific words and collocations]. Vestnik Leningradskogo gosudarstvennogo universiteta im. A.S. Pushkina, 2011, no. 3, vol. 7, pp. 27-36. (In Russ.)
4. Zakharov V.P. Lingvistika bol'shikh korpusov [Linguistics of large corpora]. Komp'yuternaya lingvistika i vychislitel'nye ontologii: sb. nauch. Statei, Trudy XVIII ob"edin. konf. «Internet i sovremennoe obshchestvo» (IMS-2015), Saint Petersburg, Universitet ITMO, 2015, pp. 82-93. (In Russ.)
5. Zakharov V.P., Khokhlova M.V. Analiz effektivnosti statisticheskikh metodov vyyavleniya kollokatsii v tekstakh na russkom yazyke [Analysis of the effectiveness of statistical methods for detecting collocations in texts in Russian]. Komp'yuternaya lingvistika i intellektual'nye tekhnologii, 2010, no. 9 (16), pp. 137-143. (In Russ.)
6. Krotova E.B. Sketch Engine dlya lingvisticheskikh issledovanii [Sketch Engine for linguistic research]. Germanistika segodnya, 2019, pp. 107-112. (In Russ.)
7. Onal I.O. Kollokatsiya kak ob"ekt izucheniya v otechestvennoi i zarubezhnoi nauke: diakhronicheskii aspekt [Collocation as an object of study in domestic and foreign science: a diachronic aspect]. Voprosy yazykoznaniya v mul'tikul'turnom prostranstve sovremennogo mira. Novosibirsk, Izdatel'stvo TsRNS, 2018, pp. 169-191. (In Russ.)
8. Pivovarova L.M., Yagunova E.V. Ot kollokatsii k konstruktsiyam [From collocations to constructions]. Acta Linguistica Petropolitana. Trudy instituta lingvisticheskikh issledovanii, 2014, no. 2, pp. 568-617. (In Russ.)
9. Servis AntConc (versiya 3.5.9). [AntConc service (version 3.5.9)]. (In Russ.). Available at: https://www.laurenceanthony.net/software/antconc/ (accessed: 27.12.2021). (In Russ.)
10. Servis Sketch Engine. [Sketch Engine Service]. (In Russ.). Available at: https://www.sketchengine.eu/ (accessed: 27.12.2021).
11. Leipzig Corpora Collection. [Электронный ресурс] URL: https://corpora.uni-leipzig.de/en?corpusId=fra_mixed_2012 (дата обращения: 04.01.2022).
12. Khokhlova M.V. Eksperimental'naya proverka metodov vydeleniya kollokatsii [Experimental Verification of Methods for Isolating Collocations]. Slavica Helsingiensia 34. Instrumentarii rusistiki: korpusnye podkhody, Khel'sinki, 2008, pp. 343-357. (In Russ.)
13. Khokhlova M. V. K voprosu o skhodstve mer assotsiatsii primenitel'no k zadache avtomaticheskogo izvlecheniya glagol'nykh kollokatsii [On the question of the similarity of association measures in relation to the problem of automatic extraction of verb collocations]. Komp'yuternaya lingvistika i vychislitel'nye ontologii, 2019a, no. 3, pp. 9-18. (In Russ.)
14. Khokhlova M. V. Statisticheskii podkhod primenitel'no k issledovaniyu sochetaemosti: ot mer assotsiatsii k mashinnomu obucheniyu [Statistical Approach to Combination Research: From Association Measures to Machine Learning]. Strukturnaya i prikladnaya lingvistika: Mezhvuzovskii sbornik, Saint Petersburg, Sankt-Peterburgskii gosudarstvennyi universitet, 2019b, pp. 106-122. (In Russ.)
15. Manning C., Shutze H. Collocations // Foundations of Statistical Natural Language Processing, 2002. P. 151-189.
16. Pecina P. Lexical Association Measures. Collocation Extraction. Prague: Institute of Formal and Applied Linguistics, 2009. 131 р.
17. Zakharov V. Automatic Collocation Extraction: Association Measures Evaluation and Integration // Computational Linguistics and Intellectual Technologies: Papers from the Annual conference Dialogue. Volume 1 of 2. Computational Linguistics: Practical Applications. Moscow: RSUH, 2017. Pp. 396-407.
18. Ramisch C., Villavicencio A., Boitet Ch. Mwetoolkit: a Framework for Multiword Expression Identification. Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC 2010), 2010, Valetta, Malta. European Language Resources Association, 2010. P. 662-669.
Информация об авторах Ю.В. Богоявленская - доктор филологических наук, профессор, Уральский федеральный университет имени первого Президента России Б.Н. Ельцина, Петрозаводский государственный университет; Д.А. Палийчук - ассистент кафедры лингвистики и профессиональной коммуникации на иностранных языках, Уральский федеральный университет имени первого Президента России Б.Н. Ельцина.
Information about the authors Yu. V. Bogoyavlenskaya - Grand Ph.D. (Philology), Professor, Ural Federal University named after the first President of Russia B.N. Yeltsin,
Petrozavodsk State University;
D.A. Palytchuk - Assistant of the Department of Linguistics and Professional Communication in Foreign Languages, Ural Federal University named after the first President of Russia B.N. Yeltsin.
Статья поступила в редакцию 11.12.2021; одобрена после рецензирования 28.12.2021; принята к публикации 16.01.2022
The article was submitted 11.12.2021; approved after reviewing 28.12.2021; accepted for publication 16.01.2022.