Научная статья на тему 'ИНФОРМАЦИОННО-ТЕХНОЛОГИЧЕСКОЕ ОБЕСПЕЧЕНИЕ ОПТИМИЗАЦИИ НАУЧНО-ИССЛЕДОВАТЕЛЬСКОЙ ДЕЯТЕЛЬНОСТИ ПО ТЕОРЕТИЧЕСКОЙ И ПРИКЛАДНОЙ ЛИНГВИСТИКЕ В УСЛОВИЯХ ЦИФРОВИЗАЦИИ'

ИНФОРМАЦИОННО-ТЕХНОЛОГИЧЕСКОЕ ОБЕСПЕЧЕНИЕ ОПТИМИЗАЦИИ НАУЧНО-ИССЛЕДОВАТЕЛЬСКОЙ ДЕЯТЕЛЬНОСТИ ПО ТЕОРЕТИЧЕСКОЙ И ПРИКЛАДНОЙ ЛИНГВИСТИКЕ В УСЛОВИЯХ ЦИФРОВИЗАЦИИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
271
46
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТЕОРЕТИЧЕСКАЯ ЛИНГВИСТИКА / ПРИКЛАДНАЯ ЛИНГВИСТИКА / ТЕОРИЯ ЯЗЫКА / МЕТОДОЛОГИЯ ЛИНГВИСТИКИ / ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ / КОРПУСНАЯ ЛИНГВИСТИКА / АВТОМАТИЗИРОВАННАЯ ОБРАБОТКА ТЕКСТА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Каменский Михаил Васильевич

В статье излагаются результаты исследования путей оптимизации рабочего процесса, положенного в основу проведения лингвистических исследований с привлечением методологии и методики корпусной лингвистики и автоматизированной обработки языкового и речевого материала. Приводятся рекомендации и предложения по выбору и практическому применению современных свободных лингвистических программных продуктов в разнонаправленных исследованиях по теоретической и прикладной лингвистике. Предлагаются основания для классификации современного лингвистического программного обеспечения на основе критериев функциональности, кросс-платформенности, свободной модели распространения и открытости программного кода. На данных основаниях даются рекомендации по интеграции в рабочий процесс лингвиста корпусного, лексикографического, переводческого и фонетического программного обеспечения, а также языков программирования с поддержкой известных и признанных лингвистических библиотек алгоритмов. Уделяется внимание программным продуктам общего назначения, способным выступить фактором оптимизации рабочего процесса лингвиста-исследователя. Актуальность предпринятого исследования связана с активизацией в последние годы процессов цифровизации науки, внедрением и привлечением методологии прикладной лингвистики при проведении научных исследований по теории языка, а также планируемым объединением теоретической и прикладной лингвистики в единую научную специальность по номенклатуре Высшей аттестационной комиссии Российской Федерации. Новизна предпринятого исследования продиктована комплексным и системным подходом к анализу рабочего процесса лингвиста-исследователя в контексте современного свободного и бесплатного лингвистического программного обеспечения с открытым программным кодом. Научной новизной также характеризуется расширенная трактовка понятия «лингвистическое программное обеспечение», включающая программные продукты для подготовки и редактирования отчетов о результатах лингвистических исследований.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

INFORMATION TECHNOLOGIES IN OPTIMIZING SCIENTIFIC RESEARCH IN THE SPHERE OF THEORETICAL AND APPLIED LINGUISTICS IN THE DIGITAL AGE

The article contains the results of analysis of viable trajectories of optimizing the linguistic scientific workflow using contemporary applied linguistics methodology, corpus analysis methods and natural language processing techniques. The author provides practical recommendations for choosing and using modern free and open source linguistic software in various theoretical and applied linguistic studies. An extended classiication of linguistic software is provided, on the basis of functionality, cross-platform compatibility, free licensing, and open source model of release. Recommendations are given for the best practices of integrating the corpus management, lexicographic, machine and computer-aided translation, and phonetic software, as well as programming languages with support for natural language processing algorithms, into the linguistic scientific workflow. General purpose software which can be used as an optimizing factor in the linguist's worklow is also discussed. The article is topical due to the active processes of integrating digital technologies in science in the recent years, introduction of applied methods of research in the context of studies in the theory of language, and the imminent merge of theoretical and applied linguistics in a single scientiic specialty according to the classification of the Russian Higher Attestation Commission. The scientiic novelty of the research is seen in the complex and systematic approach to the problem of analysis of the linguistic scientiic worklow in the context of free and open source software which does not require commercial licensing. Another innovative element of the research is the extended definition of the term "linguistic software", which includes not only the software meant strictly for solving problems in the sphere of studying languages and speech, but also general purpose software that can serve as an aid in preparing and editing reports containing the results of linguistic scientific research.

Текст научной работы на тему «ИНФОРМАЦИОННО-ТЕХНОЛОГИЧЕСКОЕ ОБЕСПЕЧЕНИЕ ОПТИМИЗАЦИИ НАУЧНО-ИССЛЕДОВАТЕЛЬСКОЙ ДЕЯТЕЛЬНОСТИ ПО ТЕОРЕТИЧЕСКОЙ И ПРИКЛАДНОЙ ЛИНГВИСТИКЕ В УСЛОВИЯХ ЦИФРОВИЗАЦИИ»

м

fe \

http://doi.org/10.37493/2409-1030.2021A26 М. В. Каменский

информационно-технологическое обеспечение оптимизации научно-исследовательской деятельности по теоретической и прикладной лингвистике в условиях цифровизации

В статье излагаются результаты исследования путей оптимизации рабочего процесса, положенного в основу проведения лингвистических исследований с привлечением методологии и методики корпусной лингвистики и автоматизированной обработки языкового и речевого материала. Приводятся рекомендации и предложения по выбору и практическому применению современных свободных лингвистических программных продуктов в разнонаправленных исследованиях по теоретической и прикладной лингвистике. Предлагаются основания для классификации современного лингвистического программного обеспечения на основе критериев функциональности, кросс-платформенности, свободной модели распространения и открытости программного кода. На данных основаниях даются рекомендации по интеграции в рабочий процесс лингвиста корпусного, лексикографического, переводческого и фонетического программного обеспечения, а также языков программирования с поддержкой известных и признанных лингвистических библиотек алгоритмов. Уделяется внимание программным продуктам общего назначения, способным выступить фактором оптимизации рабочего процесса лингвиста-исследователя. Актуальность предпринятого исследования связана с активизацией в последние годы процессов цифровизации науки, внедрением и привлечением методологии прикладной

лингвистики при проведении научных исследовании по теории языка, а также планируемым объединением теоретической и прикладной лингвистики в единую научную специальность по номенклатуре Высшей аттестационной комиссии Российской Федерации. Новизна предпринятого исследования продиктована комплексным и системным подходом к анализу рабочего процесса лингвиста-исследователя в контексте современного свободного и бесплатного лингвистического программного обеспечения с открытым программным кодом. Научной новизной также характеризуется расширенная трактовка понятия «лингвистическое программное обеспечение», включающая программные продукты для подготовки и редактирования отчетов о результатах лингвистических исследований.

Ключевые слова: теоретическая лингвистика, прикладная лингвистика, теория языка, методология лингвистики, информационные технологии, корпусная лингвистика, автоматизированная обработка текста.

Для цитирования: Каменский М. В. Информационно-технологическое обеспечение оптимизации научно-исследовательской деятельности по теоретической и прикладной лингвистике в условиях цифровизации // Гуманитарные и юридические исследования. 2021. №4. С. 208-218. DOI: 10.37493/2409-1030.2021.4.26

Mikhail V. Kamensky

information technologies in optimizing scientific research in the sphere of theoretical and applied linguistics in the digital age

The article contains the results of analysis of viable trajectories of optimizing the linguistic scientific workflow using contemporary applied linguistics methodology, corpus analysis methods and natural language processing techniques. The author provides practical recommendations for choosing and using modern free and open source linguistic software in various theoretical and applied linguistic studies. An extended classification of linguistic software is provided, on the basis of functionality, cross-platform compatibility, free licensing, and open source model of release. Recommendations are given for the best practices of integrating the corpus management, lexicographic, machine and computer-aided translation, and phonetic software, as well as programming languages with support for natural language processing algorithms, into the linguistic scientific workflow. General purpose software which can be used as an optimizing factor in the linguist's workflow is also discussed. The article is topical due to the active processes of integrating digital technologies in science in the recent years, introduction of applied methods of research in the context of studies in the theory of language, and the imminent merge of theoretical and

applied linguistics in a single scientific specialty according to the classification of the Russian Higher Attestation Commission. The scientific novelty of the research is seen in the complex and systematic approach to the problem of analysis of the linguistic scientific workflow in the context of free and open source software which does not require commercial licensing. Another innovative element of the research is the extended definition of the term "linguistic software", which includes not only the software meant strictly for solving problems in the sphere of studying languages and speech, but also general purpose software that can serve as an aid in preparing and editing reports containing the results of linguistic scientific research.

Key words: theoretical linguistics, applied linguistics, theory of language, methodology of linguistics, information technologies, corpus linguistics, natural language processing.

For citation: Kamensky M. V. Information technologies in optimizing scientific research in the sphere of theoretical and applied linguistics in the digital age // Humanities and law research. 2021. No.4. P. 208-218. DOI: 10.37493/24091030.2021.4.26

Постановка проблемы. Цифровые реформы XXI века и активное внедрение широкого спектра инфокоммуникационных технологий в различные сферы профессиональной деятельности человека в условиях динамичного развития компьютерной техники и технологий искусственного интеллекта в настоящее время выступают существенным фактором эволюционных изменений в методологии и методике проведения научных исследований. Трансформируется и характер лингвистических исследований, выполненных в русле не только прикладной, но и теоретической лингвистики. Как в отечественной, так и в зарубежной лингвистике можно наблюдать заметный акцент на проведении корпусных исследований, выполненных на обширном языковом материале, объем исследовательской картотеки в которых исчисляется тысячами, а в некоторых случаях - десятками и сотнями тысяч примеров, проанализированных с применением технологий и программных средств автоматизированной обработки языковых данных (см., например, [2], [10]). Таким образом, электронный корпус текстов стал в XXI веке одним из ключевых репрезентативных источников эмпирического материала и инструментов его лингвостатистического исследования. Проводимые сегодня в русле антропоцентрической парадигмы лингвистические исследования, выполняемые с применением методов корпусной и квантитативной лингвистики и технологий автоматизированной обработки текстов, направлены на исследование широкого круга явлений языка и речи и в подавляющем большинстве случаев междисциплинарны. В последние годы активное развитие получили технологии искусственного интеллекта, что в сфере лингвистических научных изысканий находит свое отражение в разработке и применении программного обеспечения для машинного обучения, в том числе «глубокого обучения», нацеленного на автоматизацию решения комплексных лингвистических задач в области классификации языкового материала, установления дискурсивной и жанровой принадлежности текста, анализа тональности текста («сентимент-анализа», sentiment analysis), идентификации языковых и речевых феноменов различной природы в разноязыковых и разножанровых корпусах текстов, анализа и синтеза речи и др. (например, [3]).

Вышеуказанные трансформации как в области научно-исследовательской деятельности в целом, так и в области лингвистической науки порождают определенное переосмысление границ отраслей и направлений современной лингвистики, что прослеживается в содержании проектов обновленных паспортов научных специальностей, вынесенных на обсуждение Высшей аттестационной комиссией Российской Федерации [7]. Так, теоретические научные изыскания в об-

ласти лингвистики, регламентируемые паспортом научной специальности «10.02.19 - Теория языка», более не отделены от методологии прикладной лингвистики и широкого спектра компьютерных методов анализа языкового материала, в том числе корпусных методов исследования и методов машинного обучения на основе искусственного интеллекта. Подобное существовавшее долгое время «жесткое» разделение (ср. паспорт научной специальности «10.02.19 - Теория языка» [5] и паспорт научной специальности «10.02.21 -Прикладная и математическая лингвистика» [6]) всегда представлялось нам достаточно искусственным и не вполне удачным, особенно в контексте современной динамики и вектора развития науки по линии цифровизации обработки эмпирического материала. В современных же условиях, на наш взгляд, данное разделение утратило свою актуальность, поскольку прикладная лингвистика сегодня, по сути, выступает обеспечивающей составляющей в методическом отношении для теоретической лингвистики (теории языка). Сознательное игнорирование предлагаемых функциональных возможностей цифровой техники в области обработки и анализа лингвистических данных при проведении исследований по теории языка безусловно снижает качество проводимого исследования.

Несмотря на активное развитие и внедрение цифровых технологий в целом и совершенствование прикладных методов лингвистического анализа и программного обеспечения обработки языкового материала, комплексные попытки систематизировать программный лингвистический инструментарий и выработать рекомендации по выбору, освоению и практическому применению данного инструментария в отечественной лингвистике все еще достаточно редки. Например, обзор Б. А. Антопольского [1] может служить показательным и удачным примером обобщения лингвистических ресурсов и технологий. Автором приводятся предложения по инфраструктуре лингвистических информационных ресурсов для России, однако при этом не ставится задача выработки рекомендаций по выбору и применению конкретных программных продуктов в рамках научных изысканий по различным направлениям теоретической и прикладной лингвистики.

В связи со сказанным считаем, что предлагаемая попытка систематизации и анализа современных лингвистических программных продуктов, прежде всего, находящихся в свободном доступе, выпускаемых по модели свободного программного обеспечения с открытым исходным программным кодом, является актуальной в условиях цифровой трансформации современной теоретической и прикладной лингвистики. Конечной целью настоящего исследования является выработка практических рекомендаций по опти-

мизации рабочего процесса лингвиста-исследователя на основе отбора и применения комплекса программных решений, характеризующихся функциональностью, доступностью, открытостью и отсутствием необходимости коммерческого лицензирования.

Методология исследования. Для достижения поставленной цели на первом этапе исследования проведена классификация существующего лингвистического программного обеспечения в соответствии с его функционалом и решаемыми задачами в сфере теоретической и прикладной лингвистики. За основу приняты материалы официальных сайтов разработчиков лингвистического программного обеспечения, а также материалы сайтов, отражающих современный мировой опыт по объединению лингвистического ПО различных категорий в единый рабочий процесс (например, [17], [40]). Во внимание приняты также Интернет-ресурсы, носящие характер «агрегаторов», обобщающих в списочном виде лингвистическое ПО, принадлежащее к определенным категориям (например, ресурс Tools for Corpus Linguistics [38]). При анализе функционала программного обеспечения, закрепленного подобными списками, мы стремились выделить «ядерную» составляющую и остановиться на рекомендации наиболее универсальных и гибких программных средств. Отметим также, что понятие «лингвистическое программное обеспечение» трактуется в ходе настоящего исследования в широком понимании как программное обеспечение, либо обладающее специализированным функционалом для поддержки и сопровождения лингвистических исследований и практической лингвистической деятельности, либо являющееся программным обеспечением общего назначения, представляющим интерес для лингвиста-исследователя в силу наличия специфических функций, применимых в области теоретической и прикладной лингвистики. Это позволяет нам более разносторонне взглянуть на проблему инфокоммуникационного сопровождения лингвистической научно-исследовательской деятельности и осветить программные продукты, функциональная направленность которых не ограничивается сугубо лингвистическими задачами, однако в рамках деятельности лингвиста имеющие, по нашему мнению, определенную значимость в части оптимизации работы с текстовым материалом.

Второй этап исследования состоял в отборе и систематизации современного лингвистического программного обеспечения в каждой из категорий по следующим ключевым основаниям: 1) функциональность, понимаемая как наличие необходимых и достаточных функциональных возможностей для решения широкого круга лингвистических научно-исследовательских задач в определенной области; 2) доступность, трактуе-

мая нами как совокупность: а) свободной модели лицензирования (выпуск программы по лицензии GPL, LGPL, BSD, Creative Commons или аналогичной); б) наличия открытого программного кода; в) отсутствия необходимости коммерческого лицензирования; 3) кросс-платформенность, то есть наличие возможности устанавливать и запускать программное обеспечение на различных платформах под управлением различных операционных систем (Microsoft Windows, Linux, MacOS, Android, iOS и др.).

На заключительном, третьем этапе исследования проводился детальный анализ функционального потенциала отобранных программных продуктов для решения различных задач в сфере теоретической и прикладной лингвистики и применения методов корпусного и квантитативного анализа, автоматизированной обработки текста, автоматизированного перевода и других методов, подразумевающих либо допускающих автоматизацию и алгоритмизацию исследовательского поиска и анализа. На базе полученных в ходе исследования результатов и выводов разработан комплекс предложений по оптимизации научно-исследовательской деятельности в сфере лингвистики с применением цифровых инфоком-муникационных технологий.

Результаты исследования. Систематизация и анализ существующего лингвистического программного обеспечения (далее - ЛПО) и практического опыта по объединению ЛПО в единый рабочий процесс позволили выделить следующие основные категории ЛПО и программные продукты, являющиеся их высокофункциональными репрезентантами:

► 1. Текстовые редакторы с поддержкой технологий автоматизации поисково-трансформационных операций в тексте. К высокоэффективным технологиям подобного рода, позволяющим существенно оптимизировать работу с электронной текстовой информацией, относятся регулярные выражения — формальный язык поиска и осуществления манипуляций с текстом по заданному шаблону [11]. Полноценная поддержка современных стандартов регулярных выражений имеется в текстовых редакторах LibreOffice Writer [26], GNU Emacs [20], Vim [41]. В качестве веб-ресурса для разработки, тестирования и отладки регулярных выражений следует выделить сервис Regex 101 [36] как полнофункциональный и содержащий развернутый справочный материал.

► 2. Корпусные менеджеры. При проведении лингвистических исследований, требующих анализа специфического материала, не отраженного современными электронными корпусами текстов, такими как Национальный корпус русского языка (НКРЯ) [4] или Корпус современного американского английского языка (COCA) [15], требуется создание авторского корпуса текстов и дальней-

шее проведение поисково-аналитических операций с данным корпусным материалом. Данная задача выполнима с применением таких корпусных менеджеров и сред автоматизированной обработки корпусного материала, как GATE (General Architecture for Text Engineering) [17] и LancsBox [24]. Следует отметить, что GATE предлагает более широкий функционал в области автоматизации обработки и анализа пользовательских электронных корпусов текстов на основе подключаемых модулей («плагинов», plug-ins), однако более сложен в освоении по отношению к LancsBox в связи с ориентированностью на использование элементов алгоритмизации и программирования при работе с корпусным материалом. Вместе с тем, несомненным достоинством GATE является высокая степень документированности функционала [19] и наличие профессионального учебного презентационного материала по результатам проведения курсов повышения квалификации по практическому использованию GATE Шеффилдским университетом (Великобритания) [18]. Что касается преимуществ ПО LancsBox, то следует отметить наличие широкого функционала в области автоматизации генерации отчетов о полученных лингвостатистических данных и визуализации результатов корпусных исследований в формате «облаков слов», графов, диаграмм, «сетей коллокаций» и др. (см., например, [25]).

► 3. Электронные лексикографические источники. Несмотря на широкую известность и распространенность электронных словарей в современной лингвистической научно-исследовательской деятельности, считаем целесообразным отметить в данной категории несколько программных продуктов, способных работать в режиме «оффлайн» под управлением различных операционных систем и предоставляющих пользователям преимущества в части оптимизации работы с электронными словарными базами. Так, ПО GoldenDict [21] представляет собой настраиваемую пользовательскую словарную базу, совместимую с известными стандартами и форматами электронных словарей (ABBYY Lingvo DSL, StarDict и др.) и словарными онлайн-сервисами. Применение данного программного продукта позволяет исследователю агрегировать в рамках единой платформы все необходимые лексикографические инструменты для работы как с родным языком, так и с произвольным числом любых иностранных языков. К поддерживаемым ресурсам относятся электронные оффлайн-словари и тезаурусы, морфологические словари, вики-словари, лексикографические онлайн-сервисы и аудиоматериалы к словарям, отражающие аутентичное произношение лексических единиц разных языков. Преимуществом данного программного продукта также является возможность работы с пользовательской словарной платформой на различных компьютерных устрой-

ствах, работающих под управлением разных операционных систем, в том числе с переносного накопителя информации. Еще одной программой, удачно дополняющей рабочий процесс лингвиста, является ПО Artha [12] - оффлайн-тезаурус английского языка, работающий с семантической сетью WordNet и предоставляющий удобный графический интерфейс для исследования лексических связей в системе английского языка, в том числе -для визуализации синонимов, гиперонимов, гипонимов и иной связанной лексики с возможностью оперативного перехода к толкованию любого из связанных понятий.

► 4. Среды машинного перевода текста и компьютерной поддержки переводческой деятельности. К специализированному ЛПО, применимому как для решения практических задач в области перевода, так и для сопровождения научно-исследовательской деятельности в области теории и практики перевода, относится программный продукт OmegaT [30], объединяющий различные переводческие инструменты в рамках единого графического интерфейса и проектно-ориенти-рованного рабочего процесса. Данный программный продукт предлагает инструментарий для осуществления двуязычного перевода текстов и текстовых массивов (корпусов текстов) и поддерживает память переводов (translation memory [44]), поиск нечетких совпадений в переведенных фрагментах текста, интеграцию с различными электронными словарями, тезаурусами и глоссариями в форматах Stardict, ABBYY Lingvo DSL и многих других, интеграцию с системами машинного перевода, такими как IBM Watson, DeepL, Google Translate и других, автоматическую генерацию переводных версий документов из исходного корпуса текстов в различных текстовых форматах, в том числе DOC/DOCX, ODT, RTF, PDF и т. д. По сути, OmegaT выступает кросс-платформенной свободной и открытой альтернативой таким коммерческим решениям как SDL Trados [39].

► 5. Средства фонетического анализа и обработки звучащей речи. К данной категории ЛПО относятся, с одной стороны, специализированные программные средства акустического анализа фонограмм, с другой стороны, аудиоредакторы, обладающие функционалом волновой и спектральной визуализации фонограмм и их модификации в соответствии с частотными задачами акустической фонетики. К первой категории фонетического ЛПО можно отнести, например, фонетический анализатор Praat [33], обладающий широким спектром функций в области спектрального анализа, анализа формантов, фонетической сегментации и транскрибирования фонограмм, статистического анализа аудиозаписей, артику-ляторного и акустического синтеза речи и решения ряда других фонетических задач. Данное ПО также обладает необходимым набором инструментов для визуализации результатов фонетических исследований и подготовки отчетов [34].

Ко второй категории фонетического ЛПО следует причислить такие аудиоредакторы, как Audacity [13] и его вариантные ответвления, например, Tenacity [37]. Данные программные продукты позволяют проводить запись фонограмм и осуществлять ряд трансформаций аудиозаписей, во многих случаях необходимых при проведении фонетических исследований. В частности, к функционалу такого типа мы относим функцию спектрального редактирования, позволяющую избирательно акцентировать, подавлять или исключать требуемые звуковые частоты в определенных сегментах аудиопотока; функцию замедления или ускорения аудиозаписи без искажения высоты голоса; функцию полного или избирательного подавления шума на основе пользовательской модели, включающей сегменты-образцы нежелательных компонентов в аудиопотоке.

► 6. Языки программирования с поддержкой специализированных библиотек лингвистических алгоритмов обработки языкового материала. К данной категории ЛПО мы причисляем языки программирования общего назначения, получившие распространение в сфере разработки лингвистических алгоритмов обработки текстовой и речевой информации на естественных языках в силу наличия поддержки специализированных библиотек лингвистических алгоритмов и технологий поиска и обработки текста, таких как регулярные выражения [11] и нечеткий поиск (fuzzy search) [16]. Основным инструментом разработки лингвистических алгоритмов в настоящее время является язык программирования Python [35], что подтверждается значительным количеством прикладных лингвистических исследований, выполненных с привлечением инструментария данного языка программирования (см., например, [22]), а также наличием высокоэффективных специализированных лингвистических библиотек алгоритмов, поддерживающих данный язык программирования и позволяющих осуществлять широкий спектр аналитических операций с корпусными текстовыми массивами. Например, активно развиваемая в настоящее время библиотека NLTK (Natural Language Toolkit) [28] для Python позволяет решать задачи классификации текстов, то-кенизации (сегментации), стемминга (выделения корневых морфем), тэггинга (идентификации и аннотирования частеречной принадлежности лексем), парсинга (синтаксического анализа), машинного обучения с применением технологий искусственного интеллекта и многие другие задачи корпусной лингвистики. Вопросам применения Python и NLTK для решения лингвистических научно-исследовательских задач посвящена специализированная литература [29].

Вторым широко распространенным в лингвистической среде языком программирования является язык Java [32]. Причина распространен-

ности данного языка программирования в сфере прикладной лингвистики заключается в том, что на нем реализован ряд крупных лингвистических программных продуктов, в том числе обсужденные выше GATE, LancsBox, OmegaT. Разработка данных программных продуктов и программных модулей (плагинов) и алгоритмов для них, соответственно, также ведется на языке программирования Java. Как следствие, работа с названным ПО на уровне персонализации алгоритмических модулей также требует от пользователя определенного уровня понимания синтаксиса Java и основных принципов работы с текстовыми данными на данном языке программирования. Примером пособия по применению языка программирования Java в сфере лингвистики может служить книга М. Хэммонда «Программирование для лингвистов: технология Java для исследователей языка» [23].

► 7. Программные средства поддержки лингвистической научно-исследовательской деятельности. К данной категории программного обеспечения мы относим широкий комплекс прикладных программных продуктов, непосредственно не направленных на решение лингвистических задач, но способных выступить средством оптимизации лингвистической научно-исследовательской деятельности в рамках рабочего процесса с привлечением цифровых технологий. В силу широты и открытости данной категории, предопределяющей невозможность ее всестороннего освещения, позволим себе привести несколько ярких примеров программных продуктов, отвечающих заявленным функциональным параметрам. Например, одной из частотных задач при проведении лингвистических исследований является работа с аутентичным аудиовизуальным материалом, представленным в виде аудио- и видеофайлов различных форматов (MP3, FLAC, MP4, MKV, AVI, OGG, OGV и др.), записанных с применением различных алгоритмов кодирования и сжатия данных (H.264, H.265, MPEG2, MPEG4, Ogg Theora, AV1 и др.). Оптимальным средством просмотра и прослушивания таких файлов является, по нашему мнению, кросс-платформенное ПО, совместимое одновременно с максимально возможным количеством указанных форматов и кодирующих алгоритмов и не требующее при этом отдельной установки дополнительного системного ПО для работы, то есть включающее в своем составе все необходимые программные модули для воспроизведения аудио и видео. К такому ПО относится, например, мультимедийный проигрыватель VLC Media Player [42], имеющий также переносную (portable) версию, способную работать без установки с переносного накопителя информации [43].

Другой частотной задачей при проведении лингвистических исследований является подготовка отчетной документации и научных публи-

каций, освещающих результаты научных изысканий. Оптимизирующим потенциалом в данной части рабочего процесса лингвиста-исследователя выступают такие продукты, как Zotero [48] и ХМ^ [45]. ПО Zotero представляет собой кросс-платформенный библиографический менеджер, позволяющий автоматизировать работу с библиографическими списками, цитатами и ссылками в текстах научных публикаций. Одним из достоинств данного продукта является наличие подключаемых модулей, способных работать с российскими библиографическими стандартами различных годов (например, ГОСТ 7.0.5-2008 [8]; ГОСТ 7.32-2017 [9]).

ПО ХМ^ представляет собой средство разработки интеллект-карт, выступающих наглядным способом визуализации отношений между различными идеями, понятиями, концепциями, терминами и т. п. По сравнению с альтернативным ПО такого типа (М^ото, Freemind и др.) ХМ^, по нашему мнению, достаточно легок в освоении и при этом имеет достаточно широкий функци-

онал в области разработки интеллект-карт при минимальных затратах времени (см., например, официальный обучающий ресурс, оформленный в виде интеллект-карты и отражающий основной функционал и принципы работы с программным продуктом [46]).

Обобщающие результаты предпринятого анализа современного ЛПО различной категориальной принадлежности с позиции оптимизации рабочего процесса лингвиста-исследователя в области теоретической и прикладной лингвистики представлены в таблице. Распространение программного обеспечения по модели свободного ПО с открытым кодом отмечено в колонке «СПО», где «+» указывает на наличие как свободной лицензии, так и открытого программного кода, «+/-» - только на распространение по свободной лицензии без открытого программного кода, «-» - на отсутствие свободной лицензии и открытого программного кода и распространение ПО по модели проприетарного продукта с коммерческой лицензией.

Таблица

Лингвистическое программное обеспечение для научно-исследовательских и научно-практических задач / Table. Linguistic software for research and scientific-practical tasks

№ п/п Наименование категории ЛПО Области применения в сфере теоретической и прикладной лингвистики Наименование программного продукта Kpocc-nnaT$0pivieHH0CTb СПО Официальный веб-сайт и справочные ресурсы

1 Текстовые редакторы с поддержкой технологий автоматизации поисково-трансформационных операций в тексте Корпусные исследования языка и дискурса, структурные исследования языка на морфологическом, лексическом и синтаксическом уровнях LibreOffice Writer Linux, MacOS, Microsoft Windows + https://www.libreoffice. org

Vim Linux, MacOS, Microsoft Windows, Android, iOS + https://www.vim.org

GNU Emacs Linux, MacOS, Microsoft Windows + https://www.gnu.org/ software/emacs/

2 Корпусные менеджеры Корпусные исследования языка и дискурса, структурные исследования языка на морфологическом, лексическом и синтаксическом уровнях GATE Linux, MacOS, Microsoft Windows + https://www.gate.ac.uk Документация: https:// gate.ac.uk/sale/tao/ split.html Обучающие презентации: https://gate.ac.uk/wiki/ TrainingCourseFeb2021/

LancsBox Linux, MacOS, Microsoft Windows +/- http://corpora.lancs. ac.uk/lancsbox/ Документация: http:// corpora.lancs.ac.uk/ lancsbox/docs/pdf/ LancsBox 5.0 manual. pdf

3 Электронные словари, тезаурусы, семантические сети Теоретические и прикладные лингвистические исследования, требующие лексикографического сопровождения, в том числе выполненные на многоязычном материале GoldenDict Linux, MacOS, Microsoft Windows + http://goldendict.org/

Artha Linux, Microsoft Windows + http://artha.sourceforge. net/

№ п/п Наименование категории ЛПО Области применения в сфере теоретической и прикладной лингвистики Наименование программного продукта Кросс-платформенность СПО Официальный веб-сайт и справочные ресурсы

4 Среды машинного перевода текста и компьютерной поддержки переводческой деятельности Теория перевода, переводоведение, разнонаправленные исследования по теории языка, выполненные на многоязычном языковом материале OmegaT Linux, MacOS, Microsoft Windows + https://omegat.org

SDL Trados Нет (только Microsoft Windows) - https://www.trados.com/

5 Средства фонетического анализа и обработки звучащей речи Акустическая фонетика, компьютерная фонетика Praat Linux, Microsoft Windows, MacOS + https://www.fon.hum. uva.nl/praat/ Обучающие материалы: https:// www.fon.hum.uva.nl/ praat/manualsByOthers. html

Audacity, Tenacity Linux, Microsoft Windows, MacOS + Audacity: https://www. audacityteam.org/ Документация: https://www. audacityteam.org/help/ documentation/ Tenacity: https://tenacityaudio.org/

6 Языки программирования с поддержкой специализированных библиотек лингвистических алгоритмов обработки языкового материала Без ограничений Python, библиотека NLTK для Python Linux, Microsoft Windows, MacOS, Android, iOS + Python: https://www. python.org NLTK: https://www.nltk.org Обучающие материалы: http://www.nltk.org/book/

Java (OpenJDK) Linux, Microsoft Windows, MacOS, Android, iOS + https://jdk.java.net

7 Программные средства поддержки лингвистической научно-исследовательской деятельности Без ограничений Zotero Linux, Microsoft Windows, MacOS + https://www.zotero.org

VLC Media Player Linux, Microsoft Windows, MacOS, Android, iOS + https://www.videolan. org/vlc/

XMind Linux, Microsoft Windows, MacOS, Android, iOS - https://www.xmind.net

Обсуждение результатов. Выводы и предложения. Предпринятое исследование функционала современного ЛПО показало, что на современном этапе развития цифровых компьютерных технологий и программного обеспечения оптимизация научно-исследовательской и научно-практической деятельности в различных областях теоретической и прикладной лингвистики представляется оправданной и целесообразной и может проводиться с применением широкого круга разнонаправленного прикладного ЛПО. Интеграцию цифровых технологий и программных продуктов в научно-исследовательский процесс допускают лингвистические исследования, проводимые на всех уровнях языковой системы от фонетического до синтаксического, а также ком-

плексные междисциплинарные дискурсивные исследования на одноязычном или многоязычном корпусном материале.

В ходе исследования установлено, что в настоящее время предпринят ряд попыток классификации и обобщения существующего ЛПО (например, перечень Tools for corpus Linguistics [38]), однако подобные изыскания часто носят характер списочного перечисления программных продуктов без попытки их комплексного анализа в контексте принципов формирования полноценного научно-исследовательского процесса, что актуализирует проведение уточняющих исследований, направленных на выработку конкретных рекомендаций по отбору и применению ЛПО в различных сферах лингвистики.

Проведенный анализ разработанного по состоянию на 2021 год ЛПО позволил заключить, что подавляющее число профессиональных лингвистических программных продуктов относится к категории кросс-платформенного свободного программного обеспечения с открытым исходным кодом, что открывает возможность осуществления программной поддержки научно-исследовательского процесса исключительно на основе свободных и открытых программных технологий, не требующих коммерческого лицензирования и позволяет: 1) соблюсти принцип открытости науки; 2) осуществить экономию финансовых средств при проведении научных исследований; 3) максимально персонализировать рабочий процесс исследователя за счет гибкости сочетания необходимых программных продуктов и возможности свободной их доработки и совершенствования в соответствии с целями и задачами конкретного научного исследования; 4) полноценно взаимодействовать с научными коллективами, работающими на других платформах и операционных системах, за счет кросс-платформен-ности и взаимной совместимости ЛПО в части используемых форматов представления данных. На наш взгляд, в этой связи рациональным предложением является рассмотрение возможностей осуществления избирательного перехода на свободные и открытые платформы с интеграцией кросс-платформенного ЛПО при проведении лингвистических исследований с применением цифровых технологий. Например, представляется возможным и целесообразным построение рабочего процесса лингвиста-исследователя на основе свободной и открытой операционной системы семейства Linux (например, Linux Mint [27], Zorin OS [47] и т. п., обладающих интерфейсом, максимально приближенным к привычному интерфейсу распространенной коммерческой операционной системы Microsoft Windows), что позволит полноценно задействовать потенциал изложенного в таблице 1 кросс-платформенного ЛПО и других альтернативных решений, относящихся к классу кросс-платформенных программных продуктов, при минимизации экономических затрат и сохранении взаимной совместимости со значительным количеством коммерческого ЛПО, в том числе предназначенного для работы на других платформах, таких как Microsoft Windows.

Проведенное исследование также позволило продемонстрировать, что современный этап развития корпусных технологий допускает проведение исследований не только с применением корпусных источников, размещенных на специализированных Интернет-ресурсах, таких как Корпус современного американского английского языка (COCA) или Национальный корпус русского языка (НКРЯ), но и с привлечением пользовательского текстового материала, на основе кото-

рого с помощью специализированных корпусных менеджеров может быть сформирован корпус текстов. Такие корпусные менеджеры, как GATE или LancsBox, позволяют объединить в единый пользовательский электронный корпус текстов произвольный объем текстового материала, представленного в одном или нескольких распространенных форматах текстовых файлов. Кроме того, анализ открытых корпусных источников показал наличие существенного количества находящихся в свободном доступе корпусных материалов, доступных для работы в режиме «оффлайн» и обработки с применением обозначенных выше корпусных менеджеров. Например, к англоязычным материалам такого рода относятся: корпус Open American National Corpus (OANC) [31]; The Manually Annotated Sub-corpus (MANC) [там же]; ряд корпусных источников, входящих в состав инструментария NLTK, в том числе Gutenberg Corpus, Web and Chat Text Corpus, Brown Corpus и другие [29]; корпусные материалы, распространяемые с корпусным менеджером LancsBox, в том числе Newsbooks, Shakespeare Corpus и другие [24]. Эти и другие подобные корпусные материалы также могут быть проанализированы с привлечением как широкого круга существующих алгоритмических процедур обработки текста (например, включенных в состав GATE модулей Gazetteer для поиска лексем и их сочетаний и JAPE для поиска лексико-грамматических конструкций [19]), так и пользовательских алгоритмических процедур, реализованных на языках программирования Python или Java с привлечением специализированных программных библиотек автоматизированной обработки текста, машинного обучения и т. п., таких как Natural Language Toolkit (NLTK). Шаблонный поиск текстовых фрагментов в пользовательском корпусном материале может также осуществляться с привлечением таких программных технологий, как регулярные выражения и нечеткий поиск, поддержка которых существует не только в узкоспециализированном ЛПО (корпусных менеджерах, библиотеках лингвистических алгоритмов), но и в программном обеспечении общего назначения, предназначенном для работы с текстовыми файлами (например, текстовые редакторы Vim, Emacs; офисный пакет LibreOffice).

Еще одним рациональным предложением по оптимизации научно-исследовательской деятельности в области лингвистики с применением цифровых технологий является рассмотрение возможности более широкого применения программных продуктов, направленных на сопровождение научно-исследовательской работы в части подготовки отчетной документации и текстов научных публикаций. С этой позиции практический интерес представляют как программные продукты, направленные непосредственно на работу с отчетной документацией (например,

библиографические менеджеры, такие как Zotero и другие подобные альтернативные решения -Mendeley, В^Тех и т. п.; средства разработки интеллект-карт, такие как ХМ^ или М^ото), так и отдельные функциональные возможности различного ЛПО, связанные с генерацией отчетов, визуализацией результатов исследования и т. п. Примером последних могут служить режим создания графиков и диаграмм в фонетическом анализаторе Praat и функции визуализации результатов статистической обработки текстового материала в корпусном менеджере LancsBox.

Таким образом, предпринятое исследование позволило расширить границы понимания применимости лингвистического программного обеспечения в научных изысканиях по теоретической и прикладной лингвистике в условиях цифровиза-ции и выработать ряд рекомендаций по интеграции ЛПО в деятельность лингвиста-исследователя на разных этапах проведения исследований: от систематизации и обработки материала до подготовки отчетной документации и текстов научных публикаций.

Литература

1. Антопольский, Б.А. Лингвистические ресурсы и технологии в России: состояние и перспективы. (Обзор) // Социальные новации и социальные науки. М.: ИНИОН РАН, 2021. № 2. С. 114-131.

2. Бабина, О.И. Корпусный метод автоматического морфологического анализа флективных языков // Вестник ЮурГУ. 2012. № 25. С. 38-44.

3. Колмогорова, А.В., Калинин, А.А., Маликова, А.В. Лингвистические принципы и методы компьютерной лингвистики для решения задач сентимент-анализа русскоязычных текстов // Актуальные проблемы филологии и педагогической лингвистики. 2018. №1(29). С. 139-148.

4. Национальный корпус русского языка URL: https://ruscorpora.ru/new/ (Дата обращения: 14.09.2021).

5. Паспорт специальности ВАК 10.02.19 URL: https://teacode.com/online/vak/p10-02-19.html (Дата обращения: 14.09.2021).

6. Паспорт специальности ВАК 10.02.21 URL: https://teacode.com/online/vak/p10-02-21.html (Дата обращения: 14.09.2021).

7. Проекты паспортов научных специальностей номенклатуры научных специальностей, по которым присуждаются степени, утвержденной приказом Министерства науки и высшего образования Российской федерации от 24 февраля 2021 г. № 118 URL: https://drive.google.com/drive/folders/1xqoWINSPHH48_IA2Iw1uuWt3qkMQc5E0 (Дата обращения: 14.09.2021).

8. Стиль цитирования ГОСТ 7.0.5-2008 для программы Zotero URL: https://github.com/romanraspopov/GOST-styles-for-Zotero (Дата обращения: 15.09.2021).

9. Стиль цитирования ГОСТ 7.32-2017 для программы Zotero URL: https://firescience.ru/project/zoterogost/7322017. html (Дата обращения: 15.09.2021).

10. Тарасова, И.А. Концептуальное моделирование как методологическая основа анализа корпусных данных // Вестник Томского государственного университета. Филология. 2020. №63. С. 178-188.

11. Фридл, Дж. Регулярные выражения. М.: Символ-Плюс, 2008. 608 с.

12. Artha - The Open Thesaurus URL: http://artha.sourceforge.net/ (Дата обращения: 14.09.2021).

13. Audacity: Free, open source, cross-platform audio software for multi-track recording and editing URL: https://www. audacityteam.org/ (Дата обращения: 14.09.2021).

14. Bird, S., Klein, E., Loper, E. Natural Language Processing with Python URL: http://www.nltk.org/book/ (Дата обращения: 14.09.2021).

15. Corpus of Contemporary American English (COCA) URL: https://www.english-corpora.org/coca/ (Дата обращения: 14.09.2021).

16. Fuzzy Searches: IBM Documentation. URL: https://www.ibm.com/docs/en/informix-servers/12.10?topic=modifiers-fuzzy-searches (Дата обращения: 14.09.2021).

17. GATE (General Architecture for Text Engineering) [RL: https://gate.ac.uk/ (Дата обращения: 14.09.2021).

18. GATE: 13th Training Course (online) - Feb 2021 URL: https://gate.ac.uk/wiki/TrainingCourseFeb2021/ (Дата обращения: 14.09.2021).

19. GATE: Developing Language Processing Components With GATE (a User Guide) URL: https://gate.ac.uk/sale/tao/split. html (Дата обращения: 14.09.2021).

20. GNU Emacs URL: https://www.gnu.org/software/emacs/ (Дата обращения: 14.09.2021).

21. GoldenDict URL: http://goldendict.org/ (Дата обращения: 14.09.2021).

22. Google Scholar: Natural Language Toolkit URL: https://scholar.google.com.au/scholar?q=%22natural+language+toolk it%22 (Дата обращения: 14.09.2021).

23. Hammond, M. Programming for Linguists: Java Technology for Language Researchers. Cambridge: Blackwell Publishers, 2002. - 288 p.

24. LancsBox: Lancaster University Corpus Toolbox URL: http://corpora.lancs.ac.uk/lancsbox (Дата обращения: 14.09.2021).

25. LancsBox: Lancaster University Corpus Toolbox: Materials URL: http://corpora.lancs.ac.uk/lancsbox/materials.php (Дата обращения: 14.09.2021).

26. LibreOffice - Free Office Suite URL: https://www.libreoffice.org/ (Дата обращения: 14.09.2021).

27. Linux Mint URL: https://www.linuxmint.com/ (Дата обращения: 14.09.2021).

28. Natural Language Toolkit URL: http://www.nltk.org/ (Дата обращения: 14.09.2021).

29. NLTK: Accessing Text Corpora and Lexical Resources URL: https://www.nltk.org/book (Дата обращения: 14.09.2021).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

30. OmegaT - The Free Translation Memory Tool URL: https://omegat.org/ (Дата обращения: 14.09.2021).

31. Open American National Corpus (OANC) URL: https://www.sketchengine.eu/oanc_masc-corpus/ (Дата обращения: 14.09.2021).

32. OpenJDK: Java Development Kit URL: https://openjdk.java.net/ (Дата обращения: 14.09.2021).

33. Praat: Doing Phonetics By Computer URL: https://www.fon.hum.uva.nl/praat/ (Дата обращения: 14.09.2021).

34. Praat: Picture Window URL: https://www.fon.hum.uva.nl/praat/manual/Picture_window.html (Дата обращения: 14.09.2021).

35. Python URL: https://www.python.org/ (Дата обращения: 14.09.2021).

36. Regex 101: Build, test, and debug regex URL: https://regex101.com/ (Дата обращения: 14.09.2021).

37. Tenacity URL: https://tenacityaudio.org/ (Дата обращения: 14.09.2021).

38. Tools for Corpus Linguistics URL: https://corpus-analysis.com/ (Дата обращения: 14.09.2021).

39. Trados: Translation Software, CAT Tool & Terminology URL: https://www.trados.com/ (Дата обращения: 14.09.2021).

40. TuxTrans: Applications URL: http://web.archive.org/web/20210126083214/https://www.uibk.ac.at/tuxtrans/software.html (Дата обращения: 14.09.2021).

41. Vim URL: https://www.vim.org/ (Дата обращения: 14.09.2021).

42. VLC Media Player URL: https://www.videolan.org/index.ru.html (Дата обращения: 14.09.2021).

43. VLC Media Player Portable (PortableApps.com) URL: https://portableapps.com/apps/music_video/vlc_portable (Дата обращения: 14.09.2021).

44. What is Translation Memory? URL: https://www.trados.com/solutions/translation-memory/ (Дата обращения: 14.09.2021).

45. XMind - Mind Mapping Software URL: https://www.xmind.net/ (Дата обращения: 14.09.2021).

46. XMind Tutorial URL: https://www.xmind.net/embed/Keyt/ (Дата обращения: 14.09.2021).

47. Zorin OS: Your Computer. Better URL: https://zorinos.com/ (Дата обращения: 14.09.2021).

48. Zotero: Your Personal Research Assistant URL: https://www.zotero.org/ (Дата обращения: 14.09.2021).

References

1. Antopol'skii, B.A. Lingvisticheskie resursy i tekhnologii v Rossii: sostoyanie i perspektivy. (Obzor) (Linguistic resources and technologies in Russia: current state and perspectives. [Overview]) // Sotsial'nye novatsii i sotsial'nye nauki. Moscow: INION RAN, 2021. No. 2. P. 114-131. (In Russian).

2. Babina, O.I. Korpusnyi metod avtomaticheskogo morfologicheskogo analiza flektivnykh yazykov (Corpus method of automatic morphological analysis of flective languages) // Vestnik YuurGU. 2012. № 25. S. 38-44. (In Russian).

3. Kolmogorova, A.V., Kalinin, A.A., Malikova, A.V. Lingvisticheskie printsipy i metody komp'yuternoi lingvistiki dlya resheniya zadach sentiment-analiza russkoyazychnykh tekstov (Linguistic principles and methods of computational linguistics for the sentiment-analysis of Russian texts) // Aktual'nye problemy filologii i pedagogicheskoi lingvistiki. 2018. №1(29). S. 139-148. (In Russian).

4. Natsional'nyi korpus russkogo yazyka (National Corpus of Russian Language) URL: https://ruscorpora.ru/new/ (Accessed: 14.09.2021). (In Russian).

5. Pasport spetsial'nosti VAK 10.02.19 (Higher Attestation Commission scientific specialty passport 10.02.19) URL: https:// teacode.com/online/vak/p10-02-19.html (Accessed: 14.09.2021). (In Russian).

6. Pasport spetsial'nosti VAK 10.02.21 (Higher Attestation Commission scientific specialty 10.02.21) URL: https://teacode. com/online/vak/p10-02-21.html (Accessed: 14.09.2021). (In Russian).

7. Proekty pasportov nauchnykh spetsial'nostei nomenklatury nauchnykh spetsial'nostei, po kotorym prisuzhdayutsya stepeni, utverzhdennoi prikazom Ministerstva nauki i vysshego obrazovaniya Rossiiskoi federatsii ot 24 fevralya 2021 g. № 118 (Projects of the scientific specialty passports according to the classification of scientific specialties used in awarding scientific degrees, as established by the Ministry of Science and Higher Education of Russian Federation on February 24, 2021, order No. 118) URL: https://drive.google.com/drive/folders/1xqoWINSPHH48_IA2Iw1uuWt3qkMQc5E0 (Accessed: 14.09.2021). (In Russian).

8. Stil' tsitirovaniya GOST 7.0.5-2008 dlya programmy Zotero (GOST 7.0.5-2008 citation style for Zotero) URL: https:// github.com/romanraspopov/GOST-styles-for-Zotero (Accessed: 15.09.2021). (In Russian).

9. Stil' tsitirovaniya GOST 7.32-2017 dlya programmy Zotero (GOST 7.32-2017 citation style for Zotero) URL: https:// firescience.ru/project/zoterogost/7322017.html (Accessed: 15.09.2021). (In Russian).

10. Tarasova, I.A. Kontseptual'noe modelirovanie kak metodologicheskaya osnova analiza korpusnykh dannykh (Corpus modeling as a methodological basis of analyzing corpus data) // Vestnik Tomskogo gosudarstvennogo universiteta. Filologiya. 2020. No. 63. P. 178-188. (In Russian).

11. Fridl, Dzh. Regulyarnye vyrazheniya (Regular expressions). Moscow: Simvol-Plyus, 2008. 608 p. (In Russian).

12. Artha - The Open Thesaurus URL: http://artha.sourceforge.net/ (Accessed: 14.09.2021).

13. Audacity: Free, open source, cross-platform audio software for multi-track recording and editing URL: https://www. audacityteam.org/ (Accessed: 14.09.2021).

14. Bird, S., Klein, E., Loper, E. Natural Language Processing with Python URL: http://www.nltk.org/book/ (Accessed: 14.09.2021).

15. Corpus of Contemporary American English (COCA) URL: https://www.english-corpora.org/coca/ (Accessed: 14.09.2021).

16. Fuzzy Searches: IBM Documentation URL: https://www.ibm.com/docs/en/informix-servers/12.10?topic=modifiers-fuzzy-searches (Accessed: 14.09.2021).

17. GATE (General Architecture for Text Engineering) URL: https://gate.ac.uk/ (Accessed: 14.09.2021).

18. GATE: 13th Training Course (online) - Feb 2021 URL: https://gate.ac.uk/wiki/TrainingCourseFeb2021/ (Accessed: 14.09.2021).

19. GATE: Developing Language Processing Components With GATE (a User Guide) URL: https://gate.ac.uk/sale/tao/split. html (Accessed: 14.09.2021).

20. GNU Emacs URL: https://www.gnu.org/software/emacs/ (Accessed: 14.09.2021).

21. GoldenDict URL: http://goldendict.org/ (Accessed: 14.09.2021).

22. Google Scholar: Natural Language Toolkit URL: https://scholar.google.com.au/scholar?q=%22natural+language+toolk it%22 (Accessed: 14.09.2021).

23. Hammond, M. Programming for Linguists: Java Technology for Language Researchers. Cambridge: Blackwell Publishers, 2002. - 288 p.

24. LancsBox: Lancaster University Corpus Toolbox URL: http://corpora.lancs.ac.uk/lancsbox (Accessed: 14.09.2021).

25. LancsBox: Lancaster University Corpus Toolbox: Materials URL: http://corpora.lancs.ac.uk/lancsbox/materials.php (Accessed: 14.09.2021).

26. LibreOffice — Free Office Suite URL: https://www.libreoffice.org/ (Accessed: 14.09.2021).

27. Linux Mint URL: https://www.linuxmint.com/ (Accessed: 14.09.2021).

28. Natural Language Toolkit URL: http://www.nltk.org/ (Accessed: 14.09.2021).

29. NLTK: Accessing Text Corpora and Lexical Resources URL: https://www.nltk.org/book (Accessed: 14.09.2021).

30. OmegaT — The Free Translation Memory Tool URL: https://omegat.org/ (Accessed: 14.09.2021).

31. Open American National Corpus (OANC) URL: https://www.sketchengine.eu/oanc_masc-corpus/ (Accessed: 14.09.2021).

32. OpenJDK: Java Development Kit URL: https://openjdk.java.net/ (Accessed: 14.09.2021).

33. Praat: Doing Phonetics By Computer URL: https://www.fon.hum.uva.nl/praat/ (Accessed: 14.09.2021).

34. Praat: Picture Window URL: https://www.fon.hum.uva.nl/praat/manual/Picture_window.html (Accessed: 14.09.2021).

35. Python URL: https://www.python.org/ (Accessed: 14.09.2021).

36. Regex 101: Build, test, and debug regex URL: https://regex101.com/ (Accessed: 14.09.2021).

37. Tenacity URL: https://tenacityaudio.org/ (Accessed: 14.09.2021).

38. Tools for Corpus Linguistics URL: https://corpus-analysis.com/ (Accessed: 14.09.2021).

39. Trados: Translation Software, CAT Tool & Terminology URL: https://www.trados.com/ (Accessed: 14.09.2021).

40. TuxTrans: Applications URL: http://web.archive.org/web/20210126083214/https://www.uibk.ac.at/tuxtrans/software.html (Accessed: 14.09.2021).

41. Vim URL: https://www.vim.org/ (Accessed: 14.09.2021).

42. VLC Media Player URL: https://www.videolan.org/index.ru.html (Accessed: 14.09.2021).

43. VLC Media Player Portable (PortableApps.com) URL: https://portableapps.com/apps/music_video/vlc_portable (Accessed: 14.09.2021).

44. What is Translation Memory? URL: https://www.trados.com/solutions/translation-memory/ (Accessed: 14.09.2021).

45. XMind — Mind Mapping Software URL: https://www.xmind.net/ (Accessed: 14.09.2021).

46. XMind Tutorial URL: https://www.xmind.net/embed/Keyt/ (Accessed: 14.09.2021).

47. Zorin OS: Your Computer. Better URL: https://zorinos.com/ (Accessed: 14.09.2021).

48. Zotero: Your Personal Research Assistant URL: https://www.zotero.org/ (Accessed: 14.09.2021).

Сведения об авторе

Каменский Михаил Васильевич - доктор филологических наук, доцент, профессор кафедры романо-герман-ской филологии и лингводидактики гуманитарного института Северо-Кавказского федерального университета (Ставрополь, Россия) / mkamenskii@ncfu.ru

information about the author

Kamensky Mikhail V. - D.Sc. in Philology, Professor, Romance and Germanic Philology and Linguodidactics Department, Institute of Humanities, North-Caucasus Federal University (Stavropol, Russia) / mkamenskii@ncfu.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.