Научная статья на тему 'СОВРЕМЕННЫЙ ЛАНДШАФТ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ'

СОВРЕМЕННЫЙ ЛАНДШАФТ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
299
71
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА / ПРОФЕССИОНАЛЬНОЕ САМООПРЕДЕЛЕНИЕ / ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА / NLP-ТЕХНОЛОГИИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Комалова Л. Р.

Предпринимается попытка осмысления профессионального ландшафта компьютерной лингвистики как комплекса профессиональных компетенций и сферы их применения. Представлен краткий обзор технологических решений на основе достижений в области компьютерной лингвистики как инженерно-научного направления обработки естественного языка (на основе анализа и генерирования текстовых данных и распознавания и синтеза звучащей речи). Рассматривается цикл от сбора данных до оценки точности работы компьютерной модели.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MODERN LANDSCAPE OF COMPUTATIONAL LINGUISTICS

The paper explores professional landscape of Computational Linguistics as a complex of professional competences and the spheres of their implementation. The paper presents a short review of technological decisions based upon achievements (in text analysis and text generation, speech recognition and speech synthesis) of Computational Linguistics as a research and development realm of Natural Language Processing (starting with dataset construction and finishing with model accuracy evaluation).

Текст научной работы на тему «СОВРЕМЕННЫЙ ЛАНДШАФТ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ»

актуальные направления лингвистических исследований: современность и история

Научная статья УДК 81'33

DOI 10.52070/2542-2197_2022_6_861_40

современный ландшафт компьютерной лингвистики

Л. Р. Комалова12

1Институт научной информации по общественным наукам РАН, Москва, Россия, 2Московский государственный лингвистический университет, Москва, Россия komalova@inion.ru

Аннотация.

Ключевые слова:

Благодарности:

Предпринимается попытка осмысления профессионального ландшафта компьютерной лингвистики как комплекса профессиональных компетенций и сферы их применения. Представлен краткий обзор технологических решений на основе достижений в области компьютерной лингвистики как инженерно-научного направления обработки естественного языка (на основе анализа и генерирования текстовых данных и распознавания и синтеза звучащей речи). Рассматривается цикл от сбора данных до оценки точности работы компьютерной модели.

компьютерная лингвистика, профессиональное самоопределение, обработка естественного языка, NLP-технологии

Исследование выполнено в рамках государственного задания ФГБУН ИНИОН РАН по теме: «Лингвокультурные аспекты цивилизационных противоречий».

Для цитирования: Комалова Л. Р. Современный ландшафт компьютерной лингвистики // Вестник Московского государственного лингвистического университета. Гуманитарные науки. 2022. Вып. 6 (861). С. 40-47. DOI: 10.52070/2542-2197_2022_6_861_40

Original article

Modern landscape of Computational Linguistics

Liliya R. Komalova12

1Institute of Scientific Information for Social Sciences of the Russian Academy of Sciences, Moscow, Russia,

2Moscow State Linguistic University, Moscow, Russia

komalova@inion.ru

Abstract.

Keywords:

Acknowledgments:

For citation:

The paper explores professional landscape of Computational Linguistics as a complex of professional competences and the spheres of their implementation. The paper presents a short review of technological decisions based upon achievements (in text analysis and text generation, speech recognition and speech synthesis) of Computational Linguistics as a research and development realm of Natural Language Processing (starting with dataset construction and finishing with model accuracy evaluation).

Computational Linguistics, professional self-determination, Natural Language Processing, NLP-technologies

The research is carried out within the framework of the state assignment to the Federal State Budgetary Institution of Science «Institute of Scientific Information for Social Sciences of the Russian Academy of Sciences», project «Linguacultural aspects of civilizational contradictions».

Komalova, L. R. (2022). Modern landscape of computational linguistics. Vestnik of Moscow State Linguistic University. Humanities, 6(861), 40-47. 10.52070/2542-2197_2022_6_861_40

ВВЕДЕНИЕ

Обобщенное и достаточно широкое название статьи фиксирует попытку профессионального самоопределения и отражает поисковую модель для такого самоопределения. С одной стороны, обозначая предметную область компьютерной лингвистики, мы ограничиваем способ действо-вания и ожидаемые результаты, в основном, цифровыми средствами и инструментами работы с языковым и речевым материалом. С другой стороны, применяя метафору ландшафта к сфере профессиональной деятельности, мы пытаемся указать на то, что в фокус нашего внимания попадают лишь обозреваемые объекты. К тому же метафора ландшафта подразумевает возможность динамического схватывания различных объектов за счет самостоятельного движения, что применительно к профессиональному самоопределению - вселяет надежду не только на расширение возможностей доступа к различным локациям по мере приближения к ним, но и на возможность смены точки зрения в зависимости от занимаемой позиции. Условия современного VUCA-мира1 вынуждают к самоопределению и постоянному пересамоопределению. Не только абитуриент при выборе программы профессиональной подготовки озадачивается вопросом, в какой профессии он / она будет востребован на горизонте 5-10 лет. Сформировавшийся специалист, опираясь на фундамент классической лингвистики, обращается к достижениям компьютерной лингвистики, чтобы увеличить охват исследуемого материала, стандартизировать рутинные функции, ускорить процессы и осуществить многое другое.

В настоящей статье предпринимается попытка осмысления профессионального ландшафта компьютерной лингвистики как комплекса профессиональных компетенций лингвиста и сферы их применения.

ТЕЗИСЫ ДЛЯ ПРОФЕССИОНАЛЬНОГО САМООПРЕДЕЛЕНИЯ ЛИНГВИСТА

Тезис 1.

В современном мире востребованность лингвиста зависит от уровня его компетенций в области компьютерной лингвистики, шире - от уровня цифровых компетенций.

1 Неотъемлемыми характеристиками современного мира являются нестабильность, неопределенность, сложность, неоднозначность (VUCA = Volatility, Uncertainty, Complexity, Ambiguity).

Традиционными для лингвиста являются такие сферы профессиональной деятельности, как перевод, преподавание (родного и иностранных) языков и исследования. Об этом свидетельствует наличие профессиональных стандартов (03.010. Тифлосурдопереводчик, 03.016. Переводчик русского жестового языка, 04.015. Специалист в области перевода) и устоявшихся наименований должностей. Наряду с этим все чаще озвучиваются новые ниши профессиональной деятельности, такие как цифровой лингвист, дизайнер голосового интерфейса, дизайнер эмоционального опыта, UX-исследователь, специалист по ESG-коммуника-циям и др.

Во многих отраслях в современном мире всё четче обозначается тренд «миграции» потребительского внимания из физического мира в цифровой мир. Ключевым изменением является то, что потребители теперь обращаются к цифровому инструменту (например, веб-сайту, чат-боту, цифровому сервису) и лишь затем к человеку [Marr, 2022]. Активно развивается рынок машинного перевода. Машинные алгоритмы генерируют новостные сообщения. Коммерческие компании чаще устанавливают чат-боты для обучения работников иностранному языку. Всё это свидетельствует о том, что даже в традиционных профессиональных сферах лингвисту нужны компетенции в области компьютерной лингвистики.

Тезис 2.

Компетенции в области компьютерной лингвистики, будучи узкопрофессиональными навыками (hard skills), сильно варьируют по глубине освоения применительно к разным профессиям.

Раньше, поскольку технологии менялись медленнее люди могли позволить себе освоить какой-то узкоспециализированный набор навыков и годами оставаться востребованными, «сегодня успешному профессионалу нужен принципиально другой уровень гибкости» [Атлас новых профессий, 2021, с. 468]. В связи с этим лингвисты, идущие в ногу со временем, постоянно повышают уровень своей профессиональной компетенции, вводя в свою деятельность цифровые инструменты и средства работы.

Однако движение в логике догоняющего развития не подразумевает однозначного успеха. В некоторых случаях это может привести к вымыванию смысла деятельности, к бездумному применению техники и технологий, к ориентированию на количественные данные в ущерб качественной интерпретации.

Кроме того, не каждой профессии требуются одинаково глубокие знания и навыки в области компьютерной лингвистики. Анализ существующих учебников и учебных пособий по компьютерной лингвистике показал, что предлагаемое содержание условно ориентировано, как минимум, на три большие группы будущих специалистов: (1) непосредственно на лингвистов, (2) на инженеров и разработчиков, (3) на специалистов иных профессий, которые (профессии) предполагают работу, в основном, с большим объемом текстовых данных (например, маркетологи, юристы, экономисты, социологи).

В соответствии с глубиной освоения выдвигаются требования к уровню базовой подготовки обучающихся. Например, специалист в области обработки естественного языка (Natural Language Processing - NLP) должен располагать не только знаниями о языке, но и знаниями в области математики, статистики, навыками в области программирования, а именно:

- иметь представление о фонетическом, морфологическом, графематическом, синтаксическом видах анализа, алгоритмах и технике для обработки естественного языка, тематическом моделировании, информационном поиске, дистрибутивной семантике;

- иметь знания принципов построения и функционирования баз данных, языка SOL (structured query language - язык структурированных запросов), особенностей фрей-мворков (программных платформ, на базе которых можно создать модель машинного обучения) для работы с большими данными и с различными поисковыми движками, разбираться в структурах данных;

- знать языки программирования (например, Pytl-юп, R, Java, C# / C++, Scala);

- уметь работать со стандартными библиотеками (pandas - для работы с данными в табличном виде, numpy - для работы с большими числовыми массивами, scipy -для вычислений); библиотеками визуализации результатов анализа (matptotlib, seabоrn); библиотеками для методов машинного обучения (scikit-learn), для градиентного бустинга (XGBооst, LGBM); специальными библиотеками (nltk, StanfordNLP, spacy, gensim, bigartm, wоrd2vec, fasttext);

- иметь опыт построения глубоких нейронных сетей с использованием фреймворков (Tensоrflоw, Keras, Py^rch);

- уметь работать с инструментами обработки естественного языка для разных языков (например, для русского языка: pymystem3,

pymorphy - для морфологического анализа, Tomita parser, yargy - для извлечения фактов и сущностей); - уметь тестировать методы обработки текстовых данных, а также знать методики оценки качества моделей. Интересно и то, что некоторые специалисты, позиционирующие себя в области компьютерной лингвистики, не имеют лингвистического образования, что может отразиться на качестве и глубине интерпретации результатов исследований.

Тезис 3.

Принципиально важно различать компьютерную лингвистику в науке и компьютерную лингвистику в инженерии.

В первом случае целью специалиста является получение знаний о явлениях и процессах естественного языка посредством организации и проведения исследований с помощью машинных средств (вычислительной техники). Знания в этом случае представляются в виде компьютерных моделей различных лингвистических явлений. Во втором случае целью является разработка технологий обработки естественного языка и создание на их основе продуктов и услуг для конечного потребителя. При этом и научный, и инженерный виды профессиональной деятельности могут осуществляться в рамках одного проекта.

Высказанные тезисы могут служить средством фокусировки для принятия решения о необходимости обращения к методам и инструментам компьютерной лингвистики1 и повышения квалификации в данной профессиональной области.

1 Для расширения знаний о методах и инструментах компьютерной лингвистики рекомендуется ознакомиться со следующими источниками: Автоматическая обработка текстов на естественном языке и анализ данных / Большакова Е. И. и др. М.: НИУ ВШЭ, 2017. URL: https://www.hse.ru/data/2017/08/12/1174382138/NLPandDA_4print. pdf; Algorithms for computational linguistics / Striegnitz K. et al. Computational linguistics: models, resources, application. 2004. URL: https://www.gelbukh.com/clbook/; Jurafsky D., Martin J. H. Speech and language processing (3rd ed. draft). 2021. URL: https://web.stanford. edu/~jurafsky/slp3/; Stabler E. P Computational linguistics: defining, calculating, using, and learning linguistic structures. Lecture notes. 2013; The handbook of Computational Linguistics and Natural Language Processing / Clark A., Fox Ch., Lappin Sh. (eds.). Oxford; Malden: John Wiley & Sons, 2010; The Oxford handbook of computational linguistics / Mitkov R. (ed.). 2003. URL: https://books.google.ru/books?id=yl6AnaK tVAkC&pg=PR5&hl=ru&source=gbs_selected_pages&cad=3#v=onepage &q&f=false; Association for computational linguistics. URL: https://www. aclweb.org/portal/; Computational linguistics (journal). URL: https:// direct.mit.edu/coli; Research group in computational linguistics. URL: http://rgcl.wlv.ac.uk/

технологические разработки и научные достижения в области обработки естественного языка

Анализ научной литературы и технологических отчетов позволяет составить представление о разработанности тех или иных решений на основе достижений в области компьютерной лингвистики как инженерно-научного направления обработки естественного языка.

Обработка естественного языка направлена на решение задач распознавания (анализа) звучащей речи (используется в системах автоматического субтитрирования, системах диктовки и т. д.), анализа текста (используется в поисковых системах, системах машинного перевода, системах оценки мнений и т. д.), синтеза звучащей речи (используется в системах создания цифровой копии голоса, системах управления умными устройствами, в диалоговых системах и т. д.), генерирования текста (используется в диалоговых (вопросно-ответных) системах (в системах автоматического реферирования текстов и т. д.)).

Процесс работы с текстовым / звучащим материалом на естественном языке выстраивается в следующую последовательность: (1) сбор данных (очистка данных: для данных, представленных в виде текста, - токенизация, исключение стоп-слов, стемминг, лемматизация; создание словаря датасета, представление данных в виде векторов); (2) предварительная обработка данных (для данных, представленных в виде текста, проводится определение частей речи, именованных сущностей, кореференций, зависимости между словами в предложении; для данных в виде акустического сигнала звучащая речь переводится в текст с помощью фонетической транскрипции с опорой на акустическую и языковую модели); (3) анализ обучающих данных (лексический, синтаксический, семантический виды анализа, интеграция дискурса и прагматический анализ); (4) построение модели; (5) оценка точности работы модели.

Понимание естественного языка (Natural Language Understanding - NLU) (как для восприятия, так и для порождения речи / текста) является конечной целью обработки естественного языка как совокупности технологических решений. Решения в данной области направлены на соотнесение данных на входе с базовой моделью знаний или структурированной онтологией. Примеры таких технологий - это широкий спектр алгоритмов от понимания простых команд до алгоритмов поддержания беседы, похожей на беседу между людьми.

Далее перечислим некоторые наиболее освоенные на практике решения (переработано

на основе [Шелманов и др., 2018; Eggers, Malik, Gracie, 2019; Elliot et al., 2021; Shannon, Brindle, Morris, URL]). Большинство из них работает на базе письменного текста. Представим их в логике работы с материалом на естественном языке от более простых к более сложным решениям.

Классификация текстов (text classification) состоит в том, чтобы на основании отличительных признаков разделить некоторым образом множество текстов на классы. Первичной задачей, которая решается в процессе классификации текстов, является упрощение и ускорение предварительной работы, необходимой для дальнейших операций по обработке естественного языка.

Категоризация текстов (text categorization) заключается в отнесении текстов к определенным классам (сортировка) по заданным параметрам. Обычно в процессе категоризации производится ручная или автоматическая разметка текста (text labelling), обучение модели или формулирование правил выделения категорий. Процедура категоризации включена в процесс реферирования (summarization) и разметки по темам (topic labelling). Примером категоризации является сортировка текстов на цифровых платформах по категориям «отзыв», «жалоба», «обращение в службу поддержки» или различение спама и писем, содержащих предложение о сотрудничестве.

Кластеризация текстов (text clustering) позволяет выявлять группы семантически похожих текстов среди заданного фиксированного множества текстов. Алгоритм кластеризации позволяет автоматически определить и группировать ключевые фразы. Такие алгоритмы, например, позволяют скорректировать структуру веб-сайта, распределив ключевые фразы по страницам так, чтобы сайт привлекал максимум поискового трафика.

Извлечение информации (information extraction) формулируется как задача автоматического построения структурированных машиночитаемых данных из неструктурированных данных документов и других информационных ресурсов. Примером реализации алгоритма может служить успешное выполнение задачи по заполнению фрейма (название, время проведения, место проведения, тематика и т. д.) о конференции на основе текстовых объявлений, размещенных на сайтах конференций и на платформах-агрегато-рах новостей. Извлечение именованых сущностей и поверхностных связей между ними (named entity resolution - NER) направлено на извлечение из текста, классификацию и создание онтологий имен собственных, наименований мест, организаций, продуктов и т. п. Такие алгоритмы позволяют, например, отследить потенциальных субъектов

кибернасилия в рамках новых медиа. Извлечение семантических отношений между сущностями (relationship extraction) позволяет обнаруживать семантические связи между двумя и более сущностями. Из текстов обычно извлекается очень много поверхностных связей; многие из них выражают одно и то же семантическое отношение, например: из предложений «Тим Кук руководит Apple» и «Тим Кук является главой Apple» можно выделить две поверхностные связи «руководит» и «является главой», которые имеют одинаковый смысл «быть директором» [Шелманов и др., 2018, с. 51]. Группирование семантически близких связей в абстрактные семантические отношения позволяет решить задачу формирования базы знаний. Например, на основе информации, представленной в профилях социальных интернет-сетей, можно определить, какие люди приходятся друг другу родственниками или знакомыми.

Современные крупные корпорации вкладывают солидные ресурсы в создание так называемых решений, управляемых знаниями (knowledge driven applications) и выступающих в качестве «интеллектуальной фабрики знаний», которые обеспечивают постоянную генерацию новых знаний, непрерывно анализируя множество разрозненных источников данных внутри компании [Hubauer et al., 2018]. Ядром таких решений являются графы знаний (knowledge graphs), имеющие в своем составе графовые хранилища семантических метаданных (или знаний, формализованных с помощью специальных формальных семантических языков) и графы онтологии, которые выступают в роли по-луструктурировнной концептуальной схемы предметной области [Муромцев, Романов, Волчек, 2019].

Реферирование (резюмирование) текстов (text summarization) представляется как комплекс технологий, позволяющих автоматически продуцировать короткие текстовые обобщения информации, представленной в конкретном тексте или множестве текстов. В процессе реферирования решается задача сокращения времени на ознакомление с массивом данных и извлечения из него наиболее значимой информации. Использование данной технологии помогает в деятельности, подразумевающей необходимость обработки большого потока текстовой информации, например, финансовой или юридической.

Анализ тональности текста / сентимент-анализ (sentiment analysis) является разновидностью контент-анализа, направленной на автоматизированное выявление в текстах эмоционально окрашенной лексики и эмоциональной оценки (субъективного мнения) авторами текстов по отношению к объектам, описываемым в тексте.

Сентимент-анализ активно применяется в маркетинге, например, для выявления физиологической реакции и побочных действий на фармакологические препараты, а также для определения эмоционально-психологического состояния людей в определенных жизненных условиях (например, в период лок-дауна в связи с пандемией коронавируса).

Тематическое моделирование (topic modelling) позволяет «автоматически систематизировать и реферировать электронные архивы такого масштаба, который человек не в силах обработать» [Коршунов, Гомзин, 2012, с. 217]. Построенная на основе алгоритмов данного типа модель корпуса текстов отражает переход от совокупности документов, совокупности слов в документах к набору тем, характеризующих содержание этих документов [Кольцов и др., 2014]. Например, модель, построенная на основе комментариев к новостным сообщениям, может соотноситься со стереотипом массового сознания, согласно которому уровень криминализации общества возрастает в периоды увеличения миграционных потоков.

Семантический поиск (semantic search) - это способ и технология поиска информации, основанные на использовании контекстного (смыслового) значения запрашиваемых словосочетаний. Вместо словарных значений отдельных слов или фраз при поисковом запросе учитывается информационный контекст, местонахождение и цель поиска пользователя, словоформы, синонимы, обобщенные и специализированные запросы, язык запроса и др. Семантический поиск является неотъемлемой частью систем когнитивного поиска (insight engine / cognitive search / enterprise knowledge discovery). Системы семантического поиска позволяют управлять данными и документами для снижения издержек на поиск, полноту предоставления данных / документов, их ручную обработку, улучшают взаимодействие с потребителями информации и расширяют возможности самостоятельного поиска решений. В качестве примера реализации технологии можно привести базу данных Bing Decision Engine, пополняемую из более 570 млн источников информации (пользователи, устройства) и состоящую из более 18 млрд атрибутов и связей между ними.

Обработка текстовой информации (text processing) подразумевает получение полезной информации (не компиляции данных) из множества неструктурированных текстов на основе определения и извлечения из них специфической информации при минимальном участии человека. Результаты такой обработки используются в работе специалистов в области Data Science. В совокупности с технологией компьютерного зрения

(computer vision - CV) интеллектуальная обработка документов (intelligent document processing - IDP) позволяет извлекать информацию из полуструктурированных и неструктурированных данных / документов для анализа и последующей выработки решений (например, принятия решения о налоговой ставке или размере пенсии на основе анализа соответствующих документов).

Распознавание речи (speech-to-text - STT, automated speech recognition - ASR) - это цифровое преобразование речевого сигнала в текстовое представление для последующей обработки. Технология используется при голосовом управлении механизмами и программами, при транскрибировании аудиозвонков и выступлений, для создания субтитров к видео, для верификации говорящего по голосу и речи и т. д. В целом технология упростила доступ к системам и сервисам за счет использования голоса в качестве основной модальности, что значительно ускорило и разнообразило коммуникацию.

Синтез звучащей речи (text-to-speech - TTS, speech synthesis) - это технология искусственного преобразования письменного текста в звучащую речь. Современные методы основываются на модели формирования акустического сигнала в речевом тракте и характеристиках голоса для производства полностью синтезированной речи. Последние достижения в этой области позволяют моделям имитировать особенности голоса и речи и подстраиваться под голос конкретного человека на основе записей реальной речи. Использование технологии позволяет озвучивать текстовый контент (художественные произведения, научные публикации, учебные курсы), что способствует инклюзии слабовидящих людей; создавать реалистичные игровые персонажи и киноперсонажи; снижать затраты на запись звучащей информации с привлечением человека.

Генерация данных на естественном языке (natural language generation - NLG) - это использование цифровой информации и математических формул для извлечения параметров из датасета с последующей трансформацией данных в понимаемое человеком сообщение, т. е. автоматический процесс конвертации структурированных (иногда слабоструктурированных) данных в письменный или устный продукт на естественном языке. Примером практического применения технологии является автоматизированный журнализм (automated journalism), когда алгоритм ищет в Интернете актуальные новости, собирает данные из многочисленных различных источников, обобщает данные и создает текст, публикуя его на веб-сайте. Весь процесс занимает считаные минуты. Решения на основе

генерации данных позволяют повысить операционную эффективность (увеличить скорость первичной обработки и распространения данных) при работе с большими массивами данных с целью их обобщения и представления (например, аналитических отчетов) в упрощенном виде.

Технологии распознавания, синтеза речи, семантического поиска, обработки текста, генерации данных на естественном языке, модели глубокого обучения (deep Learning models), предсказательные модели (prediction models) в совокупности позволяют создавать диалоговые системы (dialogue systems), применяемые в чат-ботах (chat-bots), телефонных и виртуальных ассистентах (голосовых и виртуальных помощниках - voice and virtual assistants - VAs) и роботах, что, в свою очередь, позволяет автоматизировать работу кол-центров, снять нагрузку с операторов служб поддержки и т. д.

Машинный перевод (machine translation - MT) позволяет осуществить перевод с одного естественного языка на другой с использованием программного обеспечения. Технологии машинного перевода прошли путь от алгоритмов на основе строгих правил к алгоритмам на основе статистических моделей и в настоящее время строятся на глубоких нейронных сетях и реализуются в решениях типа нейронный машинный перевод (neural machine translation - NMT), адаптивный машинный перевод с постредактированием (adaptive post-edit machine translation - adaptive PEMT, решения, предложенные человеком, включаются в модель, порожденную машиной), перевод при помощи компьютера (computer assisted translation - CAT).

Все вышеописанные технологии широко представлены на потребительских рынках по всему миру и имеют большой потенциал для своего развития.

Развитие компьютерных технологий сопровождается тенденцией к отрытым данным. Наборы инструментов для обработки естественного языка с открытым исходным кодом (open-source natural language processing toolkit) позволяют конечным пользователям и компаниям преобразовывать исходные коды для своих целей. Обычно такие наборы позволяют работать над решением самых насущных задач, к ним относятся, например анализ текстовой информации, разработка чат-бота, расширяя возможности для создания прототипов алгоритмов, программного обеспечения и технологий.

ЗАКЛЮЧЕНИЕ

На основе проведенного обзора научной литературы и технологических отчетов можно сформулировать следующие выводы. Современный

профессиональный ландшафт компьютерной лингвистики характеризуется как подвижный и изменчивый. В перечне технологий обработки естественного языка представлены решения на основе письменного текста и звучащей речи с преобладанием первого типа решений. Профессионализация в области компьютерной лингвистики предполагает освоение и применение существующих решений для проведения научных исследований или

внедрения в качестве рабочего инструментария в сферах деятельности, где решения принимаются на основе анализа больших массивов данных в виде текстов и / или речи. Другое направление профессионализации связано с разработкой решений обработки естественного языка. Во втором случае от лингвиста потребуются глубокие знания и развитые навыки в области прикладной математики и программирования.

список источников

1. Marr B. Why every business needs a digital-first strategy // Forbes. Apr 6, 2022. URL: https://www.forbes.com/ sites/bernardmarr/2022/04/06/why-every-business-needs-a-digital-first-strategy/?sh=1f47048916b8

2. Атлас новых профессий 3.0. Москва: Альпина ПРО, 2021.

3. Шелманов А. О. [и др.]. Открытое извлечение информации из текстов. Часть I. Постановка задачи и обзор методов // Искусственный интеллект и принятие решений. 2018. № 2. С. 47-61. DOI: 10.14357/20718594180204

4. Eggers W. D., Malik N., Gracie M. Using AI to unleash the power of unstructured government data. Deloitte, 2019.

5. Elliot B. et al. Hype cycle for natural language technologies / B. Elliot, A. Mullen, A. Lee, S. Emmott // Gartner. 2021. URL: https://www.gartner.com/doc/reprints?id=1-27E5BEQL&ct=210908&st=sb

6. Shannon R., Brindle A., Morris L. Talking Human: The rise of natural language processing (NLP) // Radical Ventures. URL: https://radical.vc/natural-language-processing/#_ftn10

7. Hubauer T. et al. Use cases of the industrial knowledge graph at Siemens / T. Hubauer, S. Lamparter, P. Haase, D. Herzig // International Semantic Web Conference (P&D / Industry / BlueSky). 2018. URL: http://ceur-ws.org/ Vol-2180/paper-86.pdf

8. Муромцев Д., Романов А., Волчек Д. Индустриальные графы знаний - интеллектуальное ядро цифровой экономики // Control Engineering Россия. 2019. Vol. 5(83). С. 32-39.

9. Коршунов А., Гомзин А. Тематическое моделирование текстов на естественном языке // Труды Института системного программирования РАН. 2012. № 23. С. 215-242. DOI: https://doi.org/10.15514/ISPRAS-2012-23-13

10. Кольцов С. Н. [и др.]. Интерпретация семантических связей в текстах русскоязычного сегмента Живого Журнала на основе тематической модели LDA / С. Н. Кольцов, О. Ю. Кольцова, О. А. Митрофанова, А. С. Шимори-на // Технологии информационного общества в науке, образовании и культуре (IMS-2014). СПб.: Университет ИТМО, 2014. С. 135-142.

REFERENCCES

1. Marr, B. (2022). Why every business needs a digital-first strategy. Forbes. 6 April 2022. https://www.forbes.com/ sites/bernardmarr/2022/04/06/why-every-business-needs-a-digital-first-strategy/?sh=1f47048916b8

2. Atlas novyh professij 3.0. = Atlas of new professions 3.1 (2021). Moscow: Alpina PRO.

3. Shelmanov, A. O., Isakov, V. A., Stankevich, M. A., Smirnov, I. V. (2018). Otkrytoe izvlechenie informacii iz tekstov. CHast' I. Postanovka zadachi i obzor metodov = Open information extraction. Part I. The task and the review of the state of the art. Artificial Intelligence and Decision Making, 2, 47-61. 10.14357/20718594180204

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4. Eggers, W. D., Malik, N., Gracie, M. (2019). Using AI to unleash the power of unstructured government data. Deloitte.

5. Elliot, B., Mullen, A., Lee, A., Emmott, S. (2021). Hype cycle for natural language technologies. Gartner. https:// www.gartner.com/doc/reprints?id=1-27E5BEQL&ct=210908&st=sb

6. Shannon, R., Brindle, A., Morris, L. Talking human: the rise of Natural Language Processing (NLP). Radical Ventures. https://radical.vc/natural-language-processing/#_ftn10

7. Hubauer, T., Lamparter, S., Haase, P., Herzig, D. (2018). Use cases of the industrial knowledge graph at Siemens. International Semantic Web Conference (P&D / Industry / BlueSky). http://ceur-ws.org/Vol-2180/paper-86.pdf

8. Muromtsev, D., Romanov, A., Volchek, D. (2019). Industrial knowledge graphs - intellectual core of digital economy. Control Engineering Russia, 5(83), 32-39.

9. Korshunov, A., Gomzin, A. (2012). Topic modeling in natural language texts. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS), 23, 215-242. https://doi.org/10.15514/ISPRAS-2012-23-13

10. Koltsov, S. N., Koltsova, O. Ju., Mitrofanova, O. A., Shimorina, A. S. (2014). Interpretation of semantic relations in the texts of the Russian LiveJournal segment based on LDA topic model. Internet and Modern Society (pp. 135-142). St. Petersburg: ITMO University.

ИНФОРМАЦИЯ ОБ АВТОРЕ

Комалова Лилия Ряшитовна

доктор филологических наук,

ведущий научный сотрудник отдела языкознания

Института научной информации по общественным наукам РАН,

профессор кафедры прикладной и экспериментальной лингвистики

Московского государственного лингвистического университета

INFORMATION ABOUT THE AUTHOR

Komalova Liliya Rashitovna

Doctor of Philology (Dr. habil.), Leading Research Fellow at the Department of Linguistics, Institute of Scientific Information for Social Sciences of the Russian Academy of Sciences, Professor at the Department of Applied and Experimental Linguistics, Moscow State Linguistic University

Статья поступила в редакцию 12.04.2022 одобрена после рецензирования 11.05.2022 принята к публикации 16.05.2022

The article was submitted 12.04.2022 approved after reviewing 11.05.2022 accepted for publication 16.05.2022

i Надоели баннеры? Вы всегда можете отключить рекламу.