Научная статья на тему 'Лингвистическая практика: прикладные результаты в области обработки естественного языка'

Лингвистическая практика: прикладные результаты в области обработки естественного языка Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
195
32
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЕСТЕСТВЕННЫЙ ЯЗЫК / ЛИНГВИСТИЧЕСКИЕ ТЕХНОЛОГИИ / ДЕПРЕССИЯ / ПСИХИЧЕСКОЕ РАССТРОЙСТВО / КОГНИТИВНАЯ ФУНКЦИЯ / СОЦИАЛЬНАЯ СЕТЬ / МАШИННЫЙ ПЕРЕВОД / АВТОМАТИЗИРОВАННЫЙ АНАЛИЗ ТЕКСТА
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Лингвистическая практика: прикладные результаты в области обработки естественного языка»

Автор монографии приводит данные по частотности букв в немецких текстах (в %), что используется при декодировании смысловой информации с учетом различных правил субституции.

В монографии отражены также различные способы комбинаторики лингвистических средств кодирования смысловой информации, например, параллельное использование алфавитов нескольких языков для одного и того же кодируемого текста, комбинаторика буквенных обозначений и специальных символов, различные варианты субституции и т.д.

В работе помимо лингвистических способов кодирования и декодирования смысловой информации, описаны также этапы развития технических средств кодирования и декодирования смыслового контента: от азбуки Морзе - до компьютерных технологий. Особое внимание уделено методам защиты данных, аутентификации сообщений, квантовой компьютеризации и новым цифровым технологиям. Однако именно лингвистическая составляющая содержания монографии дает право утверждать, что основой развития направления в области передачи скрытой закодированной информации является манипулятивный подход к использованию разноуровневых единиц языка и речи.

Р.К. Потапова

2018.03.021-022. Л.Р. КОМАЛОВА. ЛИНГВИСТИЧЕСКАЯ ПРАКТИКА: Прикладные результаты в области обработки естественного языка. (Обзор).

2018.03.021. Технологии обработки естественного языка на основе неспециализированных письменных текстов пользователей, используемые в приложениях для диагностики и лечения психических заболеваний / Кальво Р.А., Милн Д.Н., Саззад Х.Н., Кристен-сен Х.

Natural language processing in mental health applications using non-clinical texts / Calvo R.A., Milne D.N., Sazzad H.N., Christensen H. // Natural language engineering. - Cambridge, 2017. - N 23 (5). - P. 649685. - DOI: 10.1017/S 1351324916000383.

2018.03.022. ДЕЙЛ Р. Коммерческие разработки на основе технологий обработки естественного языка: (2017 год)

DALE R. The commercial NLP landscape in 2017 // Natural lang. engineering. - Cambridge, 2017. - N 23 (4). - P. 641-647. - DOI: 10.1017/S1351324917000237.

Ключевые слова: естественный язык; лингвистические технологии; депрессия; психическое расстройство; когнитивная функция; социальная сеть; машинный перевод; автоматизированный анализ текста.

Работа (021) австралийского исследовательского коллектива является обзором технологий обработки естественного языка на основе лингвистических исследований. Анализируются научные достижения, отраженные в опубликованных исследовательских работах, за последние десять лет. Цель обзора состоит в том, чтобы выявить потенциал развития технологий обработки естественного языка, которые могут быть использованы при работе в профессиональной сфере восстановления и поддержки психического здоровья при помощи онлайн-средств.

Работа состоит из пяти частей. В первой части представлено краткое описание исследования. Вторая часть посвящена методологическим основаниям работы и обзору литературы по тематике исследования. В третьей части приводятся сведения о существующих текстовых источниках и базах данных, которые могут быть использованы при разработке приложений, основанных на технологиях обработки естественного языка. В четвертой части авторы говорят непосредственно о технологиях обработки естественного языка, включенных в медицинскую практику и позволяющих диагностировать эмоциональные состояния пациента, свидетельствующие о его психическом здоровье, на основе порожденного им текстового продукта. В пятой части работы характеризуются автоматизированные аппаратные средства на службе у терапевтов, поддерживающих психическое здоровье пациентов.

Авторы подчеркивают, что исследуют исключительно текстовые материалы - тексты, написанные пользователями упомянутых технологий (как правило, медиками и администраторами, отчасти - пациентами). Обзор включает описание разработок в области систем классификации данных (classification system) применительно к естественному языку: токенизацию, извлечение признаков из письменного текста, отбор и классификацию признаков,

парсинг и машинное обучение (machine learning) - применяемые в разработках опосредованного компьютером взаимодействия с пользователем, связанных с диагностированием и поддержанием психического здоровья человека. В фокусе внимания разработки на основе английского языка.

Под психическим заболеванием авторы статьи понимают психические расстройства, которые влияют на когнитивные функции, эмоциональную и поведенческую сферы, сопровождаемые депрессией, тревожными состояниями, расстройствами питания и навязчивыми состояниями (021, с. 652).

Практические разработки в исследуемой области можно условно распределить на три группы: 1) текстовый уровень (определение специфических эмоций; определение тематических рубрик в области психического здоровья; подсчет степени отклонения от нормы; сортировка / фильтрация соответствующего содержания); 2) уровень продуцента текста (учет взаимосвязи текущего эмоционального состояния пользователя и взаимодействующих с ним пользователей; учет возможности эмоционального «заражения»; определение депрессии у пользователя; прогнозирование послеродовой депрессии; определение дистресса / суицидальных наклонностей пользователей); 3) уровень общих для социума тенденций (подсчет валентности текущего эмоционального состояния; определение специфических эмоций; подсчет уровня депрессивных настроений).

Привычными источниками текстовой информации, на основе которой проводится выявление означенных выше характеристик, являются социальные сети (Twitter, Facebook, Weibo, Mixi) или он-лайн-группы по интересам в виде блогов и форумов (LiveJournal, Reddit, ReachOut). На основе исследования активности пользователей данных социальных медиа было выявлено, что более позитивные эмоции люди испытывают утром, люди ощущают себя более счастливыми в выходные дни, существуют сезонные тенденции в изменениях эмоционального фона, коррелирующие с длительностью светового дня (021, с. 657). Множество исследовательских результатов говорит в поддержку практики использования социальных медиа в качестве источника, позволяющего диагностировать эмоциональное состояние и психическое здоровье пользователей.

В частности, в одном из проанализированных исследований говорится, что у пользователей в состоянии депрессии отмечалась меньшая инициатива в публикации собственных сообщений и меньшая активность при ответе на публикации других пользователей; люди в состоянии депрессии были более склонны отвечать на сообщения поздно ночью; более склонны писать о себе самом и менее склонны писать о других людях; такие люди были менее склонны подписываться на новые странички или приглашать читателей на свою страничку (follow others or gather followers) (021, с. 658). В совокупности с лексиконом, сформированным на основе исследования публикаций людей в состоянии депрессии, демографических характеристик таких людей разрабатываются автоматизированные классификаторы, которые способны с высокой долей вероятности различать аккаунты пользователей в состоянии депрессии.

Маркерами смены эмоционального состояния, в частности знака эмоции (позитивная, нейтральная, негативная) могут служить также параметры геолокации (местоположения пользователя в момент публикации сообщения), социально-демографические характеристики пользователей (возраст, пол, этническая принадлежность, уровень дохода, уровень образования), поведенческие особенности пользователей (например, количество публикуемых в день сообщений, время публикации, длина сообщения, склонны ли они к инициации сообщений или к ответным сообщениям), социальные предпочтения пользователей (количество друзей, динамика общения с ними), персональные характеристики пользователей (частота смены статуса, качественные изменения в наименованиях статуса).

В обзоре приводится следующая компьютерно-опосредованная таксономия взаимодействия «клиент / пациент - (психотерапевт» (021, с. 670-676).

1. Веб-сайты, на которых пользователь может получить информацию обучающего характера в отношении интересующего заболевания (psycho-educational websites), имеют позитивные результаты в области лечения депрессии и тревожности, нарушения питания, злоупотребления алкоголем и табакокурения. Эти сайты предоставляют автоматически генерируемую персонифицированную текстовую информацию на основе пользовательского запроса

или поведения пользователя на сайте. Информация в такого рода системах является однонаправленной (от системы к пользователю).

2. Интерактивные самонастраиваемые системы (interactive self-guided interventions) позволяют пользователю получить пошаговые текстовые инструкции в онлайн-режиме, они функционируют на базе веб-сайта, мобильного приложения или реализуются посредством SMS, взаимодействие происходит между пользователем и автоматизированной системой, включающей в себя базу знаний по предмету коммуникации. Положительные результаты применения подобных разработок обнаруживаются в области лечения депрессии и когнитивных расстройств, что называется «не выходя из дома». Авторы описывают преимущества и ограничения подобных разработок.

3. Интернет-опосредованное терапевтическое сопровождение пользователя и психологическое консультирование (online counseling and psychotherapy - e-therapy) предполагает синхронное (чат или видео-конференция посредством, например, Skype, др. систем обмена сообщениями (мессенджеров)) или асинхронное (e-mail, общение на форумах) взаимодействие между терапевтом и пациентом.

4. Общение с пользователями специализированных блогов и форумов (online support groups and talks) помогает найти людей со схожими затруднениями, рассказывать им о своих переживаниях, обмениваться информацией, специальные мессенджеры с функцией автоматизированного модерирования поддерживают терапевтический настрой обсуждения, дополняя его информацией по теме обсуждения.

В качестве перспектив для дальнейших исследований авторы выделают следующие направления: 1) исследования на материале других языков (не английского) с целью определения степени влияния культурологических особенностей в рамках различных лингвокультур на результативность разработок в исследуемой области; 2) разработки систем сортировки данных в режиме реального времени с реальными пользователями (отмечается, что большинство проанализированных исследовательских работ проведены в режиме офлайн, а сформулированные на их основе диагнозы не использовались в работе с реальными пациентами, т.е. носили чисто исследовательский характер).

В работе (022) Роберт Дейл описывает актуальные разработки на базе технологий обработки естественного языка, заявленные

коммерческими компаниями в 2016 г. Отмечается, что именно в последнее время коммерциализация этой сферы исследований стала значительно более ощутимой, несмотря на то что первые шаги были предприняты еще 35 лет назад.

Со ссылкой на исследование Т. Джонсона1 (1984), в котором определены основные категории рынка технологий на основе обработки естественного языка (см. табл. 1), автор отмечает, что в настоящее время первая, вторая и третья категории трансформировались в категорию «диалоговые системы» (Conversational Systems); четвертая расширилась до «анализа текста» (Text Analytics); пятая реализуется в техниках проверки грамматики (grammar checking); шестая осталась в неизменном виде; седьмая стала дополнением продуктов, предназначенных для распознавания речи, встроенных в ведущие операционные системы.

Таблица 1

Категории технологий на базе обработки естественного языка

(022, с. 642)

Категория Определение

1. Интерфейсы баз данных: мейнфреймы и мини-устройства Портативные или интегрированные интерфейсы для СУБД и др. приложений

2. Интерфейсы баз данных: микро-устройства ПК или подобные интерфейсы к программному обеспечению или онлайновым службам

3. Диалоговые интерфейсы Диалоговые интерфейсы для таких комплексных систем, как экспертные системы или приложения типа 1СА1

4. Контекстное сканирование Обработка сообщений или других полуформатированных текстов для принятия решения о действии или перенаправлению

5. Редактирование текста Проверка стиля и грамматики текста, предложение по корректировке текста

6. Машинный перевод Компьютерный перевод текстов с исходного естественного языка на целевой естественный язык

7. Машинопись Транскрипция устной речи в орфографической форме

1 Johnson T. Natural language computing: The commercial applications // The Knowledge Engineering Review. - Cambridge: Cambridge univ. press, 1984. - Vol. 1, Issue 3. - P. 11-23. - Mode of access: https://doi.org/10.1017/S0269888900000588. -Прим. реф.

Аналитическая группа «Gartner»1 рассматривает диалоговые системы как один из десяти стратегических технологических трендов в 2017 г. и предсказывает, что к 2020 г. обычный пользователь будет коммуницировать с ботами больше, чем со своим супругом (022, с. 643). Под ботами в данном случае имеются в виду чат-боты (chat-bots), которые широко распространены в Интернете и являются специализированными цифровыми помощниками (specialized digital assistants). Это интерактивные приложения, решающие конкретную задачу наподобие заказа цветов или отслеживания изменений на табло прилетов и вылетов в аэропорту (022, с. 643). Современные чат-боты создаются, как правило, на основе платформ обмена текстовой информацией в противовес системам, основанным на телефонии и коммуникации только по аудиоканалу.

Основными игроками на рынке машинного перевода являются провайдеры переводческих услуг, чья функция гораздо шире, чем просто осуществление машинного перевода. Такие компании предоставляют комплекс услуг по локализации2 различных продуктов и другие переводческие услуги, требующие перевод на высоком качественном уровне. Таким образом, весомой составляющей данного сектора экономики являются технологии автоматизации перевода, поддержки и постредактирования. Автор отмечает, что до сих пор результаты автоматизированного машинного перевода значительно отличаются от результатов машинного перевода, сопровождающегося пред- и постредактированием реальным переводчиком.

Технологии анализа текста предназначены для извлечения значимой смысловой информации из текста (официальных документов, электронных писем, коротких сообщений в виде твитов или смс). Типичный функционал таких систем включает распозна-

1 Gartner. Top strategic predictions for 2017 and beyond: Surviving the storm winds of digital disruption. - 14 October 2016. - Mode of access: https://www. gart ner.com/binaries/content/assets/events/keywords/cio/ciode5/top_strategic_predictions_f o_315910.pdf. - Прим. реф.

Локализация продукта (программного обеспечения, технического устройства, кинофильма и т.д.) - процесс адаптации продукта к культуре какой-либо страны, в частности перевод текстовой части пользовательского интерфейса, документации и сопутствующих файлов с языка оригинала на язык потребителя. -Прим. реф.

вание сущностей, извлечение понятий, классификацию текста, анализ тональности текста, реферирование текста, а иногда и извлечение и разбор семантических связей, а также парсинг (022, с. 645). Автор отмечает, что в настоящее время каждая крупная IT-компания имеет свою систему анализа текста. Общим трендом является включение программного обеспечения по анализу текста в состав более крупного программного продукта. При этом автор констатирует, что за последние несколько лет особых достижений в этой области не было получено (022, с. 646).

Наиболее стагнирующей категорией автор считает область редактирования текста, которая охватывает технологии проверки грамматики и правописания, корректировки стилистики текста.

Автор делает вывод, что основным предметом интереса коммерческих организаций по-прежнему остаются чат-боты; разработки в области машинного перевода получили новый импульс в виде разработок машинного перевода на основе нейронных сетей (NMT) в крупных компаниях типа Google, Microsoft Translator, Systran.

КОММУНИКАЦИЯ. ДИСКУРС. РЕЧЕВЫЕ ЖАНРЫ

2018.03.023. ЧЕРНЯВСКАЯ В.Е. НАУЧНЫЙ ДИСКУРС: Выдвижение результата как коммуникативная и языковая проблема. - М.: Ленанд, 2017. - 144 с. - Библиогр.: с. 125-139.

Ключевые слова: научная коммуникация; научная публикация, выдвижение результата; эпистемический контекст; научное позиционирование; стиль научного мышления.

Валерия Евгеньевна Чернявская - д-р филол. наук, профессор Санкт-Петербургского политехнического университета Петра Великого.

Монография В.Е. Чернявской посвящена научной коммуникации как сложной коммуникативно-речевой деятельности, в которой ключевое значение имеет стратегия позиционирования нового научного знания. Рассматривается комплекс факторов, влияющих на восприятие и оценку авторского результата в современном информационном обществе, объясняется существенная роль языкового аспекта как фактора, способствующего / препятствующего успешному представлению результата научному сообществу. В книге

i Надоели баннеры? Вы всегда можете отключить рекламу.