УДК 004
Куликова Надежда Романовна Kulikova Nadezhda Romanovna
Выпускник Graduate
Российская академия народного хозяйства и государственной службы при Президенте
Российской Федерации
The Russian Presidential Academy of National Economy and Public Administration under the
President of the Russian Federation
АВТОМАТИЧЕСКАЯ ГЕНЕРАЦИЯ ТЕКСТА (НА ПРИМЕРЕ НОВОСТИ ФИГУРНОГО КАТАНИЯ)
AUTOMATED TEXT GENERATION (ON THE FIGURE SKATING NEWS EXAMPLE)
Аннотация. Генерация текста на естественном языке (ГЕЯ) - одна из задач компьютерной лингвистики, решение которой имеет теоретический прикладной характер. В частности, синтез текста на естественном языке применяется в роботизированной журналистике. В статье представлен обзор методов ГЕЯ и автоматическое извлечение информации на примере новостной заметки на тему фигурного катания.
Abstract. Natural language text generation (NLG) is one of the computer linguistics tasks, the solution of which has a theoretical applied character. Particularly, natural language text synthesis is used in robotic journalism. The article provides an overview of the methods of NLG and the automatic information extraction on the of figure skating news example.
Ключевые слова: роботизированная журналистика, компьютерная лингвистика, генерация текста на естественном языке, спортивные новости
Key words: automated journalism, computational linguistics, Natural language text generation, sports news.
Компьютерная лингвистика как область научного знания.
Развитие интернета и возрастание количества текстовой информации повлияли на интенсивность развития таких областей научного знания, как автоматическая обработка текстов (Natural Language Processing) и компьютерная лингвистика (Computational Linguistics).
64
Область исследований компьютерной лингвистики междисциплинарна: она возникла на стыке математики, компьютерных наук (Computer Science), лингвистики и искусственного интеллекта (Artificial Intelligence). Начало компьютерной лингвистике положили исследования лингвиста Ноама Хомского. Американский учёный занимался экспериментами с машинным переводом, формализацией структуры естественного языка и разработкой программ по его пониманию.
Объект обработки компьютерной лингвистики - тексты естественного языка. Именно поэтому её развитие невозможно без базовых знаний в области языкознания - науки, включающей в себя следующие разделы:
- фонетика - раздел лингвистики, изучающий звуковой состав языка;
- морфология, основные объект изучения которой - слова естественных языков, их значимые части и морфологические признаки;
- синтаксис - раздел языкознания, который изучает строение и взаимодействие частей речи в синтаксических единицах (предложениях, словосочетаниях и ССЦ);
- семантика, изучающая смысл языковых единиц;
- лексикография, описывающая лексикон естественного языка.
Компьютерная лингвистика занимается созданием языковых корпусов,
электронных словарей, тезаурусов, онтологий экспертных и вопросо-ответных систем, автоматическим переводом текстов, извлечением информации, автореферированием, автоматическим распознаванием символов и речи. Одно из наиболее актуальных направлений - автоматическая генерация языка и извлечение информации, которые, в частности, нашли свое применение в роботизированной журналистике. [1]
Алгоритмическая обработка в журналистике.
Применение методов генерации текста на естественном языке используется преимущественно в информационном жанре, который включает в себя новостную заметку, интервью, беседу, реплику, комментарий, репортаж и
отчет. Роботизированные системы по созданию журналистских материалов медиа уже давно используют в своей ежедневной практике: роботы-журналисты участвуют в создании контента в Associated Press, The New York Times, The Guardian, Forbes, Los Angeles Times и BBC. Они занимаются генераций новостных заметок на темы, легко поддающиеся формализации: финансы, спорт, погода, автомобильные заторы и криминальные хроники. Так, информационное агентство Associated Press использует разработанную компанией Automated Insights (AI) платформу Wordsmith для написания новостных заметок о бизнес-процессах. Используемая агентством роботизированная система в 2015 году была способна выпускать 3000 заметок в течение 20 минут, спустя год производительность достигла 2000 заметок в секунду. [3]
Роботизированная журналистика - это, прежде всего, алгоритмическая обработка программами-роботами семантических связей между единицами текста, которая также включает в себя автоматическую генерацию медиатекстов. «Narrative Science» - один из самых первых алгоритмов для написания текстов, который стал использоваться средствами массовой информации. Он использовался для экономических отчётов «Forbes», описывающих перспективы корпораций. Эта система обработки Big Data, разработанная в 2010 году одноименной американской фирмой «Narrative Science», предназначалась для создания медиатекстов на тему спорта. Цель первого публичного тестирования алгоритма - подготовка текста по итогам бейсбольного матча университетского уровня. В самую первую версию алгоритма данные вносили сами разработчики, однако спустя несколько лет алгоритм усовершенствовали: на текущий момент он может структурировать материал по абзацам, параграфам и страницам, варьировать лексикон, стиль речи и уровень статистической детализации. [5]
Алгоритмы различают по уровню их сложности. К простым относится программы, работа которых основана на типовых сценариях. Она извлекает
информацию в числовом формате из баз данных и заполняет ей поля в шаблонах.
66
Однако, существуют и более сложные шаблонные системы, которые дополнительно проводят лингвистическую обработку полученного результата, что позволяет задавать дополнительные грамматические параметры, а также комбинировать шаблонные фразы в текст благодаря использованию определенных лексических и грамматических знаний о ЕЯ. Использующий смысловые корреляции между массивом Big Data и нарративными текстами естественного языка алгоритмически наиболее сложный класс программ, который нашел применение, в частности, в области спортивной журналистики. [2]
Преимущества применения алгоритма в создании журналистских материалов:
Стоимость. Применение алгоритма в стоимостном отношении обходится средствам массовой информации дешевле и позволяет направлять ресурсы авторов на создание уникальных, художественных и глубоко осмысленных материалов;
Скорость. Алгоритмы обученные и настроенные определенным образом выполняют работу быстрее журналиста, допускают меньшее количество ошибок;
Количество. С помощью алгоритмов можно генерировать медиаконтент о схожих событиях без ограничений - журналист предоставляет лишь разовые материалы;
Качество. Написанные алгоритмом материалы неотличимы от новостей, авторам которых выступает человек;
Многоязычность. Международные редакции способны готовить мультиязыковые новости для различной аудитории благодаря готовым решениям в сфере роботизированной журналистики.
Автоматическая генерация новостной заметки на тему фигурного катания
После Олимпиады в Сочи, которая прошла в 2014 году, в России
значительно возрос интерес к фигурному катанию. Об этом свидетельствуют
данные детско-юношеских спортивных школ, которые вынуждены строить
67
новые спортивные центры и открывать дополнительные группы для удовлетворения потребностей населения и обеспечения местами детей в секциях. Кроме того, о повышенном внимании к фигурному катанию говорит и изменения количества контента в средствах массовой информации: в общественно-политических медиа появляются отдельные рубрики и открываются новые специализированные издания. Для создания программы-генератора, порождающей новости фигурного катания, необходимо выбрать технологию обработки данных об изменениях в этом виде спорта; ознакомиться с особенностями с новостями фигурного катания, определить их основные коммуникативные типы, на основании которых будут разрабатываться шаблоны.
Генерация новостей фигурного катания.
Цикл работы алгоритма состоит из пяти базовых шагов, которые мы рассмотрим на примере фигурного катания. Извлечение данных (Information Extraction - IE) и их накопление - основная функция первого шага, которая относится к информационному поиску (Information Retrieval - IR). Тем не менее, извлечение данных имеет ряд принципиальных особенностей, которые отличает его от машинного поиска, выдающего пользователю на выходе ранжированный список сниппетов. IE представляет структурированные данные, извлеченные из текстовых коллекций. Таким образом, Information Extraction - автоматическое извлечение релевантной информации из неструктурированных текстов без разметки и метаданных.
Извлеченные данные структурируются с помощью тегов XML, а в более сложных случаях преобразуются и сохраняются в формализованном виде (реляционные базы данных, таблицы). Данные после структурной обработки передаются с помощью OLAP (Data Mining) или визуализируются в виде семантических сетей. [6].
Для генерации новости фигурного катания в качестве извлекаемых из текстов данных выступают:
значимый объект: имя персоналии (фигурист, тренер, чиновник), название спортивной школы, название элементов;
атрибуты объекта, дающие дополнительную характеристику. Например, для фигуриста это спортивные звания, вид, имена тренеров и хореографов;
отношение между объектами: отношение «представлять» связывает спортсмена и страну, а «быть частью» соединяет фигуриста и спортивную школу;
событие/факт связывает несколько объектов. Например, событие «стартует Чемпионат России» включает участников соревнований, а также место и время проведения.
В соответствии с видами извлекаемой информации общая задача извлечения информации из текстов включает следующие основные подзадачи: Распознавание и извлечение именованных сущностей (named entities): Евгения Медведева, Москва, «Самбо-70»;
Выделение атрибутов (attributes) объектов и семантических отношений (relations) между ними: даты рождения спортсмена, отношения «тренироваться в» и тому подобное; извлечение фактов и событий (events), охватывающих несколько атрибутов. Например, событие «контрольные прокаты» с атрибутами дата, время и место.
Существует два основных подхода, используемых для решения задач распознавания и извлечения информации из текстов. Первый, инженерный, основан на правилах (rule-based), второй, - на машинном обучении (machine learning). Инженерный подход опирается на то, что извлекаемые данные употребляются в определенных языковых конструкциях. Например, имена пишутся с большой буквы. Лингвистическая информация подобного рода вручную описывается в виде формальных шаблонов распознаваемых конструкций и правил их обработки. Основанный на машинном обучении подход использует методы обучения с учителем (supervised), методы обучения без учителя (unsupervised), методы частичного обучения с учителем
(bootstrapping). Наиболее часто применяются supervised-метод. Он
69
подразумевает построение математической и программной модели, которая умеет классифицировать данные и находить искомые. Подобный машинный классификатор строится на размеченном вручную текстовом корпусе, в которым объектам, атрибутам и отношениям приписывают метки. Для вышеприведенного примера при извлечении имен признаками выступают: регистр первой буквы слова и конкретные слова, стоящие перед ним (фигурист, спортсмен, атлет). Таким образом, суть обучения - выявление на основании частных данных общих закономерностей и зависимостей.
Для автоматической генерации новости фигурного катания при извлечении данных могут использоваться различные источники и виды информации. Библиографическая информация может использоваться для описания действующего лица информационного повода, для конкретизации, уточнения и сравнения результатов. Данные о спортсмене, его школе, тренерах, хореографе и результатах сезона можно извлекать из открытых источников (Fskate.ru, КЦ, wikipedia.org). Официальные документы, к которым относятся протоколы соревнований, указы, приказы, регламенты, листки заявленного контента, расписание и порядок выступления спортсменов. Архивные новостные данные используется для создания отсылок и написания бэкграундов.
На втором шаге применяются статистические методы для выявления наиболее важных и интересных событий. Затем отобранные информационные поводы классифицируются и расстанавливаются по приоритетам по заранее заданной системе критериев для оценки важности события - всё это входит в функционал третьего шага.
На четвертом шаге автоматически генерируется новостная заметка на
основе заданных параметров. Генерация на естественном языке (ГЕЯ) -
направление научных исследований, которое занимается созданием
компьютерных систем по производству текстов на естественном языке для
удовлетворения коммуникативных целей. В современном научном сообществе
ГЕЯ - часть направления обработки естественного языка, цель которого -
автоматическое создание текстов на естественном языке на основе информации
70
в машинном виде, представленной в виде баз знаний и логически представленных форм. Для автоматической генерации осмысленной речи используется инструментарий, который включает в себя реляционные базы, теорию графов и метод резолюций, методы онтологии и многомерного представления данных, лингвистической классификации, реляционные базы данных и порождающие грамматики.
Последний шаг - автоматическая публикация новости через издательскую систему управления.
Схема генерации новостной заметки фигурного катания
Новостная заметка - жанр журналистского творчества, имеющий своей целью оперативное информационное сообщение, которое представляет общественный интерес. Объект заметки - ранее неизвестное для аудитории событие, при описании которого необходимо дать ответы на следующие вопросы: кто, что, где и когда. [4] Структура заметки включает заголовок, лид, основную часть и бэкграунд.
Основными информационными поводами в фигурном катании, которые будут служить для создания новостной заметки, являются:
Соревнования
Дата, время и место («Чемпионат мира по фигурному катанию стартует в японской Сайтаме»);
Расписание и трансляции («Первый канал покажет командный чемпионат мира по фигурному катанию»);
Состав («Лазукин заменит Коляду на командном чемпионате мира по фигурному катанию»);
Инновации («На ЧМ по фигурному катанию в Японии может быть представлена система помощи в оценке прыжков»);
Результаты соревнований;
Интервью (Алексей Ягудин: «Загитова уже не повторила путь Липницкой и Сотниковой. Те были одногодками, а Алина держится уже два года»);
Новости из социальных сетей спортсменов («Медведева играет в боулинг, Боброва готовится к родам. Главное из соцсетей фигуристов»);
Общеотраслевые новости.
Изменение правил («Правилафигурного катания изменили после победы Загитовой»);
Изменение регламента соревнований («Выжать и выбросить. Почему чемпионку Загитову хотят сделать вне закона»);
Рейтинги («Алина Загитова возглавила рейтинг ISU среди девушек»);
Заключение рекламных контрактов («Спонсор Трусовой - Adidas»).
Основную сложность при автоматической генерации представляет заметка с результатами событий ввиду необходимости использовать множество источников для сбора данных. Атрибутами для типа события «результаты» являются: название турнира, время и место проведения, распределение мест и баллы, общая таблица с результатами. Для описания события используются альтернативные шаблоны фраз, которые выбираются в зависимости от ситуации и в соответствии с атрибутами. Такое множество фраз хранится в базе шаблонов. Шаблон представляет собой фиксированные фрагменты текста и полей, которые заполняются конкретными значениями после извлечения информации из массива данных. Наличие альтернативных шаблонов способствует генерации разнообразных текстов.
Для создания заголовка в случае победы российского спортсмена могут использоваться следующие шаблоны:
«athlete_name (Им. п.) выйграл(а) competition_name (Им. п.)»;
«athlete_name (Им. п.) - победитель competition_name (Р. п.)»;
«С результатом score athlete_name (Им.п.) становится победителем competition_name (Р. п.)»;
Здесь athlete_name (именное поле) - имя спортсмена, competition_name (именное поле)- название турнира, а score (числовое поле) - полученные баллы, Им. п. - именительный падеж, Р. п. - родительный падеж.
Шаблоны для генерации лида новостной заметки:
72
«На competition_name (П. п.), который проходил в place (Т. п.) c start
date по end date, athlete_name (Им. п.) завоевал(а) золотую медаль. Итоговая сумма баллов - score.»
«athlete_name (Им. п.) стал(а) победителем/победительницей competition_name (Р. п.), который проходил в place (Т. п.) c start date по end date, athlete_name (Им. п.). score - сумма баллов, которая принесла атлету золотую медаль.»
«С результатом в scoreathlete_name (Им. п.) стал/стала победителем/победительницей competition_name (Р. п.). На турнире, который проходил в place (Т. п.) c start date по end date^^ra по сумме двух программ обошла athlete_name (2nd) (Р. п.) и athlete_name (3rd) (Р. п.).»
Машинное обучение для извлечения данных.
Чтобы сделать новостную заметку информативной, в неё можно включать детали выступления фигуриста. С помощью автоматического извлечения данных из официальных протоколов ISU можно отметить, какие элементы были выполнены с ошибкой, на каких произошло падение. Так, знак «<» означает, что прыжок недокручен на а знак «<<» говорит о том, что недокрут составил 180 градусов. Эта ошибка влияет не только на базовую стоимость прыжка (base value), но и на надбавку за качество выполнения элемента GOE (grade of execution). На основании показателя «deduction» можно узнать количество падений, допущенных во время исполнения элемента. Знак «!» в протоколе проката означает неверное ребро на прыжке - это сказывается на баллах категории GOE.
Таким образом, новостная заметка будет содержать в себе не только информацию о результатах с указанием баллов, но и описывать происходившее на льду на основании протоколов.
Библиографический список:
1. Автоматическая обработка текстов на естественном языке и анализ данных : учеб. пособие / Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С. — М.: Изд-во НИУ ВШЭ, 2017. — 269 с.
2. Личаргин Д.В. Методы генерации предложений естественного языка на основе леса данных естественного языка - Вестник Сибирского государственного аэрокосмического университета, № 3, 2012. - 8 стр.
3. Замков А.В., Крашенинникова М.А., Лукина М.М., Цынарёва Н.А. Роботизированная журналистика: от научного дискурса к журналистскому образованию // Медиаскоп. 2017. Вып. 2. Режим доступа: http://www.mediascope.ru/2295.
4. Тертычный А.А., Жанры периодической печати // М.: Аспект Пресс, 2006. — 312 а
5. Иванов А.Д., Роботизированная журналистика и первые алгоритмы на службе редакций международных СМИ // Знак: проблемное поле медиаобразования, 2015.
6. Воронцов К. В., Потапенко А. А. Модификации ЕМ-алгоритма для вероятностного тематического моделирования // Машинное обучение и анализ данных. — 2013. — Т. 1, № 6.— С. 657-686.