Научная статья на тему 'Искусственные нейронные сети как особый тип distant reading'

Искусственные нейронные сети как особый тип distant reading Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
526
80
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИСКУССТВЕННЫЕ НЕЙРОННЫЕ СЕТИ / СТИЛЬ / СТИЛЕМЕТРИЯ / DISTANT READING / ARTIFICIAL NEURAL NETWORKS / STYLE / STYLOMETRIA

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Орехов Борис Валерьевич

В статье рассматривается феномен художественных текстов, порожденных искусственными нейронными сетями на основе обучающей выборки. У такого рода текстов есть свои технические аспекты и культурно-интеллектуальный контекст. Технические особенности требуют, чтобы в качестве тренировочных текстов выступал большой массив данных. С большими объемами современное литературоведение работает в парадигме distant reading, предполагающей создание моделей, отражающих значимые характеристики исходных текстов. В текстах, порождаемых нейронными сетями также воспроизводятся стилистические особенности обучающего корпуса, так что сгенерированные тексты также можно рассматривать как синтетическую модель исходной выборки. В философском смысле работа с такими произведениями является деконструкцией поэзии и пересборкой самого понятия поэтического.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Орехов Борис Валерьевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ARTIFICIAL NEURAL NETWORKS AS A SPECIAL TYPE OF DISTANT READING

The article deals with the generation of poetic texts with artificial neural networks. The author gives a brief history of the method. The article describes some important properties of the training sample. For example the sample needs to be large enough. The article gives some examples of Russian poetic texts, generated by a neural network. The texts generated by the model trained on Russian hexameters, on poems of a modern poet Natalia Azarova and on texts of classic Russian bard Vladimir Vysotsky. The analysis showed that the neural network reproduces the style and metrical features of the original sample. The style of the lyrical texts reproduced better than any other type of text. A neural network is practically unable to reproduce the features of narrative works. In the cultural and intellectual context, the texts of the neural network can be understood as deconstruction (Derrida) and reassembling (Latour).

Текст научной работы на тему «Искусственные нейронные сети как особый тип distant reading»

УДК 82 Б. В. Орехов

ИСКУССТВЕННЫЕ НЕЙРОННЫЕ СЕТИ КАК ОСОБЫЙ ТИП DISTANT READING

В статье рассматривается феномен художественных текстов, порожденных искусственными нейронными сетями на основе обучающей выборки. У такого рода текстов есть свои технические аспекты и культурно-интеллектуальный контекст. Технические особенности требуют, чтобы в качестве тренировочных текстов выступал большой массив данных. С большими объемами современное литературоведение работает в парадигме distant reading, предполагающей создание моделей, отражающих значимые характеристики исходных текстов. В текстах, порождаемых нейронными сетями также воспроизводятся стилистические особенности обучающего корпуса, так что сгенерированные тексты также можно рассматривать как синтетическую модель исходной выборки. В философском смысле работа с такими произведениями является деконструкцией поэзии и пересборкой самого понятия поэтического.

Ключевые слова: искусственные нейронные сети, стиль, стилеметрия, distant reading.

Искусственные нейронные сети как математическая модель появились ещё в 1940-х годах. Именно тогда возникла концепция отдельных функций-нейронов, связанных между собой по принципу, воспроизводящему связи клеток биологического мозга [29]. Нейронные сети стали одним из подходов так называемого «машинного обучения», комплекса методов, позволяющих благодаря применению статистики находить такие математические функции, которые бы максимально близко к действительности описывали тенденции в некотором исходном материале, называемом «обучающей выборкой». Если найти такие функции, то можно было бы предсказать, какие значения примут важные для нас параметры в неизвестном материале. Например, машинное обучение позволяет проанализировать данные о землетрясениях и на основе этого анализа сделать прогноз о том, где и когда произойдёт следующее землетрясение, какой оно будет силы, какими разрушениями будет сопровождаться. Подобные работы появляются сейчас и на материале художественных произведений. Так, группа специалистов по анализу данных постаралась предсказать, в какой последовательности будут умирать

Орехов Борис Валерьевич — кандидат филологических наук, доцент Школы лингвистики (Национальный исследовательский университет «Высшая школа экономики», Москва); e-mail: nevmenandr@gmail.com.

© Орехов. Б. В., 2017

32

персонажи серии романов Дж. Р. Р. Мартина «Песнь льда и пламени» [18]. Так как при создании таких моделей обычно нужно учесть множество значений множества факторов, ручные вычисления были бы малоэффективны, и практически единственным способом достичь результата является использование компьютеров. Отсюда происходит название — машинное обучение.

Нейронные сети отличаются от других методов машинного обучения тем, что перед созданием модели, аналитик не выбирает вручную важные для этой модели параметры (признаки), сеть делает это самостоятельно, причём обычно не так, как ту же операцию выполнил бы эксперт-человек. Такой подход неявным образом связан с созданием многослойных сетей, вызвавших к жизни то, что называется «глубоким» (или «глубинным») обучением (deep learning) [25], это наименее интуитивно понятный для человека, то есть наименее «объясняемый» метод; иными словами когда модель уже построена, специалист вряд ли сможет разобраться, как она устроена и почему даёт хороший результат. Противоположная ситуация наблюдается для такого алгоритма, как «деревья принятия решений» [17]: аналитик сможет легко разобраться, благодаря каким значениям каких признаков модель предсказывает значения для неизвестных данных.

Практическое применение нейронных сетей за прошедшие десятилетия ограничивалось как сложностями алгоритмического характера [10], так и недостатком вычислительных мощностей компьютеров второй половины XX века. Как было установлено уже давно [16], нейронные сети среди других алгоритмов машинного обучения особенно чувствительны к двум факторам: вычислительным возможностям (решение задачи требует быстрого процессора, иначе создание сети нельзя будет выполнить за разумное время) и размеру обучающей выборки (чем больше будет исходных данных, тем лучше они будут описаны).

В последние годы нейронные сети переживают расцвет, обусловленный тем что, во-первых, на теоретическом уровне удалось решить ряд принципиальных проблем, не позволявших сделать обучение эффективным [20]; во-вторых, существенно (главным образом, благодаря прогрессу в области создания графических процессоров) выросли доступные вычислительные мощности компьютеров; в-третьих, вырос объём доступных для тренировки сетей данных. В настоящий момент с рядом задач распознавания образов нейронные сети справляются лучше, чем человек [19].

Помимо решения аналитических задач (классификация объектов) нейронные сети способны и осуществлять синтез. Широкую известность приобрело основанное на технологии нейронных сетей приложение Prisma, модифицирующее пользовательскую фотографию таким образом, чтобы она воспроизводила индивидуальную манеру мастеров жи-

33

вописи прошлого. Если пользоваться таксономией и терминологией М. Л. Гаспарова [5], можно сказать, что нейронные сети как один из подходов в рамках концепции искусственного интеллекта способны воспроизводить и научный анализ, и творческий синтез, свойственные интеллекту естественному.

В плоскости языкового материала таким синтезом становится порождение речевых произведений. Для этого используется особый тип нейронных сетей — многослойные рекуррентные сети [21], способные не просто классифицировать объекты, но и запоминать последовательность, в которой они поступают на вход классификатора, что особенно важно в случае с текстом, который на всех уровнях организации представляет собой синтагматический, то есть развёрнутый во времени, ряд, благодаря чему литература, имеющая своим материальным воплощением текст, является не пространственным, а временным искусством [8].

В принципе, задача генерации текста имеет вполне практическое применение в таких типах программ как электронные помощники, чат-боты, используемые в голосовом интерфейсе автоматических систем, машинные переводчики, новостные ресурсы, сообщающие об однообразных и легко формализуемых событиях (например, биржевые новости). Однако почти все доступные в открытых источниках примеры реализации нейронных сетей, порождающих тексты на основе обучающей выборки, демонстрируют способность этих сетей создавать тексты на материале именно художественной литературы. Чаще других используются произведения у. Шекспира, см. [22]. В результате получается текстовая продукция такого рода:

LORD POLONIUS:

I'll speak with him, my lord;

And here be for the blood I do believe no eye.

KENT:

I will not take the tyranny on the fields. BRUTUS:

Whereover else then was dangerously well? HAMLET:

What makes you not my head?

SECOND MURDERER:

Her body, marry, you have been mad and

tender to the ruther of our deserts that he died,

Your steel and day, by her own hope; God pro the cause,

Where kept contrary army in each outward price

And might prepare to-day. [23]

34

В отношениях этого текста с обучающей выборкой (в качестве таковой выступали реальные тексты Шекспира) много неинтуитивного. Во-первых, нейронная сеть обучаясь, рассматривает в качестве входной последовательности цепочку букв исходного текста. Филологическая теория и опыт учат, что текст складывается из значимых сегментов, слов или морфем, а буквы в тексте распределены если не случайно, то, по крайней мере, подчинённым по отношению к уровням высшего порядка образом. Тем не менее, приведённый выше текст кажется составленным из слов естественного языка и даже вполне грамматичным. Иными словами, одно только обработанное алгоритмами обучения нейронной сети распределение букв в тексте без дополнительных сведений о словаре и грамматике способно воссоздать правильный текст на естественном языке. Во-вторых, в квазишекспировском тексте воспроизведено деление на реплики персонажей и стихотворная форма. Менее верифицируемо, но, как кажется, не слишком спорно и воспроизводство самой речевой стилистики Шекспира. Опять-таки шаг от простого распределения букв в тексте до плохо формализуемого уровня стиля не так-то просто осмыслить. В любом случае, искать дифференциальные признаки стиля до сих пор было принято, в основном, в сфере лексики и грамматики [13]. На уровне букв внимание сосредотачивалось только в том случае, если автор допускал явную языковую игру, затрагивающую звуковой и графический уровни (см., например, [15]). Успехи нейронных сетей, воспроизводящих в своей текстовой продукции не только слова и конструкции естественного языка, но и стилистические особенности произведений, включённых в обучающую выборку, должны заставить по-новому переосмыслить проблему распознавания стиля.

Узнаваемая стилистическая близость сгенерированного и естественного текста создает для читателя эффект сходства «автоматического» произведения и пародии. Действительно, пародия тоже по своей природе вторичный жанр, он воспроизводит некоторый исходный материал настолько, насколько это необходимо для узнавания читателем [14], при этом полностью заменяя коммуникативный посыл. В порождённом нейронной сетью тексте также узнаваемы основные стилистические особенности оригинала, а сообщение по сравнению с ним радикально изменено, так как отсутствует само коммуникативное намерение, отсутствует сам субъект высказывания. При этом обращающие на себя внимание языковые нарушения получившегося текста создают необязательный для пародии, но довольно частый в этом жанре смеховой эффект [2].

Особенное значение инструмент нейронных сетей приобретает в контексте distant reading.

Distant reading — это введённый Ф. Моретти рамочный термин для серии исследовательских процедур, позволяющих анализировать тенденции, организующие одновременно множество художественных

35

текстов [27]. Общая стратегия, объединяющая разные методы под общим названием distant reading в том, чтобы извлечь из необозримого для человека числа текстов релевантную информацию и представить её в обозримом и удобном исследователю виде (например, визуализированном).

В русской традиции пока нет устоявшегося эквивалента этого термина, что обусловлено невоспроизводимостью по-русски той оппозиции distant — close reading («медленное чтение»), которая лежит в основе английской номинации. Русский термин «медленное чтение» требует иной метафоры-антонима (*«быстрое чтение»), в которой исчезла бы идея дистанции, которую соблюдает исследователь по отношению к своему объекту, идея подкрепляемая афористичным «большое видится на расстоянии». Переводчики книги Ф. Моретти на русский предпочли вариант «дальнее чтение» [11], сохранив семантику дистанции, но утратив оппозицию с «медленным чтением», традиционным филологическим методом обращения с текстом. На наш взгляд, более удачным вариантом был бы перевод «отвлечённое чтение», воспроизводящий и оппозицию «медленному», то есть внимательному чтению, и идею дистанции исследователя и материала.

Как мы уже упоминали, нейронные сети чувствительны к размеру обучающей выборки, то есть чем больше будет объём исходных данных, тем лучше получится результат. Обширность текстового материала в distant reading откликается и в по необходимости обширности обучающей выборки при построении нейронной сети. Для того, чтобы получающийся при генерации текст был похож на созданный человеком, в исходном материале должно быть достаточно данных для построения корректной модели распределения букв. Минимальным достаточным объёмом в данном случае считается 1 млн символов в тренировочном наборе [24], но хорошего (в достаточной степени соответствующего естественному) результата можно добиться, если обучать сеть на тексте, общим объёмом от 30—40 млн символов, который редко может быть результатом труда одного автора, и чаще складывается из текстовой продукции множества людей.

Таким образом, сеть должна обучаться на большой выборке, сравнимой с объектом distant reading. При этом порождаемый на основе этой модели текст может быть какого угодно объёма. Если нейронная сеть сгенерирует небольшой текст на больших исходных данных, и этот текст будет нести на себе стилистические особенности оригинала, то у исследователя появится возможность применить к получившемуся произведению инструментарий медленного чтения. То, что эти две стратегии должны не противопоставляться, а дополнять друг друга, ясно и эксплицировано давно: «чтобы делать что-то в области отвлеченного чтения, нужно хорошо освоить медленное чтение» [28], но именно благодаря нейронной сети мы получаем прозрачную возможность их со-

36

единить в рамках одного исследования. Если И. Бродский считал поэзию концентрированной формой литературы [3, с. 83], то продукция нейронной сети может быть концентрированной формой представления поэзии одного жанра или периода.

Вот пример текста, порождённого двуслойной нейронной сетью на 512 нейронов, натренированной на корпусе русских переводов античных гекзаметров (Гомер, Гесиод, Овидий, Вергилий и т. д.) объёмом 5.351.336 символов (106.321 поэтическая строка):

Силу, к голубке хитон отличась, Гиоклей благородный.

На Ликеи веселие слово кружает другого,

Слишком попал бы и все повреждает она одиноко

И возливаешь они рассудить — городские, проделать

Кровью вкусили два дочь. На корабль он твухте твоей силы!

Прежде всего, обращает на себя внимание исправное воспроизведение гекзаметрического метра. Нейронная сеть обучается имитировать не только лексику и грамматику естественного текста, но и его метрическую схему, в данном случае основной стилистический признак. Кроме того, в цитированном фрагменте воспроизведены и другие стилевые особенности, как, например, постоянный эпитет «благородный» в постпозиции имени собственного. Одновременно с этим сеть породила и несуществующие слова: «кружать», «твухта», которые с точки зрения модели вероятны. Ранее, до применения нейронных сетей, компьютерные тексты порождались комбинированием уже существующих слов, и появление таких неологизмов было бы невозможно. Особенного внимания заслуживает слово «Гиоклей», отсутствующее в ономастиконе русского гекзаметра (и вообще в текстах на русском языке), но действительно напоминающее имена античных персонажей: Диоклей, Гипподам, Эгиох, Пелей. Несогласованность («два дочь», «они рассудить») обусловлена недостаточностью размера корпуса, который не способен дать материал сети для предсказания грамматического поведения всех лексем языка.

Ещё одна особенность этого текста — видимая бессмыслица. При относительной грамматической связности и даже кажущейся семантической близости слов этого отрывка, он не формирует сообщения; из сложившегося текста не ясно, что за событие описывается, что конкретно произошло.

Другой пример — тексты, получившиеся на сравнительно малом (и даже недостаточном) корпусе текстов одного автора, однако принципиально иных по коммуникативному заданию. Если гекзаметрические тексты чаще всего представляют собой нарративы, то здесь мы имеем дело с тем, что описывается литературоведением как лирика. Речь идёт о современном поэте Н. М. Азаровой. Приведём её оригинальное стихотворение:

37

бор ёлки в воду бросил

сил держать верхушки нет

кинет дрожашдх в озеро

зеро ребячьей ряби голосов свободно

дно тростником упало навзничь

ничь-я-не-потревожена-от-бором

Москва

21 ноября 2003

[1, с. 236]

Нейронная сеть породила следующий текст:

могу не озеро горизонта

синих глубок луг на бахли на стаю

болтлизись?

слежу ночи кораллов гадаю облаками сэнимальной луна?

Ялта

19 сентября

Алот — это — их - раз - - -

день — страницы — н-за не открывая-сознаний

Москва

9-20 февраля 2004

[12]

Интуитивно представляется, что здесь порождённые тексты выглядят аутентичнее, потому что не рассказывают о событии, а представляют ряд лирических мотивов, которые в современной поэзии могут быть выражены в том числе и с нарушением грамматики. Стоит обратить внимание, что корректно воспроизведённые слова («озеро», «кораллы», «луна») действительно свойственны поэтике Н. М. Азаровой. Кроме того, нейронная сеть, по всей видимости, аутентично смоделировала распределение букв, создающее характерные для стихов Н. М. Азаровой звуковые эффекты, что подкрепляет интуитивное впечатление соответствия.

Приведём менее удачный пример продукции нейронной сети, натренированной на корпусе одного автора:

Песня Вопилась Да коровами про провода

Состоит — нет, шерной и ненасытную свой слева тех. Ах, профессия стоны я!» — «Сядьгай»,

38

А в бугучем вас ждем — в «х», После другие лица, —

Пусть годив? И жить еще два все. Но интересов» Правда, сел нанести — только меды же не понять! Не будет лошадкаются, до самой цель. Может, не говори, Жизнь коньяк, А вы, брат, про отецы навсегда!

Их правильников для востока — славная, чем загуляей И письма на мне метки, но хватит от пластинны, Им провник мой несловину, а с ним не ночь в строю, — Чтоб принимают, — недолго, живой свои дрожит.

В данном случае источником стали стихотворные произведения Владимира Высоцкого [4]. Так как поэтика этого автора не предполагает «неофутуристических» языковых неправильностей (кроме нарочитых конструкций, имитирующих нерегулярность аффектированной разговорной речи вроде «Забрать его, ему, меня отсюдова!») и построена на нарративных фрагментах, узнать здесь исходный стиль гораздо сложнее. Тем не менее, характерные для творческой манеры Высоцкого идеи высокого чувственного напряжения («Вопилась», «живой свои дрожит») и абсолютной степени («жить еще два все», «про отецы навсегда») в тексте заметны. Обращает на себя внимание и редкое слово «правильник», подкрепляющее нужный стилевой колорит.

В широком культурном контексте процесс порождения и восприятия таких текстов, как кажется, может быть осмыслен в связи с двумя инструментальными понятиями современной философии.

В первую очередь, это широко известная «деконструкция» [6], которая обозначает отказ от традиционных стереотипов восприятия, способ взглянуть на рассматриваемый объект с непривычных позиций. Деконструкция объединяет два шага: деструкцию (разрушение довлеющих репрессивных инстанций истолкования) и реконструкцию (извлечение новых смыслов). Именно такое критическое переосмысление рассматриваемого объекта и происходит при чтении «нейронной» лирики: порожденные нейронной сетью поэтические тексты дают возможность отказаться от фигуры автора и поиска заложенных им в стихотворение смыслов (деструкция), а вместо этого настроиться на созерцание чистой традиции (реконструкция). Благодаря этому филологическому эксперименту мы получаем концентрированное и синтезированное в тексте представление о поэзии.

Вторым полезным для понимания сущности такого рода текстовой продукции термином может быть «пересборка» [7] терминологической системе Б. Латура — это переустановление связей. Тексты нейронной сети — это обновление связей в системе «поэт — стихотворение — читатель». Речевой акт происходит при взаимодействии нескольких факто-

39

ров, главные из которых «адресант», «сообщение» и «адресат», которые в ситуации поэтической коммуникации становятся «поэтом», «стихотворением» и «читателем». Все эти акторы остаются в новой системе, но отношения между ними изменяются. Читатель соотносится с автором не через написанное им произведение, а через созданный компьютером на основе этого произведения конструкт. Коммуникация становится более текстоцентричной: читатель будет искать не проявление личности поэта в стихотворении, а структурные особенности, репрезентирующие совокупность текстов в обучающей выборке.

Тексты, порождённые с помощью искусственных нейронных сетей, воспроизводят часть стилистических особенностей обучающей выборки, главным образом тех, которые заметны на небольших отрезках: инструментовка, лексика, синтаксис, метр. При этом за пределами воспроизводимого остаются сюжет и другие элементы, связанные с нарративом. Внимательное изучение сгенерированных текстов может помочь в уяснении стилевых особенностей оригинала, что снимает оппозицию distant и close reading.

Список литературы

1. Азарова Н. М. Соло равенства. М.: Новое литературное обозрение, 2011. 275 с.

2. Бахтин М. М. Творчество Франсуа Рабле и народная культура средневековья и Ренессанса. М.: Худож. лит., 1990. 543 с.

3. Бродский И. Как читать книгу // Бродский И. Сочинения Иосифа Бродского: в 7 томах. Том 6. СПб.: Пушкинский фонд, 2003. С. 80 — 85

4. Высоцкий В. С. Сочинения в двух томах. Екатеринбург: У-Фактория, 1996.

5. Гаспаров М. Л. История литературы как творчество и исследование / / Вестник гуманитарной науки. 2004. №6. С. 94 — 99.

6. Деррида Ж. О грамматологии / пер. с фр. и вст. ст. Н. Автономовой. М.: Ad Marginem, 2000. 512 с.

7. Латур Б. Пересборка социального: введение в акторно-сетевую теорию. М.: ИД ВШЭ, 2014. 384 с.

8. Лессинг Г. Э. Лаокоон, или о границах живописи и поэзии. М.: Художественная литература, 1957. 520 с.

9. Мартыненко Г. Я. Основы стилеметрии. Л. : Изд-во Ленингр. ун-та, 1988. 173 с.

10. Минский М., Пейперт С. Персептроны. М.: Мир, 1971. 264 с.

11. Моретти Ф. Дальнее чтение. М.: Издательство Института Гайдара, 2016. 352 с.

12. Орехов Б. В. Нейронная сеть сочиняет стихи Наталии Азаровой // Подарок Наталии Азаровой. [Б.м.]: [б.и.], 2016. С. 143—146.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

13. Соколов А. Н. Теория стиля / А. Н. Соколов. М.: Искусство, 1968. 223 с.

14. Тынянов Ю. Н. О пародии // Тынянов Ю.Н. Поэтика. История литературы. Кино. М.: Наука, 1977. С. 284—309.

15. Шапир М. И. О «звукосимволизме» у раннего Хлебникова («Бобэоби пелись губы...»: фоническая структура) // Культура русского модернизма / Readings in Russian Modernism / Ed. Ronald Vroon and John E. Malmstad. Honor Vladimir Fedorovich Markov. UCLA Slavic studies. New Series. Vol. I. Moscow: Nauka. Oriental Literature Publishers, 1993. P. 299 — 307

40

16. Ellis D. P. W., Morgan N. Size matters: An empirical study of neural network training for large vocabulary continuous speech recognition / / 1999 IEEE International Conference on Acoustics, Speech, and Signal Processing: Proceedings: ICASSP99 Phoenix: March 15-19, 1999, Civic Plaza, Hyatt Regency, Phoenix, Arizona, U.S.A. Columbia University Academic Commons, doi: 10.1109/ICASSP.1999.759875

17. Gunning D. Explainable AI URL: http://www.cc.gatech.edu/~alanwags/ DLAI2016/ (Gunning)% 20IJCAI-16%20DLAI%20WS.pdf 2016

18. Guy Yahcdav et al. How do we predict likelihood of death? URL: https://www.got. show / machine-learning-algorithm-predicts-death-game-of-thrones

19. He K., Zhang X., Ren Sh., Sun J. Delving Deep into Rectifiers: Surpassing HumanLevel Performance on ImageNet Classification / / The IEEE International Conference on Computer Vision (ICCV), 2015, pp. 1026-1034.

20. Hinton G. E., Osindero S., Welling M., Teh Y. (2006). Unsupervised discovery of nonlinear structure using contrastive backpropagation. Cognitive Science, 30: 725 — 731.

21. Medsker L. R., Jain L. C. Recurrent neural networks / / Design and Applications. 2001.

22. Karpathy A. The Unreasonable Effectiveness of Recurrent Neural Networks 2015 URL: http://karpathy.github.io/2015/05/21/rnn-effectiveness/ (дата обращения: 19.09.2016)

23. Karpathy A. Text generated by a neural net trained on Shakespeare's works. URL: http://cs.stanford.edu/people/karpathy/char-rnn/shakespear.txt (дата обращения: 19.09.2016)

24. Karpathy A. Char-rnn URL: https://github.com/karpathy/char-rnn (дата обращения: 19.09.2016)

25. LeCun Ya., Bengio Yo., Hinton G. Deep learning // Nature 521, 436-444 (28 May 2015) doi:10.1038/nature14539

26. Medsker L. R., Jain L. C. Recurrent neural networks //Design and Applications. 2001.

27. Moretti F. Distant reading. London: Verso, 2013. 244 pp.

28. Spivak G. Ch World systems & the creole / / Narrative, Volume 14, Number 1, January 2006. P. 102. doi: 10.1353/nar.2005.0030

29. Vemuri V. Artificial neural networks. [w.p.]: Rockville, MD (USA); Computer Science Press Inc., 1988.

* * *

Orekhov Boris V.

ARTIFICIAL NEURAL NETWORKS AS A SPECIAL TYPE OF DISTANT READING

(National Research University Higher School of Economics, Moscow)

The article deals with the generation of poetic texts with artificial neural networks. The author gives a brief history of the method. The article describes some important properties of the training sample. For example the sample needs to be large enough. The article gives some examples of Russian poetic texts, generated by a neural network. The texts generated by the model trained on Russian hexameters, on poems of a modern poet Natalia Azarova and on texts of classic Russian bard Vladimir Vysotsky. The analysis showed that the neural network reproduces the style and metrical features of the original sample. The style of the lyrical texts reproduced better than any other type of text. A neural network is practically unable to reproduce the features of narrative works. In the cultural and intellectual context, the texts of the neural network can be understood as deconstruction (Derrida) and reassembling (Latour).

Keywords: artificial neural networks, style, stylometria, distant reading.

41

References

1. Azarova N. M. Solo ravenstva (Solo of equality). Moscow, Novoe literaturnoe obozrenie Publ., 2011. 275 p.

2. Bakhtin M. M. Tvorchestvo Fransua Rable i narodnaya kul'tura srednevekov'ya i Re-nessansa (Creativity of Francois Rabelais and folk culture of the middle ages and Renaissance). Moscow, Xudozhestvennaya literatura Publ., 1990. 543 p.

3. Brodskij I. Sochinenija Iosifa Brodskogo: v 7 tomah (Works in 7 vol). Tom 6. Saint-Petersburg, Pushkinskij fond Publ., 2003.

4. Vysockij V. S. Sochinenija v dvuh tomah (Works in 2 vol.). Ekaterinburg, U-Factoria Publ., 1996.

5. Gasparov M. L. History of literature as art and as research [Istorija literatury kak tvorchestvo i issledovanie], Vesnik gumanitarnoj nauki, 2004, no. 6, pp. 94 — 99.

6. Derrida J. O grammatologii (De la grammatologie), Moscow, Ad Marginem Publ., 2000. 512 p.

7. Latour B. Peresborka social'nogo (Reassembling the social). Moscow, ID VSHE Publ., 2014. 384 p.

8. Lessing G. E. Laokoon, ili o granicah zhivopisi i pojezii (Laocoon: An Essay on the Limits of Painting and Poetry), Moscow, Khudozhestvennaja literatura Publ., 1957. 520 p.

9. Martynenko G. Ja. Osnovy stilemetrii (Fundamentals of stylometry). Leningrad, Leningrad Universitet Publ., 1988. 173 p.

10. Minsky M., Papert S. Perceptrons. Moscow, Mir Publ., 1971. 264 p.

11. Moretti F. Dal'nee chtenie (Dostant reading) Moscow, Institut Gajdar Publ., 2016. 352 p.

12. Орехов Б. В. Neural network composes poems Nataliya Azarova [Neyronnaya set' sochinyaet stikhi Natalii Azarovoy], Podarok Natalii Azarovoy (Gift Of Nataliya Azarova), 2016, pp. 143—146.

13. Sokolov A. N. Teorija stilja (Theory of style). Moscow, Iskusstvo Publ., 1968. 223 p.

14. Tynjanov Ju. N. The parody [O parodii], Pojetika. Istorija literatury. Kino (Poetics. The history of literature. Movie), Moscow, Nauka Publ., 1977. pp. 284 — 309.

15. Shapir M. I. The symbolic meaning of the sound [O «zvukosimvolizme» u rannego Hlebnikova («Bobjeobi pelis' guby...»: fonicheskaja struktura)], Readings in Russian Modernism. UCLA Slavic studies. New Series, vol. I. Moscow, Nauka. Oriental Literature Publishers, 1993, pp. 299 — 307.

16. Ellis D. P. W., Morgan N. Size matters: An empirical study of neural network training for large vocabulary continuous speech recognition, 1999 IEEE International Conference on Acoustics, Speech, and Signal Processing: Proceedings: ICASSP99 Phoenix, March 15-19, 1999, Civic Plaza, Hyatt Regency, Phoenix, Arizona, U.S.A. Columbia University Academic Commons, doi: 10.1109/ICASSP.1999.759875

17. Gunning D. Explainable AI, Available at: http://www.cc.gatech.edu/~alanwags/ DLAI2016/(Gunning)%20IJCAI-16%20DLAI%20WS.pdf 2016

18. Guy Yahcdav et al. How do we predict likelihood of death? Available at: https://www.got.show/machine-learning-algorithm-predicts-death-game-of-thrones

19. He K., Zhang X., Ren Sh., Sun J. Delving Deep into Rectifiers: Surpassing HumanLevel Performance on ImageNet Classification, The IEEE International Conference on Computer Vision (ICCV), 2015, pp. 1026-1034.

20. Hinton G. E., Osindero S., Welling M., Teh Y. Unsupervised discovery of non-linear structure using contrastive backpropagation. Cognitive Science, 2006, no. 30, pp. 725 — 731.

42

21. Medsker L. R., Jain L. C. Recurrent neural networks / / Design and Applications. 2001.

22. Karpathy A. The Unreasonable Effectiveness of Recurrent Neural Networks 2015, Available at: http://karpathy.github.io/2015/05/21/rnn-effectiveness/ (accessed 19.09.2016)

23. Karpathy A. Text generated by a neural net trained on Shakespeare's works, Available at: http://cs.stanford.edu/people/karpathy/char-rnn/shakespear.txt (accessed 19.09.2016)

24. Karpathy A. Char-rnn, Available at: https://github.com/karpathy/char-rnn (accessed 19.09.2016)

25. LeCun Ya., Bengio Yo., Hinton G. Deep learning, Nature, no. 521, pp. 436-444 (28 May 2015), doi:10.1038/nature14539

26. Medsker L. R., Jain L. C. Recurrent neural networks, Design and Applications, 2001.

27. Moretti F. Distant reading. London: Verso, 2013. 244 pp.

28. Spivak G. Ch World systems & the creole, Narrative, vol. 14, no. 1, January 2006, pp. 102. doi: 10.1353/nar.2005.0030

29. Vemuri V. Artificial neural networks. [w.p.]: Rockville, MD (USA); Computer Science Press Inc., 1988.

•Jc -Jc -Jc

43

i Надоели баннеры? Вы всегда можете отключить рекламу.