Научная статья на тему 'ЦИФРОВЫЕ ФИЛОЛОГИЧЕСКИЕ ПРАКТИКИ: ПРОЕКТ "CHEKHOV DIGITAL"'

ЦИФРОВЫЕ ФИЛОЛОГИЧЕСКИЕ ПРАКТИКИ: ПРОЕКТ "CHEKHOV DIGITAL" Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
394
62
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЦИФРОВЫЕ ГУМАНИТАРНЫЕ НАУКИ / МЕЖДИЦИПЛИНАРНОСТЬ / ЦИФРОВЫЕ ИЗДАНИЯ / TEXT ENCODING INITIATIVE / СЕМАНТИЧЕСКАЯ РАЗМЕТКА / ЦИФРОВАЯ ФИЛОЛОГИЯ / ЦИФРОВОЙ ПРОЕКТ / CHEKHOV DIGITAL

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Северина Е.М., Бонч-Осмоловская А.А., Кудин А.М.

В статье рассматривается роль «цифровых практик» в формировании междисциплинарности гуманитарного знания, особенности разработки цифровых гуманитарных проектов в области филологии. Рассмотрена модель разработки цифрового проекта в области подготовки семантической разметки литературных изданий Chekhov Digital, который представляет собой цифровую публикацию академического Полного собрания сочинений и писем А. П. Чехова. Цель проекта - разработка машиночитаемой (семантической) разметки текстов писателя с опорой на стандарты цифровой публикации Text Encoding Initiative (TEI). В рамках проекта уточняются стандарты для подготовки цифровых русскоязычных изданий, формулируются концептуальные и технические условия реализации, разрабатывается инфраструктура и новые методы исследования. Разработана структура машиночитаемой аннотации документов, позволяющая разметить смысловые сущности в чеховских текстах, примечаниях и комментариях для организации семантического поиска по корпусу текстов писателя. Для уточнения разметки смысловых сущностей в произведениях А. П. Чехова использованы методы автоматической обработки текстов, включая тематическое моделирование и семантические векторные модели для изучения важнейших авторских концептов; корпусные методы исследования непосредственных контекстов употребления вербальных репрезентаций концептов. Концептуальный анализ позволил провести реконструкцию авторских концептов в контексте разметки смысловых сущностей. Для разметки имен и названий реально существовавших людей и объектов создана специализированная база данных, основанная на указателях к письмам. В рамках проекта реализован принцип открытых исследовательских данных (Open Data), одной из целей которого является создание научных сообществ вокруг данных. Работа над проектом привела к развитию научного сотрудничества Центров цифровых гуманитарных исследований НИУ ВШЭ и ЮФУ.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DIGITAL PHILOLOGICAL PRACTICES: THE PROJECT “CHEKHOV DIGITAL”

The article examines the role of “digital practices” in the formation of interdisciplinary humanitarian knowledge, the peculiarities of the development of digital humanitarian projects in the field of philology. The model of development of a digital project in the field of preparation of semantic markup of literary publications “Chekhov Digital”, which is a digital publication of the academic Сomplete works and letters of A. Chekhov, is considered. The goal of the project is to develop machine-readable (semantic) markup of the writer’s texts based on the standards of digital publication Text Encoding Initiative (TEI). Within the framework of the project, standards for the preparation of digital Russian-language publications are being clarified, conceptual and technical conditions for implementation are being formulated, and infrastructure and new research methods are being developed. The structure of machine-readable annotation of documents has been developed, which enables marking up semantic entities in Chekhov’s texts, notes and comments for building semantic search within the corpus of the writer’s texts. To clarify the markup of semantic entities in the works of A. Chekhov the methods of automatic text processing were used, including topic modeling and vector semantic models to analyze the most important author’s concepts in the texts; corpus methods for studying the contexts of the use of verbal representations of concepts. The conceptual analysis made it possible to reconstruct the author’s concepts in the context of the markup of semantic entities. To mark up the names of real people and objects, a special database, based on pointers to letters, has been created. The project implements the principle of Open data, one of the goals of which is to create scientific communities around data. The work on the project has led to the development of scientific cooperation between the Centers for Digital Humanities of the HSE and the SFedU.

Текст научной работы на тему «ЦИФРОВЫЕ ФИЛОЛОГИЧЕСКИЕ ПРАКТИКИ: ПРОЕКТ "CHEKHOV DIGITAL"»

A TT/h о TT TT п™=яскл™^ liPJDo пт

А11Ф&11Л Сов~™н Lli &i L

Thematic issue APPLIED LINGUISTICS : MODERN RESEARCH AREAS AND PERSPECTIVES

http://philjournal.ru 2022 No 2 153-165

оригинальная статья

удк 81'33+801.82+004.91

DOI: 10.29025/2079-6021-2022-2-153-165

Цифровые филологические практики: проект «Chekhov Digital»

Е.м. северина1*, A.A. Бонч-осмоловская2, А.м. кудин3

1,3Южный федеральный университет, 344006, Российская Федерация, Ростов-на-Дону, пер. Университетский, 93;

'Scopus Author ID: 57191625376; ORCID ID: 0000-0001-6518-2771; Национальный исследовательский университет «Высшая школа экономики», 105066, Российская Федерация, Москва, ул. Старая Басманная, д. 21/4, стр. 1;

2Scopus Author ID: 26967547200; ORCID ID: 0000-0001-5826-8286;

Researcher ID: L-5555-2015; *e-mail: emkovalenko@sfedu.ru

Резюме: В статье рассматривается роль «цифровых практик» в формировании междисциплинар-ности гуманитарного знания, особенности разработки цифровых гуманитарных проектов в области филологии. Рассмотрена модель разработки цифрового проекта в области подготовки семантической разметки литературных изданий Chekhov Digital, который представляет собой цифровую публикацию академического Полного собрания сочинений и писем А. П. Чехова. Цель проекта - разработка машиночитаемой (семантической) разметки текстов писателя с опорой на стандарты цифровой публикации Text Encoding Initiative (TEI). В рамках проекта уточняются стандарты для подготовки цифровых русскоязычных изданий, формулируются концептуальные и технические условия реализации, разрабатывается инфраструктура и новые методы исследования. Разработана структура машиночитаемой аннотации документов, позволяющая разметить смысловые сущности в чеховских текстах, примечаниях и комментариях для организации семантического поиска по корпусу текстов писателя. Для уточнения разметки смысловых сущностей в произведениях А. П. Чехова использованы методы автоматической обработки текстов, включая тематическое моделирование и семантические векторные модели для изучения важнейших авторских концептов; корпусные методы исследования непосредственных контекстов употребления вербальных репрезентаций концептов. Концептуальный анализ позволил провести реконструкцию авторских концептов в контексте разметки смысловых сущностей. Для разметки имен и названий реально существовавших людей и объектов создана специализированная база данных, основанная на указателях к письмам. В рамках проекта реализован принцип открытых исследовательских данных (Open Data), одной из целей которого является создание научных сообществ вокруг данных. Работа над проектом привела к развитию научного сотрудничества Центров цифровых гуманитарных исследований НИУ ВШЭ и ЮФУ

Ключевые слова: цифровые гуманитарные науки; междициплинарность; цифровые издания; Text Encoding Initiative; семантическая разметка; цифровая филология; цифровой проект; Chekhov Digital.

Благодарности: Статья подготовлена в рамках соглашения о научном сотрудничестве № 6.13.102/250821-1 по проекту «Конвергенция языковых пластов русского языка в зеркале цифровых решений» между Южным федеральным университетом (ЮФУ) и Национальным исследовательским университетом «Высшая школа экономики» (НИУ ВШЭ) («Зеркальные лаборатории НИУ ВШЭ»).

Для цитирования: Северина Е.М., Бонч-Осмоловская А.А., Кудин А.М. Цифровые филологические практики: проект «Chekhov Digital». Актуальные проблемы филологии и педагогической лингвистики. 2022. № 2. С. 153-165.

* © Северина Е.М., Бонч-Осмоловская А.А., Кудин A.M., 2022.

О ф I This work is licensed under a Creative Commons Attribution 4.0 International License https://creativecommons. org/licenses/by/4.0/

Original Paper

DOI: 10.29025/2079-6021-2022-2-153-165

Digital Philological Practices: the Project "Chekhov Digital"

Elena M. Severina1*, Anastasiya A. Bonch-Osmolovskaya2, Anastasiya M. Kudin3

1,3Southern Federal University, 93 Universitetskiy Lane, Rostov-on-Don, Russian Federation, 344006; 'Scopus Author ID: 57191625376; ORCID ID: 0000-0001-6518-2771;

2National Research University Higher School of Economics (HSE University), 21/4 Staraya Basmannaya Str., Moscow, Russian Federation, 105006; 2Scopus Author ID: 26967547200; ORCID ID: 0000-0001-5826-8286;

Researcher ID: L-5555-2015 *e-mail: emkovalenko@sfedu.ru

Abstract: The article examines the role of "digital practices" in the formation of interdisciplinary humanitarian knowledge, the peculiarities of the development of digital humanitarian projects in the field of philology. The model of development of a digital project in the field of preparation of semantic markup of literary publications "Chekhov Digital", which is a digital publication of the academic Complete works and letters of A. Chekhov, is considered. The goal of the project is to develop machine-readable (semantic) markup of the writer's texts based on the standards of digital publication Text Encoding Initiative (TEI). Within the framework of the project, standards for the preparation of digital Russian-language publications are being clarified, conceptual and technical conditions for implementation are being formulated, and infrastructure and new research methods are being developed. The structure of machine-readable annotation of documents has been developed, which enables marking up semantic entities in Chekhov's texts, notes and comments for building semantic search within the corpus of the writer's texts. To clarify the markup of semantic entities in the works of A. Chekhov the methods of automatic text processing were used, including topic modeling and vector semantic models to analyze the most important author's concepts in the texts; corpus methods for studying the contexts of the use of verbal representations of concepts. The conceptual analysis made it possible to reconstruct the author's concepts in the context of the markup of semantic entities. To mark up the names of real people and objects, a special database, based on pointers to letters, has been created. The project implements the principle of Open data, one of the goals of which is to create scientific communities around data. The work on the project has led to the development of scientific cooperation between the Centers for Digital Humanities of the HSE and the SFedU.

Keywords: digital humanities; interdiciplinarity; digital edition; Text Encoding Initiative; semantic markup; digital literary studies; digital project; Chekhov Digital.

Acknowledgements: This article was prepared under the agreement on scientific cooperation № 6.13.102/250821-1 on the project "Convergence of language layers of the Russian language in the mirror of digital solutions" between the Southern Federal University and the National Research University Higher School of Economics"Mirroring Laboratories of NRU HS".

For citation: Severina E.M., Bonch-Osmolovskaya A.A., Kudin A.M. Digital Philological Practices: the Project "Chekhov Digital". Current Issues in Philology and Pedagogical Linguistics. 2022, no 2, pp. 153-165. (In Russ.).

Введение

Гуманитарное знание на современном этапе характеризуется формированием «глубинных сетевых структур процесса производства знаний и продуктов научного труда» [1], появлением «цифровых практик», использующих в качестве научного инструментария компьютерные модели и цифровые технологии, которые одновременно становятся объектами изучения. При этом исследователи фиксируют особую роль цифровых практик в скорости изменений самого гуманитарного поля, сложности возникающих в связи с этим исследовательских проблем [2: 49], превращении современных гуманитарных наук в междисциплинарное пространство исследований. Цифровизация гуманитарной сферы приводит

не только к трансформации исследовательских технологий, но и к парадигмальным изменениям в гуманитарных науках.

Появление нового научного направления Digital Humanities (Цифровые гуманитарные науки, DH) фиксирует происходящие изменения в гуманитарном знании [3], при этом сам термин Digital Humanities рассматривается в качестве «зонтичного» для самых разных подходов к цифровизации гуманитарной сферы, среди которых выделяются две основные тенденции: 1) ориентация на использование цифровых инструментов в традиционных академических практиках и 2) стремление провести фундаментальные изменения существующих академических практик, как исследовательских, так и педагогических. Еще в 2009 году авторы «Digital Humanities Manifesto 2.0.» подчеркивали, что DH как набор конвергентных исследовательских практик, использующих цифровые инструменты и методы, меняет продуцирование и распространение гуманитарного знания, сохраняя такие его методологические аспекты, как внимание к сложности, специфичности, историческому контексту, критике и интерпретации [4: 2], но подвергая сомнению традиционные дисциплинарные способы познания [5: 160]. Digital Humanities все еще не имеет однозначного определения, остается местом эксперимента и полем действия, оставаясь при этом «радикально междисциплинарной» научной сферой [6: 31].

Цель статьи

Важнейшим направлением развития современного научного знания является формирование меж-дисциплинарности, которая основывается на проблемном и проектном исследовательских подходах. В настоящей статье рассматривается роль «цифровых практик» в формировании междисциплинарно-сти гуманитарного знания, особенности разработки цифровых гуманитарных проектов в области филологии на примере создания семантического цифрового издания произведений А. П. Чехова.

Обзор литературы

Digital Humanities стал эффективным форматом для междисциплинарных гуманитарных исследований, связанных с вычислениями [7: 143], но статус цифровых гуманитарных наук продолжает активно обсуждаться в рамках как теоретических, так и эмпирических исследований [8; 9]. В феврале 2022 года вышел специализированный выпуск журнала JASIST [10], который посвящен концептуальным, методологическим и технологическим проблемам цифровых гуманитарных наук. Появление такого сборника демонстрирует растущий интерес к данной области, но подходы специалистов к определению сферы DH все еще значительно различаются, поэтому была предпринята попытка провести систематическое изучение данной области через сравнение тематики исследовательских статей, опубликованных с 1990 по 2019 гг. в трех авторитетных англоязычных специализированных журналах: Computers and the Humanities (CHum) (существует с 1966 года), Literary and Linguistic Computing (LLC) (основан в 1986), Digital Humanities Quarterly (DHQ) (издается с 2007 года), с темами статей из журналов по 15 другим академическим дисциплинам (размер корпуса - 34 041 статья; 299 млн токенов) [9]. Для анализа большого корпуса академических текстов были использованы цифровые методы обработки - метод тематического моделирования (латентное размещение Дирихле, LDA) в сочетании с методами иерархической агломеративной кластеризации. Такой подход позволил получить представление о взаимодействии различных академических дисциплин на основе общих тем. Исследователи пришли к выводу, что Digital Humanities можно рассматривать и как самостоятельную дисциплину, и в качестве междисциплинарной области, связанной тематически с другими дисциплинами, в первую очередь, с компьютерной лингвистикой и информатикой [9: 148].

Теоретик междисциплинарности Дж. Кляйн определяет сферу Digital Humanities как мультидис-циплинарную область «по охвату» и как междисциплинарную по «интегративной работе и совместным практикам» специалистов, но одновременно подчеркивает и ее трансдисциплинарный характер в стремлении к реформированию гуманитарных наук, которые должны использовать технологии и средства обработки информации, внедрять критический анализ в академические практики, вовлекать в них общественность [6: 32]. Многие цифровые гуманитарии полагают своей задачей изучение социокультурных проблем цифровой эпохи [5: 161], но для осмысления масштаба воздействия технологий на гуманитарную сферу и жизнь человека исследователям необходимо преодолеть существующий дисциплинарный разрыв, ведь цифровые технологии продолжают трансформировать реальность. Причем в этой связи возрастает роль традиционных гуманитарных подходов - культурной интерпретации и критического анализа, методов «ближнего чтения», историко-социального, этического и лингвистического анализа, для изучения последствий цифровизации гуманитарной сферы на всех этапах - от фор-

мулирования идеи, разработки и применения новых инструментов до стадии реализации цифровых проектов [5: 170].

Первые центры Digital Humanities появились в 80-е гг. XX в., постепенно превратившись в «движущую силу реализации цифровых исследований» [1]. Систематизация научных направлений в области цифровых гуманитарных наук происходит по аналогии с традиционной моделью гуманитарного знания - цифровая история, цифровая лингвистика, цифровая филология и т.п. Эти направления объединяет стремление работать с цифровыми данными, создание инфраструктуры и разработка цифровых методов исследования, институализация в научной и образовательной среде. Методологически цифровые гуманитарные науки предоставляют новые возможности для гуманитарных исследований, обеспечивая разработку цифровых инструментов и открытый доступ к цифровым ресурсам, развивая новые формы и исследовательские подходы в гуманитарной сфере.

Манфред Таллер, профессор Кельнского университета, к основным сферам Digital Humanities относит анализ текста (analysis of text as text); анализ «фактов», полученных из разнообразных источников (текстов, описания изображений, пространственных связей); анализ нетекстовых ресурсов и сферу гуманитарной информатики (Humanities Computer Science) [11: 8]. Каждая из этих областей достаточно сложна и неоднородна, и в каждой выделяются отдельные направления и подходы. При этом процессы цифровизации образования, культуры, социально-общественных институций ведут к расширению сферы исследований Digital Humanities и применения цифровых методов, которые охватывают все более широкие области практик, связанных с разработкой и использованием цифровых технологий в гуманитарных науках, включая филологию, и шире - в культурных практиках, включая искусство, социальные медиа, архитектуру и т.п.

Методы и материалы исследования

Работа исследователей в области Digital Humanities направлена на оцифровку различных видов гуманитарной информации, компьютерное моделирование, разработку цифровых инструментов для ее обработки [12; 13].

С точки зрения методологии использование специфичных для одной дисциплины методов в других сферах знания порождает новые междисциплинарные подходы, которые можно использовать либо в рамках междисциплинарного сотрудничества, либо теми, «чьи интересы и квалификация уже междисциплинарны» [14: 42, 54]. Например, компьютерное моделирование языковых процессов может применяться либо в рамках сотрудничества инженеров и филологов, либо компьютерными лингвистами и специалистами в области цифровой филологии. В целом, для достижения успеха междисциплинарных исследований необходимы несколько факторов - люди, готовые «преодолевать барьеры между дисциплинами»; места и организации, способствующие междисциплинарной коммуникации; идеи и методы, которые позволяют решать междисциплинарные научные проблемы [14: 58-59]. Поэтому практические исследования в сфере Digital Humanities реализуются в формате цифровых проектов, управление которыми базируется на достаточно общих принципах - планирование, финансирование, формирование ресурсов, наличие материальной базы, привлечение исполнителей и экспертов по теме проекта; обязательно включает «контентную стратегию, визуальный дизайн, интерактивный дизайн, информационную архитектуру, функциональность», а также специализированные области, связанные с обработкой данных - «открытые данные, большие данные, базы данных, сетевую модель данных, визуализацию данных» [15].

Материал исследования: теоретические разработки и цифровые проекты в области Digital Humanities, текст академического издания Полного собрания сочинений и писем А. П. Чехова в 30 томах (ПССиП).

Комплексный характер проводимого исследования потребовал проведения критического анализа роли цифровых технологий в формировании междисциплинарности гуманитарного знания, а также практик в области Digital Humanities по разработке цифровых русскоязычных изданий на основе важнейшей концепции DH - принципа открытых исследовательских данных (Open Data), который позволяет не только организовать подготовку данных в различных форматах и «междисциплинарный обмен данными», но и создавать академические сообщества «вокруг данных», а «не вокруг научных школ» [15]. Такой подход основывается на технологических стандартах, поддерживающих публикацию данных в открытом, свободном доступе, в частности на стандарте кодирования текста TEI1.

1 Text Encoding Initiative. https://tei-c.org/

Для уточнения разметки смысловых сущностей в произведениях А. П. Чехова использованы методы автоматической обработки текстов, включая тематическое моделирование и семантические векторные модели для изучения важнейших авторских концептов; корпусные методы исследования непосредственных контекстов употребления вербальных репрезентаций концептов.

Концептуальный анализ позволил провести реконструкцию авторских концептов в контексте разметки смысловых сущностей в текстах произведений А. П. Чехова.

результаты и дискуссия

Форма существования текста определяется технологиями обработки информации, принятыми в данном обществе. С появлением сети Интернет основной формой существования текста стал гипертекст (обмен документами с помощью технологии гиперссылок), который не является машиночитаемым, что ограничивает поиск по сети гипертекстов отдельными словами. Возросшие объемы информации, распространение сети Интернет, цифровизация разных сфер жизни актуализировали идеи изобретателя технологии гиперссылок сэра Тима Бернерс-Ли, высказанные им еще в конце 90-x гг., о необходимости создания, так называемой, Semantic Web (Семантической Сети), которая может связать между собой смыслы и данные, стоящие за текстами. Создание такой сети даст возможность «перейти от поиска слов к пониманию причин, следствий и отношений между вещами, явлениями, процессами, потоками данных» [16: 248]. Это станет возможным, если тексты станут машиночитаемыми с точки зрения смыслов и данных, т. е. в форме существования текстов уже «будут реализованы возможности новых информационных технологий» [17].

Развитие цифровой среды активизирует процесс перехода к "семантическим" цифровым формам существования текстов. Перевод в такой формат существующих текстовых изданий, в первую очередь литературных текстов, позволит включить их в глобальную Семантическую Сеть и обеспечить их сохранность как культурных объектов, представляющих несомненную ценность с точки зрения заложенных в них культурных смыслов и знаний [16: 249]. В то же время преобразование филологических знаний в цифровой машиночитаемый формат, т. е. «представление текста в виде связанных данных, выражающих прямую, явную и понятную для компьютерной обработки взаимосвязь сущностей» [17], требует усилий и времени.

Разработка семантических цифровых изданий - важнейшее направление Digital Humanities. Обычный цифровой текст не является машиночитаемым с точки зрения смыслов и данных, и поэтому должна быть создана специальная семантическая разметка - дополнительный «машиночитаемый» слой, состоящий из специальных тегов (пометок), с помощью которых помечаются значения слов, а не сами слова, связи между ними, контексты. При этом формат машиночитаемых тегов должен опираться на универсальные принципы разметки текстов, что позволяет создать «универсальный «язык», на котором писатели и традиции смогут заговорить друг с другом»2. Разработка семантических цифровых изданий литературных текстов опирается, как правило, на форматы критических аппаратов прошлого, поэтому необходимы технологии автоматического перевода данных из существующих форматов в форматы современной стандартизированной разметки.

Подготовка семантических текстовых изданий опирается на технологии, поддерживающие публикации данных в свободном доступе, одним из которых является, так называемый, стандарт Text Encoding Initiative (TEI)3 - инициатива кодирования текста, в рамках которой объединены вопросы разработки и представления текста в цифровом формате. Стандарт TEI включает инструменты кодирования (схемы, исходный код) и документацию с рекомендациями для решения задач по обработке текстовых источников. Стандарт TEI предлагает возможности формального кодирования таких «текстологических свойств документа», как параметры рукописи, метаданные документов, элементы редакционно-критического аппарата издания и т.п.

Проект Tolstoy Digital4 - семантическое издание 90-томного Полного собрания сочинений Л.Н. Толстого, стал первым цифровым проектом по интеграции текстов русской литературы в глобальное цифровое культурное пространство. В рамках этого проекта были разработаны стандарты подготовки циф-

2 Project Tolstoy Digital. Available at: http://digital.tolstoy.ru/tolstoy_search/. Accessed April 18, 2022

3 TEI Consortium, eds. TEI P5: Guidelines for Electronic Text Encoding and Interchange. 4.4.0. Last updated on 19th April 2022. TEI Consortium. Available at: http://www.tei-c.org/Guidelines/P5/. Accessed April 19, 2022

4 Project Tolstoy Digital. Available at: http://digital.tolstoy.ru/tolstoy_search/. Accessed April 18, 2022

компьютерная лингвистика

157

ровых русскоязычных изданий, сформулированы концептуальные и технические условия реализации проекта, важнейшими из которых являются: требования к документации, которая должна включать описание структуры, метаразметки, текстовой аннотации и актуального состояния корпуса текстов; требования к формату данных, которые должны быть размещены в открытом доступе; требования к функциональности поиска; требования к знаниям, представленным цифровым семантическим изданием, которые должны повышать качество исходных документов [18].

Центр цифровых гуманитарных исследований ИФЖиМКК ЮФУ5 совместно с Центром цифровых гуманитарных исследований НИУ ВШЭ и лабораторией филологии ЮНЦ РАН6 работают над проектом Chekhov Digital7, цель которого - разработка семантического цифрового издания академического Полного собрания сочинений и писем А. П. Чехова в 30 томах [19] с опорой на стандарты цифровой публикации Text Encoding Initiative (TEI). Каждый том академического издания включает редакционно-кри-тические материалы, для которых также разрабатывается семантическая машиночитаемая разметка, которая позволит изучать эти материалы с помощью компьютерных методов. Кроме разметки текстов произведений и писем писателя в TEI-формате, ведется работа над созданием базы данных имен и названий, упомянутых в текстах писателя, комментариях/примечаниях, с опорой на существующие указатели, проверенные автоматически через призму текстов и дополненные из внешних баз данных, таких как Wikidata (https://www.wikidata.org), информацией о реальных людях и объектах. Важной задачей проекта является размещение размеченных текстов в открытом доступе, а также создание исследовательских цифровых инструментов, включая семантический поиск, инструменты визуализации и т. п. Тексты академического издания Полного собрания сочинений и писем А. П. Чехова [19] не ограничены авторским правом.

К участию в проекте Chekhov Digital привлекаются студенты программы магистратуры «Цифровая филология»8, которые выполняют работу в рамках проектной и научно-исследовательской деятельности, предусмотренной по программе. Проектно-ориентированное обучение является необходимой компонентой в формировании профессиональных научно-исследовательских и проектных компетенций, которые в программах ЮФУ реализуются в первую очередь в рамках модуля проектной деятельности, научно-исследовательской и производственной практики. Данная форма обучения позволяет не только привлечь студентов к реализации цифровых проектов, проведению на их основе научных исследований, но и вовлекать молодых ученых в область цифровых гуманитарных наук.

Проект ориентирован на создание цифрового ресурса, который включает не только академическое издание Полного собрания сочинений и писем А. П. Чехова в 30-ти томах (1974-1983) [19], но и другие существующие и вновь появляющиеся критические материалы, а также доступные оцифрованные рукописи. Реализация проекта основывается на разработанный в проекте Tolstoy Digital подход к стандартизации представления в цифровом формате русскоязычных литературных текстов [18].

Разработанная в проекте Chekhov Digital структура разметки текстов и ее базовая реализация с опорой на стандарт цифровой публикации TEI (Text Encoding Initiative) позволяет сделать документы машиночитаемыми. Любой размеченный в соответствии с принципами TEI документ состоит из двух частей - TEI-заголовка, в рамках которого кодируются метаданные источника (описание издания/ рукописи, название, имя автора, язык текста, изменения и т.п.), и текстового модуля, который включает определенным образом размеченную текстовую информацию. TEI позволяет учесть специфику текста - включить в разметку дополнительные метаданные для писем (адресат, дата и место написания и т.д.), особенности представления информации в пьесе, рассказе или повести. Кроме того, TEI дает возможность разметить имена собственные, биографические сведения, некоторые социальные категории (социальный статус, профессиональную принадлежность и т. п.). Таким образом подготовленные тексты становятся машиночитаемыми и позволяют разработать инструменты достаточно сложного семантического поиска информации, в том числе представленной в формате комментариев, примечаний и ссылок. По сути, цифровой формат включает в себя вариант интерпретации текстов, представленных в формате редакционно-критических материалов академического издания.

5 Институт филологии, журналистики и межкультурной коммуникации Южного федерального университета

6 Южный научный центр Российской академии наук

7 Project Chekhov Digital. Available at: http://chekhov-digital.sfedu.ru/. Accessed April 18, 2022

8 Реализуется в Южном федеральном университете, https://sfedu.ru/

Подготовка Семантического издания текстов Полного собрания сочинений и писем А. П. Чехова - достаточно сложная методологическая и технологическая задача. В данный момент разработана общая структура разметки текстов, уточняется разметка различных типов текстов, в том числе писем и редакционно-критического материалов. С опорой на работы исследователей-литературоведов были выявлены смысловые сущности, требующие разметки для организации семантического поиска по корпусу текстов писателя - это «имена, названия; даты; времена года; цвета; свойства, состояния и события; природные явления; социальный статус; профессия; животные / растения; комментарии; примечания» [17].

Для уточнения разметки смысловых сущностей в текстах писателя были использованы методы автоматической обработки текстов, позволившие выявить важнейшие авторские концепты. Было проведено исследование первых трех томов Полного собрания сочинений [19] с помощью метода тематического моделирования (Topic Modeling) [20] - подхода, который на основе машинного обучения позволяет автоматически выявлять темы в данных, определяя ключевые слова для каждой темы и распределение тем в документах коллекции. Была выявлена тема, которая при разных настройках автоматического выделения тем, включала в себя слова «человек», «время», «любить», «лицо». Данные вербальные формы были рассмотрены в качестве имен соответствующих концептов, которые объективируются определенными лексическими единицами в языковом пространстве художественного произведения и могут рассматриваться в качестве репрезентанта темы [21].

Одним из способов анализа выявленных концептов стало использование векторных семантических моделей, которые позволяют вычислить семантические отношения между словами [22]. Построение векторных моделей опирается на дистрибутивную семантику - область исследований, которая занимается вычислением степени семантической близости между словами и словосочетаниями на основании их совместной встречаемости в корпусах. Дистрибутивная семантика основывается на дистрибутивной гипотезе, согласно которой лингвистические единицы имеют близкие значения, если встречаются в схожих контекстах. Для вычисления семантической близости на основе корпуса текстов создается матрица совместной встречаемости, которая содержит информацию о распределении лексических единиц, представленных в виде многоразрядных векторов. Семантическая близость вычисляется с помощью косинусной меры близости векторов [22], т. е. векторные модели позволяют выявить семантически близкие слова (так называемые ассоциаты), которые чаще других употребляются в схожих контекстах. Такой подход дает возможность выявить вербальные репрезентации концепта и его структуру.

Ассоциатами для слова «человек» в первых трех томах произведений А. П. Чехова являются глаголы жить и жениться, существительное дело, а также контексты с положительными качествами: хороший, честный, умный.

Для глагола «любить» векторные модели позволили выделить следующие ассоциаты: глаголы знать, говорить, сказать, хотеть и понимать, существительные человек, слово, и контекст с положительными качествами - честный.

Для слова «лицо» самыми близкими ассоциатами являются слова, обозначающие части тела, - нога, глаз, а также глаголы, связанные со зрением - увидеть, глядеть, и движением тела - подымать, дрожать.

Для слова «время» наиболее близкими ассоциатами являются слова как с позитивной окраской -прекрасный, великий, так и с негативной - смерть, старый, а также слова русский, народ, глаголы приходиться, находиться, принимать, причем среди схожих контекстов отсутствуют слова, характеризующие исчисление природного времени (день, час, минута).

Изучение непосредственных контекстов употребления вербальных репрезентаций рассматриваемых концептов с использованием специализированного корпус-менеджера позволило выявить специфику их функционирования в корпусе текстов писателя. В первом томе Полного собрания сочинений [19] слово «человек» чаще всего употребляется с глаголами в прошедшем времени: «человек говорил», «человек знал», а также с именами собственными, например, «человек Ваня». Кроме того, в корпусе встречается словосочетание «человекмаленький». Для слова «время» характерно употребление с глаголом - «время шутить», «время говорить», и отглагольными существительными - «время существования», «время отсутствия».

Слово «любить» часто встречается совместно с глаголами - «люблю говорил», «люблю шепчет», а также в контекстах, указывающих на любовь к кому-то / чему-то: любовь + имя собственное - «люблю

вас, Илька», «люблю вас, Артур», и любовь + существительное - «любить пение», «любить женщину», «любить искусство».

Слово «лицо» употребляется с именами собственными - «лицо Артура», «лицо Топоркова», глаголами - «лицо просияло», «увидел лицо», существительными, обозначающими человека - «по лицу дирижера», «лицо моей жены», «на лице доктора», и с существительным «поцелуй» - «осыпала лицо поцелуями».

Во втором томе слово «человек» часто употребляется не только с глаголами - «люди жили», «люди ходили», «людям жениться», но и со словами, обозначающими характеристику человека - «человек лет двадцати шести», «человек приятной наружности», а также встречается в одном из псевдонимов писателя - «Человек без селезенки».

Слово «время» чаще всего встречается с глаголом «думать» - «в то же время думал», союзом «пока» -«время, пока были влюблены друг в друга», часто встречается словосочетание «время, когда», например: «время, когда вы входите из передней в залу», «время, когда он брал с моего домохозяина взятку».

Для слова «любить» часто встречаются сочетания с глаголом «говорить» («люблю говорит») и «любить бешено».

Слово «лицо» встречается с существительным «поцелуй» («осыпала лицо мужа поцелуями»), глаголами «написать» («на лице написано») и «становиться» («лицо стало глупее прежнего»).

В третьем томе слово «человек» встречается, как и в первом томе, в псевдониме писателя «Человек без селезенки», достаточно часто встречается в контекстах, связанных с описанием одежды - «человек в поношенной пятнистой ливрее», «человек в ситцевом халате», характеристиками человека - «молодой», «образованный», «семейный» и «честный», глаголами «видеть» и «сказать» («люди видели», «человек сказал»), встречается словосочетание «человек есть венец мироздания».

Существительное «время» встречается в контексте, обозначающем прием пищи - «время второго блюда», «время обеда», часто встречается в контексте «в то же время».

В третьем томе для слова «любить» встречаются отрицательные контексты в настоящем времени -«не люблю, ей-богу», «любит врать».

Слово «лицо» чаще всего употребляется со словами, обозначающими человека: «лицо графа», «лицо мирового», «лицам начальствующим», а также лицо + имя собственное («лицо Ольги»). Также встречается сочетание существительного «лицо» с глаголом «написать» («налице написаны все добродетели»).

Таким образом, во всех томах встречается сочетание слова «человек» с глаголами и со словами, обозначающими характеристики человека (человек маленький, человек лет двадцати шести, человек в ситцевом халате). Слово «любить» часто употребляется с глаголами, «лицо» встречается с существительными и именами собственными: лицо Артура, лицо мужа, лицо графа. Слово «время» часто употребляется с глаголами и отглагольными существительными: время шутить, время говорить; время существования, время отсутствия, для него также характерно сочетание «то же время» и «время, когда». Все это позволяет предположить, что в чеховских текстах следует разметить не только описание объективной природной реальности, но и психологических аспектов субъективного переживания времени. Поэтому категория «времена года» была расширена до категории «время» [см. 17].

Таким образом, изучение выявленных концептов дает возможность разметить «схемы» сочетаний слов, связанных с размечаемыми для семантического поиска смысловыми сущностями в проекте Chekhov Digital.

В Text Encoding Initiative9 существует обширный список тегов, которые позволяют разметить самую разнообразную информацию. Для проекта Chekhov Digital разработана структура разметки, которая позволяет разметить смысловые сущности в чеховских текстах, примечаниях и комментариях, что дает возможность организовать семантический поиск в текстах произведений и писем А. П. Чехова. На сегодняшний день размечены первые три тома текстов произведений, и все письма академического издания произведений писателя10.

XVIII том текстов произведений и I-XII тт. текстов писем Полного собрания сочинений и писем А. П. Чехова содержат справочную, библиографическую, редакционно-критическую информацию,

9 TEI Consortium, eds. TEI P5: Guidelines for Electronic Text Encoding and Interchange. 4.4.0. Last updated on 19th April 2022. TEI Consortium. Available at: http://www.tei-c.org/Guidelines/P5/. Accessed April 19, 2022

10 Project Chekhov Digital. Available at: http://chekhov-digital.sfedu.ru/. Accessed April 18, 2022

которая используется для разметки текстов. В частности, указатели имен и названий реально существовавших людей и объектов используются для разметки соответствующих сущностей в конкретных текстах. Такой подход позволяет создать онтологию текстов А. П. Чехова, в которой каждый документ обладает своей разметкой, при этом текст каждого документа связан с элементами различных указателей, которые есть в академическом издании (указатель псевдонимов, указатель имен и названий и т. д.), а также с внешними базами данных соответствующей направленности (например, Wikidata), что дает возможность изучать организацию социальных связей писателя.

Указатели имен и названий академического издания содержат имена реально существовавших людей, для разметки которых в проекте была создана специализированная база данных, основанная на указателях к письмам для каждого тома Полного собрания писем, что позволяет исследовать их отдельно от имен персонажей, причем в разных частях корпуса текстов (эпиграфы, тексты, названия и проч.). Имена собственные размечаются автоматически с помощью технологии извлечения именованных сущностей для русского языка11, при этом имена и названия реальных людей и объектов проверяются на соответствие базе данных указателей Полного собрания писем. Для организации морфологического поиска в атрибуты тегов добавлены специальные идентификаторы (хт1М), позволяющие обращаться к базе данных по уникальному номеру записи. В то же время автоматическая разметка имен приводит к погрешностям, связанным как с неточностью работы инструментов, так и с невозможностью автоматически разметить некоторые элементы имени, например, инициалы, поэтому разметка требует «ручной» проверки. Использование базы данных имен и названий позволяет проверить как точность работы автоматической разметки, так и уточнить некоторые детали в опубликованных указателях (например, были найдены неточности в указателе, связанные с письмом И. А. Бунину12 (17 августа 1901 г., Ялта), в котором указано имя Ольги Леонардовны Книппер-Чеховой, но в указателе информации об этом нет).

Анализ текстов произведений писателя показал, что разметка категории «время» требует учета специфики чеховского времени, т. е. необходимо разметить не только дату/время/времена года, но и вербальные репрезентации авторского концепта «время»: словосочетания «время» с отглагольными существительными, глаголами, союзами «когда» и «пока», как достаточно частотными в рассматриваемом корпусе. Кроме того, с помощью цифровых методов были выявлены гипонимы слова «время»: час, год, минута, зах (заход), восх (восход), сегодня и проч., которые также необходимо разметить в цифровом издании текстов писателя, а также синонимичные значения слова-имени концепта: пора, период, день, час, срок, времена, эра, которые необходимо размечать с теми же лексическими единицами, которые были выявлены при корпусном анализе слова «время»: отглагольными существительными, глаголами, союзами «когда» и «пока».

Мы полагаем, что текстовая разметка будет расширяться за счет включения новых категорий - понятий, событий, связей, существующих в текстах писателя, таких как обозначение цвета, социального статуса, свойств, состояний, природных явлений, животных и растений, для которых структура разработана, но еще не реализована в проекте, т. к. требует значительных ресурсов по «ручной» обработке. Поэтому сейчас в проекте разрабатывается ПО с удобным интерфейсом на естественном языке для работы экспертов-чеховедов по созданию разметки. Важнейшей частью проекта является разметка редакционно-критических материалов Полного собрания сочинений и писем, таких как комментарии и примечания, для которых разработана структура разметки с включением примечаний/комментариев для каждого текста в один документ, в отличие от концевых сносок/примечаний в академическом издании, что, по нашему мнению, сделает работу с текстами документов более эффективной и удобной как для автоматической обработки, так и для исследователей.

Таким образом, для семантического издания текстов А. П. Чехова разработана структура разметки смысловых сущностей в текстах, структура метаинформации и представления текстов писателя. Концептуальный анализ текстов показал, что разметка категории время должна включать разметку как природного времени (час, день, год и проч.), так и психологических аспектов субъективного переживания времени (время + отглагольное существительное, время + глагол). Разметка данной категории должна включать также разметку синонимов и гипонимов слова «время». Структура разметки имен собствен-

11 Natasha. Tools for Russian NLP. Available at: https://github.com/natasha. Accessed April 18, 2022.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

12 Чехов А. П. Письмо Бунину И. А., 17 августа 1901 г. Ялта //Т. 10. Письма, Апрель 1901 - июль 1902. М.: Наука, 1981. С. 58-59. Available at: http://feb-web.ru/feb/chekhov/texts/sp0/pia/pia-0582.htm. Accessed April 18, 2022.

ных включает разметку имен, фамилий и отчеств полностью, а также каждого элемента отдельно. Анализ таких сущностей, как свойства, состояния, события и социально-экономический статус показал необходимость разметки таких категорий как пол, возраст, национальность, вероисповедание, место жительства, образование. Разработанная структура разметки метаинформации включает информацию о произведении, разработчиках и лицензии. Разметка структуры текстов произведений включает нумерацию страниц, заголовки и подзаголовки, эпиграфы, обращения в письмах и подписи к ним, текст, изображения и подписи к ним, а также примечания.

Мы полагаем, что семантическое издание может быть расширено и дополнено за счет включения справочных и редакционно-критических текстов, выходящих за рамки академического издания произведений А. П. Чехова, перевода в цифровой формат транскрипций рукописей писателя, их черновых вариантов, редакций, копий, что даст возможность дополнительно сверить их с оригиналами, расширить корпус справочных, источниковедческих и текстологических материалов.

Заключение

Цифровые гуманитарные науки (Digital Humanities) относятся к междисциплинарным системам научного знания, преодолевающим дисциплинарные границы и объединяющим методологию традиционных гуманитарных наук и логику исследований в области информатики. Реализация практических исследований в сфере Digital Humanities позволяет обеспечить общие междисциплинарные подходы, стратегии и эвристики к конкретному научному исследованию. При этом приложения разрабатываемых моделей к изучаемым системам предполагают скрупулезные научные исследования в рамках соответствующей научной дисциплины при тесном сотрудничестве со специалистами в этой дисциплинарной области.

Разработка конкретных цифровых проектов в области подготовки семантической разметки текстовых изданий, таких как Tolstoy Digital и Chekhov Digital, ориентируется на цифровой формат данных, создание инфраструктуры и разработку новых методов исследования. Методологически такие проекты открывают новые возможности для гуманитарных исследований, предоставляя открытый доступ к создаваемым цифровым ресурсам, разрабатывая цифровые инструменты и исследовательские инфраструктуры, развивая междисциплинарные формы и исследовательские подходы в гуманитарной сфере. В рамках такого рода проектов реализуется важнейший принцип Digital Humanities - принцип открытых исследовательских данных (Open Data), одной из целей которого является «создание научных сообществ не вокруг научных школ, а вокруг данных» [15].

Семантическое издание Chekhov Digital13 предоставляет новые инструменты филологического исследования текстов А. П. Чехова, в том числе цифровыми методами, которые дополняют и расширяют существующие филологические практики, могут стать основой для нового типа комментария, усложняющего и обогащающего понимание текста.

Работа над проектом Chekhov Digital привела к развитию научного сотрудничества Центров Digital Humanities НИУ ВШЭ и ЮФУ по проекту «Конвергенция языковых пластов русского языка в зеркале цифровых решений» («Зеркальные лаборатории НИУ ВШЭ»).

Список литературы

1. Журавлева Е.Ю. Современные модели развития гуманитарных наук в цифровой среде. Вопросы философии. 2011; 5: 91-98. Доступно по: http://vphil.ru/index.php?option=com_content&task=view&id=3 25&Itemid=52. Ссылка активна на 18.04.2022.

2. Кирдина-Чэндлер С.Г., Клейнер Г.Б. Социальное прогнозирование как междисциплинарный проект. Социологические исследования. 2016; 12: 44-51. Доступно по: http://socis.isras.ru/article/6473. Ссылка активна на 18.04.2022.

3. Dakos M. Manifesto for the Digital Humanities. 2011. Available at: https://tcp.hypotheses.org/category/ manifeste. Accessed April 18, 2022.

4. Lunenfield P, Presner T, & Schnapp J. Digital humanities manifesto 2.0. 2009. Available at: http://www. humanitiesblast.com/manifesto/Manifesto_V2.pdf. Accessed April 18, 2022.

5. Davidson CN, & Savonick D. Digital Humanities. The Role of Interdisciplinary Humanities in the Information Age. The oxford handbook of Interdisciplinarity. 2017; 159-172.

13 Project Chekhov Digital. Available at: http://chekhov-digital.sfedu.ru/. Accessed April 18, 2022

6. Klein JT. Interdisciplining digital humanities: Boundary work in an emerging field. Ann Arbor: University of Michigan Press. 2015. https://doi.org/10.3998/dh.12869322.0001.001.

7. Zeng ML, Sula CA, Gracy KF, Hyvonen E and Alves Lima VM. JASIST Special Issue on Digital Humanities (DH). J Assoc Inf Sci Technol. 2022; 73(2): 143-147. https://doi.org/10.1002/asi.24584.

8. Poole AH. The conceptual ecology of digital humanities. Journal of Documentation. 2017; 73: 91-122. https://doi.org/10.1108/JD-05-2016-0065.

9. Luhmann J, &Burghardt M. Digital humanities - A discipline in its own right? An analysis of the role and position of digital humanities in the academic landscape. Journal of the Association for Information Science and Technology. 2021; 73(2): 148-171. https://doi.org/10.1002/asi.24533

10. Special Issue on Digital Humanities (DH). Journal of the Association for Information Science and Tech-nology.2022; 73(2): C1, 141-344. Available at: https://asistdl.onlinelibrary.wiley.com/toc/23301643/2022/73/2. Accessed April 18, 2022.

11. Thaller M. Controversies around the digital humanities: an agenda. Historical Social Research. 2012; 37(3): 7-23. https://doi.org/10.12759/hsr.37.2012.3.7-23.

12. Pogorskiy E. Using personalisation to improve the effectiveness of global educational projects. E-Learn-ing and Digital Media. 2015; 12(1): 57-67. https://doi.org/10.1177%2F2042753014558378.

13. Earnshaw R. Digital Humanities. Research and Development in Digital Media. SpringerBriefs in Computer Science. Springer, Cham. 2018: 79-86. https://doi.org/10.1007/978-3-319-73080-6_6.

14. Тагард П. Междисциплинарность: торговые зоны в когнитивной науке. Logos. Gaidar Institute Press. 2014; 24(1): 35-60. Доступно по: https://logosjournal.ru/articles/387555/. Ссылка активна на 18.04.2022.

15. Погорский Э.К. Особенности цифровых гуманитарных наук. Информационный гуманитарный портал «Знание. Понимание. Умение». 2014; 5. Доступно по: http://www.zpu-journal.ru/e-zpu/2014/5/ Pogorskiy_Digital-Humanities/. Ссылка активна на 18.04.2022.

16. Orekhov B and Gronas M. «Что такое семантическое издание и почему в будущем все издания станут семантическими?». A/Z: Essays in Honor of Alexander Zholkovsky, edited by Dennis Ioffe, Marcus Levitt, Joe Peschio and Igor Pilshchikov, Boston, USA: Academic Studies Press. 2018; 246-268. https://doi. org/10.1515/9781618117212-018 (In Russ.).

17. Северина Е.М., Ларионова М.Ч. Новые филологические практики: семантическое издание текстов А. П. Чехова. Филология: научные исследования. 2020; 10: 13-21. DOI: 10.7256/2454-0749.2020.10.33970. Доступно по: https://nbpublish.com/library_read_article.php?id=33970. Ссылка активна на 18.04.2022.

18. Bonch-Osmolovskaya A, Skorinkin D, Pavlova I, Kolbasov M, & Orekhov B. Tolstoy semanticized: Constructing a digital edition for knowledge discovery. Journal of Web Semantics. 2019; 59, 100483. https:// doi.org/10.1016/j.websem.2018.12.001.

19. Чехов А.П. Полное собрание сочинений и писем: В 30 т. АН СССР. Ин-т мировой лит. им. А. М. Горького. М.: Наука. 1974-1983. Доступно по: http://feb-web.ru/feb/chekhov/default.asp?/feb/chekhov/ texts/che-te02.html Ссылка активна на 18.04.2022.

20. Qiang Fu, Yufan Zhuang, Jiaxin Gu, Yushu Zhu, & Xin Guo. Agreeing to Disagree: Choosing Among Eight Topic-Modeling Methods. Big Data Research. 2021; 23, 100173. Available at: https://www.sciencedi-rect.com/science/article/pii/S2214579620300411. Accessed April 18, 2022.

21. Азаренко Н.А. Концепт страдание как основной репрезентант темы детства в творчестве Ф. М. Достоевского. Вопросы когнитивной лингвистики. 2010; 2: 48-53. Доступно по: https://cyberlenin-ka.ru/article/n/kontsept-stradanie-kak-osnovnoy-reprezentant-temy-detstva-v-tvorchestve-f-m-dostoevskogo. Ссылка активна на 18.04.2022.

22. Kutuzov A, Kuzmenko E. WebVectors: A Toolkit for Building Web Interfaces for Vector Semantic Models. In: Ignatov D. et al. (eds) Analysis of Images, Social Networks and Texts. AIST 2016. Communications in Computer and Information Science. Springer, Cham. 2017; 661: 155-161. https://doi.org/10.1007/978-3-319-52920-2_15.

References

1. Zhuravleva EY. Modern models of the development of the humanities in the digital environment. Voprosy Filosofii. 2011; 5: 91-98. Available at: http://vphil.ru/index.php?option=com_content&task=view&id=325&It emid=52. Accessed April 18, 2022. (In Russ.).

2. Kirdina-Chandler SG, Kleiner GB. Social forecasting as an interdisciplinary project. Sotsiologicheskie issle-dovaniya. 2016; 12: 44-51. Available at: http://socis.isras.ru/en/article/6473. Accessed April 18, 2022. (In Russ.).

3. Dakos M. Manifesto for the Digital Humanities. 2011. Available at: https://tcp.hypotheses.org/category/ manifeste. Accessed April 18, 2022.

4. Lunenfield P, Presner T, Schnapp J. Digital humanities manifesto 2.0. 2009. Available at: http://www. humanitiesblast.com/manifesto/Manifesto_V2.pdf. Accessed April 18, 2022.

5. Davidson CN, Savonick D. Digital Humanities. The Role of Interdisciplinary Humanities in the Information Age. The oxford handbook of Interdisciplinarity. 2017; 159-172.

6. Klein JT. Interdisciplining digital humanities: Boundary work in an emerging field. Ann Arbor: University of Michigan Press. 2015. https://doi.org/10.3998/dh.12869322.0001.001.

7. Zeng ML, Sula CA, Gracy KF, Hyvonen E, Alves Lima VM. JASIST Special Issue on Digital Humanities (DH). J Assoc Inf Sci Technol. 2022; 73(2): 143-147. https://doi.org/10.1002/asi.24584.

8. Poole AH. The conceptual ecology of digital humanities. Journal of Documentation. 2017; 73: 91-122. https://doi.org/10.1108/JD-05-2016-0065.

9. Luhmann J, Burghardt M. Digital humanities - A discipline in its own right? An analysis of the role and position of digital humanities in the academic landscape. Journal of the Association for Information Science and Technology. 2021; 73(2): 148-171. https://doi.org/10.1002/asi.24533.

10. Special Issue on Digital Humanities (DH). Journal of the Association for Information Science and Technology. 2022; 73(2): C1, 141-344. Available at: https://asistdl.onlinelibrary.wiley.com/toc/23301643/2022/73/2. Accessed April 18, 2022.

11. Thaller M. Controversies around the digital humanities: an agenda. Historical Social Research. 2012; 37(3): 7-23. https://doi.org/10.12759/hsr.37.2012.3.7-23.

12. Pogorskiy E. Using personalisation to improve the effectiveness of global educational projects. E-Learn-ing and Digital Media. 2015; 12(1): 57-67. https://doi.org/10.1177%2F2042753014558378.

13. Earnshaw R. Digital Humanities. Research and Development in Digital Media. SpringerBriefs in Computer Science. Springer, Cham. 2018: 79-86. https://doi.org/10.1007/978-3-319-73080-6_6.

14. Thagard P. Being interdisciplinary: Trading zones in cognitive science. Logos. Gaidar Institute Press. 2014; 24(1): 35-60. Available at: https://logosjournal.ru/articles/387555/. Accessed April 18, 2022 (In Russ.).

15. Pogorskiy E. Features of Digital Humanities. Knowledge. Understanding. Skill. 2014; 5. Available at: http://www.zpu-journal.ru/e-zpu/2014/5/Pogorskiy_Digital-Humanities/. Accessed April 18, 2022. (In Russ.).

16. Orekhov B, Gronas M. «Что такое семантическое издание и почему в будущем все издания станут семантическими?». A/Z: Essays in Honor of Alexander Zholkovsky, edited by Dennis Ioffe, Marcus Levitt, Joe Peschio and Igor Pilshchikov, Boston, USA: Academic Studies Press. 2018; 246-268. https://doi. org/10.1515/9781618117212-018 (In Russ.).

17. Severina EM, Larionova MCh. New philological practices: Digital Edition by A. P. Chekhov. Philology: Scientific Research. 2020; 10: 13-21. DOI: 10.7256/2454-0749.2020.10.33970 Available at: https://nbpub-lish.com/library_read_article.php?id=33970. Accessed April 18, 2022. (In Russ.).

18. Bonch-Osmolovskaya A, Skorinkin D, Pavlova I, Kolbasov M, Orekhov B. Tolstoy semanticized: Constructing a digital edition for knowledge discovery. Journal of Web Semantics. 2019; 59, 100483. https://doi. org/10.1016/j.websem.2018.12.001.

19. Chekhov AP. Polnoe sobranie sochinenij i pisem: V 30 t. [Complete works and letters: In 30 volumes]. Academy of Sciences of the USSR. Institute of World Literature named by A. M. Gorky. M.: Nauka. 19741983. Available at: http://feb-web.ru/feb/chekhov/default.asp?/feb/chekhov/texts/che-te02.html Accessed April 18, 2022 (In Russ.).

20. Qiang Fu, Yufan Zhuang, Jiaxin Gu, Yushu Zhu, Xin Guo. Agreeing to Disagree: Choosing Among Eight Topic-Modeling Methods. Big Data Research. 2021; 23, 100173. Available at: https://www.sciencedi-rect.com/science/article/pii/S2214579620300411. Accessed April 18, 2022.

21. Azarenko N. The Concept Suffering as the Main Representative of the Childhood Theme in the Works of F.M. Dostoevsky. Issues of Cognitive Linguistics (Voprosy Kognitivnoy Lingvistiki). 2010; 2: 48-53. Available at: https://cyberleninka.ru/article/n/kontsept-stradanie-kak-osnovnoy-reprezentant-temy-detstva-v-tvorches-tve-f-m-dostoevskogo. Accessed April 18, 2022. (In Russ.).

22. Kutuzov A, Kuzmenko E. WebVectors: A Toolkit for Building Web Interfaces for Vector Semantic Models. In: Ignatov D. et al. (eds) Analysis of Images, Social Networks and Texts. AIST 2016. Communica-

tions in Computer and Information Science. Springer, Cham. 2017; 661: 155-161. https://doi.org/10.1007/978-3-319-52920-2_15.

история статьи:

Получена: 05.04.2022 Принята: 28.04.2022 Опубликована онлайн: 25.06.2022

Article history:

Received: 05.04.2022 Accepted: 28.04.2022 Published online: 25.06.2022

сведения об авторах:

северина Елена михайловна, доктор филосовских наук профессор, Южный федеральный университет, Ростов-на-Дону, Российская Федерация; e-mail: emkovalenko@sfedu.ru.

Бонч-осмоловская Анастасия Александровна, кандидат филологических наук, доцент, Национальный исследовательский университет «Высшая школа экономики», Москва, Российская Федерация; e-mail: abonch@hse.ru.

кудин анастасия михайловна, аспирант, Южный федеральный университет, Ростов-на-Дону, Российская Федерация; e-mail: kudin@sfedu.ru.

Bionotes:

Elena М. Severina, Dr.habil (Philosophy), Southern Federal University, Rostov-on-Don, Russian Federation; e-mail: emkovalenko@sfedu.ru.

Anastasiya A. Bonch-Osmolovskaya, PhD in Philology, National Research University Higher School of Economics (HSE University), Moscow, Russian Federation; e-mail: abonch@hse.ru.

Anastasiya М. Kudin, Postgraduate in Philology, Southern Federal University, Rostov-on-Don, Russian Federation; e-mail: kudin@sfedu.ru.

i Надоели баннеры? Вы всегда можете отключить рекламу.