Научная статья на тему 'Историческая информатика в контексте науки о данных (по материалам круглого стола)'

Историческая информатика в контексте науки о данных (по материалам круглого стола) Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY-NC
739
124
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НАУКА О ДАННЫХ / ИСТОРИЧЕСКАЯ ИНФОРМАТИКА / БОЛЬШИЕ ДАННЫЕ / ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ / ОБУЧЕНИЕ МАШИН / ИСКУССТВЕННЫЕ НЕЙРОСЕТИ / МАТЕМАТИЧЕСКАЯ СТАТИСТИКА / ПРОГРАММИРОВАНИЕ / ОЦИФРОВКА / РАСПОЗНАВАНИЕ / ARTIFICIAL NEURAL NETWORKS / MACHINE LEARNING / ARTIFICIAL INTELLIGENCE / BIG DATA / HISTORICAL INFORMATION SCIENCE / DATA SCIENCE / MATHEMATICAL STATISTICS / PROGRAMMING / DIGITIZATION / IMAGE RECOGNITION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бородкин Леонид Иосифович, Владимиров Владимир Николаевич

Статья посвящена проблемам и перспективам, возникающим в результате быстрого развития науки о данных (Data Science). Предметом исследования в статье выступают положения и замечания, высказанные участниками круглого стола «Методы и технологии Data Science: перспективы использования в исторических исследованиях», инициированного редколлегией журнала "Историческая информатика" и Ассоциацией "История и компьютер" и проведенного 3 июля 2020 г. В работе круглого стола приняли участие более 60 преподавателей, научных сотрудников, а также обучающихся из 5 стран. Дискуссии и обсуждения проходили в онлайн-формате на компьютерной платформе Zoom. В ходе работы круглого стола обсуждались вопросы, связанные с самим термином "наука о данных", проблемы искусственного интеллекта, больших данных и т.п. применительно к задачам, возникающим и решаемым в рамках исторического исследования. Выступающие обращались к проблеме оцифровки исторических источников и распознавания текстов, возможностям использования языков программирования (R и Python) и многим другим вопросам. Сам факт проведения круглого стола и его результаты показали неоспоримую полезность проведенного обмена мнениями и необходимость развивать данную форму научных контактов. Все более насущной становится разработка такого направления, как «цифровое историческое источниковедение».

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Бородкин Леонид Иосифович, Владимиров Владимир Николаевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

HISTORICAL INFORMATION SCIENCE IN THE CONTEXT OF DATA SCIENCE (ROUND TABLE MATERIALS)

The article focused on problems and prospects caused by the rapid development of data science and discusses the opinions and remarks made by the participants of the round table called "Methods and Technologies of Data Science: Its Prospects in Historical Research" held by the editorial board of the "Historical Information Science” journal " and the Association "History and Computer" on July 3, 2020. The round table was attended by over 60 teachers, researchers, as well as students from 5 countries. Online discussions and talks were assisted by Zoom video conferencing service. The participants addressed issues related to the term "data science" itself, artificial intelligence and big data issues. All these were discussed in the light of problems that arise and are solved in the framework of historical research. The speakers addressed the problem of historical sources digitization and text recognition, the opportunities of programming languages (R and Python) use as well as many other issues. The very fact of the round table and its results have demonstrated the undeniable usefulness of the dialogue and the need to develop this form of scientific contacts. It is emphasized that that the development of such a field as "digital historical source studies" is becoming more and more urgent.

Текст научной работы на тему «Историческая информатика в контексте науки о данных (по материалам круглого стола)»

Историческая информатика

Правильная ссылка на статью:

Бородкин Л.И., Владимиров В.Н. — Историческая информатика в контексте науки о данных (по материалам круглого стола) // Историческая информатика. - 2020. - № 2. DOI: 10.7256/2585-7797.2020.2.33549 URL: https;//nbpublish.com'library_read_article.php?id=33549

Историческая информатика в контексте науки (по материалам круглого стола)

Бородкин Леонид Иосифович

доктор исторических наук

профессор, кафедра исторической информатики, МГУ имени МВ.Ломоносова 119991, Россия, г. Москва, ул. Ломоносовский Проспект, 27-4, ауд. 454

И [email protected]

Владимиров Владимир Николаевич

доктор исторических наук

профессор, заведующий кафедрой, ФГБОУ ВО "Алтайский государственный университет"' 656049, Россия, Алтайский край, г. Барнаул, проспект Ленина, 61, ауд. 312

И [email protected]

Статья из рубрики "Хроника научной жизни"

DOI:

10.7256/2585-7797.2020.2.33549

Дата направления статьи в редакцию:

27-07-2020

Аннотация.

Статья посвящена проблемам и перспективам, возникающим в результате быстрого развития науки о данных (Data Science). Предметом исследования в статье выступают положения и замечания, высказанные участниками круглого стола «Методы и технологии Data Science: перспективы использования в исторических исследованиях», инициированного редколлегией журнала "Историческая информатика" и Ассоциацией "История и компьютер" и проведенного 3 июля 2020 г. В работе круглого стола приняли участие более 60 преподавателей, научных сотрудников, а также обучающихся из 5 стран. Дискуссии и обсуждения проходили в онлайн-формате на компьютерной платформе Zoom. В ходе работы круглого стола обсуждались вопросы, связанные с самим термином "наука о данных", проблемы искусственного интеллекта, больших данных и т.п. применительно к задачам, возникающим и решаемым в рамках исторического исследования. Выступающие обращались к проблеме оцифровки

исторических источников и распознавания текстов, возможностям использования языков программирования (R и Python) и многим другим вопросам. Сам факт проведения круглого стола и его результаты показали неоспоримую полезность проведенного обмена мнениями и необходимость развивать данную форму научных контактов. Все более насущной становится разработка такого направления, как «цифровое историческое источниковедение».

Ключевые слова: наука о данных, историческая информатика, большие данные, искусственный интеллект, обучение машин, искусственные нейросети, математическая статистика, программирование, оцифровка, распознавание

Проведение круглого стола «Методы и технологии Data Science: перспективы использования в исторических исследованиях» было инициировано редакционной коллегией журнала «Историческая информатика» и Ассоциацией «История и компьютер» (АИК). Заседание состоялось 3 июля 2020 г. в режиме онлайн. В его работе приняли участие преподаватели, научные сотрудники, аспиранты - исследователи, интересующиеся проблематикой создания цифровых ресурсов и обработки данных, спецификой «больших данных» в гуманитарных исследованиях и другими направлениями быстро развивающейся науки о данных.

Открыл работу круглого стола президент АИК д.и.н. В.Н. Владимиров (Барнаул), отметивший, что обсудить проблемы, связанные с наукой о данных (Data Science) собрались свыше 60 человек из России, Белоруссии, Казахстана, Кыргызстана, Узбекистана. Это говорит, в первую очередь, о заинтересованности в теме, которая предложена к обсуждению. Но не последнюю роль играет и возможность онлайн-общения, которое позволяет вести дискуссию в режиме реального времени, что удается в последнее время из-за сложной санитарно-эпидемиологической обстановки довольно редко.

Выступающий напомнил, что Data Science - это наука о данных, о том, как следует с ними работать, чтобы найти нужное и правильное решение. В более строгом определении - это раздел информатики, связанный с обработкой данных в цифровой форме. Это направление переживает сейчас настоящий бум, не удивительно, что ему посвящены многочисленные конференции, так, например, вторая ежегодная конференция Европейской Ассоциации цифровых гуманитарных наук (EADH), которая состоится в следующем году в Красноярске, имеет название «Данные в междисциплинарном пространстве». Уже известно, что очередная, XVII конференция Ассоциации «История и компьютер», пройдет осенью этого года под названием «Исторические исследования в контексте науки о данных: информационные ресурсы, аналитические методы и цифровые технологии».

Что касается научного сообщества, связанного с исторической информатикой, то в нем всегда уделялось большое внимание данным. Прежде всего, современная квантитативная история, являющаяся одной из важных составных частей предметного поля исторической информатики, уделяла и уделяет огромное внимание анализу данных. Вообще, подготовка данных и выбор адекватных методов их обработки - необходимое условие любого исследования. Создание баз данных и работа с ними всегда пользовались большим вниманием в сообществе историков, применяющих количественные методы и компьютерные технологии в своих исследованиях. Работа с данными неизбежно обращает нас к тому, что мы называем источниками данных, а это,

собственно, и есть исторические источники. Следовательно, наука о данных имеет важнейшее значение для истории, а своеобразной «стыковой» областью здесь является историческое источниковедение, в особенности та его часть, которую можно назвать «цифровым источниковедением», о необходимости разработки которого так много говорится в последнее время. В работах, опирающихся на историческую информатику, не раз высказывалась мысль о необходимости усиления внимания к тщательной подготовке данных для компьютеризованного исследования, что не ставит знак равенства между цифровым и традиционным источниковедением, но сближает их.

Конечно, наука о данных вызвана к жизни прежде всего новыми явлениями, которые отмечены в содержании нашего круглого стола (искусственный интеллект, «большие данные» и т.д.), но и базы данных, и анализ данных также являются ее составной частью.

В заключение В.Н. Владимиров выразил уверенность, что сегодняшний круглый стол окажется для всех чрезвычайно полезным, поскольку кого-то он познакомит с проблематикой науки о данных, кому-то даст возможность углубить свои знания в этом направлении, а кому-то поможет передать свое понимание широкому кругу ис с ле дов а те ле й.

* * *

Основным докладчиком на круглом столе был главный редактор журнала «Историческая информатика», чл.-корр РАН Л.И. Бородкин (Москва), начавший свое выступление с упоминания недавней инициативы Сбербанка, предложившего проект по расшифровке рукописей Петра Первого с помощью технологий искусственного интеллекта (об этом 29 июня с.г. сообщило ТАСС). Важно отметить, что Сбербанк является федеральным центром компетенций в сфере искусственного интеллекта. Это сообщение заинтересовало историков, хотя и вызвало у них ряд скептических оценок перспектив такого проекта.

Адресуясь к основной теме круглого стола, Л.И. Бородкин остановился на следующих, наиболее актуальных, вопросах.

Наука о данных (Data Science)

Этот термин получил широкое распространение с начала 2000-х гг., когда привычные методы обработки и анализа данных, основанные на методах математической статистики, стали активно дополняться методами и технологиями искусственного интеллекта, а затем и больших данных. Статистические методы и сегодня часто рассматриваются как важная компонента науки о данных, но неотъемлемой ее частью стали методы обучения машин, искусственные нейросети и другие технологии искусственного интеллекта. Основная цель универсального специалиста по анализу данных - выявить закономерности в имеющихся данных и извлечь скрытую в них информацию на базе широкого набора аналитических инструментов - от методов математической статистики до машинного обучения, искусственных нейросетей и технологий больших данных. В отличие от традиционного статистического анализа в науке о данных меньше внимания уделяется проверке априорных гипотез, предварительная загрузка данных в модели может не проводиться, но при этом требуется иметь больше компетенций в информационных технологиях, программировании, методах визуализации. И хотя большинство таких специалистов работают в сфере бизнес-приложений, спрос на них растет и в социально-гуманитарных исследованиях. Сегодня уже можно говорить о наметившейся тенденции введения курса «Наука о данных» в учебный план образовательных программ

гуманитарного профиля. Так, на истфаке МГУ уже 40 лет читается семестровый курс математической статистики, обязательный для всех студентов 2-го курса, а специализация на кафедре исторической информатики включает такие дисциплины как «Моделирование исторических процессов» и программирование на языках R и Python (с 2020 г.).

Историк и искусственный интеллект.

В толковом словаре 1992 г. по искусственному интеллекту предложено такое определение этого термина: «Искусственный интеллект - это научное направление, в рамках которого ставятся и решаются задачи аппаратного или программного моделирования тех видов человеческой деятельности, которые традиционно считаются интеллектуальными» (авторы - известные ученые в данной области М.Г. Гаазе-Рапопорт, Д.А. Поспелов и А.Н. Аверкин). Эта область информатики (первоначально - кибернетики) развивается с 1950-х гг. Сегодня искусственный интеллект - широкая область теоретических исследований и прикладных разработок, она включает целый ряд направлений. Для гуманитарных наук актуальными являются машинное обучение (наиболее популярный его вид связан с использованием искусственных нейронных сетей); распознавание образов; экспертные системы (основанные на базах знаний); репрезентация знаний; обработка естественного языка (NLP); нечеткие модели и др.

Имеют ли историки опыт применения методов искусственного интеллекта? Да, такой опыт имеется, и он немалый, берущий начало еще в прошлом веке. Первые публикации в этой области появились в 1980-х - 1990-х гг. и были связаны с применением когнитивных компьютерных моделей понимания текста, а также с разработкой экспертных систем -Ш. Обзор этих ранних работ содержится в нашей статье -t^.

В те годы были предложены специальные методики анализа политических текстов, ориентированные на реконструкцию политического мышления. В нашей стране это направление разрабатывалось В.М. Сергеевым и связанной с ним группой исследователей, которые подвергли когнитологическому анализу исторические тексты целого ряда политических деятелей (включая Бисмарка). Их результаты изложены в сборнике статей, выпущенном в 1990 г. Институтом США и Канады АН СССР: «Когнитивные исследования за рубежом (Идеи и методы искусственного интеллекта в изучении политического мышления)».

Один из примеров такого исследования связан с использованием известной компьютерной программы РЕЛАТУС, которая являлась системой искусственного интеллекта для представления и анализа текстов на английском языке. Она использовалась историками не только для анализа структуры политических выступлений, но и для построения когнитивных моделей, основанных на семантическом содержании э тих те кс то в .

Не меньший интерес представляют и фреймовые системы . Один из первых примеров использования историками концепций искусственного интеллекта связан с проектом RESEDA, реализованным в Париже, в Национальном центре научных исследований в 1980-е гг. Основу его составляет биографическая база данных, включающая сведения о сотнях персонажей истории Франции конца XIV - начала XV вв. Структура базы позволяет акцентировать внимание на выявлении причин тех или иных событий, что достигается за счет введения системы «эпизодов», которые формализуются в виде фреймов, т.е. формальных смысловых конструкций, задающих определенный тип действия.

Интересную экспертную систему (ЭС) для проведения историко-топонимических исследований разработал в начале 1990-х гг. Ю.Е. Храмов. Эта система, получившая название ГИДРОНИМИКОН, предназначена для анализа происхождения гидронимов Восточной Славии (Белоруссии, Украины и Европейской России). В качестве программной оболочки было использовано средство создания экспертных систем ЛО ТА, включающее блок распознавания образов и процедуры дедуктивного вывода.

Разработка программных средств для реализации процедур искусственного интеллекта требует использования специальных языков программирования. Особый интерес для гуманитарных приложений представлял в те годы язык высокого уровня PROLOG, обладавший гибкостью, сравнимой с возможностями «естественных» языков, что позволило Ж. Карвалью разработать экспертную систему, воплощающую опыт

специалистов по восстановлению истории семей ^^ Конкретный вид правил (известных под названием record linkage), применяемых в такой экспертной системе, зависит от периода времени и региона, к которым относятся анализируемые данные.

Первая книга, посвященная использованию экспертных систем в исторических науках, была издана в 1988 г. под редакцией знаменитого французского археолога Жана-Клода Гардена, хотя идеи о привлекательности археологии как области приложения методов искусственного интеллекта высказывались еще в 70-е гг. прошлого столетия. В этой книге Гарден отмечает, что руководимая им группа историков и археологов пришла к необходимости использования ЭС через понимание того, что нужна более прочная основа для аргументации выводов в гуманитарных исследованиях. Используя возможности экспертной оболочки SNARK, Гарден и его коллеги провели исследование шести проблем древней и средневековой истории. Разработка экспертных систем, содержащих базы данных, базы знаний и правила вывода, построенные Гарденом и его коллегами, потребовала четкой формулировки «эмпирико-индуктивных и гипотетико-дедуктивных» процедур аргументации, которые могут использоваться при решении широкого круга историко-археологических задач.

Еще одной апробированной областью для использования ЭС в гуманитарных науках является атрибуция исторических и литературных текстов. В этих задачах весьма эффективной оказалась программная оболочка экспертной системы KES.HT.

Алгоритм машинного обучения был предложен Л.И. Бородкиным при разработке распознающей программы АМСОР, включающей нечеткие решающие правила. Эта программа использовалась при решении задач аграрной типологии Европейской России конца XIX - начала XX вв.-4!. Использование диалогового интерфейса делало эту систему, включающую программу FuzzyClass , гибким инструментом при решении

многомерных классификационных задач, позволяющим учитывать знания эксперта.

* * *

Цифровая трансформация последнего десятилетия способствовала резкому увеличению интереса к возможностям применения технологий искусственного интеллекта во всех прикладных областях. Особенно это коснулось методов машинного обучения в его наиболее распространенном варианте, связанном с возможностями искусственных нейронных сетей. Смысл работы исследователя в простейшем случае связан с тем, что «сеть» (программа) получает на входе объекты обучающей выборки, каждый из которых принадлежит к одному из двух классов (А или В). Сеть «настраивается» на параметры класса А и класса В, а затем может распознавать объекты, принадлежность которых к классам неизвестна.

В XXI в. появились исследовательские проекты, в которых машинное обучение использовалось (уже на новом технологическом витке цифровых технологий и алгоритмов) для решения различных задач в области археологии, сохранения культурного наследия, в конкретно-исторических исследованиях. Дадим очень краткую характеристику этих работ. Подробный обзор будет опубликован в одном из последующих номеров журнала.

Начнем с упоминания о докладах в программе Международной конференции DH 2019 (Утрехт), включающих применение методов искусственного интеллекта в исторических исследованиях.

В докладе китайских авторов были представлены результаты использования машинного обучения с помощью методики SRL (Semantic role labeling), позволяющей реализовать идентификацию определенных событий по хроникам династии Мин --51.

Методы глубокого (машинного) обучения использовались в исследовании Наполеоновских кадастров начала XIX в., охватывавших миллионы земельных участков на территории Европы. Авторы решили задачу их идентификации, сформировав

информационную систему Í61.

Интересное исследование проводилось по материалам корпуса оцифрованных голландских газет второй половины ХХ в., в котором на обучающей выборке была проведена разметка, выделявшая различные жанры газетных статей. В итоге для остальных выпусков с помощью машинного обучения была определена жанровая принадлежность --71.

Актуальной задачей является распознавание отсканированных рукописных и старопечатных текстов - ведь ежедневно делаются доступными пользователю тысячи страниц оцифрованных, но не являющихся машиночитаемыми источников. Надо признать, что существующие методы распознавания знаков таких текстов пока еще далеки от совершенства. Один из представленных в Утрехте докладов был связан с разработкой вспомогательной методики для сегментации строк рукописных текстов в ходе распознавания. Большинство современных методов распознавания рукописного текста работают с сегментированными строками текста. Качество сегментации строк напрямую влияет на производительность системы распознавания. Поэтому в документах с существенно соприкасающимися или перекрывающимися элементами важно четко разделять строки текста. В докладе предлагаются два метода высококачественного разделения таких элементов текста, а также проводится оценка полученной сегментации по тексту средневековой рукописи, имеющей многочисленные перекрывающиеся элементы --81.

В ходе круглого стола участники проявили интерес к литературе о применении методов искусственного интеллекта в прикладных областях истории. Ниже даются соответствующие ссылки.

Археология. Археологи опубликовали немало работ в этом направлении. Здесь методы машинного обучения чаще всего применяются в задачах классификации и типологии 19Ы101,Ш1

Сохранение культурного наследия. В этой области проводятся регулярные конференции и семинары, на которых обсуждаются различные подходы к использованию машинного обучения и искусственных нейросетей в задачах атрибуции объектов культурного

наследия, их типологии, ландшафтных виртуальных реконструкций UlI/USI/U4!/!!5!.

Отметим также, что применение методов искусственного интеллекта в гуманитарных исследованиях вызывает и критические комментарии Ü61.

Историк и большие данные

Если говорить об использовании оцифрованных данных в истории, то и в России, и в других странах абсолютное большинство возникающих задач можно решить на «продвинутых» персональных компьютерах. В то же время появляются задачи, для решения которых мощностей обычной вычислительной техники уже не хватает. Это порождает вопрос: работают ли историки сегодня с большими данными? Ответ зависит от того, какого определения мы придерживаемся. Недавно в нашей стране был принят Национальный стандарт РФ «Большие данные», в котором подробно определены соответствующие дефиниции и технологии. Большие данные (Big D ata ) определяются как большие массивы данных, с учетом таких их характеристик, как объем, разнообразие, скорость обработки и/или вариативность, которые требуют использования технологии масштабирования для эффективного хранения, обработки, управления и анализа. Масштабирование подразумевает возможность расширения репозиториев поступающих потоковых данных и их обработку на параллельно работающих распределенных ресурсах.

Эти технологии альтернативны традиционным технологиям баз данных. Хотя строгое определение больших данных подразумевает их потоковую природу (непрерывное их поступление), в практике социально-гуманитарных исследований такие данные встречаются редко (исключение сводится, пожалуй, к исследованиям социальных сетей с их непрерывным информационным потоком, порождаемым Интернет-сервисами); зато в исторических исследованиях возникает необходимость анализа огромного объема разнородных источниковых данных, работа с которыми не может производиться с использованием компьютеров и стандартного программного обеспечения, привычных для пользователей-историков. Даже при отсутствии потоковых данных хранение и обработка информационного массива, объем которого исчисляется десятками и сотнями терабайт, требует специальных технических и программно-алгоритмических решений, поскольку стандартные аппаратные и программные средства в подобных ситуациях бесполезны. При этом данные должны быть распределены, как правило, по вычислительным узлам, кластерам. В этой связи встает также вопрос о языках программирования для обеспечения эффективной обработки больших данных с использованием параллельных вычислений (примеры таких языков - Python, R и др).

Материалы ряда недавних конференций по технологиям Big Data позволяют сделать вывод о том, что сегодня в отмеченных ситуациях говорят о допустимом расширении определения больших данных, когда данные могут не иметь потоковой природы, но объем их настолько велик, что не может храниться и обрабатываться стандартными средствами. Характерной особенностью таких данных в исторических исследованиях является не только огромный объем источниковых данных, лежащих в основе масштабных компаративных исследовательских проектов, реализуемых историками в составе международных коллабораций, но и вариативность, поливидовой характер этих источниковых комплексов. На сегодняшний день есть несколько таких примеров. Так, британские историки провели (в коллаборации с коллегами из Канады и США) обработку данных переписей населения Англии, проведенных в 1851-1911 гг., на основе первичных переписных листов, охвативших 190 млн. персоналий. Очевидно, хранение и обработка такого массива данных на ноутбуках, с использованием обычных технологий

баз данных и статистических программ, не может быть реализована, здесь потребовались технологии Big Data. Таких примеров пока совсем немного-17!, но по мере расширения международных коллабораций историков, работающих в рамках масштабных компаративных проектов с достаточным финансированием, технологии Big Data могут оказаться более востребованными.

Нередко в последние годы в публикациях историков или в докладах на конференциях исторического профиля можно прочитать или услышать, что авторы работают с большими данными. При ближайшем рассмотрении оказывается, что речь идет о том, что создана база данных, включающая уже несколько тысяч или десятков тысяч записей - «это много, можно считать, что это уже большие данные». Разумеется, в таких работах не возникает необходимости в алгоритмах и технологиях параллельной обработки данных, когда выполнение операций распределено между узлами компьютерной сети. Теперь, в связи с принятием Национального стандарта больших данных (согласованного с Международным стандартом), вопрос об использовании гуманитариями терминологии Big Data требует большей корректности.

Подводя итоги своего выступления, Л.И. Бородкин отметил, что арсенал методов науки о данных продолжает расширяться, перспективы применения историками новых методов и технологий, охарактеризованных выше, представляются вполне оптимистичными; но сегодня основную роль в обработке данных исторических источников играют по-прежнему методы статистического анализа. И это справедливо при работе как со

статистическими, так и с текстовыми источниками.

* * *

Вторая часть круглого стола включала выступления, вопросы и дискуссии участников. В презентации, представленной доцентом кафедры технологий программирования Полоцкого государственного университета, к.т.н. А.Ф. Оськиным (Полоцк), были рассмотрены вопросы, связанные с методологией проведения интеллектуального анализа данных. Кроме того, выступающий коснулся проблем обучения этой методологии и выбора языка программирования.

CRISP-DM (Cross-Industry Standard Process for Data Mining - межотраслевой стандартный процесс для исследования данных) - это наиболее распространенная, подтвердившая свою высокую эффективность методология проведения интеллектуального анализа данных, широко применяемая в промышленности. С не меньшим успехом данная методология может быть использована для проведения анализа данных в исторических исследованиях.

Жизненный цикл исследования, выполняемого в соответствии с методологией CRISP-DM, состоит из шести стадий: понимание бизнес-целей, начальное изучение данных, подготовка данных, моделирование, оценка полученных результатов и внедрение. Наиболее трудоёмкими являются стадии начального изучения и подготовки данных. По оценкам экспертов, на выполнение этих этапов затрачивается до 80% всего времени работы над проектом. В этой связи актуальными становятся проблемы автоматизации этих стадий процесса, и, как следствие, выбор наиболее подходящего языка программирования. По мнению докладчика, наиболее подходящим для решения сформулированных проблем является язык R. В презентации были кратко обсуждены достоинства этого языка и перечислены ресурсы, с помощью которых его изучение и последующее использование может быть организовано наиболее эффективно.

В заключение было рассмотрено два ресурса, знакомство с которыми желательно для всех занимающихся интеллектуальным анализом данных. Kaggle

(https://www.kaggle.com) - это социальная сеть специалистов по обработке данных и машинному обучению, а также система организации конкурсов по исследованию данных KDnuggets™ (https://www.kdnuggets.com/) - интернет-портал, посвященный таким научным направлениям, как искусственный интеллект, большие данные, интеллектуальный анализ данных, наука о данных, машинное обучение.

На круглом столе выступили также к.и.н. И.Н. Киселев (Москва), акцентировавший внимание слушателей на проблемах оцифровки архивных документов и д.и.н. И.М. Гарскова (Москва), обратившая внимание на особенности программирования в среде языков R и Python (использование интерфейса командной строки), что ограничивает возможности их широкого использования гуманитариями. Д.и.н. С.И. Корниенко (Пермь) остановился в своем выступлении на трудностях оцифровки дореволюционных газет, опираясь на опыт выполнения ряда проектов в Пермском государственном университете, и выразил мнение об отсутствии на сегодняшний день надежных и эффективных средств распознавания газетных текстов.

Параллельно основной «голосовой» дискуссии проходило и весьма активное обсуждение поставленных вопросов в чате Zoom-конференции. Конечно, здесь не было столь развернутых и аргументированных выступлений, однако, формулировались интересные вопросы и некоторые моменты, которые можно назвать концептуальными. Активными участниками дискуссии были к.и.н. А.А. Акашева (Нижний Новгород), к.и.н. И.Г. Силина (Москва), д.и.н. Е.М. Главацкая (Екатеринбург) и многие другие.

Основной импульс начала «письменной» дискуссии дало изложенное выше выступление Л.И. Бородкина. Наибольший отклик нашли разделы доклада о возможностях искусственного интеллекта и их использовании, в частности, при оцифровке и распознавании исторических текстов. Интересные мысли были высказаны, например, о роли биологических подходов в этом направлении, например, использовании нейросетей (М. Лопатин, Калининград). При этом к.ф-м.н. Ю.В.Кузьмин (Москва) подчеркнул, что мы должны понимать процедуру получения научного результата, чего не происходит при использовании искусственных нейросетей. Это приемлемо для практической деятельности, но противоречит идее научного подхода. Отвечая на заданный вопрос о примерах применения искусственного интеллекта в исторических работах, Е.М. Главацкая указала, в частности, на статью норвежского исследователя Г. Торвальдсена «Связывание записей в историческом регистре населения Норвегии», опубликованную в журнале «Историческая информатика» (№2 за 2019 г.).

Многие участники круглого стола подчеркивали, что проблемы, связанные с распознаванием различных текстов, до сих пор не решены. Стоит вспомнить, что подобные дискуссии активно разворачивались примерно четверть века назад, но сегодня оказывается, что прогресс в этой области не столь велик, как этого бы хотелось историкам-исследователям.

От проблем распознавания дискуссия неизбежно перешла в русло обсуждения организационных проблем, связанных с созданием цифровых исторических источников. Отмечалась определенная стихийность в этом направлении и такая проблема нашей науки, как отсутствие больших «цифровых» проектов национального охвата и масштаба. Материалом для них могли бы быть массивы таких источников, как метрические книги, разного рода переписи и т.п. Участники круглого стола вспоминали, в частности, такой проект, как Банк (консорциум) исторических данных, появившийся в МГУ в 1990-е гг., но

не получивший дальнейшего развития в связи с отсутствием финансирования. Подводя некоторый итог этого витка дискуссии, И.М. Гарскова отметила, что оцифровку, пусть и без распознавания, надо активно продолжать с надеждой на решение проблем распознавания, но ждать этого придется еще достаточно долго.

Круглый стол продолжался свыше трех часов. Значение его для сообщества исследователей, применяющих математические методы и компьютерные технологии в своих исследованиях, трудно переоценить. Первый обмен мнениями в области соотношения исторической информатики и науки о данных показал, что в нашей исследовательской области имеются серьезные наработки в части как накопления данных, так и их обработки. Еще раз подтвердилось, что все более насущной задачей становится разработка такого направления, как «цифровое историческое источниковедение». Предстоящая конференция АИК, где данным будет уделено особое внимание, может стать важным событием в развитии исторической информатики в современных реалиях.

Библиография

1. Бородкин Л.И. Методы искусственного интеллекта: новые горизонты исторического познания // Информационный Бюллетень Комиссии по применению математических методов и ЭВМ в исторических исследованиях при отделении истории РАН. 1992. № 5. С. 4-16.

2. Бородкин Л.И. Становление исторической информатики в России: первые шаги историков на пути «микрокомпьютерной революции» // Историческая информатика. - 2017. - №3. - С. 155-172. DOI: 10.7256/2585-7797.2017.3.24709 URL:

https ://nbpublish.com/library_read_article.php?id = 24709

3. Carvalho J. Expert Systems and Community Reconstruction Studies // History and Computing II / P. Denley, S. Fodelvik, and Ch. Harvey (eds.). Manchester University Press, 1989.-290 p.

4. Бородкин Л.И., Ковальченко И.Д. Два пути буржуазной аграрной эволюции в Европейской России (Опыт многомерного типологического анализа) // Аграрная эволюция России и США в XIX-начале XX в. М., 1991. С.18-47.

5. Tsai, Richard Tzong-Han; Lu, Yi-Hsuan; Wang, Yu-Chun; Fan, I-Chun. Event Extraction on Classical Chinese Historical Texts: A Case Study of Extracting Tributary Events from the Ming Shilu. [Электронный ресурс.] URL:

https://dev.clariah.nl/files/dh2019/boa/0987.html. Дата обращения - 20.07.2020.

6. Ares Oliveira, Sofia; di Lenardo, Isabella; Tourenc, Bastien; Kaplan, Frederic. A deep learning approach to Cadastral Computing. [Электронный ресурс.] URL: https://dev.clariah.nl/files/dh2019/boa/0691.html. Дата обращения - 20.07.2020.

7. Smeenk, Kim; Bilgin, Aysenur; Klaver, Tom; Tjong Kim Sang, Erik; Hollink, Laura; van Ossenbruggen, Jacco; Harbers, Frank; Broersma, Marcel. Grounding Paradigmatic Shifts In Newspaper Reporting In Big Data. Analysing Journalism History By Using Transparent Automatic Genre Classification. [Электронный ресурс.] URL: https://dev.clariah.nl/files/dh2019/boa/0774.html. Дата обращения - 20.07.2020.

8. HeBe, Sascha. Clean Separation Of Overlapping Components In Line Segmentation Of Historic Handwritten Documents. [Электронный ресурс.] URL: http://staticweb.hum.uu.nl/dh2019/dh2019.adho.org/papers/index.html. Дата обращения - 20.07.2020.

9. Computational intelligence in archaeology / Juan A. Barcelo, editor. Information Science Reference, London, 2009.-437 p.

10. Jorge Lazo. Can Deep Learning help us to rediscover the past? An application of Deep Learning to Archaeology. [Электронный ресурс.] URL:

https ://towardsdatascience.com/can-deep-learning-help-us-to-rediscover-the-past-5fa940c4e6c3. Дата обращения - 20.07.2020.

11. H.A. Orgengo, F.C. Conesa, A. Garcia-Molsosa, A. Lobo, A.S. Green, M. Madella and C.A. Petrie. Automated detection of archaeological mounds using machine-learning classification of multisensor and multitemporal satellite data // Proceedings of the National Academy of Sciences, July 2020, 202005583; DOI: https://doi.org/10.1073/pnas.2005583117.

12. Artificial Intelligence for Cultural Heritage. Edited by Luciana Bordoni, Francesco Mele and Antonio Sorgente. Cambridge, 2016.-148 p.

13. Knyaz, V.A., Vygolov, O.V., Kniaz, V.V., Vizilter, Y.V., Gorbatsevich, V.S., Luhmann, T. and Conen, N. Deep learning of convolutional auto-encoder for image matching and 3D object reconstruction in the infrared range. Proceedings - 2017 IEEE International Conference on Computer Vision Workshops, ICCVW 2017. P. 2155-2164.

14. Chambers S., Coudyzer E., Kestemont V. Gaining INSIGHT: exploring the application of Artificial Intelligence to the automatic classification of cultural heritage objects. DH Benelux 2019: Short Paper Abstract. [Электронный ресурс.] URL: http://2019.dhbenelux.org/wp-

content/uploads/sites/13/2019/08/DH_Benelux_2019_paper_72.pdf. Дата обращения -20.07.2020.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

15. The Proceedings of the AI*CH 2017. The 11th workshop on Artificial Intelligence for Cultural Heritage. Workshop co-located with AI*IA 2017 Bari, Italy, November 14, 2017. [Электронный ресурс.] URL: http://smcm.isasi.cnr.it/AIxCH2017. Дата обращения - 20.07.2020.

16. C. Bassett, D.M. Berry, M.B. Fazi, J. Pay, B. Roberts. Critical Digital Humanities and Machine-Learning. Digital Humanities 2017. Montreal, Canada, August 8-11, 2017. [Электронный ресурс.] URL: https://dh2017.adho.org/abstracts/509/509.pdf. Дата обращения - 20.07.2020.

17. Бородкин Л.И. — Историк и мир (больших) данных: вызовы цифрового поворота // Историческая информатика. - 2019. - № 3. - С. 14-30. DOI: 10.7256/25857797.2019.3.31383 URL: https://nbpublish.com/library_read_article.php?id = 3138

Результаты процедуры рецензирования статьи

В связи с политикой двойного слепого рецензирования личность рецензента не раскрывается.

Со списком рецензентов издательства можно ознакомиться здесь.

Рецензируемая статья отражает растущий интерес историков к новым возможностям обработки и анализа данных исторических источников на основе науки о данных (Data Science). Наука о данных включает традиционную часть - методы математической статистики и новый раздел, включающий методы и технологии искусственного интеллекта и больших данных. Именно этому актуальному разделу науки о данных уделяется основное внимание в данной статье, содержащей аналитический обзор круглого стола, состоявшегося в июле 2020 г. по инициативе редколлегии журнала «Историческая информатика» и ассоциации «История и компьютер». Пандемия текущего года продиктовала онлайн формат проведения этой дискуссии, который имел и свои положительные стороны: во-первых, круглый стол оказался представительным (в его работе смогли принять участие более 60 человек из России и 4-х стран Ближнего

зарубежья); во-вторых, как отмечается в статье, этот формат создал новые возможности для дискуссии - кроме выступлений «в прямом эфире» параллельно шли обсуждения, поступали реплики и предложения в чате ( в статье это обозначено как «письменная дискуссия»). Представленный обзор носит выраженный аналитический характер, далекий от сухого изложения выступлений участников. Развернутые выступления двух ведущих круглого стола четко обозначают заявленную проблематику, инициируя ход последующей дискуссии. Достоинством этих выступлений является представленный экскурс в предысторию применения методов искусственного интеллекта в работах отечественных историков, ведущих свое начало с 1980-х гг. Поэтому становится ясно, что высокая волна сегодняшнего интереса к возможностям искусственного интеллекта во всех прикладных сферах деятельности является для наших историков второй, по сути, волной, расширяющей методические возможности исторических исследований, использующих методы искусственного интеллекта. В этой связи представляет интерес высказанное в статье наблюдение: если на первой волне в центре внимания историков были возможности применения экспертных систем, то на второй, нынешней волне фокус сместился в сторону методов машинного обучения, искусственных нейронных сетей. Важно, что в статье даются примеры использования историками этих востребованных сегодня направлений искусственного интеллекта. С этой целью привлекаются материалы докладов, представленных на профильных международных конференциях последних лет. Не меньший интерес представляет и вторая рассматриваемая в статья методическая компонента Data Science: Большие данные. Как отмечается автором, неоднократно высказанное мнение о том, что историки уже используют технологии больших данных, требует сегодня критической оценки в связи с тем, что в этом году в России принят Национальный стандарт больших данных, включающий технологии распределенного хранения и обработки данных, параллельных вычислений. Примеры использования таких технологий историками пока единичны (в статье приводится один такой пример, связанный с масштабным компаративным проектом по исследованию демографических процессов в Англии XIX века). Статья обладает необходимой новизной, в ней впервые рассматриваются вопросы использования методов науки о данных в исторических исследованиях. Она написана академическим языком, имеет логичную структуру и представляет безусловный интерес для широкого круга читателей. Статью можно рекомендовать к публикации в представленном виде.

i Надоели баннеры? Вы всегда можете отключить рекламу.