УДК 004.65+004.912
М. В. Леонов, В. Г. Баула, В. В. Козырев3
КОНФЕДЕРАТИВНАЯ БАЗА ДАННЫХ ПО СТУДЕНТАМ МОСКОВСКОГО УНИВЕРСИТЕТА ДО 1917 года
Работа посвящена междисциплинарному проекту по разработке и созданию информационной системы по студентам Московского университета до 1917 года. Авторы вводят понятие конфедеративной базы данных (БД), считая эту конструкцию наиболее удобным инструментом решения поставленной задачи и ей аналогичных. Оболочка системы и утилиты написаны на языке Object Pascal с использованием библиотеки Lazarus. На текущий момент для системы подготовлены годичные базы данных по 1835, 1886/87, 1901/02 и 1912/13 академическим годам.
Ключевые слова: информационная система, история Московского университета, конфедеративная база данных, информационные технологии в гуманитарных исследованиях.
1. Введение. Практически все значимые университеты мира ведут и хранят списки своих студентов (имматрикуляционные списки). До 1917 г. Московский университет выпускал ежегодные "Алфавитные списки студентов ..." (см., например, [1]), которые в настоящее время являются библиографической редкостью. Актуальность задачи вовлечения этих данных в научный и общественный оборот ни у кого не должна вызывать сомнений. Ясно, что простое сканирование этих антикварных справочников, даже если выложить эти материалы в общий доступ, нельзя считать приемлемым решением проблемы. Необходим хорошо структурированный и легкий в использовании электронный ресурс, который может использоваться в современных электронных средствах поиска и анализа данных.
2. Особенности предметной области. После анализа предметной области стало ясно, что создание единой базы данных (БД) по стандартным канонам технологии баз данных труднореализуемо по целому ряду причин. Во-первых, данные по студентам в списках различных лет (от 1834 до 1916 г.) имеют сильно отличающийся "репертуар" и приводить набор атрибутов БД к единому знаменателю нецелесообразно.
Например, в некоторых списках указывался возраст студента, в других — год рождения. Списки 1842/43 г. содержат следующие графы: имя, фамилия, из какого звания, где прежде обучался, казеннокоштный или своекоштный*, факультет, курс, примечание о повторном обучении. Списки 1865 г. — фамилия, имя, факультет, курс, чей стипендиат, примечание о повторном обучении. Списки 1915/16 г.: фамилия, имя, отчество, факультет, вероисповедание, социальное происхождение, год рождения, место рождения, место предварительного образования, номер аттестата или свидетельства зрелости и год его получения, год поступления в университет, а иногда данные о дополнительных испытаниях. В списках присутствуют многочисленные сокращения, непонятные порой даже историкам. Таким образом, подготовка данных для компьютерного ввода без потерь значимой информации требует большого объема хотя и технического, но достаточно квалифицированного труда. Такие системы иногда относят к историко-ориентированным информационным системам.
3. Метод решения и его обоснование. Каждый годичный список может представлять собой основу для отдельной базы данных и соответствующей ей информационной системы, содержащей исторически важные, можно сказать, хрестоматийные данные по истории России и Московского университета соответствующего периода.
1 Факультет ВМК МГУ, ведущ. науч. сотр., к.б.н., e-mail: Leonow_M_WQcs.msu.su
2 Факультет ВМК МГУ, доц., к.ф.-м.н., e-mail: baulaQcs.msu.su
3 Факультет ВМК МГУ, инж., e-mail: vvkozyrevQgmail.com
*Казеннокоштный — обучаемый и содержащийся за счет государственных средств, своекоштный — обучаемый за собственный счет.
Поэтому был выбран поэтапный подход компьютеризации архивных данных отдельно по различающимся формам списков академических годов. Необходимость такого подхода, кроме существенно различных наборов атрибутов БД для разных лет, можно аргументировать и другими причинами. Во-первых, необходимо было предусмотреть распараллеливание работ по проекту, учитывая огромный объем как технических данных, так и необходимость консультирования у специалистов по истории, так что деление БД по академическим годам здесь вполне оправдано. Во-вторых, важно было относительно быстро получить реальный результат, имеющий самостоятельное значение, т. е. создать прототип работающей системы. В-третьих, принятое разделение на отдельные БД дает возможность в порядке эксперимента безболезненно для других компонентов проекта расширять некоторые годичные БД дополнительными сведениями, например источниками из личных дел студентов, хранящихся в центральном государственном архиве Москвы (ЦГАМ) и т.д.
Примером такой информационной системы можно считать информационную систему по студентам 1901/02 г., представленную в работе [2]. Кроме полей, содержащих данные из первоисточника, БД имеет также "интегральные" поля, которые может заполнять историк-исследователь для собственного анализа. Такие поля предусмотрены для вероисповедания, социального происхождения, места рождения. Пользователь-специалист может с их помощью нужным для своих целей образом укрупнять значения первоначальных полей.
Наиболее адекватным методом решения задачи нам представляется реализации концепции конфедеративной БД, которую можно определить следующим образом. Имеется совокупность достаточно независимых (в нашем случае годичных) БД, каждая — со своим набором таблиц. Кроме того, есть общий пользовательский интерфейс (программная оболочка), который позволяет по некоторому набору атрибутов получать ответы на запросы по всем БД "конфедерации". Реализуется также общий набор процедур и утилит, обеспечивающих обновление интегрированного списка основных данных (из годичных БД), который и служит источником для запросов пользователя. Единственным требованием является присутствие во всех БД "конфедерации" нескольких обязательных атрибутов (в нашем случае, годы источника данных и фамилии студента). На ранних этапах проекта мы использовали термин "федеративная база данных" [3], от которого пришлось отказаться: в настоящее время этот термин фактически является синонимом понятия распределенной БД, в которой особую роль играет скорость доступа к данным. По нашему мнению, термин конфедеративная база данных вполне оправдан для решения задач, аналогичных рассматриваемой нами.
Независимость БД имеет несколько преимуществ. Допустим, группа исследователей решила улучшить БД, например, дополнив новыми полями, привязкой отсканированных фотографий и личных дел, найденных в архиве, и т.д. Это улучшение практически не потребует переработки имеющихся компонент системы, а лишь добавления новых программных утилит-обработчиков.
4. Архитектура пакета и интерфейс. Программное обеспечение состоит из редакторов годичных БД и оболочки пользовательского интерфейса.
Наиболее популярный запрос к бумажному имматрикуляционному архиву можно выразить следующим образом: "Есть ли сведения по определенной фамилии в определенном диапазоне лет?". Обычно результат такого запроса выдают в виде "твердой копии", подписанной архивистом. В нашей системе ответ на такой запрос представляет собой несколько таблиц (число которых определяется числом БД, в которых встречается указанная фамилия). Объединять в единую таблицу эти данные нецелесообразно, так как уж слишком разнятся между собой наборы атрибутов этих БД. Результат такого запроса и в нашем случае целесообразно выдавать в виде "твердой копии": ведь полученные данные обычно требуют довольно большого объема работы и дополнительного анализа специалиста.
В настоящее время запросы по поиску данных реализованы двумя способами: через пользовательский интерфейс и командную строку. Соответственно ответы на запросы оформляются двумя способами: в виде привычной таблицы на экране и в виде текстового файла, пригодного для дальнейшей автоматической обработки.
В интерактивном режиме доступа можно выбрать для поиска одну или несколько БД, входящих в систему. Допускается поиск по значениям одного или двух полей, причем условия поиска можно объединять как логическим И, так и логическим ИЛИ. Для некоторых БД (в настоящее время для 1886/87 и 1913/14 гг.), в ответ на запрос, кроме основных данных, на экран могут выдаваться отсканированные страницы оригинального документа, на которых приведены данные по вошедшим в ответ на запрос студентам.
Ниже приведен пример вывода ответа на запрос по фамилии Иванов в 1886 г. Из-за соображений компактности приведена только "сокращенная форма" в формате CSV. Эту форму можно считать промежуточной и подлежащей дальнейшей обработке, но содержательно она полна. В первой строке — имя БД, во второй — названия полей, значения которых выведены в ответе на запрос.
Имя БД "1886/1887 учебный год"
Фамилия;имя;отчество;факультет;семестр;содиальное_положение;место_рождения; год_рождения;место_предварительного_образования;год_поступления.
Зетилов (он же Иванов);Андрей;;Мед.;7;мещ.;Тверск.;1861;Тверс. г.;1883;
Иванов;Александр.;;Ест.;мещ.;Рост.-на-Д.;1863;Рост.-на-Д. г. ;;
Иванов;Александр.;;Юр.;1;с. куп.;1865;Тулъс. г.;1885;
Иванов ¡Александр.;; Юр.; 7; с. mum. сов. ¡Рязань. ;1864;Рязанс. г. ¡1883;
Иванов;Александр;Иванович;Мед.;3;мещ.¡Ярослав.;1863¡Ярослав, г. ;;
Ив а нов ¡Алекса ндр ¡Николаевич. ¡Мед. ;3;Дв. ¡Рязанск. ;1866;Рязанск. г.;;
Ив анов; Алексей. ¡¡Ест. ;3;кр.; Смоленс. ¡1865¡Моск. 1 г.;;
Иванов;Алексей.¡¡Мед.;3;мещ.¡Владим.;1863;Моск. 2 г.;;
Иванов;Василий.;;Юр.;3;мещ.;Тверс.;1862;Тверск. г. ;;
Ив а,нов ¡Виктор. ;;Мат. ;5;дв.; Тамбове. ;1866;Рязанск. г. ;1884;
Иванов;Владимир.;;Фил.;3;мещ.;Рост.-на-Д.;1866;Рост.-на-Д. г.:б. ст. Хар. у.;;
Ива,нов;Владимир;;Мед.;1;с. кол. секр.;1862;Виленск. 2 г. К.;;
5. Заключение. В настоящий момент конфедеративная БД состоит из баз данных по 1901/02 академическому году [1], а также БД по 1834/35, 1886/87 и 1913/14 гг. (первая под управлением СУБД MySQL, остальные под управлением СУБД SQLite). Оболочка и утилиты написаны на языке Object Pascal с использованием библиотеки Lazarus. О проекте докладывалось на конференции 2012 г. в г. Саратове [4] и Ломоносовских чтениях 2014 г. на факультете ВМК МГУ [3].
Авторы выражают свою искреннюю благодарность за помощь, содействие в работе и поддержку чл.-корр. РАН Л. Н. Королёву, директору Музея истории МГУ A.C. Орлову, заведующей отделом редких книг и рукописей Научной библиотеки МГУ И. Л. Великодной, заведующей отделом записи информации той же библиотеки Е. А. Илясовой.
СПИСОК ЛИТЕРАТУРЫ
1. Алфавитный список студентов Императорского Московского Университета за 1901/902 академический год. М.: Университетская типография, 1901.
2. Леонов М.В., Пенкин С. А., Егоренкова М. А. Информационная система по студентам Московского университета 1901/02 учебного года // Программные системы и инструменты. № 13. М.: Изд. отдел ф-та ВМиК МГУ, 2012. С. 147-151.
3.Леонов М.В., Козырев В.В. Федеративная база данных по дореволюционным студентам Московского университета // Ломоносовские чтения: науч. конф. М.: Изд-во ф-та ВМК МГУ, 2014. С. 67.
4. Леонов М.В., Орлов A.C. Опыт создания баз данных по истории Московского университета // Актуальные проблемы российской цивилизации и методики преподавания истории. Саратов: Изд. центр "Наука", 2013. С. 216-224.
Поступила в редакцию 09.06.14
THE CONFEDERATIONAL DATABASE ON MOSCOW UNIVERSITY STUDENTS BEFORE 1917 YEAR
Leonov M. V., Baula V. G., Kozyrev V. V.
The work is devoted to the multi-disciplinary project of information system based on matriculation lists of the Moscow University before 1917 year. The notation of a confederational database is introduced, which, in the authors' opinion, in the most convenient tool to solve this problem as well as similar ones. Both user interface and utilities are written in the Object Pascal language using Lazarus library. Currently, yearly databases for 1835, 1886/87, 1901/02, 1912/13 are prepared.
Keywords: information system, history of Moscow University, confederation database, IT in humanities.