Обложка

Об этом уникальном проекте вы ещё не раз услышите

Пожалуй, будет преувеличением сравнивать то начинание, которое предпринято сейчас в Красноярске, с открытием берестяных грамот, обретением кумранских свитков или расшифровкой письма майя. Тем не менее в Сибирском федеральном университете готовят к введению в научный оборот целый корпус ценнейших источников, после чего отечественная историческая наука уже не будет прежней. Речь идёт о полном издании губернаторских отчётов Енисейской губернии. И не торопитесь заявлять, что в этом нет ничего особенного.

Масштаб проекта

Идея опубликовать ВСЕ отчёты губернаторов Енисейской губернии принадлежит ректору СФУ Максиму Румянцеву и краеведу Леониду Бердникову. Идея понятная и красивая, но только человеку неискушённому эта работа может показаться простой. Приступив к ней, университет столкнулся с целым рядом подводных камней, интересных исследовательских задач и вызовов.

Уже одно выявление отчётов оказалось делом нетривиальным. Рукописи (а это поначалу полностью рукописи, только с 1870-х годов к рукописному отчёту добавляется изданное типографским способом приложение — «Обзор Енисейской губернии») находятся на хранении в разных архивах. Далеко не все отчёты внесены в цифровые каталоги, и вообще неизвестно — сколько отчётов было. Первые 15 лет существования губернии отчёты встречались точечно — удалось выявить 5 штук. Это первый отчёт, который писал ещё сам первый губернатор А. Степанов, потом за 1828, 1829, 1837, 1839 годы. Дальше отчёты стали ежегодными. В год первой русской революции отчёты по многим губерниям не писались, не выявлен такой и по Енисейской губернии. За период с 1912 по 1917 гг. в большом каталоге Российского государственного исторического архива (РГИА) ни по одной губернии отчётов также нет. То есть даже сколько было в природе отчётов — неизвестно.

Следующий шаг — получение копии конкретного отчёта из архива. Архивы загружены работой и не спешат делиться своей собственностью. Зачастую для получения копии требуется заключить с архивом договор, оплатить его (подходы к оплате тоже могут не совпадать) и ждать несколько месяцев.

Далее — распознание и адаптация текста. Мало того что каллиграфия двухвековой давности отличается от современной. Отдельные рукописи пришли в столь плачевное состояние (архивы и горели, и затапливались), что могут считаться частично утраченными.

Работа по распознанию — многоэтапная и медленная. Один человек потратил бы на неё всю жизнь. Значит, нужна большая команда волонтёров (их ещё надо обучить), которые смогут расшифровать рукопись хотя бы в первом приближении. Потом корректность расшифровки обязательно должен проверить и завизировать профессиональный историк. Для такой многоуровневой и многосубъектной работы требуется создание специальной интерактивной платформы (её сейчас как раз тестируют).

Сопровождение публикации научно-справочным аппаратом — опять же процесс не быстрый. И это мы ещё не приблизились собственно к изданию.

В своё время работу по выявлению отчётов и получению доступных копий начинал Павел Захаров, заместитель руководителя департамента информационных технологий. Он же вместе с начальником отдела цифрового сопровождения офиса развития научной деятельности Андреем Бархатовым подбирал программы для распознания текста, занимался созданием платформы для загрузки документов и сейчас отслеживает этапы выполнения проекта в диаграмме Ганта, дополненной некоторыми удобными опциями, чтобы было видно: обнаружен ли документ в архиве, начали ли его распознавать, на какой стадии работа и т.д. Так вот, оценивая сделанное, программа выдаёт автоматический результат: на июль 2023 года выполнено 6% от всего массива требуемых работ.

Не боги горшки обжигают

Недавно участник проекта Антон Суржко, специалист по документационному обеспечению Центра исторической регионалистики Енисейской Сибири, вернулся из очередной командировки по архивам. И бесплатно привёз копии ряда недостающих отчётов.

— Это абсолютно легальная процедура, если отчёты есть в оцифрованном виде. Ты просто фотографируешь с монитора. Соответственно, необходимость ждать, когда нам предоставят копии по 13 отчётам, отпала. Сейчас из Санкт-Петербурга мы ожидаем 5 отчётов, которые были выявлены в результате командировки впервые. Плюс в Красноярском государственном архиве обнаружено 13 отчётов, из них половину также удалось получить через нашу библиотеку, остальные ожидаем в скором времени.

На фото — часть команды, работающей над этим масштабным проектом

На фото — часть команды, работающей над этим масштабным проектом

По словам П. Захарова, на сегодня выявлено 77 отчётов, из них 45 получены в оцифрованном виде. А всего по предварительной прикидке должно быть около 90 отчётов, остальные до сих пор не найдены либо их и не было.

Дважды в месяц непосредственно у ректора, руководителя рабочей группы проекта, собирается вся команда. Докладывают результаты, обсуждают возникающие проблемы. В общей сложности предстоит расшифровать и издать более 6 тысяч листов. Скоро ректору представят проект работы с волонтёрами, разработают детальную инструкцию алгоритма их действий. Для них будут проводиться и очные консультации с техническими специалистами. Постоянный контакт планируют держать в телеграм-канале в режиме 24/7.

Здесь хочется вспомнить один зарубежный опыт. Несколько лет назад в СФУ проводилась конференция «Информационные технологии в гуманитарных науках». В числе прочих был представлен проект Лондонского университета по оцифровке 50 тысяч рукописей философа и реформатора Джереми Бентама. Университет их отсканировал, а вот для расшифровки пригласил англоязычных волонтёров со всего мира. И на этот призыв откликнулось 20 тысяч добровольцев! УЖ писал об этом.

Похоже, примерно то же собираются осуществить в СФУ.

— Проект будет открыт для всех, — подтверждает директор Гуманитарного института СФУ Андрей Груздев. — Это может быть не только техническая работа по набору текста. Нужны, например, IT-специалисты, которые будут модерировать коммуникацию. Кто-то захочет готовить интерпретации и т.д. Вообще, проект интересен именно своей междисциплинарностью. Данные, которые содержат отчёты, смогут использовать экономисты, социологи, демографы, филологи, геологи и др. Для нашего института этот проект, по оценке ректора, должен стать настоящим локомотивом, поскольку не только состоявшиеся исследователи будут пользоваться его материалами, расширят темы исследований, но и студенты в работе над проектом получат важные профессиональные компетенции.

Потягаться с нейросетью

Привлечение широкой общественности — вещь правильная и нужная. Но почему бы сегодня для распознания не использовать нейросеть, ведь технологии это позволяют? Участникам проекта это тоже пришло в голову, и за дело взялась Анна Пятаева, доцент научно-учебной лаборатории систем искусственного интеллекта, а также студенты Института космических и информационных технологий СФУ. Вот что из этого пока выходит:

Это ещё надо разглядеть!

Это ещё надо разглядеть!

Работа нейросети

Работа нейросети

— В качестве исходных данных использованы отсканированные jpg-снимки оригинальных документов. Эти снимки содержат различные шумы: чернила, которые падали с гусиного пера, вмятины бумаги, полосы от сканирования и т.д., — поясняет Анна Владимировна. — Это затрудняет работу алгоритма распознавания, требуется обязательно устранить влияние шумов.

Входными данными для работы глубокой нейронной сети являются строки. Их надо выделить, затем распознать с применением библиотеки Tesseract. При этом отсутствующие в современном русском языке символы заменяются на их современные аналоги. Например, «Ѣ, ѣ» заменены на «е».

В качестве модели использована CRNN (свёрточно-рекуррентная нейронная сеть). Модель представляет собой комбинацию свёрточной нейронной сети (CNN) для извлечения локальных признаков из изображения и рекуррентной нейронной сети (RNN), представленной двумя слоями двунаправленных LSTM, которая занимается обработкой последовательности. Использование именно такой модели позволяет достоверно распознавать рукописный текст.

Итак, нейросеть под конкретный проект создана, но её ещё надо учить. Как и специалистов, умеющих работать этим инструментом. Таким образом университет готовит задел на будущее.

«Направление расшифровки с помощью нейросетей активно развивается, — отмечает П.А. Захаров. — Так, РАНХиГС и Яндекс анонсировали создание инструмента, который не только распознаёт, но и одновременно осуществляет поиск по архивному документу. СФУ движется в том же направлении, и это очень хорошо. У нас появятся компетенции, которые становятся всё более востребованы».

Сообщество в ожидании

Проект «Издание ежегодных отчётов губернаторов Енисейской губернии» был анонсирован на II Степановских чтениях, прошедших в СФУ в мае. Историки встретили его благосклонно. В том числе дистанционно к обсуждению подключались представители Института истории СО РАН (г. Новосибирск). Доктор исторических наук Наталья Петровна Матханова сориентировала красноярцев по фондам, которые надо смотреть в архивах, по интерпретации, выразила готовность давать консультации в дальнейшем.

А пока с конкретным содержанием отчётов лучше всех знакома Надежда Хаит, доцент кафедры истории России, мировых и региональных цивилизаций СФУ. Какими же сведениями удивят читателей отчёты?

Отчёт содержит сведения о пространстве и народонаселении; вероисповедании и состоянии православия; иноверцах, ссыльных; промышленности и торговле; государственных доходах и расходах; земских повинностях, почтовых дорогах, мостах и переправах; состоянии городов, публичных зданиях, этапах и тюрьмах; администрации и делопроизводстве; народном здравии (аптеках, больницах) и общественном призрении; народном просвещении.

Помимо текста с общей характеристикой состояния губернии в отчётах содержатся обширные статистические сведения в виде таблиц по разным сферам жизни губернии: хлебные запасы, количество скота и его падёж в результате эпидемий; учёт решённых и нерешённых дел в губернском делопроизводстве; статистика судоходства по рекам Енисейской губернии; о раскольниках и раскольничьих течениях, о статистике оспопрививания, о количестве подкидышей и детской смертности, о состоянии пожарной части, ремонте ветхих зданий и пр.

— Интерес представляет сводная таблица происшествий в Енисейской губернии за год, — отмечает Надежда Леонидовна. — Таблица содержит такие пункты, как количество пожаров и погибших от них, кораблекрушения и разбитые на реках суда, пострадавшие от градобитий, бурь, убитые грозой, погибшие от несчастных случаев, наводнений, землетрясений и мороза.

Есть множество сведений по статистике добычи золота, количеству приисковых рабочих и их быту, по преступлениям, связанным с кражей золота.

Писали губернаторы и о такой сфере, как народная нравственность. Сюда включались сведения о преступлениях, пороках, которые, по мнению губернатора, были характерны для населения. Так, в отчёте за 1864 год губернатор Павел Замятнин отмечал: «Природные жители губернии не отличаются чистотою нравов и особенно не религиозны и суеверны; мужчины склонны к пьянству, разврату, сутяжничеству и воровству, а женщины — ленивы и распутны».

Руководитель Центра исторической регионалистики Енисейской Сибири, доктор исторических наук, профессор Николай Дроздов так формулирует значимость вводимого корпуса текстов: «Конечно, данные отчётов требуют некоторой степени критичного восприятия, и всё же это один из самых достоверных источников для того, чтобы понять, в каких условиях развивалась экономика, социальная сфера, образование губернии в XIX — начале XX веков. Мы делаем это впервые в России, когда публикуются все отчёты, даётся аналитика и интерпретация, производится адаптация текстов, чтобы их могли изучать не только историки, но широкий круг специалистов и читателей. Таким образом, СФУ задаёт высокую планку в плане изучения отчётов как исторического источника».

Вопрос о том, насколько достоверны представленные в отчётах данные и с чем может быть связана недостоверность, так поясняет Антон Суржко:

— Конечно, в отчётах представлена картина благоприятного развития губернии. Ни один губернатор не стал бы подчёркивать негативные тенденции, даже если они имелись. Разве что когда происходила смена губернатора. Допустим, предыдущий губернатор оставлял благостный отчёт, а тот, кто пришёл на смену и кому ещё надо зарекомендовать себя, пишет другую картину, чтобы показать, сколько работы предстоит. Но в целом отчёт не носил оценочного характера, составлялся в нейтральном ключе. Данные отчётов — это отправная точка, то, что можно взять за основу. Когда я запрашивал отчёты в архивах, то обращал внимание на то, что некоторые из них заказывали в единичных случаях в 1960-е, 1970-е годы. То есть десятилетия никто не брал в руки и не использовал этот материал. Он как раз станет отправной точкой для будущих исследований, когда можно поднимать другие документы, сравнивать данные между собой.

Один из тех, кто уже использует отчёты в своей научной работе, — это Денис Гергилёв, доктор исторических наук, заведующий кафедрой истории России, мировых и региональных цивилизаций Гуманитарного института СФУ. Например, когда делал доклад «Модели управления Сибирью — традиции и новации» на Степановских чтениях в мае.

– Моя научная работа, безусловно, затрагивает отчёты губернаторов, но это не весь комплекс исторических источников, которые привлекались, — говорит Денис Николаевич. — Однако в данном случае речь о другом. В СФУ использовали особый механизм представления целого комплекса новых исторических источников. Такого сбора, обработки и введения в научный оборот исторических источников по всем требованиям археографической науки в Красноярском крае никто не делал. Да и по сравнению с другими регионами ситуация уникальная.

Во всех архивах сейчас ведётся работа по оцифровке. Но нигде нет перекрёстной выборки. Каждый областной, краевой или республиканский архив делает публикации на базе своего материала, имеющегося в хранении. Мы же охватили территорию Красноярского края, Иркутской области, Санкт-Петербурга. Оказалось, что тексты различны в различных архивах. Например, отчёт 1851 года встречается в Иркутском архиве и содержит пометки восточно-сибирского генерал-губернатора. А в РГИА (Санкт-Петербург) отчёт за этот же год имеет пометки ведомств центральной власти, есть и нюансы в самом тексте представления. Интересно, например, их сопоставить: что подчеркивало местное губернаторство, что интересовало центральный аппарат.

Важно также, что на этом материале происходит подготовка специалистов по истории, архивоведению, документоведению. Для студентов создана своеобразная песочница, где второкурсник, придя на практическое занятие, может взять кусочек рукописи отчёта и подготовить его к публикации по всем правилам. Он учтёт, как правильно делать комментарии, как ставить пометки, на что обращать внимание, какие термины необходимо перевести на язык, понятный современнику. Так студенты учатся кропотливой и трудоёмкой работе с источниковедческой базой.

А ещё один эффект проекта: мы делаем это в информационном пространстве, то есть предоставляем материал для исследователей из любых регионов. И можно, например, сравнить, как развивалась государственность на Кавказе и в Сибири. Введение в оборот уникальной документации губернского управления как раз даёт возможность сравнить те или иные данные.

Когда увидим результат

Так выглядит титульный лист первого подготовленного отчёта

Так выглядит титульный лист первого подготовленного отчёта

Все отчёты будут выставлены в электронном варианте как в аутентичной орфографии, так и в современной. А будет ли «бумажный» вариант отчётов? Об этом мы говорим с директором издательства СФУ, заведующей кафедрой информационных технологий в креативных и культурных индустриях Гуманитарного института СФУ Мариной Лаптевой.

— Печатный вариант издания возможен, опыт издания книг краеведческой тематики на основе архивных документов у издательства есть, — взвешивает «за» и «против» Марина Анатольевна. — Здесь нужно серьёзно поработать с дизайном серии отчётов.

Что касается электронной публикации — к работе над каждым отчётом мы приступаем по мере его «готовности». После сканирования и распознавания текста с ним работают историки, выверяя исторические данные на предмет закравшихся фактических ошибок. То есть работа идёт параллельно. О сроках издания всех отчётов пока трудно говорить. Ранее звучавший прогноз «конец 2024 года» чересчур оптимистичен. Скорее — 2026 год.

В проекте предусмотрено также издание монографии с лаконизмами и выдержками из отчётов. Её содержание, по сути, дело вкуса. Тексты отчётов весьма серьёзные, но в них есть утраченный ныне стиль документа. Не бюрократически выхолощенный, а неравнодушный и исполненный некоего достоинства, что ли. Есть определённые нравственные установки. В содержании и стиле ощущается долговременная ответственность за всё происходящее на вверенной губернатору царём и Богом территории. Думаю, что и для историков, и для филологов, и для управленцев эти отчёты станут неисчерпаемым на долгие годы материалом для изучения. Да и для педагогов, наверное.

На данный момент практически готов к изданию отчёт за 1863 год. Шрифт постарались подобрать похожий на рукописный (как оригинал). Концепция оформления до конца ещё не продумана. Мы в полной мере осознаём важность этой работы, и хотелось бы, чтобы оформление соответствовало значимости проекта. Поэтому ищем, пробуем, обсуждаем.

Похожие материалы