Рус Eng Cn Перевести страницу на:  
Please select your language to translate the article


You can just close the window to don't translate
Библиотека
ваш профиль

Вернуться к содержанию

Историческая информатика
Правильная ссылка на статью:

Историк и мир (больших) данных: вызовы цифрового поворота

Бородкин Леонид Иосифович

доктор исторических наук

член-корреспондент РАН, профессор, заведующий кафедрой, Московский государственный университет им. М.В. Ломоносова (МГУ)

119991, Россия, г. Москва, Ломоносовский проспект, 27, корп. 4, исторический факультет МГУ

Borodkin Leonid

Doctor of History

Corresponding Member of the Russian Academy of Sciences, Professor, Head of the Department for Historical Information Science at Lomonosov Moscow State University (MSU)

119991, Russia, Moskva oblast', g. Moscow, ul. Lomonosovskii Prospekt, 27-4

borodkin-izh@mail.ru
Другие публикации этого автора
 

 

DOI:

10.7256/2585-7797.2019.3.31383

Дата направления статьи в редакцию:

14-11-2019


Дата публикации:

21-11-2019


Аннотация: Предметом статьи являются современные вызовы и проблемы, связанные с развитием исторической науки в условиях цифрового поворота и массовой оцифровкой исторических источников. Подробно анализируется соотношение исторической информатики и «цифровой истории», включая цифровую публичную историю. Особое место уделяется традиционной для исторической информатики проблематике данных, получившей новый импульс в последние годы. Обсуждается расширенное определение «больших данных», его специфика применительно к историческим исследованиям на примере ряда масштабных международных исследовательских проектов. Методология исследования основана на системном, информационном и междисциплинарном подходах к изучению современных процессов развития исторической науки в условиях цифрового поворота. Научная новизна статьи заключается в таких аспектах, как определение соотношения предметных полей исторической информатики и цифровой истории, определение возможностей использования концепций и технологий «больших данных» в историко-ориентированных исследовательских проектах, определение перспективных направлений применения математических методов и цифровых технологий в исторических исследованиях и образовательных программах.


Ключевые слова:

цифровой поворот, историческая информатика, цифровые гуманитарные науки, цифровая история, цифровая публичная история, информационные технологии, большие данные, цифровые ресурсы, источниковедение, образовательные программы

Abstract: The article discusses contemporary challenges and problems related to historical science in the digital turn era as well as large scale digitization of historical sources. It also analyzes relations of historical information science and digital history (digital public history included) in detail. Emphasis is laid on data problems traditional of historical information science which has received a new impetus in recent years. The author discusses an expanded definition of “big data” and its specificity as applied to historical research giving a number of large-scale international research projects as an example. The article explores opportunities provided by the use of concepts and technologies of big data in history-oriented research projects and identifies promising areas to apply mathematical methods and digital technologies in historical research and educational programs. .


Keywords:

digital turn, historical information science, digital humanities, digital history, digital public history, information technology, Big Data, digital resources, source study, educational programs

«Цифровой поворот» в исторической науке связывают чаще всего с массовой оцифровкой исторических источников и, соответственно, с кардинальным расширением онлайн доступа к ним. Это, безусловно, главная, хотя и не единственная характеристика рассматриваемого процесса. На XXII Международном Конгрессе исторических наук (Китай, 2015 г.) и в последующих дискуссиях затрагивался вопрос о том, в какой степени цифровой поворот оказывает и другие воздействия на исторические исследования, имеет ли он сколько-нибудь заметное влияние на методологические основы и принципы профессиональной работы историка? Какие изменения происходят в исследовательском инструментарии историка в условиях цифрового поворота – как в области специальных/вспомогательных исторических дисциплин, так и в сфере конкретно-исторических, проблемно-ориентированных исследований? Эти вопросы находятся в центре нашего внимания в данной статье. Для их обсуждения полезно обратиться к предыстории цифрового поворота в гуманитарных науках (с акцентом на исторические исследования).

Историческая информатика и цифровая история в условиях «цифрового поворота»

Процессы цифровизации многих сфер деятельности, получившие бурное развитие в первом десятилетии XXI века, привели появлению и институционализации цифровых гуманитарных наук – Digital Humanities (DH). Несмотря на десятилетний путь активного развития DH, общепринятого определения этого направления пока не существует [1], хотя предложено уже несколько сотен таких определений. Обсуждение проблем и перспектив DH в нашей научной печати началось в 2011-2012 гг. [2, 3, 4], тогда же встал вопрос о месте исторических исследований в рамках DH с учетом российского контекста. Специфика этого контекста определяется, в частности, тем, что применение компьютерных технологий в нашей исторической науке имеет прочную традицию, не прерывавшуюся в первом десятилетии XXI века, как в большинстве европейских стран, где институционализация DH привела к появлению в ее структуре DigitalHistory («цифровой истории»). Формирование контуров цифровой истории за рубежом выявило заметные различия между содержанием цифровой истории и исторической информатики. Рассмотрение этих различий представляет интерес с точки зрения понимания тех задач и вызовов, которые обозначились в ходе «цифрового поворота» в исторической науке.

«Микрокомпьютерная революция» 1980-х гг. привела к формированию в начале 1990-х гг. нового направления - «историческая информатика», получившего в англоязычной литературе название «Historical Computing» или «Historical Information Science» [5, с.31]. Это направление сформировалось (как за рубежом, так и в России) на факультетах истории, в исследовательских институтах исторического профиля и с самого начала позиционировалось в рамках исторической науки. Как и в других странах, в России это направление корнями уходило в квантитативную историю, и большинство членов нового сообщества имело опыт активного применения ЭВМ именно при решении задач обработки статистических источников. Конечно, в ходе «микрокомпьютерной революции» 80-90-х гг. сфера использования историками информационно-коммуникационных технологий резко расширилась: пришла эра баз данных, компьютерного анализа исторических текстов, визуальных источников; затем (в середине 90-х гг.) наступила эпоха Интернета, открывшего новое поле приложений для исторической информатики. В конце XX – начале XXI вв. на конференциях Ассоциации «История и компьютер» (АИК) и в ее изданиях появились публикации исследований с использованием технологий ГИС, 3D-моделирования, что отражало растущий интерес историков к пространственным аспектам исторических процессов, новой роли визуализации в условиях «визуального» и «пространственного» поворотов.

Все эти годы основная функция (миссия) исторической информатики заключалась в апробации информационных/цифровых технологий и формализованных методов при решении аналитических задач исторического исследования; в центре внимания при этом был главный вопрос: что дают новые методы и технологии в конкретно-исторических исследованиях, какое приращение знания они приносят в ту или иную область исторической науки. Поэтому важную роль в структуре исторической информатики играет аналитическая составляющая, основанная на использовании аналитического компьютерного инструментария. Метафорой 30-летней эволюции исторической информатики может служить развитие по спирали, сочетающее на каждом витке переосмысление накопленного опыта и освоение новых методов и цифровых технологий [6].

Термин «цифровая история» практически не был известен членам профессионального сообщества вплоть до середины 2000-х гг. Ее многочисленные определения постепенно сузились, и сегодня она рассматривается как раздел цифровых гуманитарных наук, ориентированный в основном на использование цифровых технологий и цифровых медиа для репрезентации и визуализации данных исторических источников, а также их оцифровки [1, 7, 8]. Обобщая многочисленные публикации о цифровой истории, можно выделить две ее основных компоненты– углубление исторических знаний пользователей Сети в русле публичной истории (ознакомление широкой интернет-аудитории с цифровыми архивами, интерактивными картами, хрониками событий, линиями времени, чтобы сделать историю более доступной для пользователя) и создание новых цифровых инструментов для учёных-историков. Отметим, что создание нового программного обеспечения – удел небольших групп разработчиков, состоящих в основном из программистов. А вот первая из указанных двух компонент (ее можно трактовать как «цифровую публичную историю») характеризует сравнительно новое поле, которое было на периферии внимания сообщества специалистов по исторической информатике, ориентированного на решение (с помощью новых методов и технологий) исследовательских задач исторической науки. Новым в цифровой публичной истории является и использование краудсорсинга, основанного на привлечении любителей истории к сбору и оцифровке источникового материала.

Впрочем, ясности в вопросе о структуре цифровой историидо сих пор нет: некоторые авторы включают в нее, например, корпусную лингвистику или даже рассматриваютцифровую историюкак расширение квантитативной истории, клиометрики (так полагают, к примеру, авторы статьи в Википедии). Излишне комментировать здесь отношение специалистов из указанных областей или направлений к такой трактовке содержания цифровой истории.

Резюмируя, отметим, что если историческая информатика позиционируется как междисциплинарное направление исторических исследований, имеющее сбалансированное соотношение прикладной (ресурсной) и аналитической составляющих (с акцентом на последнюю), то цифровая история относит себя к полидисциплинарной области цифровых гуманитарных наук, в которой доминируют филологические науки, и в большей степени ассоциируется с ресурсной компонентой. В этом контексте следует упомянуть о специфике задач цифровой истории, которая чувствует себя не очень уютно под «тентом» цифровых гуманитарных наук. Так, С. Робертсон, (ун-т Дж. Мейсона, США), отмечает, что в центре внимания цифровой истории находятся вопросы создания коллекций оцифрованных данных, их презентации, диссеминации в онлайне, работа с цифровыми картами, в то время как цифровые филологические науки включают в качестве доминирующих практик интеллектуальный информационный поиск и анализ текста, а также его семантическую разметку [9].

На данном этапе цифрового поворота тенденции интеграции гуманитарного знания, полидисциплинарного взаимодействия в рамках цифровых гуманитарных наук проявляются не очень заметно. Это относится, например, к взаимовлиянию историков и филологов, лингвистов, которое пока невелико. Роль историков в деятельности DH пока достаточно скромная. Так, на международной DH-конференции, состоявшейся в 2014 г. в Лозанне, только два из 28 воркшопов (учебных семинаров) были организованы историками, известными специалистами в области Historical Computing, – М. Таллером и И. Грегори, а из почти 300 докладов лишь два десятка имели прямое отношение к исторической тематике (в основном они касались исторических текстов). При этом немало докладов имело технологически-методологический характер; доминировали же, как обычно, работы филологов, лингвистов. Примерно такая же доля докладов по исторической тематике характерна и для других DH-конференций, а также публикаций.

Очевидной представляется задача расширения участия историков, увеличения их роли в развитии цифровой гуманитаристики. Опыт, накопленный российской исторической информатикой, оказывается востребованным в этом процессе. Речь идет, например, о проблематике моделирования, в разработке которой наши историки получили немало интересных результатов [10]. Рост интереса к возможностям компьютерного моделирования заметен и в среде DH. Так, в 2018 г. вышел тематический номер журнала Social History Research, посвященный широкой проблеме моделирования в цифровых гуманитарных науках: «Models and Modelling between Digital and Humanities: A Multidisciplinary Perspective». Из 18 статей этого выпуска, охватывающих основные аспекты моделирования в различных областях DH, наибольший интерес представляют три, наиболее емко отражающие эти аспекты [11, 12, 13].

Таким образом, можно заключить, что в условиях цифрового поворота российская историческая информатика развивает и расширяет на новом витке спирали арсенал методов и технологий обработки и анализа исторических источников всех видов, уделяя основное внимание получению содержательно значимых результатов. Цифровая история в большей степени ориентирована на совершенствование цифровой инфраструктуры исторических исследований и образования, визуализацию, репрезентацию медиатизацию оцифрованного материала, а также на развитие онлайновых интерактивных коммуникаций с широким кругом интернет-пользователей, проявляющих интерес к истории. Историческая информатика и цифровая история имеют заметные различия и в то же время дополняют друг друга. Критерием успешности их развития будет уровень полученных практических результатов.

Надо отметить, что существует и несколько другая трактовка роли цифровой истории, которая ставит во главу угла новые возможности цифровых медиа. В соответствии с такой трактовкой представление истории в цифровой среде имеет свою специфику, связанную прежде всего «с множественностью и вариативностью цифровой репрезентации» (по Льву Мановичу), т.е. с возможностью «одновременного представления неограниченного количества версий произошедших событий, а также просьюмингом или патисипаторностью цифровой культуры, то есть стиранием грани между профессионалами и любителями, рассказчиками и читателями» [14].

В этой связи автор приведенной цитаты задается вопросом: «Искажают ли медиа историю, примитивизируют ли они ее, делают ли инструментом политического воздействия или все-таки они способствуют демократизации истории, более широкому распространению научных представлений о прошлом?» Отвечая на этот вопрос, автор отмечает, что профессиональные историки в большинстве своем «негативно относятся к любым репрезентациям истории в медиа: они считают, что это примитивный и упрощенный вариант». В то же время исследователи, изучающие репрезентации прошлого в медиа, «обращают внимание на то, что медиа не просто представляют историю публике, они прежде всего ее создают». В большинстве случаев с этим можно согласиться, особенно в контексте заключения автора о том, что «...роль историка немного изменяется: он становится не столько рассказчиком, сколько дизайнером и продюсером» [14]. Определяя цифровую историю, автор приходит к выводу, что это «новая форма исторического знания, не линейный нарратив, а сайт, карта или база данных, которые позволяют не только максимально полно и достоверно представить исторические источники, но и найти неиерархическую визуальную форму репрезентации разных точек зрения, приватного и публичного, документов и воспоминаний» [14]. Это определение (в ряду с большим количеством других) еще более усложняет поиски контуров цифровой истории.

Как уже отмечалось, важной компонентой цифровой истории является цифровая публичная история и связанные с ней практики краудсорсинга как формы коллективного участия в онлайн-проектах по созданию историко-ориентированных информационных ресурсов. Как отмечает С. Нуарэ, один из ведущих европейских методологов цифровой публичной истории, «принципиальной опасностью сегодня является то, что специалисты чаще всего не контролируют развитие и качество тех ресурсов, которые развиваются естественным «цифровым» путем, но эти изменения далеко не всегда гарантируют качество самих ресурсов». В то же время он считает, что возможности новых онлайн-технологий позволяют предположить, что «цифровая революция начинает конкурировать с профессиональными возможностями реконструировать прошлое», а история становится открытой территорией для любителей, желающих поиграть с ней [15].

(Цифровая) публичная история в большинстве стран Европы ищет пока признания в качестве полноценной научной дисциплины. Оценивая текущую ситуацию в Италии, С. Нуарэ отмечает в своем недавнем интервью, что «до этого момента университет никак не считался с работой публичных историков. Единственным критерием для получения работы или какой-то позиции в университете были публикации книг и статей в научных журналах (прежде всего англоязычных). … Теперь же встал вопрос о том, можно ли как-то учитывать работу публичных историков в терминах и категориях современного университета» [16]. Подробная характеристика цифровой публичной истории дана в цитируемых здесь публикациях С. Нуарэ.

Завершая обсуждение соотношения сложившихся подходов к применению цифровых технологий в истории, можно прийти к выводу, что историческая информатика и цифровая история имеют все же разные референтные группы: в первом случае это в основном профессиональные историки, проявляющие интерес к тому, какие новые содержательные результаты удается получить с помощью математических методов и цифровых технологий в конкретно-исторических исследованиях; во втором случае референтную группу составляют преимущественно специалисты в области цифровых медиа, публичной истории, цифровых платформенных решений и т.д. В этой связи можно понять тех представителей цифровой истории, которые не удовлетворены своим положением и позиционированием в профессиональном историческом сообществе.

Обе этих группы востребованы в процессе цифрового поворота, каждая из них имеет свою функцию. Но если говорить о перспективах научной молодежи, которая видит свой будущий профессиональный рост в исторической науке, то в рамках второй группы эта задача является более трудной с точки зрения сложившихся у нас диссертационных критериев, ориентированных на получение содержательных результатов, значимых в рамках исторических дисциплин.

Источниковедение цифровых документов?

Экспоненциальный рост оцифрованных исторических источников, доступных онлайн, существенно расширяет источниковую базу исторических исследований, но порождает и ряд проблем. Каково качество проведенной оцифровки, какие технологии при этом использовались? Обладают ли оцифрованные материалы необходимым уровнем репрезентативности и полноты, насколько корректными являются ссылки на исходные источники? Каковы технологические возможности фальсификации оцифрованных документов? Эти и другие подобные вопросы актуализируют проблему формирования нового раздела источниковедения, связанного с изучением оцифрованных источников (документов); при этом отдельное внимание должно быть уделено born digital документам (т.е. созданным изначально в цифровом формате, не имеющим бумажного оригинала). Будет ли этот раздел источниковедения называться «источниковедением цифровых документов», покажет время. Очевидно, эта тема ожидает своих исследователей.

А тем временем появляются новые терминологические вопросы. В течение последних лет всё чаще встречаются термины «цифровые источники» и «аналоговые источники». При этом подразумевается, что «аналоговые» – это источники (документы), не прошедшие оцифровку и существующие на традиционных носителях – бумажные документы, объекты материальной культуры различных эпох, аудио- и видеозаписи, созданные в «доцифровую» эпоху и т.д. Эта новая, предлагаемая по факту, классификация источников на два вида порождает новые вопросы. Например, письмо, хранящееся в семейном архиве, будем рассматривать как аналоговый источник. «Прокатаем» его на сканере – и через минуту он стал цифровым. Распечатаем его на принтере – и он снова аналоговый? Очевидно, это теперь копия исходного «аналогового» документа, но информационное содержание и внешний вид во всех трех его ипостасях совпадают. Не хотелось бы уходить вглубь архивной проблематики (тем более что я не архивист), но само появившееся понятие («аналоговый» источник), на мой взгляд, далеко не всегда отражает семантику термина «аналоговый».

В конце 1960-х гг. мне довелось поработать на аналоговой вычислительной машине (АВМ), которая производит вычисления при помощи аналоговых (непрерывных) физических параметров, обычно - силы тока, напряжения. АВМ моделировала физические процессы, отображая их динамику на экране осциллографа. По сути АВМ реализовывала на физическом уровне дифференциальные уравнения (с непрерывным временем), она не имела хранимой программы и требовала физического переконфигурирования при переходе к решению другой задачи. Конечно, в 60-е гг. доминировали цифровые ЭВМ, которые делали подобные вычисления уже с дискретным временем, на другой аппаратной базе, с помощью программ, но АВМ еще находили применение в некоторых задачах моделирования (без преобразования дифференциальных уравнений в конечно-разностные).

Внедрение термина «аналоговые источники», на мой взгляд, вполне оправдано при рассмотрении, например, кинофотофонодокументов. Полученные в доцифровую эпоху, эти источники были созданы с помощью микрофонов, диктофонов, оптических камер и т.д. – технических устройств аналогового типа. Перевод этих источников в цифровой формат или использование современной цифровой техники при фиксации текущих событий порождает цифровые видео-, фото- и аудио-документы.

В этой связи использование термина «аналоговый» для бумажных или, скажем, вещественных источников не кажется мне естественным. Но, думается, тут уже ничего не поделаешь – термин будет, видимо, усиленно внедряться в контексте всеобщей цифровизации (несмотря на ожидаемый скепсис со стороны «классических» источниковедов) и на фоне абсолютно корректного использования дихотомии «аналоговый – цифровой» в таких важных современных прикладных технологиях, как «Аналоговое ТВ/цифровое ТВ», или «Аналоговая оптика/цифровая оптика», или «Аналоговая рентгенография/цифровая рентгенография» и т.д.

Вопрос об оцифрованных источниках имеет еще одно важное измерение. Глобальный процесс цифровизации затронул в значительной мере архивы, музеи, библиотеки практически во всех странах. Фонды этих учреждений, имеющих целью сохранение культурного наследия, всё больше подвергаются оцифровке. Однако пользователям этих ресурсов трудно ориентироваться в расширяющемся информационном потоке, что формирует запрос на создание соответствующих каталогов, путеводителей, обзоров. В России наиболее содержательные и профессиональные аналитические обзоры такого рода публикует в журнале «Историческая информатика» Ю.Ю. Юмашева [17, 18, 19]. В этом же издании она недавно опубликовала серию аналитических обзоров цифровых ресурсов, созданных и представленных онлайн в десятках стран мира на основе архивной аудиовизуальной документации (включая коллекции фото- и кинодокументов) [20, 21, 22]. Важно, что автор рассматривает также методы источниковедческого анализа аудиовизуальных источников, проблемы их оцифровки и представления в интернете. Процесс дальнейшего расширения этого сегмента цифровых историко-ориентированных ресурсов потребует регулярного обновления подобных аналитических обзоров и каталогов.

Какие изменения происходят в исследовательском инструментарии историка в условиях цифрового поворота?

Новые возможности онлайн доступа к оцифрованным источникам порождают повышение спроса на расширение арсенала исследовательских инструментов, ориентированных на обработку и анализ вводимых в научных оборот информационных массивов, поиск релевантной информации. Этот вызов цифрового поворота пока не получил должного ответа, но определенное движение в этом направлении наблюдается. Вопрос о подъеме такого спроса был актуализирован и на предыдущем витке развития исторической информатики [23]. Однако на нынешнем витке этот спрос существенно выше – в связи с лавинообразным ростом цифровых ресурсов.

Если обратиться к аналитическим инструментам, то здесь надо упомянуть растущую популярность в среде «цифровых гуманитариев» интегрированного программного обеспечения R, дающего удобные для пользователя возможности работы с данными различных форматов, важными для историков и представленными текстами, статистикой, картами, сетями и изображениями [24]. Другим примером аналитического программного обеспечения, используемого сегодня историками, является современный программный пакет MAXQDA, реализующий контент-анализ текстов (чаще всего – больших массивов газетного материала) [25].

Одновременно ведутся работы по созданию специализированных программных средств, имеющих прикладной характер, Разработка таких инструментов – одно из основных направлений деятельности Центра изучения истории и новых медиа Роя Розенцвайга (RRCHNM ) при университете Джорджа Мейсона (США) [26]. В этом Центре разработаны, в частности, два известных бесплатных программных продукта с открытым исходным кодом: Zotero и Omeka. Первый из них – это программа, позволяющая подбирать в сети цитаты со ссылкой на источники, сохранять веб-страницы, видео, ссылки на релевантные материалы в Интернете, формировать персональные тематические библиографические списки, использовать теги и т.д. Omeka – онлайн продукт, имеющий функции издательской веб-платформы, ориентированной на потребности музеев, исследователей, любителей истории, образовательных структур. Достоинством этой разработки является простота и доступность работы в данной программной среде в целях подготовки онлайн публикаций, создания цифровых коллекций. Использование технологий Web 2.0 при разработке сайтов историко-культурного содержания на платформе Omeka создает возможности для интерактивного режима и активного вовлечения пользователей при реализации проектов в русле публичной истории и открытого образования.

В рамках второго основного направления своей деятельности RRCHNM проводит образовательные программы, направленные на повышение уровня цифровой грамотности, а также распространяет ряд вспомогательных цифровых инструментов, облегчающих историкам и учителям поисковую работу в сети.

О перспективных направлениях развития исторической информатики

Таких направлений немало, но в рамках данной статьи укажем лишь часть из них.

Развитие исторической геоинформатики, ГИС-приложений в изучении пространственных аспектов исторических процессов выявляет тенденцию «от визуализации – к аналитике». Речь идет об использовании ГИС в сочетании с программами статистического анализа, а также с базами данных (включая полнотекстовые).Актуализируется проблема создания в России хранилища (репозитория) исторических пространственных данных и выработки стратегий его развития. Эта проблема и пути ее решения обсуждались на Всероссийском научном семинаре «Геоинформационные системы в исторических исследованиях: интеграционные подходы», состоявшемся в январе 2019 г. на историческим факультете МГУ [27].

Сочетание цифрового и визуального «поворотов» в исторической науке последнего десятилетия, а также совершенствование технологий 3D-моделирования стимулировали повышение интереса к созданию виртуальных цифровых реконструкций утраченных объектов историко-культурного наследия, но в то же время породили немало разработок, не претендующих на научную обоснованность построенных реконструкций, носящих нередко иллюстративный характер. В этой связи актуальной становится задача источниковедческого анализа собранных для создания 3D-модели данных, обеспечения возможности их верификации в режиме интерактивного онлайн доступа пользователя к модели [28]. С точки зрения методики разработки виртуальных моделей можно отметить расширение возможностей лазерного сканирования в исследовательских проектах, направленных на цифровое сохранение культурного наследия, а также перспективность использования технологий виртуальной и дополненной реальности в таких задачах. Эта проблематика активно развивается, например, на кафедре исторической информатики исторического факультета МГУ, где разрабатываются также новые инструменты анализа и верификации построенных виртуальных реконструкций [29]. Интерес студентов к этой тематике порождает проектные формы их исследовательской работы; так в 2019 г. студенты, специализирующиеся на кафедре, участвуют в коллективном проекте по виртуальной реконструкции пяти известных усадеб Подмосковья, находящихся сейчас в руинированном состоянии.

В последние годы заметно вырос интерес к новым «прорывным» технологиям, находящим применение в самых разных приложениях. Особое внимание уделяется, пожалуй, методам и технологиям искусственного интеллекта. Если говорить о таких приложениях в гуманитарных науках, то сегодня эти технологии связывают больше всего с искусственными нейронными сетями и машинным обучением (включая методы гя), а также с когнитивным моделированием. Отметим, что определенный опыт применения методов искусственного интеллекта историки получили еще в конце 1980-х – начале 1990-х гг., когда российские и зарубежные исследователи начали применять эти методы в задачах исторической демографии (реализуя методики record linkage), при разработке экспертных систем и баз знаний в археологии и топонимике, в обучении машин распознаванию образов и построению нечеткой многомерной классификации, в задачах когнитивного моделирования исторических текстов и т.д. [30]. На современном этапе эти и другие задачи анализа оцифрованных источников могут решаться с использованием продвинутых технологий искусственного интеллекта. На ближайшей конференции АИК в 2020 г. эти вопросы могут быть в центре внимания специального круглого стола.

Большие данные: актуальна ли эта тема для историков?

В последние годы в контексте развития технологий DH активизировалось обсуждение темы больших данных в гуманитарных науках. Сегодня можно говорить о том, что проблема накопления и анализа больших данных в исторических исследованиях уже возникла и может актуализироваться в недалекой временной перспективе. Однако ответ на вопрос о наличии больших данных по отношению к историческим источникам существенно зависит от того, какого определения мы придерживаемся. Так, если следовать авторам вышедшей в 2015 г. в США книги "Exploring Big Historical Data: The Historian’s Macroscope”, то это такие данные источников, которые требуют компьютерной обработки для их понимания. Такое определение позволило авторам провозгласить, что историки давно живут в мире больших данных. Этот тезис трудно воспринимать всерьез.

В общепринятом понимании большие данные определяют как совокупность подходов, методов и технологий обработки структурированных и неструктурированных данных огромных объёмов и различных форматов для получения воспринимаемых пользователем результатов, в условиях непрерывного прироста данных (потоковые данные), распределения их по узлам (кластерам) вычислительной сети. Эти технологии альтернативны традиционным технологиям баз данных.

Хотя строгое определение больших данных подразумевает их потоковую природу (непрерывное их поступление), в практике социально-гуманитарных исследований такие данные встречаются редко (исключение сводится к исследованиям социальных сетей); зато возникает необходимость анализа огромного объема данных, работа с которыми не может производиться с использованием привычных для пользователей компьютеров и стандартного программного обеспечения. Даже при отсутствии потоковых данных хранение и обработка информационного массива, объем которого исчисляется десятками и сотнями терабайт (а то и петабайтами), требует специальных технических и программно-алгоритмических решений, поскольку стандартные аппаратные и программные средства в подобных ситуациях бесполезны. Для работы с такими данными используют облачные технологии и специальное программное обеспечение, например, NoSQL, MapReduce, Hadoop, R и др. При этом данные распределены, как правило, по вычислительным узлам, кластерам.

Участие в работе ряда недавних конференций по анализу Big Data позволяет мне сделать вывод о том, что сегодня в отмеченных ситуациях говорят о допустимом расширении определения больших данных, когда данные могут не иметь потоковой природы, но объем их настолько велик, что не может храниться и обрабатываться стандартными средствами.

Характерной особенностью таких данных в исторических исследованиях является не только огромный объем источников, лежащих в основе масштабных компаративных исследовательских проектов, реализуемых историками в составе международных коллабораций, но и вариативность, поливидовой характер этих источниковых комплексов, которые могут включать тексты и статистику, визуальные и аудио материалы.

Рассмотрим примеры больших данных, которые лежат в основе масштабных международных проектов историко-социальной тематики.

Проект IPUMS – Integrated Public Use Microdata Series (Интегрированные микроданные общего пользования). Этот крупный проект, ориентированный на компаративные историко-демографические исследования, координируется университетом штата Миннесота (США) [31]. В его основе – огромный массив оцифрованных первичных данных национальных переписей XIX – XX вв. по целому ряду стран (общий объем данных – несколько сот терабайт).

Важная часть проекта связана с изучением переписей населения США. За последние 25 лет IPUMS получил 70 федеральных грантов и контрактов на общую сумму более $140 млн для изучения, интеграции и распространения собранных данных. Информационный ресурс IPUMS содержит данные, полученные от широкого круга учреждений, включая Бюро переписей населения, Бюро статистики труда, Национальный центр статистики здравоохранения, Центры по контролю за заболеваниями США и др.

В сотрудничестве со 105 национальными статистическими агентствами, девятью национальными архивами и тремя генеалогическими организациями, IPUMS создал крупнейшую в мире доступную базу данных переписей населения на первичном уровне. Суммарно IPUMS включает почти миллиард записей (персоналий) из переписей США с 1790 г. по настоящее время и более миллиарда записей из национальных переписей более чем 100 стран.

Эта работа опирается на обширную компьютерную инфраструктуру, разработанную в течение двух десятилетий, включая первую структурированную систему метаданных для интеграции разрозненных наборов историко-демографических данных. Используя подход к хранению данных в русле Big Data, производится извлечение, преобразование и загрузка данных из разных источников в единую структуру представления, поэтому данные из разных источников становятся совместимыми.

Крупномасштабная интеграция данных в IPUMS делает тысячи наборов данных переписей населения сопоставимыми. Создано программное обеспечение для проверки согласованности, автоматической «очистки» и редактирования данных, контроля раскрытия информации, гармонизации базы данных, создания метаданных и аналитических процедур. Проект использует технологию машинного обучения для автоматической классификации записей и параллельную обработку для управления большими наборами данных в созданной высокопроизводительной вычислительной среде. Объем данных в проекте IPUMS растет с каждым годом, поступают новые наборы материалов национальных переписей, что позволяет реализовывать различные компаративные историко-демографические исследования.

Международный проект “Mining Microdata: economic opportunity and spatial mobility in Britain, Canada and The United States, 1850–1911”. Этот проект, завершенный в 2014 г., также базировался на огромном информационном ресурсе, использовавшем первичные данные переписей населения США, Канады и Британии 1850-1911 гг.[32]. Проведенные в рамках проекта исследования внесли существенный вклад в длительные дебаты историков об эволюции социальной структуры населения в Северной Америке и Великобритании. Так, сравнивая профессии отцов и сыновей в одинаковые периоды их жизни, участники проекта рассматривали вопрос: имели ли мужчины в Канаде и Соединенных Штатах больше возможностей улучшить свое социальное положение, чем мужчины в Великобритании, и насколько велики были различия между странами в этом аспекте? В ходе работ по проекту были предложены также оригинальные компьютеризованные методики источниковедческого анализа больших массивов данных переписей. Так, в работе К. Шурера и Т. Пеньковой рассмотрены методы стандартизации и классификации записей о месте рождения и профессиональной деятельности в данных переписи Великобритании 1851–1911 гг. [33], представлены алгоритмы формирования классификационных кодов профессий и идентификации населенных пунктов (мест рождения) на основе сопоставления исходных и справочных данных. В общей сложности объем анализируемых авторами данных охватывает сведения из более чем 180 миллионов (!) переписных листов, полученных в ходе семи последовательных британских переписей населения. Говоря точнее, этот цифровой ресурс, созданный изначально для генеалогических изысканий, содержит 183 470 969 персональных записей. На основе этого огромного массива данных было выявлено 7 304 708 уникальных записей с описанием профессиональных занятий и 6 703 779 уникальных записей с указанием места рождения. Столь большое количество этих записей объясняется тем, что полученные в ходе переписей ответы были очень разнообразны: например, вариации того или иного топонима или занятия могли включать несколько десятков разночтений. Так, в записях о профессиональных занятиях профессия ‘WATCHMAKER’ (часовщик) зафиксирована 41 вариантом. Очевидно, аналитическому этапу такого проекта должна предшествовать рутинная, кропотливая работа по составлению списка категорий, объединяющих идентичные значения. Такую работу можно реализовать лишь с помощью специальных программ, способных работать с большими данными, что и было сделано в рассматриваемом проекте. Доклад К. Шурера о результатах этого проекта, представленный на XVI конференции ассоциации «История и компьютер» в октябре 2018 г., вызвал большой интерес участников.

Проект CLARIAH (Common Lab Research Infrastructure for the Arts and Humanities). Этот проект вносит существенный вклад в создание современной инфраструктуры гуманитарных и социальных наук на базе Международного института социальной истории (IISH) в Амстердаме [32]. Реализация проекта проводится при поддержке голландского научного фонда (NWO) и предусматривает два этапа: 2014-2018 гг. и 2019-2024 гг.; объем финансирования на каждом этапе – 12 млн. евро. CLARIAH рассматривается как голландская часть учрежденного в 2014 г. Европейского сетевого консорциума DARIAH (Digital Research Infrastructure for the Arts and the Humanities), целью которого является совершенствование и развитие европейской цифровой инфраструктуры для исследований в области гуманитарных наук [35].

Инфраструктура CLARIAH предоставляет исследователям доступ к большим коллекциям цифровых данных, а также к инновационным и удобным для пользователя инструментам для обработки этих данных. Основные области приложений охватывают социально-экономическую историю, лингвистику и медиа-исследования. Ставится задача привлечения и оцифровки не только больших объемов текстовых источников, аудио- и видеоматериалов, имиджей из газет и других изданий, записей телепрограмм и других медиа-материалов, но и произведений искусства (живописи, скульптуры и др.).

Важной задачей проекта является компьютеризованный интеллектуальный поиск разнотипной релевантной информации и формирование поисковых запросов в целях содержательной интерпретации собранного материала. Так, в проекте производится поиск материалов оцифрованных газет, содержащих в глобальном измерении сведения о рабочих конфликтах в 1870–1990 гг. Извлечение этих данных из неструктурированных источников потребует использования сложных алгоритмов и программ обработки текстов на естественном языке (предварительно распознанных).

Интерес представляет и другой раздел проекта: оцифровка большого массива травелогов — книг, путевых записок, написанных путешественниками (начиная с позднего Средневековья), и использование поисковых алгоритмов для выявления тех фрагментов текста, в которых авторы затрагивали тему труда и трудовых отношений, а также восприятия людьми этих аспектов профессиональной деятельности.

Масштаб проекта, охват процессов на протяженных периодах, привлечение огромных массивов разнородных данных — от структурированных до текстовых и медийных, долговременный мониторинг сетевых ресурсов с целью пополнения коллекции оцифрованных данных проекта позволяют говорить о переходе к использованию концепций Big Data.

Обратим внимание на тот факт, что рассмотренные примеры больших данных исторического происхождения относятся к микро-данным (как правило, из области исторической демографии). Это не случайно. Агрегированные данные (например, представленные на уровне административно-территориальных единиц, регионов, стран), представленные даже в динамике большой длительности, можно хранить и обрабатывать, используя привычные для нас СУБД или табличные редакторы. Здесь не возникают информационные массивы терабайтовых объемов. Так, проекты анализа исторической глобальной динамики вполне реализуются на обычных компьютерах, с использованием привычного программного обеспечения. На мой взгляд, оснований рассматривать такие проекты в контексте анализа больших данных, нет.

В целом можно сказать, что проблематика больших данных затрагивает сегодня исследовательские интересы сравнительно небольшого числа историков, в основном участвующих в крупных международных и междисциплинарных коллаборациях, получающих масштабную грантовую поддержку. Однако такие проекты могут дать существенное приращение знания в соответствующих областях исторической науки (в сравнении с проектами, основанными на локальных или выборочных данных).

Безотносительно к обсужденному здесь вопросу о больших данных можно отметить, что массовая оцифровка исторических источников и обеспечение онлайн доступа к ним выявили в последние годы новый тренд: в условиях цифрового поворота в исторических (и шире – гуманитарных) исследованиях возрастает роль квантитативных подходов и методов («цифровой поворот приобретает количественный характер»).

Цифровой поворот и профильная подготовка студентов-историков

В университетах России на сегодняшний день нет кафедр (или других штатных учебно-научных подразделений), в названии которых содержится упоминание цифровых гуманитарных наук. Дело в том, что кафедры проводят подготовку специалистов по определенному дисциплинарному направлению, и обеспечить выпуск бакалавров или магистров, скажем, по истории, филологии и философии в рамках одной кафедры – нереальная задача. За рубежом ситуация близкая, но есть и исключения, когда речь идет об обучении студентов-гуманитариев различных направлений подготовки методам и технологиям работы с цифровыми материалами (обычно это касается подготовки в рамках программ minor). Так, например, в Британии наибольшую известность в этой области имеет Department of Digital Humanities at King's College London.

В ряде западных стран существует немало Центров цифровых гуманитарных наук, которые продвигают это направление, проводят конференции, семинары, круглые столы, а также публикуют различные бюллетени и тематические дайджесты. В России также есть несколько таких центров, в названии которых обозначены цифровые гуманитарные науки; обычно в их работе участвуют преподаватели или сотрудники, состоящие в штате существующих кафедр (или лабораторий, департаментов). Возможно, в будущем они будут институализированы тем или иным способом.

Однако в российских вузах есть кафедры, ориентированные на развитие квантитативных методов и компьютерных технологий в отдельных дисциплинах гуманитарных наук. Речь идет прежде всего о кафедрах компьютерной лингвистики (например, в СПбГУ, МФТИ, РГГУ и др.) и исторической информатики (на историческом факультете МГУ). Здесь мы не затрагиваем социальные науки, в этих областях функционирует немало кафедр бизнес-информатики, экономической информатики, социальной информатики и т.д.

Обратимся к магистерским программам, которые ориентированы на обучение студентов применению цифровых технологий и математических методов. Отметим, что эти программы можно разделить на две группы: в дипломах выпускников магистерских программ первой группы указана специализация в одной из гуманитарных наук (например, история, лингвистика, философия), в то время как дипломы второй группы содержат указание на прикладную информатику в области искусств и гуманитарных наук.

Так, к первой группе магистерских программ относятся следующие действующие программы:

– «Цифровые методы в гуманитарных науках» (НИУ ВШЭ, Москва). Направление подготовки 45.04.03 - Фундаментальная и прикладная лингвистика;

– «Гуманитарная информатика» (Томский госуниверситет). Направление подготовки 47.04.01 – Философия. Как отмечается в анонсе программы, гуманитарная информатика – это исследование особенностей новой эпохи, социокультурных последствий цифровых технологий, критический анализ их возможностей и ограничений.

– «Цифровая гуманитаристика» (УрФУ, Екатеринбург). Направление подготовки 45.04.04 - Интеллектуальные системы в гуманитарной среде (укрупненная группа специальностей/направлений. «Языкознание и литературоведение»).

– «Анализ культурных данных и визуализация» (ИТМО, СПб). Направление подготовки 45.04.04 - Интеллектуальные системы в гуманитарной сфере (укрупненная группа специальностей/направлений. «Языкознание и литературоведение»).

– «Цифровые технологии в гуманитарных исследованиях» (БФУ, Калининград). В анонсе программы указаны три направления подготовки: 46.04.01 – История, 46.04.02 - Документоведение и архивоведение, 45.04.01 – Филология.

Ко второй группе магистерских программ относится, например, программы:

– «Цифровые технологии в социогуманитарных практиках» (Томский госуниверситет). Направление подготовки 09.04.03 «Прикладная информатика». Как отмечается в анонсе программы, в процессе обучения студент получит необходимые знания и навыки в области проектирования и дизайна пользовательских интерфейсов;

– программа «Прикладная информатика в области искусств и гуманитарных наук» (Сибирский федеральный университет, Красноярск). Направление подготовки 09.04.03 «Прикладная информатика»

В ряде вузов развиваются программы бакалавриата по прикладной информатике (09.03.03), по профилю «Прикладная информатика в области искусств и гуманитарных наук» (С.-Петербургский госуниверситет; Сибирский федеральный университет, Красноярск) или по профилю «Прикладная информатика в гуманитарной сфере» (РГГУ) и профилю «Прикладная информатика в гуманитарных науках» (Алтайский госуниверситет).

При всём разнообразии отмеченных образовательных программ мы не видим здесь образовательных программ, ориентированных на применение цифровых технологий и методов анализа данных именно в истории. Пожалуй, единственный вуз, где существуют такие программы – это МГУ имени М.В.Ломоносова, исторический факультет. На кафедре исторической информатики уже в течение ряда лет реализуется «линейка» образовательных программ по исторической информатике [36]. С 2008 г. кафедра ведет специализацию по профилю "Историческая информатика" – сначала для студентов специалитета, а с 2013 г. – в рамках двухуровневой модели: профильная подготовка на первом уровне, в бакалавриате, и магистерская программа «Историческая информатика» – на втором уровне. Кафедра осуществляет также руководство аспирантами по профильной подготовке кандидатских диссертаций (направленность 07.00.09 – историография, источниковедение и методы исторического исследования). В 2019/2020 учебном году на кафедре исторической информатики МГУ специализируются 40 студентов и аспирантов. Более подробные сведения об образовательной линейке программ по исторической информатике представлены на сайте кафедры [37].

* * *

Завершая краткий обзор цифрового поворота в исторической науке, вернемся к вопросу о том, можем ли мы выявить фундаментальные изменения в исторической науке, порожденные цифровым поворотом? Без сомнения, можно говорить о кардинальном увеличении доступа к оцифрованным источникам и историографическим материалам, но этим не исчерпывается эффект происходящей масштабной цифровизации. Ведь расширение источниковой базы, доступного историографического материала (в том числе зарубежного) не только способствует формированию более полной картины изучаемого исторического процесса или события, но и может дать эвристический импульс порождению новой исследовательской гипотезы, а, возможно, скорректировать и выводы исследования. Это, так сказать, косвенные воздействия цифрового поворота. Необходимо отметить и разработку ряда новых исследовательских инструментов, позволяющих проводить более эффективный поиск в сети необходимых информационных ресурсов, обработку оцифрованных источников (как правило, вспомогательную). Однако, появляются и новые аналитические инструменты, повышающие возможности раскрытия информационного потенциала оцифрованных источников. Оценка их результативности, соответствующего приращения знания в той или иной области исторической науки может проводиться по итогам конкретно-исторических исследований.

О влиянии цифрового поворота на теоретико-методологические принципы исторического исследования пока судить рано, это требует большего временнóго горизонта. Видимо, мы находимся пока на первой половине пути, обозначенного как цифровой поворот в исторической науке. Бóльшая часть цеха профессиональных историков пока не ощутила изменений в методологии своих исследований. На второй половине этого пути доля историков, которые не ограничатся использованием цифровых ресурсов, а испытают также заметное влияние на методологические основы и принципы профессиональной работы, может достигнуть, по моей оценке, 20-25%. Что касается исследовательской работы большей части профессиональных историков, то она имеет традиционный характер, базирующийся на классических принципах «ремесла историка» и не связанный с проектными формами работы и с обработкой больших массивов данных.

Основная функция исторической информатики на ближайшую перспективу останется, по-видимому, прежней: проводить апробацию существующих и возникающих информационных/цифровых технологий и математических методов при решении аналитических задач исторического исследования. При этом главным остается вопрос: что дают эти методы и технологии в конкретно-исторических исследованиях, какое приращение знания они обеспечивают для изучаемой области исторической науки. Отметим также, что расширение масштабов этой работы может усилить позиции историков в развитии полидисциплинарного направления Digital Humanities.

Библиография
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
References
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.

Результаты процедуры рецензирования статьи

В связи с политикой двойного слепого рецензирования личность рецензента не раскрывается.
Со списком рецензентов издательства можно ознакомиться здесь.

Рецензируемая статья написана по тематике, связанной с осмыслением современного состояния исторической науки и образования в условиях происходящего цифрового поворота. Она охватывает широкий круг связанных с этим проблем, при этом в статье не только дается достаточно широкая характеристика состояния той или иной области исторических исследований, но и определяются дальнейшие перспективы развития. При этом в круг интересов автора входит практически все, что связано с развитием и внедрением цифровых технологий в историческую науку и образование.
Методология статьи основана на тщательном анализе современного состояния истории как одной из системообразующих гуманитарных наук. Проблематика статьи диктует такие подходы к исследованию, как системный и информационный. Важнейшее место в методологической базе, сформированной и используемой автором статьи, занимает междисциплинарность, понятие которой является, пожалуй, центральным в современном тренде развития гуманитарных наук.
Актуальность статьи заключается прежде всего в том, что в ней анализируется современность, текущее состояние исторической науки и образования. Цифровой поворот – это своего рода определенная смена парадигм, момент, который всегда является достаточно болезненным для любой науки. Прежде, чем уверенно идти вперед, необходимо понять, где мы находимся, и знать, в каком направлении идти. Именно на это и нацелена рецензируемая статья.
Фактически теми же моментами определяется и научная новизна работы. Анализ современности всегда сопряжен с новизной. Системный анализ, продемонстрированный в статье, – это не просто констатация особенностей современной ситуации, но и определенный прогноз. Именно это обстоятельство – прогностический элемент статьи – придает ей особую новизну и ценность.
Статья имеет четкую структуру, выраженную в делении на разделы, каждый из которых посвящен определенной проблеме и имеет собственное название. Это придает изложению четкость и структурную целостность, которые идут на пользу содержанию работы. После короткого введения автор переходит к анализу соотношения в современных условиях двух направлений развития, связанных с применением информационных технологий в исторических науках – давно и прочно статуировавшейся и показывающей конкретные результаты исторической информатике и достаточной новой цифровой истории. Если со статусом исторической информатики все более или менее ясно, то место и роль цифровой истории до сих пор остаются дискуссионными, что хорошо показано в статье. Автор отмечает, что историческая информатика и цифровая история имеют разные референтные группы. В статье прогнозируется увеличение роли историков в цифровой гуманитаристике, которая быстро развивается в мире, но пока не имеет четкой очерченности своего предмета в отечественной гуманитарной области. Далее в статье анализируется объемный комплекс вопросов, связанных с источниковедением стремительно нарастающего массива цифровых источников. При этом констатируется, что, несмотря на появление не очень удачного термина «аналоговые источники», приходится считаться с тем, что он получает все более широкое распространение. В следующей части статьи анализируются некоторые изменения в исследовательском инструментарии современных историков, связанные с появлением нового программного обеспечения. Далее определяются перспективы развития исторической информатики. Наиболее важными в этом плане автору представляются такие направления, как изучение пространственных закономерностей исторического процесса с помощью геоинформационных технологий, виртуальная реконструкция объектов историко-культурного наследия, методы и технологии искусственного интеллекта. В следующей части работы рассматривается понятие «большие данные», которое, по мнению автора, можно использовать в категориально-понятийном аппарате истории при некоторой корректировке, связанной с отказом от их потоковой природы. Приводятся примеры крупных проектов, связанных с анализом исторических «больших данных». В последнем разделе статьи анализируется влияние цифрового поворота на историческое образование. Отмечается, что подготовка в области применения цифровых технологий в исторической науке ведется как в бакалавриате, так и в магистратуре, при этом магистерские программы делятся на две группы: специализированные по одной из гуманитарных наук и имеющие в своей основе прикладную информатику. Констатируется, что в наиболее законченном виде линейка исторических программ представлена в МГУ имени М.В.Ломоносова, где она включает подготовку в бакалавриате, магистратуре и аспирантуре. В заключение делается вывод о том, что цифровой поворот оказал определенное влияние на историческую науку, но основная масса историков продолжает работать с помощью традиционных методов, хотя рост массивов цифровых источников и ресурсов постепенно оказывает влияние и на эту часть исторического сообщества.
Статья содержит достаточно подробную библиографию (37 позиций), часть из которой представляет собой актуальные зарубежные статьи и ресурсы. В целом библиография представляется чрезвычайно полезной как для специалистов, так и для исследователей, только входящих в изучение проблематики цифрового поворота и его влияния на историческую науку.
Статья затрагивает большое числе дискуссионных моментов, однако, рамки и жанр статьи не позволяют развернуть детальные дискуссии. При этом позиция автора по всем рассматриваемым вопросам остается абсолютно ясной и определенной.
Резюмируя, следует отметить, что статья представляет собой системное осмысление современного состояния исторической науки и образования, полностью находится в формате и предметном поле журнала и представляет интерес как для специалистов в области применения информационных (цифровых) технологий в исторических исследованиях, так и для других представителей исторического сообщества. Статья рекомендуется к публикации.