Компьютеризованный анализ исторических текстов
Правильная ссылка на статью:
Кузнецов А.В.
За пределами тематического моделирования: анализ исторического текста с помощью больших языковых моделей
// Историческая информатика.
2024. № 4.
С. 47-65.
DOI: 10.7256/2585-7797.2024.4.72560 EDN: UOIKPJ URL: https://nbpublish.com/library_read_article.php?id=72560
Читать статью
Результаты процедуры рецензирования статьи:
|
EDN: UOIKPJ
|
Аннотация:
Статья посвящена исследованию потенциала больших языковых моделей для тематического анализа исторических текстов. В качестве материала для исследования выбран дневник вологодского гимназиста Кирилла Антоновича Березкина, охватывающий период с января по сентябрь 1849 г. Этот дневник представляет собой уникальный источник для изучения повседневной жизни, мировоззрения и социальных взаимодействий молодого человека в провинциальной России середины XIX века. Записи К. Березкина затрагивают широкий спектр тем от учебы и семейных отношений до размышлений о политике, религии, литературе и искусстве. Анализ дневника позволяет погрузиться в атмосферу эпохи, понять ценности и стремления молодого дворянина на пороге взрослой жизни, а также проследить формирование его личности под влиянием исторического контекста. В исследовании применялась модель Gemini 1.5 Pro, которая способна обрабатывать объемные текстовые данные. Текст дневника анализировался как целиком, так и по отдельным месяцам, что позволило выявить специфические аспекты содержания. Новизна исследования заключается в применении современных больших языковых моделей для анализа русскоязычного исторического текста. Результаты показали, что Gemini 1.5 Pro способна эффективно выделять ключевые темы в дневнике, предоставляя интерпретируемые результаты. Модель успешно идентифицировала восемь основных тем, отражающих различные аспекты жизни гимназиста. Применение параллельного промптинга с помесячным разбиением текста позволило выявить более специфические темы и нюансы, которые упускались при анализе полного текста. Исследование подтвердило эффективность больших языковых моделей для анализа исторических источников, открывая новые возможности для автоматизации процесса тематического моделирования и выявления скрытых паттернов в больших массивах текстовых данных. Однако, стохастическая природа больших языковых моделей требует многократного анализа и тщательной интерпретации результатов, а также критического сопоставления с данными традиционных методов исторического анализа.
Ключевые слова:
промпт-инжиниринг, цифровая история, XIX век, анализ текста, дневник, исторический источник, тематическое моделирование, большие языковые модели, искусственный интеллект, К. А. Березкин
Abstract:
The article explores the potential of large language models in thematic analysis of historical texts, exemplified by the 1849 diary of Vologda gymnasium student Kirill Antonovich Berezkin. This rich source illuminates the everyday life, worldview, and social interactions of a young individual in mid-19th century provincial Russia. The diary offers a multifaceted narrative, capturing cultural events, political contexts, and personal introspections. By meticulously analyzing this text, researchers can reconstruct not just an individual's experiences, but also gain profound insights into the social, cultural, and educational landscape of the era. Employing the Gemini 1.5 Pro model, renowned for processing extensive textual data, the study conducted a comprehensive analysis. The research methodology involved examining the diary both holistically and through monthly segmentation, enabling the identification of nuanced content aspects. The novelty of the approach lies in applying modern large language models to a Russian historical document. The results demonstrated the model's remarkable capability to identify key themes, successfully isolating eight major thematic areas that reflect the gymnasium student's life. Utilizing parallel prompting with a monthly text breakdown revealed specific themes and subtleties that a comprehensive review might have overlooked. The study ultimately validates the effectiveness of large language models in historical source analysis, presenting promising opportunities for automating topic modeling and uncovering hidden patterns in extensive textual datasets. However, the inherently stochastic nature of these models necessitates multiple analyses, careful result interpretation, and critical comparison with traditional historical research methodologies.
Keywords:
artificial intelligence, prompt engineering, digital history, 19th century, text analysis, historical source, diary, topic modeling, large language models, Kirill A. Berezkin