Рус Eng Cn Перевести страницу на:  
Please select your language to translate the article


You can just close the window to don't translate
Библиотека
ваш профиль

Вернуться к содержанию

Историческая информатика
Правильная ссылка на статью:

Диахронический корпус бурятского языка как цифровой инструмент исторических исследований: подходы, решения, экспериментальные исследования

Ринчинов Олег Сергеевич

ORCID: 0000-0003-1379-771X

кандидат физико-математических наук

ведущий научный сотрудник, Институт монголоведения, буддологии и тибетологии Сибирского отделения Российской академии наук

670047, Россия, республика Бурятия, г. Улан-Удэ, ул. Сахьяновой, 6

Rinchinov Oleg Sergeevich

PhD in Physics and Mathematics

Leading research worker, Institute for Mongolian, Buddhist and Tibetan Studies of the Siberian Branch of the Russian Academy of Sciences

670047, Russia, respublika Buryatiya, g. Ulan-Ude, ul. Sakh'yanovoi, 6

o.rinchin@gmail.com
Другие публикации этого автора
 

 

DOI:

10.7256/2585-7797.2020.2.33446

Дата направления статьи в редакцию:

13-07-2020


Дата публикации:

20-07-2020


Аннотация: В статье рассмотрены вопросы использования диахронического корпуса бурятского языка, составленного на основе написанных на старомонгольской письменности летописей, для реконструкции истории и исторической географии бурятского народа. В этой связи обсуждены основные проблемы семантической разметки корпусных данных, размер которого в настоящее время достигает 82 тыс. словоупотреблений. Новизна исследования заключается в том, что впервые объектом применения методов компьютерной лингвистики являются тексты на классическом монгольском языке, представленные в латинизированной транслитерации. Описаны подходы к разработке онтологической схемы историко-культурной предметной области, выявлению элементов родо-племенного и географического контекстов. На основе вычислительного эксперимента, проведенного с использованием СУБД MS Access и языка SQL, показаны преимущества использования методологии авторитетного контроля, в частности, объектов категорий «род/семья» и «место», для первичного анализа корпусных данных и формирования основных семантических кластеров. Применение авторитетных записей позволило в существенной степени ускорить накопление эмпирических данных для автоматизации содержательного анализа текстов, включенных в корпус. Проведенные эксперименты позволили определить направления дальнейшей работы по созданию и совершенствованию инструментов семантической разметки диахронического корпуса бурятского языка и превращению его в удобный инструмент исторических исследований.


Ключевые слова:

бурятские летописи, диахронический корпус, история, семантическая разметка, авторитетный контроль, топонимы, этнонимы, родо-племенная структура, онтология, семантический кластер

Исследование выполнено при поддержке РФФИ в рамках проекта № 18012-00665 «Старописьменные памятники бурят как культурное достояние» (АААА-А18-118012590033-7).

Abstract: The article studies the diachronic corpus of the Buryat language compiled on the basis of annals written in old Mongolian used to reconstruct the history and historical geography of the Buryat people. In this regard, the article discusses the main problems of semantic markup of corpus data. The size of the corpus currently exceeds 82,000 words. The research novelty is that classical Mongolian texts presented in Latin transliteration are addressed by computer linguistics methods for the first time. The author describes approaches to develop the ontological outline of the historical and cultural subject area as well identifies the kinship and geographical context elements. The MS Access and SQL simulation experiment demonstrates the advantages of the authority control methodology, in particular the “family” and “place” categories, for the initial analysis of corpus data and the formation of semantic clusters. The use of authoritative records has significantly accelerated the accumulation of empirical data for automation of the substantive analysis of texts in the corpus. These experiments allowed the author to see further steps to create and improve the Buryat language diachronic corpus semantic markup tools and transform this language into a convenient tool for historical research.


Keywords:

Buryat chronicles, diachronic corpus, history, semantic markup, authority control, toponyms, ethnonyms, kinship, ontology, semantic cluster

Бурятские летописи на старописьменном монгольском языке представляет собой ценные источники для изучения истории бурятского народа, восточных рубежей России в целом. Как особый жанр произведений они начали складываться в первой половине XIX в., когда по просьбе известного монголоведа О. М. Ковалевского буддийский священнослужитель Д.-Д. Гемпилон собрал и обобщил письменные свидетельства о происхождении селенгинских бурят, обстоятельствах принятия ими русского подданства, обустройстве в условиях российского государства [1, с. 261]. Этот сборник, содержащий более десяти исторических записок, авторами которых выступили селенгинские родовые старейшины, получил известность под названием «Бишихан запискэ». Начиная с этого памятника прослеживается традиция составления летописей, продолжавшаяся вплоть до первой трети XX в.

Бурятские летописи – это особый синтетический жанр исторических сочинений, объединивший в себе родовые предания и родословные, этногенетические мифы, элементы буддийской историографии, монгольские и тибетские традиции составления исторических хроник, российские официальные и историографические источники и т.д. Эти памятники зафиксировали бытовавшие среди бурят ранние формы литературного языка, основанные на классическом монгольском языке, но испытавшие влияние разговорных бурятских диалектов и русского языка [2]. В сочетании этих факторов заключается привлекательность изучения бурятских летописей как памятников исторического, литературного и языкового творчества бурятского народа и важных первоисточников в соответствующих областях науки. Они дошли до наших времен преимущественно в рукописных списках, которые хранятся в архивах и библиотеках Улан-Удэ, Санкт-Петербурга, Москвы, Иркутска, Читы и т.д. [3]

Начальный период научного изучения бурятских летописей связан с именами Н. Н. Поппе, А. И. Вострикова, В. А. Казакевича, Л. С. Пучковского и др. Так, в серии «Материалы для истории бурят-монголов» Института востоковедения АН СССР в 1930-х гг. были опубликованы набранные типографским способом тексты некоторых сочинений на старописьменном монгольском языке, сопровождаемые в ряде случаев переводом на русский язык [4, 5, 6, 7]. В последующие годы продолжалось активное изучение и издание этих ценных источников в переводах и переложениях на русский и бурятский языки [8, 9, 10]. Введенные в научный оборот материалы активно используются исследователями в разных областях – историками, этнологами, филологами, культурологами [11, 19, 20, 21, 22].

Вместе с тем, необходимо отметить, что развитие информационных технологий дает в руки исследователей новые инструменты изучения письменных памятников. Это лингвистические, статистические, геоинформационные методы, позволяющие вывести исследования летописных источников на новый уровень. Для этого необходимо, оставляя в стороне вопросы лингвистических и литературных особенностей памятников, выявить в содержании летописей элементы историко-культурного контекста. Поскольку эти исторические нарративы содержат значительное количество имен исторических лиц, названий бурятских родовых и территориальных групп, топонимов, покрывающих территории этнической Бурятии и зарубежья, различных дат и событий на протяжении нескольких веков, выявление и агрегация такого рода информации создает основу для реализации новых способов реконструкции истории и исторической географии бурятского народа.

В этой связи возникает проблема организации наиболее удобного доступа к информации, содержащейся в памятниках письменности этого жанра. Решить ее появилась возможность в ходе создания диахронического корпуса бурятского языка, что является одной из задач проекта «Старописьменные памятники бурят как культурное достояние» (грант РФФИ № 18-012-00665, рук. д.ф.н. Бадмаева Л. Б.). Данный корпус создается на основе произведений бурятских авторов на старописьменном монгольском языке, причем на первом этапе основное внимание обращено на сочинения, относящиеся к жанру летописей. При организации монгольских текстов в диахронический корпус решаются задачи метатекстовой и лексико-грамматической, в том числе семантической, разметки текстов. На основе корпусных данных создаются дополнительные инструменты, такие как частотные словари, конкордансы, указатели и т.д., которые формируют современную среду исследования текста и связанных с ним контекстов, включая лингвистический и, в случае летописей, исторический.

К настоящему времени (весна-лето 2020 г.) основой диахронического корпуса бурятского языка служат тексты пяти летописей, опубликованных в серии «Материалы по истории бурят-монголов» в 1930-х гг.:

1) «История баргузинских бурят» Цэдэбжаба Сахарова [4, с. 51–66];

2) «Прошлая история хоринских и агинских бурят» Тугултур Тобоева 1863 года [6, с. 5–47];

3) «История происхождения одиннадцати хоринских родов» Вандана Юмсунова 1875 года [6, с. 53–172];

4) «История селенгинских монгол-бурят» Дамбижалцана Ломбоцыренова [5];

5) «История бурятского народа одиннадцати хоринских родов» Шираб-Нимбу Хобитуева [7].

Для представления текстов на монгольском языке в электронном корпусе участниками проекта была выполнена их латинизированная транслитерация. В процессе транслитерации благодаря применению особых пунктуационных правил сохранялась исходная структура печатного текста на старомонгольской письменности. Выделялись и обозначались предложения, строки, абзацы, страницы; отмечались также параграфы и главы при их наличии в обрабатываемом тексте.

Общий размер корпуса составляет больше 82,6 тыс. словоупотреблений, на основе которых был составлен частотный словарь в более чем 10,3 тыс. словоформ [12]. Метатекстовая разметка корпуса была выполнена на основе спецификаций Text Encoding Initiative (TEI), поскольку этот стандарт обеспечивает разумный баланс между потенциальной общностью модели и простотой реализации [13, 14]. Для кодирования метаинформации о текстах, входящих в состав корпуса, спецификация TEI определяет набор параметров для указания автора, названия, времени создания и издания, определения жанровой и стилистической характеристик текста, данных о его длине, источнике получения электронной версии текста и т.д. Метатекстовая разметка выполнена с применением приложения TEI Corpus Header, созданного ранее для корпуса бурятского языка. Метаописание документа, реализованное в данном проекте, содержит необходимый объем описательной информации для идентификации текстов корпуса и гибкого оперирования данными в дальнейших исследованиях [15].

При создании специализированных корпусов текстов производится лингвистическое аннотирование (морфологическое, синтаксическое) и предметно-ориентированная семантическая разметка корпусных данных. В настоящее время выполняется лексико-грамматическое аннотирование диахронического корпуса бурятского языка, что подразумевает лемматизацию данных, определение грамматических, в первую очередь морфологических, характеристик [16]. Это трудоемкий и долгий процесс, который в данном случае затрудняется отсутствием электронных словарей для старописьменного монгольского языка, представленного в транслитерации, и соответствующего программного обеспечения. Поэтому лексико-грамматическая разметка диахронического корпуса осуществляется вручную.

Однако даже в настоящем виде корпус уже представляет интерес для разнообразных исследований. Например, его можно использовать для изучения исторического и географического контекста бурятских летописей, для чего необходимо предпринять частичную семантическую разметку, определяя и обозначая особым образом личные имена, этнонимы, топонимы, титулы и другие содержательные элементы, отражающие специфику и формирующие онтологическую схему исторического документа летописного жанра [17].

В предпринятом нами экспериментальном исследовании возможности автоматизации семантического анализа корпусных данных онтология предметной области была ограничена топонимами и этнонимами. Отчасти это было сделано для упрощения эксперимента; с другой стороны, данные о географии и родовой структуре очень важны в изучаемом нами историко-географическом контексте бурятских летописей. Семантическая разметка осуществлялась для частотного словаря словоформ, в котором определялись и выделялись специальными тэгами топонимы и этнонимы. Таким образом была сформирована базовая экспериментальная онтология предметной области. Затем с помощью средств СУБД MS Access осуществлялась разметка в основном массиве данных диахронического корпуса. Задача снятия омонимии, в данном случае, семантической неоднозначности, выполнялась вручную в результате изучения непосредственного контекста вычисленных точек доступа, связанных с определёнными элементами онтологии.

Поскольку такая работа с текстовыми данными на старописьменном монгольском языке, приведенными в латинице, выполняется впервые, то отсутствуют инструменты, в первую очередь, словарные базы данных для автоматизации работы. Существенной помощью стали авторитетные базы данных, создаваемые в рамках других проектах по оцифровке бурятского письменного наследия, например, «Исследование корпуса бурятских родословных в Центре восточных рукописей и ксилографов ИМБТ СО РАН» (грант РФФИ № 18-49-030011, рук. канд. физ.-мат. наук Ринчинов О.С.). Этот проект нацелен на создание базы данных генеалогических источников, для структуризации которых применяется методология авторитетных данных. В ходе содержательного описания документов созданы наборы данных, соответствующих категориям авторитетного контроля «Лицо», «Род/семья», «Место» [18]. Для того, чтобы их можно было применить к исследуемому диахроническому корпусу, объекты авторитетного контроля, наряду с основным и вариантными названиями на русском и бурятском языке, были дополнены эквивалентами на старописьменном монгольском языке в латинской транслитерации (например, этнонимы: хориqori, ашабагатašibaγadи т.д.; топонимы: Селенга selingge, Витимbiitim и т.д.). Это несколько облегчает выявление в общей совокупности корпусных данных, включая частотный словарь, точек доступа (вхождений) терминов, относящихся к интересующим нас категориям, и, кроме того, обеспечивает включение диахронического корпуса в общий контекст изучения письменного наследия, проводимого в Центре восточных рукописей и ксилографов ИМБТ СО РАН.

Одной из проблем, которые практически неизбежно встают в ходе исследований, является вариативность представления топонимов и этнонимов в диахроническом корпусе. Например, встречаются следующие варианты написания (в скобках приведена частота слова в корпусе): этноним сонгол (одна из родовых групп бурят) – congγol (23), congγul (8); топоним Цуголcügel (17), čugel (1), čügel (1), cüügel (5). Такая вариативность может быть вызвана следующими причинами:

1) отсутствие нормализованной орфографии написания бурятских слов на старописьменном монгольском языке в период написания летописей в 19 в.;

2) ошибка, допущенная при переписывании оригинала (большинство произведений дошло до наших дней в списках);

3) ошибка, допущенная при наборе рукописного монгольского текста во время подготовки печатных изданий;

4) ошибка, допущенная при транслитерации печатного монгольского текста на латинице в ходе выполнения данного проекта.

Проверка этих гипотез в каждом конкретном случае является трудоемкой задачей, поэтому в авторитетную запись, относящуюся к тому или иному термину, включаются все обнаруженные варианты его написания.

Эксперимент по автоматизированному определению элементов историко-географического контекста в диахроническом корпусе бурятского языка выполнялся с помощью СУБД MS Access, в качестве базового средства моделирования запросов выступал SQL. Порядок проведённого нами эксперимента выглядит следующим образом:

1) выбирается произвольный термин из авторитетной базы данных;

2) в автоматизированном режиме определяются все первичные текстовые контексты (в нашем случае - предложения) в диахроническом корупсе, в которых он участвует;

3) эти участки текста автоматически исследуются на наличие точек доступа других элементов авторитетного контроля, каждое вхождение документируется особой пометой, специфической для каждой категории авторитетных данных;

4) в результате формируются смысловые пары вида «этноним: топоним», «этноним: этноним», которые могут также рассматриваться и в обращенном виде.

Анализ семантической состоятельности получившихся пар в нашем эксперименте осуществлялся вручную. Так, для этнонима сонгол, имеющего варианты congγol, congγul, обнаружен 31 контекст употребления. Анализ этих контекстов дал 84 смысловые пары типа «этноним: топоним» и «этноним: этноним», помимо автопар. Из них 55 пар относятся к семантическому кластеру религиозной жизни (в окрестности каждой из них встречаются слова dačangдацан, blam-aлама и т.д.), 28 пар формируют кластер родо-племенной (административной) структуры или географического положения (в окрестности обнаруживаются слова obuγ / otрод, orunстрана, gübiirnskeгуберния, губернский и т.д.). 1 пара принадлежит общекультурному контексту: tübed üsüg – тибетская письменность. По приведенному плану осуществляется исследование других терминов, относящихся к указанным категориям авторитетных данных, производится накопление эмпирических данных для формирования семантических кластеров в историко-культурной предметной области. Накапливаемые данные послужат основой для разработки автоматизированных средств семантического анализа включенных в диахронический корпус текстов.

Результаты эксперимента позволяют сделать вывод, что получаемые в автоматизированном режиме смысловые пары вполне отражают содержательные контексты анализируемых терминов, а значит, автоматизация семантического анализа корпусных данных принципиально возможна. Полная автоматизация и улучшение работы указанного алгоритма будет происходить за счет расширения семантической разметки корпусных данных, накопления статистики успешных сопоставлений и формирования кластеров, совершенствования программного обеспечения, увеличения размера самого корпуса за счет включения новых текстов.

Выполненный нами вычислительный эксперимент показал, что диахронический корпус бурятского языка, создаваемый в рамках проекта «Старописьменные памятники бурят как культурное достояние», является эффективным инструментом изучения и реконструкции истории и исторической географии бурятского народа. Эффективность его использования обеспечивается интеграцией корпусных данных с другими текстовыми, геоинформационными электронными ресурсами на основе методологии авторитетных данных. Проведенные нами эксперименты показали, что авторитетные данные категорий «род/семья», «место», «лицо» являются важной частью онтологии исторической и историко-географической предметной области, в существенной мере отражая тематико-содержательную специфику произведений летописного жанра. Они также позволили определить направления дальнейшей работы по созданию и совершенствованию инструментов семантической разметки диахронического корпуса бурятского языка и превращению его в удобный и доступный инструмент исторических исследований.

Библиография
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
References
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.

Результаты процедуры рецензирования статьи

В связи с политикой двойного слепого рецензирования личность рецензента не раскрывается.
Со списком рецензентов издательства можно ознакомиться здесь.

Рецензия на статью: «Диахронический корпус бурятского языка как цифровой инструмент исторических исследований».
Предметом исследования рецензируемой статьи является корпус бурятских летописей на старописьменном монгольском языке.
Методология исследования основана на использовании эвристических, описательных и статистических методов.
Актуальность статьи обусловлена тем фактором, что в настоящее время все большую популярность при сборе и анализе практического материала приобретает корпусная лингвистика. Широкое распространения данных исследований связано со стремительным развитием информационных технологий, использование которых открывает перед исследователями новые перспективы. Поднятая автором тема до сих пор освещалась только в статье тезисного характера, опубликованной в 2018 году Бадмаевой Л. Б., Бадмаевой Л. Д. по итогам выступления на Четвертых Найдаковских чтениях. Тюрко-монгольский мир: «Старописьменные памятники бурят и диахронический корпус: предпосылки и перспективы разработки». В библиографическом списке данной статьи нет, между тем в ней содержится информация, которая дополняет рецензируемую статью, поэтому статью Бадмаевой Л. Б., Бадмаевой Л. Д. следует добавить в библиографию. Дублирующую информацию при этом следует из рецензируемой статьи исключить, поскольку ссылки на выше названную публикацию, находящуюся в открытом доступе на сайте file:///C:/Users/Admin/Downloads/Naidakovskiye_chteniya_4.pdf будет вполне достаточно.
Научная новизна заключается в наличие ряда оригинальных выводов, которые были сделаны по результатам исследования о том, что получаемые в автоматизированном режиме смысловые пары вполне отражают содержательные контексты анализируемых терминов, а значит, автоматизация семантического анализа корпусных данных принципиально возможна. Полная автоматизация и улучшение работы указанного алгоритма будет происходить за счет расширения семантической разметки корпусных данных, накопления статистики успешных сопоставлений и формирования кластеров, совершенствования программного обеспечения, увеличения размера самого корпуса за счет включения новых текстов.
Стиль статьи научный. Текст состоит из введения, основной части и заключения. Во введение автором обосновывается научная значимость бурятских летописей, которые представляют особый синтетический жанр исторических сочинений, объединивший в себе родовые предания и родословные, элементы буддийской историографии, монгольские и тибетские традиции составления исторических хроник, российские официальные и историографические источники. Здесь же излагается краткая историография их изучения, которая более подробно прописана в упомянутой статье Бадмаевой Л. Б., Бадмаевой Л. Д., поэтому дублировать её не стоит.
В основной части статьи автором дается источниковедческая характеристика бурятских летописей, подробно описываются использованные при их изучения компьютерные методы и проблемы, с которыми при этом пришлось столкнуться. Описанный автором опыт важен для исследователей, занимающихся изучением сходных проблем. По сути, описание использованных при исследовании компьютерных программ, является основным содержанием статьи. Автор в основном пишет о возможностях подобного анализа бурятских летописей и очень мало о конкретных результатах исследования. Поэтому логичнее было бы назвать статью: «Опыт использования цифровых технологий в изучении диахронического корпуса бурятского языка». В случае сохранения прежнего названия следует расширить ту её часть, в которой описаны результаты семантического анализа. В теперешнем виде её содержание исчерпывается одним абзацем.
В заключении автор приходит к выводу, что диахронический корпус бурятского языка, является эффективным инструментом изучения и реконструкции истории и исторической географии бурятского народа. Эффективность его использования обеспечивается интеграцией корпусных данных с другими текстовыми, геоинформационными электронными ресурсами на основе методологии авторитетных данных.
Библиография статьи насчитывает 18 источников, которые достаточно полно отражают проблематику исследования, необходимо только добавить ссылку на статью Л.Б. и Л.Д. Бадмаевых.
Статья представляет интерес как для исследователей, интересующихся проблемами изучения бурятского языка, так и специалистов по лингвистике, использующих в своих исследованиях цифровые технологии.
Статья может быть рекомендована к печати, после устранения выше указанных замечаний. Замечания главного редактора от 17.07.2020: "Автор доработал статью в соответствии с замечаниями рецензента"