DOI: 10.7256/2454-0749.2020.10.33970
Дата направления статьи в редакцию:
24-09-2020
Дата публикации:
21-10-2020
Аннотация:
Авторы представляют концепцию семантического цифрового издания текстов А. П. Чехова, уделяя особое внимание научно-исследовательскому проекту Chekhov Digital, который реализуется в Южном федеральном университете и Южном научном центре РАН. Цель проекта – создание семантической разметки собрания произведений писателя с опорой на стандарты цифровой публикации Text Encoding Initiative (TEI), позволяющей представить текст в виде доступных для компьютерной обработки связанных данных, а также на стандарты электронного формата русскоязычных литературных текстов, представленного в Семантическом издании текстов Л. Н. Толстого [6; 7]. Важнейшая задача проекта – предусмотреть полезные для исследователя цифровые инструменты, включая удобный семантический поиск, инструменты статистической обработки и визуализации. Основной источник – академическое Полное собрание сочинений и писем А. П. Чехова в 30 томах (1974-1983) (ПССиП). В данный момент разработана предварительная структура разметки некоторых категорий, существующих в чеховских текстах, примечаний и комментариев, описание томов ПССиП, что позволяет организовать семантический поиск исследовательской информации, сделать редакционные примечания машиночитаемыми и более приспособленными для изучения с помощью не только традиционных подходов, но и компьютерных методов. Авторы подчеркивают, что текстовая разметка будет расширяться за счет включения новых категорий, и само семантическое издание в целом будет расширять свою сеть за счет включения справочных и редакционно-критических текстов, выходящих за рамки ПССиП. Семантическое издание Chekhov Digital дает основания для нового типа комментария, объединяющего смыслы и факты, усложняющего и обогащающего понимание текста. Такое издание представляет интерес для исследователей, преподавателей, студентов, заинтересованных читателей.
Ключевые слова:
цифровое издание, TEI, семантическая разметка, Чехов, Chekhov Digital, семантическая сеть, цифровые гуманитарные науки, цифровая среда, филологические исследования, автоматическая обработка текста
Публикация подготовлена в рамках реализации ГЗ ЮНЦ РАН, проект № АААА-А19-119011190182-8.
Abstract: The authors present the concept of semantic digital publication of A. P. Chekhov's texts, giving special attention to the research project Chekhov Digital implemented in Southern Federal University and the Southern Scientific Center of the Russian Academy of Sciences. The goal of the project consists in creation of semantic marling of the compilation of writer’s works supported by the standards for digital publication Text Encoding Initiative (TEI) that allows presenting the text in format that can be processed by a computer, as well as the standards for electronic format of Russian-language literary texts displayed in the Semantic edition of the texts of L. N. Tolstoy. The crucial task of the project consists in provision of digital tools useful for the researchers, including convenient semantic search, statistical processing and visualization tools. The main source is the Academic Compilation of Complete Works and Letters of A. P. Chekhov in 30 volumes (1974-1983). Currently, a preliminary structure of markup is developed for some categories that exist in Chekhov's texts, notes, commentaries, and description of the volumes of Academic Compilation of Complete Works and Letters of A. P. Chekhov, which arranging semantic search of information, make editorial notes computer-readable, and more adjusted to studying not only the traditional approach, but also computer methods. It is underlined that text markup would expand due to inclusion of new categories; and the semantic edition itself would broaden its network due to inclusion of reference and editorial-peered texts that are beyond the scope of the Academic Compilation of Complete Works and Letters of A. P. Chekhov. Semantic edition Chekhov Digital gives grounds for a new type of commentary that incorporates meanings and facts, complicates and enriches the interpretation of text. Such edition is valuable for the researchers, pedagogues, students, and audience interested in the topic.
Keywords: digital edition, TEI, semantic markup, Chekhov, Chekhov Digital, semantic network, Digital Humanities, digital environment, philological research, Natural language processing
Цифровая среда как инструмент филологических исследований постепенно становится важной частью гуманитарного научного знания, одновременно вызывая сопротивление профессионального сообщества, несмотря на достижения формальной школы и структуралистов в литературоведении и фольклористике. Представить литературный и фольклорный текст в виде отношений между составляющими предлагали еще В. Шкловский и В. Пропп. О разложении его на «такие составляющие, из которых его потом можно было бы собрать по некоторым общим правилам», говорят современные ученые [3, с. 51]. Вопрос о необходимости «сегментации» («разрезания») текста на «первоэлементы, мотивы, функции, которые в цепочке создают композицию произведения», ставит и Б. Ф. Егоров и добавляет, что такая методика вырабатывается «на основе богатого традиционного опыта анализа, с привлечением немалой доли творческой интуиции» [2, c. 26-27]. В современной науке уже обозначено и начинает заполняться исследовательское пространство, где на помощь творческой интуиции филолога приходят цифровые методы исследования, требуя своего осмысления и выработки критериев работы с филологическими данными в контексте «перехода к цифровому бытию текста, трансформирующему принципы его восприятия и исследовательской работы с языковым и литературным материалом» [10, с. 29].
Формы существования текста зависят от принятых в обществе технологий хранения и воспроизводства информации. На смену памяти как носителю информации в бесписьменных культурах пришли технологии письма и печати в форме рукописи и книги, компьютерные технологии вызвали появление цифрового текста, появление сети Интернет основной формой существования текста сделало гипертекст, технология которого позволяет обмениваться документами при помощи гиперссылок. Изобретатель Всемирной Паутины (World Wide Web) сэр Тим Бернерс-Ли еще в конце 90-x высказал идею о необходимости создания новой сети ‑ семантической (Semantic Web), т.к. сеть гипертекстов не машиночитаема и поиск сводится к поиску отдельных слов или словосочетаний, в то время как Семантическая Сеть должна связать стоящие за текстами смыслы и данные, давая возможность их анализировать автоматически, что позволит перейти от поиска слов “к пониманию причин, следствий и отношений между вещами, явлениями, процессами, потоками данных” [16, с. 248]. По сути, семантическая сеть должна стать новой формой существования текста, в которой будут реализованы возможности новых технологий обработки информации.
Развитие цифровой среды активизирует процесс перехода от цифровых текстов к семантическим. Специалисты полагают, что в будущем все текстовые издания станут семантическими, объединившись в Семантическую Сеть всего культурного наследия человечества и обеспечивая сохранность культурных объектов. Однако создание такой сети требует представления информации в машиночитаемом виде, т.е. в виде упорядоченных и универсально распознаваемых структур данных. Литературные тексты как объекты, представляющие культурную ценность с точки зрения эстетических, литературоведческих, исторических смыслов и знаний, должны быть, конечно, в нее включены [16, с. 249.], но для превращения филологических знаний в форму семантических цифровых изданий необходимо потратить усилия и время, хотя существующие филологические практики ‑ комментарии, индексы, выявление цитат, параллельных мест, установление авторства и датировок, и т.п. – это уже практика составления подобной семантической сети.
Семантические цифровые издания ‑ важнейшая сфера нового междисциплинарного научного направления Digital Humanities (Цифровые гуманитарные науки). Семантическое издание ‑ это представление текста в виде связанных данных, которые выражают прямую, явную и понятную для компьютерной обработки взаимосвязь сущностей. Обычный цифровой текст не дает возможности такой обработки, и он должен быть размечен, т.е. должен быть создан дополнительный «машиночитаемый» слой – разметка, состоящая из определенных тегов, с помощью которых помечаются не просто слова, а их значения, связи, контексты, благодаря чему исследователи могут обмениваться текстологической информацией, встраивать тексты в глобальную цифровую культурную сеть, использовать различные средства автоматической компьютерной обработки для исследовательской работы по соотношению фактов и выявлению связей в тексте. Причем формат машиночитаемых тегов должен быть универсальным ‑ для разметки одних и тех же сущностей в разных текстах должны использоваться одни и те же метки, связывая данные разных текстов в семантическую сеть [16, с. 250-253.], т.е. универсальные принципы разметки текстов позволяют создать «универсальный “язык”, на котором писатели и традиции смогут заговорить друг с другом» [7]. Такой подход требует организации и поддержки долгосрочного доступа к данным в цифровом формате независимо от технологических изменений, совместимость ПО и используемых ресурсов, безопасность хранения данных [15, p. 1606]. Семантические издания должны опираться на инструменты автоматического перевода данных из формата критических аппаратов прошлого в форматы современной стандартизированной разметки.
Для подготовки семантического цифрового текстового издания, включающего разметку данных и метаданных, общепризнанным способом кодирования является стандарт Text Encoding Initiative (TEI) [17] ‑ коллективно разработанный, поддерживаемый сообществом и используемый для представления текстов в цифровом формате. Стандарт TEI (Руководящие принципы TEI: P5) включает в себя инструменты кодирования (схемы, исходный код) и рекомендации для решения различных задач обработки источников (документация), опубликованные как программное обеспечение с открытым исходным кодом. Стандарт позволяет проводить формальное кодирование ключевых «текстологических свойств документа» [8, c. 90], таких как параметры рукописи, лингвистическую информацию, выходные данные, редакционно-критический аппарат и т.п.
В РФ успешно развиваются проекты семантического издания текстов на основе стандартов TEI, например: Manuscript [5] ‑ цифровой архив средневековых русских рукописей; фольклорный архив Башкирского государственного университета [13] – постоянно пополняемая полнотекстовая сетевая многофункциональная коллекция фольклорных записей, собранных в Республике Башкортостан. Особую роль в развитии цифровых семантических изданий литературных текстов русской культуры играет проект TolstoyDigital [9], который представляет собой цифровое издание 90-томного собрания сочинений Л. Н. Толстого. Этот проект начал интеграцию текстов русской литературы в глобальный цифровой культурный ландшафт, с одной стороны, а с другой, в рамках проекта были разработаны современные стандарты цифровых русскоязычных изданий, сформулированы важнейшие технические и концептуальные требования: 1) документация проекта должна отражать структуру корпуса текстов, его актуальное состояние, описание метаразметки и текстовой аннотации; 2) данные должны иметь определенный и четко описанный формат, размещаться (по возможности) в открытом доступе, в том числе для загрузки; 3) функциональность поиска должна соответствовать описанной разметке корпуса текстов; 4) цифровое издание должно стремиться представлять знания, которые повышают качество первичных документов [15, p. 1609].
Институт филологии, журналистики и межкультурной коммуникации ЮФУ совместно с лабораторией филологии Отдела гуманитарных исследования Южного научного центра РАН ведут работу над проектом «Chekhov Digital» ‑ цифровым изданием текстов А. П. Чехова, целью которого является создание многоуровневой (семантической) разметки собрания произведений писателя с опорой на стандарты цифровой публикации Text Encoding Initiative (TEI). Основной источник – академическое Полное собрание сочинений и писем А. П. Чехова в 30 томах (ПССиП) [12], которое было подготовлено и выпущено сотрудниками Института мировой литературы им. А. М. Горького Академии наук СССР в 1974-1983 гг. Издание состоит из двух частей: сочинения (в 18 томах) и письма (в 12 томах). Каждый том включает результаты текстологической и исследовательской работы, которую необходимо дополнить многоуровневой разметкой, позволяющей сделать редакционные примечания машиночитаемыми и более приспособленными для исследований с помощью не только традиционных подходов, но и компьютерных методов.
Задачи проекта: 1) разметка текстов в TEI-формате; 2) создание полной базы данных именованных сущностей, упомянутых в текстах или комментариях/примечаниях; 3) размещение текстов в формате TEI в открытом доступе для скачивания и автоматической обработки. Важной задачей проекта, помимо цифрового представления текстов ПССиП, является разработка полезных исследовательских цифровых инструментов, включая удобный семантический поиск, статистические инструменты, инструменты визуализации и т.п.
Тексты А. П. Чехова представлены на различных ресурсах в разном цифровом формате. Наиболее полная версия – 30-томное издание ПССиП и большой объем редакционно-критических материалов, представлена на ресурсе ФЭБ [14], однако формат большинства материалов не является машиночитаемым и позволяет осуществлять только стандартный поиск по ключевым словам. Кроме текстов А. П. Чехова и редакционно-критического аппарата в ПССиП входит подборка писем, через призму которых социальные связи писателя могут быть изучены компьютерными методами в дополнение к традиционному литературоведческому анализу. Важным обстоятельством является доступность текстов ПССиП: тексты относятся к свободно распространяемым, не ограничены авторским правом и доступны в хорошем качестве в электронной форме.
Предполагается создание независимого цифрового ресурса, который будет в дальнейшем включать не только указанное издание произведений писателя ‑ 30 томов ПССиП (1974-1983), но и другие критические материалы, а также оцифрованные рукописи (о проблемах, задачах и решениях по оцифровке рукописей см. [11, с. 27-41]). Конечно, собрать все существующие и вновь появляющиеся справочные материалы, текстологические, библиографические, историко-литературные комментарии, доступные оцифрованные рукописи и связать все это в единую семантическую сеть – глобальная задача, которая требует времени и больших ресурсов, но мы полагаем, что возможность развития в этом направлении должна быть заложена в самой концепции семантического цифрового издания.
Мы опираемся на подход к стандартизации электронного формата русскоязычных литературных текстов, представленного в Семантическом издании текстов Л.Н. Толстого [6; 7]. Первый этап работы над проектом ‑ разработка структуры разметки и ее базовой реализации на языке TEI, который следует синтаксическим правилам языка разметки XML, что делает документы TEI совместимыми с программными ресурсами по созданию, обработке и публикации файлов xml. Любой документ TEI состоит из двух частей: TEI-заголовок, который в соответствии с принципами TEI позволяет кодировать метаданные источника: описание издания/рукописи, название, имя автора, язык текста, информация о кодировании, изменения и т.п., и текстовый модуль, содержащий размеченную текстовую информацию, которая зависит от жанра текста, – разметка текста рассказа или пьесы должна отличаться от разметки писем, которые содержат еще дополнительные метаданные (адресат, дата и место написания, дата и т.п.). С помощью языка TEI могут быть размечены именованные сущности: имя, название места, организации и т.п., – а также проведена семантическая разметка биографических сведений, некоторых социальных категорий, таких как профессия, социальный статус и т.п. Такой подход дает возможность организации семантического поиска разнообразной информации для исследователя-гуманитария, в том числе той, которая в обычном представлении оформляется в виде комментариев, примечаний и ссылок. Таким образом, цифровой формат издания отражает вариант интерпретации текстов, выполненных исследователями и редакторами издания [15, p. 1607].
Подготовка научного цифрового издания – достаточно сложная задача, требующая использования разнообразных цифровых инструментов. В данный момент разработана структура разметки с опорой на работы исследователей-литературоведов, проводится уточнение и корректировка разметки с использованием компьютерных методов. Предварительная структура аннотации корпуса текстов писателя с помощью элементов TEI/XML включает разметку следующих сущностей: имена, названия; даты; времена года; цвета; свойства, состояния и события; природные явления; социальный статус; профессия; животные / растения; также размечаются комментарии/примечания. Для уточнения выбранных сущностей мы исследовали первые три тома ПСС с помощью тематического моделирования [4] ‑ подхода, который автоматически позволяет выявить темы в данных. Проведение исследования с различными настройками автоматического выделения тем позволило выявить тему, которая при разных настройках всегда включала в себя слова «человек», «время», «любить» и «лицо». Мы исследовали употребление этих слов в рассматриваемом корпусе текстов с использованием компьютерных технологий (корпус-менеджер Voyant Tools, https://voyant-tools.org/) и выявили, что для слова «время» характерны употребления с глаголом и отглагольными существительными: время шутить, время говорить; время существования, время отсутствия, что указывает на необходимость учета различных аспектов особой темпоральности чеховских текстов ‑ не только вербальных описаний внешних характеристик времени (объективная природная реальность), но и психологических аспектов субъективного переживания времени. Поэтому категория «времена года» была расширена до категории «время».
ПССиП состоит из томов как основной структурной единицы, в которые включены тексты писателя за определенный период. Однако мы опираемся на структуру ЭНИ «ЧЕХОВ» (ФЭБ) [14], в котором представлены тома, сегментированные по отдельным текстам. В то же время примечания и комментарии к отдельным текстам мы включаем в разметку текстов – частично в метаданные, частично в виде комментариев и примечаний в самом тексте. Общие комментарии и примечания к каждому тому тоже должны быть включены в издание, поэтому готовится отдельное описание каждого тома ПССиП.
18 том ПССиП – значимый источник справочной, библиографической, редакционно-критической информации, в частности он содержит указатель имен и названий, на основе которого можно организовать возможность поиска соответствующих сущностей в конкретных текстах, их совместной встречаемости на страницах издания, что позволит изучать организацию социальных связей писателя, в контексте которых анализировать лингвистические и литературоведческие данные. Такой подход дает возможность создавать онтологию текстов А. П. Чехова (о понятии «онтология» в задачах автоматической обработки языка см. [1, с. 153]), в которой каждый документ обладает своей разметкой, текст каждого документа связан с элементами различных указателей, которые есть в ПСС (указатель псевдонимов, указатель имен и названий и т.д.). Мы полагаем, что текстовая разметка будет расширяться за счет включения новых категорий ‑ понятий, событий, связей, существующих в текстах писателя, и само семантическое издание в целом будет расширять свою сеть за счет включения справочных и редакционно-критических текстов, выходящих за рамки ПССиП. Кроме того, перевод в формат TEI/XML транскрипции рукописей А. П. Чехова, их черновых вариантов, редакций, копий позволит провести дополнительную сверку с оригиналами, расширит базу справочных материалов, источниковедческих и текстологических комментариев/примечаний.
В чем достоинства цифрового издания произведений А. П. Чехова для филолога-исследователя? Во-первых, в удобстве поиска не только по отдельным словам, но и по контекстам, по единицам сегментации текста и их семантическим связям. Например, на одной из конференций молодой ученый делал доклад о паралингвистических особенностях речи священнослужителей в рассказах и повестях писателя. У слушателей возник закономерный вопрос, свойственны ли выявленные особенности только этой группе персонажей. В рамках проекта найти ответ можно будет намного быстрее и, возможно, полнее, чем вручную. Во-вторых, комментарий будет привязан к тексту по ссылке, а не в конце книги. Это же касается фотографий, иллюстраций, фильмов, спектаклей и т. д. И это только самые очевидные возможности.
Семантическое издание Chekhov Digital должно стать основой для исследования текстов писателя методами Digital Humanities, которые дополняют и расширяют возможности традиционных филологических подходов, становятся предпосылкой нового типа комментария, объединяющего смыслы и факты, усложняющего и обогащающего понимание текста. Такое издание представляет интерес для исследователей, преподавателей, студентов, заинтересованных читателей.
Библиография
1. Диконов В. Г., Богуславский И. М., Тимошенко С. П. Онтология для поддержки задач извлечения смысла из текста на естественном языке // Информационные технологии и системы (ИТиС’12). Сборник трудов 35-ой конференции молодых ученых и специалистов ИППИ РАН. Петрозаводск. 2012. сс. 152-160. http://iitp.ru/upload/publications/6612/Ontology.pdf (дата обращения 12.08.2020).
2. Егоров Б. Ф. Структурализм. Русская поэзия. Воспоминания. Томск: Водолей, 2001. 511 с.
3. Жолковский А. К., Щеглов Ю. К. Работы по поэтике выразительности: Инварианты – Тема – Приемы – Текст. М.: АО Издательская группа «Прогресс», 1996. 344 с.
4. Коршунов А., Гомзин А. Тематическое моделирование текстов на естественном языке. Труды Института системного программирования РАН. 2012;23, сс. 215-244. https://doi.org/10.15514/ISPRAS-2012-23-13.
5. Манускрипт: Славянское письменное наследие. URL: http://manuscripts.ru/
6. Орехов Б. В., Бонч-Осмоловская А. А., Скоринкин Д. А., Павлова И., Колбасов М. Семантическое издание текстов Л. Н. Толстого: от текста к онтологии // Napis. 2018. Т. XXIV. сс. 381-391. DOI: 10.18318/napis.2018.1.19.
7. Семантическое издание Tolstoy Digital. URL: http://tolstoy.ru/projects/tolstoy-digital/
8. Скоринкин Д. А. Электронное представление текста с помощью стандарта разметки TEI // Вестник Московского университета. Серия 9. Филология. 2016. №5. сс. 90-108. URL: https://cyberleninka.ru/article/n/elektronnoe-predstavlenie-teksta-s-pomoschyu-standarta-razmetki-tei (дата обращения: 12.08.2020).
9. Цифровой проект Tolstoy Digital. URL: http://digital.tolstoy.ru/tolstoy_search/
10. Чевтаев А. А. Формирование цифровых баз данных рукописей: проблемы и текстологические перспективы. Статья 1 // Новый филологический вестник. 2019. №1 (48). сс. 28-43. URL: https://cyberleninka.ru/article/n/formirovanie-tsifrovyh-baz-dannyh-rukopisey-problemy-i-tekstologicheskie-perspektivy-statya-1 (дата обращения: 12.08.2020).
11. Чевтаев А. А. Формирование цифровых баз данных рукописей: проблемы и текстологические перспективы Статья 2 // Новый филологический вестник. 2019. №4 (51). сс. 27-41. URL: https://cyberleninka.ru/article/n/formirovanie-tsifrovyh-baz-dannyh-rukopisey-problemy-i-tekstologicheskie-perspektivy-statya-2 (дата обращения: 12.08.2020).
12. Чехов А. П. Полное собрание сочинений и писем: В 30 т. / АН СССР. Ин-т мировой лит. им. А. М. Горького. М.: Наука, 1974-1983. URL: http://feb-web.ru/feb/chekhov/default.asp?/feb/chekhov/texts/che-te02.html
13. Электронное научное издание «Фольклорный архив Башкирского государственного университета». URL: http://nevmenandr.net/pages/bashfolk.php
14. Электронное научное издание «ЧЕХОВ» (ЭНИ «ЧЕХОВ»). URL: http://feb-web.ru/feb/chekhov/default.asp.
15. Bonch-Osmolovskaya A. (2016). Digital Edition of Leo Tolstoy Works: Contributing to Advances in Russian Literary Scholarship. Journal of Siberian Federal University. Humanities & Social Sciences. 9. pp. 1605-1614. DOI: 10.17516/1997-1370-2016-9-7-1605-1614.
16. Gronas M., Orekhov B. Что такое семантическое издание и почему в будущем все издания станут семантическими? // A/Z: Essays in honor of Alexander Zholkovsky / edited by Dennis Ioffe, Marcus Levitt, Joe Peschio, and Igor Pilshchikov. Boston: Academic Studies Press, 2018. сс. 246-268.
17. Text Encoding Initiative. TEI. URL: https://tei-c.org/
References
1. Dikonov V. G., Boguslavskii I. M., Timoshenko S. P. Ontologiya dlya podderzhki zadach izvlecheniya smysla iz teksta na estestvennom yazyke // Informatsionnye tekhnologii i sistemy (ITiS’12). Sbornik trudov 35-oi konferentsii molodykh uchenykh i spetsialistov IPPI RAN. Petrozavodsk. 2012. ss. 152-160. http://iitp.ru/upload/publications/6612/Ontology.pdf (data obrashcheniya 12.08.2020).
2. Egorov B. F. Strukturalizm. Russkaya poeziya. Vospominaniya. Tomsk: Vodolei, 2001. 511 s.
3. Zholkovskii A. K., Shcheglov Yu. K. Raboty po poetike vyrazitel'nosti: Invarianty – Tema – Priemy – Tekst. M.: AO Izdatel'skaya gruppa «Progress», 1996. 344 s.
4. Korshunov A., Gomzin A. Tematicheskoe modelirovanie tekstov na estestvennom yazyke. Trudy Instituta sistemnogo programmirovaniya RAN. 2012;23, ss. 215-244. https://doi.org/10.15514/ISPRAS-2012-23-13.
5. Manuskript: Slavyanskoe pis'mennoe nasledie. URL: http://manuscripts.ru/
6. Orekhov B. V., Bonch-Osmolovskaya A. A., Skorinkin D. A., Pavlova I., Kolbasov M. Semanticheskoe izdanie tekstov L. N. Tolstogo: ot teksta k ontologii // Napis. 2018. T. XXIV. ss. 381-391. DOI: 10.18318/napis.2018.1.19.
7. Semanticheskoe izdanie Tolstoy Digital. URL: http://tolstoy.ru/projects/tolstoy-digital/
8. Skorinkin D. A. Elektronnoe predstavlenie teksta s pomoshch'yu standarta razmetki TEI // Vestnik Moskovskogo universiteta. Seriya 9. Filologiya. 2016. №5. ss. 90-108. URL: https://cyberleninka.ru/article/n/elektronnoe-predstavlenie-teksta-s-pomoschyu-standarta-razmetki-tei (data obrashcheniya: 12.08.2020).
9. Tsifrovoi proekt Tolstoy Digital. URL: http://digital.tolstoy.ru/tolstoy_search/
10. Chevtaev A. A. Formirovanie tsifrovykh baz dannykh rukopisei: problemy i tekstologicheskie perspektivy. Stat'ya 1 // Novyi filologicheskii vestnik. 2019. №1 (48). ss. 28-43. URL: https://cyberleninka.ru/article/n/formirovanie-tsifrovyh-baz-dannyh-rukopisey-problemy-i-tekstologicheskie-perspektivy-statya-1 (data obrashcheniya: 12.08.2020).
11. Chevtaev A. A. Formirovanie tsifrovykh baz dannykh rukopisei: problemy i tekstologicheskie perspektivy Stat'ya 2 // Novyi filologicheskii vestnik. 2019. №4 (51). ss. 27-41. URL: https://cyberleninka.ru/article/n/formirovanie-tsifrovyh-baz-dannyh-rukopisey-problemy-i-tekstologicheskie-perspektivy-statya-2 (data obrashcheniya: 12.08.2020).
12. Chekhov A. P. Polnoe sobranie sochinenii i pisem: V 30 t. / AN SSSR. In-t mirovoi lit. im. A. M. Gor'kogo. M.: Nauka, 1974-1983. URL: http://feb-web.ru/feb/chekhov/default.asp?/feb/chekhov/texts/che-te02.html
13. Elektronnoe nauchnoe izdanie «Fol'klornyi arkhiv Bashkirskogo gosudarstvennogo universiteta». URL: http://nevmenandr.net/pages/bashfolk.php
14. Elektronnoe nauchnoe izdanie «ChEKhOV» (ENI «ChEKhOV»). URL: http://feb-web.ru/feb/chekhov/default.asp.
15. Bonch-Osmolovskaya A. (2016). Digital Edition of Leo Tolstoy Works: Contributing to Advances in Russian Literary Scholarship. Journal of Siberian Federal University. Humanities & Social Sciences. 9. pp. 1605-1614. DOI: 10.17516/1997-1370-2016-9-7-1605-1614.
16. Gronas M., Orekhov B. Chto takoe semanticheskoe izdanie i pochemu v budushchem vse izdaniya stanut semanticheskimi? // A/Z: Essays in honor of Alexander Zholkovsky / edited by Dennis Ioffe, Marcus Levitt, Joe Peschio, and Igor Pilshchikov. Boston: Academic Studies Press, 2018. ss. 246-268.
17. Text Encoding Initiative. TEI. URL: https://tei-c.org/
Результаты процедуры рецензирования статьи
В связи с политикой двойного слепого рецензирования личность рецензента не раскрывается.
Со списком рецензентов издательства можно ознакомиться здесь.
Ориентир на разновариантный анализ текста всегда является привлекательным и продуктивным. В современной науке сложилась традиция рецепции художественного текста не только некоей номинальной структурой, но и системой сложно комбинированных координат. Рецензируемый текст, так или иначе, поддерживает данную установку, ибо форма существования произведения в наличной среде зависит от грамотного хранения последнего. На мой взгляд, предмет изучения выбран верно, так как детальная раскладка «новых филологических практик» не столь объемно представлена в массе критических источников. Отсюда, и нетривиальный интерес к указанной проблеме потенциальных читателей и исследователей. Позиция, высказанная в статье актуальна, нетривиальна, нова. Приятно видеть, что альтернатива традиции четко манифестирована автором уже в самом начале работы: «семантическая сеть должна стать новой формой существования текста, в которой будут реализованы возможности новых технологий обработки информации», или «развитие цифровой среды активизирует процесс перехода от цифровых текстов к семантическим. Специалисты полагают, что в будущем все текстовые издания станут семантическими, объединившись в Семантическую Сеть всего культурного наследия человечества и обеспечивая сохранность культурных объектов». Данный показатель имеет место быть как объективная составляющая современного мира, сложно представить себе перспективу без конкретизированной фактической номинации. Хорошо, что большая часть тезисов/понятий информационно прокомментирована, таким образом, поддерживается диалога с широкой читательской аудиторией. Пояснения, безусловно, являются нелишними: «семантические цифровые издания важнейшая сфера нового междисциплинарного научного направления Digital Humanities (Цифровые гуманитарные науки). Семантическое издание это представление текста в виде связанных данных, которые выражают прямую, явную и понятную для компьютерной обработки взаимосвязь сущностей», «семантические издания должны опираться на инструменты автоматического перевода данных из формата критических аппаратов прошлого в форматы современной стандартизированной разметки». Стоит отметить, что текст по определению затрагивает ряд «новых» еще не обозначенных граней «фиксации» культурного наследия. Ввиду этого работа становится конкурентно способной в не столь объемном контенте сказанного на смежную тему. Базисом анализа становится процесс «цифровизации» творческого наследия А.П. Чехова. Как отмечено в тексте, «институт филологии, журналистики и межкультурной коммуникации ЮФУ совместно с лабораторией филологии Отдела гуманитарных исследования Южного научного центра РАН ведут работу над проектом «Chekhov Digital» цифровым изданием текстов А. П. Чехова, целью которого является создание многоуровневой (семантической) разметки собрания произведений писателя с опорой на стандарты цифровой публикации Text Encoding Initiative (TEI)». Каждый шаг уточнен, цель/задачи прописаны: «задачи проекта: 1) разметка текстов в TEI-формате; 2) создание полной базы данных именованных сущностей, упомянутых в текстах или комментариях/примечаниях; 3) размещение текстов в формате TEI в открытом доступе для скачивания и автоматической обработки. Важной задачей проекта, помимо цифрового представления текстов ПССиП, является разработка полезных исследовательских цифровых инструментов, включая удобный семантический поиск, статистические инструменты, инструменты визуализации и т.п.». Объективность высказанного в работе не вызывает сомнений, материал интересен, интересна и сама концепция «обработки» текстов А.П. Чехова. Может быть, принципы «обработки» художественных данных станут неким подспорьем для будущих экспериментов. Основная часть статьи полностью соотносится с темой, в финале же работы автор задается вопросом «необходимости» цифрового издания произведений А.П. Чехова, уточняя в чем же собственно суть… «В чем достоинства цифрового издания произведений А.П. Чехова для филолога-исследователя? Во-первых, в удобстве поиска не только по отдельным словам, но и по контекстам, по единицам сегментации текста и их семантическим связям. Например, на одной из конференций молодой ученый делал доклад о паралингвистических особенностях речи священнослужителей в рассказах и повестях писателя. У слушателей возник закономерный вопрос, свойственны ли выявленные особенности только этой группе персонажей. В рамках проекта найти ответ можно будет намного быстрее и, возможно, полнее, чем вручную. Во-вторых, комментарий будет привязан к тексту по ссылке, а не в конце книги. Это же касается фотографий, иллюстраций, фильмов, спектаклей и т. д. И это только самые очевидные возможности». Следовательно, логика всей работы полностью учтена, соразмерность частей не требует какой-либо правки. Библиография к работе полностью использована в основном текстовом массиве, оформление в пределах издательских требований. Рекомендую статью «Новые филологические практики: семантическое издание текстов А.П. Чехова» к публикации в журнале «Филология: научные исследования».
|