Правильная ссылка на статью:
Северина Е.М., Фёдоров Н.А..
Проект Chekhov Digital: семантическая разметка параллельного корпуса переводов художественной прозы А. П. Чехова на немецкий язык
// Филология: научные исследования.
2024. № 4.
С. 73-82.
DOI: 10.7256/2454-0749.2024.4.70560 EDN: PXMQSB URL: https://nbpublish.com/library_read_article.php?id=70560
Читать статью
Результаты процедуры рецензирования статьи:
|
EDN: PXMQSB
|
Аннотация:
В статье рассматриваются вопросы разработки принципов семантически размеченного параллельного корпуса переводов художественной прозы А.П. Чехова на немецкий язык в рамках проекта Chekhov Digital цифрового академического издания собрания произведений писателя в формате TEI (Text Encoding Initiative). Проект параллельного корпуса ориентирован на создание цифровой инфраструктуры для изучения произведений писателя, позволяющей исследователям анализировать и сравнивать оригинальные тексты с их переводами. Были выявлены сложности, связанные с интерпретацией значимых элементов произведений писателя, спецификой их перевода на немецкий язык и семантической разметкой переводов художественной прозы, например, возникли сложности с определением границ и связей между элементами семантической разметки. Предложены пути их преодоления, включая использование цифровых методов и технологий обработки естественного языка. В проекте используются цифровые методы и технологии обработки естественного языка, стандарт цифровой публикации Text Encoding Initiative (TEI). Структура разметки текстов, основанная на стандарте TEI, делает документы машиночитаемыми, что позволяет разрабатывать инструменты сложного семантического поиска информации. Включение в проект Chekhov Digital параллельных корпусов переводов произведений А. П. Чехова на разные языки позволяет расширить исследовательские инструменты в области переводоведения, давая возможность сравнивать тексты переводов и оригиналов, обнаруживать сходства и различия в лексике, грамматике, стиле и культурных отсылках, а также автоматизировать рутинные процессы исследования, что делает значительно более эффективным поиск и анализ информации на больших объемах текстов. Результаты проекта будут вносить вклад в развитие цифровой гуманитарной среды, способствуя сохранению и популяризации литературного наследия А.П. Чехова. Создание семантически размеченного параллельного корпуса переводов будет иметь важное значение для литературоведов, лингвистов и переводчиков, позволяя им изучать специфику переводов произведений Чехова и развивать новые формы анализа и интерпретации текстов. Опыт, полученный в ходе проекта, будет ценным для будущих исследований и практических применений, демонстрируя эффективность цифровых технологий в гуманитарных исследованиях и образовании.
Ключевые слова:
цифровые технологии, семантический поиск, машиночитаемая разметка, Text Encoding Initiative, параллельные корпусы, Чехов, цифровое издание, проект Chekhov Digital, автоматическая обработка текста, парсинг
Abstract:
The article discusses the issues of developing the principles of a semantically marked parallel corpus of translations of Chekhov's fiction into German within the framework of the Chekhov Digital project, a digital academic publication of the writer's collected works in TEI (Text Encoding Initiative) format. The parallel corpus project is focused on creating a digital infrastructure for studying the writer's works, allowing researchers to analyze and compare original texts with their translations. Difficulties were identified related to the interpretation of significant elements of the writer's works, the specifics of their translation into German and the semantic markup of translations of fiction, for example, difficulties arose with defining the boundaries and relationships between the elements of semantic markup. Ways to overcome them are proposed, including the use of digital methods and natural language processing technologies. The project uses digital methods and technologies of natural language processing, the standard of digital publication Text Encoding Initiative (TEI). The text markup structure based on the TEI standard makes documents machine-readable, which allows to develop tools for complex semantic information retrieval. The inclusion in the Chekhov Digital project of parallel corpora of translations of A. P. Chekhov's works into different languages makes it possible to expand research tools in the field of translation studies, making it possible to compare texts of translations and originals, detect similarities and differences in vocabulary, grammar, style and cultural references, as well as automate routine research processes, which makes search and analysis much more effective information on large volumes of texts. The results of the project will contribute to the development of the digital humanitarian environment, contributing to the preservation and popularization of the literary heritage of A.P. Chekhov. The creation of a semantically marked parallel corpus of translations will be important for literary critics, linguists and translators, allowing them to study the specifics of translations of Chekhov's works and develop new forms of text analysis and interpretation. The experience gained during the project will be valuable for future research and practical applications, demonstrating the effectiveness of digital technologies in humanitarian research and education.
Keywords:
Natural Language Processing, Digital Technologies, Semantic Search, Machine-readable Markup, Text Encoding Initiative, Parallel Corpora, Chekhov, Digital Edition, Chekhov Digital project, Parsing