Жикулина К.П., Костромина В.В. —
Вычислительная креативность генеративной сети Midjourney в полимодальном пространстве
// Litera. – 2024. – № 6.
– С. 1 - 16.
DOI: 10.25136/2409-8698.2024.6.70890
URL: https://e-notabene.ru/fil/article_70890.html
Читать статью
Аннотация: В данной статье исследуется полимодальное пространство в области вычислительной креативности у нейронных сетей. Объектом нашего исследования является полимодальная среда, которая объединяет в себе ряды разнородных кодов для выражения общей идеи, а предметом – возможность создания полимодального цифрового искусства с помощью текстового и голосового промта в генеративной сети Midjourney. Цель исследования – доказать, что вычислительная креативность у машин может быть обнаружена и описана по результатам итераций в процессе создания изображений, что в свою очередь позволит говорить о сложной полимодальной системе как об отдельной цифровой категории полимодальности. Задачи, которые решались в рамках данного исследования: 1) обоснование использования термина полимодальный в контексте вычислительной креативности в цифровом искусстве нейронных сетей; 2) проведение серии тестов с генеративной сетью Midjourney для возможности описания вербально-визуального контента; 3) анализ и выведение алгоритма создания изображения в условиях суммаризации данных и трансформационной креативности. Нами был использован метод сплошной выборки при сборе языковых единиц по мере их встречаемости; контекстный анализ для систематического описания присутствующих вербальных и невербальных компонентах. Необходимо было провести эксперимент с генеративной сетью Midjourney для выявления закономерностей при создании графического пространства, а далее сравнить и сопоставить результаты итераций с оригинальным изображением. Научная новизна заключается в отсутствии исследований о полимодальном пространстве в контексте нейронных сетей и их генеративной способности. В ходе проведённого эксперимента нами были получены следующие результаты: термин «полимодальность» в контексте генеративной сети Midjourney и её «цифрового искусства» обусловлен наличием трёх каналов: вербального, визуального и голосового (звукового); тесты показали, что способность нейронной сети к созданию изображений посредством промта находится на высоком уровне, однако прослеживаются грубые технические ошибки в системе, которые не позволяют пользователям в полной мере приблизиться к желаемому результату при генерации изображения; суммаризация данных позволяет говорить о наличии черт вычислительной креативности у генеративных сетей, так как в ходе создания изображения возникают новые образы (идеи), ранее не предполагаемые пользователем.
Abstract: This article deals with the polymodal space in the field of computational creativity in neural networks. The object of research is a polymodal environment that integrates a series of heterogeneous codes to express a common idea, and the subject is the possibility of creating polymodal digital art using text and voice prompts in the generative network Midjourney. The aim of the study is to prove that computational creativity can be detected and described based on the results of iterations in the process of creating images, which in turn will allow us to talk about a complex polymodal system as a separate digital category of polymodality.
We used the continuous sampling method when collecting linguistic units as they occur in the analysis process; contextual analysis for the systematic identification and description of the verbal and non-verbal contexts. It was necessary to conduct an experiment with the generative network Midjourney to identify patterns in the creation of a graphic space through text and voice data input, and then compare and contrast the results of iterations with the original image.
The scientific novelty consists in the lack of research on the polymodal space in the context of neural networks and their generative ability. During the experiment, we obtained the following results: the term ‘polymodality’ in the context of the generative network Midjourney and its ‘digital art’ is due to the presence of three channels: verbal, visual and voice; tests have shown that the ability of the neural network to create images through prompt is at a high level, however, there are rough technical errors that do not allow users to fully approach the desired result when they generate an image; the summarization of the data allows us to talk about the presence of features of computational creativity in generative networks.
Жикулина К.П. —
Алисины сказки: трансформация структуры, сказочных формул и контекстов у голосового помощника в навыке «Давай придумаем»
// Litera. – 2024. – № 2.
– С. 45 - 64.
DOI: 10.25136/2409-8698.2024.2.69760
URL: https://e-notabene.ru/fil/article_69760.html
Читать статью
Аннотация: Предметом исследования является спонтанно генерируемый текст голосовым помощником Алиса при создании сказки вместе с пользователем, а объектом – трансформации структуры, сказочных формул и контекста в условиях подбора языковых элементов и смыслов с помощью технологии искусственного интеллекта. Особое внимание уделяется навыку «Давай придумаем», который стал доступен для пользователей весной 2023 года. Также отдельно рассматривается пространственно-временной континуум, который создаётся системой с самого начала создания сказки – в разделе «Команда», где пользователю предлагают выбрать героев из разных эпох, культур и вселенных (литературных, медиа). Столкновение и взаимодействие фольклорных канонов с реалиями XXI века порождают неоднозначную реакцию на интерактивную возможность побывать в роли сказителя вместе с голосовым помощником. Основным методом исследования выступила сплошная выборка, которая использовалась для распределения шагов, этапов и действий при создании сказочного сюжета. Помимо этого использовались сравнительно-сопоставительный метод и контекстуальный анализ. Для получения данных и последующего анализа составляющих был проведён и описан лингвистический эксперимент с голосовой колонкой Алиса от компании Яндекс. Стремительное развитие нейросетевых языковых моделей позволяет нам говорить о научной новизне исследуемого материала, так как данная сфера является неизученной и слишком быстро модифицируется. Важно подчеркнуть, что до настоящего времени тексты спонтанно генерируемых сказок, их структурное членение и соответствие сказочных формул в них фольклорным канонами не были изучены. Основным выводом проведённого исследования можно обозначить то, что доля участия пользователя при создании сказки с голосовым помощником Алиса сильно преувеличена. Трансформации в сказочных формулах типа зачин и концовка – не обнаружены. Создание присказки невозможно, если следовать алгоритму сборки, заложенному в голосовом помощнике. Самая большая доля перестраивания в спонтанно генерируемом тексте приходится на логику повествования, искажение контекста и локализацию.
Abstract: The subject of the study is a spontaneously generated text by the voice assistant Alice when it is creating a fairy tale together with the user, and the purpose of the study is the transformation of the structure, fairy-tale formulas and context in terms of the selection of linguistic elements and meanings using artificial intelligence technology. Particular attention has focused on the skill "Let's make it up", which became available to users in the spring of 2023. The collision and interaction of folklore canons with the realities of the 21st century give rise to an ambiguous reaction to the interactive opportunity to play the role of a storyteller together with a voice assistant.
The main research method was a continuous sample, which was used to distribute the steps, stages and actions when it is creating a fairy-tale plot together with a voice assistant. In addition, methods such as comparative and contextual analyses were used to identify similarities and differences between traditional Russian fairy tales and a spontaneously generated fairy tale plot. To obtain the data and subsequent analysis of the components, a linguistic experiment with the voice assistant Alice from Yandex was conducted and described.
The rapid development of neural network language models allows us to talk about the scientific novelty of the material under study, since this area is unexplored and is being modified too quickly. It is important to emphasize that to date, the texts of spontaneously generated fairy-tale, their structural division and the correspondence of fairy-tale formulas in them to folklore canons have not been studied. The main conclusion of the study is that the user's share in creating a fairy tale with the voice assistant Alice is greatly exaggerated.
Жикулина К.П. —
Siri и навык кодирования личностных смыслов в контексте английского речевого этикета
// Litera. – 2023. – № 12.
– С. 338 - 351.
DOI: 10.25136/2409-8698.2023.12.69345
URL: https://e-notabene.ru/fil/article_69345.html
Читать статью
Аннотация: Предметом исследования является содержание личностных смыслов в вопросах или вопросах-приветствиях в контексте английских формул общения. Объект исследования – способность голосового помощника Siri к имитации спонтанного диалога с человеком и адаптация искусственного интеллекта к естественной речи. Цель исследования – выявление особенностей и уровня языковых навыков Siri в процессе коммуникации с пользователями на английском языке. Подробно рассматриваются такие аспекты темы, как проблема понимания, существующая в двух типах коммуникации: 1) между человеком и человеком; 2) между машиной и человеком; использование искусственным интеллектом устойчивых формул общения в ответах по теме «Как дела?»; определение уровня и речетворческого потенциала в ответных репликах голосового помощника. В работе использовались следующие методы: описательный, сравнительно-сопоставительный, контекстуальный, сплошная выборка и лингвистический эксперимент. Научной новизной является то, что проблемы, связанные с пониманием личностных смыслов у голосового помощника Siri, никогда подробно не исследовались в филологии и лингвистике. В связи с широким распространением и использованием голосовых систем в разных сферах социальной и общественной жизни возникает необходимость анализа ошибок в речи и описания коммуникативных неудач в диалогах между голосовыми помощниками и пользователями. Полученные материалы позволят определить роль и место искусственного интеллекта в XXI веке и сделать прогнозы о его дальнейшем языковом развитии. Основными выводами проведённого исследования являются: 1) машина не способна генерировать ответы, опираясь на опыт прошлых впечатлений; 2) отклонения от норм английского речевого этикета в ответных репликах Siri незначительные, но часто приводят к коммуникативным неудачам; 3) в ответных репликах обнаружено одностороннее кодирование личностного смысла: от машины к человеку, но не наоборот.
Abstract: The subject of the study is the content of personal meanings of greeting questions in the context of English communication formulas of Siri. The object of the study is the ability of the voice assistant to simulate spontaneous dialogue with a person and the adaptation of artificial intelligence to natural speech. The purpose of the study is to identify the features and level of Siri's language skills in the process of communicating with users in English. Such aspects of the topic as the problem of understanding that exists in two types of communication are considered in detail: 1) between a person and a person; 2) between a machine and a person; the use of stable communication formulas by artificial intelligence as responses to the question «How are you?»; determining the level and speech-making potential in the responses of the voice assistant. The following methods were used in the research: descriptive, comparative, contextual, comparative method and linguistic experiment. The scientific novelty is that the problems related to encoding the personal meanings of the Siri voice assistant have never been studied in detail in philology and linguistics. Due to the prevalence use of voice systems in various spheres of social and public life, there is a need to analyze errors in speech and describe communication failures in dialogues between voice assistants and users. The main conclusions of the study are: 1) the machine is not able to generate answers based on the experience of past impressions; 2) deviations from the norms of English speech etiquette in Siri's responses are insignificant, but often lead to communicative failures; 3) the one-sided encoding of personal meaning was found in the responses: from the machine to the person, but not vice versa.