Рус Eng Cn Перевести страницу на:  
Please select your language to translate the article


You can just close the window to don't translate
Библиотека
ваш профиль

Вернуться к содержанию

Национальная безопасность / nota bene
Правильная ссылка на статью:

Распознавание эмоций человека по голосу в борьбе с телефонным мошенничеством

Плешакова Екатерина Сергеевна

ORCID: 0000-0002-8806-1478

кандидат технических наук

доцент, кафедра Информационной безопасности, Финансовый университет при Правительстве Российской Федерации

125167, Россия, г. Москва, пр-д 4-Й вешняковский, 12к2, корпус 2

Pleshakova Ekaterina Sergeevna

PhD in Technical Science

Associate Professor, Department of Information Security, Financial University under the Government of the Russian Federation

125167, Russia, Moscow, 4th Veshnyakovsky Ave., 12k2, building 2

espleshakova@fa.ru
Другие публикации этого автора
 

 
Гатауллин Сергей Тимурович

кандидат экономических наук

декан факультета «Цифровая экономика и массовые коммуникации» Московского технического университета связи и информатики; ведущий научный сотрудник Департамента информационной безопасности Финансового университета при Правительстве РФ

111024, Россия, г. Москва, ул. Авиамоторная, 8А

Gataullin Sergei Timurovich

PhD in Economics

Dean of "Digital Economy and Mass Communications" Department of the Moscow Technical University of Communications and Informatics; Leading Researcher of the Department of Information Security of the Financial University under the Government of the Russian Federation

8A Aviamotornaya str., Moscow, 111024, Russia

stgataullin@fa.ru
Другие публикации этого автора
 

 
Осипов Алексей Викторович

кандидат физико-математических наук

доцент, Департамент анализа данных и машинного обучения, Финансовый университет при Правительстве Российской Федерации

125167, Россия, г. Москва, ул. 4-Й вешняковский, 4, корпус 2

Osipov Aleksei Viktorovich

PhD in Physics and Mathematics

Associate Professor, Department of Data Analysis and Machine Learning, Financial University under the Government of the Russian Federation

125167, Russia, Moscow, 4th veshnyakovsky str., 4, building 2

avosipov@fa.ru
Другие публикации этого автора
 

 
Коротеев Михаил Викторович

доктор экономических наук

Заместитель декана факультета информационных технологий, Федеральное государственное образовательное бюджетное учреждение высшего образования «Финансовый университет при Правительстве Российской Федерации»

125167, Россия, г. Moskow, ул. Leningradskiy Prospect, 49/2

Koroteev Mikhail Viktorovich

Doctor of Economics

Deputy Dean of the Faculty of Information Technology, Federal State Educational Budgetary Institution of Higher Education "Financial University under the Government of the Russian Federation"

49/2 Leningradskiy Prospect str., Moscow, 125167, Russia

MVKoroteev@fa.ru
Ушакова Юлия Владиславовна

доктор юридических наук

студент, кафедра Департамент анализа данных и машинного обучения, Финансовый университет при Правительстве Российской Федерации

125167, Россия, ​ область, г. Moskow, ул. Leningradskiy Prospect, 49/2

Ushakova Yuliya Vladislavovna

Doctor of Law

Student, Department of Data Analysis and Machine Learning, Financial University under the Government of the Russian Federation

125167, Russia, ​ region, Moscow, Leningradskiy Prospect str., 49/2

ushakova_yv@fa.ru

DOI:

10.7256/2454-0668.2022.5.38782

EDN:

SGTJAV

Дата направления статьи в редакцию:

16-09-2022


Дата публикации:

29-09-2022


Аннотация: Достижения в области коммуникационных технологий сделали общение между людьми более доступным. В эпоху информационных технологий обмен информацией стал очень простым и быстрым. Однако личная и конфиденциальная информация может быть доступна в Интернете. Например активно применяется злоумышленниками голосовой фишинг, Вред от вишинга является серьезной проблемой во всем мире, и его частота растет. Системы связи уязвимы и могут быть легко взломаны злоумышленниками с помощью атак социальной инженерии. Эти атаки направлены на то, чтобы обманом заставить людей или предприятия выполнять действия, которые приносят пользу злоумышленникам, или предоставить им конфиденциальные данные. В этой статье исследуется полезность применения различных подходов к обучению для решения проблемы обнаружения мошенничества в сфере телекоммуникаций. Голос человека содержит различные параметры, которые передают информацию, такую как эмоции, пол, отношение, здоровье и личность. Технологии распознавания говорящих имеют широкие области применения, в частности противодействие телефонному мошенничеству. Распознавание эмоций становится все более актуальной технологией так же с развитием систем голосовых помощников. Одной из целей исследования является определение пользовательской модели, которая лучше всего выявляет случаи мошенничества. Машинное обучение обеспечивают эффективные технологии для обнаружения мошенничества и успешно применяются для обнаружения таких действий, как фишинг, кибербуллинг, мошенничество в сфере телекоммуникаций.


Ключевые слова:

искусственный интеллект, кибербуллинг, машинное обучение, анализ текста, нейронные сети, персональные данные, компьютерное преступление, киберпреступления, телефонное мошенничество, фишинг

Abstract: Advances in communication technologies have made communication between people more accessible. In the era of information technology, information exchange has become very simple and fast. However, personal and confidential information may be available on the Internet. For example, voice phishing is actively used by intruders. The harm from phishing is a serious problem all over the world, and its frequency is growing. Communication systems are vulnerable and can be easily hacked by attackers using social engineering attacks. These attacks are aimed at tricking people or businesses into performing actions that benefit attackers, or providing them with confidential data. This article explores the usefulness of applying various approaches to training to solve the problem of fraud detection in telecommunications. A person's voice contains various parameters that convey information such as emotions, gender, attitude, health and personality. Speaker recognition technologies have wide areas of application, in particular countering telephone fraud. Emotion recognition is becoming an increasingly relevant technology as well with the development of voice assistant systems. One of the goals of the study is to determine the user model that best identifies fraud cases. Machine learning provides effective technologies for fraud detection and is successfully used to detect such actions as phishing, cyberbullying, and telecommunications fraud.


Keywords:

artificial intelligence, cyberbullying, machine learning, text analysis, neural networks, personal data, computer crime, cybercrimes, phone fraud, phishing

Статья подготовлена в рамках государственного задания Правительства Российской Федерации Финансовому университету на 2022 год по теме «Модели и методы распознавания текстов в системах противодействия телефонному мошенничеству» (ВТК-ГЗ-ПИ-30-2022).

Фишинг становится все более серьезной угрозой, в значительной степени обусловленной развитием веб-технологий, мобильных технологий и социальных сетей. Фишинг направлен на сбор конфиденциальной и личной информации, такой как имена пользователей, пароли, номера кредитных карт, выдавая себя за законное лицо в киберпространстве посредством телефонных звонков или электронных писем. Так как фишинговые атаки нацелены не только на обычных пользователей, но и на критически важную инфраструктуру, это может повлечь угрозу национальной безопасности. Фишинговые атаки могут иметь серьезные последствия для их жертв, такие как потеря интеллектуальной собственности и конфиденциальной информации, финансовые потери. Фишинг часто используется для проникновения в корпоративные или правительственные сети в рамках более крупной атаки, такой как событие повышенной постоянной угрозы. В этом сценарии сотрудники подвергаются компрометации, чтобы обойти периметры безопасности, распространить вредоносное ПО внутри закрытой среды или получить привилегированный доступ к защищенным данным. Обнаружение фишинга считается сложной проблемой, это связано с тем, что фишинг основан на семантике, в которой, используются уязвимости человека, а не уязвимости системы.

Распространение мобильных технологий в последние годы способствовало развитию социальной инженерией, когда мошенники влияют на людей с целью совершения определенные действия в Интернете для получения конфиденциальной информации. Это может заключатся в отправке целевых фишинговых электронных писем, побуждающих получателей переходить по ссылкам, предоставлять личную информацию или загружать вредоносное программное обеспечение. Один из способов, применяемый мошенниками, это попытка вывести потенциальную жертву на сильные эмоции. Это может быть испуг или радость. Их задача вывести жертву из состояния равновесия. В связи с этим стоит

Распознавание эмоций становится все более актуальной задачей с развитием систем голосовых помощников, поскольку может делать взаимодействие человека и компьютера более эффективным [1,3]. SER может работать на как отдельно встроенном модуле, который можно подключить к другому устройству или работать с помощью облачных технологий на смарт-устройствах [2]. При этом методы глубокого обучения все чаще рассматриваются в качестве альтернативы традиционным методам и постепенно набирают популярность [4]. Тем не менее, когда разработанные инженерами “в лабораторных условиях” системы внедряются в современные технологии, возникает немалое количество проблем.

Существует также много психологических систем, отражающих спектр человеческих эмоций. Они используются в SER (Speech Emotion Recognition), чтобы отнести эмоцию в определенную категорию. К настоящему моменту существует две наиболее популярных модели: дискретные классы (например, модель, основанная на теории о шести базовых группах эмоций П.Экмана). Во втором подходе используются несколько осей (две или три). Оценивается, например, уровень возбужденности по одной оси, по другой позитивность/валентность.

Поскольку SER является довольно новой областью исследований, еще не существует оптимальных универсальных моделей. Эксперименты проводятся в области улучшения предварительной обработки звуковых файлов, моделей классификации. Например, разрабатываются гибридные системы, которые совмещают классические модели классификации и нейронные сети, для улучшение показателей точности [5].

Для SER необходимы базы данных, на которых будет обучаться модель. Датасеты обладают своими особенностями и могут также влиять на параметры работы модели и точность. Более того, существует отдельная проблема работы с распознаванием речи в реальном времени, поскольку запись материала для баз данных происходит в студийных условиях, но при использовании SER на практике необходимо также решать проблему внешнего шума.

Этапы работы со звуковыми файлами.

Общая схема работы SER выглядит следующим образом: предварительная обработка звука => извлечение признаков => классификация. Существует три основных этапа распознавания эмоций в речи: предварительная обработка звука, извлечение признаков и классификация [6]. Во время предварительной обработки снижают уровень шума, делят речь на сегменты для того, чтобы преобразовать речевой фрагмент ная ряд значимых частей. На втором этапе происходит выделение значимых признаков, которые помогают отнести фрагмент к тому или иному классу. После того, как место фрагмента определено в системе (например, местонахождение по векторам) фрагмент записывается в определенный класс. Как отмечает Моцциконаччи, дополнительная сложность анализа эмоций в речи также заключается в том, что люди склонны менее ярко выражать эмоции при “общении” с гаджетами.

Нормализация признаков и снижение шума. Для большинства систем SER в реальном времени необходимо провести ряд манипуляций с исходной звуковой дорожкой, снизить уровень шума.

Снижение шума позволяет избавится от стационарного шума при записи звука или в готовой звуковой дорожке. Нормализация звука помогает регулировать громкость, чтобы при записи звука с различных расстояний она оставалось стабильной. Перед извлечением признаков чаще всего все молчащие отрезки аудиофайла удаляются.

Ряд исследований свидетельствует о том, что модели шумоподавления, эффективные для распознавания речи (ASR), также успешно справляются с паралингвистическими задачами.

Наиболее популярные методы шумоподавления включают в себя: спектральное вычитание, винеровское оценивание и метод минимальной среднеквадратической ошибки.[7] В ходе сравнения трех данных методов шумоподавления Чанчах и Лачири обнаружили, что для классической модели SER (извлечение мел-частотных спектральных коэффициентов + скрытая марковская модель) наиболее эффективным методом шумоподавления оказалось прежде всего спектральное вычитание, затем метод минимальной среднеквадратической ошибки.[8]

Однако в некоторых случаях снижение внешнего шума может негативно отражаться на точности модели. В экспериментах, проведенных Д. Деуси и Е. Попа, для нормализации был использован метод центрирования (Z-score normalization) из библиотеки SoX для Python при котором расположение признака на оси зависит от того, насколько он отличается от стандартного отклонения. Для подавления шума была использована библиотека SoX и RNNoise. Однако нормализация признаков и снижение шума уменьшали точность моделей. Самая высокая точность (72.43%) модели была достигнута без использования нормализации и подавления шума. Самые высокие показатели точности с использованием шумоподавления и нормализации колебались от 58.88% до 68.69%.

Извлечение признаков.

Две главные ступени для распознавания эмоций в речи после первичной обработки звука - это выделение признаков, а затем их классификация.[9] Для технологий распознавания эмоций в речи наиболее распространенными являются такие признаки как: возбуждение, просодические черты речи (высота, сила, интенсивность, ритм и т.д.), акустические характеристики среды, реже лингвистические особенности речи [10].

В современных “state-of-art” моделях можно увидеть два основных подхода: 1) использование больших наборов признаков (или выделение их вручную) , затем сокращение размерности ( с помощью метода главных компонент PCA) 2) перепоручение этой задачи нейронной сети которая самостоятельно выделит значимые признаки [11].

Статическое моделирование предполагает использование высказываний целиком, в динамическом моделировании звуковой сигнал делиться на мелкие фрагменты (фреймы) [12]. Динамическое моделирование является более надежным, поскольку оно не полагается на сегментацию входной речи на высказывания и может фиксировать изменение эмоций внутри высказываний во времени [13]. Тем не менее, эмпирические сравнения двух способов показывали более высокие результаты именно при использовании способа анализа полных высказываний.

Локальные short-term features.

Локальные признаки (short-term features), как следует из названия характеризуют звуковой сигнал на коротком промежутке. К ним относятся такие признаки как: форманты, высота, log energy.

Для распознавания локальных признаков используется динамическое моделирование.

Наиболее типичная длина фрейма варьируется от 20 до 30 мс для анализа локальных признаков. В качестве длины наложения можно выбирать длину, равную половине фрейма.[14]

Например, на одном из выложенных соревнований на kaggle.com для преобразования звука в мел-спектограмму звуковая дорожка разбивается на небольшие отрезки (фреймы). В конкретном соревновании участникам предлагают разделять дорожки на короткие фреймы по 25 миллисекунд (0,025 секунд) с шагом равным 10 миллисекунд(0,01 секунды). Одна секунда звуковой дорожки содержит 100 фреймов. Из каждого фрейма создается 40-мерный мел-вектор. Таким образом, вся спектрограмма имеет вид матрицы размерностью 100*T*40, где T количество секунд.

В зависимости от набора таких факторов, как: используемый алгоритм, цель распознавания, качество входных данных и т.д. можно изменять различные параметры.

Так, например, в исследовании Х.Файека, М. Лех, Л.Каведон, посвященного технологиям глубокого обучения для SER ученые обнаружили, что наибольшая точность созданных моделей с использованием архитектур прямого распространения достигается при увеличении количества фреймов, но при 220 фреймах выходила на плато [13].

Глобальные long-term features.

Глобальные (long-term features) наоборот отражают признаки, которые можно проследить на протяжении всего высказывания. Например, средняя высота, среднеквадратическое отклонение высоты, показатели энергии, прослеживаемые на всем звуковом отрезке.

Статистические признаки бывают более сложны в вычислениях. Помимо этого, к глобальным признакам относятся признаки из различных областей. Они фиксируют акустические характеристики, лингвистические характеристики, статистические показатели речи и звука. Ввиду такой неоднородности проблематичной представляется задача создания единого датасета, в котором присутствовали бы универсальные глобальные признаки, которые подходили бы для носителей разных языков, для различных задач и ситуаций. Более того, некоторые глобальные признаки проблематично выявить, основываясь лишь на звуковом сигнале, например, огубление (фонетическое явление при котором для артикуляции звука нужно округлить губы). Поэтому популярным решением для глобальных признаков является добавление их к набору локальных признаков. Ввиду указанных проблем обычно глобальные признаки ограничивают статистическими признаками и глобальными акустическими.

В исследовании А.Карпова был применен гибридный подход (комбинирование долгосрочных и краткосрочных признаков). Исследователи использовали извлечение как на уровне фреймов (динамическое моделирование), так и на уровне высказываний (статическое моделирование). Было оздано совместное представление признаков и затем применялся метод классификации (например, логистическая регрессия) [15].

В исследовании [16] авторы применили гибридный метод для задачи идентификации говорящего, полученные результаты точности более чем на 20% превышали наиболее эффективные модели на тот момент. В среде исследователей нет единого мнения относительно преимуществ локальных и глобальных признаков для распознавания эмоций в речи. Однако большинство разделяет мнение, что глобальные признаки повышают точность модели и сокращают время классификации, кроссвалидация требует меньше времени(поскольку глобальных признаков меньше), чем для локальных признаков. Тем не менее, глобальные признаки не отражают временных характеристик сигнала, а также хуже работают с эмоциями с одинаковым уровнем параметров возбуждения (радость-злость).

Наборы признаков.

Наиболее полные наборы признаков для SER были выработаны в ходе ежегодных конференций Interspeech (INTERSPEECH Computational Paralinguistics Challenge/ComParE). В таблице 1 представлен сет признаков, включающий в себя большой выбор дескрипторов низкого уровня (мел-кепстральные коэффициенты MFCCs, голосовые вероятности/voicing probability, импульсно-кодовая модуляция PCM) и функций (среднее, стандартное отклонение, перцентили, квартили, коэффициенты линейной регрессии).

Таблица 1 - Наборы признаков

Набор признаков

Дескрипторы низк.ур.

Функции/инструменты

Общее кол-во признаков

INTERSPEECH-2009

16

12

384

INTERSPEECH-2010

38

21

1582

INTERSPEECH-2011

60

33

4368

INTERSPEECH-2013

65

54

6373

Важной проблемой на настоящий момент является создание эффективных и универсальных наборов значимых характеристик, которые будут одинаково хорошо работать для различных сред и задач исследования, в том числе противодействию телефонному мошенничеству. Набор eGeMAPS предлагает более минималистический подход к набору признаков по сравнению с ComParE. При составлении они ориентировались на три главных правила: 1) включение признаков которые наиболее отражают изменение психологического состояние по голосе, 2) доказанная значимость определенных характеристик в предыдущих исследованиях и возможность автоматического извлечения признаков 3) теоретическая важность.

Для задачи распознавания эмоций в речи необходимо преобразование звукового файла, визуальное представление энергии сигнала по частотам. Аудиофайл нужно привести к матричной форме. Эта задача в области распознавания эмоций в речи обычно решается с помощью преобразования звука в мел-спектрограмму. Мел-частотные спектральные коэффициенты наиболее популярный способ трансформации аудио файла, который доказал свою надежность. Мел - частота измерения звука, которая основана на том факте, что человеческий слух более восприимчив к изменениям звука в низком диапазоне, чем в высоком. Для создания мел-спектрограммы к звуку применяется ряд мел-фильтров, которые преобразуют звуковой файл в его визуальное отображение. По одной шкале фиксируется мел-частота, по второй время. Задача мел-спектрального анализа заключается в отображении того, как человеческое ухо слышит звук. Это не единственный способ математического выражения человеческого восприятия звука, но этот он доказал свою эффективность в задачах распознавания речи и поэтому на данный момент является наиболее популярным.[17]

Этапы первичной обработки звукового сигнала выглядит следующим образом:

  • Преобразование Фурье. В распознавании эмоций в речи обычно используется FFT (fast Fourier transform), поскольку быстрое преобразование Фурье позволяет анализировать речь в реальном времени.
  • Затем полученные вектора спектра звукового сигнала проходят через фильтры, иными словами перемножаются на оконные функции. Результатом будут коэффициенты.
  • Дальнейшее преобразование должно превратить эти коэффициенты в мел-частотные спектральные коэффициенты (кепстральные). Значения, полученные на предыдущем шаге возводятся в квадрат и логарифмируют, затем можно снова применить преобразование Фурье или дискретное косинусное преобразование.

Тем не менее, однозначным трендом для SER в области является исследование моделей, для которых не нужен готовый набор признаков, но напротив важные признаки учится выявлять нейронная сеть, работающая с “сырым” файлом. Подобные технологии можно назвать прорывными, поскольку они существенно снижают требования к знаниям, которыми должны обладать создатели решений SER, к исходным данным и в целом упрощают процесс поиска признаков для классификации.

Задача распознавания речи является более изученной, чем распознавание эмоций в речи, но эти две области тесно связаны и алгоритмы, работающие для одной могут быть успешно адаптированы к другой области. Одним из первых исследований, посвященным работе с сырыми данным можно назвать работу Джайтли Н. и Хинтон Г., в котором была использована ограниченная машина Больцмана, которая училась распознавать слова напрямую из сигнала, представленного в волновой форме [18]. В ходе другого исследования была использована свёрточная нейронная сеть для распознавания речи, представленной в виде мел-спектограммы [19]. Палаз и др. провели исследование в котором сверточная нейронная сеть обучалась на “сыром” датасете [20].

Успешная попытка применения модели “end-to-end” была реализована в исследовани Тригиоргиса и коллег. После снижения уровня шума сигнал трансформируется во временной ряд и подается на вход для долгой краткосрочной памяти, которая определяет какие признаки важные с помощью метода обратного распространения ошибки. Затем обучение происходит с помощью сверточной нейронной сети. Авторы также отмечают, что те признаки, которые в готовых наборах ассоциируются с возбужденным состоянием, были также отмечены и в ходе обучения признакам их модели. Соответственно нейронные сети могут быть использованы как вспомогательный инструмент для определения оптимального набора признаков.

Рассмотрев варианты извлечения признаков можно прийти к следующим выводам:

  • На настоящий момент для SER нет единого стандарта для определения признаков. Существует три основных варианта: подбор признаков самостоятельно вручную, использование готовых наборов или определение значимых признаков с помощью нейронных сетей с привлечением учителя или без. Наиболее перспективным представляется именно последний вид модели. Результаты исследований нейронных сетей для извлечения важных признаков могут быть использованы как для внедрения таких систем или для определения наиболее значимых признаков для их дальнейшего включения в тем или иные наборы.
  • С одной стороны, отсутствие единого стандарта признаков естественное следствие того, что SER довольно новая сфера исследований. В ходе работы у ученых есть возможность экспериментировать с различными наборами и выявлять наиболее оптимальные признаки. Однако это затрудняет сравнение результатов исследований, поскольку для каждого набор признаков различен.
  • При выборе локальных или глобальных признаков исследователям приходится обычно делать выбор в пользу одного из вариантов, поскольку совмещение двух приведет к сложной модели и перегруженному набору признаков. Главное преимущество глобальных признаков заключается в возможности использовать не только акустические и статистические инструменты, но и включать, например, лингвистические признаки, снижать вариативность речи говорящего, повышая тем самым “робастность”. Однако на настоящий момент не существует исчерпывающих и универсальных баз, которые обладали бы не только статистическими и акустическими инструментами для глобальных признаков. Наиболее популярные варианты моделей предполагают использование только локальных признаков или добавление некоторых глобальных признаков к локальным. Такие системы показывают более высокие результаты. Поэтому можно предположить, что в дальнейшем использование глобальных признаков будет становиться более важным для SER.

Методы классификации.

Классификация происходит с помощью линейных и нелинейных классификаторов. Среди первой категории наиболее распространенными являются байесовские сети, метод наибольшего правдоподобия, метод опорных векторов. Для анализа речи также эффективны нелинейные классификаторы, среди которых смешанные гауссовские модели или скрытая марковская модель. Кроме этого, также используются для распознавания эмоций такие классификаторы как: метод k-ближайших соседей, метод главных компонент и деревья решений.[21]

Среди классических классификаторов для SER использовались скрытые марковские модели[22], смешанные модели[23], метод векторов[24], метод k-ближайших соседей[25]. Но наиболее широко используемые в SER это скрытые марковские модели и метод опорных векторов. [26-27]

Для классических моделей схема выглядит следующим образом: входные голосовые данные/датасет -> извлечение признаков -> применение статических инструментов (напр.openSmile) -> сокращение размерности PCA -> классический классификатор -> результат.

Набор признаков влияет на работу и точность классификационной модели. Как отмечают в [28] для скрытых марковских моделей и метода опорных векторов количество векторов глобальных признаков может быть недостаточно для эффективного обучения модели. Сложные модели лучше учатся на большом наборе данных, которые создаются при извлечении кратковременных признаков. Для анализа глобальных признаков подходят смешанная гауссовская модель.

Однако глубокое обучение обладает рядом преимуществ по сравнению с традиционными методами, в том числе и благодаря возможности анализа сложных структур признаков без ручного выделения признаков, работы с немаркированными данными.

Предпосылками для использования глубокого обучения в распознавании эмоций в речи можно назвать несколько факторов. Во-первых, не существует четкого набора акустических признаков, которые позволяют эффективно распознавать эмоции в речи в любых ситуациях, поэтому разработчики вынуждены использовать сразу большое количество признаков. Следовательно, возрастают риски переобучения модели ввиду слишком большого датасета, который сложно анализировать и выводить общие правила [29]. Помимо этого, многие акустические признаки дорого вычислять, требуют дополнительного оборудования или специальных технических решений, что затрудняет распространение технологии и адаптацию под различные виды устройств [30]. Важным преимуществом обучения с помощью глубокого обучения является отсутствие необходимости вручную выбирать признаки для обучения [31]. Все это делает исследование возможностей глубокого обучения крайне актуальными для технологий SER.

Архитектуры в основе которых лежат сети прямого распространения сигнала (feed-forward structures), такие как глубокие нейронные сети (DNN) или и сверточная нейронные сети (CNNs) демонстрируют наилучшие результаты для обработки изображений и видео. При этом архитектуры с рекуррентными сетями (recurrent networks) рекуррентные нейронные сети (RNN) и долгая краткосрочная память (LSTM) очень эффективны в анализе речи, для систем обработки естественного языка (NLP) и распознавания эмоций в речи (SER) [32-33].

Однако глубокое обучение обладает рядом ограничений. Во-первых, оно требует сложных вычислений и соответственно более высоких мощностей, объема памяти, а также времени обучения. В связи с этим возникает ряд сложностей при анализе живой речи и имплементации подобных технологий для повседневного использования.

В технологиях глубокого обучения процесс распознавания эмоций в речи выглядит следующим образом:

входные голосовые данные/датасет -> извлечение признаков -> применение статических инструментов (напр.openSmile) -> алгоритм глубокого обучения -> результат.

Ряд исследований отмечают положительные результаты использования CNN для обработки таких одномерных сигналов как аудио и речь [37-39]. В своем исследовании Д. Деуси и Е. Попа рассматривали три вида нелинейных моделей: классические (метод опорных векторов (SVM), метод k-ближайших соседей (KNN), случайные леса (RFC)), глубокое обучение (многослойный перцептрон (MLP) и сверточные нейронные сети (CNN)) и гибридные классификаторы. Затем исследователи провели ряд экспериментов для того, чтобы выяснить насколько хорошо модели будут работать с реальной речью по сравнению с записанными датасетами. В ходе исследования они пришли к выводу, что модель лучше тренируется не на датасете, но на данных, которые предоставляет сам пользователь. Также для повышения точности ученые предлагают использовать гибридные модели, которые совмещают нейронные сети и нелинейные классификаторы (например, SVM). Именно гибридная модель показала наибольшую точность в исследовании (83.27% для Берлинской базы и 67.19% для Ravdess). Авторы делаю предположение, что для гибридных систем оптимальными будут такие классификаторы как смешанные модели (GMM), скрытая марковская модель(HMM) и глубокая сеть доверия (DBN). Помимо этого, авторы отмечают, что дальнейшим направлением работы должен стать поиск путей увеличения стабильности системы в любой среде.

В другом исследовании в качестве классификатора была выбрана гибридная модель, которая показала более высокие результаты, 86,60%. В ней используется глубокая сеть доверия и метод опорных векторов. Наиболее хорошие результаты показала сеть в которой было 1024 и 2048 слоев. Сеть выполняет задачу слияния признаков (feature fusion), которое повышает устойчивость системы к внешнему шуму [34].

В [35] исследовании можно встретить важное замечание касающиеся входных данных для обучения. Имитационные базы данных могут показывать хорошие результаты точности в рамках эксперимента, однако при внедрении этого механизма в реальные приложения точность может сильно отличаться. И хотя данные, полученные в реальных условиях могут обладать большой вариативностью и сложны в обработке, они обладают большим потенциалом для прикладного использования.

Таким образом можно сделать следующии выводы:

  • Не существует универсальной модели классификатора, которая хорошо справлялась бы с различными задачами SER. Классические классификаторы обладают более простой архитектурой, чем нейронные сети и соответственно тренировка модели может быть дешевле и быстрее. Нейронные сети обладают большим потенциалом для обучения без учителя, однако требуют более сложных вычислений. Для того чтобы нивелировать ограничения того или иного способа используются гибридные модели.
  • На качество работы модели влияет большое количество факторов. Во-первых одна и та же модель может показывать неодинаковые результаты для различных датасетов. Количество признаков также влияет на качество обучения модели. Помимо этого результаты оказываются разными при тестировании систем в различных средах. При наличии таких особенностей в ближайшем будущем пока не представляется вероятным создание ряда универсальных моделей, но наоборот многочисленные эксперименты с классическими моделями, гибридными и глубоким обучением.

Базы данных, используемые для распознавания эмоций в речи.

Базы данных можно разделить на три основных типа:

1. Симуляционные. В подобных датасетах голосовые фрагменты записаны профессиональными актерами. 60 % баз данных принадлежат к этой категории. Привлечение артистов для записи голоса по заранее заданному сценарию самый простой способ создания датасета.

2. Индуцированные. Для сбора данных для такой базы используются записанные естественные реакции людей, которые оказались в определенной искусственно заданной ситуации. Обычно это делается без ведома человека, чей голос записывают. По сравнению с первой категорией реакции человека могут быть более естественными, однако возникают дополнительные сложности с моделированием ситуаций, поскольку реальные эмоции человека могут не совпадать с ожидаемыми от него. Помимо этого, при такой записи голосовых фрагментов может возникнуть ряд этических вопросов, связанных со сбором личной информации.

3. Естественные базы. Фиксируют реальные повседневные диалоги людей, разговоры, записанные во время звонков в колл-центры и т.д. Главная сложность заключается в сборе подобной информации [36].

Каждая база данных обладает своими особенностями в методологии, количестве распознаваемых эмоций, людей, чья речь была зафиксирована и т.д.. Рассмотрим следующие базы данных:

  • Берлинская база данных эмоций в речи (Berlin Database of Emotional Speech) Открытая база

В этом датасете выделены шесть эмоций гнев, скука, отвращение, страх, радость, печаль и нейтральное состояние. Десять профессиональных актеров произносят эмоционально нейтральные предложения (например: “Ткань лежит на холодильнике”): 5 длинных и 5 более коротких. Предложения произносятся несколько раз с различными интонациями, которые соответствуют каждой из шести эмоций. Для оценки качества собранного датасета были приглашены 20 слушателей, которые после прослушивания случайного высказывания из базы должны определить эмоцию. Те высказывания, в которых соответствие с изначально заложенной эмоцией в оценке слушателей ниже 40%. Отмечены, как неоднозначные. Если исключить такие высказывания из датасета, то из 900 всех записей останется 494 высказывания, в которых средняя точность в выявлении эмоций составляет 84,3%. Именно этот сокращенный набор обычно используется для исследований.

  • Датская база данных эмоций в речи (Danish Emotional Speech Database) Открытая база

Для записи материала были использованы голоса четырех актеров, которые произносили девять предложений, два слова и междометья. Эмоции, включенные в датасет: гнев, радость, нейтральное состояние, печаль и удивление. Затем записи были оценены на соответствие двадцатью слушателями. Средний результат точности 67%.Содержит только высказывания на датском.

  • База данных интерактивного эмоционального диадического захвата движения (Interactive Emotional Dyadic Motion Capture Database). Открытая база

Датасет был записан на базе Университета Южной Калифорнии (USC). Особенность этого датасета заключается в том, она содержит целый комплекс факторов, которые отражают эмоции. В базе содержится информация о движении головы, рук, мимики лица и речи человека во время диалога. В сборе информации приняли участие 10 актеров, которые разыгрывали эмоции согласно сценарию или в импровизированной ситуации, в которой должны были выразить определенные эмоции (счастье, гнев, печаль, разочарование и нейтральное состояние). Именно наличие импровизированных диалогов считают важным преимуществом этого датасета. Содержит только высказывания на английском. Является одной из наиболее популярных баз для разработки и тестирования технологий SER [37].

  • INTERFACE05 Открытая база

База содержит 1 277 образцов. Были использованы голоса 42 человек (восемь женщин, 14 национальностей). Записи производились в офисной среде. База включает шесть категорий эмоций: гнев, отвращение, страх, радость, печаль, удивление. Каждому испытуемому было предложено прослушать шесть рассказов, каждый из которых вызывают определенную эмоцию, которую слушатель должен был выразить сказав доступные на выбор пять предложений (для каждой эмоции свой набор пяти предложений). Затем два эксперта оценивали записи и вносили их в базу, если они считали, что эмоция выражена достаточно четко. Содержит высказывания на английском, словенском, испанском, французском [38].

  • Консорциум лингвистических данных эмоциональная просодия речи и транскрипции (LDC Emotional Prosody Speech and Transcription). Открытая база

Датасет был разработан лингвистическим Консорциомом в течение восьми месяцев в 2000-2001 гг. Профессиональные актеры читают серию 10 нейтральных высказываний (даты и числа), каждое высказывание записано с использование 15 эмоциональных состояний (отчаяние, печаль, нейтральное состояние, интерес, радость, паника, ярость, стыд, ненависть, восторг, гордость, холодная агрессия. Содержит только английские высказывания.

  • SAVEE(Surrey Audio-Visual Expressed Emotion)

База данных состоит из записей 4 актеров-мужчин, включает 7 различных эмоций. Датасет содержит 480 высказываний на британском английском. Затем были приглашены десять экспертов для оценки записанных выражений. Наиболее высокие показатели точности были даны при просмотре видео и аудио одновременно 84%, 65% составила точность при оценке только визуального материала, а 64% при оценке только аудио.

  • Speech Under Simulated and Actual Stress

Целью создания этого датасета было улучшение работы систем по распознаванию речи. Создатели датасета отмечают, что на точность системы оказывают воздействие ситуационный стресс и шум среды. Помимо этого, еще одним фактором является эффект Ломбарда (люди повышают голос в шумной среде, чтобы быть услышанными, но это усиливает общий уровень шума в помещении). Для записи были привлечены 32 актера (13 женщин, 19 мужчин) в возрасте от 22 до 76 лет. Всего содержит 16 000 высказываний. База данных разделена на пять областей. Пять областей учитывают: 1) стиль разговора (медленный, быстрый, тихий и т.д.) 2) отслеживание одного эффекта (например, Эффекта Ломбарда) 3) отслеживание двух эффектов одновременно 4) страх и стресс испытанный в реальных обстоятельствах при движении (перегрузки, эффект Ломбарда, шум, страх), 5) данные психиатрического анализа (речь при депрессии, страхе, тревоге).

  • Ruslana открытая база

Для русского языка в 2002 году была создана собственная база. Для записи были приглашены актеры (12 мужчин, 49 женщин), которые говорили десять предложений, выражая удивление, гнев, счастье, печаль, страх или нейтральное состояние. Датасет содержит 3660 высказываний. Для оценивания были приглашены эксперты, которые определяли тип эмоции и ставили оценку насколько хорошо она выражена.

Таким образом, можно выделить несколько проблем для SER, связанных с датасетами.

  • большинство существующих датасетов относятся к категории симуляционных, то есть для их создания привлекаются небольшая группа профессиональные актеры. В таком случае далеко не всегда удается отразить речевые особенности, которые могут сильно варьироваться у людей. Это может влиять на результат, так, например, в ходе экспериментов, проведенных Д. Деуси и Е. Попа была обнаружена разница в точности при использовании Берлинская базы данных эмоций в речи (симуляционная) и Ravdess (индуцированная). При использовании симуляционной базы точность была выше во всех девяти экспериментах, в которых использовались разные модели классификации. Похожее наблюдение относительно симуляционных и индуцированных баз было также сделано в более раннем исследовании. Но даже для баз, относящихся к одной категории результаты в большинстве исследований расходятся. Это сильно затрудняет возможность объективного сравнения результатов исследований, и тем более их адаптацию для реальных условий.
  • базы данных содержат файлы, записанные в студийных условиях, что затрудняет адаптацию записанного материала для задачи распознавания в условиях реальной среды с различным уровнем шума и сопутствующих звуков.
  • не все языки представлены в датасетах. Даже если не учитываются лингвистические признаки, использование акустических признаков эмоционального состояния, выделенных на основе английского датасета может быть некорректным для других языков.
  • в группе людей, которая выбрана для записи датасета нередко можно наблюдать дисбаланс по гендерному признаку или возрастному. Например, в записи базы INTERFACE05 34 человека из 42 - мужчины, в базе для русского языка приняли участие 61 человек, среди которых 49 женщин.

Выводы

Выявление мошенничества является важной частью обеспечения национальной безопасности. В данной работе приведен обзор различных методов, проблем и тенденций в области распознавания голоса, которые могут быть встроены в системы борьбы с телефонным мошенничеством. Авторами изучались исследования интеллектуальных подходов к распознаванию голоса. Хотя их эффективность различалась, было показано, что каждый метод в достаточной степени эффективен для распознавания голоса и эмоций в речи. В частности, способность вычислительных методов, таких как нейронные сети, обучаться и адаптироваться к новым методам очень эффективна для меняющейся тактики мошенников. Проводится обзор методов классификации, выделены эффективные нелинейные классификаторы среди которых смешанные гауссовские модели или скрытая марковская модель. Проведена оценка результатов классификации. Скрытая марковская модель показала среднюю точность 77.1%. Потенциал SER представляется еще далеко нереализованным, активно ведутся исследования в области практического внедрения технологий распознавания эмоций в речи. SER может выступать как отдельная технология или как дополнение к другой. Отдельная ниша для распознавания эмоций в речи — это использование данной технологии в системах выявления и противодействия телефонному мошенничеству. В системах противодействия телефонному мошенничеству предполагается использование эмоциональной составляющей речи с применением рассмотренных интеллектуальных подходов к распознаванию голоса. Это даст устойчивость алгоритма в системах противодействия телефонному мошенничеству, даже при маскировке мошенника. Такой подход упростит и ускорит выявление телефонного мошенничества.

Библиография
1. Picard, R. W. (2003). Affective computing: challenges. International Journal of Human-Computer Studies, 59(1-2), 55-64.
2. Deusi J. S., Popa E. I. An investigation of the accuracy of real time speech emotion recognition //International Conference on Innovative Techniques and Applications of Artificial Intelligence. – Springer, Cham, 2019. – С. 336-349.
3. Емец М. И. Перспективы биометрической идентификации в контексте цифровой экономики Российской Федерации // Креативная экономика. − 2019. − Т. 13. − №5. − С. 927-936.
4. Khalil R.A. и др. Speech Emotion Recognition Using Deep Learning Techniques: A Review // IEEE Access. 2019. Т. 7. С. 117327–117345.
5. Ivanović M. и др. Emotional Intelligence and Agents // Proceedings of the 4th International Conference on Web Intelligence, Mining and Semantics (WIMS14)-WIMS ’14. 2014.
6. Стерлинг Г., Приходько П. Глубокое обучение в задаче распознавания эмоций из речи // Информационные технологии и системы 2016: тр. конф. (Минск, 26 окт. 2016 г.). ИППИ РАН. 2016. С. 451 - 456.
7. Pohjalainen J. и др. Spectral and Cepstral Audio Noise Reduction Techniques in Speech Emotion Recognition // Proceedings of the 2016 ACM on Multimedia Conference-MM ’16. 2016.
8. Chenchah F., Lachiri Z. Speech emotion recognition in noisy environment // 2016 2nd International Conference on Advanced Technologies for Signal and Image Processing (ATSIP). 2016.
9. Koolagudi S.G. и др. Emotion Recognition from Semi Natural Speech Using Artificial Neural Networks and Excitation Source Features // Communications in Computer and Information Science. 2012. С. 273–282.
10. Русалова М.Н., Кислова О.О. Электрофизиологические показатели распознавания эмоций в речи. // Успехи физиол. наук. 2011. (42) 2:57- 82
11. Trigeorgis G. и др. Adieu features? End-to-end speech emotion recognition using a deep convolutional recurrent network // 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2016.
12. Fayek H.M., Lech M., Cavedon L. Towards real-time Speech Emotion Recognition using deep neural networks // 2015 9th International Conference on Signal Processing and Communication Systems (ICSPCS). 2015.
13. Schuller B., Vlasenko, B., Eyben, F., Rigoll, G., & Wendemuth, A. Acoustic emotion recognition: A benchmark comparison of performances //2009 IEEE Workshop on Automatic Speech Recognition & Understanding. – IEEE, 2009. – С. 552-557.
14. Vlasenko B. и др. Frame vs. Turn-Level: Emotion Recognition from Speech Considering Static and Dynamic Processing // Affective Computing and Intelligent Interaction. 2007. С. 139–147.
15. Xiao Z. и др. Features extraction and selection for emotional speech classification // Proceedings. IEEE Conference on Advanced Video and Signal Based Surveillance, 2005.
16. Verkholyak O., Kaya H., Karpov A. Modeling Short-Term and Long-Term Dependencies of the Speech Signal for Paralinguistic Emotion Classification // SPIIRAS Proceedings. 2019. Т. 18, № 1. С. 30–56.
17. Friedland G. и др. Prosodic and other Long-Term Features for Speaker Diarization // IEEE Transactions on Audio, Speech, and Language Processing. 2009. Т. 17, № 5. С. 985–993.
18. Eyben F. и др. The Geneva Minimalistic Acoustic Parameter Set (GeMAPS) for Voice Research and Affective Computing // IEEE Transactions on Affective Computing. 2016. Т. 7, № 2. С. 190–202.
19. Huang X. и др. Spoken Language Processing: A Guide to Theory, Algorithm, and System Development. Prentice Hall, 2001. 980 с.
20. Jaitly N., Hinton G. Learning a better representation of speech soundwaves using restricted boltzmann machines // 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2011.
21. Sainath T.N. и др. Convolutional, Long Short-Term Memory, fully connected Deep Neural Networks // 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2015.
22. Palaz D.,-Doss M.M., Collobert R. Convolutional Neural Networks-based continuous speech recognition using raw speech signal // 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2015.
23. Dieleman S., Schrauwen B. End-to-end learning for music audio // 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2014.
24. Sigtia S., Benetos E., Dixon S. An End-to-End Neural Network for Polyphonic Piano Music Transcription // IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2016. Т. 24, № 5. С. 927–939.
25. Демидова Л. А., Соколова Ю. С. Классификация данных на основе SVM-алгоритма и алгоритма k-ближайших соседей // Вестник РГРТУ. - 2017. - № 62. - C. 119-120.
26. Dileep A.D., Sekhar C.C. GMM-Based Intermediate Matching Kernel for Classification of Varying Length Patterns of Long Duration Speech Using Support Vector Machines // IEEE Transactions on Neural Networks and Learning Systems. 2014. Т. 25, № 8. С. 1421–1432.
27. Nwe T.L., Foo S.W., De Silva L.C. Speech emotion recognition using hidden Markov models // Speech Communication. 2003. Т. 41, № 4. С. 603–623.
28. Yun S., Yoo C.D. Loss-Scaled Large-Margin Gaussian Mixture Models for Speech Emotion Classification // IEEE Transactions on Audio, Speech, and Language Processing. 2012. Т. 20, № 2. С. 585–598.
29. Mao Q., Wang X., Zhan Y. SPEECH EMOTION RECOGNITION METHOD BASED ON IMPROVED DECISION TREE AND LAYERED FEATURE SELECTION // International Journal of Humanoid Robotics. 2010. Т. 07, № 02. С. 245–261.
30. Pao T.-L. и др. A Comparative Study of Different Weighting Schemes on KNN-Based Emotion Recognition in Mandarin Speech // Lecture Notes in Computer Science. С. 997–1005.
31. Morrison D., Wang R., De Silva L.C. Ensemble methods for spoken emotion recognition in call-centres // Speech Communication. 2007. Т. 49, № 2. С. 98–112.
32. Ververidis D., Kotropoulos C. Emotional speech recognition: Resources, features, and methods // Speech Communication. 2006. Т. 48, № 9. С. 1162–1181.
33. Tahon M., Devillers L. Towards a Small Set of Robust Acoustic Features for Emotion Recognition: Challenges // IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2016. Т. 24, № 1. С. 16–28.
34. Eyben F. и др. Real-time robust recognition of speakers’ emotions and characteristics on mobile platforms // 2015 International Conference on Affective Computing and Intelligent Interaction (ACII). 2015.
35. Lim W., Jang D., Lee T. Speech emotion recognition using convolutional and Recurrent Neural Networks // 2016 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA). 2016.
36. Schmidhuber J. Deep learning in neural networks: An overview // Neural Networks. 2015. Т. 61. С. 85–117.
37. Sainath T.N. и др. Deep convolutional neural networks for LVCSR // 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. 2013.
38. Schluter J., Bock S. Improved musical onset detection with Convolutional Neural Networks // 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2014.
References
1. Picard, R. W. (2003). Affective computing: challenges. International Journal of Human-Computer Studies, 59(1-2), 55-64.
2. Deusi J. S., Popa E. I. An investigation of the accuracy of real time speech emotion recognition // International Conference on Innovative Techniques and Applications of Artificial Intelligence. - Springer, Cham, 2019. - P. 336-349.
3. Emets M. Prospects for biometric identification in the context of the digital economy of the Russian Federation // Creative Economy. - 2019. - V. 13. - No. 5. − S. 927-936.
4. Khalil R.A. Speech Emotion Recognition Using Deep Learning Techniques: A Review // IEEE Access. 2019. V. 7. S. 117327–117345.
5. Ivanović M. et al. Emotional Intelligence and Agents // Proceedings of the 4th International Conference on Web Intelligence, Mining and Semantics (WIMS14)-WIMS ’14. 2014.
6. Sterling G., Prikhodko P. Deep learning in the task of recognizing emotions from speech // Information technologies and systems 2016: tr. conf. (Minsk, 26 Oct. 2016). IPPI RAS. 2016. S. 451 - 456.
7. Pohjalainen J. et al. Spectral and Cepstral Audio Noise Reduction Techniques in Speech Emotion Recognition // Proceedings of the 2016 ACM on Multimedia Conference-MM ’16. 2016.
8. Chenchah F., Lachiri Z. Speech emotion recognition in noisy environment // 2016 2nd International Conference on Advanced Technologies for Signal and Image Processing (ATSIP). 2016.
9. Koolagudi S.G. Emotion Recognition from Semi Natural Speech Using Artificial Neural Networks and Excitation Source Features // Communications in Computer and Information Science. 2012, pp. 273–282.
10. Rusalova M.N., Kislova O.O. Electrophysiological indicators of emotion recognition in speech. // Successes of physiol. Sciences. 2011. (42) 2:57-82
11. Trigeorgis G. et al. Adieu features? End-to-end speech emotion recognition using a deep convolutional recurrent network // 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2016.
12. Fayek H.M., Lech M., Cavedon L. Towards real-time Speech Emotion Recognition using deep neural networks // 2015 9th International Conference on Signal Processing and Communication Systems (ICSPCS). 2015.
13. Schuller B., Vlasenko, B., Eyben, F., Rigoll, G., & Wendemuth, A. Acoustic emotion recognition: A benchmark comparison of performances //2009 IEEE Workshop on Automatic Speech Recognition & Understanding. - IEEE, 2009. - P. 552-557.
14. Vlasenko B. et al. Frame vs. Turn-Level: Emotion Recognition from Speech Considering Static and Dynamic Processing // Affective Computing and Intelligent Interaction. 2007, pp. 139–147.
15. Xiao Z. et al. Features extraction and selection for emotional speech classification // Proceedings. IEEE Conference on Advanced Video and Signal Based Surveillance, 2005.
16. Verkholyak O., Kaya H., Karpov A. Modeling Short-Term and Long-Term Dependencies of the Speech Signal for Paralinguistic Emotion Classification // SPIIRAS Proceedings. 2019. V. 18, No. 1. S. 30–56.
17. Friedland G. et al. Prosodic and other Long-Term Features for Speaker Diarization // IEEE Transactions on Audio, Speech, and Language Processing. 2009. V. 17, No. 5. S. 985–993.
18. Eyben F. et al. The Geneva Minimalistic Acoustic Parameter Set (GeMAPS) for Voice Research and Affective Computing // IEEE Transactions on Affective Computing. 2016. V. 7, No. 2. S. 190–202.
19. Huang X. et al. Spoken Language Processing: A Guide to Theory, Algorithm, and System Development. Prentice Hall, 2001. 980 p.
20. Jaitly N., Hinton G. Learning a better representation of speech soundwaves using restricted boltzmann machines // 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2011.
21. Sainath T.N. Convolutional, Long Short-Term Memory, fully connected Deep Neural Networks // 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2015.
22. Palaz D.,-Doss M.M., Collobert R. Convolutional Neural Networks-based continuous speech recognition using raw speech signal // 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2015.
23. Dieleman S., Schrauwen B. End-to-end learning for music audio // 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2014.
24. Sigtia S., Benetos E., Dixon S. An End-to-End Neural Network for Polyphonic Piano Music Transcription // IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2016. V. 24, No. 5. S. 927–939.
25. Demidova L. A., Sokolova Yu. S. Data classification based on SVM-algorithm and k-nearest neighbors algorithm // Bulletin of RGRTU. - 2017. - No. 62. - C. 119-120.
26. Dileep A.D., Sekhar C.C. GMM-Based Intermediate Matching Kernel for Classification of Varying Length Patterns of Long Duration Speech Using Support Vector Machines // IEEE Transactions on Neural Networks and Learning Systems. 2014. V. 25, No. 8. S. 1421–1432.
27. Nwe T.L., Foo S.W., De Silva L.C. Speech emotion recognizeition using hidden Markov models // Speech Communication. 2003. V. 41, No. 4. S. 603–623.
28. Yun S., Yoo C.D. Loss-Scaled Large-Margin Gaussian Mixture Models for Speech Emotion Classification // IEEE Transactions on Audio, Speech, and Language Processing. 2012. V. 20, No. 2. S. 585–598.
29. Mao Q., Wang X., Zhan Y. SPEECH EMOTION RECOGNITION METHOD BASED ON IMPROVED DECISION TREE AND LAYERED FEATURE SELECTION // International Journal of Humanoid Robotics. 2010. V. 07, No. 02. S. 245–261.
30. Pao T.-L. A Comparative Study of Different Weighting Schemes on KNN-Based Emotion Recognition in Mandarin Speech // Lecture Notes in Computer Science. pp. 997–1005.
31. Morrison D., Wang R., De Silva L.C. Ensemble methods for spoken emotion recognition in call-centres // Speech Communication. 2007. V. 49, No. 2. S. 98–112.
32. Ververidis D., Kotropoulos C. Emotional speech recognition: Resources, features, and methods // Speech Communication. 2006. V. 48, No. 9. S. 1162–1181.
33. Tahon M., Devillers L. Towards a Small Set of Robust Acoustic Features for Emotion Recognition: Challenges // IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2016. V. 24, No. 1. S. 16–28.
34. Eyben F. et al. Real-time robust recognition of speakers’ emotions and characteristics on mobile platforms // 2015 International Conference on Affective Computing and Intelligent Interaction (ACII). 2015.
35. Lim W., Jang D., Lee T. Speech emotion recognition using convolutional and Recurrent Neural Networks // 2016 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA). 2016.
36. Schmidhuber J. Deep learning in neural networks: An overview // Neural Networks. 2015. V. 61. S. 85–117.
37. Sainath T.N. et al. Deep convolutional neural networks for LVCSR // 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. 2013.
38. Schluter J., Bock S. Improved musical onset detection with Convolutional Neural Networks // 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2014.

Результаты процедуры рецензирования статьи

В связи с политикой двойного слепого рецензирования личность рецензента не раскрывается.
Со списком рецензентов издательства можно ознакомиться здесь.

Предмет исследования – автоматизированное распознавание эмоций человека по голосу. Заявленный в заголовке аспект борьбы с телефонным мошенничеством не выражен.

Методология исследования основана на теоретическом подходе с применением методов анализа, обобщения, сравнения, синтеза.

Актуальность исследования определяется важностью проектирования и реализации систем автоматизированного распознавания речи, в том числе в целях борьбы с телефонным мошенничеством.

Научная новизна автором не выделена и, по-видимому, связана с полученными выводами о том, что потенциал SER представляется далеко нереализованным. SER может выступать как отдельная технология или как дополнение к другой. Отдельная ниша для распознавания эмоций в речи – противодействие телефонному мошенничеству. Данный вывод представляется тривиальными.

Статья написана русским литературным языком. Стиль изложения научный, однако, местами напоминает автоматизированный перевод, Так, аббревиатура SER при первом упоминании не приведена полностью; частично заголовки разделов, содержимое рисунков представлены на английском языке.

Структура рукописи включает следующие разделы: Введение (SER, распознавание эмоций, голосовые помощники, методы глубокого обучения, эксперименты в области улучшения предварительной обработки звуковых файлов, моделей классификации, гибридные системы, датасеты, проблема внешнего шума), Этапы работы со звуковыми файлами (схема работы SER, предварительная обработка звука, извлечение признаков, классификация), Нормализация признаков и снижение шума (модели и методы шумоподавления), Извлечение признаков (наиболее распространенные признаки: возбуждение, просодические черты речи (высота, сила, интенсивность, ритм и т.д.), акустические характеристики среды, лингвистические особенности речи, основные подходы), Локальные short-term features (форманты, высота, log energy, динамическое моделирование), Глобальные long-term features (средняя высота, среднеквадратическое отклонение высоты, показатели энергии на всём звуковом отрезке), Наборы признаков (наборы признаков для SER: INTERSPEECH, audEERING, eGeMAPS, ComParE), Задача распознавания речи и эмоций в речи (преобразование звукового файла, визуальное представление энергии сигнала по частотам, мел-частотные спектральные коэффициенты, этапы первичной обработки звукового сигнала, исследование моделей, для которых не нужен готовый набор признаков, свёрточные нейронные сети), Методы классификации (классификация с помощью линейных и нелинейных классификаторов, байесовские сети, метод наибольшего правдоподобия, метод опорных векторов, смешанные гауссовские модели, скрытая марковская модель, метод k-ближайших соседей, метод главных компонент и деревья решений), Базы данных, используемые для распознавания эмоций в речи (базы данных симуляционные, индуцированные, естественные, Berlin Database of Emotional Speech, Danish Emotional Speech Database, Interactive Emotional Dyadic Motion Capture Database, INTERFACE05, LDC Emotional Prosody Speech and Transcription, SAVEE / Surrey Audio-Visual Expressed Emotion, Speech Under Simulated and Actual Stress, Ruslana, Ravdess), Выводы (заключение), Библиография.

Текст включает два рисунка, одну таблицу. Таблица должна иметь название. Содержимое и названия рисунков следует привести на русском языке. Рисунки имеют номера 4 и 5 (Fig. 4, Fig. 5), при этом Fig. 5 следует перед Fig. 4. На рисунки и таблицу необходимо сделать ссылку в предшествующем тексте.

Содержание в целом не соответствует названию. В статье представлены, в основном, технические аспекты проблемы. Специфика телефонного мошенничества, безопасности в целом не выражена, что не соответствует тематике журнала «Национальная безопасность».

Библиография включает 43 источника зарубежных авторов – монографии, научные статьи, материалы научных мероприятий. Библиографические описания некоторых источников требуют корректировки в соответствии с ГОСТ и требованиями редакции, например:
1. Picard R. W. Affective Computing. Место издания ??? : MIT Press, 2000. 292 p.
2. Deusi J. S., Popa E. I. An Investigation of the Accuracy of Real Time Speech Emotion Recognition // Lecture Notes in Computer Science. 2019. P. 336–349.
3. Schuller B. W. Speech emotion recognition // Communications of the ACM. 2018. Vol. 61. № 5. P. 90–99.
6. Vogt T., Andre E. Comparing Feature Sets for Acted and Spontaneous Speech in View of Automatic Emotion Recognition // 2005 IEEE International Conference on Multimedia and Expo. Место издания ??? : Наименование издательства, Год издания ???. P. ???–???.
Обращает внимание отсутствие ссылок на работы, опубликованные в российских изданиях.

Апелляция к оппонентам (Picard R. W., Deusi J. S., Popa E. I., Schuller B. W., Khalil R. A., Ivanović M., Vogt T., Andre E., Pohjalainen J., Chenchah F., Lachiri Z., Koolagudi S. G., Ayadi M. E., Trigeorgis G., Fayek H. M., Lech M., Cavedon L., Schuller B., Vlasenko B., Xiao Z., Verkholyak O., Kaya H., Karpov A., Friedland G., Eyben F., Huang X., Jaitly N., Hinton G., Sainath T. N., Palaz D., Collobert R., Dieleman S., Schrauwen B., Sigtia S., Benetos E., Dixon S., Mao Q., Dileep A. D., Sekhar C. C., Nwe T. L., Foo S. W., De Silva L. C., Yun S., Yoo C. D., Mao Q., Wang X., Zhan Y., Pao T.-L., Morrison D., Wang R., De Silva L. C., Ververidis D., Kotropoulos C., Tahon M., Devillers L., Eyben F., Lim W., Jang D., Lee T., Schmidhuber J., Sainath T. N., Schluter J., Bock S., Abdel-Hamid O., Wu A., Huang Y., Zhang G., Fayek H. M., Lech M., Cavedon L., Busso C., Martin O. и др.) имеет место.

В целом материал представляет интерес для читательской аудитории, однако нуждается в доработке, после чего рукопись может быть рассмотрена на предмет публикации в журнале «Национальная безопасность / nota bene» либо «Программные системы и вычислительные методы».

Результаты процедуры повторного рецензирования статьи

В связи с политикой двойного слепого рецензирования личность рецензента не раскрывается.
Со списком рецензентов издательства можно ознакомиться здесь.

В представленной на рецензирование статье рассматриваются вопросы распознавания эмоций человека по голосу в борьбе с телефонным мошенничеством.
Методология исследования базируется на применении интеллектуальных подходов к распознаванию голоса, методов машинного обучения и искусственного интеллекта, в частности искусственных нейронных сетей. Актуальность работы обусловлена тем, что предлагаемый авторами подход к противодействию телефонного мошенничества на основе анализа эмоциональной составляющей речи с применением интеллектуальных подходов к распознаванию голоса способствует упрощению и ускорению выявлению телефонного мошенничества.
Научная новизна рецензируемого исследования, по мнению рецензента заключается в обобщении и систематизации методов, проблем и тенденций в области распознавания голоса, которые могут быть встроены в системы борьбы с телефонным мошенничеством в целях обеспечения национальной безопасности.
В статье структурно выделены следующие разделы: Этапы работы со звуковыми файлами, Извлечение признаков, Локальные short-term features , Глобальные long-term features, Наборы признаков, Методы классификации, Базы данных, используемые для распознавания эмоций в речи, Выводы и Библиография.
Авторы рассматривают две наиболее популярные модели, отражающие спектр человеческих эмоций. Это дискретные классы – на примере модели, основанной на теории о шести базовых группах эмоций П.Экмана. А также подход, в котором используются несколько осей (две или три) и оценивается, например, уровень возбужденности по одной оси, по другой позитивность/валентность. В статье изложены три основных этапа распознавания эмоций в речи: предварительная обработка звука, извлечение признаков и классификация. для преобразования звука в мел-спектограмму звуковая дорожка разбивается на небольшие отрезки – фреймы. Отмечена важность решения проблемы создания эффективных и универсальных наборов значимых характеристик, которые бы одинаково хорошо работали для различных сред и задач исследования, в том числе подходили бы и для решения задач противодействия телефонному мошенничеству. В статье говорится об эффективности применения архитектуры с рекуррентными сетями, рекуррентных нейронных сетей и долгой краткосрочной памяти для анализа речи, для систем обработки естественного языка и распознавания эмоций в речи.
Библиографический список включает 38 источников – публикации отечественных и зарубежных ученых теме статьи. В тексте имеются адресные ссылки на литературные источники, подтверждающие наличие апелляции к оппонентам.
В качестве замечания можно отметить, что, начальная часть статьи авторами почему-то не озаглавлена – представляется, что ее уместно было бы назвать введением.
Рецензируемый материал соответствует направлению журнала «Национальная безопасность», подготовлен на актуальную тему, содержит теоретические обоснования, элементы научной новизны и практической значимости. Несмотря на отсутствие в статье оконченных разработок модели распознавания эмоций человека по голосу в борьбе с телефонным мошенничеством, представленный материал содержит обобщения современных представлений о задачах распознавания образов в конкретной прикладной сфере и может вызвать интерес у читателей, а поэтому рекомендуется к опубликованию после некоторой доработки в соответствие с высказанным замечанием.