Рус Eng Cn Перевести страницу на:  
Please select your language to translate the article


You can just close the window to don't translate
Библиотека
ваш профиль

Вернуться к содержанию

Филология: научные исследования
Правильная ссылка на статью:

Статистический анализ речевых формул оправдания в английском языке при помощи SVM-классификатора

Скворцова Елена Борисовна

преподаватель, кафедра иностранных языков технических факультетов, Новосибирский государственный технический университет

630073, Россия, г. Новосибирск, пр. Карла Маркса, 20, корп. 1, каб. 503а

Skvortsova Elena Borisovna

lecturer of the Department of Foreign Languages in Technical Studies at Novosibirsk State Technical University

630073, Russia, g. Novosibirsk, pr. Karla Marksa, 20, korp. 1, kab. 503a

neon-999@mail.ru
Другие публикации этого автора
 

 
Бочкарев Арсентий Игоревич

кандидат филологических наук

доцент, заведующий кафедрой иностранных языков технических факультетов, Новосибирский государственный университет

630073, Россия, Новосибирская область, г. Новосибирск, ул. Пр. К. Маркса, 20, каб. 503а, корпус 1

Bochkarev Arsentiy Igorevich

PhD in Philology

Associate Professor, Head of the Department of Foreign Languages in Technical Studies at Novosibirsk State University

630073, Russia, Novosibirskaya oblast', g. Novosibirsk, ul. Pr. K. Marksa, 20, kab. 503a, korpus 1

arsentiy_87@mail.ru
Пепеляева Мария Алексеевна

не работает временно

630136, Россия, Новосибирская область, г. Новосибирск, ул. Плахотного, 72, кв. 75

Pepelyaeva Mariya Alekseevna

temporarily unemployed

630136, Russia, Novosibirskaya oblast', g. Novosibirsk, ul. Plakhotnogo, 72, kv. 75

pepelyaeva@ami.nstu.ru

DOI:

10.7256/2454-0749.2018.4.26268

Дата направления статьи в редакцию:

12-05-2018


Дата публикации:

02-01-2019


Аннотация: Целью работы является разработка релевантного и точного инструментария для анализа статистических характеристик различных классов речевых актов. Объектом исследования будут речевые формулы оправдания в английском языке. Предмет исследования – статистические характеристики указанных формул. Ранее нами были проанализированы речевые формулы извинения в английском языке и проведена формализация кластера оправданий, благодаря чему удалось получить основные формулы, в соответствии с которыми могут строиться оправдания. Особое внимание уделяется разработке точного инструментария, недостатком которого характеризуется современное состояние лингвистики. В ходе анализа применяются как лингвистические, так и математические методы. Для решения задачи распознавания оправданий используется классификатор на основе опорных векторов. Новизна исследования заключается в том, что до сих пор не было разработано инструментария, который с адекватной точностью позволил бы выделять тексты, содержащие определенные речевые акты. В результате была достигнута точность классификации 94%, что является хорошим показателем. Полученные результаты могут быть использоваться для статистического анализа других речевых формул помимо оправдания. В дальнейшем предполагается расширить обучающую и тестовую выборку с целью увеличения точности классификации.


Ключевые слова:

корпусная лингвистика, математическая лингвистика, речевые акты, речевые формулы извинения, Python, Scikit-learn, метод опорных векторов, формализация, вектор признаков, бинарная классификация

Abstract: The aim of the research is the development of a relevant and accurate instrument to analyse statistical characteristics of speech acts of different kinds. The object of the research is English apology speech formulas. The subject of the research is the statistical characteristics of the aforesaid formulas. The authors have analyzed English apology speech formulas and formalized an apology cluster, as a result, they have discovered the basic formulas apologies can be built on. In this article the authors are focusing on the development of accurate instruments that is so needed in modern linguistic studies. In the course of their research the authors have used both linguistic and mathematical methods. To recognize apologies, the authors apply a classifier that is based on reference vectors. The novelty of the research is caused by the fact that valid instruments to define particular speech acts in texts have not been yet created. As a result, the authors achieve 94% of the accuracy of their classification which is a good indicator. The results received can be used for statistical analysis of other speech formulas besides apologies. In the future the authors suggest to extend groups of respondents in order to increase accuracy of classification.   


Keywords:

corpus linguistics, mathematical linguistics, speech acts, apology speech formulas, Python, Scikit-learn, support vector machine, formalization, attribute vector, binary classification

Введение

Отсутствие точного инструментария и единой теоретической базы характеризуют современное состояние лингвистики [5]. Разработка релевантного и точного инструментария для анализа статистических характеристик различных классов речевых актов является основной целью проводимого нами исследования. В нашей работе применяются как математические, так и лингвистические методы.

Ранее нами были проанализированы речевые формулы извинения в английском языке [3],[4],[7],[8] и проведена формализация кластера оправданий [2]. Мы получили 11 основных формул, в соответствии с которыми могут строиться оправдания. Первостепенную роль в процессе формализации кластеров различных речевых актов играет инструментарий, который с адекватной точностью позволил бы выделять тексты, содержащие определенные речевые акты, среди множества текстов. Среди нескольких возможных вариантов (Naive Bayes, SVM – Support Vector Machines, нейронные сети) нами был выбран классификатор на основе опорных векторов, подробное описание которого можно найти в [1]. Использование метода опорных векторов SVM может быть отнесено к одному из наиболее распространенных и эффективных способов решения задач распознавания образов [6],[9],[10]. Для программной реализации инструментария был использован язык программирования Python 2.7 и библиотека методов машинного обучения Scikit-learn, предоставляющая готовую реализацию метода опорных векторов.

В данной работе мы применяем четырехшаговый алгоритм статистического анализа речевых формул оправдания, а именно:

Шаг 1. Формирование вектора признаков для классификатора

Шаг 2. Классификация исследуемой выборки

Шаг 3. Классификация текстов корпуса

Шаг 4. Верификация выборки.

Далее мы подробно разберем каждый из шагов.

Шаг 1. Формирование вектора признаков для классификатора

Любая задача классификации предполагает формирование вектора признаков для классификатора. Для того чтобы сформировать данный вектор, мы использовали полученные формулы:

· APOLOGIZING + [but] + I (we/my_noun) + STATIVE VERB + NEGATION + ACTION;

· APOLOGIZING + [but] + I (we/my_noun) + STATIVE VERB + [OBJECT/FACT/STATE];

· APOLOGIZING + [but] + I (we/my_noun) + STATIVE VERB + ACTION;

· APOLOGIZING + [but] + I (we/my_noun) + STATIVE VERB + NEGATION + [OBJECT/FACT/STATE];

· APOLOGIZING + [but] + I (we/my_noun) + DYNAMIC VERB + NEGATION + [OBJECT/FACT/STATE];

· APOLOGIZING + [but] + I (we/my_noun) + DYNAMIC VERB + [OBJECT/FACT/STATE];

· APOLOGIZING + [but] + FORMAL SUBJECT + STATIVE VERB + [OBJECT/FACT/STATE];

· APOLOGIZING + [but] + FORMAL SUBJECT + DYNAMIC VERB;

· APOLOGIZING + [but] + you/your_noun + DYNAMIC VERB;

· APOLOGIZING + [but] + NOUN + STATIVE VERB + [OBJECT/FACT/STATE];

· APOLOGIZING + [but] + NOUN + … + NOUN.

Наиболее очевидное решение в данной ситуации – использовать в качестве признаков все уникальные компоненты выведенных формул. Однако такой подход не позволяет учитывать порядок слов в текстах, являющийся существенным при рассмотрении оправданий. Вследствие этого в вектор признаков были включены также биграммы компонентов формул (например, but+ I(we/my_noun) или NEGATION + STATIVE VERB). Итоговый вектор признаков состоит из 38 элементов, включающих одиночные компоненты и биграммы. Набор биграмм формировался с учетом того, что некоторые компоненты формул (but, OBJECT/FACT/STATE) не являются обязательными, и, как следствие, включает в себя не только биграммы APOLOGIZING + but и but + I(we/my_noun), но и биграмму APOLOGIZING + I (we/my_noun) (аналогично для компонентов FORMAL SUBJECT, you/your_noun и NOUN).

Шаг 2. Классификация исследуемой выборки

Исследуемая текстовая выборка состояла из 250 текстов, причем 150 текстов содержали в себе оправдания, 50 текстов содержали объяснения, несколько схожие с оправданиями по структуре, и оставшиеся 50 текстов не содержали извинений и их сателлитов (далее “прочие тексты”). Примеры текстов из выборки приведены в таблице 1.

Таблица 1

Тип текста

Текст

Содержит оправдание

"Forgive me. I'm being awful. I'm exhausted because I stayed up too late." Her heart sank. This was no way to begin with a new employee."

Содержит объяснение

Monsieur Dacourt,' Francis announced in perfect English,' I apologise for the tardy arrival and abrupt interruption of your eloquent speech by Akim and his cats.

Не содержит ни оправдание, ни объяснение

Violet Baudelaire, the eldest, liked to skip rocks. Like most fourteen-year-olds, she was right-handed, so the rocks skipped farther across the murky water when Violet used her right hand than when she used her left.

Данная выборка была разделена на две части: обучающую и тестовую. Обучающая выборка включала в себя 200 текстов, из которых 120 относились к оправданиям, 40 относились к объяснениям и 40 – к прочим текстам. Тестовая выборка состояла из 50 текстовых фрагментов (30 оправданий, 10 объяснений, 10 прочих текстов).

SVM-классификатор, как правило, используется для задач бинарной классификации (когда имеется всего два класса), однако может быть адаптирован также и для задач мультиклассификации (когда количество классов больше двух). Поскольку на этапе формализации было выделено 11 основных формул оправданий, то потенциально мы имеем 12 классов текстов (11 классов различных оправданий и 1 класс “не-оправданий”). Однако небольшой объем исследуемой выборки пока не позволяет свести задачу классификации к многоклассовой – для некоторых классов число примеров в обучающей выборке будет слишком малым (3-5 штук), что негативно отразится на точности классификации. В связи с этим, было решено рассматривать данную задачу как задачу бинарной классификации, выделяя общий класс, включающий в себя все оправдания, и класс не-оправданий.

Для оценки эффективности работы SVM использовались доли ошибок первого и второго рода. Ошибка первого рода, или “ложный пропуск”, возникает, когда классификатор распознает оправдание, как не-оправдание. Ошибка второго рода, или “ложное обнаружение”, возникает, когда классификатор относит не-оправдание к оправданию. Результаты, полученные в ходе исследований, представлены в таблице 2 (данные получены на тестовой выборке после обучения классификатора).

Таблица 2

Критерий

Доля

Точность классификации

94 %

Доля ошибок первого рода

6 %

Доля ошибок второго рода

0 %

Таким образом, точность классификации на тестовой выборке составила 94%. В 6% случаев классификатор отнес оправдания к “не-оправданиям” (ошибка первого рода), однако, обратной ситуации, когда “не-оправдания” были отнесены к оправданиям (ошибка второго рода), не возникало.

Шаг 3. Классификация текстов корпуса

Для дальнейших исследований нами была сформирована выборка, состоящая из 12 000 текстов языкового корпуса. Она включала в себя по 2 000 текстовых фрагментов, содержащих в себе слова sorry, forgive, excuse, apologize и pardon. Также для исследований были выбраны 2 000 текстовых фрагментов, содержащих в себе слово regret, которое не рассматривалось нами на этапе формализации. Предобработка всех текстов и сама классификация заняла 1.5 часа. Результаты классификации представлены в таблице 3.

Таблица3

Класс

Количество текстов

Доля

Оправдания

6834

57 %

Не-оправдания

5166

43 %

На основании полученных данных можно сделать вывод, что более чем в половине случаев (57%), извинению сопутствует оправдание. Рассмотрим результаты классификации более подробно для каждого из слов.

Таблица 4

Слово

Количество оправданий

Доля от общего количества оправданий

Sorry

1515

22.2 %

Forgive

1403

20.5 %

Apologize

1354

19.8 %

Excuse

1220

17.9 %

Pardon

1214

17.8 %

Regret

128

1.9 %

Приведенные результаты показывают примерно одинаковую частоту употребления извинительных слов sorry, forgive, excuse, apologize иpardon при оправдании. Несколько чаще остальных употребляется слово sorry (в 22% случаев). Интересно также отметить, что тексты, содержащие в себе выражение сожаления (regret), чаще всего не содержат в себе оправдание.

В следующей таблице для каждого слова представлены доли оправданий от общего количества текстов, содержащих это слово (2 000 текстов).

Таблица5

Слово

Количество оправданий

Доля от общего количества текстов, содержащих слово

Sorry

1515

75.8 %

Forgive

1403

70.2 %

Apologize

1354

67.3 %

Excuse

1220

61.0 %

Pardon

1214

60.7 %

Regret

128

6.4 %

Таким образом, можно сделать вывод о том, что употребляя слова sorry, forgive, apologize, excuse и pardon, в большинстве случаев, адресант далее оправдывается (в 75.8%, 70.2%, 67.3%, 61.0% и 60.7% случаев соответственно). А если адресант выражает сожаление (regret), то оправдывается при этом он крайне редко (всего в 6.4% случаев).

Шаг 4. Верификация выборки

Из 12 000 текстов нами было отобрано случайным образом 100 примеров для дальнейшего эксперимента. В ходе проводимого эксперимента испытуемым было предложено классифицировать высказывания на оправдания и не-оправдания. В эксперименте приняло участие 100 преподавателей и/или носителей английского языка.

В результате, из 100 текстов изначальной выборки 54 примера были отнесены большинством испытуемых к текстам, содержащим оправдания, и такие тексты составили 54% выборки. Классификатор показал, что оправдания содержатся в 57% текстов, следовательно, можно утверждать, что точность нашего инструментария превышает 90%.

Заключение

В ходе исследований нами был разработан инструментарий, позволяющий выделять тексты, содержащие оправдания, из общего множества текстов. Для решения задачи распознавания оправданий использовался классификатор на основе опорных векторов. Была достигнута точность классификации 94%, что является хорошим результатом. Также были проведены исследования на большом объеме текстов (12 000 текстовых фрагментов), которые показали, что более чем в половине случаев извинение сопровождается оправданием. Кроме того, в ходе эксперимента, представляющего собой опрос преподавателей и/или носителей языка, было установлено, что нижняя граница точности разработанного нами инструментария составляет 90%. На основании исследований, проведенных на большой выборке текстов, мы планируем расширять обучающую и тестовую выборки до 1000 текстовых фрагментов с целью увеличить точность классификации.

Библиография
1. Барсегян А.А. Анализ данных и процессов: учеб. пособие. 3-е изд., перераб. и доп. / А.А. Барсегян, С.И. Елизаров, М.С. Куприянов, М.Д. Тесс, И.И. Холод. – СПБ.: БХВ-Петербург. 2009. 512 с.
2. Бочкарев А.И., Пепеляева М.А., Скворцова Е.Б. Статистические характеристики речевых формул вежливых оправданий в английском языке // Филологические науки. Вопросы теории и практики. 2018. №2. Ч. 1. С. 53-58.
3. Бочкарев А.И., Скворцова Е.Б. Комбинаторные характеристики речевого акта извинения sorry // Филологические науки. Вопросы теории и практики. 2015. № 6. Ч. 2. С. 48-52.
4. Бочкарев А.И., Скворцова Е.Б. Комбинаторно-прагматические характеристики периферийных речевых формул извинения в их вторичной функции // Научный диалог. 2016. № 6 (54). С. 21-30.
5. Мельчук И.А., Жолковский А.К. Толково-комбинаторный словарь современного русского языка. Опыты семантико-синтаксического описания русской лексики. Вена: Wiener Slawistischer Almanach. 1984. 992 с.
6. О.С. Середин. Методы и алгоритмы беспризнакового распознавания образов // Дисс. к.ф.-м.н. Тульский государственный университет. 2001.
7. Скворцова Е.Б. Извинение как первичная функция периферийных формул извинения apologise/ze, forgive me, pardon при исследовании их комбинаторных характеристик // Филологические науки. Вопросы теории и практики. 2016. № 9/2 (63). C. 154-158.
8. Скворцова Е.Б. Комбинаторные характеристики речевой формулы извинения Сорри/Sorry в русском языке // Научный диалог. 2017. № 4. С. 70-80.
9. Vapnik V. N. An overview of statistical learning theory // IEEE Transactions on Neural Networks. 1999. 10 (5). Р. 988-999.
10. Vapnik V. N. The Nature of Statistical Learning Theory. 2nd ed. New York. 1999. 299 p.
References
1. Barsegyan A.A. Analiz dannykh i protsessov: ucheb. posobie. 3-e izd., pererab. i dop. / A.A. Barsegyan, S.I. Elizarov, M.S. Kupriyanov, M.D. Tess, I.I. Kholod. – SPB.: BKhV-Peterburg. 2009. 512 s.
2. Bochkarev A.I., Pepelyaeva M.A., Skvortsova E.B. Statisticheskie kharakteristiki rechevykh formul vezhlivykh opravdanii v angliiskom yazyke // Filologicheskie nauki. Voprosy teorii i praktiki. 2018. №2. Ch. 1. S. 53-58.
3. Bochkarev A.I., Skvortsova E.B. Kombinatornye kharakteristiki rechevogo akta izvineniya sorry // Filologicheskie nauki. Voprosy teorii i praktiki. 2015. № 6. Ch. 2. S. 48-52.
4. Bochkarev A.I., Skvortsova E.B. Kombinatorno-pragmaticheskie kharakteristiki periferiinykh rechevykh formul izvineniya v ikh vtorichnoi funktsii // Nauchnyi dialog. 2016. № 6 (54). S. 21-30.
5. Mel'chuk I.A., Zholkovskii A.K. Tolkovo-kombinatornyi slovar' sovremennogo russkogo yazyka. Opyty semantiko-sintaksicheskogo opisaniya russkoi leksiki. Vena: Wiener Slawistischer Almanach. 1984. 992 s.
6. O.S. Seredin. Metody i algoritmy bespriznakovogo raspoznavaniya obrazov // Diss. k.f.-m.n. Tul'skii gosudarstvennyi universitet. 2001.
7. Skvortsova E.B. Izvinenie kak pervichnaya funktsiya periferiinykh formul izvineniya apologise/ze, forgive me, pardon pri issledovanii ikh kombinatornykh kharakteristik // Filologicheskie nauki. Voprosy teorii i praktiki. 2016. № 9/2 (63). C. 154-158.
8. Skvortsova E.B. Kombinatornye kharakteristiki rechevoi formuly izvineniya Sorri/Sorry v russkom yazyke // Nauchnyi dialog. 2017. № 4. S. 70-80.
9. Vapnik V. N. An overview of statistical learning theory // IEEE Transactions on Neural Networks. 1999. 10 (5). R. 988-999.
10. Vapnik V. N. The Nature of Statistical Learning Theory. 2nd ed. New York. 1999. 299 p.