Плешакова Е.С., Гатауллин С.Т., Осипов А.В., Романова Е.В., Самбуров Н.С. —
Эффективная классификация текстов на естественном языке и определение тональности речи с использованием выбранных методов машинного обучения
// Вопросы безопасности. – 2022. – № 4.
– С. 1 - 14.
DOI: 10.25136/2409-7543.2022.4.38658
URL: https://e-notabene.ru/nb/article_38658.html
Читать статью
Аннотация: В настоящее время генерируется огромное количество текстов, и существует острая необходимость организовать их в определенной структуре, для выполнения классификации и правильного определения категорий. Авторы подробно рассматривают такие аспекты темы как классификация текстов на естественном языке и определение тональности текста в социальной сети Twitter. Использование социальных сетей помимо многочисленных плюсов, несет и негативный характер, а именно пользователи сталкиваются с многочисленными киберугрозами, такими как утечка персональных данных, кибербуллинг, спам, фейковые новости. Основной задачей анализа тональности текста является определение эмоциональной наполненности и окраски, что позволит выявить негативно окрашенную тональность речи. Эмоциональная окраска или настроение являются сугубо индивидуальными чертами и, таким образом, несут потенциал в качестве инструментов идентификации. Основная цель классификации текста на естественном языке состоит в том, чтобы извлекать информацию из текста и использовать такие процессы, как поиск, классификация с применением методов машинного обучения. Авторы отдельно выбрали и сравнили следующие модели: логистическая регрессия, многослойный перцептрон, случайный лес, наивный байесовский метод, метод K-ближайших соседей, дерево решений и стохастический градиентный спуск. Затем мы протестировали и проанализировали эти методы друг с другом. Экспериментальный вывод показывает, что применение скоринга TF-IDF для векторизации текста улучшает качество модели не всегда, либо делает это для отдельных метрик, вследствие чего уменьшается показатель остальных метрик для той или иной модели. Наилучшим методом для выполнения цели работы является Стохастический градиентный спуск.
Abstract: Currently, a huge number of texts are being generated, and there is an urgent need to organize them in a certain structure in order to perform classification and correctly define categories. The authors consider in detail such aspects of the topic as the classification of texts in natural language and the definition of the tonality of the text in the social network Twitter. The use of social networks, in addition to numerous advantages, also carries a negative character, namely, users face numerous cyber threats, such as personal data leakage, cyberbullying, spam, fake news. The main task of the analysis of the tonality of the text is to determine the emotional fullness and coloring, which will reveal the negatively colored tonality of speech. Emotional coloring or mood are purely individual traits and thus carry potential as identification tools. The main purpose of natural language text classification is to extract information from the text and use processes such as search, classification using machine learning methods. The authors separately selected and compared the following models: logistic regression, multilayer perceptron, random forest, naive Bayesian method, K-nearest neighbor method, decision tree and stochastic gradient descent. Then we tested and analyzed these methods with each other. The experimental conclusion shows that the use of TF-IDF scoring for text vectorization does not always improve the quality of the model, or it does it for individual metrics, as a result of which the indicator of the remaining metrics for a particular model decreases. The best method to accomplish the purpose of the work is Stochastic gradient descent.