Правильная ссылка на статью:
Бакаев И.И..
Разработка алгоритма стемминга для слов узбекского языка
// Кибернетика и программирование.
2021. № 1.
С. 1-12.
DOI: 10.25136/2644-5522.2021.1.35847 URL: https://nbpublish.com/library_read_article.php?id=35847
Аннотация:
Автоматическая обработка неструктурированных текстов на естественных языках является одной из актуальных проблем компьютерного анализа и синтеза текстов. В ней можно отдельно выделить задачу нормализации текстов, обычно, подразумевающую выполнение таких процессов, как токенизация, стемминг и лемматизация. Существующие алгоритмы стемминга в большинстве ориентированы на синтетические языки, в которых преобладает формообразование с использованием морфем. Узбекский язык представляет собой пример агглютинативного языка, отличающегося полисемантичностью аффиксальных и служебных морфем. Хотя узбекский язык имеет множество отличий, например, от английского языка, тем не менее он вполне успешно поддается обработке алгоритмами стемминга. Примеры эффективной реализации алгоритмов стемминга для узбекского языка, до настоящего времени, практически не встречаются, поэтому данный вопрос является предметом научного интереса и определяет цель настоящей работы. В ходе работы решалась задача приведения заданных текстов на узбекском языке к нормальной форме, которые на предварительном этапе токенизации были размечены по типам слов и очищены от стоп-слов. Для решения поставленной задачи разработан метод нормализации текстов на узбекском языке на основе алгоритма стемминга. При разработке алгоритма использован гибридный подход на основе совместного применения алгоритмического метода, лексикона лингвистических правил и базы данных нормальных форм слов узбекского языка. Точность предложенного алгоритма зависит от точности работы алгоритма токенизации. При этом, вопрос нахождения корней парных слов, разделенных пробелами здесь не рассматривался, так как эта задача решается, непосредственно, на этапе токенизации. Алгоритм может быть интегрирован в различные автоматизированные системы машинного перевода, извлечения информации, информационного поиска и др.
Ключевые слова:
токенизация, стемминг, лемматизация, простые слова, сложные слова, парные слова, повторяющиеся слова, аффикс, алгоритм, нормальная форма
Abstract:
The automatic processing of unstructured texts in natural languages is one of the relevant problems of computer analysis and text synthesis. Within this problem, the author singles out a task of text normalization, which usually suggests such processes as tokenization, stemming, and lemmatization. The existing stemming algorithms for the most part are oriented towards the synthetic languages with inflectional morphemes. The Uzbek language represents an example of agglutinative language, characterized by polysemanticity of affixal and auxiliary morphemes. Although the Uzbek language largely differs from, for example, English language, it is successfully processed by stemming algorithms. There are virtually no examples of effective implementation of stemming algorithms for the Uzbek language; therefore, this questions is the subject of scientific interest and defines the goal of this work. In the course of this research, the author solved the task of bringing the given texts in the Uzbek language to normal form, which on the preliminary stage were tokenized and cleared of stop words. To author developed the method of normalization of texts in the Uzbek language based on the stemming algorithm. The development of stemming algorithm employed hybrid approach with application of algorithmic method, lexicon of linguistic rules and database of the normal word forms of the Uzbek language. The precision of the proposed algorithm depends on the precision of tokenization algorithm. At the same time, the article did not explore the question of finding the roots of paired words separated by spaces, as this task is solved at the stage of tokenization. The algorithm can be integrated into various automated systems for machine translation, information extraction, data retrieval, etc.
Keywords:
affix, repeating words, paired words, difficult words, simple words, lemmatization, stemming, tokenization, algorithm, normal form