Рус Eng Cn Перевести страницу на:  
Please select your language to translate the article


You can just close the window to don't translate
Библиотека
ваш профиль

Вернуться к содержанию

Litera
Правильная ссылка на статью:

Автоматизированное создание семантически размеченного корпуса словосочетаний

Зарипова Диана Александровна

ORCID: 0000-0003-1121-1420

аспирант, кафедра фундаментальной и прикладной лингвистики, Московский Государственный Университет

119991, Россия, г. Москва, микрорайон Ленинские Горы, 1, строение 51

Zaripova Diana Aleksandrovna

Postgraduate student, Department of Theoretical and Applied Linguistics, Lomonosov Moscow State University

119991, Russia, Moscow, Leninskie Gory str., 1, building 51

diana.ser.sar96@gmail.com
Лукашевич Наталья Валентиновна

доктор технических наук, кандидат физико-математических наук

профессор, кафедра теоретической и прикладной лингвистики, Московский Государственный Университет имени М.В. Ломоносова

119991, Россия, Москва, г. Москва, микрорайон Ленинские горы, 1, строение 51, ауд. 953

Lukashevich Natal'ya Valentinovna

Professor, Department of Theoretical and Applied Linguistics, Lomonosov Moscow State University

119991, Russia, Moscow, Moscow, Leninskie Gory microdistrict, 1, building 51, room 953

louk_nat@mail.ru

DOI:

10.25136/2409-8698.2023.11.44007

EDN:

QRBQOI

Дата направления статьи в редакцию:

12-09-2023


Дата публикации:

26-11-2023


Аннотация: Задача автоматического разрешения многозначности является первым и ключевым этапом семантического анализа текста. Она заключается в выборе одного из значений многозначного слова в контексте и вызывает затруднения даже у людей-аннотаторов. Для обучения и тестирования моделей на основе машинного обучения, которые демонстрируют самые высокие показатели качества, необходимы большие объёмы данных с семантической разметкой. Ручная разметка по значениям оказывается трудоёмкой, дорогой и занимает много времени. Поэтому важно разрабатывать и тестировать подходы к автоматической и полуавтоматической семантической разметке. Среди возможных источников информации для такой разметки семантически родственные слова, а также коллокации, в которые входит слово. Предметом настоящего исследования являются корпуса коллокаций с семантической разметкой. Целью работы является разработка и тестирование подхода к автоматическому порождению таких корпусов на основе информации о родственных словах из тезауруса. Основным методом данного исследования является корпусный, также в рамках исследования был проведён ряд экспериментов с помощью языка программирования Python. В статье описывается процесс автоматического создания корпуса коллокаций с семантической разметкой на материале русского языка. Для разрешения многозначности слов в пределах коллокаций используются родственные слова с опорой на тезаурус RuWordNet. Этот же тезаурус выступает источником инвентарей значений. Родственные слова из тезауруса голосуют за то или иное значение слова, затем их голоса взвешиваются с помощью разных методов. Описанные методы позволяют достичь F1-меры 80% и добавить порядка 23% коллокаций с неснятой многозначностью в корпус. Семантически размеченные корпуса коллокаций, созданные в автоматическом режиме, позволят упростить подготовку размеченных данных для обучения и оценки моделей автоматического разрешения многозначности, а также могут использоваться как источник знаний в моделях на основе знаний. Таким образом, создание размеченных корпусов коллокаций в автоматическом режиме, в том числе для русского языка, представляется перспективным направлением исследований.


Ключевые слова:

автоматическая обработка языка, автоматический семантический анализ, автоматическое разрешение неоднозначности, семантическая разметка, автоматическое порождение корпуса, корпус словосочетаний, инвентарь значений, семантически родственные слова, SyntagNet, тезаурус

Abstract: Word Sense Disambiguation (WSD) is a crucial initial step in automatic semantic analysis. It involves selecting the correct sense of an ambiguous word in a given context, which can be challenging even for human annotators. Supervised machine learning models require large datasets with semantic annotation to be effective. However, manual sense labeling can be a costly, labor-intensive, and time-consuming task. Therefore, it is crucial to develop and test automatic and semi-automatic methods of semantic annotation. Information about semantically related words, such as synonyms, hypernyms, hyponyms, and collocations in which the word appears, can be used for these purposes. In this article, we describe our approach to generating a semantically annotated collocation corpus for the Russian language. Our goal was to create a resource that could be used to improve the accuracy of WSD models for Russian. This article outlines the process of generating a semantically annotated collocation corpus for Russian and the principles used to select collocations. To disambiguate words within collocations, semantically related words defined based on RuWordNet are utilized. The same thesaurus is also used as the source of sense inventories. The methods described in the paper yield an F1-score of 80% and help to add approximately 23% of collocations with at least one ambiguous word to the corpus. Automatically generated collocation corpuses with semantic annotation can simplify the preparation of datasets for developing and testing WSD models. These corpuses can also serve as a valuable source of information for knowledge-based WSD models.


Keywords:

Natural Language Processing, Automatic Semantic Analysis, Word Sense Disambiguation, Semantic Annotation, Automatic Corpus Generation, Collocation Corpus, Sense Inventory, Related Words, SyntagNet, Thesaurus

Введение

Задача автоматического разрешения лексической неоднозначности (Word Sense Disambiguation, WSD) играет важную роль в автоматической обработке естественного языка (Natural Language Processing, NLP). Результаты WSD влияют на качество решения таких более высокоуровневых задач, как машинный перевод [1], информационный поиск [2], анализ тональности [3]. Однако для обучения и тестирования моделей WSD необходимы объёмные корпуса с семантической разметкой, создание которых является трудоёмким и длительным процессом. Корпуса словосочетаний, размеченных по значениям, могут значительно упростить разметку. Теоретическим основанием такого подхода выступает гипотеза «одного значения на словосочетание». В таком случае нет необходимости принимать решение о разметке каждого слова по отдельности, можно сразу проставлять теги для лексем словосочетания, найденного в корпусе. Самым известным примером размеченного корпуса словосочетаний является SyntagNet [4], состоящий из более 80 тысяч словосочетаний и доступный на пяти языках.

В статье описывается процесс создания такого корпуса, теоретические основания, а также разные подходы к семантической разметке словосочетаний. Цель работы — исследовать возможности автоматической разметки словосочетания с целью создания размеченного корпуса для русского языка. Раздел 1 посвящён гипотезе «одно значение на словосочетание» — теоретическому основанию создания корпуса размеченных словосочетаний, в разделе 2 приводятся примеры существующих корпусов словосочетаний, в том числе SyntagNet. В разделе 3 разбираются эксперименты по разметке корпуса словосочетаний на материале русского языка, раздел 5 содержит анализ ошибок. Статья завершается краткими выводами и направлениями для будущих исследований.

Корпуса, размеченные с помощью описанных в статье методов, а также файлы с ошибками моделей и «золотой стандарт» размещены в открытом доступе на GitHub по адресу: https://github.com/Diana-Zaripova/SemanticallyAnnotatedCollocationCorpus/.

1. Гипотеза «одно значение на словосочетание»

В работе [5] была сформулирована гипотеза «одного значения на словосочетание»: в составе словосочетания многозначные слова встречаются в одном конкретном значении. Авторы исследовали распределение значений многозначных слов в рамках словосочетаний на материале нескольких типов словосочетаний. Средний процент подтверждения гипотезы «одного значения на словосочетание» составил 95%. Важно отметить, что рассматривались только многозначные слова с бинарной моделью многозначности, то есть имеющие ровно два разных значения.

В статье [6] авторы проверяют гипотезу на многозначных словах с более сложными, небинарными, моделями многозначности на материале двух корпусов. При таких вводных данных гипотеза подтвердилась только в 70% случаев. Отдельно авторы отмечают, что необходимо принимать во внимание жанры и типы текстов при проведении исследований многозначности на материале более чем одного корпуса.

Тем не менее, полученные результаты позволяют предположить, что в значительной доле словосочетаний слова появляются в одних и тех же значениях, что позволяет создавать корпус словосочетаний, размеченный по значениям.

2. Корпуса с семантической разметкой

2.1. SyntagNet

SyntagNet (http://syntagnet.org/) — это большой по объёму (более 80 тысяч словосочетаний) ресурс, содержащий размеченные по лексическим значениям вручную словосочетания. Процесс создания корпуса, а также стоящие за этим идеи подробно описаны в статье [4]. Основная цель создания подобных лексико-семантических ресурсов — упрощение и ускорение разметки тренировочных и тестовых коллекций данных для обучения, тестирования и оценки качества работы моделей на основе машинного обучения (Machine Learning, ML), часто применяемых в задаче автоматического разрешения многозначности. Кроме того, знание о значении многозначного слова в пределах известного словосочетания может использоваться при решении задачи с помощью методов на основе знаний (Knowledge-based methods). На текущий момент ресурс размеченных по значениям словосочетаний доступен для пяти языков: английского, французского, итальянского, немецкого и испанского.

Словосочетания для корпуса SyntagNet (авторы называют их лексическими комбинациями, lexical combinations) были извлечены из английской Wikipedia (https://en.wikipedia.org/wiki/Main_Page) и Британского Национального Корпуса (British National Corpus, BNC; [7]), а затем размечены вручную с помощью инвентаря значений WordNet версии 3.0. Степень согласованности между аннотаторами, измеренная на выборке из 500 словосочетаний, составила 0.71, большинство расхождений в разметке при этом было связано со сложными случаями, где имеет место вариативность тегов, следствие высокой степени детализации значений в WordNet.

Для определения релевантных комбинаций слов авторы ресурса выполнили две процедуры извлечения словосочетаний. Во-первых, из корпуса извлекались слова w1, w2, встретившиеся в пределах скользящего окна в три слова. Извлеченные пары были упорядочены с помощью коэффициента Дайса (Dices coefficient), умноженного на логарифм частоты совместной встречаемости слов:

score(w1, w2) = log2(1 + ),

где nw1 (i ∈ {1, 2}) — это частотность слова w1, а nw1w2 это частота совместной встречаемости двух слов w1 и w2 в пределах окна. К списку были применены некоторые фильтры, в частности отбирались пары, связанные между собой одним из пяти основных синтаксических отношений [4].

Во-вторых, были извлечены пары слов следующего типа: 1) ширина окна — шесть слов; 2) отсутствует ограничение на тип отношения; 3) не учитываются пары, уже попавшие в первый список и 4) отбирались только единицы, встретившиеся в нескольких словарях английского языка и/или словарях словосочетаний.

Затем восемь аннотаторов производили ручную разметку 20 000 первых словосочетаний из первого списка и 58 000 пар из второго списка по синсетам WordNet. Аннотаторы пропускали пары с ошибками, вызванными автоматическим парсингом, и пары, в которых хотя бы для одного слова невозможно подобрать ни один из синсетов WordNet, а также идиоматические фразы и многословные именованные сущности.

В общей сложности процесс разметки занял 9 месяцев, в результате получилось 78 000 размеченных лексических комбинаций (пар слов) и 88 019 семантических комбинаций, то есть сочетаний синсетов WordNet.

Пример разметки словосочетаний в корпусе SyntagNet:

(1) a. 09827683n 10285313n baby n boy n

b. ID синсета для первого слова ID синсета для второго слова первое слово часть речи первого слова второе слово часть речи второго слова.

Авторами были проведены эксперименты с целью оценить качество работы модели WSD на основе знаний, обогащённой информацией из SyntagNet, и сравнить его с качеством той же модели, но дополненной информацией из других лексических баз знаний, а также качеством моделей машинного обучения с учителем. Для экспериментов была выбрана модель на основе персонализированного алгоритма PageRank [8], подробно описанная в статье [9], которая применялась к разным лексическим базам знаний, в том числе к SyntagNet. Среднее значение F-1 меры на пяти англоязычных датасетах составило 71.5%; для сравнения модель из [10] на основе рекуррентных нейронных сетей LSTM также продемонстрировала F1-меру, равную 71.5%, в среднем на тех же пяти наборах данных. На материале коллекций данных на разных языках (итальянский, испанский, немецкий, французский) среднее значение F-1 меры модели с информацией из SyntagNet получилось самым высоким среди измеренных (69.3) и превзошло результаты моделей на основе нейронных сетей.

Таким образом, представляется, что размеченные корпуса словосочетаний являются полезным ресурсом, однако разметка корпуса по значениям является достаточно трудоемкой, что ставит вопрос об автоматизации разметки.

2.2. Размеченные данные для русского языка

Для русского языка на данный момент существует недостаточно семантически аннотированных корпусов, в принципе, о существовании корпусов словосочетаний нам вообще неизвестно. Однако стоит упомянуть недавнюю работу [11] по автоматическому созданию корпусов с семантической разметкой на основе однозначных родственных слов. Полученные в ходе экспериментов корпуса, а также исходный код доступны по ссылке: https://github.com/loenmac/russian_wsd_data/tree/master/data. Также в исследовании [12] авторами были вручную аннотированы тексты средней длины из коллекции OpenCorpora (http://opencorpora.org/).

3. Данные и эксперименты

3.1. Цели, данные и предобработка

Авторами статьи был проведён ряд экспериментов по автоматическому порождению семантически размеченного корпуса словосочетаний в формате SyntagNet, но для русского языка. Целью создания корпуса является упрощение процесса разметки данных для тестирования и обучения моделей WSD на основе машинного обучения, а также для использования в моделях автоматического разрешения лексической многозначности, основанных на знаниях и правилах.

Разрешение многозначности происходило с помощью семантически близких слов, найденных в рамках группировок словосочетаний по первому и по второму слову. Основная идея метода заключается в предположении, что слова, встречающиеся с одним и тем же словом на одной позиции, имеют некоторую семантическую близость, которая позволит автоматически разрешать многозначность. Ниже приведены примеры таких группировок.

(2) Пример группировки словосочетаний по первому слову:

абонентский терминал

абонентский книжка

абонентский номер

абонентский база

абонентский служба

абонентский устройство

(3) Пример группировки словосочетаний по второму слову:

сушеный абрикос

урожай абрикос

косточка абрикос

заготовка абрикос.

Источником словосочетаний выступил корпус текстов русскоязычных новостей за 2017 год объёмом 8 Гб. На первом этапе были извлечены все словосочетания из корпуса, в которых оба слова относятся либо к существительным, либо к прилагательным, например:

(4) a. местный житель: прилагательное + существительное

b. кубок конфедерация: существительное + существительное

Словосочетания были упорядочены по мере взаимной информации MI3:

MI3(w1, w2) = .

Далее использовался тезаурус RuWordNet (https://ruwordnet.ru/ru), лексико-семантический ресурс по типу WordNet для русского языка [13], для распределения сначала 100 000, а затем 200 000 пар слов на четыре категории: a) хотя бы одного слова нет в RuWordNet; b) словосочетание как отдельная единица присутствует в RuWordNet; c) оба слова однозначны и d) хотя бы одно слово многозначно. Примеры пар из каждой категории приведены ниже:

(5) a. Хотя бы одного слова нет в тезаурусе: неиммиграционный виза, шаговый доступность, вотум недоверие, фазовый автофокус;

b. Словосочетание есть в тезаурусе как отдельная единица: отопительный сезон, прибор учет, куриный яйцо;

c. Оба слова однозначны: краеведческий музей, декан факультет, пятизвездочный отель;

d. Хотя бы одно слово многозначно: мокрый снег, прием гражданин, сигнал светофор.

Распределение первых 100 000 и 200 000 пар по этим группам приводится в таблице 1:

Таблица 1

Словосочетание целиком есть в RuWordNet

Хотя бы одного слова нет в RuWordNet

Оба слова однозначные

Хотя бы одно слово многозначное

100 000 пар

1989 (1.989%)

18660 (18.66%)

18950 (18.95%)

60401 (60.401%)

200 000 пар

2409 (1.2%)

33123 (16.56%)

38352 (19.18%)

126116 (63.06%)

Словосочетания из первой категории сразу помещаются в корпус в формате, схожем с SyntagNet:

слово1 слово2 <часть речи для слова1> <часть речи для слова2>.

Например:

(6) петербургский метро 2642-A Adj 192-N N.

Словосочетания из категории d (хотя бы одно слово многозначно, и оба слова есть в RuWordNet) являются целевыми, то есть нуждаются в разрешении многозначности для занесения в корпус.

3.2. Использование родственных слов для разрешения многозначности

Во всех следующих этапах принимали участие только пары слов из четвёртой категории (d). Сначала они были сгруппированы двумя разными способами: 1) по первой лексеме и 2) по второй лексеме.

Затем группы словосочетаний по первому и второму слову были дополнены теми парами слов, которые вошли в категорию словосочетаний, содержащихся в RuWordNet как отдельная единица, а также словосочетаниями из RuWordNet, которые также размечены по значениям в самом тезаурусе и первое или второе слово в которых совпадают с тем словом, по которому организована соответствующая группа.

Например, для словосочетания абрикосовый цвет, в котором каждое слово по отдельности соотнесено с тремя синсетами RuWordNet, в тезаурусе уже есть разметка по значениям:

(7) абрикосовый цвет 109498-A 106944-N.

На следующем этапе для разрешения многозначности слов в рамках словосочетаний производился поиск близких и дальних семантически родственных слов в рамках осуществлённых ранее группировок по тезаурусу RuWordNet: синонимов, гиперонимов, гипонимов, так называемых «дальних родственников» (более подробно описывается ниже). Для каждого слова каждой пары слов в рамках группы сохранялся список синонимов, гипонимов и гиперонимов, а также массив значений — синсетов RuWordNet, за которые «голосуют» эти родственники, т. е. являются семантически близкими. Так, для отношения синонимии такими синсетами признаются общие для синонимов синсеты, для гиперонимии и гипонимии — те значения, которые связаны соответствующим отношением с гиперонимом и гипонимом, соответственно. Подход к решению задачи автоматического порождения корпусов с семантической разметкой на основе слов с родственными значениями описан в статье [11]: авторы используют однозначные родственные слова для автоматического разрешения многозначности в процессе автоматической разметки по значениям.

Например, в группе словосочетаний по первому слову абстрактный есть пара (абстрактный, живопись), и в данной группе для второго слова — живопись — нашлись следующие синонимы: полотно и картина, причём оба синонима голосуют за одно конкретное значение целевой лексемы — 6001-N (‘произведение живописи’), а именно данный синсет входит в пересечение наборов синсетов для всех трёх лексем. В другой группе словосочетаний, сформированной уже вокруг второго слова, у пары (район, авария) для первой лексемы район был обнаружен гипероним место, голосующий за значение 106611-N (‘место, местность’).

В качестве «дальних родственников» извлекались синсеты, отстоящие от целевого слова на два отношения по иерархии тезауруса, рассматривались следующие типы таких цепочек отношений:

1) s1 →гипероним s2 →гипероним s3;

2) s1 →гипоним s2 →гипоним s3;

3) s1 →гипероним s2 →гипоним s3;

4) s1 →гипоним s2 →гипероним s3.

3.3. Методы взвешивания

После того как в каждой группе по всем парам была собрана информация о родственных связях входящих в их состав многозначных слов, а также о том, за какие значения они голосуют, встала задача разрешить многозначность слов, а именно выбрать только одно значение и, соответственно, синсет RuWordNet. Авторами были протестированы разные подходы к выбору значения.

Самый простой способ — это отобрать те пары, у которых для каждого слова в итоге осталось по одному значению. Так происходит, когда все родственные слова голосуют за одно-единственное значение слова либо когда слово изначально было однозначным. Однако число таких пар оказалось невелико: для выборки из 200 000 пар всего 22 073. Поэтому были применены разные алгоритмы взвешивания значений на основе семантически близких слов.

3.3.1. Простой алгоритм взвешивания

Простой алгоритм взвешивания заключался в выборе того значения, которое получило максимальное число голосов от значений-родственников. Для тех многозначных слов, где такое значение только одно, алгоритм возвращает это значение, иначе возвращает None.

3.3.2. Взвешивание на основе Shortest is-a-Path

Также в процессе экспериментов применялся алгоритм взвешивания на основе расстояний между синсетами по тезаурусу RuWordNet, а именно пути от целевого значения до значения родственника, голосующего за это значение [14]. Для каждой пары значение-родственник подсчитывался путь по следующей формуле:

path(a, b) = .

Далее значения счётчиков по каждому значению взвешиваются с помощью полученных значений путей по тезаурусу до родственника.

3.3.3. Взвешивание на основе предобученных векторов Word2Vec

Для данного метода взвешивания использовались вектора сокращённой размерности Word2Vec [15] для русского языка с ресурса RusVectōrēs (https://rusvectores.org/ru/) [16], обученные на материале Национального Корпуса Русского Языка (НКРЯ) и русского сегмента Wikipedia за ноябрь 2021 года (размер корпуса 1.2 миллиарда слов). Размерность векторов равнялась 300, для получения векторов применялся алгоритм Continuous Bag-of-Words (CBOW). На основе данной модели для каждой пары значение многозначного слова — голосующее за него родственное значение подсчитывалась косинусная мера близости (cosine similarity) их векторов Word2Vec, если таковые имеются в модели по формуле:

cosine similarity = / .

Счётчики голосов за то или иное значение взвешивались с помощью значения косинусной меры близости для значения и голосующего за него родственника.

3.3.4 Взвешивание на основе предобученных векторов FastText

Также был протестирован алгоритм взвешивания на основе косинусной меры близости предобученных векторов сокращённой размерности FastText (https://github.com/facebookresearch/fastText) [17]. При подсчёте использовалась та же формула, что в подпункте 3.3.3.

3.3.5. Взвешивание на основе векторов BERT

Кроме того, в экспериментах использовались вектора BERT [18]: контекстно-свободные от DeepPavlov через библиотеку transformers для языка Python и вектора для целевого многозначного слова в контексте словосочетания. Далее также подсчитывается косинусная мера двух векторов: для многозначного слова в контексте словосочетания и для слова с родственным значением также в контексте его словосочетания.

3.4. Подготовка тестовой выборки и оценка качества разных методов

Для сравнения разных методов взвешивания была произведена ручная разметка выборки объёмом 1735 пар, которая принималась за «золотой стандарт» для сравнения с результатом работы описанных выше алгоритмов взвешивания и извлечения словосочетаний для корпуса. При этом для всех моделей на первом шаге работы отбирались те пары, в которых у обоих слов многозначность снята полностью, то есть в результате подсчёта и взвешивания голосов по всем значениям слова в итоге можно выбрать одно с наибольшим весом, оно и идёт в результат работы алгоритма. Для оценки качества моделей подсчитывались стандартные метрики: полнота, точность и F1-мера. Результаты приведены в таблице 2 (число пар с полностью снятой многозначностью и F1-мера):

Таблица 2

Число пар с полностью снятой многозначностью

F1-мера

До взвешивания

3 287

0.19

Простой алгоритм взвешивания

23 679

0.75

До взвешивания + простой алгоритм

26 966

0.81

Взвешивание на основе is-a Path

30 997

0.81

Взвешивание на основе косинусной близости векторов Word2Vec

32 117

0.79

Взвешивание на основе косинусной близости векторов FastText

32 780

0.81

is-aPath + Word2Vec

33 114

0.79

is-a Path + FastText

33 803

0.81

Взвешивание на основе косинусной близости контекстных векторов BERT

32 808

0.81

Как можно увидеть из таблицы многим методам взвешивания удалось достичь F1-меры 80% — на основе контекстных векторов BERT, векторов сокращённой размерности FastText, кратчайшего пути по дереву тезаурусу. Эти же методы позволяют добавить порядка 30 000 новых размеченных пар в корпус.

4. Анализ ошибок

Для анализа ошибок, были выделены словосочетания, в которых ошиблись все модели. Таких словосочетаний оказалось 257. Приведем анализ этих словосочетаний.

К категории пар, при разметке которых ошиблись все изученные методы, относятся в том числе те, для лексем в составе которых в рамках группировок не нашлось подходящих слов-родственников, которые бы помогли при снятии многозначности. Например, при разметке словосочетания ('праздничный', 'концерт') все семь методов допустили ошибку в определении значения второго слова, определив его как ‘скандал, ссора’ вместо правильного ‘концерт, концертная программа’, причём в группировку по первому слову праздничный вошло 80 пар. Другой пример: все модели приписали неверный тег значения второй лексеме в словосочетании ('солдатский', 'каша') — ‘месиво (полужидкая смесь)’, потому что в рамках группировки словосочетаний по первому слову подобрались семантически разные лексемы: котелок, слава, форма, письмо, привал, шинель, казарма, могила, вдова, орден.

В рамках словосочетания ('всероссийский', 'олимпиада') всеми моделями вторая лексема была размечена как ‘олимпийские игры’, однако в новостных текстах, из которых был составлен корпус-источник словосочетаний данное словосочетание чаще употребляется в контексте школьных олимпиад. В группе пар слов по первому слову всероссийский оказалось несколько пар слов, обозначающих спортивные мероприятия всероссийского уровня: тренировка, марафон, автопробег, состязание, регата, чемпионат, гонка, турнир. Попали в группу также пары со вторыми словами, тематически относящимися к школьной предметной области, — школа и урок, но их было всего две и они не связаны родственными отношениями с искомой лексемой.

Некоторые ошибки в разметке были вызваны ошибками на этапе лемматизации, например в словосочетании ('должное', 'образ') первая лексема была определена как существительное должное, образованное с помощью конверсии прилагательного, но на самом деле в данной паре первая лексема должна быть должный (прилагательное).

Тем не менее, несмотря на ошибочную разметку некоторых словосочетаний, не менее 80% словосочетаний были размечены верно разными методами, что позволяет автоматизировать процесс разметки словосочетаний по значениям.

5. Заключение

В статье был рассмотрен подход к автоматическому порождению корпуса словосочетаний в формате SyntagNet с семантической аннотацией. Такие корпуса могут значительно облегчить процесс подготовки тренировочных и тестовых коллекций для моделей машинного обучения, а также применяться в качестве источника знаний в моделях на основе правил и знаний. Создание размеченных корпусов словосочетаний подразумевает принятие гипотезы «одно значение на словосочетание». Для автоматического разрешения лексической многозначности в рамках словосочетаний производились группировки по первой и второй лексеме и поиск родственных слов в рамках данных группировок — синонимов, гиперонимов, гипонимов, более дальних родственников, отстоящих от целевой лексемы на два шага по дереву тезауруса. Значения родственных слов голосуют за тот или иной синсет многозначного слова в рамках словосочетания.

Те пары, у которых для обоих слов после подбора родственных значений осталось по одному синсету, добавлялись в корпус. К остальным словосочетаниям применялись различные методы взвешивания голосов, полученных от родственников: косинусная мера близости векторов Word2Vec, FastText, контекстных векторов BERT, кратчайшего пути по тезаурусу. Большинство методов достигают F1-меры в 80% и позволяют расширить корпус словосочетаний на 30 000 пар.

В результате анализа ошибок была выявлена следующая закономерность: 68.2% словосочетаний, в которых хотя бы один метод допустил ошибку, оказались проблемой для всех моделей. Среди причин неточностей в семантической разметке ошибки, допущенные на этапе лемматизации, состав группировок по первому или второму слову — слова из разных предметных областей, преобладание определённой области.

В качестве направлений будущих исследований можно изучить зависимость качества разметки от объёма группы, оценить вклад разных семантических отношений, а также оценить качество работы методов на более объёмной коллекции с ручной разметкой.

Библиография
1. Pu X., Pappas N., Henderson J., Popescu-Belis A. Integrating Weakly Supervised Word Sense Disambiguation into Neural Machine Translation // Transactions of the Association for Computational Linguistics. 2018. V. 6. Pp. 635-649.
2. Blloshmi R., Pasini T., Campolungo N., Banerjee S., Navigli R., Pasi G. IR like a SIR: Sense-enhanced Information Retrieval for Multiple Languages // Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. 2021. Pp. 1030-1041.
3. Seifollahi S., Shajari M. Word Sense Disambiguation Application in Sentiment Analysis of News Headlines: an Applied Approach to FOREX Market Prediction // Journal of Intelligent Information Systems. 2019. V. 52. Pp. 57-83.
4. Maru M., Scozzafava F., Martelli F., Navigli R. SyntagNet: Challenging Supervised Word Sense Disambiguation with Lexical-semantic Combinations // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing. 2019. Pp. 3534-3540.
5. Yarowsky D. One Sense per Collocation // Proceedings of the Workshop on Human Language Technology. 1993. Pp. 266-271.
6. Martinez D., Agirre E. One Sense per Collocation and Genre/Topic Variations // 2000 Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora. 2000. Pp. 207-215.
7. Leech G.N. 100 Million Words of English: the British National Corpus (BNC) // Language Research. 1992. No. 28(1). Pp. 1-13.
8. Haveliwala T.H. Topic-sensitive PageRank // Proceedings of the 11th International Conference on World Wide Web. 2002. Pp. 517-526.
9. Agirre E., López de Lacalle O., Soroa A. Random Walks for Kknowledge-based Word Sense Disambiguation // Computational Linguistics. 2014. V. 40. No. 1. Pp. 57-84.
10. Yuan D., Richardson J., Doherty R., Evans C., Altendorf E. Semi-supervised Word Sense Disambiguation with Neural Models // Proceedings of COLING. 2016. Pp. 1374-1385.
11. Bolshina A., Loukachevitch N. Monosemous Relatives Approach to Automatic Data Labelling for Word Sense Disambiguation in Russian // Linguistic Forum 2020: Language and Artificial Intelligence. 2020. Pp. 12-13.
12. Kirillovich A., Loukachevitch N., Kulaev M., Bolshina A., Ilvovsky D. Sense-Annotated Corpus for Russian // Proceedings of the 5th International Conference on Computational Linguistics in Bulgaria (CLIB 2022). 2022. Pp. 130-136.
13. Loukachevitch N., Lashevich G., Gerasimova A., Ivanov V., Dobrov B. Creating Russian WordNet by Conversion // Computational Linguistics and Intellectual Technologies: Papers from the Annual Conference “Dialogue”. 2016. Pp. 405-415.
14. Liu X.Y., Zhou Y.M., Zheng R.S. Measuring Semantic Similarity in WordNet // 2007 International Conference on Machine Learning and Cybernetics. 2007. V. 6. Pp. 3431-3435.
15. Mikolov T., Sutskever I., Chen K., Corrado G., Dean J. Distributed Representations of Words and Phrases and their Compositionality // Advances in Neural Information Processing Systems. 2013. V. 26. Pp. 3111-3119.
16. Kutuzov A., Kuzmenko E. WebVectors: a Toolkit for Building Web Interfaces for Vector Semantic Models // Analysis of Images, Social Networks and Texts: 5th International Conference, AIST 2016, Revised Selected Papers 5. Springer International Publishing. 2017. V. 661. Pp. 155-161.
17. Bojanowski P., Grave E., Joulin A., Mikolov T. Enriching Word Vectors with Subword Information // Transactions of the Association for Computational Linguistics. 2017. V. 5. Pp. 135-146.
18. Devlin J., Chang M.W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // Proceedings of NAACL-HLT. 2019. V. 1. Pp. 4171-4186.
References
1. Pu, X., Pappas, N., Henderson, J., & Popescu-Belis, A. (2018). Integrating Weakly Supervised Word Sense Disambiguation into Neural Machine Translation. Transactions of the Association for Computational Linguistics, 6, 635-649. doi:10.1162/tacl_a_00242
2. Blloshmi, R., Pasini, T., Campolungo, N., Banerjee, S., Navigli, R., & Pasi, G. (2021). IR like a SIR: Sense-enhanced Information Retrieval for Multiple Languages. Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, 1030-1041. doi:10.13140/RG.2.2.30354.58567
3. Seifollahi, S., & Shajari, M. (2019). Word Sense Disambiguation Application in Sentiment Analysis of News Headlines: an Applied Approach to FOREX Market Prediction. Journal of Intelligent Information Systems, 52, 57-83. doi:10.1007/s10844-018-0504-9
4. Maru, M., Scozzafava, F., Martelli, F., & Navigli, R. (2019). SyntagNet: Challenging Supervised Word Sense Disambiguation with Lexical-semantic Combinations. Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 3532-3538. doi:10.18653/v1/D19-1359
5. Yarowsky, D. (1993). One Sense per Collocation. In Human Language Technology: Proceedings of a Workshop Held at Plainsboro, New Jersey, 266-271. doi:10.3115/1075671.1075731
6. Martinez, D., & Agirre, E. (2000). One Sense per Collocation and Genre/Topic Variations. 2000 Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora, 207-215. doi:10.3115/1117794.1117820
7. Leech, G. (1992). 100 Million Words of English: the British National Corpus (BNC). Language Research, 28(1), 1-13.
8. Haveliwala, T.H. (2002). Topic-sensitive PageRank. Proceedings of the 11th International Conference on World Wide Web, 517-526. doi:10.1145/511446.511513.
9. Agirre, E., López de Lacalle, O., & Soroa, A. (2014). Random Walks for Knowledge-based Word Sense Disambiguation. Computational Linguistics, 40(1), 57-84. doi:10.1162/COLI_a_00164
10. Yuan, D., Richardson, J., Doherty, R., Evans, C., & Altendorf, E. (2016). Semi-supervised Word Sense Disambiguation with Neural Models. Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers, 1374-1385.
11. Bolshina, A., & Loukachevitch, N. (2020). Monosemous Relatives Approach to Automatic Data Labelling for Word Sense Disambiguation in Russian. Linguistic Forum 2020: Language and Artificial Intelligence, 12-13.
12. Kirillovich, A., Loukachevitch, N., Kulaev, M., Bolshina, A., & Ilvovsky, D. (2022). Sense-Annotated Corpus for Russian. Proceedings of the 5th International Conference on Computational Linguistics in Bulgaria (CLIB 2022), 130-136.
13. Loukachevitch, N.V., Lashevich, G., Gerasimova, A.A., Ivanov, V.V., & Dobrov, B.V. (2016). Creating Russian WordNet by Conversion. Computational Linguistics and Intellectual Technologies: papers from the Annual conference “Dialogue”, 405-415.
14. Liu, X.Y., Zhou, Y.M., & Zheng, R.S. (2007). Measuring Semantic Similarity in WordNet. 2007 International Conference on Machine Learning and Cybernetics, 6, 3431-3435. doi:10.1109/ICMLC.2007.4370741
15. Mikolov, T., Sutskever, I., Chen, K., Corrado, G.S., & Dean, J. (2013). Distributed Representations of Words and Phrases and their Compositionality. Advances in Neural Information Processing Systems, 26, 3111-3119.
16. Kutuzov, A., & Kuzmenko, E. (2017). WebVectors: a Toolkit for Building Web Interfaces for Vector Semantic Models. Analysis of Images, Social Networks and Texts: 5th International Conference, AIST 2016, Revised Selected Papers 5, 155-161. doi:10.1007/978-3-319-52920-2_15
17. Bojanowski, P., Grave, E., Joulin, A., & Mikolov, T. (2017). Enriching Word Vectors with Subword Information. Transactions of the Association for Computational Llinguistics, 5, 135-146. doi:10.1162/tacl_a_00051.
18. Devlin, J., Chang, M.W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of NAACL-HLT, vol. 1, 4171-4186. doi:10.18653/v1/N19-1423

Результаты процедуры рецензирования статьи

В связи с политикой двойного слепого рецензирования личность рецензента не раскрывается.
Со списком рецензентов издательства можно ознакомиться здесь.

Представленная на рассмотрение статья «Автоматизированное создание семантически размеченного корпуса словосочетаний», предлагаемая к публикации в журнале «Litera», несомненно, является актуальной, ввиду обращения автора к изучению вопросов автоматизированной обработки языкового корпуса, что является важным в наше время, ввиду возрастающей роли техники в нашей жизни.
В статье описывается процесс создания такого корпуса, теоретические основания, а также разные подходы к семантической разметке словосочетаний. Цель работы — исследовать возможности автоматической разметки словосочетания с целью создания размеченного корпуса для русского языка.
Статья является новаторской, одной из первых в российской лингвистике, посвященной исследованию подобной проблематики. В статье представлена методология исследования, выбор которой вполне адекватен целям и задачам работы. Автор обращается, в том числе, к различным методам для подтверждения выдвинутой гипотезы, а именно к статистическому методу, методу обобщения, моделированию и методу семантического анализа. Теоретические измышления проиллюстрированы языковыми примерами, а также представлены убедительные данные статистические данные, полученные в ходе исследования. Данная работа выполнена профессионально, с соблюдением основных канонов научного исследования. Исследование выполнено в русле современных научных подходов, работа состоит из введения, содержащего постановку проблемы, основной части, традиционно начинающуюся с обзора теоретических источников и научных направлений, исследовательскую и заключительную, в которой представлены выводы, полученные автором. Отметим, что заключение требует усиления, оно не отражает в полной мере задачи, поставленные автором и не содержит перспективы дальнейшего исследования в русле заявленной проблематики.
Практические результаты применения описанной методики размещены в открытом доступе на GitHub по адресу: https://github.com/Diana-Zaripova/SemanticallyAnnotatedCollocationCorpus/.
Библиография статьи насчитывает 17 источников, среди которых представлены работы исключительно на иностранном языке. К сожалению, в статье отсутствуют ссылки на фундаментальные работы отечественных исследователей, такие как монографии, кандидатские и докторские диссертации на русском языке.
Высказанные замечания не являются существенными и не умаляют общее положительное впечатление от рецензируемой работы. В общем и целом, следует отметить, что статья написана простым, понятным для читателя языком. Работа является новаторской, представляющей авторское видение решения рассматриваемого вопроса и может иметь логическое продолжение в дальнейших исследованиях. Практическая значимость исследования заключается в возможности использования его результатов в процессе преподавания вузовских курсов по лекискологии и лексикографии, математической лингвистике, а также курсов по междисциплинарным исследованиям, посвящённым связи языка и общества. Статья, несомненно, будет полезна широкому кругу лиц, филологам, магистрантам и аспирантам профильных вузов. Статья «Автоматизированное создание семантически размеченного корпуса словосочетаний» может быть рекомендована к публикации в научном журнале.