Рус Eng За 365 дней одобрено статей: 2253,   статей на доработке: 265 отклонено статей: 937 
Библиотека
Статьи и журналы | Тарифы | Оплата | Ваш профиль

Вернуться к содержанию

Морфологический анализ текста: функциональные возможности
Минец Диана Владимировна

кандидат филологических наук

доцент, Череповецкий государственный университет, Гуманитарный институт

162600, Россия, Вологодская область, г. Череповец, ул. Пр. Луначарского, 5

Minets Diana Vladimirovna

PhD in Philology

associate professor of the Department of Russian Philology and Applied Communication at Cherepovets State University

162600, Russia, Vologda Region, Cherepovets, str.Lunacharsky's prospect, 5

diana.minecz@mail.ru
Горушкина Анна Валентиновна

аспирант, Череповецкий государственный университет, Гуманитарный институт

162600, Россия, Вологодская область, г. Череповец, пр. Луначарского, 5

Gorushkina Anna Valentinovna

post-gradudate student of the Department of Russian Philology and Applied Communication at Cherepovets State University

162600, Russia, Vologda Region, Cherepovets, str. Lunacharsky's prospect, 5

anette1993@mail.ru
Аннотация. Объектом описания в настоящей статье является морфологический анализатор автодокументального текста с последующим профилированием гендерной идентичности автора. Он представляет собой прикладную компьютерную программу, написанную на основе Яндекс MyStem v3.0, CentOS Linux, Apache v2.2, PHP v5.3, MySQL v5.5. Данная программа позволяет делать морфолого-синтаксическую разметку, а также на основе линейного дискриминантного анализа Фишера диагностировать пол автора текста по соотношению ряда морфолого-синтаксических параметров, являющихся информативными для данной личностной характеристики. В основу программы положены результаты проведенного авторским коллективом эксперимента по выявлению зависимости между формально-грамматическими, поддающимися квантификации параметрами текста и полом автора на материале специального созданного корпуса автодокументальных текстов с применением статистических методов обработки данных. Используемые методы анализа текста – статистический и описательный. Методами автоматической обработки текстов с использованием специально разработанного на основе на основе морфологического анализатора «Mystem» от Яндекс были извлечены числовые значения формально-грамматических параметров текста, список которых был составлен по материалам русскоязычной и англоязычной научной литературы и резюмирован рядом работ подобного профиля. Основными выводами проведенного исследования являются следующие: 1) описаны возможности использования морфолого-синтаксической разметки в стилистическом анализе текста; 2) на основе проведенного анализа данных в автодокументах Л.Брик и В.Маяковского и сравнения полученных результатов с позиции гендера выявлено, что женская речь менее предметна и менее качественна.
Ключевые слова: текст, морфологический анализатор, формально-грамматические характеристики, лингвостатистика, корреляционный анализ, пол, гендер, автоматическая обработка, коэффициенты предметности, качественности
DOI: 10.25136/2409-8698.2017.3.24112
Дата направления в редакцию: 07-09-2017

Дата рецензирования: 11-09-2017

Дата публикации: 13-09-2017

Abstract. The object of the present research is the morphological analyzer of an autodocumental text with the subsequent profiling of the author's gender identity. It is an applied computer program written on the basis of Yandex MyStem v3.0, CentOS Linux, Apache v2.2, PHP v5.3, MySQL v5.5. This program allows to make morphological and syntactic markup, and also on the basis of linear discriminant analysis of Fisher diagnose the sex of the author of the text by the ratio of a number of morphological and syntactic parameters that are informative for this personal characteristic. The program is based on the results of the experiment conducted by the team of authors on the identification of the relationship between the formal and grammatical quantifiable parameters of the text and the author's sex on the material of the special body of autodocumentary texts created using statistical methods of data processing. The methods of text analysis used are statistical and descriptive. The methods of automatic text processing using the specially developed on the basis of the morphological analyzer "Mystem" from Yandex were extracted numerical values of the formal grammatical parameters of the text, the list of which was compiled from the materials of the Russian-language and English-language scientific literature and summarized by a number of works of this profile. The main conclusions of the study are as follows: 1) the possibilities of using morphological-syntactic markup in the stylistic analysis of the text are described; 2) on the basis of the analysis of data in L. Brik and V. Mayakovsky's autodocuments and comparison of the results obtained from the gender perspective, it is revealed that female speech is less subject and less qualitative.

Keywords: automatic processing, gender, correlation analysis, linguistic statistics, formal-grammatical characteristics, morphological analyzer, text, coefficients of objectivity, quality, sex

Данная научная работа была выполнена при финансовой поддержке гранта Президента Российской Федерации для государственной поддержки молодых российских ученых: МК-9349.2016.6 – «Языковые средства репрезентации идентичности в автодокументальных текстах: лингвокогнитивное моделирование».

Важным этапом анализа текста на естественном языке является его морфологический анализ, то есть получение детальных морфологических данных о лексемах, образующих текст. Автоматизация процедуры морфологического анализа и статистической обработки текста является одной из актуальных задач прикладной лингвистики.

Анализ имеющихся программных продуктов по данному профилю показал, что в настоящее время имеется немало разработок [6;7] по частотному и морфологическому анализу, но готовых морфоанализаторов с статистической разметкой текстового массива, позволяющих впоследствии на основе извлеченных данных получить интересующую информацию о личности автора, пока нет.

На основе Яндекс MyStemv3.0 [8], CentOSLinux, Apachev2.2, PHPv5.3, MySQLv5.5 нами была написана прикладная компьютерная программа «Морфологический анализатор автодокументального текста с последующим профилированием гендерной идентичности автора», позволяющая: 1) делать морфолого-синтаксическую разметку; 2) на основе линейного дискриминантного анализа Фишера диагностировать пол автора текста по соотношению ряда морфолого-синтаксических параметров, являющихся информативными для данной личностной характеристики.

Конечная цель проекта – диагностика половой принадлежности автора автодокументального текста посредством лингвостилистического анализа и установления корреляций между количественными показателями текста и гендерной идентичностью пишущего с помощью предлагаемого морфологического анализатора. Работа выполнена на материале корпуса текстов автодокументальной дискурсивной принадлежности авторов XIX-XX вв. Автодокументальный (мемуарно-автобиографический) дискурс – активная среда реализации специфических параметров категории идентичности, вербализующихся на разных уровнях языковой структуры. Идентичность является центральной категорией автодокументального текста [5, с.66]. Общий корпус авторских текстов для анализа представлен текстовыми фрагментами (средний объем 480 – 520 лексических единиц) произведений различных жанровых модификаций мужской и женской автодокументальной прозы XVIII – XX вв. Корпус насчитывал свыше 1000 фрагментов 150 авторов (мужчин и женщин).

Интерфейс морфологического анализатора включает в себя 5 полей: «Определение пола», «Анализ текста», «Материалы», «Справка», «О программе» (см. Рис. 1).

Рис. 1. Внешний интерфейс морфологического анализатора.

Вход в систему осуществляется по логину пользователя и паролю. Вкладка «Определение пола»: по фрагменту художественного текста диагностируется пол автора (точность определения пола автора текста составляет 70%). Вкладка «Анализ текста»: по фрагменту художественного текста выводится статистика в разрезе частей речи и типов предложений, используемых в тексте. Вкладка «Материалы»: в разделе есть возможность просмотра, выгрузки в формате Excel или удаления статистики в разрезе частей речи и типов предложений, используемых в тексте, по ранее сохраненным текстам. В разделе «Справка» представлено описание работы автоматизированной информационной системы. Вкладка «О программе» содержит информацию о проекте, в рамках которого создавалась автоматизированная информационная система, его авторе и перечень программного обеспечения, используемого при создании автоматизированной информационной системы.

В рамках настоящей статьи речь пойдет о возможностях морфолого-синтаксической разметки в стилистическом анализе текста. Процедура диагностирования пола на основе линейного дискриминантного анализа Фишера по соотношению ряда морфолого-синтаксических параметров, являющихся информативными для данной личностной характеристики, была подробно освещена в предыдущих работах [4].

Разработанная программа делает текстовую разметку по следующим параметрам: количество имен существительных (1), количество глаголов (2), количество личных местоимений (3), количество указательных местоимений (4), количество относительных и вопросительных местоимений (5), общее количество местоимений всех разрядов (6), количество местоименных наречий (7), количество деепричастий (8), количество причастий (9), количество предлогов (10), количество союзов (11), количество частиц (12), количество знаменательных слов (13), количество незнаменательных слов (14), общее кол-во слов в тексте (15), количество сложных предложений (16), количество сложных бессоюзных предложений (17), количество существительных и местоимений (18), количество прилагательных и глаголов (19), количество прилагательных и наречий (20), количество глаголов и существительных (21), количество глаголов, причастий и деепричастий (22), количество существительных, прилагательных и местоимений (23), количество предлогов и союзов (24).

Значимым является также анализ синтаксического уровня текстов, в частности, структуры предложений, однако в настоящее время он недостаточно поддается автоматизации, в связи с чем было взято ограниченное число параметров текстов на синтаксическом уровне: количество предложений; количество сложных предложений; количество сложных бессоюзных предложений. Все эти параметры также оказываются значимыми для моделирования пола автора по тексту.

Данные параметры представляют собой перечень критериев, предложенных Т.А. Литвиновой [3, с. 133], но дополненных рядом показателей по методике Е.И. Горошко [1, с. 63], а именно – коэффициентом предметности (Pr), равным отношению количества существительных и местоимений к количеству прилагательных и глаголов, коэффициентом качественности (Qu), равным отношению числа прилагательных и наречий к количеству существительных и глаголов, коэффициентом активности (Ac), равным количеству глаголов, причастий и деепричастий к общему количеству слов в тексте, коэффициентом динамизма (Din), равным количеству глаголов, причастий и деепричастий к количеству существительных, прилагательных и местоимений, коэффициентом связности (Con), равным соотношению числа предлогов и союзов с числом самостоятельных предложений.

Для построения модели зависимости пола от морфолого-синтаксических параметров текста использовался линейный дискриминантный анализ Фишера. При этом методе записывается функция линейной регрессии

Y = a + b1Х1 + b2Х2 + ... + bmХm,

где Х1, Х2, ..., Хm – значения факторов, описывающих объект и влияющих на результат, Y – результирующая переменная. В дискриминантном анализе значение результирующей переменной сравнивается с пороговым значением p. В случае, если Y < p, объект относится к первой группе, в противном случае – ко второй.

С помощью функции LinearFit нами получена следующая формула для значения результирующей переменной:

В качестве факторных переменных Xi, кроме перечисленных выше, естественно взять отношения вида xi/x15, где в знаменателе находится общее количество слов в тексте. Значения этих переменных принадлежат отрезку [0; 1] и выражают долю соответствующих частей речи в тексте. Деление на общее количество слов необходимо, поскольку рассматриваемые тексты имеют разную длину. По аналогичной причине рассматриваются переменные x20/x21 и x18/x19.

Переменные x1, x2, x4, x6,x8,x9, x10 исключены из рассмотрения по одной из следующих причин: 1) чтобы избежать мультиколлинеарности, при которой одна или несколько переменных линейно выражаются через остальные; 2) влияние этих переменных на результат незначительно (соответствующие коэффициенты регрессии bi близки к нулю).

Для сравнительного морфолого-синтаксического анализа нами были взяты автодокументальные тексты В.В. Маяковского (1893-1930) из очерковых записей 1922-1923 и 1925-1926 гг. и Л.Ю. Брик (1891-1978) «Пристрастные рассказы». Из каждого автора мы взяли по 5 однородных выборок средним объемом 500-520 слов и произвели программную разметку по заявленным 24 параметрам (Табл.1-2).

Таблица 1. Морфологическая разметка фрагментов автодокумента Л.Брик

Параметр

Фрагмент №1

Фрагмент №2

Фрагмент №3

Фрагмент №4

Фрагмент №5

Кол-во имен существительных

131

143

116

122

135

Кол-во глаголов

98

87

79

89

97

Кол-во личных местоимений

63

59

47

44

41

Кол-во указательных местоимений

9

10

9

13

11

Кол-во относительных и вопросительных местоимений

11

8

9

12

20

Общее количество местоимений всех разрядов

90

91

83

72

74

Кол-во местоименных наречий

3

5

7

15

5

Кол-во деепричастий

3

3

2

1

4

Кол-во причастий

5

3

4

5

8

Кол-во предлогов

65

76

74

50

49

Кол-во союзов

35

41

51

50

35

Кол-во частиц

13

6

18

20

20

Кол-во прилагательных

35

29

35

36

18

Кол-во наречий

25

19

30

39

29

Кол-во числительных

9

13

4

3

23

Общее кол-во слов в тексте

515

520

510

509

515

Кол-во существительных и местоимений

221

234

199

194

209

Кол-во прилагательных и глаголов

133

116

114

125

115

Кол-во прилагательных и наречий

60

48

65

75

47

Кол-во глаголов и существительных

229

230

195

211

232

Кол-во глаголов, причастий и деепричастий

106

93

85

95

109

Кол-во существительных, прилагательных и местоимений

256

263

234

230

227

Кол-во предлогов и союзов

100

117

125

100

84

Кол-во знаменательных слов

396

388

353

367

388

Кол-во незнаменательных слов

113

123

143

120

104

Кол-во сложных предложений

16

19

14

16

19

Кол-во сложных бессоюзных предложений

9

13

5

8

13

Таблица 2. Морфологическая разметка фрагментов автодокумента В.Маяковского

Параметр

Фрагмент №1

Фрагмент №2

Фрагмент №3

Фрагмент №4

Фрагмент №5

Кол-во имен существительных

206

147

204

160

167

Кол-во глаголов

56

57

52

62

51

Кол-во личных местоимений

16

14

8

13

12

Кол-во указательных местоимений

16

8

23

8

18

Кол-во относительных и вопросительных местоимений

4

8

7

5

12

Общее количество местоимений всех разрядов

56

53

51

44

59

Кол-во местоименных наречий

10

7

6

7

8

Кол-во деепричастий

7

2

4

7

5

Кол-во причастий

14

13

13

8

15

Кол-во предлогов

51

51

57

80

53

Кол-во союзов

46

48

30

29

38

Кол-во частиц

34

45

15

11

24

Кол-во прилагательных

54

46

68

42

58

Кол-во наречий

27

27

25

21

31

Кол-во числительных

8

5

2

31

13

Общее кол-во слов в тексте

570

502

534

505

533

Кол-во существительных и местоимений

262

200

255

204

226

Кол-во прилагательных и глаголов

110

103

120

104

109

Кол-во прилагательных и наречий

81

73

93

63

89

Кол-во глаголов и существительных

262

204

256

222

218

Кол-во глаголов, причастий и деепричастий

77

72

69

77

71

Кол-во существительных, прилагательных и местоимений

316

246

323

246

284

Кол-во предлогов и союзов

97

99

87

109

91

Кол-во знаменательных слов

428

350

419

375

399

Кол-во незнаменательных слов

131

144

102

120

115

Кол-во сложных предложений

14

12

11

14

15

Кол-во сложных бессоюзных предложений

5

7

7

8

6

В каждом из рассмотренных случаев реальный пол автора текста совпал с исчисляемым программой.

Особого рассмотрения в рамках настоящей статьи стали именно коэффициенты предметности (Pr), качественности (Qu), активности (Ac), динамизма (Din) и связности (Con) как особые гендерномаркированные параметры (см.Табл.3).

Таблица 3. Сравнительная (коэффициентная)

морфологическая разметка автотекстов Л.Брик и В.Маяковского

Фрагмент (№)

Брик Лиля (1891-1978). Пристрастные рассказы

В.В. Маяковский (1893-1930). Из очерковых записей 1922-1923 и 1925-1926 гг.

Коэффициент

Числовое значение

Коэффициент

Числовое значение

1

Коэффициент предметности (Pr)

1,66

Коэффициент предметности (Pr)

2,38

Коэффициент качественности (Qu)

0,26

Коэффициент качественности (Qu)

0,31

Коэффициент активности (Ac)

0,21

Коэффициент активности (Ac)

0,13

Коэффициент связности (Con)

2,08

Коэффициент связности (Con)

2,55

Коэффициент динамизма (Din)

0,41

Коэффициент динамизма (Din)

0,24

2

Коэффициент предметности (Pr)

2,08

Коэффициент предметности (Pr)

1,94

Коэффициент качественности (Qu)

0,21

Коэффициент качественности (Qu)

0,36

Коэффициент активности (Ac)

0, 18

Коэффициент активности (Ac)

0,14

Коэффициент связности (Con)

3,16

Коэффициент связности (Con)

0,91

Коэффициент динамизма (Din)

0,35

Коэффициент динамизма (Din)

0,29

3

Коэффициент предметности (Pr)

1,75

Коэффициент предметности (Pr)

2,13

Коэффициент качественности (Qu)

0,33

Коэффициент качественности (Qu)

0,36

Коэффициент активности (Ac)

0,17

Коэффициент активности (Ac)

0,13

Коэффициент связности (Con)

4,81

Коэффициент связности (Con)

2,71

Коэффициент динамизма (Din)

0,36

Коэффициент динамизма (Din)

0,21

4

Коэффициент предметности (Pr)

0,6

Коэффициент предметности (Pr)

1,96

Коэффициент качественности (Qu)

0,59

Коэффициент качественности (Qu)

0,28

Коэффициент активности (Ac)

0,19

Коэффициент активности (Ac)

0,15

Коэффициент связности (Con)

2,39

Коэффициент связности (Con)

2,87

Коэффициент динамизма (Din)

0,41

Коэффициент динамизма (Din)

0,31

5

Коэффициент предметности (Pr)

1,81

Коэффициент предметности (Pr)

2,07

Коэффициент качественности (Qu)

0,2

Коэффициент качественности (Qu)

0,41

Коэффициент активности (Ac)

0,21

Коэффициент активности (Ac)

0,13

Коэффициент связности (Con)

2,05

Коэффициент связности (Con)

3,14

Коэффициент динамизма (Din)

0,48

Коэффициент динамизма (Din)

0,25

Средняя величина полученных коэффициентов в зависимости от пола автора выглядит следующим образом:

ü коэффициент предметности, средний (Pr): 1,58 (Ж); 2,096(М);

ü коэффициент качественности, средний (Qu): 0,318(Ж); 0,344(М);

ü коэффициент активности, средний (Ac): 0,192(Ж); 0,17 (М);

ü коэффициент связности, средний (Con): 2,898(Ж); 2,436 (М);

ü коэффициент динамизма, средний (Din): 0,402; 0,26 (М).

На основе проведенного анализа данных коэффициентов в автодокументах Л.Брик и В.Маяковского и сравнения полученных результатов с позиции гендера было выявлено, что женская речь менее предметна и менее качественна, чем мужская (что совпало с заключениями целого ряда исследователей по данному профилю (ср.[2]) и не подлежит сомнению, что гендер влияет на письменное речевое поведение, на выбор языковых средств для построения высказывания.), то есть мужчины изображают мир, действительность более разнообразно, используя качественные характеристики. Однако средние коэффициенты связности, активности и динамизма, предложенные Е.И. Горошко [1, с. 63], применительно к рассматриваемым автодокументам в женских текстах оказались незначительно выше мужских показателей, что в свою очередь может быть обусловлено жанровым фактором и авторским идиостилем. Этот аспект изучения нуждается в дальнейшей проработке.

Подчеркнем, что настоящее исследование является пилотным и лишь намечает направления поиска в области профилирования пола автора по тексту на основе морфолого-синтаксических параметров, однако даже на данном этапе подтверждено, что определенная корреляция между морфолого-синтаксическими параметрами текста действительно существует и исследования в этом направлении должны быть продолжены.

Библиография
1.
Горошко, Е.И. Особенности мужского и женского стиля письма // Преображение, 1998. № 6. С. 48-64.
2.
Кавинкина, И.Н. Проявление гендера в речевом поведении носителей русского языка: монография. Гродно: ГрГУ, 2006.
3.
Литвинова, Т.А. Формально-грамматические корреляты личностных особенностей автора письменного текста // Филологические науки. Вопросы теории и практики. Тамбов: Грамота, 2013. № 12 (30): в 2-х ч. Ч. I. C. 132-135.
4.
Минец, Д.В., Горушкина, А.В. Формально-грамматические корреляты половой принадлежности автора письменного текста // Современная наука: актуальные проблемы теории и практики. Серия: Гуманитарные науки. 2017. № 9 (в печати).
5.
Минец, Д.В. Практики (авто)биографической идентификации в автодокументальном дискурсе // Череповецкие научные чтения – 2016: Материалы Всероссийской научно-практической конференции: В 3ч. Ч.1. Литературоведение, лингвистика, СМИ, история, философия, социология, политология, художественное образование / Отв. ред. Е.В. Целикова. Череповец: ЧГУ, 2017. С.66-67.
6.
Программы анализа и лингвистической обработки текстов [Эл.ресурс]. Режим доступа: http://rvb.ru/soft/catalogue/c01.html (дата обращения: 01.09.2017г.).
7.
Программы лингвистического анализа и обработки текста [Эл.ресурс]. Режим доступа: http://asknet.ru/Analytics/programms.htm (дата обращения: 01.09.2017г.).
8.
MyStem. Яндекс [Эл.ресурс]. Режим доступа: https://tech.yandex.ru/mystem (дата обращения: 01.09.2017г.).
References (transliterated)
1.
Goroshko, E.I. Osobennosti muzhskogo i zhenskogo stilya pis'ma // Preobrazhenie, 1998. № 6. S. 48-64.
2.
Kavinkina, I.N. Proyavlenie gendera v rechevom povedenii nositelei russkogo yazyka: monografiya. Grodno: GrGU, 2006.
3.
Litvinova, T.A. Formal'no-grammaticheskie korrelyaty lichnostnykh osobennostei avtora pis'mennogo teksta // Filologicheskie nauki. Voprosy teorii i praktiki. Tambov: Gramota, 2013. № 12 (30): v 2-kh ch. Ch. I. C. 132-135.
4.
Minets, D.V., Gorushkina, A.V. Formal'no-grammaticheskie korrelyaty polovoi prinadlezhnosti avtora pis'mennogo teksta // Sovremennaya nauka: aktual'nye problemy teorii i praktiki. Seriya: Gumanitarnye nauki. 2017. № 9 (v pechati).
5.
Minets, D.V. Praktiki (avto)biograficheskoi identifikatsii v avtodokumental'nom diskurse // Cherepovetskie nauchnye chteniya – 2016: Materialy Vserossiiskoi nauchno-prakticheskoi konferentsii: V 3ch. Ch.1. Literaturovedenie, lingvistika, SMI, istoriya, filosofiya, sotsiologiya, politologiya, khudozhestvennoe obrazovanie / Otv. red. E.V. Tselikova. Cherepovets: ChGU, 2017. S.66-67.
6.
Programmy analiza i lingvisticheskoi obrabotki tekstov [El.resurs]. Rezhim dostupa: http://rvb.ru/soft/catalogue/c01.html (data obrashcheniya: 01.09.2017g.).
7.
Programmy lingvisticheskogo analiza i obrabotki teksta [El.resurs]. Rezhim dostupa: http://asknet.ru/Analytics/programms.htm (data obrashcheniya: 01.09.2017g.).
8.
MyStem. Yandeks [El.resurs]. Rezhim dostupa: https://tech.yandex.ru/mystem (data obrashcheniya: 01.09.2017g.).