Рус Eng За 365 дней одобрено статей: 1903,   статей на доработке: 306 отклонено статей: 801 
Библиотека
Статьи и журналы | Тарифы | Оплата | Ваш профиль

Вернуться к содержанию

Опыт объединения баз данных исследований общественного мнения
Одинцов Александр Владимирович

кандидат социологических наук

доцент, ФГОУ ВО «Российская академия народного хозяйства и государственной службы при Президенте Российской Федерации», Волгоградский филиал

400131, Россия, Волгоградская область, г. Волгоград, ул. Гагарина, 8

Odintsov Alexander Vladimirovich

PhD in Sociology

Docent, the department of Philosophy and Sociology, Russian Presidential Academy of National Economy and Public Administration, Volgograd branch

400131, Russia, Volgograd, Gagarina Street 8

yugrasil@yandex.ru
Другие публикации этого автора
 

 

Аннотация.

Объектом исследования являются базы данных, собираемые в ходе изучения общественного мнения, спецификой которых является наличие различных переменных исследования, использование шкал различного уровня, а также различные уровни репрезентативности.Предметом представленного исследования является реляционная интеграция баз данных разнородных количественных социологических исследований и возможности такого рода объединения. В статье поэтапно представлены процедуры реляционного объединения, результаты конкретного эксперимента, направленного на проверку данных процедур, раскрываются особенности и возможности интеграции баз данных массовых опросов. В ходе экспериментального исследования применялись методы реляционной интеграции баз данных, статистической группировки, корреляционного анализа, отдельные элементы интеллектуального анализа данных В статье освещается опыт полноценной интеграции данных разнородных социологических исследований в единый массив, обладающий частью свойств 'BigData'. Приводятся результаты впервые проведенного в отечественной практике эксперимента по интеграции баз данных количественных социологических исследований, проводившимся на основании различных методик и с применением рахных измерительных процедур

Ключевые слова: Малые данные, реляционная интеграция, база данных, шкала, корреляционный анализ, опрос массового мнения, разнородные данные, выборочные исследования, большие данные, машинное обчение

DOI:

10.25136/2409-7144.2018.1.25131

Дата направления в редакцию:

30-12-2017


Дата рецензирования:

03-01-2018


Дата публикации:

06-01-2018


Статья написана при поддержке гранта РФФИ 15-06-02758А «Реляционное объединение данных разнородных социологических исследований в единый массив и интеллектуальный анализ с применением технологий машинного обучения»

Abstract.

 
The object of this research is the databases collected in the course of studying the public opinion, the specificity of which lies in the presence of different variables, application of wide range of scales, as well as diverse levels of representativity. The subject of this research is the relational integration of databases of heterogeneous qualitative sociological surveys and possibility of such type of unification. The article provides the gradual procedures of relational integration, results of a specific experiment aimed at verification of data of the procedures, as well as reveals the peculiarities and capabilities of databases integration of mass surveys. The following methods were used: relational integration of database, statistical grouping, correlational analysis, separate elements of intellectual analysis of the data. The author describes the experience of full-scale integration of the data acquired from the diverse sociological research into the single base file with partial properties of ‘BigData’. The article provides the results of the firs-ever within the national practice of experiment aimed at integration of databases of the qualitative sociological surveys, conducted on the basis of various techniques, with application of different measuring procedures.
 

Keywords:

sample surveys, heterogeneous data, opinion poll, correlation analysis, scale, database, relational integration, Small data, Big Data, machine learning

За годы проведения массовых опросов социологией общественного мнения накоплено значительное количество массивов данных. При этом возможности их вторичного использования и тем более получения из них новых данных крайне ограничены. Несмотря на то, что появление «больших данных» и применение к ним средств машинного обучения существенно изменили представление об исследованиях общества и недвусмысленно обозначили массовые опросы как источник «малых данных», эвристический потенциал накопленных эмпирической социологией массивов не исчерпан. Он может быть актуализирован с помощью интеграции собранных массивов в единую среду.

Практика показывает, что значительная часть массивов данных в социо-гуманитарном знании находится непосредственно у тех коллективов, которые проводили эмпирические исследования, и фактически закрыта для большинства сторонних пользователей. Это не позволяет не только вторично использовать полученные данные, но также вынуждает прочих исследователей заново собирать уже собранный социологией материал. Однако даже такие крупные исследовательские «фабрики» как ВЦИОМ, обладающие значительным количеством массивов и способные интегрировать их в единые архивы, все еще не могут генерировать с их помощью новые данные. Это возможно только в том случае, если имеющиеся базы данных можно интегрировать в реляционную базу, что возможно только при условии наличия во всех базах данных общих полей, либо с помощью «онтологических толковых словарей».

Объединение баз данных с помощью онтологического словаря базируется на том, что база данных строится на единой системе взаимосвязанных и интерпретируемых друг через друга категорий [1]. Этот вариант можно считать идеальным примером «нисходящей исследовательской стратегии», дедуктивного метода, так как он строится на многократной эмпирической проверке одной и той же концептуальной модели.

На данный момент интеграция данных различных социологических исследований не может быть надежно реализована, так как даже в том случае, если исследования посвящены одному и тому же феномену это, в силу «методологического плюрализма», не гарантирует общего понимания изучаемого феномена и тем более общности концептуальной и формальной моделей. Принципиальная схема социологического исследования, разработанная Н.Д. Ворониной и Ю.Н. Толстовой [2], убедительно показывает, что социолог, разрабатывая дизайн исследования, неоднократно осуществляет переход между различными средствами описания действительности характерные для отдельных этапов. Решения, принимаемые ученым на каждом из них, увеличивают различия в интерпретации основных категорий между исследованиями. По этой причине, интеграция данных с помощью онтологического словаря возможна только в том случае, если базы данных собирались на основе одинаково интерпретируемых категорий. Принимая во внимание плюрализм интерпретаций, операционализации и измерения в современной социологии, обозначенные Г.Г. Татаровой [3] как «методологические травмы», этот путь интеграции баз данных является практически нереализуемым. Поиск общих полей исследований является на данный момент более продуктивным.

Сегодня наиболее успешным опытом интеграции баз данных на основании общих полей являются «большие данные». Именно на основании такого способа объединения строится такое свойство «больших данных» как «расширяемость» и «масштабируемость». Ниже представлен ход течения и результат эксперимента реляционного объединения «малых данных», получаемых в результате проведения количественных социологических исследований.

В основе эксперимента лежит гипотеза о том, что объективно существуют некие социальные группы, которые могут быть однозначно определены в наших массивах. Собственно, на истинности данной гипотезы строится всякое количественное социологическое исследование, предполагающее, что генеральная совокупность существует в действительности, а не является простым «идеальным типом», удобной методологической метафорой. Если исследователи придерживаются таких «реалистских позиций», то они должны принимать и то, что генеральная совокупность может быть с высокой степенью достоверности сегментирована по различным признакам на отдельные группы. Причем структура выборочной совокупности должна соответствовать генеральной по наиболее важным для исследования показателям (пол, возраст, образование респондентов). В силу отсутствия персональных идентификаторов респондентов, именно эти группы могут явиться основанием для объединения баз данных – достаточно просто обнаружить их в различных массивах, присвоить им общий идентификатор (ID) и затем использовать полученный идентификатор как общую переменную для реляционного объединения.

Характеристики массивов, на которых осуществлялся эксперимент: количественные исследования с репрезентативностью Волгоградской области, проводившиеся в период 2011-2016 годов (при интеграции дата сбора данных не учитывалась), выборка n=300-1200. Массивы хранились в формате IBM SPSS. В опросах использовались номинальные, порядковые и интервальные шкалы. Текстовые ответы (варианты ответов «другое» или ответы на открытые вопросы) в данном опыте игнорировались.

В первоначальном плане эксперимента мы следовали следующей последовательности действий.

1. В качестве основной гипотезы было принято, что объективно существующие группы, признаки поведения (особенностей общественного мнения) которых мы можем обнаружить в наших массивах, описываются основными для большинства выборочных совокупностей объективных характеристик респондентов – пол, возраст, образование). Прочие социально-демографические характеристики (например, самооценка уровня дохода, наличие детей в семье, семейное положение) не учитывались в силу ограничений набора массивов, привлеченных для опыта. Шкалы пола и образования были традиционными и имели 2 и 5 значений шкалы соответственно. В силу того, что возрастные диапазоны в различных исследованиях были указаны разными, с помощью процедуры укрупнения интервалов они были приведены к единообразной порядковой шкале с 5 значениями признака.

2. На основании отобранных признаков была создана новая переменная – трехзначный ID, в котором первую цифру представлял пол, вторую – возраст, третью – образование. Учитывая комбинацию шкал из бинарной (пол) и двух пятичленных шкал (возраст и образование) были получены 50 уникальных ID. Ответы респондентов в каждом массиве были упорядочены по указанному ID в результате были получены группы ответов. В некоторых массивах отдельные из этих 50 групп могли отсутствовать.

3. Каждая из этих групп была объединена в отдельную строку. По аналогии с базами данных в IBM SPSS, где строками являются респонденты, а столбцами – их ответы, переменные кодировались в столбцах, а строками послужили группы с уникальными ID. Учитывая неоднородность используемых в массивах шкал и в целях минимальной потери данных по каждой группе, для массива и переменной было построено линейное распределение ответов респондентов. Данный метод применялся в связи с тем, что все шкалы высокого порядка могут быть сведены к номинальным шкалам, в отношении которых применимо только построение линейных распределений [5], а также из-за того, что использование мер средней тенденции существенно сжимает данные, приводя к потере значимой информации. Таким образом, вместо количества строк соответствующего количеству респондентов, каждый массив был сжат до количества строк, соответствующих количеству групп, представленных в массиве.

4. Так как в основе эксперимента мы исходили из того, что всякая группа с уникальными характеристиками (конкретным ID, соответствующим конкретному полу, возрасту и образованию респондентов) в одном массиве соответствует аналогичной группе в другом массиве, было произведено реляционное объединение экспериментального набора баз данных. В результате была получена трехмерная таблица, измерениями которой стали ID группы, всякая переменная каждого объединяемого массива, шкала измерения (и, следовательно, распределения) конкретного признака. Именно эта таблица является полноценной реляционной базой данных.

5. Для того, чтобы проверить насколько проведенное объединение является достоверным использовался корреляционный анализ. Идея использования данного метода состояла в том, что, если группы, обладающие уникальными наборами характеристик пола, возраста и образования (ID), действительно существуют, а не являются гипотетическими удобными исследователю конструкциями. В этом случае мы сможем обнаружить: а) взаимосвязи переменных из различных массивов; б) влияние ID на ответы респондентов (то есть уникальные наборы характеристик пола, возраста и образования должны быть фактором для зависимых переменных).

6. В ходе проведённого эксперимента было высказано предположение, что, влияние на распределение переменных оказывают далеко не все из уникальных своим групп, на основании которых объединен массив, а реально существующие социальные группы могут не быть ограниченными уникальными ID. Потому в рамках шага 6 была осуществлена проверка того, насколько возможным является объединить отдельные группы в более крупные сегменты. Для этого машинным способом между собой сопоставлялись распределения ответов уникальных групп. Если совпадения между группами достигали 70% по всем вопросам интегрированного массива, то было предположено, что их возможно объединить. Данный этап показал, что из 50 уникальных групп только 4 имеется возможность определить в 1 крупный сегмент. Это как подтверждать предположение о том, что на 10 объединяемых массивах связи проследить невозможно, так и то, что пол и образование не являются основанием для сегментирования социальной структуры. Достоверный ответ можно дать только в рамках эксперимента большего по масштабу интеграции данных.

Опыт показал, что реляционное объединение баз данных на основании предположения о существовании уникальных социально-демографических групп, стоящих за данными, получаемыми массовыми социологическими исследованиями, возможно. Главным побочным результатом проведения эксперимента стала открывшаяся возможность выявления и оценки реальных сегментов социальной структуры общества в рамках обработки данных в реляционно объединенном массиве. Однако, количество и крайняя разнородность массивов, с которыми проводился эксперимент, наложила на него ряд ограничений. Так при сжатии данных, проводимом в рамках эксперимента, не учитывалось присутствие шкал высокого порядка в интегрируемых массивах – все операции проводились только в пределах допустимых процедур к данным измеренным по номинальным шкалам. В будущем, безусловно, следует применять типологии шкал (по крайней мере, типологию С. Стивенса) при интеграции баз банных.

При полноценной реализации данного эксперимента на большем количестве массивов также необходимо учитывать метаданные исследований:

· какова их репрезентативность (какие генеральные совокупности они описывают);

· в какое время проводились исследования;

· доля неответов в исследованиях (response rate).

Необходимо принимать во внимание и то, что за пределами эксперимента остались существенные вопросы регистрации данных, широко освещаемые в рамках методического аудита социологических исследований, а также проблем валидности социологического измерения в том числе проблем многозначных и однозначных присваиваний значения переменным, над которыми работал В. Лиа [7].

Перспективы интеграции по такому типу:

Полноценное реляционное объединение баз данных массовых социологических опросов позволит:

1. Устанавливать связи между переменными, регистрируемыми в различных массивов данных, то есть получать новой научно значимую информацию без материальных и временных затрат на проведение новых исследований.

2. Проверять достоверность массивов данных на основании сопоставления с другими массивами, что позволит дополнить процедуры методического аудита.

3. Использовать средства нейросетей для повышения предсказательного потенциала социологических исследований, в том числе для получения достоверных прогнозов с учетом проводимых ранее исследований – каждое новое исследование можно будет с высокой достоверностью встроить в ряд проведенных ранее.

4. Проводить анализ текущей социальной структуры и отдельных ее сегментов, уточнить существенные основания для стратификации общества.

5. Получаемую реляционно интегрированную базу данных можно расширять, добавляя в нее произвольное количество новых массивов, так что она получит свойство характерное для «больших данных» - «масштабируемость».

6. Несмотря на то, что базы данных массовых опросов являются продуктом «нисходящей стратегии» [4], в отношении реляционно интегрированных баз станет доступным применение «восходящей стратегии». Таким образом, можно будет обосновано применять индукцию для получения нового теоретического знания из имеющихся эмпирических данных, а не ограничиваться проверкой выработанных социологической теорией гипотез.

Ограничения интеграции по такому типу

В предлагаемом способе интеграции баз данных, расширение происходит за счет увеличения количества переменных. Хотя формально это никак не должно ухудшить качество интеграции, напротив, рост количества присоединяемых массивов увеличит достоверность выявляемых закономерностей, необходимо принимать «эндогенную ошибку», которая увеличивает рост переменных, характерную для больших данных [9].

Учитывая, что предлагаемый способ интеграции, так или иначе, предполагает сжатие данные, и, следовательно, их частичную потерю, подобные процедуры должны применяться в рамках процедур анализа разнородных массивов данных, но не для их хранения. Выбор оснований для объединения данных, определение набора массивов для интеграции должны осуществляться для решения конкретных поставленных исследователем задач. Пример достаточно успешной интеграции баз данных схожего рода для решения проблем ошибок в массовых опросах продемонстрирован Д.М. Рогозиным и Д.И. Сапонов Д.И. [11], хотя ими осуществлялась интеграция на основании сопоставления перекрестных распределений ответов респондентов на одинаковые вопросы в различных базах данных.

Полноценная реализация реляционной интеграции баз данных массовых опросов позволит приблизиться социологии общественного к «четвертой парадигме» научного знания, о которой говорили Т. Хей, С. Тэнслей и К. Толле [8].

Библиография
1.
Габдрахманов И.Н., Кучуганов В.Н., Медведев Д.В., Мокроусов М.Н., Соболева Н.В. Технология генерализации онтологии базы данных с помощью онтологического толкового словаря [Электронный ресурс] // Режим доступа: https://cyberleninka.ru/article/n/tehnologiya-generatsii-ontologii-bazy-dannyh-s-pomoschyu-ontologicheskogo-tolkovogo-slovarya (дата обращения: 19.11.2017)
2.
Толстова Ю.Н., Воронина Н.Д. О необходимости расширения понятия социологического измерения// Социологические исследования. 2012. №7
3.
Татарова Г.Г.. От инвентаризации к интеграции методологического знания // Социологические методы в современной исследовательской практике: Сборник статей памяти А. Крыштановского / Отв. ред. и вступит. ст. О. А. Оберемко; НИУ ВШЭ, РОС, ИС РАН. М.: НИУ ВШЭ, 2011
4.
Татарова, Г. Г. Методология анализа данных в социологии: (введение). М. Notabene, 1999
5.
Ильясов Ф. Шкалы и специфика социологического измерения// Мониторинг общественного мнения. 2014. №1
6.
Stevens, S. S.: Mathematics, Measurement, and Psychophysics. Handbook of Experimental Psychology, Wiley, New York, 1951
7.
Lea, W.A. Formalization of Measurement Scale Forms. Washington, D.C. National Aeronautics and Space Administration, 1969
8.
Hey T., Tansley S., Tolle K. Jim Grey on eScience: A transformed scientific method. In: Hey T, Tansley S and Tolle K (eds) The Fourth Paradigm: Data-Intensive Scientific Discovery. Redmond: MicrosoftResearch, 2009 pp. xvii–xxxi
9.
Fan, J., Liao, Y. Endogeneity in ultrahigh dimension // Annals of Statistics. 2014. Vol. 42. No. 3. P. 872-917
10.
Одинцов А. Проблемы объединения разнородных баз данных в социологии// Известия ВолГТУ. – 2015. №9, С. 72-77
11.
Рогозин Д.М., Сапонов Д.И. Корпус ошибок автоматизированного телефонного опроса// Журнал политической философии и социологии политики «Полития. Анализ. Хроник. Проноз». 2014, №4, с. 145-161
References (transliterated)
1.
Gabdrakhmanov I.N., Kuchuganov V.N., Medvedev D.V., Mokrousov M.N., Soboleva N.V. Tekhnologiya generalizatsii ontologii bazy dannykh s pomoshch'yu ontologicheskogo tolkovogo slovarya [Elektronnyi resurs] // Rezhim dostupa: https://cyberleninka.ru/article/n/tehnologiya-generatsii-ontologii-bazy-dannyh-s-pomoschyu-ontologicheskogo-tolkovogo-slovarya (data obrashcheniya: 19.11.2017)
2.
Tolstova Yu.N., Voronina N.D. O neobkhodimosti rasshireniya ponyatiya sotsiologicheskogo izmereniya// Sotsiologicheskie issledovaniya. 2012. №7
3.
Tatarova G.G.. Ot inventarizatsii k integratsii metodologicheskogo znaniya // Sotsiologicheskie metody v sovremennoi issledovatel'skoi praktike: Sbornik statei pamyati A. Kryshtanovskogo / Otv. red. i vstupit. st. O. A. Oberemko; NIU VShE, ROS, IS RAN. M.: NIU VShE, 2011
4.
Tatarova, G. G. Metodologiya analiza dannykh v sotsiologii: (vvedenie). M. Notabene, 1999
5.
Il'yasov F. Shkaly i spetsifika sotsiologicheskogo izmereniya// Monitoring obshchestvennogo mneniya. 2014. №1
6.
Stevens, S. S.: Mathematics, Measurement, and Psychophysics. Handbook of Experimental Psychology, Wiley, New York, 1951
7.
Lea, W.A. Formalization of Measurement Scale Forms. Washington, D.C. National Aeronautics and Space Administration, 1969
8.
Hey T., Tansley S., Tolle K. Jim Grey on eScience: A transformed scientific method. In: Hey T, Tansley S and Tolle K (eds) The Fourth Paradigm: Data-Intensive Scientific Discovery. Redmond: MicrosoftResearch, 2009 pp. xvii–xxxi
9.
Fan, J., Liao, Y. Endogeneity in ultrahigh dimension // Annals of Statistics. 2014. Vol. 42. No. 3. P. 872-917
10.
Odintsov A. Problemy ob''edineniya raznorodnykh baz dannykh v sotsiologii// Izvestiya VolGTU. – 2015. №9, S. 72-77
11.
Rogozin D.M., Saponov D.I. Korpus oshibok avtomatizirovannogo telefonnogo oprosa// Zhurnal politicheskoi filosofii i sotsiologii politiki «Politiya. Analiz. Khronik. Pronoz». 2014, №4, s. 145-161