ПОТЕНЦИАЛ BIG DATA: ВОЗМОЖНОСТИ СОЦИОЛОГИЧЕСКОГО АНАЛИЗА
- Авторы: Никитская Е.Д.1
-
Учреждения:
- Самарский национальный исследовательский университет имени С.П. Королева
- Выпуск: № 2(21) (2022)
- Страницы: 241-250
- Раздел: Социология
- Дата публикации: 09.08.2023
- URL: https://vmuis.ru/smus/article/view/10518
- ID: 10518
Цитировать
Полный текст
Аннотация
В статье представлены результаты изучения взаимосвязи между поисковыми запросами (на базе Google Trends) и социологическими индексами потребительских настроений (Левада-Центр).
Для построения модели используются данные за последние 10 лет (с 2012 по 2022 гг.). Последовательно обобщаются результаты поисковых запросов соответствующих тематик, формируется пространство факторов и строится модель множественной регрессии. В регрессионном уравнении ИПН выступает зависимой переменной, а факторы, обобщающие поисковые запросы – независимыми.
Обсуждаются результаты моделирования, сильные и слабые стороны использования Big Data для решения социологических задач.
Ключевые слова
Полный текст
Феномен «больших данных» появился в конце 1990-х — начале 2000-х годов и был определен как модель 3V: объем (volume), скорость (velocity) и изменчивость (variety). Эта модель изменялась, используя новые возможности цифровой реальности, и переросла в модель 4V: такой параметр, как значение (value), процесс извлечения ценной информации из набора данных, предназначенный для аналитики. Сейчас большие данные определяют как модель 5V, в которую добавлен параметр правдивости (veracity), что предполагает не только управление данными, но и соблюдение права на неприкосновенность частной жизни [1].
Рождение больших данных привело к фундаментальным переменам в деталях анализа и поставило важные вопросы для социальных наук. Эти изменения связаны со сменой соотношения между методами сбора и анализа данных. Во-первых, необходимы методы, ориентированные на большие массивы, а не на выборочные, для оценки надежности связи, которых в настоящее время не хватает в широкой практике. Во-вторых, для подготовки данных к анализу необходимы новые кадры, которые смогут применить навыки программирования. Система предполагает автоматический режим работы, чтобы помочь специалистам найти и устранить ошибки. В-третьих, существует проблема анонимности данных, которая позволит однозначно идентифицировать каждое наблюдение и в то же время сделает невозможным доступ к персональной информации [2].
Цифровые следы, оставляемые людьми, привели к экспоненциальному росту числа источников данных (помимо традиционных опросов и официальных отчетов), доступных для социального и экономического анализа. Причин для создания новых данных бесконечное множество, однако, способы их получения имеют важные этические и юридические последствия. Например, персональные данные, связанные с совершенными покупками, нельзя использовать для тех же целей, что и данные из профиля человека, представленного в Твиттере. Использование данных ограничено тем, как они создаются.
Исследователи говорят о негативных чертах с этической точки зрения. И. Апричард указывает на вульгарность и «нарушающий» (violating) характер Big Data [3]. А Д. Лаптон добавляет такие характеристики, как порочность, провокационность, включенность в частную жизнь и так далее [4].
И все же, Big Data позиционируются как образец получения, хранения и обработки информации об обществе, определив первенство перед опросами общественного мнения. Появление больших данных в социальных науках стало тем рубежом, за которым все традиционные методики получения и обработки информации об общественном мнении стали именоваться как small data. Различия между small data и Big Data на примере исследований, административной статистики и именно «больших данных» проанализировали Р. Китчин и Г. МакАрдл [5].
Анализируя ряд исследований, мы пришли к широкому определению – большие данные понимаются как объем данных, наиболее важными параметрами которых являются скорость и точность. Получение информации и знаний требует использования специальных аналитических методов и методов. В основу такого вывода легло определение А. де Мауро [6], составленное на основе анализа аннотаций научных работ, скорректированное с учетом правок Р. Китчина [5].
Скорость считается ключевым атрибутом больших данных. Большие данные создаются непрерывно. К примеру, данные могут создаваться в то время, когда пользователь просматривает вебсайты.
Исчерпываемость заключается в том, что большие данные стремятся охватить всю совокупность (n = всё) внутри системы, а не выборку. Например, Twitter захватывает все твиты, сделанные всеми аккаунтами, а не образец твита.
Для извлечения информации используется ряд методов обработки и анализа. Этими методами могут быть традиционные методы (релевантность, контент-анализ) или инновационные методы (обработка естественного языка, нейронные сети и т. д.).
Социальных науки далеко не сразу восприняли новые возможности использования Big Data, первые научные статьи появляются только в 2009 году. В то время эра больших данных уже была провозглашена массовыми изданиями, количество статей в популярных журналах значительно превышает количество статей в научных журналах по сей день. Статья «Вычислительная социальная наука», появившаяся в «Science» в 2009 году, может рассматриваться как манифест «новой науки» [7]. Авторы Дэвид Лазар, Алекс Пентленд, Лада Адамик и другие не раз выступали в качестве докладчиков на различных конференциях, они возглавляют центры и институты, результаты их исследований появляются в престижных журналах «Science» и «Nature». На сегодняшний день многие российские исследователи занимаются разработкой проблемы больших данных. В своей статье В.В. Волков «Проблемы и перспективы исследований на основе Big Data (на примере социологии права)» обобщает возможности аналитических платформ для сбора, обработки и хранения больших данных, описывает параметры, приводит примеры, характеризующие сложности и особенности работы с ними [2]; Н.В. Корытникова в своей статье «Online Big Data как источник аналитической информации в онлайн-исследованиях» описывает возможности аналитических платформ для сбора, обработки и хранения Big Data, представляет систему показателей, используемых для социологического анализа [8]; К. Губа в статье «Большие данные в социологии: новые данные, новая социология?» отвечает на вопрос о том, какие изменения привнесли новые данные в социологию [9].
Коммерческий опыт применения Big Data и случаи их применения к решению политических вопросов заставили ученых искать точки соприкосновения с ними классических методик изучения общества [10]. На данный момент успешные практики подобного взаимодействия прослеживаются по трем ключевым направлениям:
- применение Big Data для исследования классических областей интересов социальных наук;
- дополнение результатов использования Big Data традиционными социологическими методиками (small data);
- применение механизмов Big Data к собранным традиционными социологическими методиками данным.
Идея соединения получаемых социологией данных в более крупные выборки довольно очевидна. Хорошим примером того, насколько масштабы влияют на глубину анализа получаемых данных, служат большие кросс-культурные проекты исследования ценностей World Values Survey и European Values Survey. Следует помнить, что они соединены единой методикой и методологией исследования, в том числе интерпретацией и операционализацией ключевых понятий (насколько это возможно в рамках перевода вопросов анкеты) [11].
Соединение small data в массивы больших размеров, хотя бы частично отвечающие критериям Big Data, обусловливается стремлением повторно вовлечь первоначально собранные данные в научный оборот, а также приобрести новые, не определяемые в каждом отдельном массиве корреляции.
Сегодня градостроители и социологи все чаще используют большие данные для анализа повседневной практики граждан, применяя особенности городской среды и городской мобильности. Например, большие данные могут активно участвовать в ритманализе городского пространства. Ритманализ как инструмент исследования был впервые предложен в работе Анри Лефевра «Ритманализ» 1992 года, в которой городская среда рассматривается как единство ритма, пространства и времени [12]. С одной стороны, способ работы городских учреждений в некотором роде регулирует повседневную жизнь граждан, устанавливает определенные нормы, восприятие и понимание «социального времени», а с другой стороны, приспосабливается к ритму жизни граждан. Они синхронизируются с окружающим ритмом или создают свой собственный ритм (в том числе физический). Например, ритм жизни мировых столиц можно анализировать путем изучения, отображения и визуализации сигналов определения местоположения, которые регулярно выполняются социальными сетями с использованием возможностей геолокации Foursquare [13]. Использование данных Foursquare позволяет говорить о различиях в стилях и образе жизни разных городов, а также о неоднородности самого городского пространства, об увеличении и «исчезновении» различных частей интенсивности процессов и может стать отправной точкой городских исследований на стыке различных наук.
Однако большие данные становятся источниками новых рисков, в том числе возникают следующие проблемы.
Во-первых, существуют проблемы с конфиденциальностью и защитой частной информации, которые ограничивают понимание заинтересованными лицами данных, которую они собирают и изучают — это возможно, поскольку правительство имеет право собирать информацию без согласия пользователя, не подписывая частное соглашение.
Во-вторых, проблемы возникают на разных этапах работы с большими данными. Например, на этапах сбора и анализа данных из за незнания технологических принципов работы с большими данными, выбора неподходящих методов или неграмотного их использования результаты применения больших данных могут оказаться ошибочными. Также сложности могут возникнуть на этапе интерпретации данных из-за чрезмерного доверия людей к технологиям больших данных и, как следствие, привести к принятию неверных управленческих решений.
В-третьих, существуют проблемы, требующие больших инвестиций в технологический сектор, и есть примеры, когда эти инвестиции не дают ожидаемых результатов.
Преимущества и способы выхода на новый уровень благодаря способам анализа новых данных и методов, по мнению Гэри Кинга, когда они доступны социальным наукам, существует три варианта: инновационные статистические методы, новая информатика и оригинальные теории отдельных областей знания [14]. Это позволит преодолеть пробелы прежних данных – они создают искусственные условия, ретроспективный характер и статичность информации.
Онлайн-данные предоставляют информацию о поведении людей в реальном времени, фиксируя автоматически, кто, где и с кем сейчас взаимодействует; при этом минимизируется влияние исследователя при самом производстве данных, ведь они существуют независимо от того, будет ли он их анализировать или нет [15].
Итак, как мы могли убедиться, социология постепенно осмысляет возможности Big Data как исследовательского инструмента.
Со своей стороны, я хочу представить результаты собственного опыта использования Big Data для решения социологических задач.
На частном примере – соотнесения частоты поисковых запросов определенной тематики (Google Trends) и индекса потребительских настроений (Левада-Центр) – я хочу проверить, существует ли синхронная взаимосвязь между этими показателями и какова она.
Иными словами, с содержательной точки зрения, можем ли мы показать, что поисковые запросы отражают/связаны с потребительскими настроениями (измеренными в классической социологической перспективе).
Большие данные здесь состоят из частоты поиска ключевых слов в Google, которые доступны на базе сервиса Google Trends. Процедура подбора ключевых слов включает следующие этапы:
- построение концептуальной схемы исследуемого явления на основании процедурной части мониторинга потребительских настроений Левада-цента;
- выделение ключевых исследовательских аспектов;
- выделение поисковых запросов внутри аспектов;
- отбор запросов, имеющих динамику за 10 лет.
На первом этапе был произведен анализ методики построения индекса потребительских настроений (далее ИПН) Левада-центра (рис. 1.1). Данный индекс рассчитывается на основе ответов респондентов на пять вопросов. По каждому вопросу строится индивидуальный индекс как разность долей положительных и отрицательных ответов, и прибавляется 100, чтобы избежать появления отрицательных значений индекса. Совокупный индекс ИПН рассчитывается как арифметическая средняя из индивидуальных индексов. ИПН изменяется в интервале от 0 до 200, причем значения индекса менее 100 означают преобладание отрицательных оценок в обществе.
Рисунок 1.1 – Динамика индекса потребительских настроений за 2012-2022 гг.
Вторым этапом на основании вопросов, задаваемых респондентам для построения ИПН, были выделены четыре аспекта потребительских настроений: материальные условия (вопросы 1, 2), экономическое положение страны (вопросы 3, 4), покупки (вопрос 5) и готовность совершить покупку (вопрос 5). (рис. 1.1)
Набор объясняющих индикаторов (ключевых слов) подбирался в поисковой среде Google Trends для анализируемых аспектов исходя из анализа различных международных опросников: OECD (посвященный нахождению индекса лучшей жизни) и American Time Use Survey (посвященный исследованию использования времени населением), а так же во внимание принимались ключевые слова, которые потенциально связаны с потребительскими настроениями (рис. 1.2).
Рисунок 1.2 – Концептуальная схема модели потребительских настроений
В то же время используемые ключевые слова из опросников международных баз данных могут быть далеки от повседневной жизни людей, если не характеризуют реальные условия, которые отражаются непосредственно в поисковых запросах, идущих от каждого человека. В этой связи были добавлены такие ключевые слова, как «в чем хранить деньги», «повышение квалификации», «коммуналка», «абонемент в фитнес», «доставка пятерочка», «где отдохнуть на выходных», «наличие рядом» и пр. Данный этап отбора слов имеет ряд недостатков, т.к. сопряжен с высокой долей субъективности.
В результате среди множества поисковых запросов, характеризующих тот или иной аспект потребительских настроений, отбирались только те, которые имеют динамику (видимые изменения) за последние 10 лет. Исходная база из поисковых запросов содержала 411 слов. Используемый набор данных (поисковых запросов) состоит из ежемесячных данных, охватывающих промежуток времени 2012–2022 гг. (10 лет).
Данные по поисковому запросу из Google Trends не являются точной характеристикой только данного слова, скорее, это доля от общего числа поисков за определенный период, включающих это ключевое слово, нормированная так, что наибольший объем за период равен 100. В этой связи значения ряда в любой взятый день нельзя сравнивать между поисковыми запросами, т. к. они нормированы к максимальному значению, которое прикреплено к каждому слову. Для решения данной проблемы применяется стандартизованная Z-оценка:
где — среднее значение случайной величины , — ее стандартное отклонение.
В данных Google Trends могут быть резкие скачки в популярности поискового запроса. Это создает сложность для оценки, т. к. существует риск потери релевантности модели при построении. Для того чтобы устранить эту проблему, применяется скользящее среднее. Порядок скользящего среднего определяется числом учитываемых в модели предыдущих значений случайных отклонений. В настоящем исследовании данные были сглажены путем трехпериодного скользящего среднего, где период — месяц.
Кроме того, встречаются поисковые запросы, которые в течение продолжительного времени имеют нулевой объем поиска. Такие периоды с большим количеством нулей имеют проблемы, схожие с резкими скачками в популярности слова. В результате слова с большим количеством нулей за период были исключены из нашего рассмотрения. После применения скользящего среднего и удаления запросов с нулевым объемом в дальнейшем в анализ были включены 290 запросов.
Построение категорий потребительских настроений осуществляется на основе группировки поисковых запросов, которая должна соответствовать логической схеме и иметь схожую смысловую нагрузку. Например, невозможно объединить такие слова, как «экономический кризис» и «концерты», в одну категорию, поэтому для упрощения слова были заранее поделены на общие категории, такие как «Рынок труда и поиск работы», «Культура и отдых» и т.д.
Статистическое обоснование полученных категорий поисковых запросов осуществляется посредством проведения факторного анализа, главной целью которого является объединение поисковых запросов в соответствующие категории, характеризующие тот или иной аспект потребительских настроений на основе факторных нагрузок.
Факторный анализ был использован как метод обнаружения взаимосвязей между значениями переменных посредством исследования структуры ковариационных и корреляционных матриц. При извлечении факторов применяется метод главных компонент, вращение факторов осуществляется с помощью метода ВАРИМАКС.
Использование факторного анализа необходимо для создания составных категорий поисковых слов, что существенно сократит число потенциально объясняющих переменных.
Для факторного анализа были взяты слова, которые были нормализованы с помощью Z‑оценки и в которых были устранены шоковые колебания. При проведении факторного анализа поисковые запросы исключались, если коэффициент факторной нагрузки отрицательный или менее 0,3.
В процессе построения математической модели потребительских настроений, мы получили 4 модели факторного пространства с целью минимизации поисковых запросов с нулевой суммой. При проверке релевантности первого конструкта мы обнаружили несоответствие отдельных слов заданным параметрам, в результате чего из анализа было исключено 18 поисковых запросов. В случае второго конструкта из анализа был исключен 1 поисковый запрос. На четвертом этапе факторы не содержали незначимых запросов, поэтому мы приняли данную модель за рабочую, считая её наиболее релевантной. После применения такого отбора было использовано 200 слов. В дальнейшем анализе участвовала факторная модель с наилучшим решением в содержательном аспекте, которая описывает 9 факторов, объясняемых 62,8 % дисперсии. Таким образом, мы можем сделать вывод о удовлетворительном качестве построенной модели.
Многие поисковые запросы не учитываются, поскольку они не вписываются в какую‑либо категорию слов. Так, например, «снять деньги», «аренда квартиры», «куда поехать» не имеет связи ни с одним фактором. Важно отметить, что если два слова сгруппированы в одну категорию, то это не ведет к тому, что они означают одно и то же, а только то, что им свойственна общая тенденция запросов на данном промежутке времени.
Факторные нагрузки для слов, прошедших проверку, были сгруппированы в категории, которые отображают девять аспектов жизни (табл. 1.1). Компоненты слов позволяют наглядно оценить составляющие каждой категории потребительских настроений. Так, например, «Фактор 5» отличен от «Фактор 2», хотя они имеют схожие характеристики, но группы поисковых запросов свидетельствуют, что «Фактор 5» включает все то, что не является товарами первой необходимости, но которые имеют прямое отношение к жизни людей и отражает состояние экономики. «Фактор 2» выражен тем, что требуют более крупных финансовых вложений, доступны ограниченному кругу людей и характеризует определённое положение в обществе.
Таблица 1.1 – Распределение поисковых запросов потребительских настроений внутри факторов
Факторы | Поисковые запросы |
1 | акции, квартира, суши, массаж, xiaomi, роллы, пицца, бургеры, машина, хлеб, телефон, сыр, эко, заказать, вакансии, скидки, купить таблетки и т.д. |
2 | poco, dyson, инвестиции, промокоды, skillbox, умный дом, haier, бриллианты, индексация заработной платы, авиасейлс, oneplus, rolls-royce, выплаты, airpods, haval, bork, доставка ашан и т.д. |
3 | огурцы, холодильник, помидоры, кабачки, мотоцикл, гидроцикл, квадроцикл, велосипед, турбаза, билеты на самолет, лодка, билеты на поезд, ремонт, детский лагерь, чайный гриб, сахар. bmw и т.д. |
4 | новый год, корпоратив, lg, купить samsung, карнавал, шуба, купить самсунг, телевизор, дом, плойка, где купить, braun, сравнить цены, горнолыжка, рецепты салатов, купить онлайн, купить iphone и т.д. |
5 | отзывы, kia, renault, jeep, ноут, меню онлайн, подоходный налог, свифт, candy |
6 | репетитор, льготы, lada, отпуск, конференции, купить диплом, бытовая техника, скидки на заказ |
7 | iphone, яблоки, супы, грибы, скидки студентам, свой бизнес, дача, экскурсии, курс валюты |
8 | спортивная одежда, взять в кредит, lamborghini, mercedes-benz, porsche, липосакция, земля, cadillac, мебель, активный отдых, как купить золото |
9 | афиша, санкции |
Одной из ключевых особенностей, вызывающей определенные трудности на этапе интерпретации факторного анализа является выделение и интерпретация главных факторов. При отборе компонент мы столкнулись с определёнными трудностями, так как не существует однозначного критерия выделения факторов, и потому здесь неизбежен субъективизм интерпретаций результатов. К сожалению, среди множества факторных моделей, даже самая лучшая с точки зрения содержания модель требует доработки. Мы можем улучшить качество факторов с помощью:
- изучения критериев формирования повседневных запросов;
- изменения метода извлечения факторов (например, использовать метод факторизации главной оси).
На заключительном этапе исследования мы построили модель множественной регрессии для оценки зависимости между изучаемыми явлениями: конструируемыми категориями и ИПН.
Регрессионный анализ – статистический метод, используемый для исследования отношений между двумя величинами.
Построение множественной модели регрессии позволяет вывести нам некое уравнение взаимосвязи полученных факторов и опросного конструкта.
В качестве зависимой переменной выступает индекс потребительских настроений, а независимых переменных — отобранные в виде факторов с помощью математического моделирования категории поисковых запросов Google. Результаты модели проверялись с помощью множественной регрессии. (табл. 1.2)
Таблица 1.2 – Коэффициенты регрессии между исследуемыми явлениями модели потребительских настроений и ИПН Левада-центра
Факторы | ИПН | Значимость |
Фактор 1 | -0,876 | 0,043 |
Фактор 2 | -0,214 | 0,661 |
Фактор 3 | -0,196 | 0,626 |
Фактор 4 | -4,857 | 0,000 |
Фактор 5 | -0,150 | 0,767 |
Фактор 6 | 2,922 | 0,000 |
Фактор 7 | -0,613 | 0,148 |
Фактор 8 | -0,192 | 0,648 |
Фактор 9 | -0,953 | 0,023 |
В нашем случае R-квадрат равен 0,667. Это означает, что 66,7% вариации зависимой переменной объясняется вариацией независимой переменной. Тот факт, что изменения ИПН на 66,7% определяется динамикой факторов, говорит о качестве тестируемой модели.
Другой важный показатель, который также следует учитывать при обобщении полученных результатов, называется F-статистика. С его помощью мы можем указать вероятность, с которой независимая переменная влияет на зависимую. Для оценки значимости коэффициента детерминации и используется F-статистика, которая вычисляется как отношение объясненной суммы квадратов (в расчете на одну переменную) к необъясненной сумме квадратов (в расчете на одну степень свободы).
Уровень значимости F критерия говорит о надежности полученных результатов. В нашем случае он имеет значение меньше 0,05, откуда можно сделать вывод о устойчивости данной модели.
Сравнение конструируемой математической модели потребительских настроений и ИПН Левада-центра происходит на основании выявления синхронных изменений. Наличие таких изменений подтверждает присутствие взаимосвязи между исследуемыми явлениями.
В идеальном варианте наши факторы ложатся в значимую точную регрессионную модель, где они все комплексно и синхронно влияют на индекс потребительских настроений. На самом деле не все так очевидно, как мы предполагали. Давайте обратимся к результатам множественной регрессии.
Проанализировав зависимость между ИПН и построенными факторами, с помощью уравнения множественной линейной регрессии, можно сказать, что только часть факторов являются значимыми в рамках этой модели Факторы 1, 4, 6 и 9 имеют значение меньше 0,05 и, соответственно, при динамике ИПН их показатели тоже будут меняться (табл. 1.2).
Регрессия дает нам весьма противоречивые результаты, мы видим обратную зависимость. В идеальной модели поисковые запросы должны быть связаны с активностью, следовательно должна наблюдаться положительная динамика. Однако, в нашем случае мы наблюдаем противоположную картину. Данный феномен может быть связан с тем, что факторы не всегда ложатся по содержанию, а также не всегда обретают значимую взаимосвязь в рамках регрессионного моделирования с индексным построением в опросных методах.
Возможно, это специфика того, что это не прямые запросы, выраженные количественно (ИПН), кроме того, мы не можем сказать, что они проходили процедуру сглаживания. В то же время, поисковые запросы тоже имеют уязвимость: они индексированы относительно самих себя, это замкнутая система, они не сочетаются с друг другом, например, там, где у одного запроса 100 баллов представлено 1000 запросов, у другого 100 баллов – 10 000 запросов. Таким образом, мы может отметить, что при построении индексных конструктов поисковых запросов Google Trends, используются разные метрики. Проблема соотнесения поисковых запросов требует применения отдельных инструментов для выравнивания их количественных значений.
Для уточнения регрессионной модели проследим как ИПН коррелирует с каждым из факторов (табл. 1.3). Оценим тесноту связи между исследуемыми явлениями. Как мы видим, самая тесная связь между факторами индексом потребительских настроений и факторами 4 и 6. Кроме того, только в случае фактора 6 коэффициент корреляции принимает положительное значение (в остальных случаях наблюдается обратная связь). Можем сделать вывод, что изменения в структуре данного фактора благоприятно повлияют на динамику ИПН.
Таблица 1.3 – Коэффициент корреляции переменных фактор 1-9 и ИПН
Факторы | R Пирсона | Значимость |
Фактор 1 | -0,075 | 0,445 |
Фактор 2 | -0,003 | 0,974 |
Фактор 3 | -0,044 | 0,653 |
Фактор 4 | -0,746 | 0,000 |
Фактор 5 | -0,084 | 0,389 |
Фактор 6 | 0,207 | 0,033 |
Фактор 7 | -0,165 | 0,090 |
Фактор 8 | -0,014 | 0,883 |
Фактор 9 | -0,172 | 0,077 |
Чтобы модель давала нам полезную информацию, которую можно использовать при сравниваемых случаях, необходимо иметь представление о силе соответствующих связей корреляционного анализа, то есть понимать, какие из показателей влияют на результат сильнее, а какие слабее. В нашем случае влияние на ИПН оказывают только два фактора.
Таким образом, результаты математической модели удовлетворяют нас лишь частично. Построенная модель пока не может однозначно заменить «опросный» инструментарий. Big Data в социальных науках только начинает развиваться как альтернативный метод по сравнению с классическими. На сегодняшний день, благодаря широкому спектру методик по извлечению и анализу данных, мы можем совершенствовать модель на разных этапах её конструирования.
Большие данные располагают более детализированными статистическими оценками различных явлений и процессов в обществе, что является необходимым аргументом в развитии положений концепции потребительских настроений как одной из важнейших категорий социальной и экономической науки.
Индексы Google представляют собой интересный дополнительный инструмент. Найденные детерминанты индексов потребительских настроений Левада-центра — категории поисковых запросов Google могут быть использованы в определении ключевых направлений в экономической политике, а обеспечение существенно более высокого уровня не только материальных, но и социальных благ, что позволит улучшить качество жизни.
Об авторах
Екатерина Дмитриевна Никитская
Самарский национальный исследовательский университет имени С.П. Королева
Автор, ответственный за переписку.
Email: mymail-kat@mail.ru
Россия
Список литературы
- Bello-Orgaz, G. Social big data: recent achievements and new challenges / G. Bello-Orgaz, J.J. Jung, D. Camacho // Fusion. – 2016. – 28. – pp. 45-59.
- Volkov, V.V. Problems and prospects of research based on Big Data (on the example of sociology of law) / V.V. Volkov, D.A. Skugarevsky, K.D. Titaev // Sociological Research. – 2016. – 1. – pp. 48-58.
- Uprichard, E. Big data, little questions? / E. Uprichard / Discover Society. - 2013. – 1. – P. 1-6
- Lupton, D. The thirteen Ps of big data. This Sociological Life, 2015. [electronic resource]. URL: https://simplysociology.wordpress.com/2015/05/11/the-thirteen-ps-of-big-data / (accessed: 05/25/2022).
- Maltseva, A.V. Problems of representativeness when working with "big data" / A.V. Maltseva // Social practices and management: the problem field of sociology: materials of the Siberian Sociological Forum with international participation. – 2017. – pp. 141-145.
- De Mauro, A. What is big data? A consensual definition and a review of key research topics / A. De Mauro, M. Greco, M. Grimaldi // Conference: 4th International Conference on Integrated Information. – 2014.
- Lazer, D. Computational Social Science / D. Lazer, A. Pentland, L. Adamic, S. Aral, A-L. Barabasi, D. Brewer, N. Christakis, N. Contractor, J. Fowler, M. Gutmann, T. Jebara, G. King, M. Macy, D. Roy, M. Van Alstyne // Science. – 2009. – 5915. – P. 721-723.
- Korytnikova, N. V. Online Big Data as a source of analytical information in online research / N. V. Korytnikova // Sociological research. – 2015. – 8. – pp. 14-24.
- Guba, K. Big data in sociology: new data, new sociology? / K. Guba // Sociological Review. – 2018. – Vol. 17. No. 1. – pp. 213-236.
- Mann, R. Five minutes with Prabhakar Raghavan : Big data and social science at Google. Impact of Social Sciences, London School of Economics and Political Science [Electronic resource]. 2012. URL: http://eprints.lse.ac.uk/52128 / (accessed: 05/25/2022).
- Kitchin, R. The Data Revolution. Big Data, Open Data, Data Infrastructures & Their Consequenses. / R. Kitchin. - Los Angeles, London, Singapore, Washington DC: SAGE, 2014. – p. 240.
- Prokofieva, A.V. On some possibilities of using big data in urban sociology / A.V. Prokofieva, M.D. Romanova // Actual problems of human potential development in modern society. – 2017. – pp. 1-4.
- Mapping the pulse of NYC, Tokyo, Istanbul, & London [Electronic resource]. 2017 URL: https://vimeo.com/144409527 (Accessed: 05/25/2022)
- King, G. Restructuring the Social Sciences : Reflections from Harvard’s Institute for Quantitative Social Science / G. King // Political Science & Politics. – 2013. – 1. – P. 165-172.
- Golder, S. A., Macy M. W. Digital Footprints : Opportunities and Challenges for Online Social Research / S. A. Golder, M. W. Macy // Annual Review of Sociology. – 2014. – 40. – P. 129-152.