Отчет о семинаре "Социальное развитие и новые формы исследования общественного мнения в современной России", НИУ ВШЭ, 18-20 сентября 2014 г.
18-20 сентября в Москве прошел семинар "Социальное развитие и новые формы исследования общественного мнения в современной России", организованный фондом "Экосоцис" при поддержке Фонда Белля, Фонда Александра фон Гумбольдта, Центра восточноевропейских исследований университета Бремена. Конференция собрала исследователей и активистов, работающих в сфере массовых социальных движений и имеющих опыт создания и работы с базами данных. Целью семинара стал обмен опытом участниками, а также поиск программные решений проблем, возникающих при сборе, обработке и передаче данных.
Помимо представления собственно баз данных в работе семинара приняли участие Роберто Францози (Roberto Franzosi) из университета Эмори, Атланта, Феликс Херманн из университета Бремена и Калев Леетару, создатель проекта GDELT (www.gdeltproject.org). Российская Ассоциация Политической Науки была представлена Исследовательским комитетом по институциональных исследованиям (С.В.Патрушева, А.В.Семенов, О.Ю.Лобанова).
Роберто Францози - один из ведущих мировых специалистов по ивент-анализу, сотрудничавший с Чарльзом Тилли и другими исследователями массовой политики, - в своих двух докладах рассказал об особенностях сбора "событийных баз данных" и программных решениях, позволяющих облегчить кодировку записей. Он сравнил процесс ивент-анализа с практикой исповедания в католической церкви, которая предполагает ответы на вопросы: кто, что, где, когда и почему сделал. Разработанный Р.Францози количественный анализ нарратива (quantitative narrative analysis, QNA) ориентируется на разработку процедур автоматизации вычленения в повествования субъекта, его действия и ключевых атрибутов. Задача QNA - выявить повторяющиеся модели социальных ситуаций, которые служат составными частями теории (каузальной модели взаимодействий). На примере проекта университета Эмори по изучению практик линчевания на американском юге профессор Францози показал возможности программного пакета по кодированию событий (Program for computer-assistant coding of events, PC-ACE). Пакет позволяет хранить базу данных событий в виде "семантических троек" (semantic triplets), которые служат базовыми единицами анализа (кто и что сделал по отношению к кому), а затем объединять их в макрособытия. Так, его исследования демонстрируют вектор насилия от разгневанной толпы (the mob) по отношению к чернокожему, который, как правило, связан с предполагаемого связью чернокожего с белой женщиной. Интеграция с пакетами сетевого и геопространственного анализа GIS) позволяет визуализировать полученные связи в виде графов или GIS-карт.
Проблеме визуализации больших объемов данных было посвящено и выступление Калева Леетару, основоположника проекта GDELT. Разразаработанные К.Леетару алгоритмы позволяют автоматически кодировать сообщения информационных агентств о том или ином типе события (например, протестам), охватывая более 100 наиболее распространенных языков. Использование инструментов Google позволяет практически в режиме реального времени отслеживать динамику и пространственное распространение событийного ряда. Выглядит GDELT как инструмент аналитики будущего, хотя вопросы надежности данных и масштаба ошибок в кодировке остались за скобками.
Феликс Херманн из Центра восточноевропейских исследований университета Бремена рассказал о возможностях и ограничениях "виртуальных исследовательских сред" (virtual research environments), которые позволяют не только автоматически создавать и поддерживать базы данных или импортировать их в разные среды, но и использовать онлайн-платформы для сотрудничества, краудсорсинга и визуализации данных. Он также указал, что создание качественной виртуальной исследовательской среды требует не только ресурсов, но и налаженной коммуникации между исследователями, программистами и пользователями среды.
При обсуждении баз данных участников семинара возник целый ряд вопросов, вызвавших живое обсуждение. Так, дискуссию вызвали критерии отбора источников для ивент-анализа (сообщения в СМИ, блогах, уведомления в органы власти, наблюдение) и возникающие вместе с этим проблемы смещения выборки (selection bias). Новостных агентства, несмотря на надежность данных, могут быть недостаточно чувствительны в определенным типам событий, более того, при изучении больших стран с высокой степенью регионального разнообразия, фиксация событий сильно зависит от развитости корреспондентской сети, что влияет на репрезентативность данных.
Другой проблемой оказались правовые и этические осторожны процесса сбора данных, особенно если речь идет о гражданском и политическом активизме. Что можно и что нельзя собирать с помощью социальных сетей, каким образом обеспечивать безопасность хранения и доступа к данным, как лучше организовать исследование, чтобы, с одной стороны, обеспечить необходимый уровень доверия респондентов (если речь идет о качественных методах), а с другой - анонимность и другие профессиональные требования, - только небольшая часть вопросов, которые были подняты по данной проблеме.
Наконец, принципиальной проблемой для развития исследований и кооперации между исследовательскими группами стал вопрос обменам данными. Кроме ключевого вопроса - чем в принципе можно обмениваться - обсуждалась также проблема раскрытия методологии исследования и методики сбора данных (чтобы были понятны возможности и ограничения), а также техники, позволяющие решить данные проблемы (например, практика подробных дисклеймеров перед проведением опроса или интервью). В итоге договорились о создании библиотеки с метаописаниями имеющихся баз данных и контактами исследователей, что может по крайней мере облегчить обмен идеями и поиск экспертов. Один из вариантов - хранить данный каталог на сайте одного из организаторов семинара, научного сотрудника Форума Эйнштейна в Потсдаме Михаила Габовича (www.protestrussia.net). Пока же описания баз данных, представленных на семинаре, можно будет найти на сайте Центра восточноевропейских исследований университета Бремена.
В целом семинар задал очень важное направление дальнейшей работы: без качественной эмпирики, профессионально собранной и удобно хранимой, развитие социальных наук невозможно представить, так что важно продолжить обсуждение этих проблем и их решений.