Учебник+

3.7. Перспективные направления развития и совершенствования источников демографической информации. Большие данные и искусственный интеллект

В целом действующая в России система учета демографических событий собирает обширную информацию и позволяет анализировать широкий спектр демографических вопросов. Совершенствование источников демографической информации происходит в соответствии с тенденциями развития общества и современных технологий, потребностями потребителей информации.

В значительной степени современная система сбора данных о демографических событиях использует выборочный метод — результаты выборочных обследований о различных демографических событиях, положении семей и домохозяйств, миграционной подвижности населения.

В последние годы увеличиваются масштабы использования при исследовании демографических проблем данных из различных административных источников — министерств, ведомств, служб. В зарубежных странах значительный объем (в некоторых странах более 50%) официальной информации национальные статистические службы формируют на основе административные данных. В России создан «Федеральный реестр инвалидов», который ведется в электронном виде Пенсионным фондом России. В 2018 году введена в действие Федеральная государственная информационная система «Единый государственный реестр записей актов гражданского состояния».

Анализ ситуации в мировой практике сбора данных свидетельствует о широкомасштабных изменениях национальных практик проведения переписей населения, обусловленных, в том числе и снижением активности населения во многих странах в ходе проведения переписей. Усиливается тенденция поиска новых методов проведения переписи, сочетания ее методологии с текущим учетом населения и выборочными обследованиями, административными данными. Шире используются регистры населения. В европейских странах создаются регистры зданий и жилых единиц с целью использования их при проведении выборочных обследований. Происходит геокодирование строений, геопривязка жилых зданий с использованием технологий GPS.

Отдельные страны мира уже сделали практические шаги в направлении реализации национальных программ, ориентированных на широкое использование регистров и выборочных обследований, сети Интернет и других технических средств (например, планшетных компьютеров), в переписях населения. В глобальном аспекте наблюдается достаточно выраженная тенденция к быстрому росту числа государств, применяющих Интернет в переписях населения (если в 2000 г. таких стран было 4, то в 2010 г. уже более 30 — см. таблицу 3.2).

Таблица 3.2
Число стран внедривших инновации в методах переписи в раунде 2010-х гг. (преимущественно среди стран-членов европейской экономической зоны)

    Традици-онная На основе регистров Комбини-рованная Всего
Использовали инновации ед. 28 8 9 45
в т. ч. в области сбора данных ед. 14 5 9 28
% 50 63 100 62
в т. ч.          
интернет ед. 9 0 7 16
% 64 0 78 57
портативные компьютеры ед. 2 0 4 6
% 14 0 44 21

Источник: составлено по ECE/CES/GE.41/2013/41

С развитием Интернета некоторые страны начали также применять методы регистрации, которые позволяют респондентам заполнять онлайновую версию переписного листа, эквивалентную его печатной форме.

Ряд стран (например, Франция) переходит к скользящей переписи. Скользящая перепись представляет собой еще один альтернативный подход к традиционной модели проведения переписи, при котором применяется метод непрерывного обзора накопленных данных по всей стране за определенный период времени вместо получения информации по состоянию на какой-либо конкретный день. Возрастает роль использования регистров для получения демографической информации.

Отдельные страны используют комбинированный метод, используя регистровые данные с данными сплошной регистрации по отдельным переменным при проведении переписей населения.

Ряд стран переходят на проведение переписей без сбора каких-либо данных на местах. Для целей проведения своих переписей населения и жилищного фонда эти страны используют регистры и полностью отказываются от переписных листов. Для проведения переписи населения некоторые из этих стран "переработали" информацию, полученную в результате обследования трудовых ресурсов, в сочетании с регистровой информацией (Бельгия, Исландия и Нидерланды). Наконец, некоторые страны в ходе недавних переписей использовали лишь регистры (Австрия, Дания, Норвегия, Словения, Финляндия и Швеция). Среди европейских стран выделяются три основные категории стран: страны, проводящие традиционные переписи, страны, проводящие комбинированные переписи, и страны, проводящие регистровые переписи.

В последние годы происходит дифференциация подходов к сбору демографических данных в странах мира, различное сочетание переписей населения, выборочных обследований и регистров населения.

Наблюдается тенденция более широкой публикации данных, формирование массивов данных в открытом доступе (например, база демографических данных ООН) использования современных технологий в сборе, обработке и представлении демографических данных, расширении круга выборочных обследований, использовании административных данных.

Административные и вторичные источники данных

Потенциальная сфера применения административных источников, которые могут использоваться для демографических целей, является значительной и расширяющейся. Следующий список не претендует быть исчерпывающим, но он ориентирован на показ сфер и типов потенциальных источников данных, что является решающим шагом, приближающим к рабочему определению административных источников:

  • Налоговые данные
    • Налог на личный доход
    • Налог на добавленную стоимость (VAT)
    • Налог на предпринимательство / прибыль
    • Налоги на собственность
    • Импортные / экспортные пошлины
  • Данные органов социального обеспечения
    • Отчисления
    • Выплаты
    • Пенсии
  • Данные систем здравоохранения / образования
  • Регистрационные системы личностей / бизнесов / собственности / транспортных средств
  • Удостоверения личности / паспорта / водительские удостоверения
  • Списки избирателей
  • Регистры фермерских хозяйств
  • Регистры местных органов самоуправления
  • Разрешения на строительство
  • Система лицензирования, например телевидения, товаров ограниченного производства и обращения
  • Публикуемые счета бизнесов
  • Данные внутреннего учета частных фирм и организаций
  • Частные фирмы и организации, обладающие более широкими данными о населении:
    • Кредитные агентства
    • Бизнес-аналитики
    • Компании по коммунальному обслуживанию
    • Списки абонентов телефонной сети
    • Компании розничной торговли с магазинными кредитными картами пр.

Получают распространение в научных и аналитических исследованиях административные и вторичные источники, содержащие информацию, которая изначально не собиралась для статистических целей.

Магазинные карты являются типичным примером нового типа источников данных частного сектора. В обмен на выгоды, такие как скидки и эксклюзивные предложения, пользователи магазинных карт предоставляют магазину множество данных всякий раз, когда они используют карту. Если у Вас есть магазинная карта, магазин знает следующие данные о Вас:

  • Имя, адрес, пол, возраст
  • Семейные обстоятельства (например, если Вы регулярно покупаете детские товары, игрушки, корм для животных, либо такие продукты, как пища в определенном количестве или определенного объема, то легко оценить потребление Вашего домохозяйства)
  • Индикаторы формы занятости и дохода (например, время совершения ваших покупок может показывать, работаете ли Вы или нет, а типы покупаемых товаров могут указывать на величину располагаемого дохода)
  • Другие показатели домохозяйства, такие как владение автомобилем (покупки моторного топлива или средств по уходу за автомобилем), религиозная принадлежность (покупка товаров, связанных с определенной религией, например, халяльное или кошерное мясо), и пр.
Некоторые страны прорабатывали вопрос об использовании данных лент кассовых аппаратов крупнейших ритейлеров в качестве источника данных о розничных продажах и ценах, а в Новой Зеландии сформировали экспериментальные ряды данных, используя данные трансакций по электронным картам.

Использование административных и вторичных источников данных в официальной статистике. Руководство по принципам и практике. Организация Объединенных Наций, Нью-Йорк и Женева, 2011

Новые источники информации о населении – большие данные – начинают использоваться как в переписи населения, так и при изучении миграции официальными статистическими офисами, в том числе и в России.

Помимо геоинформационных источников, данные поисковых систем, социальных и профессиональных сетей также могут быть использованы в демографических и социально-демографических исследованиях (например, для изучения нелегальных абортов, распространения эпидемий, отношения к вакцинации, объемов миграционного притока образованных кадров и студентов, процессов ассимиляции мигрантов и расовой сегрегации и пр.). Тексты в этом случае становятся данными. А использование искусственного интеллекта расширяет возможности демографического анализа таких данных.

Примеры основных направлений использования текстов как данных:

  • Частота запросов в поисковых системах помогает делать краткосрочные прогнозы рождаемости или уточнять распространение инфекционных болезней и локализацию других демографических событий.
  • Анализ тональности позволяет измерить «демографическую температуру» (эмоциональный фон) высказываний определенных социально-демографических групп в сети, публикаций СМИ на демографические темы.
  • Тематический анализ дает возможность выявить отношение пользователей сетей к демографическим феноменам, поведенческим практикам, например, позитивное или негативное отношение к бездетности, многодетности, абортам, мерам политики.
  • Анализ доводов по выявленным отношениям дает богатый материал о детерминантах позитивного или негативного отношения к демографическим феноменам, событиям, мерам политики. Например, позволяет узнать, какие чувства и почему испытывают люди будучи родителями, как планируют рождение детей.

«Что показывают большие данные про демографическое поведение и демографическую политику в России?»

Опыт кафедры народонаселения экономического факультета в применении больших данных и искусственного интеллекта к изучению демографического поведения: краткосрочные прогнозы рождаемости, демографическая температура социальных сетей, автоматизация мониторинга аргументов к демографическим комментариям пользователей социальных сетей и мониторинг публикаций СМИ о демографической политике

Наш опыт в применении больших данных и искусственного интеллекта к изучению демографического поведения заключается:

В построении краткосрочных прогнозов рождаемости по данным поисковых систем. Калабихина И.Е. и др. Краткосрочное прогнозирование демографических тенденций на основе данных Google trends // Прикладная информатика. 2020. Т. 15, № 6. С. 91–118. 

В измерении демографической температуры первого рода в сообществах в социальных сетях. Демографическая температура первого рода – эмоциональный фон комментариев в демографических группах. Например, в сообществах родителей или child free. Kalabikhina IE, Banin EP, Abduselimova IA, Klimenko GA, Kolotusha AV. The Measurement of Demographic Temperature Using the Sentiment Analysis of Data from the Social Network VKontakte. Mathematics. 2021; 9(9):987.

В измерении демографической температуры второго рода в сообществах в социальных сетях. Демографическая температура второго рода – эмоциональный фон комментариев на демографические темы. Например, комментарии о бездетности, многодетности, абортах, материнском капитале, родительских отпусках. Irina E. Kalabikhina, Natalia V. Loukachevitch, Eugene P. Banin, Kamila V. Alibaeva, Sofia M. Rebrey. “Automatic extraction of social network users’ attitudes on reproductive behavior issues”. Program Systems: Theory and Applications, 2021, 12:4(51), pp. 33–61. (In Russian).

В типологизации и автоматизации анализа доводов (аргументов) к демографическим комментариям пользователей социальных сетей. Например, выделение комментариев о личных событиях или общих/ не личных комментариев на демографические темы. Kalabikhina I, Zubova E, Loukachevitch N, Kolotusha A, Kazbekova Z, Banin E, Klimenko G (2023) Identifying Reproductive Behavior Arguments in Social Media Content Users’ Opinions through Natural Language Processing Techniques. Population and Economics 7(2): 40-59.  

В мониторинге публикаций СМИ о демографической политике. Например, определение эмоционального фона публикаций о материнском капитале и влияния частоты публикаций и эмоционального фона на рождаемость в регионах России. Demographic regional rankings by media activity on maternal (family) capital / И. Е. Калабихина, З. Г. Казбекова, Г. А. Клименко, А. В. Колотуша // Прикладная эконометрика. 2022. Vol. 67. P. 46–73. Магистерские диссертации Ламеевой А.Д., Воробьевой Е.К. (2022).

В процессе работы мы публикуем на основе открытого доступа базы данных: комментарии пользователей родительских групп и групп чайлдфри в социальной сети ВКонтакте; публикации электронных СМИ в 2006-2019 гг. о материнском капитале с оценкой тональности публикаций и пр.

Открытые базы данных: комментарии пользователей родительских групп и групп чайлдфри в социальной сети ВКонтакте; публикации электронных СМИ в 2006-2019 гг. о материнском капитале с оценкой тональности публикаций

Открытые базы данных кафедры народонаселения ЭФ МГУ по результатам структурирования больших данных с использованием искусственного интеллекта в демографии:

  1. База данных комментариев групп чайлдфри ВКонтакте Kalabikhina IE, Banin EP (2021) Database “Childfree (antinatalist) communities in the social network VKontakte”. Population and Economics 5(2): 92-96. https://doi.org/10.3897/popecon.5.e70786.
  2. База данных комментариев родительских групп ВКонтакте Kalabikhina IE, Banin EP (2020) Database “Pro-family (pronatalist) communities in the social network VKontakte”. Population and Economics 4(3): 98-130. https://doi.org/10.3897/popecon.4.e60915
  3. База данных оценки тональности материалов соцсети ВКонтакте – специализированный датасет с разметкой мнений пользователей о репродуктивном поведении и мерах демографической политики (https://DOI.ORG/10.5281/zenodo.5561126).
  4. База данных публикации электронных федеральных и региональных СМИ по теме материнского (семейного) капитала с оценкой тональности публикаций Kalabikhina IE, Klimenko HA, Banin EP, Vorobyeva E, Lameeva AD (2021) Database of digital media publications on maternal (family) capital in Russia in 2006–2019. Population and Economics 5(4): 21-29. https://doi.org/10.3897/popecon.5.e78723.