Перепись населения Бразилии, одной из крупнейших и самых густонаселенных стран мира, – огромное мероприятие. Из-за пандемии перепись откладывали 2 года, поэтому обеспечение бесперебойного процесса переписи получило как никогда важное значение. Для получения более качественных данных и статистики применили технологию process mining.
Проблема переписи населения в Бразилии
Во многих странах пандемия COVID-19 вызвала беспрецедентные изменения: высокий уровень смертности, серьезные экономические последствия, а также скачки в иммиграции и миграции из-за закрытия границ. Ограничения на передвижение во многих странах изменили способы работы и взаимодействия.
С населением более 212 миллионов человек Бразилия – седьмая по численности населения страна в мире и пятая по площади с необычайным географическим и социальным разнообразием. Как следствие, некоторые группы населения труднее охватить переписью. При этом данные переписи традиционно становятся основой для многих важных политических решений и социально-экономического развития страны. Поэтому точность имеет первостепенное значение.
Ускорение обработки данных
Для ускорения обработки данных решено было использовать нетрадиционные источники данных, новые методы и инновационные инструменты. В Бразилии в рамках подготовки к переписи изучали процесс непосредственный процесс сбора данных, чтобы определить, что можно сделать для получения более высоких результатов. В апреле 2022 года в стране приступили к анализу данных, полученных с помощью инструментов цифрового опроса (например, мобильные устройства и веб-опросы). Эти «параданные» – или журнальные данные о процессе сбора данных – являются побочным продуктом оцифрованных опросов, но редко изучаются.
Process mining в переписи населения
После первоначального ознакомления с имеющимися данными были определены два направления:
- во-первых, использовалась геолокация и отметка времени в наборе данных для выявления аномалий в ответах, чтобы выявить возможное мошенничество или визуализировать ответы на определенные вопросы на карте;
- во-вторых, были проанализированы ответы в вопросниках переписи населения, при помощи технологии process mining. Интеллектуальный анализ процессов – это набор инструментов, которые позволяют пользователю получить представление о протекании конкретного из них.
Проведем аналогию с визитом пациента в больницу. Человек приходит в медицинское учреждение и проходит через различные «чек-пойнты»: регистратура → врач → МРТ, → врач → приемная. Учет времени, которое пациенты проводят на каждой «точке», способен помочь в выявлении «узких мест» в пропускной способности больницы, например, время на обработку документов в регистратуре.
В случае с переписью пациент – это единая анкета, а разные чек-пойнты – ее вопросы. Process mining позволяет легко определить вопросы, на которые люди потратили больше всего времени, выявить, склонны ли респонденты пропускать определенные вопросы или возвращаться к ним несколько раз. Эти выводы могут помочь улучшить структуру переписного листа и предоставить информацию для будущих обследований.
Информационная панель, построенная на инструментах с открытым исходным кодом, может предоставить ценную информацию об анкете – от того, сколько времени респонденты потратили на каждый вопрос, какие шаги в анкете привели к отсутствию ответа, до того, как шаблоны и последовательности ответов отличались от предполагаемых.
Нанося данные геолокации на интерактивную карту, информационная панель может ежедневно визуализировать деятельность в каждом переписном районе, чтобы выявлять возможную неэффективность или аномалии в сборе данных во время переписи. Результаты такого подхода могут быть использованы в контексте других стран для совершенствования процессов переписи. Подход считают масштабируемым, полезным, поскольку в конечном итоге он может способствовать расширению потенциала статистических систем в развивающихся странах.