A crescente presença das Tecnologias da Informação e Comunicação, as chamadas TICs, no cotidiano dos indivíduos vem provocando transformações profundas na sociedade, permeadas por novas formas de interação baseadas na intensa produção e uso de informações. Numa sociedade na qual a informação é matéria-prima essencial, o termo big data assumiu papel de destaque no âmbito empresarial, governamental e acadêmico. Big data remete, por si, à questão dos grandes volumes de dados, variados e velozes, gerados constantemente.
A chamada “Revolução dos Dados” é certamente perceptível nas cidades brasileiras. Mas de que forma ela pode avançar rumo a uma melhor compreensão e planejamento das nossas áreas urbanas? São inegáveis as possibilidades abertas pelo big data para a exploração de questões inovadoras sobre fenômenos e dinâmicas urbanas, especialmente as que envolvem análises em tempo real.
Entretanto, cabe ressaltar que o big data não representa uma panaceia para problemas relacionados ao levantamento de dados e informações sobre o país.
A euforia em relação a ele não pode, de forma alguma, assumir contornos que induzam à diminuição da relevância de outras formas de coleta de dados, consideradas mais tradicionais. Tal direcionamento representa um movimento particularmente perigoso em tempos caracterizados pelo excesso de desinformação.
Nesse sentido, além de questões que já são comumente debatidas sobre big data, tais como as relativas a confidencialidade, armazenamento e governança de dados, alguns pontos críticos referentes a esses dados merecem destaque no debate sobre seu significado para análises e políticas voltadas às cidades brasileiras.
Tendenciosidade
A visão de urbano, assim como de sociedade, implícita no big data é necessariamente restrita. Ao lidarmos com big data não estamos tratando da população como um todo, mas de usuários e mercados — os usuários de twitter ou facebook, usuários de transporte coletivo, motoristas conectados a aplicativos de navegação por GPS, clientes de concessionárias de telecomunicações, energia, água e esgoto etc. São dados tendenciosos por natureza, que não dizem respeito às pessoas que estão alheias aos mercados e atividades específicas que estão sendo rastreadas.
Acesso limitado
Democratizar o acesso a dados é condição chave para a ampliação do conhecimento sobre nossas cidades. No entanto, parcela significativa dos grandes dados gerados na atualidade não estão sob domínio de instituições públicas, mas sim privadas. O aumento da relevância dos big data tendem a aumentar o protagonismo da iniciativa privada na produção de dados, o que nos leva a maiores dificuldades de abertura dos dados e incertezas sobre as finalidades dos usos dos mesmos.
A ampla disponibilização dos big data — mais especificamente a conversão de big data em open data — representa um passo fundamental para compartilhar o poder atribuído aos detentores de dados e informações, o que, por conseguinte, também implica na democratização e potencialização de seu uso. Temos, no entanto, avançado pouco nesse sentido.
Abrangência geográfica fragmentada
Outro problema recorrente, também relacionado à disponibilização dos big data, diz respeito à fragmentação e descontinuidade de sua cobertura, frequentemente restrita a limites político-administrativos. Muitos dos novos dados disponibilizados não permitem uma análise do espaço regional ou mesmo do espaço intraurbano.
Na Região Metropolitana de São Paulo, por exemplo, os avanços na disponibilização de dados para estudos de mobilidade e acessibilidade concentram-se principalmente no Município de São Paulo. Dados de transporte público no formato General Transit Feed Specification (GTFS), por exemplo, estão disponíveis apenas para a capital e algumas linhas metropolitanas de ônibus, mas não para as linhas locais dos demais municípios que compõem a região metropolitana. Esse fato induz a uma concentração de estudos voltados para apenas uma porção da metrópole — a mais privilegiada — e inviabiliza análises que explorem o potencial dos novos dados para avançar no entendimento e planejamento da mobilidade na metrópole como um todo.
Diante das profundas desigualdades de um país como o Brasil, em suas distintas dimensões e escalas, as implicações dos pontos críticos levantados merecem reflexão.
Se desigualdades de disponibilidade de informações, como as ilustradas pelo exemplo dos dados GTFS, são observadas no interior da maior e mais rica região metropolitana do país, o que dizer sobre as cidades mais afastadas dos grandes centros? Essa questão é particularmente relevante em um Brasil de tantos “Brasis”, muitos deles pouco conhecidos, e que já tradicionalmente desenha suas políticas a partir da perspectiva dos grandes centros.
Estaríamos, assim, contribuindo para acentuar as disparidades entre aqueles espaços que Milton Santos retratou como luminosos e opacos? Estaríamos voltando nosso olhar a determinados mercados que excluem boa parte da sociedade? Estaríamos contribuindo para tornar invisíveis aqueles que mais precisam de visibilidade? Estaríamos tentados a voltar nossas atenções a problemas que os novos dados e técnicas analíticas a eles associados permitem explorar, em detrimento de questões mais cruciais para o bem estar da sociedade?
Tais perguntas reforçam a necessidade de reflexão sobre as leituras urbanas que os novos dados são capazes de nos proporcionar, bem como sobre o papel dos dados tradicionais nesse contexto.
O papel dos dados tradicionais na era do big data (e da desinformação)
No decorrer de 2019, o Brasil assistiu a um intenso debate sobre os cortes orçamentários do censo demográfico do país. De maneira geral, o Governo Federal insistiu em discursos voltados à desvalorização dos levantamentos tradicionais e desqualificação das instituições que os produzem. No caso específico do censo, as justificativas dos defensores da redução do orçamento e do questionário a ser aplicado variavam. Enquanto a frase “quem pergunta demais descobre o que não quer”, proferida pelo Ministro da Economia, escancarava o descomprometimento com a realidade brasileira e com a elaboração de políticas públicas bem informadas, justificativas aparentemente mais técnicas focavam no big data e registros municipais como formas alternativas de coleta de informações.
Como resultado, foram suprimidas do próximo censo demográfico questões relacionadas ao custo da moradia, rendimento, emigração, bem como acesso a serviços e posse de bens. A supressão das questões foi efetuada sem qualquer debate com a comunidade interessada ou mesmo justificativa para a seleção dos temas sobre os quais passaremos a ter menos informações.
Em relação aos argumentos baseados no uso de outras fontes de dados, também não houve qualquer esclarecimento sobre como as informações suprimidas no censo poderiam ser substituídas. O fato é que não temos alternativas para suprir, com qualidade, essa lacuna.
Por exemplo, no caso da variável “custo do aluguel”, utilizada nas estimativas do déficit habitacional, sabe-se que dados sobre preços dos imóveis são monitorados constantemente por empresas privadas e utilizados para estudos de interesse do mercado imobiliário. Esses dados, além de privados, são restritos ao mercado imobiliário formal de algumas regiões do país. Sua qualidade costuma ser muito superior a dos registros municipais que, além de também possuírem abrangência restrita, são frequentemente desatualizados e desconectados com a realidade dos municípios. Municípios estes que, em muitos casos, não possuem sequer informações confiáveis sobre a situação fundiária de boa parte de seu território.
Qual seria, portanto, a alternativa à questão suprimida no questionário do censo? Diante da inexistência de tal alternativa, resta aos municípios brasileiros ficar às cegas em relação a uma das mais expressivas dimensões do déficit habitacional, o custo excessivo da moradia, que, segundo a Fundação João Pinheiro, atingia mais de 2,1 milhões de domicílios de baixa renda em 2010.
Além de ampla cobertura do território brasileiro, o censo demográfico dispõe de um rico espectro de variáveis, estabelecido a partir de amplo debate com a comunidade de usuários, com claras definições de conceitos e categorias, e em sintonia com questões relevantes para o país. Cabe destacar, assim, a oportunidade de se explorar a diversidade e complementariedade de temáticas que fontes de dados de naturezas distintas, provenientes de levantamentos tradicionais e fontes de big data, são capazes de viabilizar.
No contexto da pandemia de COVID-19, por exemplo, dados de telefonia móvel foram utilizados de forma inovadora, revelando-se úteis no monitoramento da adesão da população à quarentena e detecção de áreas prioritárias para intensificação de campanhas de conscientização sobre o isolamento social. Entretanto, eram os dados censitários, mesmo desatualizados, que ganhavam destaque em análises intraurbanas sobre os espaços mais vulneráveis à doença, tais como a localização dos bairros com alta densidade domiciliar e maiores limitações para a adoção do isolamento vertical.
As fontes de big data abrem possibilidades para a representação de padrões e dinâmicas até então inexplorados, como no exemplo da análise das taxas de isolamento social durante a pandemia. Entretanto, ainda são dados de abrangência restrita e tendenciosos por natureza. É importante associá-los, portanto, a dados levantados por meio de rigoroso planejamento e desenho amostral. Sob essa perspectiva, o censo demográfico oferece uma base confiável para calibração e exploração dos novos dados.
Por outro lado, a análise de alguns fenômenos e dinâmicas tradicionalmente observados por meio dos dados censitários poderia ser conduzida nos períodos intercensitários com auxílio de dados alternativos, que são constantemente produzidos. Por exemplo, análises sobre dinâmicas e tendências relacionadas ao poder de compra dos brasileiros podem combinar dados censitários, levantados a cada dez anos, com dados de consumo de energia elétrica, gerados constantemente.
Dada a evidente complementariedade de dados de natureza tão distinta, torna-se fundamental o debate sobre o papel dos levantamentos tradicionais na era do big data. A exploração de estratégias de integração entre dados tradicionais e big datatorna-se crucial para potencializar o uso de ambos em análises que contribuam para avançar na construção de novas teorias urbanas e aprimoramento de planos e políticas urbanas. Não se pode admitir que o entusiasmo com o big data subsidie discursos e ações que depreciam e degeneram a produção de dados sobre o Brasil. Movimentos nessa direção atendem apenas a interesses de governos autoritários, avessos à transparência, para os quais dados sobre a realidade do país não passam de um inconveniente.
Texto resumido e adaptado do artigo “Big Data e Urban Analytics à brasileira: Questões inerentes a um país profundamente desigual”, publicado na Revista de Morfologia Urbana em 30 de junho de 2020. Via Caos Planejado.