Baixe o app para aproveitar ainda mais
Prévia do material em texto
Tema | Trabalhando com dados | 1 Instrutor: Ana Carolina Moreno Sumário 1. “Como mentir com números” a. Introdução b. Vocabulário dos dados c. Formatos possíveis d. Níveis de desagregação dos dados e. Níveis de acesso aos dados 2. Desafios da vida real a. Manipulação na hora de obter dados b. Manipulação na hora de apresentar dados c. Referências 1. “Como mentir com números” 1a. Introdução Dois fenômenos têm se desenvolvido com muita rapidez nos últimos anos, e aprenderam a caminhar de mãos dadas: a disseminação de desinformação e a difusão do chamado Big Data, volumes cada vez maiores de dados graças à evolução tecnológica e ao avanço da ciência de dados, que permite a aplicação de conceitos da estatística para manipular, analisar e apresentar informações a partir desses dados. Nas próximas três aulas deste curso vamos entender quais são esses conceitos e como eles têm sido usados cada vez mais na divulgação de gráficos e dados com informações mentirosas, distorcidas, manipuladas ou que induzem a conclusões equivocadas. O objetivo é oferecer um olhar mais qualificado e atento para enxergar essas manipulações, saber onde encontrar a fonte que pode confirmar ou desmentir os dados e aprender ferramentas e técnicas básicas e fáceis de usar para a criação de gráficos preocupados em transmitir informação verdadeira e precisa. 1b. Vocabulário dos dados Este breve capítulo inclui um material de nivelamento para garantir a compreensão dos conceitos e nomenclaturas básicas das estruturas de dados existentes, e quais podem servir para o trabalho de checagem, monitoramento e investigação. As bases de dados nada mais são do que tabelas contendo a informação que nos interessa. Mas tanto o formato dessas tabelas quanto o conteúdo delas variam. Entender essa parte básica já é meio caminho andado para saber rapidamente qual é e onde está a fonte de que você precisa ao checar uma informação que usa dados. 1c. Formatos possíveis O formato mais conhecido é o arquivo .xls ou .xlsx, ou seja, uma planilha que pode ser aberta em softwares como o Excel ou no Google Planilhas e que você pode manipular com fórmulas ou seleções. Também muito conhecido é o .csv, um formato de planilha onde as colunas estão separadas por vírgulas. Esse formato não serve apenas para abrir de uma forma confusa no seu aplicativo de planilhas, mas para ocupar menos espaço no arquivo e permitir que ele traga muito mais dados. (Dica boa: Não sabe separar dados em colunas no Google Planilhas? Aprenda nesse tutorial de 27 segundos: https://www.youtube.com/watch?v=1yBTwUGX1Pg) É por isso que, muitas vezes, seu arquivo .csv não abre no Excel ou não carrega no Google Planilhas: é porque ele tem linhas e colunas acima do limite de processamento desses programas. Nesses casos, é preciso usar outros programas, que exigem conhecimento de linguagens de consulta ou programação para acessar esses dados. Outras versões são o formato .tsv, que tem valores separados não por vírgulas, mas pelo tab |, e o .ods, a versão de planilhas do Linux. Mas isso é se tudo correr bem. Não é incomum que os dados estejam em um .pdf, ou em muitos pdfs, ou em um pdf que na verdade é uma foto de uma tabela impressa no papel (acredite, não é fakenews, mas nas próximas três aulas você aprenderá dicas para evitar que isso se repita). Para ler mais Maturidade em Dados Abertos: Entenda as 5 Estrelas (Open Knowledge Brasil): https://www.ok.org.br/noticia/maturidade-em-dados-abertos-entenda-as-5-estrelas/ https://www.youtube.com/watch?v=1yBTwUGX1Pg https://www.ok.org.br/noticia/maturidade-em-dados-abertos-entenda-as-5-estrelas/ 1d. Níveis de desagregação do conteúdo Ao abrir esses arquivos, nos deparamos com as tabelas que vamos usar. Essa tabela pode vir com diversos níveis de desagregação dos dados. —> Dados agregados Por exemplo, ela pode ter apenas duas colunas, uma com o nome de cada UF em 27 linhas e, ao lado, o total acumulado de mortes confirmadas por Covid-19 desde o início da pandemia até aquele momento. Ela pode, também, ter uma linha por ano e por UF e conter a mesma soma de mortes para cada ano. Nesse caso, ela teria três colunas (ano, UF, mortes) e 54 linhas. Esses são dois possíveis exemplos de dados agregados ou consolidados. Mas podemos desagregar ainda mais, como por exemplo, trazendo uma linha para cada UF e para cada dia, ou mesmo uma linha para cada dia e para cada município brasileiro. Também podemos ter outros detalhes, como a data, o município, a UF correspondente, o código do município, o acumulado de mortes até aquele dia e o total de mortes registradas em 24 horas. Nosso número de linhas e colunas aumenta conforme os dados vão ficando mais desagregados. É importante entender essa estrutura porque, a depender da informação de que precisamos e dos dados que temos, vamos precisar ter mais ou menos trabalho de cálculo e análise. Se precisarmos saber quantas mortes cada região do Brasil registrou, mas só temos os dados por UF, vamos ter que fazer a soma, ou buscar uma fonte que já traga esse resultado consolidado. Nesse caso, podemos buscar em documentos oficiais dos vários entes governamentais, inclusive em resumos ou boletins em PDF e painéis e dashboards online. —> Dados desagregados (microdados) Costumamos chamar de microdados o maior nível de desagregação disponível. No exemplo acima (mortes por Covid-19), os microdados estão na base do Sistema de Informação de Vigilância Epidemiológica da Gripe (Sivep-Gripe), do Ministério da Saúde. Trata-se de uma tabela onde cada registro de paciente atendido em um hospital com sintomas de Síndrome Respiratória Aguda Grave (SRAG) está em uma linha diferente, e dezenas de colunas trazem detalhes sobre essa pessoa, como a raça, idade, data de nascimento, município de residência, se e em que dia foi hospitalizada, que sintomas sentia, se tem comorbidades, que exames foram feitos, quais foram os resultados dos exames, qual foi o diagnóstico final, qual foi a evolução do caso (se e em que dia a pessoa teve alta ou morreu), se e quando precisou de UTI, se precisou de ventilação mecânica etc. Justamente pelo grande volume de detalhes, os microdados não costumam ser abertos em programas como o Excel ou o Googel Planilhas, e eles carecem da realização de análises e cálculos para passarem de dados e se tornarem informação. Por exemplo, se preciso usar essa base para informar o público sobre quantas pessoas morreram de Covid-19 em cada região do Brasil até um determinado dia, preciso aplicar filtros (selecionar só os casos que terminaram em morte e só os casos em que o diagnóstico final foi Covid-19) Também precisarei fazer agrupamentos (somar as linhas de pacientes de cada estado, depois reunir os estados em suas respectivas regiões e contabilizar o total dentro do período especificado). A imagem abaixo ilustra os diferentes estágios de trabalho em cima dos dados para que ele tenha um impacto na sociedade: Link: https://twitter.com/gapingvoid 1e. Níveis de acesso aos dados Além de virem em formatos diferentes e com conteúdos diferentes, as bases também estão dispostas em locais diferentes da internet e, em alguns casos, só são divulgadas se pedirmos especificamente por elas. Nas próximas aulas vamos descobrir como encontrar as principais bases de dados públicas e como usar a Lei de Acesso à Informação para obter as bases que deveriam ser públicas. https://twitter.com/gapingvoid 3. “Como mentir com números” Agora que reconhecemos a importância de enxergar a informação contida nos gráficos, vamos ver quais são os métodos mais frequentes de pressionar os números a falarem o que queremos, mesmo que seja mentira. Os exemplos a seguir ilustram uma série de artifícios esquematizados abaixo: Manipulação na hora de obter dados: Manipulação na hora de apresentar dados: Limitações para observar um fenômeno Manipulando as escalas de grandeza Amostras não representativas Comparando finanças e ignorando a inflação Coleta de dados tendenciosa ou incompleta Comparando alhos com bugalhos Ocultandolimitações da base de dados Inventando uma relação de causa e efeito Embelezando demais e informando de menos 2a. Manipulação na hora de obter dados —> Limitações para observar um fenômeno Antes de partir para exemplos práticos, vamos começar reforçando um conceito básico: no jornalismo e na esfera pública, utilizamos dados para tentar evidenciar uma possível relação de causa e efeito de um evento da vida real que observamos. Por exemplo, a variação de mortes em 2020 foi atípica na comparação com a variação registrada em anos anteriores e a causa disso é a pandemia de uma doença respiratória transmissível nova, para a qual não existe tratamento. Em anos sem pandemia, a tendência é que o registro de mortes varie pouco, e que o aumento no decorrer do ano acompanhe os meses mais frios. O exemplo ao lado mostra essa variação para o Estado de São Paulo, separando as mortes mês a mês para mostrar como, até 2019, nenhum mês teve mais de 30 mil mortes registradas, mas, em 2020, os meses de maio a agosto registraram mais de 32 mil vidas perdidas: Link para ler a reportagem e navegar pelo gráfico interativo: https://g1.globo.com/sp/sao-paulo/noticia/2021/03/10/estado-de-sp-registra-mortalidade-12percent-maior-em- 2020-aponta-seade.ghtml Mas nem todas as relações são tão evidentes porque um evento pode ser influenciado por mais de uma causa (ou mais de um fator, ou mais de uma variável). No nosso exemplo acima, locais diferentes tiveram variações de mortes diferentes em 2020 e os motivos podem ser os mais variados possíveis, como medidas mais ou menos eficazes de prevenção do contágio e rastreamento desse novo vírus, estrutura hospitalar pré-existente mais ou menos robusta, a pirâmide etária da população com uma porcentagem maior ou menor de pessoas nos grupos de maior risco de morte. Isso sem contar, quando estamos falando diretamente das mortes pela doença, a diferença entre as políticas de contabilização dos casos, que podem gerar mais ou menos subnotificação. Para complicar um pouco mais, ainda temos um impedimento comum: a maioria das bases de dados que são fonte dessas informações são construídas manualmente por humanos (às vezes, milhares de humanos sob condições das mais diversas). Por isso, erros nos registros também precisam ser levados em conta. Por isso, embora tenhamos dados para comparar o resultado de cada local, é difícil quantificar o peso de cada uma dessas variáveis no resultado e, dependendo do método de coleta dos dados na fonte, corremos o risco de comparar alhos e bugalhos. Os desafios acima, claro, não são motivo para não fazer comparações, mas sim para contextualizar a comparação e evitar conclusões equivocadas. A estatística, em termos bem simples, é um método científico que pode nos ajudar a superar parte desses obstáculos na hora de observar as possíveis causas de um evento. —> Amostras não representativas Uma das ferramentas da estatística é determinar a representatividade de uma amostra. A análise estatística com base em amostragem é muito mais frequente do que imaginamos, já que a alternativa é a coleta de dados censitários, ou seja, que conseguem abranger toda a população. Esse tipo de coleta é caro e trabalhoso, não à toa os países realizam censos populacionais a cada cinco ou dez anos (às vezes, nem isso). Para trazer um exemplo talvez pouco evidente, temos o Pisa, o famoso “ranking da educação mundial”, realizado pela OCDE e divulgado a cada três anos. Ele é muito usado para comparar a educação brasileira com a de outras partes do mundo, e pode ser que você veja por aí alguém mostrando o resultado do Brasil lado a lado com o resultado da China. Essa comparação tem alguns problemas, primeiramente porque existem “três Pisas”, uma proficiência por prova (de leitura, matemática e ciência). https://g1.globo.com/sp/sao-paulo/noticia/2021/03/10/estado-de-sp-registra-mortalidade-12percent-maior-em-2020-aponta-seade.ghtml https://g1.globo.com/sp/sao-paulo/noticia/2021/03/10/estado-de-sp-registra-mortalidade-12percent-maior-em-2020-aponta-seade.ghtml E segundo porque a China não tem resultados nacionais divulgados pela OCDE. Motivo: o país não participa da prova com uma amostra de jovens de 15 anos representativa da população nacional. Por isso, algumas províncias e regiões com amostras validadas estatisticamente entram na lista comparativa separadamente. Uma delas (que reúne províncias como Xangai e Pequim), inclusive, ficou no topo neste ano, ultrapassando Singapura. Mas Taipei, por sua, vez, ficou fora do top 10 em leitura: Link para ler a reportagem: https://g1.globo.com/educacao/noticia/2019/12/03/brasil-cai-em-ranking-mundial-de-educacao-em-matematica -e-ciencias-e-fica-estagnado-em-leitura.ghtml Já o governo brasileiro sempre conseguiu ter um número mínimo de estudantes para representarem o país como um todo e, até a penúltima edição, inclusive para ter resultados para cada estado (veja o histórico ao lado). É muito provável que o Brasil, que segue estagnado entre as 20 piores posições, tenha uma proficiência menor que a da China. Mas quantificar qual é essa diferença e mostrá-la em um gráfico exigiria distorcer a realidade dos dados. https://g1.globo.com/educacao/noticia/2019/12/03/brasil-cai-em-ranking-mundial-de-educacao-em-matematica-e-ciencias-e-fica-estagnado-em-leitura.ghtml https://g1.globo.com/educacao/noticia/2019/12/03/brasil-cai-em-ranking-mundial-de-educacao-em-matematica-e-ciencias-e-fica-estagnado-em-leitura.ghtml —> Coleta de dados tendenciosa ou incompleta No exemplo acima, nossa amostra tem limitações de análise. Mas às vezes ela pode ter limitações no próprio processo de definição do método de coleta dos dados. Nesse quesito, um exemplo bastante frequente é o das pesquisas de opinião, que usam uma amostra pequena de pessoas para estimar qual é a opinião de toda a população. A definição de qual pergunta fazer e de como formular a pergunta pode influenciar diretamente na resposta. Por isso as perguntas podem ser abertas (exemplo: “Se a eleição fosse hoje, em quem você votaria?”) ou com alternativas fechadas (“Se a eleição fosse hoje, em qual desses nomes você votaria?”). Escolher quais nomes vão estar nessa lista e mesmo a ordem em que esses nomes vão ser apresentados pode comprometer o resultado. Deixar um nome de fora pode tornar o resultado incompleto. É diferente também perguntar “Você é favor da pena de morte em caso de homicídio?” e “Você é a favor da pena de morte para alguém que matou um parente seu?”. O apelo emocional pode induzir o respondente à resposta que você quer ouvir. Para evitar pesquisas tendenciosas no período eleitoral, cada pesquisa de intenção de voto precisa estar devidamente registrada no Tribunal Superior Eleitoral (TSE). A metodologia (presencial, por telefone, online), a quantidade amostral, o método de definição da amostra e a margem de erro devem ser incluídas. Por isso, qualquer pesquisa ou sondagem não registrada precisa ser vista com cuidado redobrado, e qualquer pesquisa registrada pode ser escrutinada para revelar possíveis problemas metodológicos ou limitações de análise. Aqui também vale uma dica de ouro: às vezes, um ranking ou comparação tem determinado resultado porque os elementos comparados foram selecionados a dedo, e outros que mudariam nossa conclusão ficaram de fora. Vale sempre se perguntar por que eles foram excluídos. 3b. Manipulação na hora de apresentar dados —> Manipulando as escalas de grandeza Esse talvez seja o jeito mais comum de distorcer a informação: na hora de transformá-la em um gráfico, as escalas são alteradas e acabam (propositalmente ou não) levando a uma interpretação incorreta. Veremos a seguir exemplos que usam os três gráficos mais frequentes: o de barras, o de linhas e o de pizza. O primeiro deles vem da Espanha e apresenta tanto a distorção na escala do eixo Y (ou escala vertical) quanto uma prática cada vez mais comum, mas que costuma confundir mais do que informar: o gráfico 3D. Ele mostra a audiência de duas emissoras de televisão concorrentes,e foi produzido em 2010 justamente pela Telecinco, emissora que teve o índice mais alto: https://www.tse.jus.br/eleicoes/pesquisa-eleitorais/pesquisas-eleitorais-eleicoes-2020 Link para o vídeo original: https://www.youtube.com/watch?v=49pWj-CQ50U Olhando apenas para a altura das duas barras, ficamos com a impressão de que a audiência das novelas e séries (ficción nacional) da Telecinco (em azul) é quase o dobro da Antena 3 (laranja). No entanto, lendo os números da audiência de cada uma, nota-se que, na verdade, a diferença é de apenas 0,3 ponto percentual, quase um empate. Uma maneira de observar melhor a realidade é atendo-se à escala vertical com início no valor 0. Isso permite não só analisar melhor a grandeza entre dois ou mais valores em relação uns com os outros, mas também em relação aos valores possíveis. Veja ao lado o resultado quando colocamos os mesmos valores num gráfico de barras proporcional: https://www.youtube.com/watch?v=49pWj-CQ50U Nosso segundo exemplo é uma dobradinha vinda da França, onde o gráfico de pizza é chamado de “gráfico camembert”. Observe o gráfico abaixo, divulgado pela emissora C-News em maio de 2018 com resultados de uma pesquisa de opinião sobre uma greve de funcionários públicos franceses. Tente descobrir onde está a distorção: Link: https://twitter.com/decodeurs/status/999209133986508800/photo/1 Mais uma vez, o desenho do gráfico não corresponde com as grandezas informadas nos elementos numéricos. Se apenas 49% dos respondentes disseram que não apoiam a mobilização, por que mais da metade do círculo está pintada da cor vermelha? Além disso, se 49 mais 40 é igual a 89, então onde estão os 11 pedaços restantes para completar 100%? Às vezes a origem do problema pode ser técnica e involuntária: talvez o infografista tenha digitado “1” em vez de “11”, e o resultado tenha sido esse. Por isso é importante seguir o conselho de Alberto Cairo e tratar seus gráficos como informação, e não apenas uma ilustração. Revisar todos os elementos é essencial antes de levar o material ao ar. Supostamente o problema técnico foi o caso de outro gráfico “camembert” apresentado um mês antes por outro canal de televisão francês, o BFMTV, sobre o mesmo assunto. Aqui, a parcela de 48% de pessoas que se opuseram à manifestação na pesquisa também preenchem mais de 50% do gráfico. Veja abaixo: https://www.lefigaro.fr/social/2018/05/22/20011-20180522ARTFIG00007-francais-et-decideurs-pour-la-reforme-et-contre-la-greve-des-fonctionnaires.php https://twitter.com/decodeurs/status/999209133986508800/photo/1 https://www.bfmtv.com/replay-emissions/19h-ruth-elkrief/greve-a-la-sncf-le-soutien-s-essouffle-encore_VN-201804250164.html https://www.bfmtv.com/replay-emissions/19h-ruth-elkrief/greve-a-la-sncf-le-soutien-s-essouffle-encore_VN-201804250164.html A equipe de checagem de fatos CheckNews, do jornal Le Figaro, afirmou que, segundo a emissora de televisão BFMTV, houve um problema no computador que repartiu incorretamente as porcentagens, e um novo gráfico corrigido foi apresentado ao público. A equipe da CheckNews mediu a parte vermelha do gráfico acima e notou que ela representava 56% do total da pizza. Ela também mostrou ao público uma versão com a divisão correta das porcentagens: Link para a checagem completa (em francês): https://www.liberation.fr/checknews/2018/04/27/est-ce-que-bfmtv-a-vraiment-affiche-un-graphique-a -camembert-trompeur-sur-le-soutien-a-la-greve-des-_1653615/ https://www.liberation.fr/checknews/2018/04/27/est-ce-que-bfmtv-a-vraiment-affiche-un-graphique-a-camembert-trompeur-sur-le-soutien-a-la-greve-des-_1653615/ https://www.liberation.fr/checknews/2018/04/27/est-ce-que-bfmtv-a-vraiment-affiche-un-graphique-a-camembert-trompeur-sur-le-soutien-a-la-greve-des-_1653615/ Nosso último exemplo de manipulação de escalas é um gráfico de linhas publicado em dezembro de 2020 pela Secretaria de Comunicação do governo federal, que usou da manipulação de escalas e de uma interpretação incorreta do conceito de variação percentual para induzir à conclusão de que o PIB do terceiro trimestre de 2020 era mais alto do que o dos três trimestres anteriores. Vejamos o gráfico original, já excluído do Twitter: Note que a informação não traz o valor absoluto do PIB, apenas a variação de cada trimestre em relação ao trimestre anterior. No entanto, a linha entre o trimestre de abril a junho de 2020 e o de julho a setembro de 2020 na verdade não representa 7,7% entre o primeiro e o segundo valor. O ponto deste último trimestre parece indicar uma altura de 7,7% acima da linha horizontal que representa o 0%. É difícil cravar exatamente essa altura, já que a escala tem apenas quatro hastes sem indicar valores, mas ela parece estar contando as hastes de 2 em 2. De todas as formas, levando em conta a queda de 1,5% seguida de outra queda de 9,6%, essa alta de 7,7% não é suficiente para levar a linha de volta ao lado positivo da escala. A professora de economia Laura Carvalho, da Universidade de São Paulo (USP), refez o gráfico considerando o valor 100 para o patamar da linha horizontal, e desenhando a linha dentro da escala correta das variações percentuais. Nessa versão, fica claro que, apesar de o PIB ter tido alta, ela não foi suficiente para retomar o crescimento de 2019: Link para o tuíte original: https://twitter.com/lauraabcarvalho/status/1334833464793817090/photo/1 https://twitter.com/secomvc/status/1334589636153397249 https://twitter.com/lauraabcarvalho/status/1334833464793817090/photo/1 —> Comparando finanças sem lembrar da inflação Essa é uma estratégia também comum e muito eficaz para convencer pessoas desavisadas. Quando comparamos valores como gastos do governo ou orçamento atuais com as mesmas cifras de anos anteriores, sempre precisamos ajustar os valores do passado pela inflação de hoje para chegar a uma comparação real, e não apenas nominal. Lembrando: a inflação é o que reduz o nosso poder de compra ao longo dos anos. Por isso, a quantia de R$ 10 milhões hoje não tem o mesmo valor que tinha há cinco anos. O exemplo abaixo se trata de uma checagem do Comprova a partir de um tuíte que viralizou e teve dezenas de milhares de compartilhamentos. A postagem comparava o “pico” do dólar na gestão dos últimos cinco presidentes a ocuparem o cargo até 2019, para mostrar que a gestão mais recente, de Jair Bolsonaro, teve o valor mais alto. A equipe de checagem, porém, calculou tanto o reajuste pela inflação do real quanto o do dólar para comprovar que essa informação era enganosa. Para isso, foram usadas diversas fontes que registram o histórico dos valores no formato nominal e que aplicam o cálculo para verificar o valor real nos dias de hoje. Veja, ao lado, o gráfico de linhas feito pelo Comprova para comparar a diferença entre o valor nominal e o real do dólar em reais ao longo dos anos. Note como a linha amarela (valor corrigido) nos anos anteriores foi muito mais alta do que a versão nominal. Link para a checagem completa: https://politica.estadao.com.br/blogs/estadao-verifica/com-correcao-pela-inflacao-dolar-sob-bolsona ro-nao-e-o-mais-caro-desde-o-plano-real/ https://politica.estadao.com.br/blogs/estadao-verifica/com-correcao-pela-inflacao-dolar-sob-bolsonaro-nao-e-o-mais-caro-desde-o-plano-real/ https://politica.estadao.com.br/blogs/estadao-verifica/com-correcao-pela-inflacao-dolar-sob-bolsonaro-nao-e-o-mais-caro-desde-o-plano-real/ —> Comparando alhos e bugalhos Às vezes a escala está correta, mas são os dados que trazem o problema. Nesse caso os demais elementos do gráfico podem ajudar a detectar onde está a desinformação. O exemplo abaixo mostra o histórico de gastos do governo federal com publicidade até 2019, em uma postagem no Facebook checada pela Agência Lupa: O texto que acompanha o gráfico diz que se tratam de “Valores gastos com publicidade nos governos de FHC (em azul [R$ 4,8 bi]), do PT (em vermelho [R$ 29,7 bi])” e do “Valor orçado para ser gasto esse ano no governo do Bolsonaro (em verde [R$ 150 milhões])”. O que ele não explicaé que a comparação é feita usando fontes diferentes e que o texto soma períodos diferentes (três anos da gestão PSDB e 14 anos da gestão do PT). No caso dos governos tucanos e petistas, a fonte de fato é o IAP, o Instituto de Acompanhamento da Publicidade (IAP), que deixou de existir em 2017. Note que os anos da gestão Temer (2017 e 2018) não aparecem no gráfico. Além disso, o levantamento do IAP inclui todas as despesas globais do governo federal com publicidade. Já para o primeiro ano da gestão Bolsonaro, o valor seria uma previsão orçamentária. Consultando o Siga Brasil, a Lupa descobriu que, considerando apenas o orçamento de despesas diretas da administração com publicidade, o valor era três vezes maior. A checagem comparou, então, os valores dessa mesma fonte com o total empenhado nas gestões anteriores, aplicou a correção pela inflação e descobriu que o orçamento de 2019 era o mais alto desde 2014 (veja ao lado): https://piaui.folha.uol.com.br/lupa/2019/03/15/verificamos-publicidade-governo/ —> Inventando uma relação de causa e efeito Dois conceitos importantíssimos na análise estatística são o da correlação e o da causalidade. Existem métodos para calcular numericamente se a correlação entre um evento e outro é forte ou fraca. Mas, ainda que ela seja forte, isso não significa automaticamente que um evento influencie o outro e vice-versa, por mais que queiramos. Nas referências você pode ver mais bibliografia sobre o assunto. Mas, para entender facilmente, lembre-se sempre do “gráfico Nicolas Cage”: Existe uma forte correlação entre o número de filmes nos quais o Nicolas Cage aparece e as mortes por afogamento por ano? Sim! Uma coisa leva à outra? Claro que não! Link para o site Spurious Correlations, cheio de correlações absurdas como essa: https://www.tylervigen.com/spurious-correlations —> Ocultando limitações da base de dados Para esse exemplo, vamos retornar ao tema da pandemia, já que ele fez proliferar gráficos que tentam distorcer a realidade ao ocultar as limitações dos dados apresentados. Aqui o conceito-chave é atraso de notificação (ou de registros), já que a base de dados que contabiliza as mortes confirmadas pela Covid-19 (a Sivep-Gripe, do Ministério da Saúde) não é preenchida em tempo real assim que uma nova morte ocorre. Os fatores por trás disso são vários. Pode ser que a pessoa tenha morrido antes da chegada do resultado do exame RT-PCR que confirma a doença, pode ser que o hospital esteja com a equipe sobrecarregada e demore até que a pessoa responsável pela digitação de dados no sistema consiga atualizar os dados do caso e informar sobre a morte. Pode ser que a prefeitura daquela cidade seja responsável por essa digitação, e a equipe tenha uma pilha de fichas para incluir no sistema. Esse atraso, inclusive, pode levar várias semanas. Por isso, sempre (sempre mesmo) que acessamos essa base de dados para extrair a quantidade diária de mortes, os dias mais recentes vão apresentar queda. Não significa que estamos vendo uma redução das mortes nesse período, significa que ainda não deu tempo de as mortes nesse período entrarem na base de dados. https://www.tylervigen.com/spurious-correlations Essa questão, porém, tem sido deliberadamente ocultada em gráficos difundidos por pessoas interessadas em induzir o público à conclusão de que sim, houve mortes, mas que o pior já passou e, por isso, não é necessário tomar medidas de combate ao vírus. Para podermos “enxergar” esse artifício temporal, compare os dois gráficos abaixo. Ambos têm a mesma fonte (Sivep-Gripe) e trazem o mesmo filtro (média diária de internações por SRAG e de mortes confirmadas de Covid no Estado de São Paulo, agrupada pela data em que a pessoa foi internada ou morreu). A diferença é que o primeiro gráfico analisa os dados que estavam na base até 10/05/2021. O segundo usa os dados da versão da base divulgada em 24/05/2021: Note como, no primeiro gráfico, as duas linhas “desabam” após o início de abril de 2021 até o início de maio. Já no segundo gráfico, a mesma linha agora faz um desenho diferente para o mesmo período, mostrando que, nas duas semanas entre uma versão e outra, a base recebeu registros retroativos que mudam completamente nossa interpretação. Veja no link um GIF comparando os dois gráficos: https://drive.google.com/file/d/1T8fmtG3I9FG4waRkDJzoRcWtUkX7fnoR/view?usp=sharing —> Embelezando demais Todo mundo adora ver infografias lindas e requintadas no jornal. Mas, se a parte decorativa afetar a informativa, então aquele gráfico perde sua razão de ser. No exemplo abaixo, mais um que usa o recurso 3D, note como o ângulo faz com que a parte verde pareça a maior de todas, quando, na verdade, é a azul que ocupa a maior fatia do gráfico: Link: https://www.nationalgeographic.com/science/article/150619-data-points-five-ways-to-lie-with-charts —> Comparando populações diferentes (número absoluto x taxa de incidência) Por fim, outra disputa de narrativa popular durante a pandemia tem sido a série de comparações esdrúxulas entre locais diferentes sem levar em conta o perfil demográfico. Por isso é importante entender a diferença entre a quantidade absoluta (de casos, internações ou mortes, por exemplo), e a taxa de incidência, calculada usando essa quantidade absoluta e a população daquele local. Em 31 de maio de 2021, o consórcio de veículos de imprensa contabilizava quase 68 milhões de doses de vacina contra a Covid-19 aplicadas no Brasil. Dessas, 45,6 milhões eram primeiras doses, o que representa 21,58% da população do país, e 22,1 milhões se referiam à segunda dose, chegando a 10,48% dos brasileiros totalmente imunizados. https://drive.google.com/file/d/1T8fmtG3I9FG4waRkDJzoRcWtUkX7fnoR/view?usp=sharing https://www.nationalgeographic.com/science/article/150619-data-points-five-ways-to-lie-with-charts Considerando o valor absoluto de doses aplicadas, o Brasil é nada menos do que o quarto país no ranking mundial. Isso, é claro, se deve a um detalhe crucial: o Brasil está entre os países com mais habitantes do mundo. Já quando calculamos a taxa de doses relativa à população (pode ser por milhão de habitantes, por 100 mil habitantes, por mil habitantes, não importa), o Brasil cai dezenas de posições no ranking mundial, mesmo se retirarmos da nossa seleção os países pequenos, para manter um mínimo de comparabilidade: 2c. Referências A Quick Guide to Spotting Graphics That Lie (National Geographic): https://www.nationalgeographic.com/science/article/150619-data-points-five-ways-to-lie-wit h-charts Como mentir com mapas e gráficos (Museu Exploratório de Ciências da Unicamp): https://www.youtube.com/watch?v=E8OMBmldN-U Aprenda a ler gráficos (e não ser enganado) (A Matemaníaca por Julia Jaccoud): https://www.youtube.com/watch?v=duodDus_Wuc Apostila de Estatística (Wanderley Akira Shiguti e Valéria da S. C. Shiguti): http://www.inf.ufsc.br/~paulo.s.borges/Download/Apostila5_INE5102_Quimica.pdf Aprendendo a representar escalar em gráficos: um estudo de intervenção (Maria Betânia Evangelista, UFPE): https://repositorio.ufpe.br/bitstream/123456789/13049/1/DISSERTA%C3%87%C3%83O%20 Maria%20Betania%20Evangelista.pdf Misleading Graphs and Statistics (Arkansas Tech University): https://faculty.atu.edu/mfinan/2043/section31.pdf Sobre a instrutora Ana Carolina Moreno é jornalista formada pela Universidade de São Paulo (USP) em 2006, com pós-graduação em Edição em Jornalismo pela Universidade da Coruña (Espanha) em 2009. Integrou o grupo de Focas do Estadão em 2006 e passou pelas redações do Terra Magazine, Jornal da Tarde, Folha e G1, onde foi repórter de Educação de 2011 a 2019 e venceu o Prêmio Andifes de Jornalismo em 2014 e 2015 e o segundo lugar do Prêmio Impa de Jornalismo em 2019. Desde janeiro de 2020 é jornalista sênior de dados na TV Globo, produzindo reportagens dirigidas por dados para os telejornais. A forma de contato mais rápida é pelo Twitter. https://www.nationalgeographic.com/science/article/150619-data-points-five-ways-to-lie-with-charts https://www.nationalgeographic.com/science/article/150619-data-points-five-ways-to-lie-with-chartshttps://www.youtube.com/watch?v=E8OMBmldN-U https://www.youtube.com/watch?v=duodDus_Wuc http://www.inf.ufsc.br/~paulo.s.borges/Download/Apostila5_INE5102_Quimica.pdf https://repositorio.ufpe.br/bitstream/123456789/13049/1/DISSERTA%C3%87%C3%83O%20Maria%20Betania%20Evangelista.pdf%5C https://repositorio.ufpe.br/bitstream/123456789/13049/1/DISSERTA%C3%87%C3%83O%20Maria%20Betania%20Evangelista.pdf%5C https://faculty.atu.edu/mfinan/2043/section31.pdf https://twitter.com/anarina
Compartilhar