Buscar

Trabalhando com dados _ 1

Prévia do material em texto

Tema | Trabalhando com dados | 1
Instrutor: Ana Carolina Moreno
Sumário
1. “Como mentir com números”
a. Introdução
b. Vocabulário dos dados
c. Formatos possíveis
d. Níveis de desagregação dos dados
e. Níveis de acesso aos dados
2. Desafios da vida real
a. Manipulação na hora de obter dados
b. Manipulação na hora de apresentar dados
c. Referências
1. “Como mentir com números”
1a. Introdução
Dois fenômenos têm se desenvolvido com muita rapidez nos últimos anos, e aprenderam a
caminhar de mãos dadas: a disseminação de desinformação e a difusão do chamado Big
Data, volumes cada vez maiores de dados graças à evolução tecnológica e ao avanço da
ciência de dados, que permite a aplicação de conceitos da estatística para manipular,
analisar e apresentar informações a partir desses dados.
Nas próximas três aulas deste curso vamos entender quais são esses conceitos e como
eles têm sido usados cada vez mais na divulgação de gráficos e dados com informações
mentirosas, distorcidas, manipuladas ou que induzem a conclusões equivocadas.
O objetivo é oferecer um olhar mais qualificado e atento para enxergar essas manipulações,
saber onde encontrar a fonte que pode confirmar ou desmentir os dados e aprender
ferramentas e técnicas básicas e fáceis de usar para a criação de gráficos preocupados em
transmitir informação verdadeira e precisa.
1b. Vocabulário dos dados
Este breve capítulo inclui um material de nivelamento para garantir a compreensão dos
conceitos e nomenclaturas básicas das estruturas de dados existentes, e quais podem
servir para o trabalho de checagem, monitoramento e investigação.
As bases de dados nada mais são do que tabelas contendo a informação que nos interessa.
Mas tanto o formato dessas tabelas quanto o conteúdo delas variam. Entender essa parte
básica já é meio caminho andado para saber rapidamente qual é e onde está a fonte de que
você precisa ao checar uma informação que usa dados.
1c. Formatos possíveis
O formato mais conhecido é o arquivo .xls ou .xlsx, ou seja, uma planilha que pode ser
aberta em softwares como o Excel ou no Google Planilhas e que você pode manipular com
fórmulas ou seleções.
Também muito conhecido é o .csv, um formato de planilha onde as colunas estão
separadas por vírgulas. Esse formato não serve apenas para abrir de uma forma confusa no
seu aplicativo de planilhas, mas para ocupar menos espaço no arquivo e permitir que ele
traga muito mais dados.
(Dica boa: Não sabe separar dados em colunas no Google Planilhas? Aprenda nesse
tutorial de 27 segundos: https://www.youtube.com/watch?v=1yBTwUGX1Pg)
É por isso que, muitas vezes, seu arquivo .csv não abre no Excel ou não carrega no Google
Planilhas: é porque ele tem linhas e colunas acima do limite de processamento desses
programas. Nesses casos, é preciso usar outros programas, que exigem conhecimento de
linguagens de consulta ou programação para acessar esses dados.
Outras versões são o formato .tsv, que tem valores separados não por vírgulas, mas pelo tab
|, e o .ods, a versão de planilhas do Linux.
Mas isso é se tudo correr bem. Não é incomum que os dados estejam em um .pdf, ou em
muitos pdfs, ou em um pdf que na verdade é uma foto de uma tabela impressa no papel
(acredite, não é fakenews, mas nas próximas três aulas você aprenderá dicas para evitar
que isso se repita).
Para ler mais
Maturidade em Dados Abertos: Entenda as 5 Estrelas (Open Knowledge Brasil):
https://www.ok.org.br/noticia/maturidade-em-dados-abertos-entenda-as-5-estrelas/
https://www.youtube.com/watch?v=1yBTwUGX1Pg
https://www.ok.org.br/noticia/maturidade-em-dados-abertos-entenda-as-5-estrelas/
1d. Níveis de desagregação do conteúdo
Ao abrir esses arquivos, nos deparamos com as tabelas que vamos usar. Essa tabela pode
vir com diversos níveis de desagregação dos dados.
—> Dados agregados
Por exemplo, ela pode ter apenas duas colunas, uma com o nome de cada UF em 27 linhas
e, ao lado, o total acumulado de mortes confirmadas por Covid-19 desde o início da
pandemia até aquele momento.
Ela pode, também, ter uma linha por ano e por UF e conter a mesma soma de mortes para
cada ano. Nesse caso, ela teria três colunas (ano, UF, mortes) e 54 linhas.
Esses são dois possíveis exemplos de dados agregados ou consolidados. Mas podemos
desagregar ainda mais, como por exemplo, trazendo uma linha para cada UF e para cada
dia, ou mesmo uma linha para cada dia e para cada município brasileiro.
Também podemos ter outros detalhes, como a data, o município, a UF correspondente, o
código do município, o acumulado de mortes até aquele dia e o total de mortes registradas
em 24 horas.
Nosso número de linhas e colunas aumenta conforme os dados vão ficando mais
desagregados.
É importante entender essa estrutura porque, a depender da informação de que precisamos
e dos dados que temos, vamos precisar ter mais ou menos trabalho de cálculo e análise. Se
precisarmos saber quantas mortes cada região do Brasil registrou, mas só temos os dados
por UF, vamos ter que fazer a soma, ou buscar uma fonte que já traga esse resultado
consolidado.
Nesse caso, podemos buscar em documentos oficiais dos vários entes governamentais,
inclusive em resumos ou boletins em PDF e painéis e dashboards online.
—> Dados desagregados (microdados)
Costumamos chamar de microdados o maior nível de desagregação disponível. No exemplo
acima (mortes por Covid-19), os microdados estão na base do Sistema de Informação de
Vigilância Epidemiológica da Gripe (Sivep-Gripe), do Ministério da Saúde.
Trata-se de uma tabela onde cada registro de paciente atendido em um hospital com
sintomas de Síndrome Respiratória Aguda Grave (SRAG) está em uma linha diferente, e
dezenas de colunas trazem detalhes sobre essa pessoa, como a raça, idade, data de
nascimento, município de residência, se e em que dia foi hospitalizada, que sintomas sentia,
se tem comorbidades, que exames foram feitos, quais foram os resultados dos exames,
qual foi o diagnóstico final, qual foi a evolução do caso (se e em que dia a pessoa teve alta
ou morreu), se e quando precisou de UTI, se precisou de ventilação mecânica etc.
Justamente pelo grande volume de detalhes, os microdados não costumam ser abertos em
programas como o Excel ou o Googel Planilhas, e eles carecem da realização de análises e
cálculos para passarem de dados e se tornarem informação.
Por exemplo, se preciso usar essa base para informar o público sobre quantas pessoas
morreram de Covid-19 em cada região do Brasil até um determinado dia, preciso aplicar
filtros (selecionar só os casos que terminaram em morte e só os casos em que o
diagnóstico final foi Covid-19)
Também precisarei fazer agrupamentos (somar as linhas de pacientes de cada estado,
depois reunir os estados em suas respectivas regiões e contabilizar o total dentro do
período especificado).
A imagem abaixo ilustra os diferentes estágios de trabalho em cima dos dados para que ele
tenha um impacto na sociedade:
Link: https://twitter.com/gapingvoid
1e. Níveis de acesso aos dados
Além de virem em formatos diferentes e com conteúdos diferentes, as bases também estão
dispostas em locais diferentes da internet e, em alguns casos, só são divulgadas se
pedirmos especificamente por elas.
Nas próximas aulas vamos descobrir como encontrar as principais bases de dados públicas
e como usar a Lei de Acesso à Informação para obter as bases que deveriam ser públicas.
https://twitter.com/gapingvoid
3. “Como mentir com números”
Agora que reconhecemos a importância de enxergar a informação contida nos gráficos,
vamos ver quais são os métodos mais frequentes de pressionar os números a falarem o
que queremos, mesmo que seja mentira.
Os exemplos a seguir ilustram uma série de artifícios esquematizados abaixo:
Manipulação na hora de obter dados: Manipulação na hora de apresentar dados:
Limitações para observar um fenômeno Manipulando as escalas de grandeza
Amostras não representativas Comparando finanças e ignorando a inflação
Coleta de dados tendenciosa ou incompleta Comparando alhos com bugalhos
Ocultandolimitações da base de dados
Inventando uma relação de causa e efeito
Embelezando demais e informando de menos
2a. Manipulação na hora de obter dados
—> Limitações para observar um fenômeno
Antes de partir para exemplos práticos, vamos começar reforçando um conceito básico: no
jornalismo e na esfera pública, utilizamos dados para tentar evidenciar uma possível relação
de causa e efeito de um evento da vida real que observamos. Por exemplo, a variação de
mortes em 2020 foi atípica na comparação com a variação registrada em anos anteriores e
a causa disso é a pandemia de uma
doença respiratória transmissível
nova, para a qual não existe
tratamento. Em anos sem pandemia,
a tendência é que o registro de
mortes varie pouco, e que o aumento
no decorrer do ano acompanhe os
meses mais frios.
O exemplo ao lado mostra essa
variação para o Estado de São Paulo,
separando as mortes mês a mês para
mostrar como, até 2019, nenhum mês
teve mais de 30 mil mortes
registradas, mas, em 2020, os meses
de maio a agosto registraram mais de
32 mil vidas perdidas:
Link para ler a reportagem e navegar pelo gráfico interativo:
https://g1.globo.com/sp/sao-paulo/noticia/2021/03/10/estado-de-sp-registra-mortalidade-12percent-maior-em-
2020-aponta-seade.ghtml
Mas nem todas as relações são tão evidentes porque um evento pode ser influenciado por
mais de uma causa (ou mais de um fator, ou mais de uma variável). No nosso exemplo
acima, locais diferentes tiveram variações de mortes diferentes em 2020 e os motivos
podem ser os mais variados possíveis, como medidas mais ou menos eficazes de
prevenção do contágio e rastreamento desse novo vírus, estrutura hospitalar pré-existente
mais ou menos robusta, a pirâmide etária da população com uma porcentagem maior ou
menor de pessoas nos grupos de maior risco de morte.
Isso sem contar, quando estamos falando diretamente das mortes pela doença, a diferença
entre as políticas de contabilização dos casos, que podem gerar mais ou menos
subnotificação.
Para complicar um pouco mais, ainda temos um impedimento comum: a maioria das bases
de dados que são fonte dessas informações são construídas manualmente por humanos
(às vezes, milhares de humanos sob condições das mais diversas). Por isso, erros nos
registros também precisam ser levados em conta.
Por isso, embora tenhamos dados para comparar o resultado de cada local, é difícil
quantificar o peso de cada uma dessas variáveis no resultado e, dependendo do método de
coleta dos dados na fonte, corremos o risco de comparar alhos e bugalhos.
Os desafios acima, claro, não são motivo para não fazer comparações, mas sim para
contextualizar a comparação e evitar conclusões equivocadas.
A estatística, em termos bem simples, é um método científico que pode nos ajudar a
superar parte desses obstáculos na hora de observar as possíveis causas de um evento.
—> Amostras não representativas
Uma das ferramentas da estatística é determinar a representatividade de uma amostra. A
análise estatística com base em amostragem é muito mais frequente do que imaginamos, já
que a alternativa é a coleta de dados censitários, ou seja, que conseguem abranger toda a
população. Esse tipo de coleta é caro e trabalhoso, não à toa os países realizam censos
populacionais a cada cinco ou dez anos (às vezes, nem isso).
Para trazer um exemplo talvez pouco evidente, temos o Pisa, o famoso “ranking da
educação mundial”, realizado pela OCDE e divulgado a cada três anos. Ele é muito usado
para comparar a educação brasileira com a de outras partes do mundo, e pode ser que você
veja por aí alguém mostrando o resultado do Brasil lado a lado com o resultado da China.
Essa comparação tem alguns problemas, primeiramente porque existem “três Pisas”, uma
proficiência por prova (de leitura, matemática e ciência).
https://g1.globo.com/sp/sao-paulo/noticia/2021/03/10/estado-de-sp-registra-mortalidade-12percent-maior-em-2020-aponta-seade.ghtml
https://g1.globo.com/sp/sao-paulo/noticia/2021/03/10/estado-de-sp-registra-mortalidade-12percent-maior-em-2020-aponta-seade.ghtml
E segundo porque a China não tem resultados nacionais divulgados pela OCDE. Motivo: o
país não participa da prova com uma amostra de jovens de 15 anos representativa da
população nacional. Por isso, algumas províncias e regiões com amostras validadas
estatisticamente entram na lista comparativa separadamente.
Uma delas (que reúne províncias como Xangai e Pequim), inclusive, ficou no topo neste ano,
ultrapassando Singapura. Mas Taipei, por sua, vez, ficou fora do top 10 em leitura:
Link para ler a reportagem:
https://g1.globo.com/educacao/noticia/2019/12/03/brasil-cai-em-ranking-mundial-de-educacao-em-matematica
-e-ciencias-e-fica-estagnado-em-leitura.ghtml
Já o governo brasileiro sempre
conseguiu ter um número mínimo de
estudantes para representarem o país
como um todo e, até a penúltima
edição, inclusive para ter resultados
para cada estado (veja o histórico ao
lado).
É muito provável que o Brasil, que
segue estagnado entre as 20 piores
posições, tenha uma proficiência
menor que a da China.
Mas quantificar qual é essa diferença e
mostrá-la em um gráfico exigiria
distorcer a realidade dos dados.
https://g1.globo.com/educacao/noticia/2019/12/03/brasil-cai-em-ranking-mundial-de-educacao-em-matematica-e-ciencias-e-fica-estagnado-em-leitura.ghtml
https://g1.globo.com/educacao/noticia/2019/12/03/brasil-cai-em-ranking-mundial-de-educacao-em-matematica-e-ciencias-e-fica-estagnado-em-leitura.ghtml
—> Coleta de dados tendenciosa ou incompleta
No exemplo acima, nossa amostra tem limitações de análise. Mas às vezes ela pode ter
limitações no próprio processo de definição do método de coleta dos dados.
Nesse quesito, um exemplo bastante frequente é o das pesquisas de opinião, que usam
uma amostra pequena de pessoas para estimar qual é a opinião de toda a população.
A definição de qual pergunta fazer e de como formular a pergunta pode influenciar
diretamente na resposta. Por isso as perguntas podem ser abertas (exemplo: “Se a eleição
fosse hoje, em quem você votaria?”) ou com alternativas fechadas (“Se a eleição fosse hoje,
em qual desses nomes você votaria?”). Escolher quais nomes vão estar nessa lista e
mesmo a ordem em que esses nomes vão ser apresentados pode comprometer o resultado.
Deixar um nome de fora pode tornar o resultado incompleto.
É diferente também perguntar “Você é favor da pena de morte em caso de homicídio?” e
“Você é a favor da pena de morte para alguém que matou um parente seu?”. O apelo
emocional pode induzir o respondente à resposta que você quer ouvir.
Para evitar pesquisas tendenciosas no período eleitoral, cada pesquisa de intenção de voto
precisa estar devidamente registrada no Tribunal Superior Eleitoral (TSE). A metodologia
(presencial, por telefone, online), a quantidade amostral, o método de definição da amostra e
a margem de erro devem ser incluídas.
Por isso, qualquer pesquisa ou sondagem não registrada precisa ser vista com cuidado
redobrado, e qualquer pesquisa registrada pode ser escrutinada para revelar possíveis
problemas metodológicos ou limitações de análise.
Aqui também vale uma dica de ouro: às vezes, um ranking ou comparação tem determinado
resultado porque os elementos comparados foram selecionados a dedo, e outros que
mudariam nossa conclusão ficaram de fora. Vale sempre se perguntar por que eles foram
excluídos.
3b. Manipulação na hora de apresentar dados
—> Manipulando as escalas de grandeza
Esse talvez seja o jeito mais comum de distorcer a informação: na hora de transformá-la em
um gráfico, as escalas são alteradas e acabam (propositalmente ou não) levando a uma
interpretação incorreta. Veremos a seguir exemplos que usam os três gráficos mais
frequentes: o de barras, o de linhas e o de pizza.
O primeiro deles vem da Espanha e apresenta tanto a distorção na escala do eixo Y (ou
escala vertical) quanto uma prática cada vez mais comum, mas que costuma confundir
mais do que informar: o gráfico 3D.
Ele mostra a audiência de duas emissoras de televisão concorrentes,e foi produzido em
2010 justamente pela Telecinco, emissora que teve o índice mais alto:
https://www.tse.jus.br/eleicoes/pesquisa-eleitorais/pesquisas-eleitorais-eleicoes-2020
Link para o vídeo original: https://www.youtube.com/watch?v=49pWj-CQ50U
Olhando apenas para a altura das duas barras, ficamos com a impressão de que a audiência
das novelas e séries (ficción nacional) da Telecinco (em azul) é quase o dobro da Antena 3
(laranja). No entanto, lendo os números da audiência de cada uma, nota-se que, na verdade,
a diferença é de apenas 0,3 ponto percentual, quase um empate.
Uma maneira de observar
melhor a realidade é atendo-se
à escala vertical com início no
valor 0.
Isso permite não só analisar
melhor a grandeza entre dois
ou mais valores em relação uns
com os outros, mas também
em relação aos valores
possíveis.
Veja ao lado o resultado
quando colocamos os mesmos
valores num gráfico de barras
proporcional:
https://www.youtube.com/watch?v=49pWj-CQ50U
Nosso segundo exemplo é uma dobradinha vinda da França, onde o gráfico de pizza é
chamado de “gráfico camembert”. Observe o gráfico abaixo, divulgado pela emissora
C-News em maio de 2018 com resultados de uma pesquisa de opinião sobre uma greve de
funcionários públicos franceses. Tente descobrir onde está a distorção:
Link: https://twitter.com/decodeurs/status/999209133986508800/photo/1
Mais uma vez, o desenho do gráfico não corresponde com as grandezas informadas nos
elementos numéricos. Se apenas 49% dos respondentes disseram que não apoiam a
mobilização, por que mais da metade do círculo está pintada da cor vermelha?
Além disso, se 49 mais 40 é igual a 89, então onde estão os 11 pedaços restantes para
completar 100%?
Às vezes a origem do problema pode ser técnica e involuntária: talvez o infografista tenha
digitado “1” em vez de “11”, e o resultado tenha sido esse.
Por isso é importante seguir o conselho de Alberto Cairo e tratar seus gráficos como
informação, e não apenas uma ilustração. Revisar todos os elementos é essencial antes de
levar o material ao ar.
Supostamente o problema técnico foi o caso de outro gráfico “camembert” apresentado um
mês antes por outro canal de televisão francês, o BFMTV, sobre o mesmo assunto. Aqui, a
parcela de 48% de pessoas que se opuseram à manifestação na pesquisa também
preenchem mais de 50% do gráfico. Veja abaixo:
https://www.lefigaro.fr/social/2018/05/22/20011-20180522ARTFIG00007-francais-et-decideurs-pour-la-reforme-et-contre-la-greve-des-fonctionnaires.php
https://twitter.com/decodeurs/status/999209133986508800/photo/1
https://www.bfmtv.com/replay-emissions/19h-ruth-elkrief/greve-a-la-sncf-le-soutien-s-essouffle-encore_VN-201804250164.html
https://www.bfmtv.com/replay-emissions/19h-ruth-elkrief/greve-a-la-sncf-le-soutien-s-essouffle-encore_VN-201804250164.html
A equipe de checagem de fatos CheckNews, do jornal Le Figaro, afirmou que, segundo a
emissora de televisão BFMTV, houve um problema no computador que repartiu
incorretamente as porcentagens, e um novo gráfico corrigido foi apresentado ao público.
A equipe da CheckNews mediu a parte vermelha do gráfico acima e notou que ela
representava 56% do total da pizza.
Ela também mostrou ao público uma versão com a divisão correta das porcentagens:
Link para a checagem completa (em francês):
https://www.liberation.fr/checknews/2018/04/27/est-ce-que-bfmtv-a-vraiment-affiche-un-graphique-a
-camembert-trompeur-sur-le-soutien-a-la-greve-des-_1653615/
https://www.liberation.fr/checknews/2018/04/27/est-ce-que-bfmtv-a-vraiment-affiche-un-graphique-a-camembert-trompeur-sur-le-soutien-a-la-greve-des-_1653615/
https://www.liberation.fr/checknews/2018/04/27/est-ce-que-bfmtv-a-vraiment-affiche-un-graphique-a-camembert-trompeur-sur-le-soutien-a-la-greve-des-_1653615/
Nosso último exemplo de manipulação de escalas é um gráfico de linhas publicado em
dezembro de 2020 pela Secretaria de Comunicação do governo federal, que usou da
manipulação de escalas e de uma interpretação incorreta do conceito de variação
percentual para induzir à conclusão de que o PIB do terceiro trimestre de 2020 era mais alto
do que o dos três trimestres anteriores.
Vejamos o gráfico original, já excluído do Twitter:
Note que a informação não traz o valor absoluto do PIB, apenas a variação de cada
trimestre em relação ao trimestre anterior. No entanto, a linha entre o trimestre de abril a
junho de 2020 e o de julho a setembro de 2020 na verdade não representa 7,7% entre o
primeiro e o segundo valor. O ponto deste último trimestre parece indicar uma altura de 7,7%
acima da linha horizontal que representa o 0%. É difícil cravar exatamente essa altura, já que
a escala tem apenas quatro hastes sem indicar valores, mas ela parece estar contando as
hastes de 2 em 2.
De todas as formas, levando em conta a queda de 1,5% seguida de outra queda de 9,6%,
essa alta de 7,7% não é suficiente para levar a linha de volta ao lado positivo da escala.
A professora de economia
Laura Carvalho, da
Universidade de São Paulo
(USP), refez o gráfico
considerando o valor 100
para o patamar da linha
horizontal, e desenhando a
linha dentro da escala correta
das variações percentuais.
Nessa versão, fica claro que,
apesar de o PIB ter tido alta,
ela não foi suficiente para
retomar o crescimento de
2019:
Link para o tuíte original: https://twitter.com/lauraabcarvalho/status/1334833464793817090/photo/1
https://twitter.com/secomvc/status/1334589636153397249
https://twitter.com/lauraabcarvalho/status/1334833464793817090/photo/1
—> Comparando finanças sem lembrar da inflação
Essa é uma estratégia também comum e muito eficaz para convencer pessoas desavisadas.
Quando comparamos valores como gastos do governo ou orçamento atuais com as
mesmas cifras de anos anteriores, sempre precisamos ajustar os valores do passado pela
inflação de hoje para chegar a uma comparação real, e não apenas nominal.
Lembrando: a inflação é o que reduz o nosso poder de compra ao longo dos anos. Por isso,
a quantia de R$ 10 milhões hoje não tem o mesmo valor que tinha há cinco anos.
O exemplo abaixo se trata de uma checagem do Comprova a partir de um tuíte que viralizou
e teve dezenas de milhares de compartilhamentos. A postagem comparava o “pico” do dólar
na gestão dos últimos cinco presidentes a ocuparem o cargo até 2019, para mostrar que a
gestão mais recente, de Jair Bolsonaro, teve o valor mais alto.
A equipe de checagem,
porém, calculou tanto o
reajuste pela inflação do
real quanto o do dólar para
comprovar que essa
informação era enganosa.
Para isso, foram usadas
diversas fontes que
registram o histórico dos
valores no formato nominal
e que aplicam o cálculo
para verificar o valor real
nos dias de hoje.
Veja, ao lado, o gráfico de
linhas feito pelo Comprova
para comparar a diferença
entre o valor nominal e o
real do dólar em reais ao
longo dos anos.
Note como a linha amarela
(valor corrigido) nos anos
anteriores foi muito mais
alta do que a versão
nominal.
Link para a checagem completa:
https://politica.estadao.com.br/blogs/estadao-verifica/com-correcao-pela-inflacao-dolar-sob-bolsona
ro-nao-e-o-mais-caro-desde-o-plano-real/
https://politica.estadao.com.br/blogs/estadao-verifica/com-correcao-pela-inflacao-dolar-sob-bolsonaro-nao-e-o-mais-caro-desde-o-plano-real/
https://politica.estadao.com.br/blogs/estadao-verifica/com-correcao-pela-inflacao-dolar-sob-bolsonaro-nao-e-o-mais-caro-desde-o-plano-real/
—> Comparando alhos e bugalhos
Às vezes a escala está correta, mas são os dados que trazem o problema. Nesse caso os
demais elementos do gráfico podem ajudar a detectar onde está a desinformação. O
exemplo abaixo mostra o histórico de gastos do governo federal com publicidade até 2019,
em uma postagem no Facebook checada pela Agência Lupa:
O texto que acompanha o gráfico diz que se tratam de “Valores gastos com publicidade nos
governos de FHC (em azul [R$ 4,8 bi]), do PT (em vermelho [R$ 29,7 bi])” e do “Valor orçado
para ser gasto esse ano no governo do Bolsonaro (em verde [R$ 150 milhões])”. O que ele
não explicaé que a comparação é feita usando fontes diferentes e que o texto soma
períodos diferentes (três anos da gestão PSDB e 14 anos da gestão do PT).
No caso dos governos tucanos e petistas, a fonte de fato é o IAP, o Instituto de
Acompanhamento da Publicidade (IAP), que deixou de existir em 2017. Note que os anos da
gestão Temer (2017 e 2018) não aparecem no gráfico.
Além disso, o levantamento do IAP inclui
todas as despesas globais do governo
federal com publicidade.
Já para o primeiro ano da gestão
Bolsonaro, o valor seria uma previsão
orçamentária. Consultando o Siga Brasil,
a Lupa descobriu que, considerando
apenas o orçamento de despesas
diretas da administração com
publicidade, o valor era três vezes maior.
A checagem comparou, então, os
valores dessa mesma fonte com o total
empenhado nas gestões anteriores,
aplicou a correção pela inflação e
descobriu que o orçamento de 2019 era
o mais alto desde 2014 (veja ao lado):
https://piaui.folha.uol.com.br/lupa/2019/03/15/verificamos-publicidade-governo/
—> Inventando uma relação de causa e efeito
Dois conceitos importantíssimos na análise estatística são o da correlação e o da
causalidade. Existem métodos para calcular numericamente se a correlação entre um
evento e outro é forte ou fraca. Mas, ainda que ela seja forte, isso não significa
automaticamente que um evento influencie o outro e vice-versa, por mais que queiramos.
Nas referências você pode ver mais bibliografia sobre o assunto. Mas, para entender
facilmente, lembre-se sempre do “gráfico Nicolas Cage”:
Existe uma forte correlação entre o número de filmes nos quais o Nicolas Cage aparece e as
mortes por afogamento por ano? Sim! Uma coisa leva à outra? Claro que não!
Link para o site Spurious Correlations, cheio de correlações absurdas como essa:
https://www.tylervigen.com/spurious-correlations
—> Ocultando limitações da base de dados
Para esse exemplo, vamos retornar ao tema da pandemia, já que ele fez proliferar gráficos
que tentam distorcer a realidade ao ocultar as limitações dos dados apresentados. Aqui o
conceito-chave é atraso de notificação (ou de registros), já que a base de dados que
contabiliza as mortes confirmadas pela Covid-19 (a Sivep-Gripe, do Ministério da Saúde) não
é preenchida em tempo real assim que uma nova morte ocorre.
Os fatores por trás disso são vários. Pode ser que a pessoa tenha morrido antes da chegada
do resultado do exame RT-PCR que confirma a doença, pode ser que o hospital esteja com a
equipe sobrecarregada e demore até que a pessoa responsável pela digitação de dados no
sistema consiga atualizar os dados do caso e informar sobre a morte. Pode ser que a
prefeitura daquela cidade seja responsável por essa digitação, e a equipe tenha uma pilha
de fichas para incluir no sistema. Esse atraso, inclusive, pode levar várias semanas.
Por isso, sempre (sempre mesmo) que acessamos essa base de dados para extrair a
quantidade diária de mortes, os dias mais recentes vão apresentar queda. Não significa que
estamos vendo uma redução das mortes nesse período, significa que ainda não deu tempo
de as mortes nesse período entrarem na base de dados.
https://www.tylervigen.com/spurious-correlations
Essa questão, porém, tem sido deliberadamente ocultada em gráficos difundidos por
pessoas interessadas em induzir o público à conclusão de que sim, houve mortes, mas que
o pior já passou e, por isso, não é necessário tomar medidas de combate ao vírus.
Para podermos “enxergar” esse artifício temporal, compare os dois gráficos abaixo. Ambos
têm a mesma fonte (Sivep-Gripe) e trazem o mesmo filtro (média diária de internações por
SRAG e de mortes confirmadas de Covid no Estado de São Paulo, agrupada pela data em
que a pessoa foi internada ou morreu).
A diferença é que o primeiro gráfico analisa os dados que estavam na base até 10/05/2021.
O segundo usa os dados da versão da base divulgada em 24/05/2021:
Note como, no primeiro gráfico, as duas linhas “desabam” após o início de abril de 2021 até
o início de maio. Já no segundo gráfico, a mesma linha agora faz um desenho diferente para
o mesmo período, mostrando que, nas duas semanas entre uma versão e outra, a base
recebeu registros retroativos que mudam completamente nossa interpretação.
Veja no link um GIF comparando os dois gráficos:
https://drive.google.com/file/d/1T8fmtG3I9FG4waRkDJzoRcWtUkX7fnoR/view?usp=sharing
—> Embelezando demais
Todo mundo adora ver infografias lindas e requintadas no jornal. Mas, se a parte decorativa
afetar a informativa, então aquele gráfico perde sua razão de ser. No exemplo abaixo, mais
um que usa o recurso 3D, note como o ângulo faz com que a parte verde pareça a maior de
todas, quando, na verdade, é a azul que ocupa a maior fatia do gráfico:
Link: https://www.nationalgeographic.com/science/article/150619-data-points-five-ways-to-lie-with-charts
—> Comparando populações diferentes (número absoluto x taxa de incidência)
Por fim, outra disputa de narrativa popular durante a pandemia tem sido a série de
comparações esdrúxulas entre locais diferentes sem levar em conta o perfil demográfico.
Por isso é importante entender a diferença entre a quantidade absoluta (de casos,
internações ou mortes, por exemplo), e a taxa de incidência, calculada usando essa
quantidade absoluta e a população daquele local.
Em 31 de maio de 2021, o consórcio de veículos de imprensa contabilizava quase 68
milhões de doses de vacina contra a Covid-19 aplicadas no Brasil. Dessas, 45,6 milhões
eram primeiras doses, o que representa 21,58% da população do país, e 22,1 milhões se
referiam à segunda dose, chegando a 10,48% dos brasileiros totalmente imunizados.
https://drive.google.com/file/d/1T8fmtG3I9FG4waRkDJzoRcWtUkX7fnoR/view?usp=sharing
https://www.nationalgeographic.com/science/article/150619-data-points-five-ways-to-lie-with-charts
Considerando o valor absoluto de doses aplicadas, o Brasil é nada menos do que o quarto
país no ranking mundial. Isso, é claro, se deve a um detalhe crucial: o Brasil está entre os
países com mais habitantes do mundo.
Já quando calculamos a taxa de doses relativa à população (pode ser por milhão de
habitantes, por 100 mil habitantes, por mil habitantes, não importa), o Brasil cai dezenas de
posições no ranking mundial, mesmo se retirarmos da nossa seleção os países pequenos,
para manter um mínimo de comparabilidade:
2c. Referências
A Quick Guide to Spotting Graphics That Lie (National Geographic):
https://www.nationalgeographic.com/science/article/150619-data-points-five-ways-to-lie-wit
h-charts
Como mentir com mapas e gráficos (Museu Exploratório de Ciências da Unicamp):
https://www.youtube.com/watch?v=E8OMBmldN-U
Aprenda a ler gráficos (e não ser enganado) (A Matemaníaca por Julia Jaccoud):
https://www.youtube.com/watch?v=duodDus_Wuc
Apostila de Estatística (Wanderley Akira Shiguti e Valéria da S. C. Shiguti):
http://www.inf.ufsc.br/~paulo.s.borges/Download/Apostila5_INE5102_Quimica.pdf
Aprendendo a representar escalar em gráficos: um estudo de intervenção (Maria Betânia
Evangelista, UFPE):
https://repositorio.ufpe.br/bitstream/123456789/13049/1/DISSERTA%C3%87%C3%83O%20
Maria%20Betania%20Evangelista.pdf
Misleading Graphs and Statistics (Arkansas Tech University):
https://faculty.atu.edu/mfinan/2043/section31.pdf
Sobre a instrutora
Ana Carolina Moreno é jornalista formada pela Universidade de São Paulo (USP) em 2006,
com pós-graduação em Edição em Jornalismo pela Universidade da Coruña (Espanha) em
2009. Integrou o grupo de Focas do Estadão em 2006 e passou pelas redações do Terra
Magazine, Jornal da Tarde, Folha e G1, onde foi repórter de Educação de 2011 a 2019 e
venceu o Prêmio Andifes de Jornalismo em 2014 e 2015 e o segundo lugar do Prêmio Impa
de Jornalismo em 2019. Desde janeiro de 2020 é jornalista sênior de dados na TV Globo,
produzindo reportagens dirigidas por dados para os telejornais. A forma de contato mais
rápida é pelo Twitter.
https://www.nationalgeographic.com/science/article/150619-data-points-five-ways-to-lie-with-charts
https://www.nationalgeographic.com/science/article/150619-data-points-five-ways-to-lie-with-chartshttps://www.youtube.com/watch?v=E8OMBmldN-U
https://www.youtube.com/watch?v=duodDus_Wuc
http://www.inf.ufsc.br/~paulo.s.borges/Download/Apostila5_INE5102_Quimica.pdf
https://repositorio.ufpe.br/bitstream/123456789/13049/1/DISSERTA%C3%87%C3%83O%20Maria%20Betania%20Evangelista.pdf%5C
https://repositorio.ufpe.br/bitstream/123456789/13049/1/DISSERTA%C3%87%C3%83O%20Maria%20Betania%20Evangelista.pdf%5C
https://faculty.atu.edu/mfinan/2043/section31.pdf
https://twitter.com/anarina

Continue navegando