Buscar

3 UND - BIOESTATÍSTICA TABELAS E GRAFICOS

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

3 UNIDADE – BIOESTATÍSTICA MÉTODOS ESTATÍSTICOS DESCRITIVO
Diogo Tavares Cardoso
1 Tabelas e gráficos
O estilo de visualizar os dados é importante para sua melhor compreensão e as tabelas e gráficos são formas de se apresentar as informações. Por isto, optar por utilizar alguns desse recursos favorece a interpretação, deixando-a mais intuitiva. Mesmo havendo grande importância na apresentação dos dados, muitos estudantes desconhecem a forma correta de fazê-la. Para isto, é necessário entender como as tabelas e gráficos devem ser feitos, de forma a trazer uma grande relevância aos dados e chamar a atenção de quem está observando-os. A correta apresentação das tabelas e gráficos, além de ajudar como apresentar os dados, pode te orientar na interpretação de outros dados.
1.1 Tabelas
Após a coleta de dados, sendo estes registrados em ficha, cadernos ou meio eletrônico, estas informações podem ser apresentadas em textos. Contudo, ao apresentar os resultados como tabelas ou gráficos, a leitura dos resultados se torna mais intuitiva e menos cansativa. A escolha entre qual desses recursos utilizar para apresentar os dados está relacionado às características dos resultados e ao objetivo com qual se propõe, porém, sempre que possível, deve-se optar pelo uso de tabelas, visto que será possível apresentar os valores mais precisos. Entretanto, existem algumas exceções, onde apresentar os resultados em gráficos deve ser levado em consideração.
Imagine apresentar a taxa de incidência da dengue durante 20 anos no Brasil. Provavelmente, com essa informação apresentada em tabela, seria difícil observar os anos endêmicos e epidêmicos. Assim, observar esta mesma informação em gráfico, enfatizando os picos da doença, tornaria mais fácil a leitura por qualquer pessoa. Pense sempre qual a melhor maneira de apresentar os dados que você tem, pois isso ajuda na hora da escolha.
Além de coletar as informações, a estatística tem como o objetivo resumir o resultado dos dados coletados das variáveis observadas. Para resumir estas informações, é possível utilizar de alguns recursos, sendo estes tabelas ou gráficos. Estes recursos fornecem informações a respeito das variáveis observadas no estudo. No dia a dia, nos deparamos com diversas tabelas, sendo algo corriqueiro no cotidiano de cada um. Segundo Sergio & Weber (2016, p. 30), a tabela pode ser definida como:
[...] um quadro, que sintetiza um conjunto de observações, com o objetivo de uniformizá-las e racionalizá-las, de forma a tornar mais simples e fácil a sua percepção. Destarte, uma tabela deve ser construída de modo a fornecer o máximo de esclarecimentos, com o mínimo de espaço.
Segundo a norma ABNT 6022 (2018, p. 3) a tabela é uma “forma não discursiva de apresentar informações das quais o dado numérico se destaca como informação central.” Assim, a tabela é uma forma de destacar os números e essa seria a melhor maneira de apresentar em grupos, sendo de fácil visualização e, por isso, sendo melhor apresentar os dados em grupos menores. As tabelas devem ser colocadas em texto na ordem em que aparecem e o mais próximo possível do trecho a que se referem. Nesta mesma norma, a ABNT define que as tabelas devem ser padronizadas conforme norma do Instituto Brasileiro de Geografia e Estatística (IBGE).
A norma técnica do IBGE orienta que todas as tabelas devem possuir um título, cabeçalho e coluna e deve ser delimitada por traços horizontais. Cada um desses elementos deve trazer informações relevantes sobe os dados apresentados. Vejamos seus elementos:
TITULO - Apresenta o que contém na tabela, deve ser inserido no topo e necessita indicar dados numéricos, temporal natureza ou local. Além disso o título deve ser breve e claro.
CORPO DE TABELA - É o local onde estão os dados e os termos necessários à sua compreensão, dispostos em linhas e colunas.
CABEÇARIO - Complementa o título e traz as informações sobre o conteúdo das colunas. Deve ser estar separado por um traço do restante da tabela.
Além dos elementos obrigatórios, a tabela pode conter elementos complementares que, como sugere o nome, complementam as informações relevantes ao entendimento dos dados, podendo ser fontes ou notas. Estes dados devem ser inseridos somente se forem trazer informações relevantes às informações que estão contidas na tabela.
· Fonte apresenta o autor dos dados, ou seja, quem forneceu os dados estatísticos, exemplo: Ibope, Ministério da Saúde etc.
· Notas trazem esclarecimento geral sobre a natureza dos dados com informações complementares para ajudar a compreender. Devem ser colocadas preferencialmente no rodapé (IBGE, 1993). A tabela “Custos dos censos demográficos 2000 e 2010 (em R$)”, que temos abaixo, traz estas informações. Veja que a nota esclarece aspectos importante sobre o evento observado, informando de que maneira os custos anuais foram corrigidos.
Tabela 1 - Custos dos censos demográficos 2000 e 2010 (em R$)Fonte: (IGBE, 2013)
#PraCegoVer: Na imagem vemos uma tabela de custos dos censos demográficos dos anos de 2000 a 2010 em reais.
A tabela acima traz um resumo dos dados do censo demográfico de 2010, compara a informação com o censo demográfico de 2000 e trazer o resumo de alguns resultados do censo, apresentando as mudanças dessas variáveis nos dois tempos. Essa tabela também é conhecida como tabela de categoria, onde cada linha representa uma categoria. Nesta categoria podem ser incluídas variáveis, observadas no censo demográfico, igual vimos acima, como pode ser a intensidade da dor que mulheres sentem na hora do parto natural, por exemplo, sendo a dor classificada em “nenhuma ou pouca”, “leve”, “moderada” ou “forte”.
A tabela também pode trazer outras informações agrupadas e estas podem ser apresentada em tabelas agrupadas, de duas maneiras. A primeira maneira de apresentar em tabelas agrupadas é relacionando os valores, já a segunda é por intervalos de classes. Vamos utilizar um dado hipotético sobre um lote de 100 suínos enviado ao abate, onde o peso observado entre eles varia de 74Kg à 115 Kg. Assim, a “Frequência da distribuição do peso de suínos ao abate” apresenta a quantidade de suínos agrupadas por peso. Nesse caso, seria melhor agrupar o número de valores agrupando em intervalos.
Tabela 2 - Frequência da distribuição do peso de suínos ao abate.Fonte: Elaborado pelo autor.
#PraCegoVer: Na imagem, vemos uma tabela com a frequência da distribuição do peso de suínos ao abate.
Agrupar os dados em intervalos facilita a visualização da tabela, deixando-a mais intuitiva. Antes de construir a tabela, devemos buscar maneiras de agrupar o intervalo das observações. Nas normas de apresentação tabular do IBGE, não há uma definição de como se deve agrupar as observações e, com isso, não existe uma regra clara quanto a isso, porém, alguns autores trazem sugestões da melhor maneira fazê-lo. Sugere-se, então, que não tenha menos que seis intervalos e que não seja superior a 15 intervalos. Outra sugestão é que, sempre que possível, os intervalos de classe devem ser em múltiplos de 10 unidades (TAYLOR; BLAIR, 2013). Na tabela “Classe do peso dos suínos no abate”, optamos por agrupar em seis classes, onde esses intervalos são chamados de intervalos de classes.
Tabela 3 - Classe do peso dos suínos no abate.Fonte: Elaborado pelo autor.
#PraCegoVer: Na imagem, vemos uma tabela com a classe do peso dos suínos no abate.
Categorizar por classe pode ser por intervalos de valores ou podem ser classificadas pela intensidade como “baixo”, “médio” e “alto” ou “leve”, “moderado” e “intenso”. A tabela “Frequência indivíduos positivos categoria por OPG” também traz as informações agrupas por classes. Nela, vemos o resultado de indivíduos positivos para esquistossomose pelo exame de fezes de Kato-Katz em indivíduos de arpa endêmica no Brasil. Nesse estudo, os casos são agrupados conforme OPG (ovos por gramas de fezes). A tabela “Frequência indivíduos positivos categoria por OPG” traz a distribuição da frequência de quatro maneiras.
Tabela 4 - Frequência de indivíduos positivos categoria por OPG.Fonte:(OLIVEIRA et al., 2018)
#PraCegoVer: Na imagem, vemos uma tabela com a frequência de indivíduos positivos para OPG.
Na coluna de frequência, mostra a quantidade de indivíduos positivos de acordo com a classe e na coluna de frequência relativa, é a proporção dos casos em cada categoria de OPG. Por estas duas colunas, é possível observar que a categoria com o maior número de valor está na categoria de baixo, com 32 de indivíduos. A coluna de frequência relativa cumulada apresenta a porcentagem das linhas, que são iguais ou menores àquele determinado valor. A frequência relativa cumulada da categoria moderada indica que 92% dos pacientes foram categorizados com infecção menor ou moderada (<399 OPG).
A norma de tabular dados do IBGE é conteúdo importante para a compreensão da apresentação de dados, além de ser um ótimo guia em momentos de dúvidas.
Ele pode ser acessado, na íntegra, pelo link disponível nas referências bibliográficas.
As tabelas exigem elementos obrigatórios e permite a utilização dos elementos complementares, pois devem ser autoexplicativas e, para que isso seja possível, nenhuma informação deve ser omitida. Ao optarpela apresentação dos dados em tabelas, pode-se ou não seguir as Normas de Apresentação Tabular do IBGE, porém ao utilizar estas informações é possível melhorar a clareza dos resultados.
1.2 Gráficos
Normalmente, é mais prático apresentar a distribuição dos dados em forma de gráfico, ao invés das tabelas, pois ajudam a visualizar a distribuição das variáveis e eventos observados. Além do exemplo já dado, na taxa de incidência do Dengue, o gráfico pode trazer a informação de maneira mais ilustrada que a tabela. Vamos utilizar o exemplo dos casos do COVID-19 nos Estados Unidos. Essa informação está contida na Gráfico “Número de casos do COVID-19 nos EUA”, logo abaixo. Nele é possível observar o crescimento exponencial dos casos do COVID-19 nos Estados Unidos (EUA) desde o primeiro caso, confirmado em 22 de janeiro de 2020 até o dia 13 de março de 2020 e esta informação é demonstrada de maneira clara e objetiva. Se a mesma informação fosse apresentada em tabela poderia ser cansativo e, talvez, não seria tão simples observar o crescimento exponencial dos casos. Como na “Número de casos do COVID-19 nos EUA” apresenta os dados diários, seria necessária uma tabela com 53 linhas, onde cada linha representaria um dia. É claro que apresentar esta informação em tabela traz muito mais informações que o gráfico, pois seria possível ver a quantidade de casos exatos em cada dia, porém, a depender do objetivo o gráfico, pode ser mais intuitivo e ilustrativo se os dados foram apresentados desta forma. Imagine mostrar a mesma informação após 6 meses ou 1 ano. Assim, seria apenas um aglomerado de números e datas. Nesse gráfico pode ser visto o crescimento exponencial dos casos, sendo possível perceber esta informação de forma clara e objetivo.
Figura 1 - Número de casos do COVID-19 nos EUA.Fonte: (HARRY, 2020)
#PraCegoVer: Na figura, é possível ver um gráfico, representando o crescimento de casos de COVID-19 nos EUA, em 2020
A escolha de apresentação dos resultados por meio de gráficos ou tabelas do seu objetivo. A seguir, vamos entender qual gráfico é melhor utilizar, conforme os dados disponíveis. Os tipos de gráficos podem alterar conforme o formato das variáveis ou o objetivo da apresentação dos dados.
Para a confecção do gráfico, há consenso entre os estudiosos sobre os elementos que são obrigatórios. Sendo eles: título, escala e legenda.
· Título
Pode ser colocado acima ou abaixo do gráfico.
· Escalas
Devem crescer da esquerda para a direita e de baixo para cima.
Legendas
Devem trazer explicação sobre os conteúdos do gráfico e devem ser colocados à direita do gráfico, de preferência. Além disto, deve-se apresentar o significado de cada cor ou símbolo que estejam presente nos seus dados.
Outro elemento possível é o nome dos eixos X e Y que, apesar de não ser considerado obrigatório por alguns autores (TAYLOR; BLAIR, 2013; VIEIRA, 2011), é extremamente importante para melhorar o entendimento do gráfico. Lembre-se que o gráfico, assim com a tabela, deve ser auto explicativo, por isso toda informação é importante.
O mesmo dado pode ser apresentado em gráficos diferentes, por isso, na próxima seção, vamos conhecer alguns tipos de gráficos que irão ajudar você preparar eles e a interpretar os gráficos.
2. Tipos de Gráficos
Vimos anteriormente que gráficos podem ser uma das opções para a apresentação de dados, pois trazem a informação de maneira clara e intuitiva. A seguir, conheceremos os tipos de gráficos que podem ser utilizados.
2.1 Gráficos em barra
Costuma ser usado para a apresentação da distribuição das variáveis qualitativas. Este tipo de gráfico mostra a frequência relativa da tabela “Frequência indivíduos positivos categoria por OPG”. No eixo (x), podemos ver a categoria do resultado encontrado, demostrando o nível da infecção, e, no eixo (y), são apresentadas as frequências relativas. A frequência relativa é possível observar conforme a altura da barra. O gráfico “Frequência indivíduos positivos com esquistossomose categorizado por OPG” tem o formato em barras, onde é representada a quantidade de indivíduos positivos por esquistossomose e a intensidade da carga parasitária.
Figura 2 - Frequência indivíduos positivos com esquistossomose categorizado por OPGFonte: (OLIVEIRA et al., 2018)
#PraCegoVer: A imagem presenta um gráfico de barras, onde há três barras separadas e cada uma representa a porcentagem dos indivíduos nessa categoria.
O gráfico de barras deve ser utilizado com variáveis agrupadas e/ou quando se quer saber a quantidade de cidades afetadas por algum agravo. Desta forma, é possível apresentar todos os resultados simultâneos por meio do gráfico (VIEIRA, 2011).
2.2 Histograma
Apesar do histograma ser semelhante ao gráfico de barras, há algumas diferenças, como a proximidade das barras. Os gráficos juntos são feitos para enfatizar o fato de que os dados são contínuos, enquanto no gráfico de barras isso não é observado. O gráfico de barras é utilizado quando os dados são discretos, ou seja, a informação observada forma um conjunto finito de dados ou enumerável, onde o gráfico não utiliza dados adjacentes. Já o histograma é utilizado para dados contínuos, isto é, onde os dados incluem todos os valores do intervalo da alteração da variável medida.
Observe o gráfico “Nota dos alunos em matemática na escola”. As categorias “notas” da variável é uma variável contínua e estão representadas no eixo horizontal. O número de alunos, por sua vez, está no eixo vertical. A altura de cada barra representa a frequência absoluta de casos (pode também ser a frequência relativa) em cada uma das categorias da variável “tempo”, chamadas também de intervalos de classe.
Figura 3 - Nota dos alunos em matemática na escola.Fonte: Elaborado pelo autor.
#PraCegoVer: A figura apresenta um gráfico de histograma, onde as barras estão uma ao lada da outra e agrupadas, e cada altura representa a quantidade da alunos que conseguiram a nota no respectivo intervalo.
2.3 Polígono
O polígono pode ser utilizado para a construção em qualquer uma das distribuições discutidas até agora. Os polígonos são construídos de maneira semelhante ao histograma, com a diferença de que, no polígono, ao invés de barras, são utilizados pontos médios onde seria o extremo superior de cada barra em um histograma. Os pontos são colocados a uma altura proporcional ao eixo y e, então, conectados por linhas. É por isto que alguns o chamam de gráficos de linhas. O polígono é útil pra visualizar de maneira simétrica a distribuição dos dados coletados. Sua vantagem é que os dados são apresentados de forma simétrica e simultânea. No gráfico “Taxa de incidência de leishmaniose por ano”, vemos este exemplo.
Figura 4 - Taxa de incidência de leishmaniose por ano.Fonte: Adaptado de Cardoso et al., 2019.
#PraCegoVer: A imagem apresenta um gráfico de polígono com uma linha cinza que apresenta a taxa de incidência de leishmaniosetegumentar americana por cada ano.
É possível, também, associar mais de um gráfico. Combinados, eles ajudam a compreender mais de uma variável que pode ou não estar relacionada. O gráfico sobre “Casos anuais de LTA por municípios e taxa de Incidência anuais”, por exemplo, traz a distribuição temporal da taxa de incidência da LTA no estado de Minas Gerais no período de 2007 a 2015. A taxa de incidência é a linha cinza (gráfico de polígono) e o número de municípios no estado com casos de LTA confirmados por ano, as colunas pretas (gráficos de barra). Nesta combinação, é possível apresentar duas informações em apenas um gráfico, assim facilita a compreensão e permite comparar os dois gráficos.
Figura 5 - Casos anuais de LTA por municípios e taxa de incidência anuais.Fonte: (CARDOSO et al., 2019)
#PraCegoVer: A figura traz a combinação de dois gráficos, sendo um de polígono, com uma linha cinza que apresenta a taxa de incidência de leishmaniose tegumentar americana, e o outro de barras, na cor preta, que apresenta o número de município que apresentou um caso de leishmaniose em cada ano.
Na escolha do gráfico, deve-se levar sempre conta qual apresentará melhor os dados disponíveis, de forma mais intuitiva e facilitada. Sempre faça testes para escolher qual o melhor gráfico ou a melhor combinação deles irá transmitir a informação com a maior exatidão possível.
3 Medidas de tendência central
As medidas de tendência central são medidas que, mediante apenas um só número, trazem as características dos dados. Portanto, em um único número são expressos valores que representa o conjunto de dados. As medidas de tendência central mais conhecidas são a média, ou média aritmética de um conjunto de dados. Nesta seção, iremos examinar três classes distintas dessas medidas, que são: média, mediana e moda.
Assista aí
3.1 Média
A média aritmética, ou simplesmente média, é a mais conhecida das medidas centrais. A média pode ser interpretada como o valor que todos os outros dados teriam se fossem iguais entre eles. A média ainda pode ser interpretada como o ponto de equilíbrio entre valores discrepantes de um conjunto de dados.
A partir de dados brutos sobre valores numéricos, o cálculo da média é bastante direto. Somamos os valores da variável sobre todas as unidades e depois dividimos pelo número de unidades.
A média, embora seja uma informação preliminar sobre um conjunto de dados, apresenta uma limitação, visto que ela pode ser influenciada pelos valores extremos que acabam por modificar seu resultado. A média dever ser utilizada com cautela, uma vez que é uma medida extremamente sensível aos valores atípicos. Para poder confirmar essa afirmativa, pode-se considerar como exemplo:
Podemos observar claramente que o ultimo individuo, com 58 anos, é um valor atípico e, ao acrescenta-lo, a média foi alterada em 4,3 anos de idade. Neste caso, a percepção sobre a existência de valores atípicos é importante para corrigir ou minimizar possíveis erros.
3.2 Mediana
A mediana é outra medida de tendência central, simbolizada por . É o valor que ocupa a posição central e divide o conjunto dos dados ordenados ao meio. A diferença principal entre a média e mediana é que, durante o cálculo da média, todos os valores são considerados para o cálculo, mas isso não ocorre na mediana. Valores extremos nas amostras (valores muito altos ou muito baixo) de uma mesma variável geral distorções grandes na média e essa variação não ocorre na mediana, que é mais robusta e não está sujeita a essas oscilações dos valores.
A mediana corresponde ao número central da amostra. Ela divide a amostra em duas partes, sendo um grupo com números menores ou iguais à mediana e outra com maiores ou iguais à mediana. A mediana é dada pelo número na posição central dos valores. Quando os valores dos dados totalizam número ímpares, a posição da mediana é dada por um único valor na posição central, sendo este o valor da mediana. Vamos observar a idade de indivíduos que possuem doença celíaca, nesse exemplo (amostra 1): (12, 18, 19, 20, 14, 27, 29, 18, 58)
Primeiro, deve-se ordenar os números, colocando-os em ordem crescente. Nesta amostra, o número de observações é ímpar e a mediana é o número central 19 porque é o valor que está no centro do conjunto, após a ordenação. Porém, quando número de observações é par, dois valores ocuparam a posição central, com isso a mediana é a média desses dois valores.
Acontece casos em que a média deve ser utilizada em relação à mediana, mesmo que haja valores discrepantes. Exemplo: Em uma família, onde três pessoas residem juntas e apenas uma trabalhe, com renda de R$3.000,00. Teremos uma média de R$1.000,00 por pessoa. Contudo, a mediana é R$0,00 (zero). Por isso deve-se escolher entre a média e a mediana com bastante cautela em cada caso.
3.3 Moda
A moda de um conjunto de dados é o valor que ocorre com mais frequência. Por exemplo, sendo (12, 14, 18, 18, 19, 20, 27, 29, 58, 13) a amostra de idade dos indivíduos, a moda é 18, uma vez que é o número que aparece com mais frequência.
A moda difere da média e mediana, pois pode ocorrer em conjunto de dados onde não ocorra a moda ou em conjunto de dados que ela apareça mais de uma vez, sendo bimodal, no caso da ocorrência de duas, e assim sucessivamente. Quando a moda aparecer apenas uma, como no exemplo anterior, dizemos que o conjunto é unimodal. É importante comentar que a moda precisa de grandes números de observações para que seu valor possa ter uma credibilidade. Se todos os valores no conjunto ocorrem com a mesma frequência não ocorre moda.
4 Medidas de dispersão
A medida de tendência central não descreve adequadamente os dados observados, pois apenas descrevem os valores que ocupam ou estão próximos do centro da distribuição da amostra. Assim, não consegue caracterizar a variabilidade dos dados em torno da média. Para isto, existem as medidas de dispersão ou variação, que permitem quantificar as oscilações dos valores em relação àqueles que ocupam o centro da distribuição dos dados.
Para ajudar a compreender, imagine uma casa com 5 moradores com idade de 20 anos cada. Assim, a média, mediana e moda seria 20 anos. Em outra residência, também com 5 moradores, mas, entre eles, 3 filhos, sendo dois com 2 anos de idade e um com 20 anos e um casal, onde um com 39 anos e com 37 anos de idade, a média de idade seria 20 anos e seria amodal.
Média, mediana e moda são medidas descritivas, contudo, não são capazes de apresentar as informações corretas que descrevam os dados. Assim, sempre que você apresentar as medidas de tendência central para descrever seus dados, deve-se também fornecer a medida de dispersão.
Assim como as medidas de tendência central as medidas de dispersão, existem muitas que podem ser utilizadas. Nas próximas seções iremos ver algumas medidas de dispersão das mais utilizadas.
5 Amplitude, mínimo e máximo
Os valores mínimo e máximo são importantes para saber os extremos do conjunto de dados que se tem. O mínimo é o número de menor valor e o máximo é o número de maior valor de um conjunto de dados. A amplitude, por sua vez, é apenas a diferença entre o maior e menor valor em um conjunto de dados. Pode-se utilizar duas formas de amplitude sendo elas frequentemente utilizadas. Vamos utilizar o exemplo da idade das pessoas:
(12, 14, 18, 18, 19, 20, 27, 29, 58, 13)
Aqui, o valor mínimo é 12, o valor máximo é 58 e a amplitude 46 (52-12).
A amplitude é uma medida instável, pois utiliza apenas dois valores e qualquer mudança nesses valores pode alterar de maneira drástica a amplitude. Alguns estudo não fornecem a amplitude e apresentam apenas os valores mínimos e máximos para descrever a amostra. Não há erro em trazer apenas o mínimo e máximo. Dependendo da amostra, isso pode ser mais útil que a amplitude.
Por exemplo, um abatedouro de suínos em que a amplitude utilizada foi de 54kg pode não ser uma informação útil, porém ao serem informados os valores de mínimo, de 63Kg e máximo, de 117kg, as informações são mais úteis.
Assim como escolher entre média e mediana paraapresentar os dados da amostra, a escolha entre apresentar mínimo e máximo deve ficar a critério do pesquisador, baseado em sua experiencia. Caso haja dúvida, pode-se optar por apresentar todos os dados.
A tabela “Resumo da idade da amostra 2” traz um resumo das amostras 2, mostrando os valores centrais e as dispersões desse conjunto de dados.
Tabela 5 - Resumo da idade da amostra 2Fonte: Elaborado pelo autor.
#PraCegoVer: Na imagem vemos uma tabela de resumo de idade da amostra 2.
6 Quartil
A mediana divide os dados da amostra em duas partes, com as mesmas observações, ou em duas metades, sendo assim, não é possível descrever a amplitude do da distribuição de dados. Os quartis ajudam a compreender a distribuição dos dados e os dividem em quatro partes iguais. São 3, portanto, três: o primeiro quartil (Q1), o segundo quartil (Q2) (que é a mediana) e o terceiro quartil (Q3). O primeiro quartil ou percentil é o valor que deixa 25% dos outros valores abaixo do dele e o segundo quartil deixa metade dos valores abaixo e metade dos valores acima do seu. O segundo quartil corresponde à mediana e o terceiro quartil deixa 75% dos valores abaixo dele. Assim, com os quartis é possível conhecer melhor a distribuição dos dados pois é possível conhecer os valões que antecedem a mediana e os valores que vem após a mediana.
Para obter os quartis, vamos continuar utilizando os dados os dados de idade dos exemples anteriores: (12, 18, 19, 20, 14, 27, 29, 18, 58, 13)
Primeiramente, devemos organizar os dados de maneira crescente (12, 13, 14, 15, 18, 19, 20, 27, 29, 58) e devemos encontrar a mediana, sendo, neste caso, 18,5.
Assim, o primeiro quartil é a mediana dos números que ficaram à esquerda do segundo quartil, sendo os números 12, 13, 14, 18, onde o quartil 1 é 13,5. O terceiro quartil é a mediana dos números que ficaram à direita do quartil 2, sendo os números 20, 27, 29, 58, onde o quartil é 28.
Podemos resumir os interquartis (IQT) como: Q1=13,5; Q3 = 28.
Já vimos que o quartil é útil para conhecer a distribuição das amostras, porém como devemos interpretar esses dados?
O box plot é um gráfico utilizado para resumir as medidas de tendência central como a dispersão. É uma maneira gráfica de representar os dados contidos na amostra. Como já mencionado, os dados obtidos em qualquer pesquisa podem ser apresentados em tabelas ou gráfico. O gráfico box plot traz todas as informações como representação gráfica.
O box plot pode ser interpretado da seguinte maneira: a linha inferior é o mínimo valor, a linha superior é o valor máximo, base da caixa representa Q1, a parte superior representa Q3 e a linha no meio da caixa representa Q2 ou a mediana. O box plot é bastante útil, pois ele evidencia valores extremos para considerar o valor máximo. Utilizando os mesmos dados do exemplo anterior, temos um indivíduo com valor extremo (outlier), que tem 58 anos. O box plot evidencia esse indivíduo, conforme podemos ver no gráfico abaixo.
Q1 - 25% dos participantes da pesquisa apresenta idade igual ou inferior a 13,5 anos.
Q2 - 75% dos participantes da pesquisa apresenta idade igual ou inferior a 28 anos.
Figura 6 - Box plot representando a amostra de idades.Fonte: Elaborado pelo autor.
#ParaCegoVer: Na imagem, vemos um gráfico chamado box plot ou gráfico de caixa, que se apresenta como uma caixa retangular. Além da caixa, há duas linhas, que delimitam o valor mínimo e máximo do conjunto de dados.
8 Desvio-padrão
O desvio-padrão, além de constituir-se no resumo de informações que relaciona a dispersão dos valores, é obtido pela raiz quadrada da variância. Assim, precisamos entender o que é variância e como calcular ela.
A variância (S²), é uma medida de variabilidade menos intuitiva. Ela é uma serie de n valores e mede o desvio médio dos valores individuais em relação à média. É o quadrado da diferença entre os valores e média sobre o número observado:
Antes de calcular a variância, devemos calcular o desvio da média. O desvio da média é a diferença em cada valor em relação à média e é dado pela seguinte formula: .
Se o valor do desvio for maior que a média, seu desvio é positivo, porém, se o valor é menor que a média, seu desvio é negativo. Ainda, se for igual a média, o desvio é nulo. A soma do desvio da média é sempre 0 e, para confirmar essa informação, vamos utilizar a amostra de idades vista anteriormente na tabela “Estatística da idade de pessoas coletada”, onde vamos calcular o desvio da média e a variância da amostra.
Tabela 6 - Estatística da idade de pessoas coletada.Fonte: Elaborado pelo autor.
#PraCegoVer: Na imagem uma tabela da estatística de idade de pessoas coletada.
A tabela 6 traz uma maneira de apresentar o desvio da média e a variância de cada observação. Deve-se ter em mente que, apresentar os dados conforme a tabela 4, pode ser inviável a depender do tamanho da amostra (n). Imagine um conjunto de dados, onde tem um n da amostra e pode ser 100, 1.000, 10.000 ou até mais indivíduos. Estas informações podem não serem úteis a apresentar para cada unidade, visto que teremos uma tabela com o número de linhas igual ao de indivíduos (n). Outra maneira de calcular a variância é utilizando a fórmula:
Utilizando esta equação para calcular a variância, teremos a seguinte equação:
Assim, a variância da amostra é 183,7
O desvio-padrão é a medida de variação mais útil e mais utilizada na quase totalidade na bioestatística. Serão raros os casos em que não é possível ver desvio de padrão, quando a média é apresentada. O valor do desvio-padrão reflete a variabilidade das observações em relação à média e, com isso, a dimensão do desvio-padrão está diretamente relacionada com a dispersão dos valores em relação à média. Quanto maior for o desvio-padrão, maior será a variabilidade dos dados. Quanto menor a desvio-padrão, menor é a variação dos dados em relação à média. O desvio-padrão é apresentado na mesma unidade em que a variável é apresentada. Essa característica facilita a entender o desvio-padrão. No exemplo utilizado na amostra de idades (amostra 2), o desvio padrão também deve ser apresentado em anos.
Como o desvio-padrão é a raiz quadrada da variância, agora podemos calcular o desvio-padrão = 
Desvio-padrão = 13,6 (S)
O desvio-padrão será sempre um valor positivo e maior que zero. Ele é sempre da mesma natureza da variável observado no estudo, e a dimensão da variação do desvio padrão está diretamente relaciona à dispersão dos dados em relação à média. O desvio padrão pode ser zero se todos os valores da variável observada fossem zero, algo difícil de ocorrer.
O desvio-padrão, além de constituir-se no resumo de informações que relaciona a dispersão dos valores, ele é uma estimativa de dispersão na população ou amostra estudada. A média e a mediana apresentam somente o valor central e o desvio-padrão apresenta a dispersão da amostra. Observe os três grupos de exemplo: grupo 1 (1;2;6;6), grupo 2 (0;1;7;7) e grupo 3 (2;5;3;5). Os três grupo possuem media de 3,75 e mediana de 4, porém, eles apresentam o desvio-padrão de 2,62, 3,77 e1,50 respectivamente. Assim o desvio padrão mede a distância dos valores atípicos da média.
A média deve sempre vir acompanhada do desvio-padrão e, quando utilizar a mediana, deve sempre vir acompanhado do valor do primeiro quartil (25%) e terceiro quartil (75%). Assim, será possível conhecer a dispersão dos dados observados.
O desvio padrão, então, mede a dispersão dos dados em uma amostra. Assim, quanto maior a distribuição de dados, maior será um desvio padrão. Como exemplo, imagine uma escola de ensino médio regular, onde o desvio-padrão tende a ser mais próximo da média ao comparar com uma universidade. Na escola de ensino médio, quase todos os alunos possuem a mesma idade ou idades similares. Isso já não acontece em uma universidade onde pode haver estudantes de diversas idades. Assim, o desvio-padrão da idade dos estudantes matriculados na universidade tende a ser mais distante da média.
9 Coeficiente de variação
O desvio-padrão é uma medida absoluta de dispersão e a magnitudedos valores pode causar influência na média, podendo ocasionar desvios em relação à média. Para que seja possível comparar a variabilidade das distribuições, é necessário utilizar uma medida relativa. Essa medida relativa é independente da grandeza dos valores e, assim, o coeficiente de variação é dado pela razão do desvio-padrão e a média, multiplicado por 100. O Coeficiente de variação é dado pela seguinte formula:
O coeficiente de variação é uma avaliação da instabilidade relativa. Pode-se arbitrar, de forma subjetiva, que o coeficiente de variação é baixo quando menor do que 10%, médio, quando o coeficiente de variação atinge 10-30% e alto quando é maior que 30%. O coeficiente de variação mede a instabilidade dos dados. O coeficiente de variação é bastante utilizado quando que se quer observar a mesma variável em diferentes momentos. Como exemplo, podemos pensar no conjunto utilizando dois grupos:
grupo 1 (1;2;6;6) =3,75 S = 2,63 CV(%) = 70%
grupo 2 (2;5;3;5). =3,75 S = 1,50 CV(%) = 40%
No nosso exemplo, ambos os grupos são considerados com alta instabilidade ou muito instável, porém podemos interpretar os dados da seguinte maneira: o segundo grupo é mais variável que o primeiro grupo.
Voltemos ao nosso exemplo na amostra 2 (12, 13, 14, 18, 18, 19, 20, 27, 29, 58). Vamos calcular o coeficiente de variação para podermos conhecer a instabilidade da amostra coletado.
=22,8 S = 13,6 CV(%) = 60%
Na tabela “Estatística de idade da amostra”, temos as medidas de tendência central e as medidas de dispersão da amostra 2. Nele é possível conhecer cada uma das medidas e conhecer a dispersão da amostra.
Tabela 7 - Estatística da idade amostra 2.Fonte: Elaborado pelo autor.
#PraCegoVer: Na imagem, podemos ver uma tabela da estatística da idade da amostra 2.
Vamos utilizar estes dados da tabela “estatística da idade na amostra 2” para mostrar uma maneira de apresentar estes dados em texto. Geralmente, durante o texto os valores que mais aparecem são a média e a mediana. A medida de dispersão é utilizada com o respectivo valor em parêntese. Exemplo: a amostra 2 possui uma média 22,8 anos (± 13,6) com a mediana 28 anos (13,5;28,0).
Enfim, ao analisar os dados, deve-se ter em mente as medidas centrais e a dispersão dos mesmos
É ISSO AÍ!
Nesta unidade, você teve a oportunidade de:
· entender como os são confeccionados tabelas e gráficos;
· estudou quais são as medidas de tendência central;
· diferenciar a aplicação da média e mediana;
· aprendeu que um valor somente não é capaz apresentar a dispersão de conjunto de dados;
· conhecer as medidas de dispersão e qual a função dele associado a média e mediana;
· conheceu como apresentar as medidas de tendência central e as medidas de dispersão em um texto.
REFERÊNCIAS
CARDOSO, D. T. et al. Identification of priority areas for surveillance of cutaneous leishmaniasis using spatial analysis approaches in Southeastern Brazil. BMC Infectious Diseases, v. 19, n. 1, p. 318, 2019.
HARRY, S. Why outbreaks like coronavirus spread exponentially, and how to “flatten the curve”. The Washington Post, 2020. Disponível em: https://www.washingtonpost.com/graphics/2020/world/corona-simulator/. Acesso em 26 mar. 2020
IBGE, I. B. DE G. E E. Normas de apresentação tabular. 3. ed. Rio de Janeiro/RJ: DEDIT/CDDI, 1993. Disponível em: https://biblioteca.ibge.gov.br/visualizacao/livros/liv23907.pdf. Acesso em: 26 mar. 2020
IBGE, I. B. DE G. E E. Metodologia do Censo Demográfico 2010. 1a ed. [s.l.] Instituto Brasileiro de Geografia e Estatística - IBGE, 2013. v. 28
OLIVEIRA, W. J. et al. Evaluation of diagnostic methods for the detection of intestinal schistosomiasis in endemic areas with low parasite loads: Saline gradient, Helmintex, Kato-Katz and rapid urine test. PLoS Neglected Tropical Diseases, v. 12, n. 2, p. 1–22, 2018.
SERGIO, C., WEBER, C. Estatística Básica Simplificada. 2 ed. Rio de Janeiro/RJ: CAMPUS - RJ, 2016.
TAYLOR, R., BLAIR, R. C. Bioestatística Para Ciências Da Saúde. 1 ed. Rio de Janeiro/RJ: PEARSON BRASIL, 2013.
VIEIRA, S. Introdução a Bioestatística. 4 ed. Rio de Janeiro/RJ: Elsevier Brasil, 2011.

Outros materiais