Baixe o app para aproveitar ainda mais
Prévia do material em texto
BIOESTATÍSTICA • Aula 2 – Análise Estatística Descritiva • Medidas de tendência central: Média, moda e mediana BIOESTATÍSTICA • Dentre as medidas resumo habitualmente apresentadas na análise estatística descritiva, as medidas do centro de uma distribuição ou tendência centraldistribuição ou tendência central são muito importantes. As mais utilizadas são: • Média (aritmética): Soma dos valores dividida pelo número de observações. BIOESTATÍSTICA • A média aritmética é um conceito facilmente compreendido, como por exemplo quando um grupo de pessoas vai a um restaurante e a conta é dividida igualmente por todos. • No entanto, se algumas pessoas comeram muito mais que as outras (ou consumiram alimentos oumais que as outras (ou consumiram alimentos ou bebidas mais caros) será justo utilizar a média? • E quando o empregador afirma que o salário médio dos funcionários de uma categoria em greve é alto, essa medida não pode estar sendo distorcida pelos salários extremamente elevados de uma pequena porcentagem de empregados? BIOESTATÍSTICA • Como pode-se perceber, a média é afetada por valores extremos (outliers), só devendo ser utilizada se a distribuição for simétrica. • É impossível calcular a média de variáveis categóricas (mesmo que elas • É impossível calcular a média de variáveis categóricas (mesmo que elas sejam representadas por números, como no caso de algumas variáveis categóricas ordinais, como o estadiamento clínico do câncer de mama, que varia de 1 a 4), pois o resultado não teria nenhum significado. BIOESTATÍSTICA • Pode-se, no entanto, calcular a média de variáveis numéricas discretas, inclusive com decimal (o conceito de que não se poderia calcular média para variáveis discretas foi muito difundido no passado, mas hoje é consideradopassado, mas hoje é considerado ultrapassado). • Assim, pode-se dizer que a média de filhos por mulher no Estado de São Paulo em 1999 era 2,38 (embora nenhuma mulher tenha 0,38 filho). BIOESTATÍSTICA • Qual a vantagem de descrever a média de variáveis numéricas discretas com decimais? Por exemplo, um demógrafo pode constatar que a média de filhos das famílias brasileiras caiu de 2,6 para 2,1.famílias brasileiras caiu de 2,6 para 2,1. • Se não fossem utilizadas as casas decimais, poder-se-ia concluir que o número médio de filhos da família brasileira manteve-se estável em 2! BIOESTATÍSTICA • Moda: Valor mais freqüentemente observado. • Quando alguém pergunta: Qual a cor da moda neste verão? A resposta pode ser obtida observando-se qual a cor dasobtida observando-se qual a cor das roupas da maioria das pessoas. Uma distribuição pode apresentar mais de uma moda, quando existem, por exemplo, duas categorias ou valores igualmente mais freqüentes (distribuição bimodal). BIOESTATÍSTICA • Mediana: Valor que divide as observações, ordenadas de forma crescente, em igual número acima e abaixo. • Quando o número de observações for par, calcula-se a média dos dois valores centrais. Embora seja um conceito mais difícil de ser assimilado, é fundamental para identificar o centro de uma distribuição assimétrica, pois é pouco afetada por valores muito discrepantes. BIOESTATÍSTICA • Exemplo: na seqüência de 9 medidas de uma variável numérica (idade), dispostas em ordem crescente: 20 22 22 25 28 35 37 41 65 • Média:• Média: (20+22+22+25+28+35+37+41+65)/9 = 295/9 = 32,8 • Moda: 22 anos • Mediana: 28 anos BIOESTATÍSTICA • Média e mediana são parâmetros aplicáveis apenas para variáveis • numéricas (tanto discretas• numéricas (tanto discretas como contínuas). A moda pode ser identificada tanto para variáveis numéricas quanto para categóricas. BIOESTATÍSTICA • A média não é uma medida resistente do centro da distribuição, sendo muito afetada por valores discrepantes (outliers). A mediana é mais(outliers). A mediana é mais resistente. • Quando a distribuição é simétrica, média, moda e mediana são equivalentes. • Quando existe assimetria, no entanto, média e mediana desviam-se na direção dos valores extremos. BIOESTATÍSTICA BIOESTATÍSTICA • A seguir, podemos observar histogramas de uma distribuição simétrica e outra desviada para a direita. BIOESTATÍSTICA BIOESTATÍSTICA • Quartis e percentis Quartis são valores que dividem a amostra em quatro partes: - Primeiro quartil: valor abaixo do qual encontram-se 25% das observações.encontram-se 25% das observações. - Segundo quartil (mediana): valor abaixo do qual encontram-se 50% das observações. - Terceiro quartil: valor abaixo do qual encontram-se 75% das observações. BIOESTATÍSTICA • Os percentis dividem a amostra em 100 partes. • O percentil 95, por exemplo, é o valor abaixo do qual encontram-se 95% dasabaixo do qual encontram-se 95% das observações. BIOESTATÍSTICA • Medidas de variabilidade: amplitude, variância, desvio padrão e coeficiente de variação. BIOESTATÍSTICA • Podemos ter duas amostras com distribuição simétrica, médias iguais porém variabilidade diferente. • Por exemplo, ao se afirmar que a• Por exemplo, ao se afirmar que a idade média é 40 anos, podemos ter uma amostra contendo indivíduos com idades de 35 a 45 anos e outra com pessoas de 10 a 70 anos. BIOESTATÍSTICA • Amplitude: É a medida de variabilidade mais simples, descrevendo a diferença entre o menor e o maior valor. • Na primeira amostra do exemplo• Na primeira amostra do exemplo anterior, a amplitude é de 10 anos, e na segunda de 60 anos. • Como pode-se perceber, é uma medida pouco resistente, pois baseia-se apenas nos valores de duas observações. BIOESTATÍSTICA • Variância e Desvio Padrão: São medidas de variabilidade individual, ou seja, indicamindividual, ou seja, indicam como os valores variam de um indivíduo para outro, através do afastamento dos valores em relação à média. BIOESTATÍSTICA • A seguir temos as fórmulas da variância e do desvio padrão: BIOESTATÍSTICA • Vamos agora procurar entender estas fórmulas, que podem parecer assustadoras a princípio. Primeiro vamos identificar cada um dos símbolos: • ΣΣΣΣ : somatória • X: o valor de cada uma das observações _ • X : a média da amostra • n: o número de observações (tamanho da amostra) BIOESTATÍSTICA • Para o cálculo do desvio padrão, inicialmente temos que calcular as diferenças entre cada um dos valores e a média. • Se simplesmente somássemos todas as diferenças, o total seria zero, pois alguns valores são maiores do que a média (diferençavalores são maiores do que a média (diferença positiva) e outros menores (diferença negativa). • Utiliza-se então um artifício comum em estatística, que consiste em elevar os valores ao quadrado, tornando-os assim todos positivos (-2 ao quadrado é quatro, assim como 2 ao quadrado). BIOESTATÍSTICA • O passo seguinte é calcular o valor médio, dividindo pelo número de observações; no entanto, ao invés de se utilizar n (tamanho da amostra) utiliza-se n-1 devido aoamostra) utiliza-se n-1 devido ao conceito de graus de liberdade (se soubermos a média e todos os valores menos um, podemos calcular o último valor). • A medida obtida é denominada variância. BIOESTATÍSTICA • Finalmente, extraímos a raiz quadrada para voltar à escala original (pois havíamos elevado as diferenças aoelevado as diferenças ao quadrado). BIOESTATÍSTICA • Coeficiente de Variação: Medida de variabilidade dos valores individuais em torno da média amostral, calculada dividindo-se o desvio padrão pela média. BIOESTATÍSTICA • Erro padrão e erro amostral. BIOESTATÍSTICA • Erro Padrão: Medida de variabilidade da média amostral (como a média varia de uma amostra para outra). • Como já foi citado anteriormente,a média da população estimada através de uma amostra apresenta sempre uma média da população estimada através de uma amostra apresenta sempre uma margem de erro, que é estimada pelo erro padrão. • Não se trata de uma medida de variabilidade individual (como o desvio padrão), mas sim de uma estimativa da variabilidade da média obtida, em função do tamanho da amostra. BIOESTATÍSTICA BIOESTATÍSTICA • Pode-se perceber que quanto maior a amostra, menor o erro padrão. • Erro Amostral: Medida de afastamento da média amostralafastamento da média amostral em relação à média real da população, associada sempre a uma confiança (O conceito de confiança será discutido mais adiante). BIOESTATÍSTICA BIOESTATÍSTICA • Vamos ver um exemplo: Foram medidos os pesos de 1200 recém- nascidos em uma maternidade. • Os dados foram analisados em um• Os dados foram analisados em um programa de computador (vide a seguir representação impressa), que apresentou os seguintes resultados: BIOESTATÍSTICA BIOESTATÍSTICA BIOESTATÍSTICA • Foi referido o intervalo de confiança de 95 % para a média, que é calculado a partir do erro amostral, representando também uma medida de afastamento da média amostral em relação à média real da população, associada sempre a uma confiança. • A interpretação é que temos confiança de 95%• A interpretação é que temos confiança de 95% de que a média real da população encontra-se dentro dos limites do intervalo, ou seja, a probabilidade da média real ser menor que 3276,0 gramas ou maior que 3342,6 gramas é de apenas 5%. • O limite inferior do intervalo de confiança para a média é calculado através da média menos o erro amostral e o limite superior pela média somada ao erro amostral. BIOESTATÍSTICA • Intervalo de confiança de 95% para a média = média ± erro amostral BIOESTATÍSTICA • Podemos concluir a partir destas medidas- resumo que: • - a distribuição é simétrica (pois a média e a mediana são praticamente iguais); • - a variabilidade é pequena (pois o desvio padrão é 18% do valor da média);padrão é 18% do valor da média); • - 75% dos bebês pesam mais de 2.908,0 g (primeiro quartil). • - 75% dos bebês pesam menos de 3.704,5 g (terceiro quartil). • - a margem de erro da média calculada é pequena (pois a amostra é grande); • - o intervalo de confiança de 95% para a média é pequeno (pois a amostra é grande). BIOESTATÍSTICA • Tabelas BIOESTATÍSTICA • Os resultados devem ser apresentados sob a forma de tabelas e gráficos, que resumem os dados obtidos, devendo ser auto-explicativos, ou seja, deveauto-explicativos, ou seja, deve ser possível entender o gráfico ou a tabela sem ler o restante do texto. • Todos os itens devem constar na mesma página. BIOESTATÍSTICA - As tabelas são compostas de linha e colunas, incluindo sempre uma barra de título e a descrição dos resultados. - Ao final, podem conter uma barra- Ao final, podem conter uma barra com o total ou a média. - As bordas das tabelas devem conter apenas traços horizontais acima e abaixo da primeira linha e da última, quando esta contiver total ou média. BIOESTATÍSTICA - Quando a última linha não contiver total ou média, deverá ter apenas uma linha horizontal ao final.horizontal ao final. - Nunca incluir traços verticais. BIOESTATÍSTICA • Exemplos de Tabelas: BIOESTATÍSTICA BIOESTATÍSTICA • Tabelas de contingência são também compostas de linhas e colunas, e apresentam os dados de uma associação que se deseje pesquisar, confrontando ospesquisar, confrontando os resultados. • Consideram-se o número de linhas e colunas que contém resultados, não computando as linhas e colunas com o título e os totais. BIOESTATÍSTICA BIOESTATÍSTICA • Gráficos BIOESTATÍSTICA • Os gráficos facilitam muito a compreensão dos resultados. • Os principais gráficos utilizados para variáveisutilizados para variáveis numéricas são os histogramas e gráficos do tipo boxplot (também chamados de box- and-whisker plots). BIOESTATÍSTICA • Para variáveis categóricas podemos construir gráficos do tipo pizza, indicando a participação porcentual de cada categoria. • Os gráficos de barras podem ser• Os gráficos de barras podem ser utilizados tanto para representar variáveis categóricas (indicando a contagem ou porcentual de cada categoria) como para comparar médias de grupos (ou tempos diferentes para o mesmo grupo). BIOESTATÍSTICA • Vejamos um histograma ou gráfico de freqüência. No eixo x consta o peso em gramas e no eixo y o número de bebês para cada faixa de peso. BIOESTATÍSTICA • Analisando o histograma, podemos confirmar que a distribuição é simétrica (a maioria dos valoresmaioria dos valores encontram -se no centro). BIOESTATÍSTICA • Foi construído também um gráfico do tipo boxplot. • Este segundo gráfico também mostra que a distribuição é simétrica, pois a "caixa" do gráfico formada pelo primeiro"caixa" do gráfico formada pelo primeiro quartil, mediana e terceiro quartil é simétrica. • O asterisco dentro da caixa identifica a média. Os asteriscos nas extremidades representam os valores que são muito discrepantes (outliers), como podemos ver no modelo a seguir: BIOESTATÍSTICA BIOESTATÍSTICA BIOESTATÍSTICA • O que é "outlier"? • Procuramos não utilizar termos em Inglês, mas este é inevitável, pois não tem tradução adequada. Outlier significa "aquele que estáOutlier significa "aquele que está fora", podendo ser traduzido como "valor discrepante". • A maioria dos programas de análise estatística define os outliers da seguinte forma: BIOESTATÍSTICA • 1. Calcula a amplitude interquartis (terceiro quartil - primeiro quartil) • 2. Calcula o limite inferior do boxplot através da fórmula: • [primeiro quartil - (1,5 X amplitude interquartis)]interquartis)] • 3. Calcula o limite superior do boxplot através da fórmula: • [terceiro quartil + (1,5 X amplitude interquartis)] • 4. Os valores abaixo do limite inferior ou acima do limite superior são considerados outliers. BIOESTATÍSTICA O que fazer com outliers? • A primeira reação de muitos pesquisadores é desprezar os valores discrepantes. No entanto, isto não é correto. Inicialmente, deve-se verificar se não houve erro de digitação.verificar se não houve erro de digitação. • Em segundo lugar, analisar se não ocorreu erro na mensuração da variável. • Finalmente, se o valor extremo está correto, deve-se avaliar se aquele indivíduo apresenta alguma condição que o caracterize como os diferentes dos demais. Caso contrário, o valor não deve ser desprezado. BIOESTATÍSTICA • Se quisermos apresentar os resultados da variável sexo dos recém-nascidos (categórica nominal),(categórica nominal), podemos fazer um gráfico de pizza: BIOESTATÍSTICA BIOESTATÍSTICA • Finalmente, um exemplo de gráfico de barras, publicado no jornal O Estado de São Paulo em 28 de Julho de 2003. BIOESTATÍSTICA • Observando apenas o gráfico podemos compreender o assunto sem ter que ler o texto da matéria.texto da matéria.
Compartilhar