Buscar

BIOESTATÍSTICA2 [Modo de Compatibilidade]

Prévia do material em texto

BIOESTATÍSTICA
• Aula 2 – Análise Estatística Descritiva
• Medidas de tendência central: Média, moda e
mediana
BIOESTATÍSTICA
• Dentre as medidas resumo
habitualmente apresentadas na
análise estatística descritiva, as
medidas do centro de uma
distribuição ou tendência centraldistribuição ou tendência central
são muito importantes. As mais
utilizadas são:
• Média (aritmética): Soma dos
valores dividida pelo número de
observações.
BIOESTATÍSTICA
• A média aritmética é um conceito facilmente
compreendido, como por exemplo quando um
grupo de pessoas vai a um restaurante e a conta é
dividida igualmente por todos.
• No entanto, se algumas pessoas comeram muito
mais que as outras (ou consumiram alimentos oumais que as outras (ou consumiram alimentos ou
bebidas mais caros) será justo utilizar a média?
• E quando o empregador afirma que o salário
médio dos funcionários de uma categoria em
greve é alto, essa medida não pode estar sendo
distorcida pelos salários extremamente elevados
de uma pequena porcentagem de empregados?
BIOESTATÍSTICA
• Como pode-se perceber, a média é
afetada por valores extremos (outliers),
só devendo ser utilizada se a
distribuição for simétrica.
• É impossível calcular a média de
variáveis categóricas (mesmo que elas
• É impossível calcular a média de
variáveis categóricas (mesmo que elas
sejam representadas por números,
como no caso de algumas variáveis
categóricas ordinais, como o
estadiamento clínico do câncer de
mama, que varia de 1 a 4), pois o
resultado não teria nenhum significado.
BIOESTATÍSTICA
• Pode-se, no entanto, calcular a média de
variáveis numéricas discretas, inclusive
com decimal (o conceito de que não se
poderia calcular média para variáveis
discretas foi muito difundido no
passado, mas hoje é consideradopassado, mas hoje é considerado
ultrapassado).
• Assim, pode-se dizer que a média de
filhos por mulher no Estado de São
Paulo em 1999 era 2,38 (embora
nenhuma mulher tenha 0,38 filho).
BIOESTATÍSTICA
• Qual a vantagem de descrever a média
de variáveis numéricas discretas com
decimais? Por exemplo, um demógrafo
pode constatar que a média de filhos das
famílias brasileiras caiu de 2,6 para 2,1.famílias brasileiras caiu de 2,6 para 2,1.
• Se não fossem utilizadas as casas
decimais, poder-se-ia concluir que o
número médio de filhos da família
brasileira manteve-se estável em 2!
BIOESTATÍSTICA
• Moda: Valor mais freqüentemente
observado.
• Quando alguém pergunta: Qual a cor da
moda neste verão? A resposta pode ser
obtida observando-se qual a cor dasobtida observando-se qual a cor das
roupas da maioria das pessoas. Uma
distribuição pode apresentar mais de uma
moda, quando existem, por exemplo,
duas categorias ou valores igualmente
mais freqüentes (distribuição bimodal).
BIOESTATÍSTICA
• Mediana: Valor que divide as
observações, ordenadas de forma
crescente, em igual número acima e
abaixo.
• Quando o número de observações for
par, calcula-se a média dos dois valores
centrais. Embora seja um conceito mais
difícil de ser assimilado, é fundamental
para identificar o centro de uma
distribuição assimétrica, pois é pouco
afetada por valores muito discrepantes.
BIOESTATÍSTICA
• Exemplo: na seqüência de 9 medidas de
uma variável numérica (idade),
dispostas em ordem crescente:
20 22 22 25 28 35 37 41 65
• Média:• Média:
(20+22+22+25+28+35+37+41+65)/9
= 295/9 = 32,8
• Moda: 22 anos
• Mediana: 28 anos
BIOESTATÍSTICA
• Média e mediana são
parâmetros aplicáveis apenas
para variáveis
• numéricas (tanto discretas• numéricas (tanto discretas
como contínuas). A moda
pode ser identificada tanto
para variáveis numéricas
quanto para categóricas.
BIOESTATÍSTICA
• A média não é uma medida
resistente do centro da
distribuição, sendo muito afetada
por valores discrepantes
(outliers). A mediana é mais(outliers). A mediana é mais
resistente.
• Quando a distribuição é simétrica,
média, moda e mediana são
equivalentes.
• Quando existe assimetria, no entanto,
média e mediana desviam-se na direção
dos valores extremos.
BIOESTATÍSTICA
BIOESTATÍSTICA
• A seguir, podemos observar histogramas de uma
distribuição simétrica e outra desviada para a
direita.
BIOESTATÍSTICA
BIOESTATÍSTICA
• Quartis e percentis
Quartis são valores que dividem a amostra
em quatro partes:
- Primeiro quartil: valor abaixo do qual
encontram-se 25% das observações.encontram-se 25% das observações.
- Segundo quartil (mediana): valor abaixo
do qual encontram-se 50% das
observações.
- Terceiro quartil: valor abaixo do qual
encontram-se 75% das observações.
BIOESTATÍSTICA
• Os percentis dividem a amostra em
100 partes.
• O percentil 95, por exemplo, é o valor
abaixo do qual encontram-se 95% dasabaixo do qual encontram-se 95% das
observações.
BIOESTATÍSTICA
• Medidas de variabilidade: amplitude, variância,
desvio padrão e coeficiente de variação.
BIOESTATÍSTICA
• Podemos ter duas amostras com
distribuição simétrica, médias
iguais porém variabilidade
diferente.
• Por exemplo, ao se afirmar que a• Por exemplo, ao se afirmar que a
idade média é 40 anos, podemos
ter uma amostra contendo
indivíduos com idades de 35 a 45
anos e outra com pessoas de 10 a
70 anos.
BIOESTATÍSTICA
• Amplitude: É a medida de
variabilidade mais simples,
descrevendo a diferença entre o
menor e o maior valor.
• Na primeira amostra do exemplo• Na primeira amostra do exemplo
anterior, a amplitude é de 10
anos, e na segunda de 60 anos.
• Como pode-se perceber, é uma
medida pouco resistente, pois
baseia-se apenas nos valores de
duas observações.
BIOESTATÍSTICA
• Variância e Desvio Padrão:
São medidas de variabilidade
individual, ou seja, indicamindividual, ou seja, indicam
como os valores variam de um
indivíduo para outro, através
do afastamento dos valores
em relação à média.
BIOESTATÍSTICA
• A seguir temos as fórmulas da
variância e do desvio padrão:
BIOESTATÍSTICA
• Vamos agora procurar entender estas fórmulas, que
podem parecer assustadoras a princípio. Primeiro
vamos identificar cada um dos símbolos:
• ΣΣΣΣ : somatória
• X: o valor de cada uma das observações
_
• X : a média da amostra
• n: o número de observações (tamanho da amostra)
BIOESTATÍSTICA
• Para o cálculo do desvio padrão, inicialmente
temos que calcular as diferenças entre cada um
dos valores e a média.
• Se simplesmente somássemos todas as
diferenças, o total seria zero, pois alguns
valores são maiores do que a média (diferençavalores são maiores do que a média (diferença
positiva) e outros menores (diferença negativa).
• Utiliza-se então um artifício comum em
estatística, que consiste em elevar os valores ao
quadrado, tornando-os assim todos positivos (-2
ao quadrado é quatro, assim como 2 ao
quadrado).
BIOESTATÍSTICA
• O passo seguinte é calcular o valor
médio, dividindo pelo número de
observações; no entanto, ao invés
de se utilizar n (tamanho da
amostra) utiliza-se n-1 devido aoamostra) utiliza-se n-1 devido ao
conceito de graus de liberdade (se
soubermos a média e todos os
valores menos um, podemos
calcular o último valor).
• A medida obtida é denominada
variância.
BIOESTATÍSTICA
• Finalmente, extraímos a raiz
quadrada para voltar à escala
original (pois havíamos
elevado as diferenças aoelevado as diferenças ao
quadrado).
BIOESTATÍSTICA
• Coeficiente de Variação: Medida de variabilidade
dos valores individuais em torno da média
amostral, calculada dividindo-se o desvio padrão
pela média.
BIOESTATÍSTICA
• Erro padrão e erro amostral.
BIOESTATÍSTICA
• Erro Padrão: Medida de variabilidade da
média amostral (como a média varia de
uma amostra para outra).
• Como já foi citado anteriormente,a
média da população estimada através de
uma amostra apresenta sempre uma
média da população estimada através de
uma amostra apresenta sempre uma
margem de erro, que é estimada pelo
erro padrão.
• Não se trata de uma medida de
variabilidade individual (como o desvio
padrão), mas sim de uma estimativa da
variabilidade da média obtida, em
função do tamanho da amostra.
BIOESTATÍSTICA
BIOESTATÍSTICA
• Pode-se perceber que quanto
maior a amostra, menor o erro
padrão.
• Erro Amostral: Medida de
afastamento da média amostralafastamento da média amostral
em relação à média real da
população, associada sempre a
uma confiança (O conceito de
confiança será discutido mais
adiante).
BIOESTATÍSTICA
BIOESTATÍSTICA
• Vamos ver um exemplo: Foram
medidos os pesos de 1200 recém-
nascidos em uma maternidade.
• Os dados foram analisados em um• Os dados foram analisados em um
programa de computador (vide a
seguir representação impressa),
que apresentou os seguintes
resultados:
BIOESTATÍSTICA
BIOESTATÍSTICA
BIOESTATÍSTICA
• Foi referido o intervalo de confiança de 95 %
para a média, que é calculado a partir do erro
amostral, representando também uma medida
de afastamento da média amostral em relação à
média real da população, associada sempre a
uma confiança.
• A interpretação é que temos confiança de 95%• A interpretação é que temos confiança de 95%
de que a média real da população encontra-se
dentro dos limites do intervalo, ou seja, a
probabilidade da média real ser menor que
3276,0 gramas ou maior que 3342,6 gramas é
de apenas 5%.
• O limite inferior do intervalo de confiança para a
média é calculado através da média menos o
erro amostral e o limite superior pela média
somada ao erro amostral.
BIOESTATÍSTICA
• Intervalo de confiança de
95% para a média = média ±
erro amostral
BIOESTATÍSTICA
• Podemos concluir a partir destas medidas-
resumo que:
• - a distribuição é simétrica (pois a média e a
mediana são praticamente iguais);
• - a variabilidade é pequena (pois o desvio
padrão é 18% do valor da média);padrão é 18% do valor da média);
• - 75% dos bebês pesam mais de 2.908,0 g
(primeiro quartil).
• - 75% dos bebês pesam menos de 3.704,5 g
(terceiro quartil).
• - a margem de erro da média calculada é
pequena (pois a amostra é grande);
• - o intervalo de confiança de 95% para a média
é pequeno (pois a amostra é grande).
BIOESTATÍSTICA
• Tabelas
BIOESTATÍSTICA
• Os resultados devem ser
apresentados sob a forma de
tabelas e gráficos, que resumem
os dados obtidos, devendo ser
auto-explicativos, ou seja, deveauto-explicativos, ou seja, deve
ser possível entender o gráfico ou
a tabela sem ler o restante do
texto.
• Todos os itens devem constar na
mesma página.
BIOESTATÍSTICA
- As tabelas são compostas de linha
e colunas, incluindo sempre uma
barra de título e a descrição dos
resultados.
- Ao final, podem conter uma barra- Ao final, podem conter uma barra
com o total ou a média.
- As bordas das tabelas devem
conter apenas traços horizontais
acima e abaixo da primeira linha e
da última, quando esta contiver
total ou média.
BIOESTATÍSTICA
- Quando a última linha não
contiver total ou média,
deverá ter apenas uma linha
horizontal ao final.horizontal ao final.
- Nunca incluir traços verticais.
BIOESTATÍSTICA
• Exemplos de Tabelas:
BIOESTATÍSTICA
BIOESTATÍSTICA
• Tabelas de contingência são
também compostas de linhas e
colunas, e apresentam os dados
de uma associação que se deseje
pesquisar, confrontando ospesquisar, confrontando os
resultados.
• Consideram-se o número de linhas
e colunas que contém resultados,
não computando as linhas e
colunas com o título e os totais.
BIOESTATÍSTICA
BIOESTATÍSTICA
• Gráficos
BIOESTATÍSTICA
• Os gráficos facilitam muito a
compreensão dos resultados.
• Os principais gráficos
utilizados para variáveisutilizados para variáveis
numéricas são os histogramas
e gráficos do tipo boxplot
(também chamados de box-
and-whisker plots).
BIOESTATÍSTICA
• Para variáveis categóricas
podemos construir gráficos do tipo
pizza, indicando a participação
porcentual de cada categoria.
• Os gráficos de barras podem ser• Os gráficos de barras podem ser
utilizados tanto para representar
variáveis categóricas (indicando a
contagem ou porcentual de cada
categoria) como para comparar
médias de grupos (ou tempos
diferentes para o mesmo grupo).
BIOESTATÍSTICA
• Vejamos um histograma ou gráfico de
freqüência. No eixo x consta o peso em gramas e
no eixo y o número de bebês para cada faixa de
peso.
BIOESTATÍSTICA
• Analisando o histograma,
podemos confirmar que a
distribuição é simétrica (a
maioria dos valoresmaioria dos valores
encontram -se no centro).
BIOESTATÍSTICA
• Foi construído também um gráfico do
tipo boxplot.
• Este segundo gráfico também mostra
que a distribuição é simétrica, pois a
"caixa" do gráfico formada pelo primeiro"caixa" do gráfico formada pelo primeiro
quartil, mediana e terceiro quartil é
simétrica.
• O asterisco dentro da caixa identifica a
média. Os asteriscos nas extremidades
representam os valores que são muito
discrepantes (outliers), como podemos
ver no modelo a seguir:
BIOESTATÍSTICA
BIOESTATÍSTICA
BIOESTATÍSTICA
• O que é "outlier"?
• Procuramos não utilizar termos
em Inglês, mas este é inevitável,
pois não tem tradução adequada.
Outlier significa "aquele que estáOutlier significa "aquele que está
fora", podendo ser traduzido
como "valor discrepante".
• A maioria dos programas de
análise estatística define os
outliers da seguinte forma:
BIOESTATÍSTICA
• 1. Calcula a amplitude interquartis (terceiro
quartil - primeiro quartil)
• 2. Calcula o limite inferior do boxplot através da
fórmula:
• [primeiro quartil - (1,5 X amplitude
interquartis)]interquartis)]
• 3. Calcula o limite superior do boxplot através
da fórmula:
• [terceiro quartil + (1,5 X amplitude
interquartis)]
• 4. Os valores abaixo do limite inferior ou acima
do limite superior são considerados outliers.
BIOESTATÍSTICA
O que fazer com outliers?
• A primeira reação de muitos pesquisadores é
desprezar os valores discrepantes. No entanto,
isto não é correto. Inicialmente, deve-se
verificar se não houve erro de digitação.verificar se não houve erro de digitação.
• Em segundo lugar, analisar se não ocorreu erro
na mensuração da variável.
• Finalmente, se o valor extremo está correto,
deve-se avaliar se aquele indivíduo apresenta
alguma condição que o caracterize como os
diferentes dos demais. Caso contrário, o valor
não deve ser desprezado.
BIOESTATÍSTICA
• Se quisermos apresentar os
resultados da variável sexo
dos recém-nascidos
(categórica nominal),(categórica nominal),
podemos fazer um gráfico
de pizza:
BIOESTATÍSTICA
BIOESTATÍSTICA
• Finalmente, um exemplo de gráfico de barras,
publicado no jornal O Estado de São Paulo em 28
de Julho de 2003.
BIOESTATÍSTICA
• Observando apenas o gráfico
podemos compreender o
assunto sem ter que ler o
texto da matéria.texto da matéria.

Continue navegando