Buscar

Aula 6- Outras Medidas de Dispersão

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

*
Outras Medidas de Dispersão
Referências: 
	BUSSAB e MORETTIN, Cap. 3.
	WEBSTER, Cap. 3.
	
*
Outras medidas de dispersão 
Tanto a média quanto o desvio padrão podem ser medidas insuficientes para representar um conjunto de dados, pois:
são afetados, de forma exagerada, por valores extremos; 
apenas com esses dois valores não temos ideia da assimetria ou assimetria da distribuição dos dados. 
Para contornar estes fatos, outras medidas têm de ser consideradas.
Existem outros caminhos para se medir a dispersão dos dados e nesta aula veremos algumas de muita utilidade na prática.
*
*
Quartis
Todo conjunto de dados, depois de ordenado, pode ser dividido em 4 partes iguais. Os pontos dessa divisão (são 3) são denominados quartis.
1º quartil: valor abaixo do qual estão 25% das observações (ordenadas) e acima 75%.
2º quartil: é igual à mediana, está no meio, e 50% das observações (ordenadas) estão acima e abaixo dele.
3º quartil: abaixo dele estão 75% das observações (ordenadas). 
*
*
Decis e Percentis 
Como os próprios nomes indicam, os decis separam os dados ordenados em 10 subconjuntos iguais e os percentis em 100 partes iguais. 
1º decil: valor abaixo do qual estão 10% das observações ordenadas e os outros 90% estão acima dele. Em uma distribuição existem 9 decis.
1º percentil: valor abaixo do qual está 1% das observações ordenadas e acima do qual estão 99%.
Como localizar os valores?
*
*
Localizando os percentis 
1º passo: ordenar os dados!!! Só faz sentido falarmos de percentis, decis e quartis a partir de dados ordenados.
 A localização do Pésimo percentil (Lp) é encontrada por:
Onde:
Lp = localização do percentil desejado;
n = número de observações;
P = percentil desejado. 
*
*
Exemplo 
A Tabela 1 traz as alturas de 37 alunos do 2º período de RI já ordenadas de forma crescente.
Para calcular o 25º percentil, P25, devemos encontrar sua localização nos dados ordenados: 
*
*
Exemplo 
O resultado de 9,5 quer dizer que o 25º percentil está localizado a 50% do caminho entre a 9ª observação 162 e a 10ª que é 163: P25=162+(0,5)*(163-162)=162,5 
Assim, 25% das observações estão abaixo de 162,5 e 75% estão acima deste valor. O 25º percentil da distribuição de alturas é 162,5.
*
*
Achando os Decis e Quartis
Os decis e os quartis são proporcionais aos percentis em 10 e 25 vezes, respectivamente. Para achá-los na distribuição, basta fazer o cálculo do percentil correspondente:
1º decil = 10º percentil
2º decil = 20º percentil
3º decil = 30º percentil...
1º quartil = 25º percentil
2º quartil = 50º percentil
3º quartil = 75º percentil.
*
*
Interquartil 
Usa-se se também o interquartil ou IQR como medida de dispersão. 
O interquartil é a diferença entre o 1º quartil e o 3º quartil, isto é: P75 – P25. 
A metade das observações se encontra no intervalo do IQR, descartando-se os 25% menores valores e os 25% maiores valores.
Sendo assim, o interquartil fornece uma medida de dispersão que não é influenciada por poucas observações discrepantes (que possuem valores extremos). 
*
*
Exercícios 
Usando os dados da Tabela 1, calcule interprete:
35º percentil
O 3º decil
A mediana
O interquartil
*
*
Exercícios 
Usando os dados da Tabela 1, calcule interprete:
35º percentil = 165
O 3º decil = 163,4
A mediana = 170
O interquartil = [162,5; 175,5]. Diferença P75-P25=13
*
*
Usando o Desvio Padrão 
Como vimos, o desvio padrão é usado para descrever um conjunto de dados pela medida de afastamento das observações individuais com relação à media. 
Duas aplicações adicionais para o desvio padrão são: 
(1) Teorema de Tchebychev
(2) Regra Empírica. 
*
*
(1) Teorema de Chebyshev 
Formulado por um matemático russo do século XIX.
Enunciado do teorema: Em qualquer conjunto de dados, pelo menos 1- (1/K2) por cento das observações encontra-se a uma distância de K desvios padrão da média, onde K é qualquer número maior que 1. 
O teorema de Chebyshev é expresso como: 
1 – [1/K2] = número de observações %
Exemplo: se construirmos um intervalo cujo limite superior é a média mais 3 desvios padrão (K=3), e o limite inferior é a média menos 3 desvios padrão, então pelo menos 1 – (1/32) = 88,89% de todas as observações estão dentro deste intervalo. 
*
*
(2) A distribuição Normal Empírica 
O desvio padrão pode ser usado para concluir se os dados em questão são normalmente distribuídos: a distribuição Normal é muito importante na análise estatística e será estudada com mais profundidade depois. 
A distribuição normal é uma distribuição para dados contínuos (não discretos), que produzem uma curva simétrica em torno da média na forma de sino.
Exemplo: Considere a variável aleatória X = minutos que os esquiadores levam para terminar um determinado percurso montanha à baixo. 
*
*
Distribuição Normal
*
*
A distribuição Normal Empírica 
Colhe-se um grande número de observações sobre essa variável X, n=1.000 esquiadores que fazem o percurso, e observa-se que os dados seguem uma distribuição normal com média de tempo μ = 10 minutos e desvio padrão σ= 2 minutos. 
A distribuição empírica diz que, no intervalo [ μ – σ; μ + σ] estão 68,3% das observações (não importando quais os valores que μ e σ assumem).
No nosso exemplo, podemos dizer que no intervalo [10-2; 10+2], encontram-se 683 esquiadores (68,3% dos 1.000). Ou seja, 683 esquiadores levam de 8 a 12 minutos para descer a montanha. 
*
*
A distribuição Normal Empírica 
À medida que aumentamos mais um desvio padrão com relação à média (acima ou abaixo), é incluída uma porcentagem maior de observações. 
Nestes casos a distribuição empírica nos diz que:
1 d.p. (+, - ) a média = 68,3% das observações;
2 d.p. (+, –) a média = 95,5% das observações;
3 d.p. (+, -) a média = 99,7% das observações.
Uma observação afastada mais de 3 desvios padrão da média é uma raridade e acontece com menos de 1% das observações se os dados tem uma distribuição Normal. 
* ATENÇÃO: a regra empírica só vale para a distribuições normais!
*
*
Assimetria 
Nem todas as distribuições são simétricas em torno na média, como a normal. Algumas são assimétricas para a direita ou para a esquerda.
Na figura a seguir, encontramos curvas de distribuição de pesos de pessoas. 
Na figura (a) a distribuição é chamada assimétrica para a direita (há poucas pessoas pesadas no limite da distribuição de pesos, alguns homens grandes);
Na figura (b) a distribuição é assimétrica para a esquerda (algumas mulheres pequenas puxaram a distribuição para o limite inferior). 
*
*
Assimetria 
*
*
Assimetria 
Existem várias formas de se medir a assimetria da distribuição. Uma delas é o Coeficiente de Pearson:
P < 0 = assimetria para a esquerda
P > 0 = assimetria para a direita
P = 0 = dados simétricos. 
*
*
Coeficiente de Variação 
Às vezes o desvio padrão não fornece a melhor pista sobre como os dados estão dispersos em torno da média...
Por exemplo, se as distribuições tem médias e desvios diferentes, como concluir em qual delas as observações estão mais concentradas em torno da média?
O Coeficiente de Variação (CV) serve como uma medida “relativa” de dispersão: com ele é possível comparar a dispersão dos dados medidos em diferentes unidades (ou que tem médias muito diferentes):
*
*
Exercícios 
Um conjunto de dados dos pesos de 1.000 sacos de ração para cães da marca Y tem uma média de 23kg e um desvio padrão de 1,04kg. Não se sabe se os dados tem distribuição normal. Os produtores da ração esperam que pelo menos 750 sacolas pesem entre 20,6kg e 24,7kg. O que você pode afirmar para os produtores?
Um conjunto de dados com distribuição normal tem média = 5.000 e desvio padrão = 450. Que porcentagem das observações está no intervalo de:
4550 a 5450?
Acima de 6350?
Abaixo de 4550?
Exercícios: 15, 16
e 17 do WEBSTER, Cap. 3.
*
*
Resposta exercício 1 
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*

Teste o Premium para desbloquear

Aproveite todos os benefícios por 3 dias sem pagar! 😉
Já tem cadastro?

Continue navegando