Buscar

Est_aula3

Prévia do material em texto

*
Medidas estatísticas de sumarização ou resumo
Valores que resumem um conjunto de dados podem ser classificados em:
Medidas de posição ou localização;
 Medidas de dispersão ou variabilidade;
Medidas de assimetria e curtose.
*
Medidas de posição ou localização
Média
Mediana
Moda
Separatrizes
Se as medidas forem calculadas para os dados de uma amostra, elas são chamadas de estatísticas da amostra.
Se as medidas forem calculadas para os dados de uma população, elas são chamadas de parâmetros populacionais.
*
Média Aritmética Simples
É um valor que representa um ponto de equilíbrio. É a somatória de valores dividido pelo número de valores.
Exemplo: Os dados abaixo referem-se ao salário (em salários mínimos) de 10 funcionários administrativos em uma indústria.
10,1 7,3 8,5 5,0 9,0 9,4 8,2 6,5 8,9 10,7
Calcule a média aritmética.
Medidas de Posição ou Localização
*
Exemplo: Os dados abaixo referem-se ao salário (em salários mínimos) de 10 funcionários administrativos em uma indústria.
10,1 7,3 8,5 5,0 9,0 9,4 8,2 6,5 8,9 10,7
Calcule a média aritmética.
Medidas de Posição ou Localização
Os funcionários recebem em média, aproximadamente, 8,4 salários mínimos.
*
Média Aritmética Simples
É um valor que respresenta um ponto de equilíbrio. É a somatória de valores dividido pelo número de valores.
Média Amostral
Média Populacional
Medidas de Posição ou Localização
Notação: É designada por uma barra sobre o símbolo dos valores que estão sendo utilizados para se obter a média
*
Exemplo: Um estudante obteve na 1ª avaliação a nota 7,5 e na avaliação do qualitativo ficou com a nota 9,0. A nota das unidades é uma média ponderada, em que a avaliação tem peso 8 e o qualitativo peso 2. Logo, qual será a nota deste aluno na 1ª unidade?
Medidas de Posição ou Localização
*
Exemplo: Um estudante obteve na 1ª avaliação a nota 7,5 e na avaliação do qualitativo ficou com a nota 9,0. A nota das unidades é uma média ponderada, em que a avaliação tem peso 8 e o qualitativo peso 2. Logo, qual será a nota deste aluno na 1ª unidade?
Medidas de Posição ou Localização
A nota deste aluno na 1ª unidade é 7,8.
*
 Média Aritmética Ponderada
A média aritmética é considerada ponderada quando os valores do conjunto tiverem pesos diferentes.
É a soma dos produtos de cada valor observado pelo seu respectivo peso, dividida pela soma dos pesos.
							 .
Medidas de Posição ou Localização
*
Comentários
 A média é um valor “típico” (característico) do conjunto de dados.
 É a principal medida de tendência central.
 Leva em consideração todas as observações efetuadas.
 Calcula-se com facilidade.
Medidas de Posição ou Localização
*
Desvantagem
 Muito sensível a valores extremos, isto é, a valores excessivamente pequenos ou grandes, em relação às demais observações do conjunto de dados.
Exemplo: Monitoração de Chumbo no ar. (Triola, 2002) 
 Dados de chumbo (μg/m3): 5,40 1,10 0,42 0,73 0,48 1,10
Medidas de Posição ou Localização
*
Desvantagem
 Muito sensível a valores extremos, isto é, a valores excessivamente pequenos ou grandes, em relação às demais observações do conjunto de dados.
Exemplo: Monitoração de Chumbo no ar. (Triola, 2002) 
 Dados de chumbo (μg/m3): 5,40 1,10 0,42 0,73 0,48 1,10
Medidas de Posição ou Localização
*
 Mediana
É o valor central em uma distribuição, quando ordenados do menor para o maior.
Divide a distribuição em duas partes iguais, de modo que 50% dos valores observados são iguais ou inferiores ao valor mediano e 50% iguais ou superiores a esse valor.
Notação: É designada por um til sobre o símbolo dos valores que estão sendo utilizados para se obter a mediana, por exemplo, .
Medidas de Posição ou Localização
*
Cálculo da mediana
- Ordene os dados
 Se o total de observações for ÍMPAR, a mediana, é o valor que está localizado exatamente ao meio dos dados ordenados.
 Se o total de observações for PAR, a mediana é a média dos dois valores centrais.
Medidas de Posição ou Localização
*
Exemplo: Calcule a mediana dos conjuntos a seguir.
Conjunto 1 = {10, 29, 26, 28, 15, 13, 25}
Conjunto 2 = {500, 600, 800, 5.000, 1.000, 500, 1300, 900}
Medidas de Posição ou Localização
*
Exemplo: Calcule a mediana dos conjuntos a seguir.
Conjunto 1 = {10, 29, 26, 28, 15, 13, 25}
Conjunto 2 = {500, 600, 800, 5.000, 1.000, 500, 1300, 900}
Medidas de Posição ou Localização
*
Média x Mediana
A mediana é uma medida de posição resistente, pois é pouco afetada por mudanças de pequena porção dos dados, ao contrário da média aritmética que é sensível a valores atípicos.
Exemplo: Calcule a mediana para os dados de monitoração do chumbo no ar e compare com a média.
Dados de chumbo (μg/m3): 5,40 1,10 0,42 0,73 0,48 1,10
Medidas de Posição ou Localização
*
 O cálculo da mediana torna-se trabalhoso quando o número de observações é grande, devido a necessidade de ordenar os dados.
Medidas de Posição ou Localização
*
 Moda
A moda é o valor que ocorre com maior frequência na distribuição.
Exemplo: 
X = {2, 3, 3, 5, 5, 5, 6, 7} unimodal
Y = {10, 12, 17, 21, 32} amodal
Z = {2, 2, 2, 5, 5, 7, 7, 7} bimodal
W = {10, 12, 12, 12, 13, 13, 13, 15, 18, 18, 18, 21} multimodal
A moda é a menos empregada. No entanto, é adequada para caracterizar situações onde estejam em causa os casos ou valores mais usuais. 
 
 
Medidas de Posição ou Localização
*
Medidas de Posição ou Localização
Prova Cesgranrio, 2010 (Engenheiro de Petróleo)
Considere uma amostra de uma variável aleatória, cujos valores estão todos expressos em uma mesma unidade.
 Amostra: 36 38 26 40 40 28 46 40 38 28
Sobre essa amostra tem que:
A media é igual a mediana
A media é maior que a moda
Se retirarmos um dos valores da amostra, a média, necessariamente, será alterada.
A mediana é maior que a moda
A mediana é maior que a media.
*
Medidas de Posição ou Localização
 Separatrizes
Permitem calcular valores da variável que dividem a distribuição em partes iguais. Existem quatro tipos de separatrizes, também chamada de quantis.
 Mediana
 Quartis
 Decis
 Centis ou Percentis
*
Medidas de Posição ou Localização
Enquanto a mediana separa a distribuição em duas partes iguais, a característica principal das outras separatrizes é:
 Quartis (Qi): dividem a distribuição em quatro partes iguais;
 Decis (Di): dividem em dez partes iguais;
 Centis ou Percentis (Pi): dividem em cem partes iguais.
*
Medidas de Posição ou Localização
 Quartis (Qi): dividem a distribuição em quatro partes iguais;
 Decis (Di): dividem em dez partes iguais;
 Centis ou Percentis (Pi): dividem em cem partes iguais.
*
Medidas de Posição ou Localização
Relação entre as separatrizes:
 Os quartis Q1, Q2 e Q3 são os percentis P25, P50 e P75.
 
Os decis D1, D2, … e D9 são os percentis P10, P20, … e P90.
 (Md) = Q2 = D5 = P50.
*
Medidas de Posição ou Localização
Cálculo do percentil de ordem i :
Ordenar os dados de forma crescente;
Calcular a posição (L) do percentil i 
L é um número inteiro?
SIM -> O percentil i será calculado como a média aritmética dos elementos que ocupam a posição L e a posição( L+1)/2.
NÃO -> O percentil i é o elemento que ocupa a posição L, sendo que L será arredondado para o maior inteiro mais próximo.
*
Cálculo dos Quartis
*
 	Os dados a seguir representam o tempo (em minutos) que 45 operadores de máquina demoraram para fazer o setup de uma máquina.
Calcule o P20, P25 e P75.
	
	
*
Medidas de Posição ou Localização
Exemplo: Num concurso público, do qual participaram 20 pessoas, as notas de redação foram:
6,8 7,9 7,5 7,5 7,5 7,7 6,2 8,5 8,0 7,0
6,2 9,4 6,16,7 8,0 8,6 9,6 7,8 8,9 6,1
Calcule a média, mediana, moda e os percentis 15, 50 e 82. 
 
*
Medidas de Posição ou Localização
Exemplo: Num concurso público, do qual participaram 20 pessoas, as notas de redação foram:
6,1 6,1 6,2 6,2 6,7 6,8 7,0 7,5 7,5 7,5 
7,7 7,8 7,9 8,0 8,0 8,5 8,6 8,9 9,4 9,6 
Calcule a média, mediana, moda e os percentis 15, 50 e 82. 
 
*
Algumas propriedades da média aritmética
 Somando-se (ou subtraindo-se) um valor constante e arbitrário a cada um dos elementos de um conjunto de números, a média fica somada (ou subtraída) por essa constante.
 Multiplicando-se (ou dividindo-se) cada elemento de um conjunto de números por um valor constante e arbitrário, a média fica multiplicada (ou dividida) por essa constante.
Medidas de Posição ou Localização
*
Exemplo:
Dados os conjuntos de números: A={100 , 101, 102, 103, 104, 105} e B= {0, 1, 2, 3, 4, 5} , podemos afirmar que.
A média de A é igual à de B multiplicada por 100.
A média de A é igual à de B.
A média de A é igual à de B dividida por 100.
A média de A é igual à de B mais a constante 100.
Nenhuma das resposta acima.
Medidas de Posição ou Localização
*
Medidas de Posição ou Localização
Exemplo: Na companhia A, a média dos salários é 10.000 u.m e o 750 percentil é 5.000 u.m. Responda:
Se você se apresentasse como candidato a essa firma e se o seu salário fosse escolhido ao acaso entre todos os possíveis salários, o que seria mais provável: ganhar mais ou menos que 5.000 u.m?
Suponha que na companhia B a média dos salários é 7.000 u.m e a variabilidade é praticamente zero, e lá o seu salário também seria escolhido ao acaso. Em qual companhia é mais provável ter um salário maior, levando em consideração as informações apresentadas?
*
Medidas de Dispersão
Motivação
Considere as notas finais de três turmas
	
*
Medidas de Dispersão
Motivação
Considere as notas finais de três turmas
	
*
Medidas de Dispersão
 
Como principais medidas de dispersão temos:
 Amplitude Total;
Variância;
Desvio Padrão;
Amplitude semi-interquartílica ou desvio quartil;
Coeficiente de Variação.
 
*
Medidas de Dispersão
 
Amplitude Total
A amplitude de um conjunto de dados é a diferença entre os valores extremos do conjunto.
Exemplo: Calcule a amplitude total para as notas das três turmas de alunos.
*
Medidas de Dispersão
 
Observações
 A amplitude não é uma boa medida de dispersão, pois utiliza apenas os valores extremos do conjunto de dados
 Mede a dispersão total no conjunto de dados, mas não leva em consideração como os dados são efetivamente distribuídos entre os valores extremos.
 É a única medida de dispersão que não tem na média o ponto de referência.
*
Medidas de Dispersão
Desvio Padrão
É a medida de dispersão mais usada e mais importante. Mede a concentração dos dados em torno da média.
Exemplo: Calcule o desvio padrão para as notas das três turmas de alunos.
*
Medidas de Dispersão
Variância
É o quadrado do desvio padrão.
Exemplo: Calcule o variância para as notas das três turmas de alunos.
*
Medidas de Dispersão
Interpretação do desvio padrão (análoga à da variância)
O devio padrão mede a variação entre valores. Assim:
Se os valores estiverem próximos uns dos outros, então o desvio padrão será pequeno, e consequentemente os dados serão mais homogêneos.
Se os valores estiverem distantes uns dos outros, então o desvio padrão será grande, e consequentemente os dados serão heterogêneos.
O desvio padrão tem a unidade de medida igual a unidade de medida original da variável, enquanto que a variância apresentará a unidade de medida elevada ao quadrado.
*
Medidas de Dispersão
Amplitude semi-interquartílica ou desvio quartil
O intervalo interquartílico é igual a (Q1 ; Q3). Neste intervalo encontram-se 50% das observações centrais do conjunto de dados.
A amplitude interquartílica corresponde à diferença entre os quartis de ordem 3 e de ordem 1.
O desvio quartil é a metade da amplitude interquartílica.
*
Medidas de Dispersão
Observações
É facilmente calculado e interpretado.
Não é afetado por valores extremos.
Quando a medida de tendência central utilizada for a mediana deve-se trabalhar com o desvio quartil como medida de dispersão.
Possui desvantagem, pois duas distribuições diferentes podem apresentar o mesmo valor para o desvio quartil e, no entanto, as dispersões para os conjuntos observados serem muito desiguais.
*
Medidas de Dispersão
Coeficiente de Variação de Pearson
Trata-se de uma medida relativa de dispersão, útil para comparar a variabilidade de duas ou mais distribuições, mesmo quando essas se referem a diferentes fenômenos e sejam expressas em unidades de medida distintas.
Como o CV é uma medida que exprime a variabilidade relativa à média, é usualmente expresso em porcentagem.
*
Medidas de Dispersão
Regras empíricas para interpretações do CV:
 Se CV < 15% -> tem-se baixa dispersão
 Se 15% ≤ CV < 30% -> tem-se média dispersão
 Se CV ≥ 30% -> tem-se elevada dispersão
Exemplo: Ache o coeficiente de variação para alturas (m) e pesos (kg) de 40 homens. 
Altura: 
Peso: 
*
Medidas de Assimetria
As medidas de assimetria são utilizadas para avaliar o grau de assimetria da distribuição de frequências, sendo que assimetria pode ser definida como o grau de deformação de uma curva de frequências.
Relação entre média, mediana e moda
Uma primeira verificação da assimetria pode ser feita através da comparação entre os valores observados para a média, mediana e moda.
*
a) 		 distribuição é simétrica
b) 		 distribuição é assimétrica positiva ou à direita
Medidas de Assimetria
*
Medidas de Assimetria
c) 		 distribuição é assimétrica negativa ou à esquerda
*
Diagramas em Caixas
 Box-plot 
É um método alternativo ao histograma para representar os dados.
São convenientes para revelar tendências centrais, dispersão, distribuição dos dados e a presença de outliers (valores extremos).  
Utiliza: valor mínimo, , Q1, Q3 e o valor máximo do conjunto de dados.  
O box-plot tem a vantagem de não ser tão sensível a valores extremos como outras medidas baseadas na média e no desvio-padrão. 
Útil para comparar dois ou mais conjuntos de dados.
O box-plot pode ser desenhado na posição vertical (mais comum) ou horizontal.
*
*
Interpretação do gráfico box-plot 
A mediana é o traço no centro do retângulo.
A dispersão é representada pela altura do retângulo (Q3 - Q1), desvio interquartílico, o qual contém 50% das observações centrais do conjunto de dados.
Assimetria: a proximidade da linha da mediana em relação a Q1 e Q3 informa sobre a assimetria.
 - Se a mediana está localizada (+ ou -) no centro do retângulo → Simetria
- Se a mediana é próxima de Q1 → Assimetria positiva
- Se a mediana é próxima de Q3 → Assimetria negativa
*
Interpretação do gráfico box-plot 
Os pontos que estão fora do intervalo dado pelo desvio interquartílico são considerados valores atípicos ou discrepantes (outliers), ou seja, valores muito grandes ou muito pequenos em relação aos demais. Geralmente são representados pelos símbolos * ou .
*
Box-Plot e Assimetria
*
*
*

Continue navegando