Buscar

Estatistica_I_Capitulo_3_Estatistica_Descritiva_Med_Numericas_Office_2007

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 52 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 52 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 52 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Estatística Aplicada à Administração I
ADM 1276 Profa. Léa Benatti
Capítulo 3 – ESTATÍSTICA DESCRITIVA: Medidas Numéricas
 Introdução
1- Medidas de Posição
2- Medidas de Variabilidade (ou Medida de Dispersão)
3 – Medidas de Forma da Distribuição, da Posição Relativa e Detecção de Pontos Fora da Curva
4 – Análise Exploratória de Dados
5 – Medidas de Associação entre Duas Variáveis
PUC-Rio
1
Esta apresentação tem o propósito de cumprir a Tarefa 4 do Curso de Treinamento do Moodle (Sistema de Gerenciamento de Curso), realizado no Departamento de Administração da PUC-Rio.
Serão mostrados:
- Um breve resumo de um artigo sobre Educação à Distancia (referente à tarefa 1);
E considerações Finais do debate realizado no Fórum (referente à tarefa 3).
Artigo: ....
Estudo sobre a importância da introdução de estratégias motivacionais de suporte ao aluno de programa de educação à distância. 
Estatística Aplicada à Administração I
ADM 1276 Profa. Léa Benatti
Capítulo 3 – ESTATÍSTICA DESCRITIVA: Medidas Numéricas
Introdução
Métodos Numéricos: alternativas adicionais para sintetizar dados.
Medidas Numéricas: sintetizam dados para uma variável.
Para conjunto de dados com mais de uma variável:
 - Medidas Numéricas podem ser computadas separadamente para cada variável.
- Caso de 2 variáveis: são usadas medidas da relação existente entre as variáveis (covariância, coeficiente de correlação).
2
Esta apresentação tem o propósito de cumprir a Tarefa 4 do Curso de Treinamento do Moodle (Sistema de Gerenciamento de Curso), realizado no Departamento de Administração da PUC-Rio.
Serão mostrados:
- Um breve resumo de um artigo sobre Educação à Distancia (referente à tarefa 1);
E considerações Finais do debate realizado no Fórum (referente à tarefa 3).
Artigo: ....
Estudo sobre a importância da introdução de estratégias motivacionais de suporte ao aluno de programa de educação à distância. 
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Serão apresentadas medidas numéricas de Posição, Dispersão, Forma, Associação.
Estatísticas da Amostra  medidas calculadas se referem aos dados de uma AMOSTRA.
Parâmetros Populacionais  medidas calculadas se referem a dados de uma POPULAÇÃO.
Softwares usados → SPSS, Minitab e Excel
3
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Métodos Numéricos - Alternativas Adicionais para Sintetizar Dados
Medidas de Posição
 Média
 Mediana
 Moda
 Percentis
 Quartis
Para ordenar valores: Excel  Selecionar coluna / barra MENU / DADOS / CLASSIFICAR 
Medidas de Variabilidade
(ou Medida de Dispersão)
 Amplitude
 Amplitude Interquartil
 Variância
 Desvio Padrão
 Coeficiente de Variação
4
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
1- MEDIDAS DE POSIÇÃO
Medida de Tendência Central - MÉDIA ARITMÉTICA DA AMOSTRA
i) Média (X  dados de uma amostra)
 (μ  dados de uma população)
Amostra de n observações.
xi→valor da variável X da i-ésima observação.
EXECEL PARA DETERMINAR A MÉDIA ARITMÉTICA
Passo 1: escolher célula para o resultado
Passo 2: inserir função
Passo 3: selecionar categoria e nome da função
Passo 4: selecionar o intervalo
 =Média(A3:A23)
5
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Medida de Tendência Central - MÉDIA ARITMÉTICA PONDERADA
ii) Média (X  dados de uma amostra)
 (μ  dados de uma população)
Amostra de n observações
xi →valor da variável X da i-ésima observação
pi – peso
Medida de Tendência Central - MÉDIA ARITMÉTICA GEOMÉTRICA
iii) Média (Xg  dados de uma amostra)
 (μg  dados de uma população)
6
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Média Aritmética Geométrica - EXEMPLO
“o crescimento de uma empresa foi de 2,8% em 2005, 3,7% em 2006 e 0,5% em 2007”.
Taxa média de crescimento:
100 x 1,028 = 102,8 – no final do 1º. Ano
102,8 x 1, 037 = 106,60 – no final do 2º. Ano
106,60 x 1,005=107, 13 no final do 3º. Ano
100(1+i)3 = 107,13  (1+i)3 =1,0713  (1+i) = 
i = 0,02322 x 100
i= 2,32% ou: 1,028 x 1,037 x 1,005 = 1,0713
 X1 x X2 x X3 
7
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Medida de Tendência Central - MEDIANA DA AMOSTRA 
 iv) Mediana – valor intermediário quando os dados são organizados em ordem crescente (do menor para o maior). Os valores repetidos são incluídos na lista ordenada.
 No ímpar de observação: mediana é o valor intermediário;
No par de observação: mediana é a média dos valores correspondentes às duas observações intermediárias.
EXEMPLO
Dados em ordem crescente: 32 42 46 46 54 (n = 5)
 Mediana = 46
Dados em ordem crescente: 2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325 (n = 12)
 Mediana = (2890 + 2920)/2 = 2905
8
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Medida de Posição – MODA DA AMOSTRA
v) Moda – é o valor que ocorre com maior freqüência na amostra.
EXEMPLO
 Dados em ordem crescente: 32 42 46 46 54 (n = 5)
 Moda = 46
Dados em ordem crescente: 2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325 (n = 12)
 Moda = 2880
Dados qualitativos: 
Moda: Coca-Cola
Moda: refrigerante mais comprado
9
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Medida de Posição – PERCENTIL DA AMOSTRA
vi) Percentis - um PERCENTIL fornece informação sobre como os dados se distribuem ao longo do intervalo entre o menor e o maior valor.
PERCENTIL: o p-ésimo percentil é um valor tal que pelo menos p por cento das observações são menores ou iguais a esse valor e pelo menos (100 – p) por cento das observações são maiores ou iguais a esse valor.
Obs.: Amostra sem muitos valores repetidos, o p-ésimo percentil divide os dados em 2 partes (≈ p% das observações são valores menores que p-ésimo percentil, e ≈ (100 – p)% são valores maiores que o p-ésimo percentil).
Etapas - cálculo do p-ésimo PercentiL:
Organizar dados em ordem crescente (do menor para o maior);
Calcule o índice i, em que p é o percentil procurado e n o no de observações;
a - Se i não for inteiro, arredondar para cima  posição do p-ésimo percentil;
b – Se i for inteiro, o p-ésimo percentil será a média dos valores nas posições i e (i + 1).
10
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Percentis - EXEMPLO
Dados organizados: 2710 2755 2880 2880 2890 2920 2940 2950 3050 3130 3325 7850 (n = 12)
 
 
 85o Percentil = valor da 11a posição = 3325
vii) Quartis – dados divididos em 4 partes.
25%
25%
25%
25%
Q1
Q2
Q3
Q1 = 1o Quartil (25o Percentil)
Q2 = 2o Quartil (50o Percentil) - MEDIANA
Q3 = 3o Quartil (75o Percentil)
Posição dos Quartis:
11
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Medida de Posição – QUARTIL DA AMOSTRA
Quartis - quando há necessidade de dividir os dados em 4 partes, tendo para cada parte aproximadamente um quarto, ou 25% das observações.
 Q1 = primeiro quartil = 25o percentil  Q1 = 2865 no exemplo
 Q2 = segundo quartil = 50o percentil (= Mediana)  Q2 = 2905 no exemplo
 Q3 = terceiro quartil = 75o percentil.  Q3 = 3000 no exemplo
EXEMPLO
Dados organizados: 2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325 (n = 12)
Q1 = (2850 + 2880) / 2 = 2865
Q2 = (2890 + 2920) / 2 = 2905
Q3 = (2950 + 3050) / 2 = 3000
12
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Observações:
Podem ser usadas outras convenções para cálculo de quartis e seus valores podem variar ligeiramente, mas deve-se ter em mente que calcular quartis é dividir os dados em 4 partes iguais.
Conjunto de dados contendo valores extremos → melhor usar MEDIANA, em vez de usar MÉDIA como medida central;
 ou;
Usar MÉDIA AJUSTADA (obtida excluindo uma porcentagem dos valores menorese maiores de um conjunto de dados e calculando então a média dos valores restantes).
 Ex.: Média Ajustada 5%: média obtida eliminando 5% dos valores de dados menores e 5% dos valores de dados maiores → calcular média dos valores restantes.
 Amostra: n = 12 → 0,05 (12) = 0,6 → arredondando para 1,0
 Média Ajustada 5% (n = 10): média dos valores onde se elimina o menor e o maior valor dos dados.
13
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
2- MEDIDAS DE VARIABILIDADE (ou Medida de Dispersão)
Menor variabilidade, muitas vezes, indica maior confiabilidade relacionada. Variabilidade 
 Confiabilidade dados 
i) AMPLITUDE - medida mais simples de variabilidade.
 
 Amplitude = Maior valor – Menor valor
Baseia-se em 2 observações (assim, é altamente influenciada por valores extremos). Portanto, a Amplitude é uma medida de variabilidade raramente usada como medida única.
Valores extremos desproporcionais ao restante das observações não descrevem a variabilidade dos dados.
14
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
ii) AMPLITUDE INTERQUARTIL - é o intervalo correspondente aos 50% dos dados intermediários. É a diferença entre o terceiro quartil e o primeiro quartil.
 AIQ = Q3 – Q1 → diferença entre o terceiro quartil Q3 e o primeiro
 quartil Q1.
AIQ: é o intervalo correspondente ao 50% dos dados intermediários.
Q1 Q3
50%
25%
25%
15
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
iii) VARIÂNCIA – medida de variabilidade que utiliza todos os dados.
 Baseia-se na diferença entre o valor de cada observação (xi) e a média  denomina-se desvio em torno da média, (xi – X) e (xi – m).
Variância da Amostra:
(estimativa da variância da População 2)
Variância da População:
 N = no de observações da população.
Obs.: a divisão por (n -1) possibilita a resultante variância da amostra fornecer uma estimativa sem tendenciosidade da variância da população (demonstração por formulas).
n = no observações da amostra.
16
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Exemplo – Variância (difícil compreensão - medida útil ao comparar a quantidade de variabilidade de 2 ou mais variáveis).
Tamanho de classe da amostra de 5 classes universitárias.
17
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
iv) Desvio Padrão - raiz quadrada positiva da variância.
É a mais importante medida de dispersão para uma amostra.
Promove a mesma unidade de medida tanto para a tendência central quanto para dispersão.
Desvio Padrão para a Amostra:
Desvio Padrão para a População: 
18
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
v) Coeficiente de Variação - DISPERSÃO RELATIVA 
Grandeza relativa do desvio padrão quando este é comparado com a média. Medida de dispersão que compara distribuições diferentes.
É o tamanho de desvio padrão em relação à média.
 CV = DESVIO PADRÃO x 100 (%)
 MÉDIA ARITMÉTICA
Exemplo – Dados exemplo anterior: tamanhos de classe.
Média Amostral = 44; Desvio Padrão da Amostra = 8;
Coeficiente de variação = (8 / 44) x 100 = 18,2%  diz que o desvio padrão da amostra é 18,2% do valor da média da amostra.
19
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Coeficiente de Variação - usado quando se deseja comparar a variabilidade de variáveis distintas.
Obs. 1: Desvio Padrão  medida usada para se calcular o risco associado ao investimento em ações e fundos de ações. Ele fornece uma medida de como os retornos mensais flutuam em torno dos retornos médios de longo prazo.
Obs. 2: Softwares: Minitab e Excel  são usados para desenvolver estatísticas descritivas.
Obs. 3: Arredondar o valor da média da amostra e os valores dos desvios elevados ao quadrado - (xi – X)2  leva a erros quando se usa uma calculadora para calcular a variância e o desvio padrão.
Para reduzir erros: utilizar pelo menos 6 dígitos significativos durante os cálculos intermediários. Resultados podem se arredondados com menor número de dígitos.
20
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
vi) Regressão e Correlação - estuda a relação entre duas variáveis.
Correlação – resume o grau de relacionamento entre duas variáveis - r de Person – varia de -1 a 1.
Regressão – equação matemática que descreve o relacionamento entre duas variáveis:
 Linear;
 Parábola;
 Exponencial;
 Geométrica.
21
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
3 - MEDIDAS DA FORMA DA DISTRIBUIÇÃO, DA POSIÇÃO RELATIVA E DETECÇÃO DE PONTOS FORA DA CURVA.
Descreveu-se anteriormente: medidas de posição e de variabilidade dos dados.
Importante: ter a medida da forma de uma distribuição.
Medida numérica da forma de uma distribuição é chamada ASSIMETRIA.
Histograma: apresentação gráfica que mostra a forma de uma distribuição.
i) FORMA DA DISTRIBUIÇÃO - ASSIMETRIA.
Formulação:
Medida numérica da Forma de Distribuição,
Onde: n: tamanho da amostra;
 X: média da amostra;
 S: desvio padrão da amostra.
22
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Histogramas que indicam a assimetria de 4 distribuições:
- Moderadamente inclinado à esquerda (cauda para esquerda):
 Assimetria = - 0,85;
- Moderadamente inclinado à direita (cauda para direita):
 Assimetria = 0,85;
- Simétrico: Assimetria = 0 (zero);
- Fortemente inclinado à direita: Assimetria = 1,62.
Ver desenho esquemático na bibliografia principal.
Assimetria pode ser calculada utilizando software estatístico.
23
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
ii) CONTAGENS-Z 
Além de medidas de posição, medidas de variabilidade e forma de distribuição, há interesse na posição relativa dos valores contidos em um conjunto de dados.
Medidas de posição relativa: ajudam a determinar quão afastado um valor em particular está da média → Contagem-Z.
Usando média e desvio padrão pode-se determinar a posição relativa de qualquer observação.
Supondo n observações, e os valores denotados por x1, x2, ..., xn; e média da amostra X e desvio padrão s (ambos já calculados).
Associado a cada valor, xi, há outro valor que se chama Contagem-Z.
24
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Cálculo da Contagem-Z para cada xi:
Contagem-Z: denominado Valor Padronizado.
A contagem-Z, Zi, pode ser interpretado como o número de desvio padrão que xi está afastado da média X.
Exemplo: Z1 = 1,2 → indica que x1 é 1,2 desvio padrão maior que a média da amostra.
	 Z2 = - 0,5 → indica que x2 é 0,5 (ou ½) desvio padrão menor que a média da amostra.
onde: Zi = contagem-Z para xi;
 X = média da amostra;
 s = desvio padrão da amostra.
25
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Cálculo da Contagem-Z para cada xi:
Contagem-Z maior que zero: para observações com valor maior que a média da amostra;
Contagem-Z menor que zero: para observações com valor menor que a média da amostra;
Contagem-Z igual a zero: para observações com valor igual à média da amostra;
A contagem-Z de qualquer observação pode ser interpretada como uma medida de posição relativa da observação no conjunto de dados.
Pode-se dizer que as observações feitas em 2 diferentes conjuntos de dados que possuem a mesma contagem-Z têm a mesma posição relativa em termos de estarem o mesmo número de desvios padrão afastados da média.
26
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Exemplo: Considerando os dados a seguir (Dados de tamanho de classe)
 Média da amostra: 44 estudantes na classe;
 Desvio padrão: s = 8. (Valores calculados anteriormente).
Contagem-Z dos dados de tamanho de classe de uma determinada escola:
27
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
iii) TEOREMA DE CHEBYSHEV 
Permite fazer afirmações acerca da proporção de valores de dados que devem estar contidos em um número específico de desvios padrãoda média.
 Formulação → (1 – 1/Z2)
Teorema de Chebyshev:
	Pelo menos (1 – 1/Z2) dos valores de dados devem estar contidos em Z desvios padrão da média, em que Z é qualquer valor maior que 1(um).
Exemplo:
 Para Z = 2: (1 – 1/22) = 1 – ¼ = 0,75; pelo menos 0,75 ou 75% dos valores de dados devem estar contidos em Z = 2 desvios padrão da média;
 Para Z = 3: (1 – 1/32) = 0,89; pelo menos 0,89 ou 89% dos valores de dados devem estar contidos em Z = 3 desvios padrão da média;
 Para Z = 4: (1 – 1/42) = 0,94; pelo menos 0,94 ou 94% dos valores de dados devem estar contidos em Z = 4 desvios padrão da média.
28
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Exemplo:
 Notas dos exames semestrais de 100 estudantes do curso de Estatística. Amostra: 100 estudantes: Média = 70;
			 Desvio padrão = 5.
a) Quantos estudantes tiveram notas de exame entre 60 e 80?
 60: 2 desvios padrão (s = 5) abaixo da média (70);
 80: 2 desvios padrão (s = 5) acima da média (70).
Teorema de Chebyshev: (1 – 1/Z2) = (1 – 1/22) = 0,75 ou 75%
Pelo menos 75% (ou 0,75) das observações devem ter valores que estão dentro dos desvios padrão da média;
 ou:
75% dos estudantes devem ter obtido notas entre 60 e 80.
29
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Exemplo:
 Notas dos exames semestrais de 100 estudantes do curso de Estatística. Amostra: 100 estudantes: Média = 70;
			 Desvio padrão = 5.
b) Quantos estudantes tiveram notas de exame entre 58 e 82?
Cálculo da Contagem-Z para cada xi:
Teorema de Chebyshev: (1 – 1/Z2) = (1 – 1 / 2,42) = 0,826 ou 82,6%
 
Pelo menos 82,6% dos estudantes devem ter tido notas entre 58 e 82.
onde: Zi = contagem-Z para xi;
 X = média da amostra;
 s = desvio padrão da amostra.
 Zi = 2,4: 82 está 2,4 desvios padrão acima da média.
 Zi = - 2,4: 58 está 2,4 desvios padrão abaixo da média.
30
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Observação:
Contagem-Z: quão afastado da média está a observação (quantos desvios padrão da média está a observação)  Zi = (xi – X) / s
Teorema de Chebyshev: porcentagem (%) de dados que devem estar em Z desvios padrão da média  (1 – 1/Z2)
O Teorema de Chebyshev requer Z > 1, para (1 – 1/Z2) > 0; mas Z não precisa ser um número inteiro.
REGRA EMPÍRICA
Usada para determinar a porcentagem de valores de dados que devem estar contidos em um no específico de desvios padrão da média.
31
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Regra Empírica:
Teorema de Chebyshev: se aplica a qualquer conjunto de dados, independente da forma da distribuição dos dados.
 
Pode ser usado com qualquer uma das distribuições:
	- Moderadamente inclinado à esquerda;
	- Moderadamente inclinado à direita;
	- Simétrico;
	- Fortemente inclinado à direita;
Aplicações prática: conjunto de dados exibem uma distribuição simétrica em forma de MORRO ou SINO.
32
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Regra Empírica: Para dados que têm uma distribuição em forma de SINO.
	- Aproximadamente 68% dos valores de dados estarão contidos em um desvio padrão da média.
	- Aproximadamente 95% dos valores de dados estarão contidos em dois desvios padrão da média.
	- Quase todos os valores dos valores de dados estarão contidos em três desvios padrão da média.
33
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Exemplo: Embalagens de detergente líquido são preenchidas automaticamente em uma linha de produção.
Volumes preenchidos → distribuição em forma de SINO.
Se a média dos volumes de preenchimento for 16 onças e o desvio padrão 0,25 onças, pode-se usar a regra empírica para concluir:
	-  68% das embalagens cheias terão cargas entre 15,75 e 16,25 onças (dentro de um desvio padrão da média);
	-  95% das embalagens cheias terão cargas entre 15,50 e 16,50 onças (dentro de dois desvio padrão da média);
	- Quase todas as embalagens cheias terão cargas entre 15,25 e 16,75 onças (dentro de três desvio padrão da média).
34
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
v) DETECÇÃO DE PONTOS FORA DA CURVA
Conjunto de dados podem apresentar uma ou mais observações com valores excepcionalmente grandes ou pequenos.
	Valores extremos são chamados PONTOS FORA DA CURVA.
1) Pode ser um valor de dados que foi incorretamente registrado (pode ser corrigido antes da análise).
2) Pode ser proveniente de uma observação que foi incorretamente incluída no conjunto de dados  neste caso, pode ser eliminada.
3) Pode ser um valor de dados incomum que foi registrado corretamente e que pertence ao conjunto de dados  neste caso, pode permanecer.
Valores Padronizados (Contagem-Z)  são usados para identificar pontos fora da curva.
Regra Empírica  em relação a dados com distribuição em forma de SINO, quase todos os valores de dados estão contidos em 3 desvios padrão da média.
35
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Contagem-Z para identificar Pontos Fora da Curva:
Recomenda-se tratar quaisquer valores de dados com uma contagem-Z menor que - 3 ou maior que +3 como um ponto fora da curva.
No exemplo: 5º ponto (Contagem-Z = - 1,50) → ponto mais afastado da média: dentro da diretriz - 3 a +3 para pontos fora da curva.
Contagem-Z não indica que há pontos fora da curva nos dados do tamanho de classe.
Observações:
1) Teorema de Chebyshev  aplicado para qualquer conjunto de dados;
	Estabelece o no mínimo de valores de dados que estão dentro de certo no de desvios padrão da média (ex.: pelo menos 75% dos valores de dados estarão dentro de 2 desvios padrão da média).
 Dados com  forma de SINO (Regra Empírica)   95% dos valores de dados estarão dentro de 2 desvios padrão da média.
2) Antes de analisar um conjunto de dados deve-se fazer verificações para assegurar a validade dos dados  identificar pontos fora da curva (ferramenta que confere a validade dos dados).
36
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Nota:
Ponto Fora da Curva:
Contagem-Z (cálculo de Zi) é usada para identificar pontos fora da curva.
Regra Empírica → quase todos os valores de dados estão contidos em 3 desvios padrão da média.
Logo:
Contagem-Z  Menor que – 3 ou
 Maior que +3
OBS.: Cálculo Chebyshev (Zi = (xi – X)/s): qualquer distribuição;
 Regra Empírica: distribuição em forma de SINO.
Ponto Fora da Curva.
37
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
4 – ANÁLISE EXPLORATÓRIA DE DADOS
	- Regra de Cinco Itens;
	- Desenhos esquemáticos (Box Plots). (Cap. 3)
Permite usar cálculos aritméticos simples e gráficos fáceis de desenhar para sintetizar os dados.
Apresentação Ramo-e-Folha: técnica de análise exploratória dos dados (cap. 2).
i) Regra de Cinco Itens
São usados para sintetizar dados os seguintes números:
	1) Menor valor;
	2) Primeiro Quartil (Q1);
	3) Mediana (Q2);
	4) Terceiro Quartil (Q3);
	5) Maior valor.
Passos:
Colocar os dados em ordem crescente;
Determinar os 5 nos que definem a “Regra de Cinco Itens”.
38
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Exemplo: Salários mensais iniciais de uma amostra de 12 graduados da Escola de Administração:
	n = 12, usar dados em ordem crescente.
Dados:
2710 / 2755 / 2850 / 2880 / 2880 / 2890 / 2920 / 2940 / 2950 / 3050 / 3130 / 3325
Q1: i = (25/100)12 = 3 (inteiro)  usar média entre (i) e (i + 1) → (3º e 4º valores)
Q2 = Mediana = i = (50/100)12 = 6 (inteiro)  usar média entre (i) e (i + 1) → (6º e 7º valores)
Q3: i = (75/100)12 = 9 (inteiro)  usar média entre (i) e (i + 1) → (9º e 10º valores)
Regras de cinco itens: correspondentes aos dados salariais: 2710; 2865; 2905; 3000 e 3325.
Aproximadamente ¼, ou 25%, das observações se encontram entre nos adjacentes em uma regra de cinco itens.
Q2 = 2905
Mediana
Q1 = 2865
Q3 = 3000
Menor valor
Maior valor
39
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
ii) DesenhosEsquemáticos (Box Plots)
Sumário gráfico de dados baseado na regra de cinco itens.
Outra maneira de identificar pontos fora da curva.
Não identificam necessariamente os mesmos valores, por exemplo, aqueles que têm uma contagem-Z menor que -3 ou maior que +3.
Box Plot
Contagem-Z
Box Plots, calcular: Q1, Q2 (mediana), Q3, AIQ (Amplitude Interquartil 
 AIQ = Q3 – Q1
→ Podem ser usados para identificar pontos fora da curva.
40
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Desenhos Esquemáticos (Box Plots) (Continuação)
Passos para construção do Box Plots:
1) Desenhar um retângulo com extremidades nos 1o e 3º quartis;
2) Desenhar uma linha vertical no retângulo, na posição da mediana (Q2 );
3) Calcular a AIQ = Q3 – Q1  localização dos limites;
 
4) Costelas: linhas tracejadas do desenho esquemático
São desenhadas das bordas do retângulo até os valores mínimos e máximos localizados dentro dos limites (calculado no item 3);
5) Posição de cada ponto fora da curva é indicada pelo símbolo “*”.
Limites: 1,5(AIQ) abaixo de Q1 e
 1,5(AIQ) acima de Q3 
Dados fora desses limites: dados fora da curva.
41
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Ex.: Box Plots
Salários mensais iniciais de graduados da Escola de Administração (n = 12)
Dados:
2710 / 2755 / 2850 / 2880 / 2880 / 2890 / 2920 / 2940 / 2950 / 3050 / 3130 / 3325
Q1 = 2865;
Q2 (mediana) = 2905;
Q3 = 3000; AIQ = Q3 – Q1 = 3000 – 2865 = 135;
Limites: Lesquerda = 2865 – 1,5 (135) = 2662,5
 Ldireita = 3000 + 1,5 (135) = 3202,5
Mediana
2905
Q1
Q3
Q2
1,5(AIQ)
1,5(AIQ)
*
Costela
Costela
2400
2662,5
3202,5
3325
3600
Lesquerda
Ldireita
Valor Mínimo = 2710
Valor Máximo = 3130
Ponto fora da curva = 3325
AIQ
42
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Nota:
Vantagens de Análise Exploratória:
 a) São fáceis de usar, poucos cálculos numéricos;
- Classificar valores em ordem crescente;
- Identificar a regra de cinco itens;
- Traçar Box Plot.
 b) Não é necessário calcular a média e o desvio padrão dos dados. 
43
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
5 – MEDIDAS DE ASSOCIAÇÃO ENTRE DUAS VARIÁVEIS
	- Covariância;
	- Correlação.
Medidas descritivas usadas para sintetizar dados da relação entre duas variáveis.
As medidas numéricas apresentadas anteriormente sintetizam dados correspondentes a uma variável de cada vez.
i) Covariância da Amostra
	
	n: tamanho da amostra;
	Observações: (x1, y1), (x2, y2), ..., (xn, yn)
44
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Ex.: Loja de equipamento de Som:
Relacionar número de comerciais de televisão (fins de semana);
Vendas na loja durante a semana seguinte.
Dados da amostra: n = 10
45
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Diagrama de Dispersão:
Valor da variância da amostra indica relação linear + com Sxy = 11.
Covariância da População
Vendas ($100)
0
35
50
65
3
6
I
II
Prod. < 0
Prod. > 0
III
Prod. > 0
IV
Prod. < 0










X = 3
y =51
No comerciais
Prod. = (xi –x ) (yi – y )
→ COVARIÂNCIA POPULACIONAL
 N = tamanho da população;
 mx = média da população da variável x;
 my = média da população da variável y.
46
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Interpretação da Covariância
Covariância: medida da associação linear entre 2 variáveis.
Sxy > 0  associação linear positiva entre x e y.
		 Valor x 
		 valor y 
Sxy < 0  associação linear negativa entre x e y.
		 Valor x 
		 valor y 
Pontos uniformemente distribuídos em todos os quadrantes: Sxy ≈ 0  não há nenhuma associação linear entre as variáveis x e y.
Pontos de maior influência sobre Sxy estão nos I e III quadrantes.
Pontos de maior influência sobre Sxy estão nos II e IV quadrantes.
47
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Interpretação da Covariância (continuação)
Sxy positivo (x e y têm relação linear positiva)
x
y
I
III












y
x
II
IV
Sxy negativo (x e y têm relação linear negativa)











x
y
Sxy ≈ Zero (x e y não têm relação linear)
















48
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Obs.: Uso de covariância como medida de intensidade da relação linear  depende das unidades de medida para as variáveis x e y.

Unidades diferentes para as variáveis x e y pode gerar Sxy diferentes
(o que não é verdadeiro)

PROBLEMA
Ex.: 2 variáveis: altura x das pessoas.
		 peso y
Relação entre as variáveis x e y?
Altura: centímetro, polegadas (1pol = 2,54 cm)  Sxy deve ser a mesma (a intensidade da relação deve ser a mesma se a altura estiver em centímetro ou em polegada).
Peso: (yi – y) não varia.
Valor numérico:
(xi – x) em polegada > (xi – x) em centímetro  mas a relação, de fato, não se altera.
Usar COEFICIENTE DE CORRELAÇÃO  medida da relação entre 2 variáveis que não é afetada pela unidade de medida das variáveis.
49
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
ii) Coeficiente de Correlação
Coeficiente de Correlação Momento-produto de Pearson (comumente denominado de Coeficiente de Correlação da amostra) – para dados amostrais:
Coeficiente de Correlação Momento-produto de Pearson (comumente denominado de Coeficiente de Correlação da população) – para dados populacionais:
Onde: rxy: Coef. De Correlação da amostra;
 Sxy: Covariância da amostra;
 Sx: Desvio padrão da amostra de x;
 Sy: Desvio padrão da amostra de y.
Onde: xy: Coef. De Correlação da população;
 xy: Covariância populacional;
 x: Desvio padrão da população para x;
 y: Desvio padrão da população para y.
50
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
OBS.: Coeficiente de Correlação da amostra (rxy) fornece uma estimativa do coeficiente da população (xy).
Ex.: Loja de equipamento de Som:
Relacionar número de comerciais de televisão (fins de semana);
Vendas na loja durante a semana seguinte. Dados: (n = 10)
Semana
NoComerciais (x)
Volume de Vendas ($100)
(y)
1
2
3
4
5
6
7
8
9
10
2
5
1
3
4
1
5
3
4
2
50
57
41
54
54
38
63
48
59
46
Relação linear positiva forte entre o no de comerciais e as vendas ( +1) → Um aumento no número de comerciais está associado à um aumento nas vendas.
51
Capítulo 3 – Estatística Descritiva
Medidas Numéricas
Interpretação do Coeficiente de Correlação
Ex.: Diagrama de dispersão descrevendo uma relação linear positiva perfeita:
52

Outros materiais