Buscar

Probabilidade e Estatística Aplicada à Engenharia Seção 02

Prévia do material em texto

Prof. Me. Aragão Júnior
Seção 2
Probabilidade e Estatística Aplicada 
à Engenharia
Conteúdo da Seção
• Descrever Fenômenos Quantitativos por Meio de 
Medidas Estatísticas de Posição, de Variação e de 
Assimetria.
• Avaliar a existência de possíveis valores outliers
com base nas medidas de variação.
• Apresentar o gráfico Box-Plot.
• Apresentar algumas transformações de variáveis, 
com ênfase na padronização de escores.
2
Caso Motivacional 1
• A pessoa quer atravessar o rio, mas não sabe nadar. 
Sabe que a profundidade média é de 1 m.
3
1m
1,8m
1m
Caso Motivacional 2
• Os empregados reclamam 
que a maioria recebe 
apenas R$400,00 por mês.
• O presidente diz que, em 
média, eles recebem 
R$1.400,00!
4
R$8.000,00
R$1.400,00
R$1.000,00
R$600,00
R$400,00
Medidas Estatísticas
5
Posição
(Tendência Central)
Variação 
(Dispersão)
Forma
Medidas Estatísticas
6
Medidas
Estatísticas
Posição Variação Forma
Média Moda
Separatrizes
Amplitude Variância
Desvio 
Padrão
Assimetria
Coeficiente
de Variação
Desvio
Inter-Quartílico
Notação
Medida Amostra População
Média
Desvio Padrão
Variância
Tamanho
7
s
s
2
n N
X
s
2s
m
Medidas Estatísticas
8
Medidas
Estatísticas
Posição Variação Forma
Média Moda
Separatrizes
Amplitude Variância
Desvio 
Padrão
Assimetria
Coeficiente
de Variação
Desvio
Inter-Quartílico
Média
• A média é uma das medidas mais utilizadas para
descrever e representar uma distribuição de dados 
amostrais ou populacionais.
• Reflete um ponto de equilíbrio.
• É influenciada por valores extremos.
• Só deve ser utilizada em distribuições:
• não heterogêneas; e
• simétricas, ou levemente assimétricas
9
Exemplo
8
6
48
6
96118410
6
6543211







X
XXXXXX
n
X
X
n
i
i
10
• Calcule a Média da Amostra : {10, 4, 8, 11, 6, 9 }
Média
• População
• Amostra
11
N
XXXX
N
X
μ N
N
i
i 


 ...3211
n
XXXX
n
X
X n
n
i
i 


 ...3211
Média para Tabelas 
de Freqüências
• População
• Amostra
•m é o número de classes
•Xi é o ponto central da classe 
i
12




m
i
i
m
i
ii
f
fX
μ
1
1




m
i
i
m
i
ii
f
fX
X
1
1
Medidas Estatísticas
13
Medidas
Estatísticas
Posição Variação Forma
Média Moda
Separatrizes
Amplitude Variância
Desvio 
Padrão
Assimetria
Coeficiente
de Variação
Desvio
Inter-Quartílico
Separatrizes
• Toda distribuição pode ser dividida em K partes iguais 
(com igual freqüência de observações). Basta definirmos 
(K-1) pontos de corte, ou SEPARATRIZES, no eixo da 
escala da variável.
• As separatrizes mais conhecidas são:
K = 2 Mediana (Md) K = 10  Decis (Di)
K = 4  Quartis (Qi) K = 100  Percentis (Pi)
i representa a ordem da separatriz
14
Separatrizes
• Para a determinação do valor da separatriz é necessário ordenar 
de forma crescente (ou decrescente) os valores da série X1, X2, ..., 
Xn dando origem a uma serie ordenada. Ordenando de forma 
crescente a nova série será definida como X(1), X(2), ..., X(n). 
• De acordo com essa notação:
• Xi é o valor de X referente à i
a. unidade da amostra
• X(i) é o i
o. menor valor de X na amostra, ou estatística de ordem 
i.
15
Separatrizes
• Considere os valores da série de observações sobre o 
tempo de navegação semanal na internet, em horas, de 
uma amostra de 5 alunos:
1o. aluno da amostra: 24 2o. aluno da amostra: 22 
3o. aluno da amostra: 21 4o. aluno da amostra: 22 
5o. aluno da amostra: 23
• Os valores ordenados (estatísticas de ordem) são:
X(1) = 21 X(2) = 22 X(3) = 22 X(4) = 23 e X(5) = 24
16
Separatrizes
• De um modo geral, determina-se a posição, ou ordem, 
da separatriz i, quando se divide a série em k partes 
iguais, da seguinte forma:
Exemplo: 8o. Decil de uma amostra de tamanho 20 
P(D8) = (8/10).20 = 16
O 8o. Decil seria, então, o valor de X(16).
17
n
k
i
SP i )(
Separatrizes
• Resumindo: cada separatriz Si divide a série de dados de 
modo que (i/k).100% das observações ficam abaixo de Si
e (1 - i/k).100% ficam acima dela.
18
Separatrizes: Mediana
• Valor que divide a distribuição em duas partes 
iguais
• Se n for ímpar, a mediana será a observação que ocupa a 
posição central.
• Se n for par, a mediana será a média dos dois valores 
centrais.
• Não é influenciada por valores extremos, mas sim 
pelas freqüências.
19
Mediana: Método de Cálculo
1. Ordenar a série de valores
2. Determinar a posição da mediana
Se n é ímpar: 
Se n é par:
3. O valor da mediana é o valor da variável relativo 
à posição encontrada.
20
2
1n
1
22

n
e
n
Mediana
Exemplo 1
• Dados: 24 22 21 23 22
• Ordenados: 21 22 22 23 24
• Posição: 1 2 3 4 5
21
Mediana = 22
Posição 




n 1
2
5 1
2
3
Mediana
Exemplo 2
• Dados: 10 4 8 11 6 7
• Ordenados: 4 6 7 8 10 11
• Posição: 1 2 3 4 5 6
22
Mediana 


7 8
2
7,5
Posição2     
n
1
2
6 1 4
2
Posição1   3
n
2
6
2
Separatrizes: Quartis
Valor que divide a distribuição em 4 partes iguais 
-- Note que Q2 é a Mediana.
• Em geral a posição o io. Quartil é fornecida por:
23
25% 25% 25% 25%
Q1 Q2 Q3
n
i
QP i .
4
)( 
Quartil (Q1)
Exemplo
• Amostra: 10 4 8 11 6 7
• Ordenados: 4 6 7 8 10 11
• Posição: 1 2 3 4 5 6
24
625,16.
4
1
)(
.
4
)(
11 

QQP
n
i
QP i
Quartil (Q2)
Exemplo
• Amostra: 10 4 8 11 6 7
• Ordenados: 4 6 7 8 10 11
• Posição: 1 2 3 4 5 6
25
41
2
6
3
2
6
21  PeP
Q2 = Md. Como n é par, há dois valores centrais: 
n/2 e (n/2 + 1)
Q2 = Md 


7 8
2
7,5
Quartil (Q3)
Exemplo
• Amostra: 10 4 8 11 6 7
• Ordenados: 4 6 7 8 10 11
• Posição: 1 2 3 4 5 6
26
1055,46.
4
3
)(
.
4
)(
33 

QQP
n
i
QP i
Separatrizes
• Nem sempre a posição da separatriz corresponde a 
um valor observado. 
• Exemplo 
• Q1 de uma série de 5 valores tem
S(Q1) = (1/4).5 = 1,25. 
• Nesse caso os programas estatísticos utilizam processos 
que permitem calcular o valor das separatrizes de modo 
aproximado. 
• Esses valores, no entanto, dependem do método 
utilizado pelo programa.
27
Medidas Estatísticas
28
Medidas
Estatísticas
Posição Variação Forma
Média Moda
Separatrizes
Amplitude Variância
Desvio 
Padrão
Assimetria
Coeficiente
de Variação
Desvio
Inter-Quartílico
Moda
• Valor mais freqüente de uma distribuição.
• Não é afetada por valores extremos.
• Pode existir, nenhuma, uma ou mais de uma moda.
• Pode ser utilizada tanto para dados qualitativos como para 
dados quantitativos.
• Para dados agrupados o valor da moda, como o de 
qualquer medida, será aproximado e irá depender da 
fórmula utilizada pelo pacote estatístico usado.
29
Exemplo
30
120130
500
0
100
200
300
400
500
Sempre Algumas
vezes
Nunca
Uma pesquisa para saber 
a freqüência com que as 
pessoas usam cinto de 
segurança revelou os 
seguintes dados:
Caso Motivacional 1 
Revisitado
• Apenas o conhecimento da profundidade média não é 
suficiente. Precisamos avaliar outras medidas.
31
Profundidade 
média: 1 m.
1m
1,8m
1m
Profundidade 
máxima: 4 m.
Caso Motivacional2
32
Caso Motivacional 3
33
Medidas Estatísticas
34
Medidas
Estatísticas
Posição Variação Forma
Média Moda
Separatrizes
Amplitude Variância
Desvio 
Padrão
Assimetria
Coeficiente
de Variação
Desvio
Inter-Quartílico
Amplitude
35
 Diferença entre a maior (X) e a menor (x) 
observação.
 Ignora como os dados estão distribuídos.
 Considera apenas dois valores da série de valores.
Amplitude  -X x
7 8 9 10 7 8 9 10
Medidas Estatísticas
36
Medidas
Estatísticas
Posição Variação Forma
Média Moda
Separatrizes
Amplitude Variância
Desvio 
Padrão
Assimetria
Coeficiente
de Variação
Desvio
Inter-Quartílico
Medidas de Variação
37
Medidas de Variação 
• A Variância e o Desvio Padrão são as medidas mais comuns 
de variação absoluta
• Indicam como os dados estão dispersos em torno da média
• Consideram todos os valores da série de dados
38
4 6 10 12
X
7,5 8,5
8
Variância da População
 
     
N
μxμxμx
N
μx
σ N
N
i
i 22
2
2
11
2
2 ... ---
-



39
Fórmula
Variância da Amostra
       
1
...
1
22
2
2
11
2
2
-
---

-
-



n
XXXXXX
n
XX
S n
n
i
i
40
Por que n -1 no 
denominador?
Fórmula
Variância Amostral: Exemplo
• Amostra: 10, 4, 8, 11, 6 e 9
41
 
           
8,6
16
89868118884810
s
1n
Xx
s
8
6
96118410
X
222222
2
n
1i
2
i
2

-
------

-
-






Variância
• Pontos Fortes
• Considera todos os valores da série de dados.
• Enfatiza os valores mais afastados da média.
• Pontos Fracos
• É uma medida quadrática.
• Difícil interpretação do seu valor.
42
Desvio Padrão Amostral: 
Exemplo
• O desvio padrão é a raiz quadrada da variância
• Considere a amostra: 10, 4, 8, 11, 6 e 9
43
 
           
61,28,6
16
89868118884810
1
222222
1
2
2

-
------

-
-



s
s
n
Xx
ss
n
i
i
Desvio Padrão
• Pontos Fortes
• Possui todas as vantagens da variância.
• É expresso na mesma unidade de medida da variável.
• Ponto Fraco
• A interpretação de sua ordem de grandeza depende da 
magnitude da média.
44
Medidas Estatísticas
45
Medidas
Estatísticas
Posição Variação Forma
Média Moda
Separatrizes
Amplitude Variância
Desvio 
Padrão
Assimetria
Coeficiente
de Variação
Desvio
Inter-Quartílico
Coeficiente de Variação
• Mede a dispersão dos dados em relação à média.
• É uma medida relativa (adimensional) de variação.
• Indica o grau de homogeneidade da distribuição.
• Se o Coeficiente de Variação for menor do que 20%, a amostra 
pode ser considerada homogênea.
46
Média
PadrãoDesvio
CV 
Coeficiente de Variação
Exemplo
• Amostra: 10, 4, 8, 11, 6 e 9
• O fato de o CV ser maior do que 20% não torna a 
distribuição heterogênea, mas faz perder graus de 
homogeneidade.
47
%6,32ou326,0
8
61,2
CV
61,2s;8,6s;8X 2


Medidas Estatísticas
48
Medidas
Estatísticas
Posição Variação Forma
Média Moda
Separatrizes
Amplitude Variância
Desvio 
Padrão
Assimetria
Coeficiente
de Variação
Desvio
Inter-Quartílico
Desvio Inter-Quartílico – dq
• O Desvio Inter-Quartílico é a diferença entre os 
valores do 3º e 1º quartis.
• Não é afetado por valores extremos.
• Usado para determinar intervalo de valores centrais 
em uma distribuição.
49
13 QQdq -
Desvio Inter-Quartílico – dq
Exemplo
• Amostra: 10 4 8 11 6 7
• Ordenados: 4 6 7 8 10 11
• Posição: 1 2 3 4 5 6
50
6250,16
4
1
)(
4
)(
11 

QQP
n
i
QP i
Desvio Inter-Quartílico – dq
Exemplo
• Amostra: 10 4 8 11 6 7
• Ordenados: 4 6 7 8 10 11
• Posição: 1 2 3 4 5 6
51
10550,46
4
3
)(
4
)(
33 

QQP
n
i
QP i
Desvio Inter-Quartílico – dq
Exemplo
• O desvio inter-quartílico é a diferença entre o Q3 e o Q1.
• Isso significa que aproximadamente 50% dos dados 
estão compreendidos entre os valores 6 e 10.
52
461013 -- QQdq
Gráfico Box-Plot
• Forma gráfica que apresenta a dispersão dos dados 
usando 5 medidas resumo.
53
Mediana
Q2
4 6 8 10 12
Q3Q1 XmáxXmín
Gráfico Box-Plot
• Outlier - Observação discrepante (atípica)
54
1,5 dq
0 6 8 10 14
* *
Outlier
Outlier
Desvio 
Inter-Quartílico 
(dq)
1,5 dq
Q3Q1
Limite Teórico 
Inferior
Limite Teórico 
Superior
4 122 16
55
Gráfico Box-Plot
• Limite Teórico Inferior (LTI): Q1 – 1,5 . dq
• Limite Teórico Superior (LTS): Q3 + 1,5 . dq
• Uma observação, X, é considerada atípica se:
• X < LTI, ou
• X > LTS
Medidas Estatísticas
56
Medidas
Estatísticas
Posição Variação Forma
Média Moda
Separatrizes
Amplitude Variância
Desvio 
Padrão
Assimetria
Coeficiente
de Variação
Desvio
Inter-Quartílico
Medidas Estatísticas 
Forma
• Descreve a forma da distribuição.
• Medida pelo coeficiente de assimetria.
• Valores acima de +1 indicam existência de assimetria 
positiva.
• Valores abaixo de –1 indicam existência de assimetria 
negativa.
• Valores próximos de 0 indicam simetria.
57
Medidas Estatísticas 
Forma
• Assimetria
58
Assimetria
Negativa
Simétrica
Média
Mediana
Moda
iguaisMédia
Mediana
Moda
Assimetria
Positiva
Mediana
Média
Moda
Assimetria & Box-Plot
59
Assimetria 
positiva
Assimetria 
negativa
Simétrica
Q1
Mediana
Q
3
Q
1
Mediana
Q
3 1
Q
Mediana
Q3
Transformações 
de Variáveis
60
Combinação 
Linear
Re-escalonamento
Mudança de 
Unidade
Mudança de 
Origem
Mudança de Origem
• Ao diminuir cada observação pela média a distribuição se 
desloca para um novo centro (origem): Zero
• As variáveis mantêm suas próprias unidades.
61
Xx
xi = Xi - X
0 30
x X
Mudança de Origem
Exemplo
Aluno 
Prova 
1 2 3 4 5
Português 37 36 46 39 42
Matemática 8 6 4 7 5
62
• Considere os escores de 5 alunos nas provas de Português e 
Matemática. Note que as notas estão em escalas diferentes.
• Como comparar o desempenho dos alunos nas duas provas?
• Como classificar os alunos pelo desempenho nas duas 
provas?
Mudança de Origem
• Média em Português XP = 40
• Média em Matemática XM = 6
• Escores com a mudança de origem. (xi = Xi – X)
63
As unidades ainda estão expressas na escala original 
de cada prova.
Aluno 
Prova 
1 2 3 4 5
Português -3 -4 6 -1 2
Matemática 2 0 -2 1 -1
Mudança de Origem
• Com a mudança de origem, quem teve 
desempenho acima da média ficou com nota 
positiva e quem teve desempenho abaixo da média 
ficou com nota negativa. 
• Ainda não podemos comparar os desempenhos. As 
unidades permanecem diferentes.
64
Aluno 
Prova 
1 2 3 4 5
Português -3 -4 6 -1 2
Matemática 2 0 -2 1 -1
Mudança de Unidade
• Ao dividir o valor de cada afastamento em relação à média pelo 
desvio padrão, a nova variável, Z, fica expressa em número de 
desvios padrão em torno da média.
• A esse procedimento chamamos PADRONIZAÇÃO.
• A média e o desvio padrão das distribuições na forma 
padronizada são 0 e 1, respectivamente.
65
X
i
X
i
i
s
XX
s
x
Z
-

Mudança de Unidade
Exemplo
66
XM = 6
SM = 1,6
XP = 40 
SP = 4,0
X
i
X
i
i
s
XX
s
x
Z
-

AlunoProva 
1 2 3 4 5
Português (zp) -0,75 -1,0 1,5 -0,25 0,5
Matemática (zm) 1,25 0 -1,25 0,62 -0,62
Aluno 
Prova 
1 2 3 4 5
Português (xp) -3 -4 6 -1 2
Matemática (xm) 2 0 -2 1 -1
Re-escalonamento 
dos Escores
• Mudanças da origem e/ou unidade padronizada a 
fim de se obter melhor representação dos valores;
• Mantém a ordenação das unidades;
• Usado para evitar valores negativos ou colocar os 
escores em uma escala conveniente;
• O procedimento deve ser comum a todas as 
variáveis sob análise.
67
Re-escalonamento 
dos Escores
• Nova média = 100 (arbitrária)
• Novo desvio padrão = 10 (arbitrário)
• Escores na nova escala: Yki = 10 Zki + 100
68
Aluno 
Prova 
1 2 3 4 5
Português Esc. 92,5 90,0 115,0 97,5 105
Matemática Esc. 112,5 100,0 87,5 106,3 93,7
A média e o desvio padrão das notas das provas na nova 
escala são 100 e 10, respectivamente.
Combinação Linear
• Permite ordenar os indivíduos utilizando mais de 
uma dimensão
• Exemplo
Calcular a média ponderada dos escores das provas 
de Português (peso 1) e Matemática (peso 2) para 
cada aluno a fim de classificá-los.
69
Combinação Linear
•
• Como os alunos 2 e 3 ficaram empatados, cada um 
fica com a ordem média (4 + 5)/2.
70
(Português x 1) + (Matemática x 2)
Nota Final =
3
Aluno 
Prova 
1 2 3 4 5
Nota Final 105,8 96,7 96,7 103,4 97,5
Classificação 1º 4,5º 4,5º 2º 3º
Outlier
• Uma outra forma de identificar possíveis valores atípicos 
é por meio do processo de padronização.
• Fixa-se um limite de desvios a partir do qual a 
observação passa a ser considerada atípica (2,5 desvios 
abaixo ou acima da média, por exemplo) e procede-se à 
investigação.
71
Outlier
• EXEMPLO:
• A prova de Português teve resultado médio de 40 e 
desvio padrão 4 pontos. Um aluno que tenha tirado 28 
estaria 3 unidades de desvios abaixo da média (28 –
40)/4 = -3.
• Se o limite para valores atípicos tivesse sido fixado em 
2,5 desvios da média, a nota desse aluno poderia ser 
considerada atípica.
72
Bibliografia
• Bibliografia Básica:
• BUSSAB, W. de O.; MORETTIN, P. A. Estatística Básica.
5a. ed. São Paulo: Saraiva, 2004.
• LEVIN Jack, e FOX, James A. Estatística para Ciências
Humanas, 9a. Ed., São Paulo Prentice Hall, 2004.
• LEVINE, D.M., BERENSON, M.L. STEPHAN, D. Estatística:
teoria e aplicações. 3a. ed. Rio de Janeiro: Livros
Técnicos e Científicos, 2005.
73
Bibliografia
• Bibliografia Complementar:
• ANDERSON, D. R.; SWEENEY, D. J.; WILLIAMS, T. A. Estatística
Aplicada à Economia e Administração. 2ª ed. São Paulo:
Pioneira Thomson Learning, 2002.
74

Continue navegando