Baixe o app para aproveitar ainda mais
Prévia do material em texto
Prof. Me. Aragão Júnior Seção 2 Probabilidade e Estatística Aplicada à Engenharia Conteúdo da Seção • Descrever Fenômenos Quantitativos por Meio de Medidas Estatísticas de Posição, de Variação e de Assimetria. • Avaliar a existência de possíveis valores outliers com base nas medidas de variação. • Apresentar o gráfico Box-Plot. • Apresentar algumas transformações de variáveis, com ênfase na padronização de escores. 2 Caso Motivacional 1 • A pessoa quer atravessar o rio, mas não sabe nadar. Sabe que a profundidade média é de 1 m. 3 1m 1,8m 1m Caso Motivacional 2 • Os empregados reclamam que a maioria recebe apenas R$400,00 por mês. • O presidente diz que, em média, eles recebem R$1.400,00! 4 R$8.000,00 R$1.400,00 R$1.000,00 R$600,00 R$400,00 Medidas Estatísticas 5 Posição (Tendência Central) Variação (Dispersão) Forma Medidas Estatísticas 6 Medidas Estatísticas Posição Variação Forma Média Moda Separatrizes Amplitude Variância Desvio Padrão Assimetria Coeficiente de Variação Desvio Inter-Quartílico Notação Medida Amostra População Média Desvio Padrão Variância Tamanho 7 s s 2 n N X s 2s m Medidas Estatísticas 8 Medidas Estatísticas Posição Variação Forma Média Moda Separatrizes Amplitude Variância Desvio Padrão Assimetria Coeficiente de Variação Desvio Inter-Quartílico Média • A média é uma das medidas mais utilizadas para descrever e representar uma distribuição de dados amostrais ou populacionais. • Reflete um ponto de equilíbrio. • É influenciada por valores extremos. • Só deve ser utilizada em distribuições: • não heterogêneas; e • simétricas, ou levemente assimétricas 9 Exemplo 8 6 48 6 96118410 6 6543211 X XXXXXX n X X n i i 10 • Calcule a Média da Amostra : {10, 4, 8, 11, 6, 9 } Média • População • Amostra 11 N XXXX N X μ N N i i ...3211 n XXXX n X X n n i i ...3211 Média para Tabelas de Freqüências • População • Amostra •m é o número de classes •Xi é o ponto central da classe i 12 m i i m i ii f fX μ 1 1 m i i m i ii f fX X 1 1 Medidas Estatísticas 13 Medidas Estatísticas Posição Variação Forma Média Moda Separatrizes Amplitude Variância Desvio Padrão Assimetria Coeficiente de Variação Desvio Inter-Quartílico Separatrizes • Toda distribuição pode ser dividida em K partes iguais (com igual freqüência de observações). Basta definirmos (K-1) pontos de corte, ou SEPARATRIZES, no eixo da escala da variável. • As separatrizes mais conhecidas são: K = 2 Mediana (Md) K = 10 Decis (Di) K = 4 Quartis (Qi) K = 100 Percentis (Pi) i representa a ordem da separatriz 14 Separatrizes • Para a determinação do valor da separatriz é necessário ordenar de forma crescente (ou decrescente) os valores da série X1, X2, ..., Xn dando origem a uma serie ordenada. Ordenando de forma crescente a nova série será definida como X(1), X(2), ..., X(n). • De acordo com essa notação: • Xi é o valor de X referente à i a. unidade da amostra • X(i) é o i o. menor valor de X na amostra, ou estatística de ordem i. 15 Separatrizes • Considere os valores da série de observações sobre o tempo de navegação semanal na internet, em horas, de uma amostra de 5 alunos: 1o. aluno da amostra: 24 2o. aluno da amostra: 22 3o. aluno da amostra: 21 4o. aluno da amostra: 22 5o. aluno da amostra: 23 • Os valores ordenados (estatísticas de ordem) são: X(1) = 21 X(2) = 22 X(3) = 22 X(4) = 23 e X(5) = 24 16 Separatrizes • De um modo geral, determina-se a posição, ou ordem, da separatriz i, quando se divide a série em k partes iguais, da seguinte forma: Exemplo: 8o. Decil de uma amostra de tamanho 20 P(D8) = (8/10).20 = 16 O 8o. Decil seria, então, o valor de X(16). 17 n k i SP i )( Separatrizes • Resumindo: cada separatriz Si divide a série de dados de modo que (i/k).100% das observações ficam abaixo de Si e (1 - i/k).100% ficam acima dela. 18 Separatrizes: Mediana • Valor que divide a distribuição em duas partes iguais • Se n for ímpar, a mediana será a observação que ocupa a posição central. • Se n for par, a mediana será a média dos dois valores centrais. • Não é influenciada por valores extremos, mas sim pelas freqüências. 19 Mediana: Método de Cálculo 1. Ordenar a série de valores 2. Determinar a posição da mediana Se n é ímpar: Se n é par: 3. O valor da mediana é o valor da variável relativo à posição encontrada. 20 2 1n 1 22 n e n Mediana Exemplo 1 • Dados: 24 22 21 23 22 • Ordenados: 21 22 22 23 24 • Posição: 1 2 3 4 5 21 Mediana = 22 Posição n 1 2 5 1 2 3 Mediana Exemplo 2 • Dados: 10 4 8 11 6 7 • Ordenados: 4 6 7 8 10 11 • Posição: 1 2 3 4 5 6 22 Mediana 7 8 2 7,5 Posição2 n 1 2 6 1 4 2 Posição1 3 n 2 6 2 Separatrizes: Quartis Valor que divide a distribuição em 4 partes iguais -- Note que Q2 é a Mediana. • Em geral a posição o io. Quartil é fornecida por: 23 25% 25% 25% 25% Q1 Q2 Q3 n i QP i . 4 )( Quartil (Q1) Exemplo • Amostra: 10 4 8 11 6 7 • Ordenados: 4 6 7 8 10 11 • Posição: 1 2 3 4 5 6 24 625,16. 4 1 )( . 4 )( 11 QQP n i QP i Quartil (Q2) Exemplo • Amostra: 10 4 8 11 6 7 • Ordenados: 4 6 7 8 10 11 • Posição: 1 2 3 4 5 6 25 41 2 6 3 2 6 21 PeP Q2 = Md. Como n é par, há dois valores centrais: n/2 e (n/2 + 1) Q2 = Md 7 8 2 7,5 Quartil (Q3) Exemplo • Amostra: 10 4 8 11 6 7 • Ordenados: 4 6 7 8 10 11 • Posição: 1 2 3 4 5 6 26 1055,46. 4 3 )( . 4 )( 33 QQP n i QP i Separatrizes • Nem sempre a posição da separatriz corresponde a um valor observado. • Exemplo • Q1 de uma série de 5 valores tem S(Q1) = (1/4).5 = 1,25. • Nesse caso os programas estatísticos utilizam processos que permitem calcular o valor das separatrizes de modo aproximado. • Esses valores, no entanto, dependem do método utilizado pelo programa. 27 Medidas Estatísticas 28 Medidas Estatísticas Posição Variação Forma Média Moda Separatrizes Amplitude Variância Desvio Padrão Assimetria Coeficiente de Variação Desvio Inter-Quartílico Moda • Valor mais freqüente de uma distribuição. • Não é afetada por valores extremos. • Pode existir, nenhuma, uma ou mais de uma moda. • Pode ser utilizada tanto para dados qualitativos como para dados quantitativos. • Para dados agrupados o valor da moda, como o de qualquer medida, será aproximado e irá depender da fórmula utilizada pelo pacote estatístico usado. 29 Exemplo 30 120130 500 0 100 200 300 400 500 Sempre Algumas vezes Nunca Uma pesquisa para saber a freqüência com que as pessoas usam cinto de segurança revelou os seguintes dados: Caso Motivacional 1 Revisitado • Apenas o conhecimento da profundidade média não é suficiente. Precisamos avaliar outras medidas. 31 Profundidade média: 1 m. 1m 1,8m 1m Profundidade máxima: 4 m. Caso Motivacional2 32 Caso Motivacional 3 33 Medidas Estatísticas 34 Medidas Estatísticas Posição Variação Forma Média Moda Separatrizes Amplitude Variância Desvio Padrão Assimetria Coeficiente de Variação Desvio Inter-Quartílico Amplitude 35 Diferença entre a maior (X) e a menor (x) observação. Ignora como os dados estão distribuídos. Considera apenas dois valores da série de valores. Amplitude -X x 7 8 9 10 7 8 9 10 Medidas Estatísticas 36 Medidas Estatísticas Posição Variação Forma Média Moda Separatrizes Amplitude Variância Desvio Padrão Assimetria Coeficiente de Variação Desvio Inter-Quartílico Medidas de Variação 37 Medidas de Variação • A Variância e o Desvio Padrão são as medidas mais comuns de variação absoluta • Indicam como os dados estão dispersos em torno da média • Consideram todos os valores da série de dados 38 4 6 10 12 X 7,5 8,5 8 Variância da População N μxμxμx N μx σ N N i i 22 2 2 11 2 2 ... --- - 39 Fórmula Variância da Amostra 1 ... 1 22 2 2 11 2 2 - --- - - n XXXXXX n XX S n n i i 40 Por que n -1 no denominador? Fórmula Variância Amostral: Exemplo • Amostra: 10, 4, 8, 11, 6 e 9 41 8,6 16 89868118884810 s 1n Xx s 8 6 96118410 X 222222 2 n 1i 2 i 2 - ------ - - Variância • Pontos Fortes • Considera todos os valores da série de dados. • Enfatiza os valores mais afastados da média. • Pontos Fracos • É uma medida quadrática. • Difícil interpretação do seu valor. 42 Desvio Padrão Amostral: Exemplo • O desvio padrão é a raiz quadrada da variância • Considere a amostra: 10, 4, 8, 11, 6 e 9 43 61,28,6 16 89868118884810 1 222222 1 2 2 - ------ - - s s n Xx ss n i i Desvio Padrão • Pontos Fortes • Possui todas as vantagens da variância. • É expresso na mesma unidade de medida da variável. • Ponto Fraco • A interpretação de sua ordem de grandeza depende da magnitude da média. 44 Medidas Estatísticas 45 Medidas Estatísticas Posição Variação Forma Média Moda Separatrizes Amplitude Variância Desvio Padrão Assimetria Coeficiente de Variação Desvio Inter-Quartílico Coeficiente de Variação • Mede a dispersão dos dados em relação à média. • É uma medida relativa (adimensional) de variação. • Indica o grau de homogeneidade da distribuição. • Se o Coeficiente de Variação for menor do que 20%, a amostra pode ser considerada homogênea. 46 Média PadrãoDesvio CV Coeficiente de Variação Exemplo • Amostra: 10, 4, 8, 11, 6 e 9 • O fato de o CV ser maior do que 20% não torna a distribuição heterogênea, mas faz perder graus de homogeneidade. 47 %6,32ou326,0 8 61,2 CV 61,2s;8,6s;8X 2 Medidas Estatísticas 48 Medidas Estatísticas Posição Variação Forma Média Moda Separatrizes Amplitude Variância Desvio Padrão Assimetria Coeficiente de Variação Desvio Inter-Quartílico Desvio Inter-Quartílico – dq • O Desvio Inter-Quartílico é a diferença entre os valores do 3º e 1º quartis. • Não é afetado por valores extremos. • Usado para determinar intervalo de valores centrais em uma distribuição. 49 13 QQdq - Desvio Inter-Quartílico – dq Exemplo • Amostra: 10 4 8 11 6 7 • Ordenados: 4 6 7 8 10 11 • Posição: 1 2 3 4 5 6 50 6250,16 4 1 )( 4 )( 11 QQP n i QP i Desvio Inter-Quartílico – dq Exemplo • Amostra: 10 4 8 11 6 7 • Ordenados: 4 6 7 8 10 11 • Posição: 1 2 3 4 5 6 51 10550,46 4 3 )( 4 )( 33 QQP n i QP i Desvio Inter-Quartílico – dq Exemplo • O desvio inter-quartílico é a diferença entre o Q3 e o Q1. • Isso significa que aproximadamente 50% dos dados estão compreendidos entre os valores 6 e 10. 52 461013 -- QQdq Gráfico Box-Plot • Forma gráfica que apresenta a dispersão dos dados usando 5 medidas resumo. 53 Mediana Q2 4 6 8 10 12 Q3Q1 XmáxXmín Gráfico Box-Plot • Outlier - Observação discrepante (atípica) 54 1,5 dq 0 6 8 10 14 * * Outlier Outlier Desvio Inter-Quartílico (dq) 1,5 dq Q3Q1 Limite Teórico Inferior Limite Teórico Superior 4 122 16 55 Gráfico Box-Plot • Limite Teórico Inferior (LTI): Q1 – 1,5 . dq • Limite Teórico Superior (LTS): Q3 + 1,5 . dq • Uma observação, X, é considerada atípica se: • X < LTI, ou • X > LTS Medidas Estatísticas 56 Medidas Estatísticas Posição Variação Forma Média Moda Separatrizes Amplitude Variância Desvio Padrão Assimetria Coeficiente de Variação Desvio Inter-Quartílico Medidas Estatísticas Forma • Descreve a forma da distribuição. • Medida pelo coeficiente de assimetria. • Valores acima de +1 indicam existência de assimetria positiva. • Valores abaixo de –1 indicam existência de assimetria negativa. • Valores próximos de 0 indicam simetria. 57 Medidas Estatísticas Forma • Assimetria 58 Assimetria Negativa Simétrica Média Mediana Moda iguaisMédia Mediana Moda Assimetria Positiva Mediana Média Moda Assimetria & Box-Plot 59 Assimetria positiva Assimetria negativa Simétrica Q1 Mediana Q 3 Q 1 Mediana Q 3 1 Q Mediana Q3 Transformações de Variáveis 60 Combinação Linear Re-escalonamento Mudança de Unidade Mudança de Origem Mudança de Origem • Ao diminuir cada observação pela média a distribuição se desloca para um novo centro (origem): Zero • As variáveis mantêm suas próprias unidades. 61 Xx xi = Xi - X 0 30 x X Mudança de Origem Exemplo Aluno Prova 1 2 3 4 5 Português 37 36 46 39 42 Matemática 8 6 4 7 5 62 • Considere os escores de 5 alunos nas provas de Português e Matemática. Note que as notas estão em escalas diferentes. • Como comparar o desempenho dos alunos nas duas provas? • Como classificar os alunos pelo desempenho nas duas provas? Mudança de Origem • Média em Português XP = 40 • Média em Matemática XM = 6 • Escores com a mudança de origem. (xi = Xi – X) 63 As unidades ainda estão expressas na escala original de cada prova. Aluno Prova 1 2 3 4 5 Português -3 -4 6 -1 2 Matemática 2 0 -2 1 -1 Mudança de Origem • Com a mudança de origem, quem teve desempenho acima da média ficou com nota positiva e quem teve desempenho abaixo da média ficou com nota negativa. • Ainda não podemos comparar os desempenhos. As unidades permanecem diferentes. 64 Aluno Prova 1 2 3 4 5 Português -3 -4 6 -1 2 Matemática 2 0 -2 1 -1 Mudança de Unidade • Ao dividir o valor de cada afastamento em relação à média pelo desvio padrão, a nova variável, Z, fica expressa em número de desvios padrão em torno da média. • A esse procedimento chamamos PADRONIZAÇÃO. • A média e o desvio padrão das distribuições na forma padronizada são 0 e 1, respectivamente. 65 X i X i i s XX s x Z - Mudança de Unidade Exemplo 66 XM = 6 SM = 1,6 XP = 40 SP = 4,0 X i X i i s XX s x Z - AlunoProva 1 2 3 4 5 Português (zp) -0,75 -1,0 1,5 -0,25 0,5 Matemática (zm) 1,25 0 -1,25 0,62 -0,62 Aluno Prova 1 2 3 4 5 Português (xp) -3 -4 6 -1 2 Matemática (xm) 2 0 -2 1 -1 Re-escalonamento dos Escores • Mudanças da origem e/ou unidade padronizada a fim de se obter melhor representação dos valores; • Mantém a ordenação das unidades; • Usado para evitar valores negativos ou colocar os escores em uma escala conveniente; • O procedimento deve ser comum a todas as variáveis sob análise. 67 Re-escalonamento dos Escores • Nova média = 100 (arbitrária) • Novo desvio padrão = 10 (arbitrário) • Escores na nova escala: Yki = 10 Zki + 100 68 Aluno Prova 1 2 3 4 5 Português Esc. 92,5 90,0 115,0 97,5 105 Matemática Esc. 112,5 100,0 87,5 106,3 93,7 A média e o desvio padrão das notas das provas na nova escala são 100 e 10, respectivamente. Combinação Linear • Permite ordenar os indivíduos utilizando mais de uma dimensão • Exemplo Calcular a média ponderada dos escores das provas de Português (peso 1) e Matemática (peso 2) para cada aluno a fim de classificá-los. 69 Combinação Linear • • Como os alunos 2 e 3 ficaram empatados, cada um fica com a ordem média (4 + 5)/2. 70 (Português x 1) + (Matemática x 2) Nota Final = 3 Aluno Prova 1 2 3 4 5 Nota Final 105,8 96,7 96,7 103,4 97,5 Classificação 1º 4,5º 4,5º 2º 3º Outlier • Uma outra forma de identificar possíveis valores atípicos é por meio do processo de padronização. • Fixa-se um limite de desvios a partir do qual a observação passa a ser considerada atípica (2,5 desvios abaixo ou acima da média, por exemplo) e procede-se à investigação. 71 Outlier • EXEMPLO: • A prova de Português teve resultado médio de 40 e desvio padrão 4 pontos. Um aluno que tenha tirado 28 estaria 3 unidades de desvios abaixo da média (28 – 40)/4 = -3. • Se o limite para valores atípicos tivesse sido fixado em 2,5 desvios da média, a nota desse aluno poderia ser considerada atípica. 72 Bibliografia • Bibliografia Básica: • BUSSAB, W. de O.; MORETTIN, P. A. Estatística Básica. 5a. ed. São Paulo: Saraiva, 2004. • LEVIN Jack, e FOX, James A. Estatística para Ciências Humanas, 9a. Ed., São Paulo Prentice Hall, 2004. • LEVINE, D.M., BERENSON, M.L. STEPHAN, D. Estatística: teoria e aplicações. 3a. ed. Rio de Janeiro: Livros Técnicos e Científicos, 2005. 73 Bibliografia • Bibliografia Complementar: • ANDERSON, D. R.; SWEENEY, D. J.; WILLIAMS, T. A. Estatística Aplicada à Economia e Administração. 2ª ed. São Paulo: Pioneira Thomson Learning, 2002. 74
Compartilhar