Baixe o app para aproveitar ainda mais
Prévia do material em texto
CAP1: Estatística Descritiva para análise da variabilidade uma amostra de dados quantitativos O aluno deverá utilizar calculadora científica Resumo Numérico dos dados Suponha que os dados sejam representados por x1,x2,...xn. Vamos utilizar a amostra de dados abaixo (tabela 1.1) para obter os valores das medidas ao longo deste capítulo. Tabela 1.1: 100 observações do diâmetro interno de anéis de Pistons 74.030, 73.995, 73.988, 74.002, 73.992, 74.009, 73.995, 73.985, 74.008, 73.998, 73.994, 74.004, 73.983, 74.006, 74.012, 74.000, 73.994, 74.006, 73.984, 74.000, 73.988, 74.004, 74.010, 74.015, 73.982, 74.002, 73.992, 74.024, 73.996, 74.007, 73.994, 74.006, 74.003, 73.995, 74.000, 73.998, 74.000, 74.002, 73.967, 74.014, 73.984, 74.012, 74.010, 74.002, 74.010, 74.001, 73.999, 73.989, 74.008, 73.984, 74.019, 74.001, 74.021, 73.993, 74.015, 73.997, 73.994, 73.993, 74.009, 73.990, 73.994, 74.007, 73.998, 73.994, 73.998, 74.005, 73.986, 74.018, 74.003, 74.013, 74.009, 73.990, 73.990, 73.993, 73.995, 73.992, 74.011, 74.005, 74.015, 73.989, 73.985, 74.000, 74.015, 74.005, 74.007, 73.995, 74.000, 73.997, 74.000, 73.999, 73.998, 74.005, 74.003, 74.005, 74.020, 74.005, 74.006, 74.009, 74.000, 74.017, 74.008, 74.004, 74.002, 74.009, 74.014, 73.993, 74.005, 73.988, 74.004, 73.995, 73.990, 73.996, 74.012, 73.984, 74.007, 73.996, 74.007, 74.000, 73.997, 74.003, 73.996, 74.009, 74.014, 74.010, 74.013 Média: centro de massa dos dados da amostra Exemplo 1.1: Dados da tabela 1.1; média = 9250,147/125 = 74,001mm Para efeitos de exercício na calculadora utilize os valores da primeira linha da tabela (neste caso n=10) (74.030+ 73.995+ 73.988+ 74.002+ 73.992+ 74.009+ 73.995+ 73.985+ 74.008+ 73.998)/10 Você deverá obter média = 74.0002 Variância amostral: mede a variabilidade dos dados porém sua unidade é o quadrado da unidade dos dados. Exemplo 1.2: Dados da tabela 1.1; variância = 0,000101 mm2 Para efeitos de exercício na calculadora utilize os valores da primeira linha da tabela (neste caso n=10) [(74.030-74.0002)2+ (73.995-74.0002)2+ (73.988-74.0002)2+ (74.002-74.0002)2+ (73.992-74.0002)2+ (74.009- 74.0002)2+ (73.995-74.0002)2+ (73.985-74.0002)2+ (74.008-74.0002)2+ (73.998-74.0002)2]/9 = 0.0015356/9 Você deverá obter variância = 0.0001706222 mm2 Desvio Padrão amostral: mede a variabilidade dos dados na mesma unidade de medida dos dados. Exemplo 1.3: Dados da tabela 1.1; S = 0,010 mm Para efeitos de exercício na calculadora utilize os valores da primeira linha da tabela (neste caso n=10) Você deverá obter desvio padrão = 0.01306224 mm OBS: Calculadoras científicas possuem modo estatístico que facilitam um pouco os cálculos acima. Exemplo 1.4 Utilize os exemplos abaixo para treinar o modo estatístico de sua calculadora: Amostra 1 Amostra 2 Amostra 3 Amostra 4 2 1 1 101 4 3 5 103 6 5 9 105 Média 4 3 5 103 Desvio Padrao 2 2 4 2 Variância 4 4 16 4 Percentil de ordem k: é um valor tal que pelo menos k% dos dados são iguais ou inferiores a este valor e pelo menos k% dos dados são iguais ou superiores a este valor. Para obter o valor do percentil, os dados devem estar ordenados crescentemente pois este valor depende da posição. Em geral a posição de um percentil de ordem k pode ser obtida fazendo-se (k/100)*n + 0.5 (sendo n a quantidade de valores da amostra). Exemplo 1.5: Para os dados da tabela 1.1 temos n= 125. Observe os dados ordenados: 73.967 73.982 73.983 73.984 73.984 73.984 73.984 73.985 73.985 73.986 73.988 73.988 73.988 73.989 73.989 73.990 73.990 73.990 73.990 73.992 73.992 73.992 73.993 73.993 73.993 73.993 73.994 73.994 73.994 73.994 73.994 73.994 73.995 73.995 73.995 73.995 73.995 73.995 73.996 73.996 73.996 73.996 73.997 73.997 73.997 73.998 73.998 73.998 73.998 73.998 73.999 73.999 74.000 74.000 74.000 74.000 74.000 74.000 74.000 74.000 74.000 74.001 74.001 74.002 74.002 74.002 74.002 74.002 74.003 74.003 74.003 74.003 74.004 74.004 74.004 74.004 74.005 74.005 74.005 74.005 74.005 74.005 74.005 74.006 74.006 74.006 74.006 74.007 74.007 74.007 74.007 74.007 74.008 74.008 74.008 74.009 74.009 74.009 74.009 74.009 74.009 74.010 74.010 74.010 74.010 74.011 74.012 74.012 74.012 74.013 74.013 74.014 74.014 74.014 74.015 74.015 74.015 74.015 74.017 74.018 74.019 74.020 74.021 74.024 74.030 Assim, o percentil de ordem 50, também conhecido como mediana, é o valor observado na posição 0.5*(125)+ 0.5 = 63. Atente para o fato que 63 não é o valor do percentil e sim a posição onde tal valor se encontra. Mediana = valor da posição 63 = 74,001 O valor do percentil é obtido extraindo-se o valor da respectiva posição, sempre com os dados ordenados crescentemente. Exemplo 1.6: i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 xi 11 11 11 11 11 11 11 14 14 14 14 16 16 16 21 Para estes dados temos n=15 Obtendo alguns percentis: Percentil de ordem 10: Posição do percentil: 0.1*15+0.5=2 Valor do percentil = 11 (valor da posição 2) Percentil de ordem 25: Posição do percentil: 0.25*15+0.5=4.25; como não há posição 4.25, em situações como esta utilizaremos uma interpolação entre os valores da posição 4 e 5. Para o caso em questão não será necessário, pois os valores são iguais nas duas posições (valor 11 em ambas). Valor do percentil = 11 Percentil de ordem 45: Posição do percentil: 0.45*15+0.5=7,25; como não há posição 7,25, o percentil é um valor entre os valores da posição 7 e 8, ou seja, um valor entre 11 e 14. Podemos obter o valor do percentil por interpolação simples entre os valores 11 e 14. Ilustração genérica de uma interpolação simples entre dois valores O valor do percentil é obtido por semelhança de triângulo (veja ilustração): Ou seja, Valor do percentil = (14-11)*0.25 + 11 = 11.75 Percentil de ordem 75: Posição do percentil: 0.75*15+0.5=11,75; como não há posição 11,75, o percentil é um valor entre os valores da posição 11 e 12, ou seja, um valor entre 11 e 14. Podemos obter o valor do percentil por intepolação simples entre 14 e 16. Valor do percentil = (16-14)*0.75 + 14 = 15.5 Percentis que se destacam: Percentil 25, é o primeiro quartil; se dividirmos a amostra em 4 partes é o primeiro quarto. Percentil 50, é a mediana que pode ser pensada como o valor que divide a amostra ao meio. É também o segundo quartil se pensarmos na amostra divida em 4 partes. Percentil 75, é o terceiro quartil; se dividirmos a amostra em 4 partes é o terceiro quarto. Intervalo Interquartil = P75-P25 (diferença entre o terceiro e o primeiro quartil). Usado como medida de variabilidade para detectar possíveis pontos discrepantes (outliers). Exemplo 1.7 Para os 15 dados acima temos P25 = 11 P75 = 15.5 Intervalo Interquartil = 15.5 – 11 = 4.5 Valores na amostra, que se apresentam fora dos limites abaixo, são considerados discrepantes: Limite inferior: P25 -1.5*Intervalo Interquartil = 11 -1.5*4.5 = 4.25 Limite superior: P75 + 1.5*Intervalo Interquartil = 15.5 +1.5*4.5 = 22.25 Para os dados em questão não há pontos fora destes limites. Exercícios: 1.1)Obtenha a média e o desvio padrão utilizando modo estatístico da calculadora: i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 xi 11 11 11 11 11 11 11 14 14 14 14 16 16 16 21 Resposta: Média, desvio padrão e variância respectivamente: 13,46667 2,924445 8,552381 1.2)Obtenha a mediana e o intervalo interquartil das porcentagens de algodão em um material usado para a fabricação de camisas (n=12):i 1 2 3 4 5 6 7 8 9 10 11 12 xi 34.2 33.1 34.5 35.6 34.3 35.1 34.7 33.6 33.6 34.7 35 35 Resposta: Dados ordenados: 33.1 33.6 33.6 34.2 34.3 34.5 34.7 34.7 35.0 35.0 35.1 35.6 Posição da mediana = 12.5 Valor da mediana = 34.6 Posição de P25 = 3.5 Valor de P25 = 33.9 Posição de P75 = 9.5 Valor de P75 =35 Intervalo Interquartil = 35 – 33.9 = 1.1 1.3) Identifique os valores discrepantes da amostra abaixo (n=8): 18.0 16.6 30.5 13.1 68.6 20.5 18.0 12.2 Resposta P25 = 14.85 P75= 25.5 Intervalo Interquartil = 25.5 -14.85 = 10.65 Limite inferior = 14.85 – 1.5*10.65 = -1.125 Limite superior = 25.5 + 1.5*10.65 = 41.475 Há apenas um valor acima do limite superior: 68.6 (único valor discrepante) Após estes exercícios você deverá realizar o teste 1. CAP2: Gráficos que descrevem a variação dos dados Gráfico Ramo e Folhas: Dividimos cada número xi em duas partes: um ramo, formado por um ou mais dígitos iniciais; e uma folha, formada pelos dígitos restantes. Estabelecer de 5 a 20 ramos para este tipo de gráfico. Exemplo 2.1: Os dados da tabela 1.1 podem ser divididos como, ramos com os quatro primeiros dígitos; folhas com os dígitos restantes. Assim, formamos um gráfico com 8 ramos! 7396 | 7 7397 | 7398 | 23444455688899 7399 | 0000222333344444455555566667778888899 7400 | 0000000001122222333344445555555666677777888999999 7401 | 00001222334445555789 7402 | 014 7403 | 0 Observamos um gráfico com forma aproximadamente simétrica, um único pico. Podemos observar os valores ordenados, a tendência central aproximadamente 74.004; a variabilidade: o quanto os dados se concentram em torno de um ponto central! Script do R: x<-c(74.030,...,74.013);stem(x,scale=.5) Histograma: É o gráfico dos intervalos de valores da variável observada versus as respectivas frequencias observadas. Os intervalos no eixo x representam os valores da variável; as alturas dos retângulos são as frequências com que se observa os valores da variável em cada intervalo. Exemplo 2.2: Os intervalos para o diâmetro no eixo x e as frequências observadas no eixo y. Neste gráfico temos 7 intervalos; o primeiro 73.96 a 73.97 inclusive, observa-se frequência 1 (73.967); o segundo 73.97 a 73.98 inclusive, observa-se frequência 0; o terceiro 73.98 a 73.99 inclusive, observa-se frequência 20 (verifique!) e assim por diante. A análise é semelhante ao gráfico ramo e folhas. Script do R hist(x,breaks=8,main="Histograma",xlab="diâmetro do anel",ylab="frequencia") Box Plot Exibe diversos aspectos importantes além dos exibidos pelo histograma e ramo e folhas como por exemplo o afastamento da simetria, a dispersão, identificação de pontos discrepantes ou outliers. Para construir esse gráfico precisamos de 5 valores: menor valor; P25,P50,P75 e maior valor O menor e o maior valor são definidos pelo menor ou maior valor observado ou pelos limites fornecidos pela amplitude interquartil, o que for menos extremo. Exemplo 2.3: Os valores extremos observados são: 73.967 e 74.030 (verifique!) P25 = 73.994 (acredite!) P50 = 74.001 (acredite!) P75 = 74.008 (acredite!) Amplitude Inter quartil = 74.008 – 73.994 = 0.014 Limite inferior = P25 – 1.5*0.014 = 73.994 -1.5*0.014 = 73.973 Limite Superior = P75 + 1.5*0.014 = 74.008+1.5*0.014=74.029 Observe que os valores extremos dos dados superam os limites calculados, logo há pontos discrepantes. Os 5 valores geram as linhas do box plot: Além de detectar outliers, estes gráficos são úteis para comparar dados entre grupos: Observe o desempenho de 3 turmas distintas que foram submetidas à mesma avaliação de conteúdo: Turma 1 apresentou a menor mediana e a maior dispersão; a turma 3 apresentou o melhor desempenho e a menor dispersão. Vamos supor que você precise escolher alunos para desenvolver um projeto e se baseie no desempenho mostrado pelo Box Plot acima. Evidentemente você escolherá alunos da turma 3, melhor desempenho e menor dispersão. Gráfico de Pareto É um gráfico de colunas ou barras ordenadas de acordo com a frequência. As categorias são ordenadas decrescentemente pelas freqüências observadas. Os gráficos de Pareto são muito úteis na análise dos dados defeituosos em sistemas de produção. Uma vez identificados os defeitos críticos, deve-se desenvolver e programar ações corretivas para reduzir ou eliminar o problema. Exemplo 2.4 Considere os dados de causas de mortes acidentais em certo local. Observe as causas mais frequentes deste tipo de ocorrência. Veículo\motorizado Quedas Envenenamento Afogamento 43500 12200 6400 4600 Incêndio Ingestão de Alimentos ou Objetos Armas de fogo 4200 2900 1400 O gráfico de Pareto para estes dados é: Gráfico de linhas (ou de segmentos) é utilizado, em geral, para representar a evolução dos valores de uma variável no decorrer do tempo. O tempo é representado no eixo x e os valores observados no eixo y. Exemplo 2.5 Gráfico de Dispersão Gráfico que analisa a relação entre duas variáveis. O gráfico é construído a partir dos pares ordenados das duas variáveis x e y. Exemplo 2.6 X o comprimento do fio; Y a força de resistência da soldadora de fio Dados para 15 observações X: 2,8,11,10,8,4,2,2,9,8,4,11,12,2,4 Y: 9.95,24.45,31.75,35.00,25.02,16.86,14.38,9.60,24.35,27.50,17.08,37.00,41.95,11.66,21.65 O gráfico sugere possível associação entre x e y. Exercícios: 2.1)Observe o gráfico abaixo: Com estas informações elabore um gráfico de Pareto Resposta 2.2)Elabore um ramo e folhas para os dados abaixo: 11,11,11,11,11,11,11,14,14,14,14,16,16,16,21 Resposta 11 | 0000000 12 | 13 | 14 | 0000 15 | 16 | 000 17 | 18 | 19 | 20 | 21 | 0 2.3) Considere a temperatura diária de uma grande cidade durante o período de 15 dias: 22.4 15.7 17.4 18.2 18.5 20.2 19.0 19.3 20.0 14.8 25.1 21.4 19.4 22.2 26.2 Esboce um histograma com 4 intervalos (iniciando em 10 e terminando em 30) Respostas 2.4)Elabore um gráfico de linhas para os dados da temperatura da questão anterior. 2.5) Elabore um gráfico de dispersão entre o dia de leitura e a temperatura (dados da questão 2.3) Após estes exercícios você deverá realizar o teste 2.
Compartilhar