Baixe o app para aproveitar ainda mais
Prévia do material em texto
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL Faculdade de Matemática – Departamento de Estatística CONTROLE ESTATÍSTICO DA QUALIDADE Prof. Hélio Radke Bittencourt Disponível no Moodle Email: heliorb@pucrs.br Estatística Descritiva Notas de aula Agosto de 2010 2 Cap. 1. CONCEITOS BÁSICOS A Estatística pode ser definida como o conjunto de ferramentas para coleta, organização, análise e interpretação de dados experimentais. O objeto de estudo em Estatística é um conjunto de dados que pode constituir uma população ou uma amostra. População é um conjunto finito ou infinito de elementos. Amostra é um subconjunto da população. Geralmente buscamos amostras representativas. Uma amostra representativa é aquela que mantém as características da população. Questões: 1) Um aluno escolhido aleatoriamente na sala de aula constitui uma amostra da turma? 2) Qual o número aproximado de eleitores no Rio Grande do Sul? Qual o tamanho amostral das pesquisas eleitorais realizadas pelos institutos? 3) Como se chama a investigação de toda a população? Por que, por exemplo, o IBGE não realiza _______________ anualmente? 1.1 Tipos de Variáveis e Escalas de Mensuração Já vimos que a Estatística trabalha com conjunto de dados formado por elementos. Nós não trabalharemos diretamente com os elementos que formam o conjunto de dados, mas sim com suas características. Variáveis são características dos elementos que formam o conjunto de dados. Vamos imaginar um carro e listar variáveis associadas a ele: 3 As variáveis podem ser classificadas em qualitativas ou quantitativas: as variáveis qualitativas expressam uma classificação em categorias e, por isso, também são chamadas de categóricas. As variáveis quantitativas expressam quantidades numéricas e se dividem em discretas e contínuas. As variáveis discretas assumem apenas determinados valores num dado conjunto enumerável, enquanto as variáveis contínuas podem assumir, ao menos teoricamente, qualquer valor num dado intervalo numérico. Figura – Esquema dos tipos de variáveis: Na prática todas as variáveis são discretas, devido à limitação dos instrumentos de mensuração. Escalas de Mensuração As variáveis ainda podem ser classificadas de acordo com o nível ou escala de mensuração: Nominal, Ordinal ou Intervalar/Razão. O nível nominal de mensuração é caracterizado por números que apenas diferenciam ou rotulam as categorias. Exemplos: O nível ordinal de mensuração envolve números que, além de diferenciar, hierarquizam as categorias. Exemplos: 4 O nível intervalar ou de razão apresenta números que expressam diretamente uma quantidade. Podemos tranqüilamente realizar operações matemáticas com variáveis deste tipo. Exemplos: Figura – Resumo dos tipos de variáveis e escalas de mensuração 5 1.4 Estatística Descritiva e Inferencial A estatística é um conjunto de ferramentas utilizadas para a coleta, tabulação, análise e interpretação de um conjunto de dados experimentais. A Estatística pode ser dividida em duas grandes áreas: Descritiva e Inferencial. A estatística descritiva é aquela que costumamos encontrar com maior freqüência em jornais, revistas, relatórios, etc. Essa parte da estatística utiliza números para descrever fatos. Seu foco é a representação gráfica e o resumo e organização de um conjunto de dados, com a finalidade de simplificar informações. Nessa categoria se enquadram as médias salariais, taxas de inflação, índice de desemprego, etc. A estatística inferencial consiste na obtenção de resultados que possam ser projetados para toda população a partir de uma amostra da mesma. Ela fundamenta-se na teoria da amostragem e no cálculo de Probabilidades. Essa é a área mais importante da Estatística. Figura - Esquema geral de um curso de Estatística Para concluir este capítulo façamos uma associação do esquema acima com as disciplinas associadas a ele no curso de Engenharia de Produção: Nível Disciplinas I Estatística Descritiva IV Probabilidade V Estatística Inferencial VI Estatística Avançada VII Projeto de Experimentos VIII Controle de Qualidade Descritiva Estatística Inferencial Probabilidade Amostragem 6 Cap. 2 RESUMO DE INFORMAÇÃO & ANÁLISE EXPLORATÓRIA DE DADOS Apenas para lembrar: na estatística descritiva nos preocupamos em apresentar a informação de conjuntos de dados de forma resumida, mas, ao mesmo tempo, útil para o pesquisador. 2.1 Tabelas de freqüência Tabelas de freqüência são encontradas em jornais informativos (Zero Hora, Correio do Povo, etc.), relatórios técnicos, monografias, dissertações, teses e revistas científicas. As tabelas de freqüência simples apresentam de forma concisa o número de ocorrências (absoluta e relativa) dos valores de uma variável Uma tabela de freqüência genérica tem a seguinte configuração: Tabela 1 – Tabela de freqüências genérica i xi fi fri Fi Fri 1 x1 f1 fr1 F1 Fr1 2 x2 f2 fr2 F2 Fr2 M M M M M M k xk fk frk Fk Frk Σ n 100,0% - - A notação utilizada é a seguinte: X é uma variável qualquer x é um particular valor da variável X i é um índice útil para enunciar as expressões matemáticas k é o número de linhas da tabela 7 Os componentes da tabela de freqüências são: Freqüência absoluta (fi): número de ocorrências do valor xi. Freqüência relativa (fri): percentual de ocorrências do valor xi Freqüência absoluta acumulada (Fi): número de ocorrências até o valor xi. Freqüência relativa acumulada (Fri): percentual de ocorrências até o valor xi Como calcular as freqüências: Exemplo 1 – Número de pessoas que mora em nosso domicílio Este exemplo será construído com dados coletados na sala de aula. Exemplo 2 – Tempo nominal de deslocamento SUA CASA – PUCRS às segundas-feiras A variável tempo é vital para o Engenheiro de Produção. Neste exemplo veremos que o tratamento dado a esse tipo de variável deve ser obrigatoriamente diferente. 8 2.2 Medidas de Tendência Central São valores que trazem informação sobre a região em torno da qual os dados estão posicionados. As medidas de tendência central mais utilizadas são: Média, Mediana e Moda. Para apresentar as medidas de tendência central vamos utilizar o seguinte exemplo. 2.2.1 – Média Aritmética (µµµµ , X ) A média aritmética é definida como a soma de todas observações da variável X, dividida pelo número de elementos do conjunto de dados. Freqüentemente a média aritmética é o valor que melhor representa um conjunto de dados. Quando os dados não estão organizados na forma de uma tabela de freqüências e, portanto, estão na forma isolada, as expressões genéricas para encontrar a média são: População Amostra N x N i i∑ = = 1µ n x X n i i∑ = = 1 Quando os dados estão organizados na forma de uma tabela de freqüências deve-se ponderar os diferentes valores xi pelas respectivas freqüências fi. Procedendo desta forma o cálculo da média aritmética torna-se mais simples e rápido. População Amostra N fx k i ii∑ = × = 1µ n fx X ki ii∑ = × = 1 Exemplo 3 – Número de pessoas que mora em nosso domicílio Calcular a média aritmética para o exemplo do número de pessoas que mora no domicílio. 9 2.2.2 – Mediana (Md) A mediana é o valor que divide o conjunto de dados ordenado em duas partes com igual número de observações. Para calcular a mediana iremos utilizar uma nova notação. Seja ][]2[]1[ ,,, nxxx K um conjunto de dados ordenado (ordem crescente), onde o valor entre colchetes representa a posição no conjunto ordenado. Deduzindo a posição mediana: n ímpar n par n Fila Md n Fila Md 3 4 5 6 7 8 As expressões genéricas para encontrar a mediana são: n ímpar n par Quando os dados estão organizados na forma de uma tabela de freqüências pode-se encontrar a posição mediana na coluna acumulada Fi. Exemplo 4 – Número de pessoas que mora em nosso domicílio Encontrar a Md para o exemplo do número de pessoas que mora no domicílio. 10 2.2.3 – Moda (Mo) A moda é definida como o valor mais freqüente de um conjunto de dados. É possível que o conjunto seja bimodal (duas modas) ou até mesmo multimodal (três os mais modas). { } ii fxMo maior com = Exemplo 5 – Número de pessoas que mora em nosso domicílio Encontrar a Mo para o exemplo do número de pessoas que mora no domicílio. Considerações sobre as MTC 1. A média é a MTC mais influenciada por valores extremos, entretanto é a medida mais “rica”, porque considera todos valores do conjunto de dados. 2. A mediana não é afetada por valores extremos. 3. A moda é a MTC mais “pobre”, porque considera apenas os valores mais freqüentes. 4. Existem outros tipos de média que não são tão afetadas por valores extremos, entretanto não toleram, por exemplo, o valor zero. Média harmônica Média geométrica ∑ = = n i i h x n X 1 1 n nG xxxX ×××= K21 Pode-se estabelecer a seguinte relação entre as médias: XXX Gh ≤≤ 11 2.3 Separatrizes São valores que separam o conjunto de dados ordenado em partes com igual número de observações. A Mediana é, portanto, uma separatriz porque divide o conjunto de dados em duas partes iguais. Min |------------------------|------------------------| Máx Md Os Quartis (Qi) dividem o conjunto de dados em 4 partes iguais. Min |------------------------|------------------------| Máx Os Percentis (Pi) dividem o conjunto de dados em 100 partes iguais. Min |------------------------|------------------------| Máx Exemplo 6 – Boletim de Desempenho do Provão do MEC Exemplo 7 - Separatrizes para o tempo de deslocamento Encontrar alguns valores de quartis e percentis para os dados de tempo de deslocamento dos alunos de nossa turma. 12 2.4 Medidas de Variabilidade São medidas que complementam as MTC trazendo informação sobre a dispersão existente no conjunto de dados. Para introduzi-las vamos recorrer a um exemplo onde temos três diferentes empresas e a variável X investigada é o salário. Todas empresas têm seis funcionários. Tabela – Distribuição salarial em três empresas Empresa A Empresa B Empresa C 1000 1000 1000 1000 800 200 1000 1000 300 1000 1200 1000 1000 1300 2100 1000 700 1400 Média ( X ) Moda (Mo) Mediana (Md) Questões 1 – O que aconteceu com as MTC na tabela acima? 2 – As três empresas são iguais em relação a distribuição salarial? 3 – O que diferencia uma empresa da outra? A partir de agora aprenderemos a calcular medidas capazes de quantificar a variabilidade existente num conjunto de dados 13 2.4.1 – Amplitude (R, do termo Range) É a diferença entre o maior e o menor valor de um conjunto de dados. { } { }ii xmínxmáxR −= 2.4.2 – Variância (σσσσ2 , s 2) A variância é uma medida da variação em torno da média. Por definição, variância é a média dos quadrados dos desvios em torno da média. População Amostra ( ) N x N i i∑ = − = 1 2 2 µ σ ( ) 1 1 2 2 − − = ∑ = n Xx s n i i A variância, ao contrário da Amplitude, considera todos elementos do conjunto de dados no seu cálculo. Quanto maior for a variação dos valores do conjunto de dados, maior será a variância. Quando os dados estão organizados na forma de uma tabela de freqüências, deve-se ponderar os quadrados dos desvios pela freqüência. Esse procedimento facilita o cálculo. População Amostra ( ) N fx i k i i ×− = ∑ =1 2 2 µ σ ( ) 1 1 2 2 − ×− = ∑ = n fXx s k i ii 2.4.3 – Desvio-padrão (σσσσ, s) O desvio-padrão é a raiz quadrada positiva da variância. Essa medida corrige o problema de unidade que surge na variância. O desvio-padrão também é uma medida da variação em torno da média. População Amostra 2σσ = 2ss = O desvio-padrão expressa a variação média do conjunto de dados em torno da média, para mais ou para menos. 14 2.4.4 – Coeficiente de Variação (CV) O CV é a razão entre o desvio-padrão e a média de um conjunto de dados. Ele expressa a variação relativa (%) presente no conjunto de dados em relação à média. População Amostra %100×= µ σ CV %100×= X s CV Quanto maior o CV, mais heterogêneos serão os dados. Considerações sobre as Medidas de Variabilidade (MV) 1. A Amplitude á a MV mais “pobre”, porque considera apenas os dois valores extremos do conjunto de dados. 2. A Variância não é interpretada na prática devido ao problema da unidade, que está ao quadrado. 3. O Desvio-padrão é a MV mais conhecida, sendo amplamente utilizada. 4. Dentre as MV estudadas, sugere-se que o CV seja utilizado para comparação da variabilidade entre diferentes conjuntos de dados. Por não ter unidade, o CV pode ser utilizado até mesmo para comparar a variabilidade entre variáveis expressas em diferentes unidades. Exemplo 8 – Diferenciando as empresas Encontrar as medidas de variabilidade para diferenciar as três empresas. 15 Exemplo 9 – Hotelaria nas cidades americanas preferidas para Congressos Considere os seguintes dados da rede hoteleira das principais cidades-sede de eventos (congressos, simpósios e conferências) dos Estados Unidos. Cidade Número de quartos Número de hotéis Razão: número de quartos por hotel Las Vegas 93719 231 406 Orlando 84982 311 273 Los Angeles 78597 617 127 Chicago 68793 378 182 New York City 61512 230 267 Atlanta 58445 370 158 San Francisco 41350 294 141 Fonte: McClave (2001, p. 64). Obs.: Os dados são de 1995 e aproximados. Encontrar as Medidas de Tendência Central e de Variabilidade para a Razão: número de quartos por hotel. Trabalho 1 Escolher três países latino-americanos e acompanhar as cotações de suas moedas num período de 30 dias (atual). Para encontrar as cotações na Internet: http://br.invertia.com/ clicarem “Mercados → Câmbio”, escolher a moeda e clicar em “Cotações”. Atenção: Não escolher moedas que apresentam variabilidade nula como o Bolívar da Venezuela. a) Encontrar todas medidas descritivas estudadas para as moedas dos 3 países. b) Interpretar os resultados de UM país, dizendo qual país tem a moeda mais instável. c) Graficar a evolução temporal das moedas no período. 16 2.5 – Assimetria e Curtose Em Estatística, a assimetria (skewness) é uma medida do grau de assimetria verificado num conjunto de dados. Por definição, a assimetria é calculada a partir do momento de ordem 3 centrado na média, conforme segue: ( ) 3 3 1 σ n Xx As n i i∑ = − = Para dados simétricos, As=0. Nesse caso, também, os dados deverão apresentar a média e a mediana idênticas e é justamente a diferença entre estas duas medidas que resulta no coeficiente de Assimetria de Pearson (Asp). s MeX Asp )(3 − = No caso de |As| > 1, temos forte assimetria. Exemplo: Exemplo 1 - Exemplo 2 - i xi fi fri Fri i xi fi fri Fri 1 4 5 10% 10% 1 4 11 22% 22% 2 5 7 14% 24% 2 5 9 18% 40% 3 6 8 16% 40% 3 6 8 16% 56% 4 7 10 20% 60% 4 7 7 14% 70% 5 8 8 16% 76% 5 8 6 12% 82% 6 9 7 14% 90% 6 9 5 10% 92% 7 10 5 10% 100% 7 10 4 8% 100% 50 100% 50 100% 4 5 6 7 8 9 10 4 5 6 7 8 9 10 17 A curtose (kurtosis) é uma medida do grau de achatamento de uma distribuição em relação a uma distribuição padrão, denominada curva normal. A seguinte nomenclatura e utilizada: Leptocúrtica: distribuição mais concentrada que a curva normal, ou seja, mais aguda em sua parte superior. Platicúrtica: distribuição mais espalhada do que a curva normal, ou seja, mais achatada em sua parte superior. Mesocúrtica: é o nome dado quando a curtose se assemelha a da distribuição normal. A curtose é calculada a partir do momento de ordem 4 centrado na média, conforme segue: ( ) 3 4 4 1 − − = ∑ = σ n Xx C n i i Para C=0 temos uma curva mesocúrtica. Um outro coeficiente de curtose pode ser calculado a partir dos percentis: )(2 1090 13 PP QQ C p − − = Cp = 0,263 ⇒ curva mesocúrtica Cp < 0,263 ⇒ curva leptocúrtica Cp > 0,263 ⇒ curva platicúrtica Vejamos os exemplos com os dados que o professor trouxe. 18 As=0,003 C=0,023 As=2,718 C=12,65 As=-0,018 C=-1,14 19 2.6 Propriedades das MTC e MV Considere Y = X+a e Z=aX, onde a é uma constante %100 22 × + == = = = += += += aX s Y s CV ss ss RR aMdMd aMoMo aXY xY Y XY XY Xy XY XY XZ Xz XZ XZ XZ XZ CVCV ass sas aRR aMdMd aMoMo XaZ = = = = = = = 222 Exemplo – Salário dos funcionários 600 800 900 1000 1700 20 2.7 Análise gráfica O tipo de gráfico adequado para cada variável depende do tipo de variável. Segue uma relação de exemplos de variáveis e tipos de gráficos adequados. Variável Qualitativa Nominal (com poucas categorias) GRÁFICO DE SETORES Figura – Marca mais lembrada no quesito “Empresa Aérea”. Varig 39% Vasp 13% Gol 12% TAM 36% Fonte: Dados de lembrança fictícios. O gráfico foi construído de acordo com a participação no mercado em 2002. Variável Qualitativa Nominal (com muitas categorias): GRÁFICO DE BARRAS Figura – As 10 empresas gaúchas mais lembradas 1,8% 1,8% 2,1% 3,3% 3,3% 3,3% 3,8% 4,1% 6,3% 8,7% 0,0% 5,0% 10,0% Grendene Renner Sup.Nacional Coca-Cola GM Marcopolo Tramontina Azaléia RBS Gerdau Fonte: Top of Mind – Revista Amanhã – 2002 Obs.: As outras empresas citadas somam 63,3%, entretanto individualmente não ultrapassam 1,7%. 21 Variável Qualitativa Ordinal: GRÁFICO DE BARRAS Figura – Avaliação do atendimento em um restaurante 2% 5% 8% 15% 25% 45% 0% 10% 20% 30% 40% 50% Péssimo Ruim Regular Bom Muito Bom Ótimo % A v a li a ç ã o Fonte: Dados fictícios. Base: 100 observações. Variável Quantitativa Discreta GRÁFICO DE COLUNAS Figura – Distribuição da turma por idade 0% 5% 10% 15% 20% 25% 30% 35% 40% 45% 18 19 20 21 22 23 24 25 26 27 28 29 30 F re q ü ê n ci a R e la tiv a ( % ) Idade (anos completos) Fonte: Dados coletados na turma de Estatística para ADM – Empreendorismo e Sucessão. Base: 28 alunos 22 Variável Quantitativa Contínua HISTOGRAMA Figura – Distribuição de uma turma por altura Altura (cm) 200,0190,0180,0170,0160,0150,0 F re q ü ê n ci a 10 8 6 4 2 0 Fonte: Alunos de uma turma de Estatística I. Gráfico construído no software SPSS. Base: 20 observações Gráficos especiais: Ramo-e-folha, Boxplot e Pareto Variável Quantitativa Discreta (ou, eventualmente, contínua) RAMO-E-FOLHA / Stem and Leaf É uma espécie de histograma mais informativo. Através do ramo-e-folha é possível reconstruir as informações originais. É um gráfico mais acadêmico do que o histograma. Exemplo – Expectativa de vida em países Average female life expectancy Stem-and-Leaf Plot Stem & Leaf 5 . 245577888 6 . 3456777778889 7 . 00000123344445555555556666677777788888888999999 8 . 000000111111122 Stem width: 10 Each leaf: 1 case(s) 23 Variável Quantitativa Discreta ou Contínua Box-plot É um gráfico que apresenta os resultados dos percentis na forma de uma caixa cujo tamanho é um indicativo da variabilidade presente no conjunto de dados. Geralmente, os “bigodes” indicam a Mediana + 1,5 da amplitude interquartílica (IQR). Exemplo – Expectativa de vida em países, separadamente por região Fonte: SPSS Database 1995. Variável Qualitativa Nominal Gráfico de Pareto É um gráfico que permitie separar as poucas respostas que representam muito das muitas respostas que representam pouco. Pode-se usar este gráfico em diferentes aplicações. A seguir um exemplo do mercado de aviação brasileiro atual 90,4% 94,1% 96,5% 98,1% 99,4% 99,6% 99,8% 99,9% 99,9% 100,0%100,0%100,0%100,0% 49,7% 0 500000 1000000 1500000 2000000 2500000 3000000 3500000 T A M G O L/ V ar ig W eb je t O ce an A ir A zu l T R IP L in ha s A ér ea s P as sa re do P an ta na l T ot al A ir M in as N H T M et a T ea m A ba et é 0,0% 20,0% 40,0% 60,0% 80,0% 100,0% Fonte: Aviação Brasil. Infraero, Fev2009 24 2.8 Escore Z e desigualdade de Chebyshev O escore Z pode ser entendido como uma mudança de variável sobre os dados originais, consistindo na subtração de cada observação xi pela média dividida pelo desvio-padrão. σ µ− = X Z em populações ou s XX Z − = em amostras O escore Z indica quantos desvios acima ou abaixo da média determinada observação está. Exemplo – Prova de Estatística Aluno i Nota na prova (xi) Escore Z (zi) 1 4 2 5 3 6 4 7 5 8 6 9 7 10 X 7,00 s 2,16 Exemplo – Altura dos alunos Aluno i Altura (xi) Escore Z (zi) 1 183 2 1743 176 4 173 5 194 6 173 7 176 8 182 9 179 10 170 média 178,00 desvio ≅ 7,00 A desigualdade de Chebyshev diz que, independentemente da distribuição dos dados, a probabilidade de encontrar um valor que se distancie, em módulo, de k desvio- padrão da média é inversamente proporcional ao quadrado da constante k. De maneira mais simples, a proporção de dados com escore Z entre –z e z será no mínimo igual a 1-1/z2. Atenção: z > 1. 25 Exemplo – Desigualdade de Chebyshev Para escore Z =2: 1-1/4 = 0,75 ou 75%. Pelo menos 75% dos dados estarão dentro de + 2 desvios-padrão da média. A desigualdade de Chebyshev permite conhecer uma estimativa da proporção de dados que se afastam de k desvios da média conhecendo apenas a média e o desvio. Exemplo – Vestibular Pela desiguldade de Chebyshev, qual o percentual de alunos que deverá se afastar de 2,5 desvios da média? Essa regra funcionou na prova de Matemática UFRGS 2009? 26 3 – Análise Bidimensional Muitas vezes a análise de dados por meio de variáveis isoladas não permite atingirmos objetivos sobre a inter-relação entre elas. Neste capítulo trataremos do tema análise bivariada tanto para variáveis qualitativas como quantitativas. 3.1 Tabelas de freqüência cruzada São representações tabulares da freqüência de ocorrência de duas variáveis simultaneamente. São também chamadas de tabelas de contingência. Uma tabela cruzada tem l linhas e c colunas. Exemplo – Fornecedores e Conformidade Conformidade Fornecedor Conforme Não-conforme Total A 12 120 B 140 C 120 150 Total 77 a) Complete a tabela e encontre os percentuais por fornecedor. b) Como medir o grau de associação entre estas duas variáveis? 3.2 Medidas de associação para variáveis qualitativas baseadas no valor do qui- quadrado: Para exemplificar o cálculo do qui-quadrado vamos utilizar a tabela acima. A estatística Qui- quadrado baseia-se na diferença entre os valores observados e esperados em cada célula da tabela cruzada. Os valores esperados são calculados sob a hipótese de independência. ( ) ∑ − = . .. 2 2 Esp EspObsχ Graus de liberdade da tabela cruzada: (l-1)(c-1). Coeficiente φ= n 2χ O coeficiente φ é a medida de associação mais simples. O valor de φ varia de 0 (ausência de associação) até 1 (associação completa), mas deve ser usado apenas para tabelas 2X2. Quando temos uma tabela maior é usual o coeficiente de contingência C: Coeficiente C= 2 2 χ χ +n 27 Como C não atinge o máximo (1) no caso de tabelas assimétricas, Cramer sugeriu o coeficiente V: V de Cramer = )1;1( 2 −−× clmínn χ Vamos preencher a tabela abaixo com os dados da turma e verificar se há relação entre lateralidade e o fato de ser destro ou canhoto. Exemplo – Regular and Goofy / Destro ou Canhoto R and G Lateralidade Regular Goofy Total Destro Sinistro Total 3.2.1 Medida de concordância de Kappa O coeficiente Kappa proposto por Cohen (1960) é uma medida internacionalmente utilizada para verificar o grau de concordância entre duas medidas organizadas na forma de uma tabela cruzada quadrada. O valor UM indica concordância perfeita, enquanto o valor zero indica concordância nula. Embora não seja comum, é possível que o Kappa seja negativo. e eo p pp k − − = 1 , onde po = concordância observada pe = concordância esperada (casual) A tabela a seguir aprensenta o critério de classificação proposto por Landis & Koch (1977, p.165): Kappa Statistic Strength of Agreement <0.00 Poor 0.00 0.20 Slight 0.21 0.40 Fair 0.41 0.60 Moderate 0.61 0.80 Substantial 0.81 1.00 Almost Perfect 28 Exemplo: Calcular o coeficiente de Kappa entre as classificações dos fardos de fumo de acordo com o produtor rural e a indústria fumageira que compra os fardos. O preço varia de acordo com a classe! Classificação da fumageira Classificação do produtor rural A B C Total A 80 50 10 B 10 80 40 C 0 10 30 Total Bibliografia específica: Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20, pp. 37 46. Landis, J.R., & Koch, G.G. (1977). The measurement of observer agreement for categorical data. Biometrics, 33, pp. 159 174. 3.3. Covariância e Correlação Agora passaremos a trabalhar com duas variáveis quantitativas (X,Y) e procuraremos estudar o relacionamento existente entre elas. 3.3.1 Covariância (sXY ou σσσσXY) O real entendimento dos coeficientes de correlação é impossível sem o entendimento da covariância. Vamos nos recordar da fórmula da variância (estimador s2): ( ) ( )( ) 11 11 2 2 − −− == − − = ∑∑ == n XxXx s n Xx s i n i i XX n i i e, logo, ( )( ) 1 1 − −− = ∑ = n YyXx s i n i i XY Façamos um exemplo para melhor ilustração: 29 Tabela – Amostra de n=5 pares (X,Y) de tempo de uso e viscosidade i Tempo de uso (xi) Viscosidade (yi) 1 2 8 2 4 7 3 6 5 4 8 3 5 10 2 Soma 30 25 Média 6 5 Desvio 3,162 2,550 Gráfico de dispersão entre X e Y: 0 1 2 3 4 5 6 7 8 9 10 0 2 4 6 8 10 12 X = tempo de uso Y = v is co si d a d e Exercício – Esboçar graficamente Covariância positiva Covariância negativa Covariância nula IMPORTANTE: O sinal da covariância define o tipo de relacionamento (direto ou +, inverso ou -). 30 3.3.2 – Coeficiente de Correlação de Pearson (r, R ou ρρρρ) O coeficiente de correlação de Pearson é uma medida no intervalo [-1;+1] que indica o grau de relacionamento linear entre duas variáveis quantitativas X e Y. Valores –1 indicam associação inversa perfeita, enquanto que o valor +1 indica associação direta perfeita. O valor zero indica ausência de correlação e sinaliza independência entre as variáveis. YX XY XY ss s r = , logo temos que 11 ≤≤− XYr Exemplo – Encontrar o coeficiente de correlação de Pearson entre X e Y no exemplo anterior. Exercício: Encontrar a correlação entre a capacidade e o preço de HD’s. i X=Capacidade (Gb) Y=Preço (R$) 1 160 R$ 140,00 2 200 R$ 160,00 3 240 R$ 170,00 4 300 R$ 210,00 5 400 R$ 240,00 6 500 R$ 280,00 Média 300 R$ 200,00 Desvios 129,00 R$ 53,29 31 LISTA DE EXERCÍCIOS – ESTATÍSTICA DESCRITIVA (até item 2.7) Questões numéricas 1 – O proprietário de uma empresa deseja saber sua nova máquina atende as especificações. A máquina deve encher latas de pêssego com 250g de pêssegos com um desvio-padrão que não ultrapasse em 5% esse valor. Foi retirada uma amostra supostamente representativa da população de 9 latas. Peso líquido drenado das latas (em gramas) 248, 252, 249, 251, 250, 253, 250, 250, 247 a) Calcule as medidas de tendência central. b) Interprete a média e a mediana. c) Calcule as medidas de variabilidade. d) Interprete a amplitude, o desvio-padrão e o coeficiente de variação. e) A máquina está atendendo as especificações? f) Qual seu palpite para o coeficiente de Assimetria? 2 – No processo de produção de fumo, o grau de umidade dos fardos de fumo é uma variável muito importante que pode até mesmo ocasionara recusa de um pedido desde que esteja fora das especificações previstas no contrato. Suponha que a empresa Souza Cruz possua um aparelho que meça o grau de umidade dos fardos numa escala de 0 a 100%. A empresa Souza Cruz firma um contrato onde está definido que o teor de umidade médio dos fardos deve ser de 8% com uma variabilidade média máxima de 20% em torno desse valor. Para avaliar se a sua produção está atendendo ao contrato, a Souza Cruz escolhe aleatoriamente 16 fardos e anota os graus de umidade dos mesmos: 8 ; 8 ; 6 ; 9 ; 8 ; 7 ; 8 ; 9 ; 8 ; 9 ; 8 ; 8 ; 8 ; 7 ; 8 ; 9 a) Organize os dados numa tabela de freqüência completa (considere a variável X = grau de umidade como sendo discreta). b) Encontre as medidas de tendência central. c) Interprete as medidas de tendência central. d) Calcule as medidas de variabilidade. e) Interprete a amplitude, o desvio-padrão e o coeficiente de variação. f) Quais medidas calculadas em b) e d) permite avaliarmos se o contrato está sendo respeitado? 32 3 – Existe um clássico processo de produção para o produto ABC e um engenheiro de produção cria um novo processo com o objetivo de diminuir o tempo de fabricação. Foram anotados os tempos de 100 produtos ABC em cada um dos dois processos. Resultados dos tempos de produção do produto ABC (em minutos) CLÁSSICO NOVO PROCESSO i xi fi fri Fri i xi fi fri Fri 1 1 0 1 1 9 2 2 0 2 2 10 3 3 2 3 3 10 4 4 3 4 4 8 5 5 5 5 5 11 6 6 18 6 6 10 7 7 19 7 7 11 8 8 21 8 8 10 9 9 28 9 9 10 10 10 4 10 10 11 - ∑ 100 - ∑ 100 a) Interprete algumas freqüências para os dois diferentes processos b) Calcule e interprete as medidas de tendência central e as medidas de variabilidade para os dois processos. c) Compare os resultados. Vale a pena mudar o processo de fabricação? Questões teóricas (tão importantes quanto as numéricas) 1) Qual é o objeto concreto de estudo em estatística? 2) O que são variáveis? 3) Por que, na prática, não existem variáveis contínuas? 4) Dê um exemplo para cada uma das escalas de mensuração. Seja criativo, não repita os mencionados em aula. 5) É licito realizar operações matemáticas (por exemplo, a média) com os valores de variáveis nominais ou ordinais? Explique 6) Diferenciar estatística descritiva e inferencial. 7) Qual a medida de tendência central mais afetada por valores extremos em um conjunto de dados de grande variabilidade? 8) Por que a amplitude é uma medida mais ‘pobre’ que o desvio padrão, do ponto de vista da quantidade de informação envolvida nos cálculos. 9) Por que não interpretamos a variância, mas sim o desvio-padrão? 10) Qual a diferença entre o desvio-padrão e o coeficiente de variação.
Compartilhar