Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Estatística Aplicada Prof. Guintar Luciano Baugis Bacharelado em Química Química Industrial v2019 2 Conteúdo 1. Introdução ........................................................................................................................... 3 1.1. Quimiometria ................................................................................................................... 3 1.2. Noções de Amostragem ................................................................................................... 5 2. Estatística Descritiva .......................................................................................................... 7 2.1. Precisão e Exatidão .......................................................................................................... 7 2.2. Medidas de Posição e Dispersão ..................................................................................... 9 2.3. Distribuição de freqüência ............................................................................................. 14 2.4. Função de distribuições de probabilidade ..................................................................... 20 3. Estatística Indutiva ........................................................................................................... 27 3.1. Estimação por intervalo de confiança ............................................................................ 27 3.2. Tamanho das amostras................................................................................................... 37 3.3. Rejeição de valores dispersos ........................................................................................ 39 3.4. Testes de Hipótese ......................................................................................................... 48 4. Análise de Variância ......................................................................................................... 65 5. Regressão e Correlação Linear ......................................................................................... 74 6. Planejamento de Experimentos ........................................................................................ 80 6.1. Planejamento de Experimentos Fatorial ........................................................................ 81 6.2. Planejamento Fatorial Fracionário............................................................................... 107 Apêndices ........................................................................................................................... 115 3 Introdução 1 1.1. Estatística Aplicada Estatística é um conjunto de métodos e processos quantitativos que serve para estudar e medir os fenômenos coletivos. Esta ciência se preocupa com a organização, descrição, análise e interpretação de dados experimentais. Ela é aplicada ao estudo de variáveis aleatórias e, principalmente, quando tais variações têm grande efeito sobre o fenômeno estudado. A Estatística pode ser dividida em duas partes (Figura 1.1): • Descritiva: que se preocupa com a organização e descrição dos dados experimentais; • Indutiva: que cuida da análise e interpretação, permitindo a realização de inferências e projeção de populações. Figura 1.1. Divisões da Estatística e suas atribuições. Quimiometria é uma disciplina voltada à aplicação de métodos estatísticos e matemáticos no planejamento e otimização de procedimentos e na obtenção de informações químicas nas análises de resultados relevantes. É reconhecida atualmente como um ramo da química analítica. O emprego dos computadores em laboratório impulsionou o desenvolvimento da quimiometria Dados Análise Conhecimento e informação Descritiva Indutiva 4 Alguns campos de aplicação da quimiometria: • Otimização de experimentos • Curvas de calibração • Modelagem de fenômenos • Detecção e resolução • Comparação de métodos • Redes neurais • Procura bibliográfica O método estatístico aplicado na avaliação de um processo se divide em quatro fases basicamente: - Coleta de dados: pode ser efetuada de dois modos; • Direto: todo o universo dos dados é utilizado para análise; • Indireto: somente uma parte do universo é utilizada para análise – a amostra; Em um determinado processo estatístico esta importante etapa deve atender os seguintes requisitos: • Definir claramente os objetivos; • Definir a técnica a ser utilizada; • Comprometer o coletor com o processo; • Planejar a coleta; • Definir os pontos mais adequados; • Treinar o coletor; • Utilizar instrumentos adequados. - Apuração dos dados: após a coleta dos dados efetua-se a tabulação de acordo com critérios pré-estabelecidos. Por exemplo: faixa de concentração, método utilizado, etc. - A apresentação dos dados: os dados podem ser apresentados em tabelas (ou quadros) e em gráficos. - Análise e interpretação: baseados na análise dos dados deverão ser tomadas medidas para resolução de problemas observados ou melhoria dos processos. O emprego da quimiometria e de ferramentas estatísticas tem colaborado com o químico nas suas diversas áreas de atuação, levando-lhe a melhor interpretação de dados experimentais obtidos e a grande economia de tempo e materiais. 5 Dois conceitos fundamentais devem ser considerados em quimiometria: • Nenhuma operação matemática melhora a medida do processo! • O domínio e o conhecimento acerca do problema ainda são imprescindíveis. Note o problema descrito na Figura 1.2. Figura 1.2. (D. Harris, QAQ, ed. LTC). 1.2. Noções de Amostragem População ou universo estatístico: é um conjunto da totalidade dos elementos objeto da nossa análise. Pode ser finita ou infinita; Amostra é uma parte significativa da população, selecionada com critérios científicos, que nos permite tirar conclusões a respeito da população. O esquema na Figura 1.3 associa o conceito de população e amostra com a estatística descritiva e indutiva. É preciso garantir que a amostra usada seja obtida por processos adequados para seja representativa da população. Isso significa que, em maior ou menor grau, no processo de amostragem a amostra deve possuir as mesmas características básicas da população. 6 Figura 1.3. Relações entre as divisões da estatística, amostra e população. De acordo com o interesse ou propósito do trabalho a ser conduzido, a amostragem de uma determinada população pode ser assim classificada: - Amostragem casual simples - Todos os elementos da população têm igual probabilidade de pertencer à amostra; - Amostragem sistemática - Quando os elementos da população se apresentam ordenados e a retirada da amostra é feita em espaço e tempo definidos; - Amostragem por meio de conglomerados - Quando a população apresenta uma subdivisão em pequenos grupos, chamados conglomerados, é possível se realizar uma amostragem casual destes subconjuntos; - Amostragem estratificada - Muitas vezes a população se divide em sub-populações ou estratos, sendo razoável supor que, de estrato para estrato, a variável de interesse apresente um comportamento substancialmente diverso. A amostragem estratificadaconsiste em especificar os estratos e a porção da amostra retirada em cada um dele. Amostra Amostra População existente População futura Estatística Indutiva Estatística Descritiva 7 Estatística Descritiva 2 2.1. Precisão e Exatidão Erros ou desvios são conseqüências naturais do processo de medida de uma determinada grandeza. Os erros podem ter como origem as seguintes fontes: - Erro de julgamento: oriundo de uma medida subjetiva. - Erro de leitura: oriundo de leituras errôneas. - Erro de instrumento: oriundo de defeitos ou da precisão limitada de instrumento. - Erro de fontes externas: devido a fatores que influem diretamente na medida. - Erro de representação: devido às medidas não poderem ser representadas numa escala correta. Os erros descritos acima nos levam a uma classificação genérica de dois tipos de erros, a saber: • Erro Sistemático: apresenta tendência e relaciona-se com a média. Ex: utilizar uma balança não calibrada para pesagem. Para eliminá-lo necessitamos descobrir a fonte e caso não seja possível devemos utilizar tabelas ou fórmulas para sua correção. - É unidirecional - Tem causa assinalável - Está associada à exatidão • Erro Aleatório: não apresenta tendência e relaciona-se com o desvio padrão. Ex: leituras sucessivas em um equipamento com diferentes valores. Não são passíveis de eliminação, porém podem ser tratados estatisticamente. - É bidirecional - Não tem causa assinalável - Está associado à precisão • Exatidão: É a concordância entre uma medida e valor verdadeiro ou mais provável da grandeza. É também referida como acurácia. • Precisão: É a concordância entre uma série de medidas da mesma grandeza. Expressa a reprodutibilidade da medida. Os conceitos relacionados à Exatidão e Precisão estão demonstrados na Figura 2.1. 8 Figura 2.1. Relações apresentadas por Exatidão e Precisão. O grau de exatidão e precisão na tomada de uma determinada medida é determinado por um conjunto de propriedades estatísticas que relacionam posição e dispersão a um valor da população 2.2. Medidas de Posição e Dispersão Medidas podem ser tomadas em função da amostra ou da população. A notação destas medidas encontra-se na Tabela 2.1: Tabela 2.1. Notações de principais estatísticas para população e amostra. População Amostra No de elementos N n Média x Variância 2 S2 Desvio padrão S Precisão – Erros Aleatórios Exatidão – Erros Sistemáticos 9 As medidas de posição servem para localizar a distribuição de freqüência sobre o eixo da variável em questão. Três tipos importantes de medidas de posição: média, mediana e moda. • Média aritmética: sendo xi (i = 1,2,3, ..., n,), definimos com média aritmética ou simplesmente média: N x n i i == 1 ou n x x n i i == 1 • Média Ponderada: consiste na média dos valores ordenados por classes considerando o peso de cada classe no conjunto. N fx n i ii == 1 . ou n fx x n i ii == 1 . • Mediana ( x~ ): A mediana é o valor médio ou a média aritmética dos dois valores centrais de um conjunto de números, ordenados em ordem de grandeza, isto é, em um rol. • Moda ( xˆ ): é o valor que ocorre com maior freqüência, isto é, é o valor mais comum. A moda pode não existir e, mesmo que exista, pode não ser única. Uma distribuição que tem apenas uma única moda é denominada unimodal. Exemplo Encontrar média, mediana e moda do seguinte conjunto: 11 12 14 15 15 16 16 18 6,14 8 1816161515141211 = +++++++ =x mediana = 15 2 1515 )º5:º4( = + =x moda = 15 e 16 (universo bimodal) 10 As medidas de dispersão complementam as informações das medidas de posição, indicando o grau de variação existente num conjunto de dados. As principais medidas de dispersão são: amplitude, variância, desvio padrão e o coeficiente de variabilidade. • Amplitude: É a diferença entre o maior e o menor valor da série de dados. mínmáx xxR −= • Variância: Por definição é a média dos quadrados dos valores em relação à média. Podemos definí-la como: N x n i i = − = 1 2 2 )( ou 1 )( 1 2 2 − − = = n xx S n i i N N x x n i n i i i = = − = 1 2 12 2 ou 1 1 2 12 2 − − = = = n n x x S n i n i i i As variações das outras fórmulas ocorrem das formas análogas às variações acima. As propriedades matemáticas da variância: - Multiplicando-se todos os valores de um conjunto por uma constante, a variância do conjunto fica multiplicada pelo quadrado dessa constante; - Somando-se ou subtraindo–se uma constante a todos os valores de um conjunto, a variância não se altera. • Desvio Padrão: É definido como sendo a raiz quadrada da variância. Sua vantagem em relação à variância é que se encontra na mesma unidade dos dados amostrais. 2SS = Às vezes, o desvio padrão e a variância correspondentes a amostra são definidos com n, em lugar de n-1 nos denominadores das expressões. Isso representa uma estimativa melhor do desvio padrão da população da qual a amostra faz parte. Para grandes valores de N (certamente N>30) não há, praticamente, diferença entre as definições. 11 Exemplo Conjunto de dados apresentados na determinação de Pb (mg/L) de 4 laboratórios: 48,4 50,2 50,8 51,0 1,50=x mg/L xxi − 2)( xxi − 48,4 – 50,1 = -1,7 2,89 50,2 – 50,1 = 0,1 0,01 50,8 – 50,1 = 0,7 0,49 51,0 – 50,1 = 0,9 0,81 Σ 0 4,2 4,1 14 2,42 = − =S (mg/L)2 2,14,1 ==S mg/L • Coeficiente de variação: É definido como o quociente percentual entre o desvio padrão e a média. Sua vantagem é caracterizar a dispersão dos dados em termos relativos a seu valor médio. 100= x S CV Exemplo Um químico, desejando avaliar um novo método para determinação de cobre, conduziu uma investigação preliminar usando uma solução de concentração conhecida. Esta solução de 60 mg/L de cobre foi analisada 6 vezes, tomando para cada determinação alíquotas de 10 mL. Encontrar a média, mediana, moda, amplitude, variância, desvio-padrão e o coeficiente de variação dos resultados encontrados. 58,2 61,0 56,6 53,8 56,9 58,3 5,57 6 3,589,568,536,560,612,58 = +++++ =x mg/L 6,57)2,58:9,56( == xmd mg/L 12 2,78,530,61 =−=R mg/L 65,5 )16( )5,573,58(...)5,570,61()5,572,58( 2222 = − −++−+− =S (mg/L)2 38,265,5 ==S mg/L %1,4100 5,57 38,2 ==CV conjunto amodal (sem moda) Exemplo Foram realizadas análises de cloretos em meio aquoso por 4 técnicos em uma mesma amostra padrão de 10,0 mg/L, encontrando-se os seguintes resultados: técnico A 9,0 9,0 9,2 9,1 9,3 técnico B 9,9 9,9 10,3 10,3 10,3 técnico C 8,0 9,0 9,5 8,5 9,8 técnico D 9,0 10,5 11,0 9,5 10,0 Em relação aos resultados encontrados, classifique-os quanto à precisão e exatidão, e diga qualo tipo de erro (sistemático ou aleatório) há em cada um dos casos. Para estimarmos a exatidão vamos considerar a estatística x , e para a precisão o coeficiente de variação. x S CV (%) classe erro técnico A 9,1 0,13 1,4 inexato e preciso sistemático técnico B 10,1 0,22 2,2 exato e preciso aleatório técnico C 9,0 0,73 8,1 inexato e impreciso sistemático aleatório técnico D 10,0 0,79 7,9 exato e impreciso aleatório Exercício 2.1 Três amostras foram enviadas ao laboratório para análise. O técnico realizou 5 determinações em cada uma delas, e encontrou os seguintes resultados : A : 6,1 6,3 6,2 6,5 5,9 B: 36,5 37,3 36,9 38,4 35,4 C: 241,5 244,7 237,5 252,9 242,9 13 a) Calcule a média, a amplitude, o desvio-padrão e o coeficiente de variação para cada amostra; b) Comente o uso do desvio-padrão, amplitude e coeficiente de variação como unidade de precisão de um método analítico. Resposta: b) O coeficiente de variação é a melhor propriedade para estimar a dispersão. Problemas 2.1. Calcule a amplitude, a variância, o desvio-padrão e o coeficiente de variação em cada amostra: a) 12 6 7 3 15 10 18 5 b) 9 3 8 8 9 8 9 18 c) 75 75 76 77 76 75 76 77 75 76 75 2.2. Uma amostra artificial, padronizada, de soro de sangue humano contém 50,0 gramas de albumina por litro. Cinco laboratórios (A-E), realizaram seis determinações da concentração de albumina, com os seguintes resultados: A 50,5 49,6 50,1 49,9 49,1 50,2 B 47,8 51,6 50,1 48,1 51,9 49,9 C 51,5 50,8 51,8 51,1 50,7 51,3 D 43,0 51,0 45,1 48,5 45,8 49,2 E 50,2 49,6 50,0 49,8 50,6 47,0 Comente sobre a precisão e exatidão de cada laboratório. 2.3. Uma solução padrão com 30 mg/L de Pb foi distribuída a 2 Técnicos no laboratório e solicitado a eles que realizassem 4 ensaios, individualmente, usando o mesmo método e o mesmo equipamento. Os resultados estão apresentados a seguir: Técnico 1 33 34 34 33 Técnico 2 29 30 26 35 Através do cálculo das propriedades estatísticas, indique qual tipo de erro pode ser atribuído a cada Técnico (sistemático ou aleatório) e classifique-os quanto à precisão e exatidão. 14 2.4. Durante um programa de controle interlaboratorial, um laboratório recebeu uma amostra de sangue para dosagem de cafeína cuja concentração real é de 5,50 µg/mL. Para que o laboratório receba o certificado de aprovação nesse tipo de controle, é necessário que o resultado não exceda o limite de tolerância de ± 0,25µg/mL. Após a análise de quatro replicatas dessa amostra, foram obtidos os seguintes resultados: Replicata Concentração de cafeína (µg/mL) 1 4,12 2 4,13 3 4,12 4 4,12 Média 4,12 Desvio-padrão 0,005 CV (%) 0,121 Qual parâmetro a ser melhorado: a precisão ou a exatidão? Na ação corretiva, que tipo de erro deve ser eliminado? 2.3. Distribuição de freqüência É uma séria estatística específica, onde os dados encontram-se dispostos em classes ou categorias juntamente com as freqüências correspondentes. Pode ser dividida em dois tipos: • Distribuição Simples: Assume valores inteiros (pontuais) normalmente oriundos de contagem. Ex.: números de técnicos que participam de um plano de correlação laboratorial (dados discretos). • Distribuição acumulada: Assume valores contínuos, normalmente oriundos de medidas. Ex.: resultados de análises de enxofre realizadas em amostras de gasolina. Exemplo de uma distribuição contínua: temperaturas observadas em determinado processo: 22 46 9 40 57 22 22 13 50 42 35 2 15 41 34 52 32 75 69 44 26 42 60 56 30 3 17 79 45 37 0 12 62 50 45 41 59 11 66 39 43 33 70 50 47 20 36 40 67 29 15 A distribuição de freqüência será expressa na seguinte ordem: Temperaturas nº observações 0 ⊢ 10 4 10 ⊢ 20 5 20 ⊢ 30 6 30 ⊢ 40 8 40 ⊢ 50 12 50 ⊢ 60 7 60 ⊢ 70 5 70 ⊢ 80 3 Para discutir os dados dispostos na tabela de distribuição devemos notar algumas definições: • Dados Brutos: São os dados não organizados. • Rol: Arranjo de dados em ordem decrescente. • Classe (i): Número de cada classe (inferior e superior). No exemplo é igual a 8. • Limite de classe: São os extremos de cada classe (inferior e superior). No exemplo a terceira classe tem limite inferior igual a 20 e limite superior igual a 30. • Intervalo de classe ou amplitude: É a diferença entre o limite superior e o limite inferior de cada classe. No exemplo é 10. • Amplitude total: É a diferença entre a maior e a menor observação. No exemplo a amplitude total é 79. • Ponto médio de classe (xi): É a média aritmética entre o limite superior e inferior de cada classe. No exemplo, xi da quinta classe é 45. • Número de classes: Pode ser encontrado pela regra de Sturges: K = 1 + 3,3 logN (N = número de elementos) Também pode ser encontrado por outras fórmulas, como regra de Kelly e etc. No entanto, é utilizado um número conveniente. No exemplo optamos por 8 classes. 16 • Freqüência absoluta simples (fi): Número de observações em cada classe. • Freqüência relativa simples (fir): É o quociente entre a frequência absoluta simples da classe (fi) e o número total de observações (N). • Freqüência absoluta acumulada (Fi): Corresponde a soma das freqüências de determinada classe com todas as anteriores. • Freqüência relativa acumulada (Fir): Corresponde à soma das freqüências relativas simples (fir) de determinada classe com todas as anteriores. Exemplo Os valores abaixo se referem a uma série de resultados analíticos de determinado produto, já ordenados de forma crescente. 95 96 96 97 97 97 97 98 98 98 98 98 98 99 99 99 99 99 99 99 99 99 99 99 99 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 101 101 101 101 101 101 101 101 101 101 101 102 102 102 102 102 102 102 103 103 103 103 104 104 105 Em relação aos dados acima, organize uma tabela de distribuição de freqüência por intervalos e responda as seguintes questões: a) % de resultados iguais ou superiores a 99; b) % de resultados entre 98 (inclusive) e 102 (exclusive); c) Número de resultados menores que 103. 17 Temperatura (ºC) xi fi fir Fi Fir 95 ⊢ 96 95,5 1 0,015 1 0,015 96 ⊢ 97 96,5 2 0,029 3 0,044 97 ⊢ 98 97,5 4 0,059 7 0,103 98 ⊢ 99 98,5 6 0,088 13 0,191 99 ⊢ 100 99,5 12 0,176 25 0,368 100 ⊢ 101 100,5 18 0,265 43 0,632 101 ⊢ 102 101,5 11 0,162 54 0,794 102 ⊢ 103 102,5 7 0,103 61 0,897 103 ⊢ 104 103,5 4 0,059 65 0,956 104 ⊢ 105 104,5 2 0,029 67 0,985 105 ⊢ 106 105,5 1 0,015 68 1,000 a) % resultados ≥ 99 (freqüência acumulada relativa até quarta classe): 1-0,191 = 0,809 (80,9 %) . b) % resultados ≥ 98, < 102 (soma das freqüências relativa entre quarta e sétima classe): 0,088 + 0,176 + 0,265 + 0,162 = 0,691 (69,1 %) . c) resultados < 103 (freqüência acumulada até a oitava classe): 61 Exercício 2.2 Em um determinado processo foram observadas as seguintes medidas de temperatura, com um termômetro: Data ºC Data ºC Data ºC Data ºC Data ºC1/11 22 1/12 35 31/12 26 30/1 0 1/3 43 4/11 46 4/12 2 3/1 42 2/2 12 4/3 33 7/11 9 7/12 15 6/1 60 5/2 62 7/3 70 10/11 40 10/12 41 9/1 56 8/2 50 10/3 50 13/11 57 13/12 34 12/1 30 11/2 45 13/3 47 16/11 22 16/12 52 15/1 3 14/2 41 16/3 20 19/11 22 19/12 32 18/1 17 17/2 59 19/3 36 22/11 13 22/12 75 21/1 79 20/2 11 22/3 40 25/11 50 25/12 69 24/1 45 23/2 66 25/3 67 28/11 42 28/12 44 27/1 37 26/2 39 28/3 29 Determine: a) % de observações ≥ 70 ºC. b) número de observações ≥ 70 ºC. c) número de observações < 60 ºC e ≥ 20 ºC. d) % de observações < 40 ºC. 18 Histogramas São representações gráficas em forma de colunas justapostas, onde a base colocada no eixo das abscissas corresponde aos intervalos das classes, e a altura é dada pela freqüência absoluta das classes. O processo de obtenção do histograma é análogo ao utilizado para obtenção da distribuição de freqüência. A Figura 2.2 apresenta as classificações de histogramas que podem ser obtidas. A Figura 2.3 demonstra o histograma construído a partir de dados do Exercício 2.2 de classificação assimétrica. Tipo Geral 0 2 4 6 8 10 12 14 16 Tipo Pente 0 2 4 6 8 10 12 14 16 18 Tipo Platô 0 2 4 6 8 10 12 14 Tipo Assimétrico 0 2 4 6 8 10 12 14 16 18 Figura 2.2. Classificação de histogramas conforme formato da distribuição dos dados. Figura 2.3. Histograma dos dados do Exercício 2.2. 0 2 4 6 8 10 12 14 0├ 10 10├ 20 20├ 30 30├ 40 40├ 50 50├ 60 60├ 70 70├ 80 fi 19 Exercício 2.3 Construa o histograma referente ao exemplo da página 15. 20 2.4. Função de distribuições de probabilidade Vamos considerar o seguinte exemplo: determinado lote de produtos fabricados com especificação A e B, respectivamente, foram classificados em uma escala própria de cor, de 1 a 2, conforme a seguinte tabela: Escala cor Especificação 1 2 Total A 503 120 623 B 250 5 255 Total 753 125 878 Em um processo de escolha aleatória, qual a probabilidade de sorteamos: a) Produto com especificação A b) Produto com cor 2 c) Produto com especificação B e cor 1 d) Produto com especificação A ou cor 1 Quando conhecemos a distribuição dos dados sob determinados critérios podemos estabelecer facilmente a probabilidade de encontrarmos um resultado aleatório dentro de um intervalo. Exemplos clássicos deste conceito são (Figura 2.4): a) a função de onda, que determina a probabilidade de encontrarmos um elétron em determinado espaço orbital; e b) a distribuição de Maxwell referente à velocidade das partículas do gás ideal em função da temperatura (P.W. Atkins, Princípios de Química, Bookman, 2001). 21 Figura 2.4. Exemplos de distribuição de probabilidade aplicados à química. A distribuição de probabilidade é determinada pela curva de densidade. No caso do histograma do Exemplo da página 15, podemos delimitar a curva de densidade da distribuição de probabilidade dos dados, conforme Figura 2.5. ºC fi 0 2 4 6 8 10 12 14 16 18 20 94 95 96 97 98 99 100 101 102 103 104 105 106 Figura 2.5. Curva de densidade de probabilidade conforme exemplo pg 15. 22 Quando não conhecemos a distribuição dos dados, podemos admitir sob critérios rigorosos que a população pode seguir um padrão de distribuição determinado. Distribuição Normal Um dos mais importantes exemplos de uma distribuição continua de probabilidade é a distribuição normal, ou a distribuição de Gauss, apresentada na Figura 2.6. A função de distribuição normal é definida pela equação: 2 2 2 )( 2 1 − − = x eY Figura 2.6. Representação gráfica da distribuição normal. A distribuição normal é a distribuição mais comumente utilizada quando se estuda variáveis. Podemos assim descrever as características de uma distribuição normal: • Apresenta simetria ao redor da média; • Tem um ponto de máximo para x = ; • É duplamente assintótica; • Tem dois pontos de inflexão; • A área sob é igual à unidade. A probabilidade sob a curva de densidade da distribuição normal tem valores definidos em termos de conforme apresentado no Figura 2.7. 23 Figura 2.7. Relação de probabilidade da distribuição normal em função de . Como exemplo, vamos ilustrar a aplicação de cálculo pela probabilidade normal no caso de uma análise química de cobre por método eletrogravimétrico, supondo que o resultado esperado para o teor de cobre seja de 20 % e que a determinação analítica resultou em média x = 20 e desvio padrão = 0,5. P (19 ≤ μ ≤ 21) = P (18,5 ≤ μ ≤ 21,5) = P (19 ≤ μ ≤ 21,5) = Distribuição Normal Reduzida Para facilitar o cálculo de áreas de probabilidades, converte-se a escala dos eixos de x (variável aleatória) para escala de unidades de desvio padrão. Assim, temos que: )( − = x z onde o valor z representa o quanto um determinado valor dista da média em termos de desvio-padrão. 99,7 % 95,4 % 68,3 % - - 2 2 3 - 3 24 A tabela disposta no Apêndice deve ser empregada para determinar a probabilidade de um resultado ocorrer em uma distribuição normal Exemplo Um certo material foi analisado em laboratório. A média das determinações foi de 3,40 e o desvio padrão de 0,14. A especificação deste material fornecida pelo produtor é de 3,36 0,05. Qual a probabilidade de encontrar valores fora de especificação? μ = 3,40 = 0,14 Limites da especificação: x1 = 3,36 – 0,05 = 3,31 x2 = 3,36 + 0,05 = 3,41 642,0 14,0 )40,331,3( 1 −= − =z 071,0 14,0 )40,341,3( 2 = − =z P (x < 3,31) = P (z < -0,642) = 0,5 - 0,2389 = 0,261 P (x > 3,41) = P (z > 0,071) = 0,5 - 0,0279 = 0,472 P (3,31 < x < 3,41) = 0,733 ou 73,3 % Exercício 2.4 A média obtida pelo laboratório para o teor de Fe no minério de ferro amostrado é de 12,5 % e o desvio padrão 1,2 %. A especificação do cliente é de 12,6 1,5 %. a) Qual a probabilidade dos resultados obtidos encontrarem-se dentro desta especificação? b) Qual a probabilidade de encontrar valores maiores que 11,1 %. Problemas 2.5. Para X : N (20,4), ou seja, dada uma distribuição com μ = 20 e 2= 4, encontrar os valores reduzidos correspondentes a: x1 = 14 x2 = 16 x3 = 18 x4 = 20 x5 = 22 x6 = 24 x7 = 26 25 2.6. Seja X : N (100,25), calcule: a) P (100 x 106) b) P (89 x 107) c) P (112 x 116) d) P (x 108) e) P (x 95) 2.7. Suponha que X é normalmente distribuída com média de 5 e um desvio padrão de 4. Determinar o seguinte: a) P(x 11) b) P(x 0) c) P(3 x 7) d) P(-2 x 9) e) P(2 x 8) 2.8. Os resultados das análises de óleo em água das amostras de um efluente final apresentam valores de média 1,60 ppm e desvio-padrão 0,30 ppm. Supondo que os resultados estejam normalmente distribuídos, encontre a probabilidadede uma amostra de efluente final se apresentar: a) Entre 1,50 e 1,80 ppm. b) Mais de 1,75 ppm. c) Menos de 1,48 ppm. d) Qual deve ser valor mínimo para escolhermos os 10 % dos resultados que apresentaram valores mais altos. 2.9. A resistência à compressão de amostras de cimento pode ser modelada por uma distribuição normal com média de 6000 quilogramas por centímetro quadrado e um desvio padrão de 100 quilogramas por centímetro quadrado. a) qual é a probabilidade de que a força de uma amostra seja menor que 6250 kgf/cm2? b) qual é a probabilidade de que a força de uma amostra esteja entre o 5800 e 5900 kgf/cm2? c) que força é ultrapassada por 95 % das amostras? 2.10. A altura média feminina com idade entre 20-74 anos era de 64 polegadas em 2002, um aumento de cerca de uma polegada desde 1960 (http://usgovinfo.about.com/od/healthcare). Suponha que a altura feminina é normalmente distribuída com desvio padrão de 2 polegadas. a) qual é a probabilidade de que uma mulher aleatoriamente selecionada nesta população ter entre 58 polegadas e 70 polegadas? b) qual altura inclui 90 % desta população? 26 2.11. A demanda pelo uso da água em Phoenix em 2003 atingiu uma alta de cerca de 442 milhões galões por dia em 27 de junho de 2003 (http://phoenix.gov/WATER/wtrfacts.html). O uso da água no verão é normalmente distribuído com uma média de 310 milhões de galões por dia e um desvio padrão de 45 milhões de galões por dia. Reservatórios da cidade têm uma capacidade de armazenamento combinado de quase 350 milhões de galões. a) qual é a probabilidade de um dia requerer mais água do que é armazenado em reservatórios da cidade? b) que capacidade do reservatório seria necessária para que a probabilidade de que a reserva de água seja ultrapassada seja apenas de 1 %? 2.12. Um artigo sob revisão para a Air Quality, Atmosphere & Health denominado “Linking Particulate Matter (PM10) and Childhood Asthma in Central Phoenix” utilizou dados de PM10 (partículas de <10-6 m de diâmetro) referentes à qualidade do ar medidos por sensores. O valor de PM10 médio diário para um sensor localizado estrategicamente foi de 50 mg/m3, com um desvio padrão de 25 mg/m3. Suponha que a média diária de PM10 é normalmente distribuída. a) qual é a probabilidade da média diária de PM10 ser superior a 100 mg/m3? b) qual é a probabilidade da média diária de PM10 ser inferior a 25 mg/m3? c) para qual valor médio diário de PM10 podemos estabelecer que, a partir dele, teremos 5 % dos resultados mais altos? 27 Estatística Indutiva 3 O objetivo da estatística indutiva é tirar conclusões sobre as populações com base nos resultados observados nas amostras extraídas dessas populações. Os problemas de estatística indutiva se concentram em dois grupos: - Estimação de Parâmetros por Intervalos de Confiança - Avaliação por Testes de Hipóteses Estimação dos parâmetros da população Através de uma amostra representativa da população, procura-se estimar os parâmetros da população (média, mediana, moda, amplitude, desvio padrão, variância, coeficiente de correlação, etc.). A estimação amostral pode ser por ponto ou por intervalo de confiança. A estimação pontual é a estimativa do parâmetro através de um único valor resultante de observações sobre os valores da amostra. Em estatística, entende-se por população o conjunto de elementos que tem em comum determinada característica. Todo subconjunto de elementos retirado dessa população é uma amostra. As medidas obtidas com base na população são chamadas parâmetros, indicados por letras gregas. Assim, por exemplo, a média de uma população é indicada por μ, e o desvio padrão por . As medidas obtidas com base em amostras são denominadas estatísticas, que são obtidas a partir de amostras como estimativas dos parâmetros. Na estimação de parâmetros por ponto, x serve para estimar μ, assim como S serve para estimar . 3.1. Estimação por intervalo de confiança Estimar o parâmetro por intervalo consiste na determinação de valores obtidos de observações da amostra no qual se espera que o mesmo contenha o valor do parâmetro. O intervalo estabelecido com uma determinada probabilidade é conhecido como intervalo de confiança. O nível ou grau de confiança, designado por 1-, é a probabilidade citada. Assim, será a probabilidade de erro na estimação por intervalo. 28 Admitiremos simetria na probabilidade que os intervalos de confiança contenham os valores dos parâmetros estimados e, dessa forma, a probabilidade de que o parâmetro fique fora do intervalo, à direita e à esquerda do mesmo, será igual a /2. O intervalo de confiança pode ser determinado para uma série de condições. Vamos considerar estas condições específicas como casos de estudo. Caso 1. Intervalo de Confiança para μ com conhecido. O intervalo de confiança será expresso como 0ex , sendo os limites do intervalo de confiança simétrico 0ex + e 0ex − . O problema resume-se em determinar o 0e , fixando-se a probabilidade de erro na estimação, e fazendo uso do conceito da distribuição normal padronizada. Admitindo-se: μ = média da população x = média da amostra x = valor da variável estudada = desvio padrão da população n = tamanho da amostra 0e = semi-amplitude do intervalo de confiança e − = x z 0ex = Em se tratando do estudo de amostras, o desvio padrão em z passa a ser indicado por n/ . Substituindo as respectivas simbologias, temos que: n e z − = )( 0 n ze =0 Portanto, a expressão do intervalo de confiança, 0ex , resultará em: n zx e a interpretação desse intervalo será indicada por: 29 −= +− 1 n zx n zxP o valor de z é obtido na tabela da área sob a curva normal . Exemplo Consideremos uma amostra de 49 elementos extraída de uma população com distribuição normal, com média amostral x = 25 e = 1. Estabelecer um intervalo de 95 % de probabilidade com confiança para a média dessa população. Através da tabela da curva normal: z = z2,5% = 1,96 (valor obtido para 1- = 1-0,05 = 0,95). 28,0 49 1 .96,10 ==e o intervalo de confiança será dado por: 28,000,250 = ex com indicação dada por: P (24,72 ≤ μ ≤ 25,28) = 0,95. Exercício 3.1. O teste da concentração de K no sangue não é totalmente preciso. Além disso, a concentração pode variar significativamente de um dia para outro. Suponha que medidas repetidas tomadas em dias diferentes do mesmo paciente variem normalmente, com = 0,2. a) 1 amostra retirada de um determinado paciente apresentou resultado x = 3,4. Dê o intervalo com 90 % de confiança para seu nível médio de K; b) Suponha agora que 3 amostras fossem tomadas e fornecessem média x =3,4. Qual seria agora o intervalo com 90 % de confiança para a média? 30 Exercício 3.2. Uma fábrica produz pilhas com = 1 h em termos de vida-útil. Em uma amostra de 36 pilhas, a média de vida-útil foi de 7,5 h. Supondo que a distribuição tenha comportamento normal, estimar o intervalo que contém μ com 95 % de confiança. Caso 2. Intervalo de Confiança para μ com desconhecido.Quando os parâmetros da população são desconhecidos, podemos, com base em uma amostra, obter a média da amostra, o desvio padrão e o erro padrão da média. A probabilidade neste caso deve ser considerada conforme a distribuição t de Student que é adequada para amostras com menor número de elementos, em geral < 30. A curva de densidade da distribuição t de Student se assemelha com a curva normal à medida que n tende a valores maiores, conforme demonstrado na Figura 3.1. z Figura 3.1. Comparação entre a distribuição t e a normal em função do tamanho da amostra. A probabilidade sob a curva densidade da estatística t pode ser encontrada por meio de dados tabelados (Apêndice). 31 Exemplo Procurar o valor de t para uma amostra de 10 elementos com um nível de confiança de 95 %. Exercício 3.4 Encontrar os valores de t na tabela bilateral para : a) n = 20 95 % de confiança t = b) n = 30 95 % de confiança t = c) n = 10 99 % de confiança t = d) n = 5 90 % de confiança t = Exercício 3.5 Qual o número de amostras para: a) 95 % de confiança t = 2,145 n = b) 99 % de confiança t = 2,704 n = c) 90 % de confiança t = 1,746 n = Exercício 3.6 Qual o nível de confiança para : a) t = 1,325 n = 21 confiança = b) t = 2,878 gl = 18 confiança = Usando a distribuição de t de Student podemos estabelecer um intervalo de confiança para a média, calculando os limites xtSx , onde nSSx = . Assim a expressão para o intervalo de confiança para μ para com desconhecido fica: nStx n 2/,1− onde t é obtido por meio de tabela com n-1 graus de liberdade. A interpretação para o intervalo de confiança é dada por: −= +− −− 1.. 2/,12/,1 n S tx n S txP nn Exemplo Uma amostra de 10 elementos com média x = 16 e desvio padrão S = 2 é extraída de uma população de distribuição normal. Construir um intervalo de confiança de 90 % para a média dessa população. Da tabela de distribuição t temos: 32 tn-1= t9,90% = 1,833 eo = 1,833 × 10 2 = 1,159 o intervalo de confiança será: 159,100,160 = ex com indicação: P(14,841 ≤ μ ≤ 17,159) = 0,90 Exercício 3.7 Temos uma amostra de minério para análise de ferro. Obtivemos os seguintes resultados: 12,5 11,8 13,2 12,7 12,0 12,0 Construir um intervalo para a média, considerando 90 % de confiança. Exercício 3.8 Construir o intervalo de confiança (95 %) para a concentração de enxofre em amostra de carvão mineral. Os resultados obtidos em laboratório foram: 3,22 3,45 3,33 3,40 3,60 Problemas 3.1. A especificação de um produto garante o teor de cálcio igual a 1,5 %. Foram feitas 12 determinações de cálcio em um lote, sendo a média dos valores obtidos igual a 1,7 % e o desvio padrão igual a 0,22 %. Verificar se o lote é aceito quando se aceita um risco de 5 % de erro (95 % de confiança). 33 3.2. Quatro técnicos analisaram uma solução de amônia de concentração de 20,1%, encontrando-se os seguintes resultados. Técnico Determinações x S A 20,2 19,9 20,1 20,4 20,2 20,4 20,2 0,190 B 19,9 20,2 19,5 20,4 20,6 19,4 20,0 0,486 C 20,6 20,5 20,7 20,6 20,8 21,0 20,7 0,179 D 20,1 19,9 20,2 19,9 21,1 20,0 20,2 0,456 Baseado nos dados acima, verifique com um nível de significância de 5 % se algum técnico apresenta um erro sistemático. Caso 3. Intervalo de confiança para a variância populacional. A estimação do parâmetro variância pode ser realizada através de intervalos, de forma análoga à determinação de μ. Para tal, devemos empregar a distribuição 2 (qui quadrado). A distribuição 2 estabelece a dependência da variância com o número de graus de liberdade conforme apresentado na Figura 3.2: Figura 3.2. Função de distribuição 2 de acordo com o número de graus de liberdade. 34 Seja: 1 )( 1 2 2 − − = = n xx S n i i 2 2 2 1 2 1 1 1 S n n nxxn i i − = − − − = = 2 2 2 )1( Sn − = O intervalo de confiança para a variância populacional é definido por: P − − − 2 1, 2 2 2 2 , 2 2 )1()1( SnSn = 1- Para o desvio padrão, o intervalo é definido por: P − − − 2 1, 2 2 2 , 2 2 )1()1( SnSn = 1- Onde os valores de 2 , 2 e 2 1, 2 − podem ser encontrados em Tabela (Apêndice). Exemplo Uma amostra de 11 elementos extraída de uma população com distribuição normal forneceu S2 = 7,08. Construir o intervalo com 90 % de confiança para 2 da população. 2 , 2 = %5,10 2 =18,307 2 1, 2 − = %95,10 2 =3,94 limites do intervalo: LI = 87,3 307,18 08,710 = LS = 0,18 94,3 08,710 = P(3,87 2 18,0) = 0,90 P(1,97 4,24) = 0,90 35 Exercício 3.9 A vazão de um determinado produto em um processo contínuo é medida por um instrumento. São feitas as seguintes leituras em um intervalo definido de tempo. 3,20 3,18 3,22 3,57 3,61 3,72 com 90 % de confiança, estabeleça a variação máxima que poderá ser alcançada por este sistema. Caso 4. Intervalo de confiança para a proporção populacional Uma variável é uma função que confere um número real a cada resultado no espaço amostral de um experimento aleatório. As variáveis podem ser classificadas de duas formas: • Variáveis discretas – possuem uma faixa finita e contável. Exemplo: número de lotes fabricados, número de analisadores em linha, número de certificados emitidos no mês, etc.. • Variáveis contínuas – possuem um intervalo de números reais para a sua faixa. Exemplo: temperatura, massa, tempo, concentração, etc.. O tratamento estatístico dado às variáveis discretas refere-se à proporção dos eventos contáveis que ocorrem em uma determinada população. Baseados na distribuição binomial, podemos estabelecer o intervalo de confiança para uma determinada proporção populacional. Seja: n = número de elementos da amostra; f = freqüência observada do evento; p = proporção populacional (parâmetro); p’= estimador do parâmetro (amostral); n f p =' Quando np ≥ 5 e n(1-p) ≥ 5 n pp )'1('2 −= se n ze =0 36 para a proporção populacional: n pp ze )'1(' 0 − = O intervalo de confiança para p pode ser definido por: P − + − − n pp zpp n pp zp )'1(' ' )'1(' ' =1- Exemplo Retirada uma amostra de 1000 peças da produção de uma máquina, verificou-se que 35 eram defeituosas. Qual o IC ao nível de 95 % para a produção de defeitos da máquina? n = 1000 f = 35 035,0 1000 35 ' ==p z 95 % = 1,96 0114,0 1000 )035,01(035,0 96,10 = − =e P(0,035-0,0114 ≤ p 0,035+0,0114) = 1- P(0,0236 ≤ p ≤ 0,0464) = 0,95 Exercício 3.10Em uma pesquisa com os 150 alunos do último ano de graduação de uma faculdade, 57 afirmaram que farão pós-graduação. Sendo a população de alunos formandos de 2000 em todas as faculdades da região, calcule o número mínimo de alunos que com 95 % de certeza farão pós-graduação. 37 3.2. Tamanho das amostras A amplitude do intervalo de confiança é inversamente proporcional ao nível de confiança, isto é, quanto maior o intervalo menor será a precisão na estimação. A determinação do tamanho de amostras necessárias para casos de estimação da média fica: • Com conhecido na estimação da média populacional 2 0 = e z n • Com desconhecido na estimação da média populacional 2 0 )2/,1( = − e St n n Nesta situação, dependemos de uma amostra piloto n’ para podermos considerar o valor de 2/,1 −nt na expressão acima para o cálculo de n. Enquanto o valor de n obtido for maior que o valor de n’ utilizada como amostra piloto, devemos escolher novo n’ e conseqüentemente teremos a tabela t de Student o valor correspondente com n’-1 graus de liberdade. Repetimos este procedimento até se obter n < n’. • Para a proporção populacional )'1(' 2 0 pp e z n − = Exemplo O supervisor dos analistas do laboratório setorial deseja estimar o valor médio para a determinação de selênio em amostras de ração animal, para checar se o método que ele está utilizando atende ao erro de 0,2 mg/L, com 90 % de confiança. Baseado em dados do laboratório central, a estimativa para o desvio padrão do teor esperado é de = 0,50 mg/L. Qual o número mínimo de determinações que ele precisa efetuar? Para 90 % de confiança (1- ): z = 1,65. 17 2,0 50,065,1 2 = =n 38 Exemplo Para verificar se determinado material está fora de especificação, ou seja, maior que 0,05 mg/L de Pb, o supervisor encaminhou ao analista 7 amostras, obtendo os seguintes resultados. 0,052 0,048 0,050 0,055 0,054 0,043 0,060 Ao nível de 10 % de significância, este número de amostras é suficiente para se afirmar que a amostra está fora de especificação? Considerar que não há mais informações a respeito do problema. x = 0,05171 S = 0,005438 n’ = 7 > t 6;0,90 = 1 ,943 00171,005,005171,00 =−=−= xe 38 00171,0 005438,0943,1 2 = =n como n > n’ (38>7), devemos fazer novas determinações e procedermos aos cálculos para a nova média x e a nova estimativa para desvio padrão, utilizando a estatística “t” correspondente, ao nível de 5 %, e obtermos o novo número n; e assim por diante, até chegarmos em n menor ou igual a n’ . O n final vai nos indicar o número mínimo de amostras necessário para dizermos sobre a concordância a respeito da especificação. Exemplo Qual o tamanho da amostra suficiente para estimar a proporção de produtos com defeitos fornecidos por uma máquina, com precisão de 0,02 e 90 % de confiança, sabendo que seguramente esta proporção não é superior a 0,20. 1089)2,01(2,0 02,0 65,1 2 =− =n 39 3.3. Rejeição de valores dispersos Antes de se efetuar a avaliação e interpretação de uma série de resultados, é necessário verificar a existência de valores que eventualmente possam ser considerados como dispersos, ou seja, valores que muito provavelmente não pertençam ao mesmo conjunto de resultados (população). Em geral, são feitas considerações dentro do critério de rejeição de valores : • Se proporção de valores dispersos < 10 %, estes devem ser rejeitados e o restante do conjunto pode ser tratado normalmente; • Se 10% < proporção de valores dispersos < 15%, o responsável pela avaliação dos resultados deve usar o bem senso acerca da preservação do conjunto de dados para estudo; • Se proporção de valores dispersos > 15 %, a amostra deve ser totalmente rejeitada. Existem métodos de verificar se um ou mais valores podem ser considerados dispersos. Vamos aqui nos concentrar no estudo dos procedimentos mais comumente empregados e recomendados. Teste de Cochran Este teste é utilizado quando se deseja comparar variâncias, ou seja, verificar se a variância dos resultados obtidos por um laboratório é excessiva em relação aos demais laboratórios. É um teste unilateral, isto é, só verifica o maior valor. Para um conjunto de p laboratórios, com desvios padrão Si (i=1,2,...,p), todos computados com o mesmo número de repetições n, o teste de Cochran é dado por: = = p i i máx c S S C 1 2 2 onde: S2 = estimativa da variância S2 máx = maior valor encontrado como estimativa da variância, no conjunto p = número de laboratórios Os valores críticos para o teste de Cochran são tabelados (Apênice). Se Cc < Ct 5 % → Valor aceito Se Ct 1 % < Cc < Ct 5 % → Valor suspeito Se Cc > Ct 1 % → Valor disperso 40 Exemplo Aplicar o Teste de Cochran no conjunto de dados abaixo para encontrar valores dispersos. Laboratório n S S2 1 3 0,005 0,000025 2 3 0,010 0,000100 3 3 0,021 0,000441 4 3 0,010 0,000100 5 3 0,019 0,000361 6 3 0,006 0,000036 7 3 0,012 0,000144 8 3 0,025 0,000625 Calcular a soma das variâncias 001832,02 = iS Relacionar a maior variância encontrada, com a soma. 341,0 001832,0 000625,0 1 2 2 === = p i i máx c S S C Comparar o valor calculado Cc, com o valor tabelado (Ct 1 % e Ct 5 %) Na tabela, para p = 8 e n = 3, temos: Ct 5 % = 0,516 Ct 1 % = 0,615 Conclusão: Como Cc < Ct 5 %, então o valor da maior variância, Laboratório 8, é aceita. Teste de Grubbs O teste é primeiramente realizado verificando a existência de um valor disperso em cada extremidade do conjunto. Se nesta primeira análise, um dos dois valores for considerado disperso, ele é rejeitado, retirado do conjunto e novo teste, verificando a existência de um valor disperso em cada extremidade do conjunto, é realizado e assim sucessivamente. Caso contrário, se nesta primeira análise, ambos os valores forem aceitos como não dispersos, o teste é então realizado verificando-se a existência de dois valores dispersos em cada extremidade do conjunto. Se nesta segunda análise os dois resultados de uma das extremidades forem considerados como dispersos, eles devem ser rejeitados, 41 retirados do conjunto e novo teste verificando a existência de dois valores dispersos em cada extremidade do conjunto é realizado e assim sucessivamente. Os valores críticos para o teste de Grubbs são tabelados (Apêndice). Teste de Grubbs para 1 valor disperso: dado um conjunto de resultados gi, para i=1, 2, ..., p, dispostos em ordem crescente, então para determinar se um determinado valor é um disperso, usando o teste de Grubbs, devemos calcular as seguintes estatísticas: para testar o maior valor, utilizar S gg G p p )( − = para testar o menor valor, utilizar S gg G )( 1 1 − = Os valores críticos para o teste de Grubbs são tabelados. Se Gc < Gt 5 % → Valor aceito Se Gt 1 % > Gc > Gt 5 % → Valor suspeito Se Gc > Gt 1 % → Valor disperso Teste de Grubbspara 2 valores dispersos: dado um conjunto de resultados gi, para i=1,2,...,p, dispostos em ordem crescente, então para determinar se dois (maiores ou menores) valores são considerados como dispersos, devemos calcular as seguintes estatísticas: Para testar se dois maiores valores podem ser considerados como dispersos, calcular a relação entre as diferenças quadráticas (G): 2 0 2 ,1 ,1 S S G pp pp − − = onde: = −= p i i ggS 1 22 0 )( - é a diferença quadrática no conjunto com todos os valores − = −− −= 2 1 2 ,1 2 ,1 )( p i ppipp ggS - é a diferença quadrática no conjunto sem os dois maiores valores − = − − = 2 1 ,1 )2( p i i pp p g g - é a média do conjunto, sem os dois maiores valores 42 Alternativamente, para os dois menores valores 2 0 2 2,1 2,1 S S G = = −= p i i ggS 1 22 0 )( - é a diferença quadrática no conjunto com todos os valores = −= p i i ggS 3 2 2,1 2 2,1 )( - é a diferença quadrática no conjunto, sem os dois menores valores = − = p i i p g g 3 2,1 )2( - é a média do conjunto, sem os dois menores valores Se Gc > Gt 5 % → Valor aceito Se Gt 1 % < Gc < Gt 5 % → Valor suspeito Se Gc < Gt 1 % → Valor disperso Exemplo Verificar se há dados dispersos no conjunto abaixo: Laboratório n x 1 3 0,708 2 3 0,680 3 3 0,667 4 3 0,660 5 3 0,690 6 3 0,733 7 3 0,703 8 3 0,677 Ordenando dados de forma crescente: g(1) g(2) g(3) g(4) g(5) g(6) g(p-1) g(p) 0,660 0,667 0,677 0,680 0,690 0,703 0,708 0,733 Verificar dados tabelados para os níveis de significância dados. Valores tabelados Gt 1% ou Gt 5%. Para 8 laboratórios, testando um valor, temos: Gt 5% = 2,126 e Gt 1% = 2,274. Selecionar o menor e o maior valor. Verificar se 0,660 é disperso. Verificar se 0,733 é disperso. 43 Calcular a média e o desvio padrão do conjunto de dados 68975,0== p g g i 024022,0 1 )( 1 2 = − − = = p gg S p i i Calcular a estatística. Para o menor valor: 238,1 0240,0 )660,068975,0( 1 = − =G Conclusão: como o valor calculado é menor do que os valores tabelados, tanto a 1 % como a 5 %, ele não é considerado nem disperso, nem suspeito, respectivamente. Para o maior valor: 800,1 0240,0 )68975,0733,0( = − =pG Conclusão: como o valor calculado é menor do que os valores tabelados, tanto a 1 % como a 5 %, ele não é considerado nem disperso, nem suspeito, respectivamente. Obs. Tanto o menor valor como o maior valor foram aceitos, seguimos com o teste de Grubbs, agora com dois valores em cada extremidade. Para 8 laboratórios, testando um valor, temos: Gt 5% = 0,110 e Gt 1% = 0,056. Selecionar os dois menores valores e os dois maiores valores. Verificar se 0,660 e 0,667 são dispersos. Verificar se 0,708 e 0,733 são dispersos. Calcular a média do conjunto de dados, sem os dois menores valores a serem testados. Portanto, sem os dois menores valores teremos: 6985,0 )2(3 2,1 = − = = p i i p g g Calcular a soma das diferenças quadráticas, dos dois conjuntos, ou seja, um conjunto com todos os valores e o outro conjunto sem os dois valores a serem testados. 44 Conjunto com todos os valores = =−= p i i ggS 1 22 0 00404,0)( Laboratório ig )( gg i − 2)( ggi − 4 0,66 -0,02975 0,0008851 3 0,667 -0,02275 0,0005176 8 0,677 -0,01275 0,0001626 2 0,68 -0,00975 0,0000951 5 0,69 0,00025 0,0000001 7 0,703 0,01325 0,0001756 1 0,708 0,01825 0,0003331 6 0,733 0,04325 0,0018706 0,00404 conjunto sem os dois valores = =−= p i i ggS 3 2 2,1 2 2,1 002178,0)( Laboratório ig )( 2,1gg i − 2 2,1 )( ggi − 4 0,66 3 0,667 8 0,677 -0,0215 0,0004622 2 0,68 -0,0185 0,0003422 5 0,69 -0,0085 0,0000723 7 0,703 0,0045 0,0000202 1 0,708 0,0095 0,0000902 6 0,733 0,0345 0,0011903 0,002178 Calcular o valor de Grubbs 539,0 00404,0 00218,0 2 0 2 2,1 2,1 === S S G Conclusão: como o valor calculado é maior do que os valores tabelados a 1 % e 5 %, os dois valores testados não são nem dispersos, nem suspeitos. Calcular a média do conjunto de dados, sem os dois valores maiores a serem testados. Portanto, sem os dois maiores valores teremos: 45 6795,0 )2( 2 1 ,1 = − = − = − p i i pp p g g Calcular a soma das diferenças quadráticas, dos dois conjuntos, ou seja, um conjunto com todos os valores e o outro conjunto sem os dois valores a serem testados. Conjunto com todos os valores: = =−= p i i ggS 1 22 0 00404,0)( Conjunto sem os dois valores: 001206,0)( 2 1 2 ,1 2 ,1 =−= − = −− p i ppipp ggS Laboratório ig )( ,1 ppi gg −− 2 ,1 )( ppi gg −− 4 0,66 -0,0195 0,0003802 3 0,667 -0,0125 0,0001562 8 0,677 -0,0025 0,0000062 2 0,68 0,0005 0,0000003 5 0,69 0,0105 0,0001102 7 0,703 0,0235 0,0005522 1 0,708 6 0,733 0,001206 Calcular o valor de Grubbs 299,0 00404,0 00121,0 2 0 2 ,1 ,1 === − − S S G pp pp Conclusão: Como o valor calculado é maior do que os valores tabelados a 1 % e 5 %, os dois valores testados não são nem dispersos, nem suspeitos. Exercício 3.11 Verificar se há valores dispersos para os dados dispostos abaixo 1,6 4,0 4,2 4,2 4,2 4,4 4,4 4,4 4,6 4,6 6,0 8,0 46 Problemas 3.3. Medições de pH em uma solução tampão forneceram os seguintes resultados: 5,12 5,20 5,15 5,17 5,16 5,19 5,15. Calcule os limites de confiança 95 % e 99 % para o valor verdadeiro de pH. 3.4. O rendimento de um processo químico está sendo estudado. A partir de experiência prévia, o rendimento é conhecido ser normalmente distribuído, com σ = 3. Os últimos cinco dias de operação da planta resultaram os seguintes rendimentos, em %: 91,6 88,75 90,8 89,95 91,3. Encontre um intervalo de confiança de 95 % para o rendimento médio verdadeiro. 3.5. Um artigo no Journal of Agricultural Science [“The Use of Residual Maximum Likelihood to Model Grain Quality Characteristics of Wheat with Variety, Climatic and Nitrogen Fertilizer Effects” (1997, Vol. 128, pp. 135-142)] investigou o teor médio de proteína bruta de grãos de trigo (CP) e número de Hagbergfalling (HFN) no Reino Unido. A análise utilizou uma variedade de aplicações de fertilizante de nitrogênio (kg N/ha), temperatura (ºC) e precipitação de chuva mensal total (mm). Os dados mostrados abaixo descrevem as temperaturas do trigo cultivado em Harper Adams Agricultural College entre 1982 e 1993. As temperaturas medidas em junho foram obtidas conforme a seguir: 15,2 14,2 14,0 12,2 14,4 12,5 14,3 14,2 13,5 11,8 15,2 Assumir que o desvio padrão é conhecido, σ = 0,5. Construa um intervalo de confiança com 99 % para a temperatura média. 3.6. A vida útil em horas de uma lâmpada de 75 watts é conhecida por ser normalmente distribuída com σ = 25 horas. Uma amostra aleatóriade 20 lâmpadas tem uma vida média de 1014 horas. Construa um intervalo de confiança com 95 % para a vida útil média. 3.7. Uma determinada marca de margarina diet foi analisada para determinar o nível de ácido graxo poli-insaturado (em percentagem). Uma amostra de seis pacotes resultou nos seguintes dados: 16,8 17,2 17,4 16,9 16,5 17,1 Calcule o intervalo de confiança e conclua se a amostra atende com 95 % a especificação de 17,0 %. 3.8. Um artigo na Nuclear Engineering International (fevereiro de 1988, p. 33) descreve várias características das barras de combustível usadas em um reator de uma central elétrica na Noruega. Medidas da porcentagem de enriquecimento de 12 bastões foram relatadas conforme a seguir: 2,94 3,00 2,90 2,75 3,00 2,95 2,90 2,75 2,95 2,82 2,81 3,05 Encontre um intervalo de confiança de 99 % para a média de enriquecimento. Você está seguro em afirmar de que a percentagem média de enriquecimento é 2,95 %? Por que? 47 3.9. O teor de açúcar na calda de pêssegos enlatados é normalmente distribuído. Uma amostra aleatória de n = 10 latas produz um desvio padrão de amostra de S = 4,8 mg. Calcule um intervalo de confiança com 95 % para σ. 3.10. A porcentagem de titânio em uma liga usada em peças aeroespaciais é medida em 51 peças selecionadas aleatoriamente. O desvio padrão da amostra é S = 0,37. Construa um intervalo de confiança 95 % para σ. 3.11. Um artigo na Australian Journal of Agricultural Research [“Non-Starch Polysaccharides and Broiler Performance on Diets Containing Soyabean Meal as the Sole Protein Concentrate” (1993, Vol. 44, No. 8, pp. 1483–1499)] determinou que o nível de composição de aminoácidos essenciais (lisina) de refeições de soja é dado conforme abaixo (g/kg): 22,2 24,7 20,9 26,0 27,0 24,8 26,5 23,8 25,6 23,9 Calcule com 99 % de confiança o limite inferior para σ. 3.12. Em 2004, o reator esteve parado com problemas em 5 dias. Para 2003, qual o número mínimo de dias esperado, com 90 % de confiança, em que haverá perda de produção diária no mesmo equipamento? 3.13. Foram feitas 20 medidas do tempo real gasto para a precipitação de um sal, em segundos, numa dada experiência: 13 15 12 14 17 15 16 15 14 16 17 14 16 15 15 13 14 15 16 15 Esses dados são suficientes para estimar o tempo médio gasto na precipitação com precisão de meio segundo e 95 % de confiança? Em caso negativo, qual o tamanho da amostra necessária? 3.14. Uma amostra de 10 peças forneceu os seguintes valores de certa dimensão (em mm): 80,1 80,0 80,1 79,8 80,0 80,3 79,7 80,0 80,2 80,4 Deseja-se estimar a dimensão média com erro máximo de 5/100 mm e 98 % de confiança, bem como a proporção de peças com dimensão acima de 80 mm, com precisão de 90 % de confiança. Dimensione a amostra total que se deverá tomar. (resolva com auxílio do Excel). 3.15. Deseja-se estimar a resistência média de certo tipo de peças com precisão de 2 kgf e 95 % de confiança. Desconhecendo-se a variabilidade da resistência, romperam-se 5 peças, obtendo-se para elas os seguintes valores para as suas resistências (em kg): 50, 58, 52, 49, 55. Com base nos resultados obtidos, determinou-se que deveriam ser testadas mais 14 peças, a fim de se conseguir o resultado desejado. Qual a sua opinião a respeito da conclusão? 48 3.16. Quantas amostras serão necessárias para estimar o desvio com α = 5% e α = 1%, de um determinado técnico ao realizar uma análise, sabendo que é admitido um erro de = 1% ( = 0,179) 3.17. Verificar se existe algum valor discrepante nos resultados de análises de 4 técnicos conforme dados abaixo : técnico A 6 determinações s2 = 0,036 técnico B 6 determinações s2 = 0,236 técnico C 6 determinações s2 = 0,032 técnico D 6 determinações s2 = 0,015 3.18. Usando o teste de Grubbs, verificar se existe algum resultado discrepante nas determinações a seguir: i: 20,1 19,9 20,2 19,9 20,1 20,0 ii: 49,4 49,8 50,8 49,3 51,3 50,0 50,8 51,8 3.4. Testes de Hipótese O objetivo dos testes de hipótese é comparar um valor suposto de um parâmetro de população com um valor encontrado numa amostra aleatória. Ao contrário do que ocorria nos problemas de estimação, vamos agora supor que exista uma hipótese, a qual será considerada válida até prova em contrário, acerca de um dado parâmetro da população. Essa hipótese será testada com base em resultados amostrais, sendo aceita ou rejeitada. Representaremos por H0 a hipótese existente, a ser testada, a qual chamaremos de hipótese nula. Consideraremos H1 a hipótese alternativa e estaremos decidindo sobre a afirmação dada por H0 através de testes sobre a hipótese alternativa H1 .O teste irá levar à aceitação ou rejeição da hipótese H0 , o que corresponde respectivamente à negação ou afirmação de H1. Enfim, enunciaremos o resultado final sempre em termos da hipótese H0, ou seja, aceitar ou rejeitar H0. Os erros que estão os sujeitos a cometer são: • Rejeitar uma hipótese quando deveria ser aceita (erro tipo I) • Aceitar uma hipótese quando deveria ser rejeitada (erro tipo II) O nível de significância do teste é a máxima probabilidade com que estaríamos incorrendo num risco de erro tipo I, geralmente denotada por . Assim, sendo H0 verdadeira, aceitaremos H0 com probabilidade (1-) e rejeitaremos H0 com probabilidade (erro tipo I), e sendo H0 falsa, aceitaremos H0 com probabilidade e rejeitaremos H0 com probabilidade (1-) (erro tipo II). 49 Os testes de hipóteses podem ser unilaterais e bilaterais, conhecidos também como monocaudais e bicaudais, respectivamente, ou seja, correspondendo ao nosso interesse em verificar se os desvios do valor real ao parâmetro estão unicamente para mais ou unicamente para menos, ou para mais e para menos, em relação ao valor testado. Procedimento para o teste de hipótese • Definir o problema em estudo: - caracterizar os objetivos. - definir os parâmetros populacionais envolvidos. • Formular as hipóteses que traduzam os objetivos: - H0 é sempre neutra. - H1 é sempre a negativa de H0 . - H0 e H1 são definidas pelos parâmetros populacionais envolvidos no problema. • Definir o nível de significância ( ) do teste. • Definir o tamanho da amostra (n). • Obter dados amostrais (informações) através da amostra considerada. • Determinar a região crítica (região de rejeição de H0) - a região crítica é definida pela H1 - pela distribuição de probabilidade envolvida e nível de significância () do teste - a região crítica é sempre limitada por um valor crítico. • Tomar a decisão: - Rejeitar H0 se o valor de encontra na região crítica. - Não rejeitar H0 se o valor não se encontra na região crítica. Os testes de Hipótese básicos envolvem 1 ou 2 populações e podem ser testes de média ou variância. 50 Testes para 1 amostra • Caso 1. Para μ com conhecido: Hipóteses Rejeita-se H0 se: H0: μ = μ0 zc < -zt() H1: μ < μ0 H0: μ = μ0 zc > zt() H1: μ > μ0 H0: μ = μ0 |zc| > zt(/2) H1: μ ≠ μ0 Exemplo A distribuição dos valores obtidos para a determinação de P numa produção de fertilizante fosfatado segue uma distribuição normal. No laboratório químico, o técnico analisou 4 amostras da produção do dia, e o resultado forneceu média de 5 % de P. Sabendo que o desvio padrão do processo de fabricação é de 0,2 %, podemos dizer, ao nívelde 5 % de significância, que o valor médio de P produzido é menor que 5,2 % ? H0: μ = 5,2 % H1: μ < 5,2 % O problema é testar se zc < - zt; se houver confirmação, rejeita-se a hipótese nula. 2 4 2,0 2,55 −= − =cz zt = z0,05 = 1,645 Conclusão: Como zc < -zt, rejeita-se a hipótese nula H0. Portanto, podemos afirmar que ao nível de 5% de significância, o valor médio de P, naquele dia, é menor que 5,2 %. Exercício 3.11 A especificação de um certo material é estabelecida em 3,36 0,04 mg/L. Considerar = 0,04. O Técnico analisou uma amostra deste material e encontrou o valor médio para 3 repetições de 3,29. Pode-se aceitar o material como especificado com 5 % de significância? 51 Resposta: |zc| = 1,3; zt = 1,96. Aceita-se H0. • Caso 2. Para μ com desconhecido: Hipóteses Rejeita-se H0 se: H0: μ = μ0 tc < -tt(n-1,) H1: μ < μ0 H0: μ = μ0 tc > t t(n-1,) H1: μ > μ0 H0: μ = μ0 |tc| > t t(n-1,/2) H1: μ ≠ μ0 Exemplo A determinação de Ti em uma amostra de mineral forneceu os seguintes resultados: 3,22 3,45 3,33 3,40 3,60 Considerando que o valor acordado é de 3,50 , posso concluir com 1 % de significância que o material apresenta teor de Ti adequado? H0: μ = 3,5 H1: μ ≠ 3,5 x = 3,4 S = 0,14 tt = t4;0,005 = 4,604 n S x tc − = 6,1 5 14,0 5,34,3 −= − =ct Conclusão: Como tc < tt, aceita-se H0. O teor de Ti é igual ao especificado ao nível de 1 % de significância. 52 Testes para 2 amostras A teoria dos testes de hipóteses aplica-se a casos em que temos duas amostras, em princípio, provenientes de populações diferentes. Comparam-se parâmetros equivalentes das populações envolvidas, testando hipóteses referentes ao valor real da diferença entre as duas médias populacionais. • Caso 1. Dados emparelhados A situação é caracterizada quando os dados de duas amostras estão relacionados dois a dois segundo, algum critério pré-estabelecido. Como exemplo, podemos citar a comparação de resultados analíticos obtidos com dois métodos analíticos diferentes na determinação de um elemento. Se os dados das duas amostras estão emparelhados, tem sentido calcularmos as diferenças d correspondentes a cada par de valores, resumindo-se os dados a uma única amostra de n diferenças. Por outro lado, testar a hipótese de que a diferença entre as médias de duas populações emparelhadas seja igual a um certo valor μd equivale a testar a hipótese de que a média de todas as diferenças (referentes às populações) seja igual a μd. Ou seja, vamos testar simplesmente a hipótese, H0: μd = 0 (caso bilateral) H1: μd ≠ 0 ou H0: μd = 0 (caso unilateral) H1: μd > 0 ou H0: μd = 0 (caso unilateral) H1: μd < 0 Através da comparação do t de Student experimental com o valor crítico obtido em função do nível de significância () estabelecido para o teste com n-1 graus de liberdade. A estatística t é calculada conforme equação: n S dd t d 0− = 53 d é a média da amostra das diferenças; 0d é o valor testado da média das diferenças nas populações, em geral, igual a 0; Sd é o desvio padrão das diferenças; A decisão de aceitar ou rejeitar a hipótese nula H0 segue o critério estabelecido, ao nível de % de significância e n-1 graus de liberdade: Hipóteses Rejeita-se H0 se: H0: μd = 0 tc < -tt(n-1,) H1: μd < 0 H0: μd = 0 tc > t t(n-1,) H1: μd > 0 H0: μd = 0 |tc| > t t(n-1,/2) H1: μd ≠ 0 Exemplo Deseja-se comparar se as médias obtidas para 5 amostras, utilizando 2 diferentes métodos analíticos para determinação de Sn podem ser consideradas iguais, ao nível de 5 % de significância? Os resultados analíticos são: Método A Método B A - B (d) 33,0 33,0 0 50,4 50,0 0,4 11,9 11,3 0,6 1,24 1,36 -0,12 1,69 1,75 -0,06 d = 0,164 Sd = 0,3176 o teste de hipótese pode ser resumido desta forma: H0 : as médias são iguais (μd = 0) H1 : as médias não são iguais (μd ≠ 0) Para resolver este problema, devemos calcular a estatística t e compará-la com o valor tabelado a 5 % de significância. 54 155,1 5 3176,0 164,0 ==ct tt = tn-1;/2 = t 4; 0,025 = 2,776 Conclusão: Como tc < tt, aceita-se H0. Podemos afirmar que não existe diferença significativa entre os dois métodos empregados. • Caso 2. Dados não emparelhados O caso de dados não emparelhados será subdividido em 3 situações: • quando os desvios padrão das populações são conhecidos; • quando os desvios padrão das populações são desconhecidos mas supostos iguais; • quando os desvios padrão das populações são desconhecidos e não podem ser supostos iguais. Dados não emparelhados com desvios padrão das populações conhecidas: Com 1 e 2 das populações conhecidas, utilizamo-nos de 2 2 2 1 2 1 21 nn xx zc + − = A decisão do teste será conforme o critério indicado a seguir: Hipóteses Rejeita-se H0 se: H0: μ1 - μ2 = 0 zc < -zt() H1: μ1 - μ2 < 0 H0: μ1 - μ2 = 0 zc > zt() H1: μ1 - μ2 > 0 H0: μ1 - μ2 = 0 |zc| > zt(/2) H1: μ1 - μ2 ≠ 0 55 Exemplo O controle do teor de impurezas de Cd em soluções extratoras na fabricação de um produto tem revelado que os resultados seguem uma distribuição normal com desvio padrão de 0,05 mg/L. Em dois turnos consecutivos de trabalho foram recolhidas amostras de 10 e 15 peças, respectivamente, com teores médios de 0,40 mg/L e 0,45 mg/L de Cd. Qual a conclusão, ao nível de 5 % e 1 % de significância, de que o processo de fabricação ficou fora de controle? H0 : μ1 – μ2 = 0 H1 : μ1 – μ2 ≠ 0 1 = 2 448,2 000417,0 05,0 15 05,0 10 05,0 45,040,0 22 = − = + − =cz z0,025 = 1,960 z0,005 = 2,578 Conclusão: ao nível de 5 %, pode-se afirmar que o processo ficou fora de controle; porém, ao nível de 1 % , aceita-se a hipótese nula. Dados não emparelhados com desvios padrão das populações desconhecidos, mas supostos iguais: Para este caso, aplica-se a seguinte expressão: 21 21 11 nn S xx t p c + − = onde o estimador combinado Sp (pooled stimator) é definido por: 2 )1()1( 21 2 22 2 11 −+ −+− = nn SnSn S p A decisão do teste será conforme o critério indicado abaixo: 56 Hipóteses Rejeita-se H0 se: H0: μ1 - μ2 = 0 tc < -tt(n1+n2-2,) H1: μ1 - μ2 < 0 H0: μ1 - μ2 = 0 tc > tt(n1+n2-2,) H1: μ1 - μ2 > 0 H0: μ1 - μ2 = 0 |tc| > tt(n1+n2-2, /2) H1: μ1 - μ2 ≠ 0 Exemplo Dois fornecedores de reagentes químicos para a determinação de P pelo método colorimétrico foram testados por nosso laboratório. Foram analisadas 7 amostras de 2 lotes diferentes. Ao nível de 5 % de significância, pode-se afirmar que os resultados obtidos com os reagentes químicos do fornecedor A são mais baixos que os obtidos com reagentes do fornecedor B? Não se conhecem os parâmetros desta distribuição. Fornecedor A Fornecedor B 0,0149 0,0158 0,0160 0,0158 0,0156 0,0155 0,0170 0,0170 0,0150 0,0160 0,0250 0,0240 0,0147 0,0153 x = 0,016886 x = 0,017057 S = 0,003664 S = 0,003109 H0 : μ1 –
Compartilhar