Baixe o app para aproveitar ainda mais
Prévia do material em texto
Conceitos Básicos de Estatística IQ350-Planejamento de Experimentos Erros • Qualquer medida será sempre afetada por erros, que podem ser de diversos tipos. • Exemplo: realização de experimentos para determinar a concentração de ácido acético numa amostra de vinagre. O objetivo é verificar se o vinagre está de acordo com o estabelecido pela legislação (4% de ácido acético, no mínimo). • Que tipo de experimento fazemos? • Procedimento tradicional: titulação ácido- base. • Solução ácida + indicador adicionamos base • O ácido é consumido e com uma gota a mais de base, a solução muda de cor determina-se o ponto de equivalência. • Dependendo da força relativa entre ácidos e bases, o final da reação (ponto de equivalência) ocorre em um pH diferente. • Diferentes indicadores apresentam viragem em diferentes faixas de pH escolhemos o indicador cuja faixa de viragem inclua o ponto de equivalência. • Situação 1: o químico se distrai e não acrescenta o indicador (fenolftaleína). • O que acontece? • A viragem não vai ocorrer nunca, não importa quanta base seja adicionada na titulação erro grosseiro A estatística não se ocupa desses erros. • Porque não precisamos nos preocupar com erros grosseiros? • Situação 2: acabou o estoque de fenolftaleína e o químico usa como indicador vermelho de metila. • A faixa de viragem do vermelho de metila está em pH abaixo de 7 o ponto final da titulação vai ocorrer antes que todo o ácido acético tenha sido neutralizado o vinagre parecerá ter uma concentração inferior à verdadeira. • Se várias amostras forem tituladas da mesma maneira, em todas elas o valor encontrado para a concentração de ácido acético será inferior ao valor real, por causa da viragem prematura. • Com que tipo de erro estamos lidando? • Erro sistemático! • Erros sistemáticos: afetam o resultado sempre na mesma direção, seja para mais, seja para menos. • Que outras fontes de erro sistemático pode haver em um experimento? O padrão primário pode estar adulterado; a balança pode estar descalibrada; a pipeta pode ter sido aferida erroneamente; quem está titulando pode olhar o menisco de um ângulo incorreto, etc. • Cada um destes fatores exercerá individualmente sua influência sobre o resultado final, fazendo-o tender para uma certa direção. • Situação 3: Após eliminar todos os erros sistemáticos e evitando erros grosseiros o químico titula duas amostras retiradas do mesmo lote de vinagre. • Como tudo no processo agora está sob controle, podemos esperar que as duas titulações produzam o mesmo resultado? Por quê? • Não! Os resultados são parecidos, mas não idênticos. Alguma fonte de erro (pequena) continua afetando os resultados erros aleatórios. • Mesmo que o procedimento experimental seja rigorosamente obedecido e todas as operações sejam feitas com todo o cuidado, sempre existirão flutuações imprevisíveis: uma pequena variação no ângulo da leitura da bureta, uma gotinha que fica na pipeta, uma tonalidade diferente na viragem, etc. • Não conseguimos controlar todas as variações não podemos saber em que direção o resultado será alterado. • Atuando em conjunto, estas perturbações provocarão erros que parecem devidos ao acaso, e por isso são chamados de aleatórios. • Para investigar esses erros, o químico resolve então fazer várias titulações em outras amostras retiradas do mesmo lote. • Os resultados obtidos em 20 titulações são: •O que podemos notar nestes dados? • Examinando os resultados, percebemos que: Os valores obtidos flutuam, mas tendem a concentrar-se em torno de um certo valor intermediário. A flutuação em torno do ponto central ocorre aparentemente ao acaso. Parece que a amostra está mesmo fora da especificação, já que a maioria dos valores determinados está abaixo de 4%. • Situações como esta ocorrem nas mais variadas determinações experimentais é impossível controlar rigidamente todos os fatores envolvidos num experimento, por mais simples que seja • Qualquer determinação experimental é afetada, em maior ou menor grau, por erros aleatórios. • Se queremos chegar a conclusões sensatas, esses erros precisam ser levados em conta! É por isso, entre outros motivos, que precisamos da estatística. Populações, amostras e distribuições • O primeiro passo para se tratar estatisticamente os erros aleatórios é admitir alguma hipótese sobre sua distribuição. • Qual a distribuição que se assume para os erros aleatórios com mais frequência? • O mais comum, quando se tratam de medições, é supor que a distribuição dos erros é gaussiana ou, como também é chamada, normal. • Nesta aula vamos discutir em termos práticos essa hipótese e suas importantes conseqüências, partindo do seguinte problema: • Quantos grãos tem um quilo de feijão? • Como vocês fariam a estimativa do nº de caroços em um quilo de feijão? • Solução 1: contamos todos os caroços, um por um. Esta solução será descartada porque estamos interessados numa abordagem estatística da questão. • Solução 2: descobrimos primeiro quanto pesa um caroço, e em seguida dividimos 1000 g por este valor. O resultado da divisão dará o número de caroços contidos em um quilo. • Vocês conseguem ver algum problema com a solução 2? • Procedendo com a pesagem: Caroço 1 (retirado ao acaso): 0.1188 g Caroço 2 (retirado ao acaso): 0.2673 g • Respostas associadas às pesagens: Caroço 1: 1000/0.1188 = 8418 caroços Caroço 2: 1000/0.2673 = 3741 caroços • Qual destes valores é a resposta que procuramos? Nenhum dos dois. Como o peso varia de um caroço para outro, não devemos usar pesos individuais e sim o peso médio do conjunto de todos os caroços. • Como obter o peso médio? • Basta dividir o peso total do pacote de feijão (1 kg) pelo número de caroços que ele contém. Infelizmente isso nos traz de volta à pergunta inicial. • Se todos os caroços fossem idênticos, o peso médio seria igual ao peso de um caroço qualquer. Era só pesar um deles e a questão estaria resolvida. O problema é que o peso varia de caroço para caroço de maneira imprevisível. • Apesar de não sabermos prever qual será o peso de um caroço extraído ao acaso, podemos estabelecer alguns limites, por exemplo: o peso não pode ser inferior a zero o peso deve ser muito menos do que um quilo o peso não deve flutuar muito, é só olhar para o saco de feijão para ver que a maioria dos caroços têm mais ou menos o mesmo tamanho. • Estamos numa situação parecida com a da titulação. Os valores individuais flutuam, mas flutuam em torno de um certo valor central. • O conjunto de todos os valores possíveis numa dada situação é o que se chama em estatística de população. • O alvo de qualquer investigação experimental é sempre uma população. Nosso objetivo ao coletar e analisar os dados é chegar a conclusões sobre ela. • É importante definir claramente qual a população de que estamos falando. Muitas vezes nem isto está suficientemente claro para o pesquisador, que corre o risco de estender suas conclusões a sistemas mais amplos do que o realmente estudado no experimento. • Qual é a populaçãono caso que estamos estudando? • Na nossa abordagem, a população é o conjunto de pesos individuais dos caroços do pacote de feijão. • A resposta se refere ao pacote, mesmo que os caroços não sejam investigados um por um. • A menos que alguma hipótese a mais seja introduzida (como, por exemplo, que o pacote é representativo de toda uma colheita), se refere a esse pacote em particular, e só a ele. • Voltando ao problema dos caroços de feijão: Vamos tentar fazer uma estimativa do peso médio dos caroços no pacote, calculada a partir de apenas alguns deles, isto é, a partir de uma amostra da população. • Este é um problema equivalente ao de determinar qual a concentração de vinagre “real”, ou seja, qual a média que seria obtida se fizéssemos infinitas titulações, a partir de uma amostra de 20 titulações. • Se a amostra for representativa, a média amostral deverá ser uma boa aproximação da média populacional e poderemos usá-la para concluir alguma coisa sobre a população. • Para que uma amostra seja uma representação realista, não tendenciosa, da população completa, é necessário que seus elementos sejam escolhidos de forma rigorosamente aleatória. • Como escolhemos caroços de feijão de um pacote aleatoriamente? • No caso dos feijões é necessário que a chance de um caroço ser pesado seja a mesma para todos eles. • Por isso, depois de pesado, o caroço escolhido deve ser recolocado no pacote e misturado aos outros, para que volte a ter uma chance igual de ser escolhido. • De outra forma a população se modifica à medida que os caroços são retirados e a amostra não representa de forma fidedigna a população original. Como descrever as características da amostra • A tabela mostra os pesos individuais de 140 caroços retirados aleatoriamente de um pacote contendo um quilo de feijão preto. •É fácil analisar uma tabela de dados deste tipo? •Que forma de análise seria mais fácil? • Examinando com atenção esses dados podemos confirmar nossas expectativas de uma flutuação mais ou menos restrita: Maior valor observado:0.3043 g Menor valor observado: 0.1188 g A maioria dos caroços parece ter um peso ao redor de 0.20 g. • Fica mais fácil interpretar os dados se os organizarmos de alguma forma. Podemos dividir a faixa total dos pesos em intervalos e contar os caroços situados dentro de cada intervalo. • Escolhemos uma faixa que acomode todos os valores da tabela: 0.10-0.32 g • Dividimos a faixa em intervalos de largura pré-fixada e colocamos cada peso medido no intervalo apropriado. • Se escolhemos a largura dos intervalos igual a 0.02 g, obtemos os resultados que aparecem na tabela a seguir. • Ainda, se dividimos o número de caroços em um certo intervalo pelo número total de caroços pesados obtemos a freqüência relativa correspondente a esse intervalo. • No intervalo 0.26 -0.28 g, por exemplo, foram observados sete caroços, de um total de 140: freqüência relativa = 7/140 = 0.050 • Isso significa que 5% dos pesos medidos ficaram entre 0.26 e 0.28 g. • É preferível analisar a distribuição dos pesos dos caroços em termos de freqüências, porque as distribuições estatísticas teóricas são distribuições de freqüência. • Conhecendo as freqüências determinamos probabilidades de que certos valores de interesse venham a ser observados podemos testar hipóteses sobre a população. • Qualquer conjunto de dados fica mais fácil de analisar se for representado graficamente. • Gráfico tradicional para uma distribuição de freqüências: histograma cada intervalo é representado por um retângulo, cuja base coincide com a largura do intervalo e cuja área é idêntica (ou proporcional) à sua freqüência. • Como a soma de todas as freqüências tem de ser igual a um, a área total do histograma também é igual a um (se a área de cada retângulo for igual à freqüência do intervalo correspondente) • Vamos mostrar o histograma das freqüências da tabela. Para facilitar a comparação com os dados na tabela, a altura de cada retângulo (e não sua área) foi feita igual à freqüência do intervalo. Isso não altera o aspecto geral do histograma, já que as bases dos retângulos são todas iguais. •Que características podemos notar neste histograma? • As vantagens da representação gráfica são evidentes. • A concentração dos pesos dos caroços em torno do valor 0.20 g é percebida imediatamente, assim como o escasseamento progressivo dos dados à medida que nos afastamos desse valor, em ambas as direções. • Também podemos notar uma simetria na distribuição: a parte que fica mais à direita da região central é mais ou menos a imagem especular da parte que fica à esquerda. Essa característica seria muito difícil de perceber olhando somente para a tabela. • As características básicas de um histograma são: a localização do conjunto de observações numa certa região do eixo horizontal; sua dispersão, ou espalhamento, ao longo dessa região. • Quais as grandezas estatísticas que representam estas características? • Estas características podem ser representadas numericamente, de forma abreviada, por várias grandezas estatísticas. As mais usadas nas ciências físicas (valores contínuos) são a média aritmética e o desvio padrão. • Média aritmética = soma de todos os valores, dividida pelo número total de elementos do conjunto. Este é o conceito de média que usaremos e daqui em diante empregaremos somente o termo média. • Se usarmos o símbolo x para representar o peso de um caroço, a forma usual de representar a média é , e esta é calculada por: g 2024.0)1606.0........2673.01188.0( 140 1 x x • Com este valor podemos estimar que o quilo de feijão contenha: 1000 g/0.2024 g = 4940 caroços. • Vocês acham que este valor está correto? • Essa estimativa, no entanto, foi obtida a partir da observação de apenas 140 caroços, isto é, menos de 3% do total, supondo que haja mesmo cerca de 5000 caroços no pacote. • Por isso, não deve corresponder ao valor exato. Trata-se apenas de uma média amostral e não da média populacional. Veremos adiante como fazer para estimar sua incerteza. • Para obter uma medida do espalhamento das observações em torno da média, que é o desvio padrão, primeiro calculamos a diferença, ou desvio, de cada valor individual em relação à média amostral: xxd ii • Em seguida somamos os quadrados de todos os desvios e dividimos o total por N-1. O resultado dessas operações é a variância do conjunto de operações: • Note que a variância é uma espécie de média dos quadrados dos desvios, só que o denominador não é o número total de observações, N, e sim N-1 graus de liberdade. 2N 1i i N 1i 2 i 2 xx 1N 1 d 1N 1 s)x(V • Observações originais (obtidas por amostragem aleatória) independentes: mesmo conhecendo os pesos dos 139 primeiros caroços, não dá para prever o peso do caroço 140. • Usando a linguagem da estatística, dizemos que esse conjunto tem 140 graus de liberdade. • Vejamos o que acontece quando somamos os valores dos desvios (de i=1 até N):Mas E logo O somatório dos desvios é igual a zero! Logo, se conhecemos 139 desvios, o que falta está automaticamente determinado temos 139 graus de liberdade! xNxxxxxd i i ii i i i ii x N 1 x N 1i i 0xxd i i i i i i • Na nossa amostra, onde 0.2024 g, a variância é: • Enquanto a média tem a mesma unidade que as observações originais, a unidade de variância é o quadrado da unidade de partida. x 2g 00132.0 2 2024.01606.0........ 2 2024.01188.0 139 12s • Para que as medidas de dispersão e de posição tenham a mesma unidade, costumamos substituir a variância pela sua raiz quadrada, que é chamada de desvio padrão. No nosso exemplo o desvio padrão é: • O desvio padrão é geralmente usado para definir intervalos em torno da média. g 0363.0)g 00132.0(s 2 Em nossa amostra de 140 caroços: • Os limites do intervalo definido por um desvio padrão em torno da média são 0.20240.0363g, ou de 0.1661 g a 0.2387 g. • A região compreendida entre estes dois valores corresponde a 66.6% da área total do histograma, o que significa que nela caem 2/3 de todos os valores observados. • A região definida por dois desvios padrão tem como limites 0.1298 g e 0.2750 g e contém 96.8% da área total. • Dentro destas suposições, que discutiremos adiante, estes intervalos amostrais podem ser utilizados para testar hipóteses a respeito da população. • Os valores de e s foram obtidos a partir dos 140 pesos individuais e portanto representam a amostra: são estimativas amostrais. • Os valores que nos interessam são os parâmetros populacionais. Queremos saber quantos caroços existem em todo o quilo de feijão e não em uma amostra. x • Os estatísticos costumam empregar símbolos latinos para representar valores amostrais, reservando o alfabeto grego para os parâmetros populacionais. • Seguindo esta convenção, vamos representar a média e o desvio padrão populacionais como e . • O que podemos inferir a respeito destes valores, dispondo apenas dos valores amostrais e s? x A distribuição normal • Suponha que os 140 caroços sejam tratados como uma mini-população. • Já vimos que 5% destes elementos pesam entre 0.26 g e 0.28 g, ou seja, a probabilidade de um caroço retirado ao acaso pesar entre 0.26 e 0.28 g é de 5%. • Temos condições de fazer esta afirmação porque conhecemos a distribuição exata das freqüências dos pesos nessa pequena população. • Poderíamos fazer o mesmo com um caroço retirado ao acaso do pacote de um quilo, ou seja, da própria população original, se conhecêssemos exatamente a distribuição populacional e não somente a amostral. • Para isso, infelizmente, precisaríamos pesar todos os caroços do pacote. • Existe alguma forma de fazermos isso sem precisar pesar todos os caroços do pacote? • Precisaríamos ter um modelo que fosse adequado para a distribuição dos pesos de todos os caroços do pacote. • Neste caso, não precisaríamos mais pesar cada caroço para fazer inferências sobre a população. Poderíamos tirar conclusões do próprio modelo. • Claro que para isso, o modelo escolhido deve ser válido. • O procedimento que devemos seguir será sempre o mesmo: Postular um modelo para representar os dados extraídos da população na qual estamos interessados; Verificar se essa representação é satisfatória; Nesse caso, tirar as conclusões apropriadas; caso contrário, trocar de modelo e tentar novamente. • Um dos modelos estatísticos mais importantes é a distribuição normal (ou gaussiana) proposta por Karl Gauss para calcular probabilidades de ocorrências de erros em medições. • Tantos são os conjuntos de dados que podem ser bem representados pela distribuição normal, que ela passou a ser considerada o comportamento natural de qualquer tipo de erro experimental, daí o adjetivo normal. • Se alguma vez se constatasse que a distribuição de erros não seguia uma gaussiana, a culpa era jogada na coleta de dados. • Depois ficou claro que existem muitas situações experimentais em que a distribuição normal de fato não é válida, mas ela permanece sendo um dos modelos fundamentais da estatística. • Muitos dos resultados que apresentaremos daqui em diante só são rigorosamente válidos quando os dados obedecem à distribuição normal. • Na prática, isto não é uma restrição muito séria, porque quase todos os testes que veremos continuam eficientes na presença de desvios moderados da normalidade. Como calcular probabilidades de ocorrência • Uma distribuição estatística é uma função que descreve o comportamento de uma variável aleatória. • Uma variável aleatória é uma grandeza que pode assumir qualquer valor dentro do conjunto de valores possíveis para o sistema a que ele se refere. • Cada valor destes tem uma certa probabilidade de ocorrência, governada por uma determinada distribuição de probabilidades. • Se tivermos como descobrir ou estimar qual é essa distribuição, poderemos calcular a probabilidade de ocorrência de qualquer valor de interesse. • A distribuição normal é uma distribuição contínua. • Qual a diferença entre variável contínua e discreta? Exemplos? • Em uma distribuição contínua a variável pode assumir qualquer valor dentro de um intervalo previamente definido. • Para uma variável normalmente distribuída, o intervalo é (-, +), o que significa que ela pode assumir, pelo menos em princípio, qualquer valor real. • Uma distribuição contínua da variável x é definida pela sua densidade de probabilidade f(x), que é uma expressão matemática contendo um certo número de parâmetros. • Na distribuição normal os parâmetros são, por definição, apenas dois: a média e a variância populacionais ( e 2) • Para indicar que uma variável aleatória x se distribui normalmente, com média e variância 2, empregaremos a notação x ≈ N(,2), onde o sinal ≈ pode ser lido como “distribui-se de acordo com”. • Se x tiver média zero e variância igual a um, por exemplo, escreveremos x ≈ N(0,1). Neste caso, diremos também que x segue a distribuição normal padrão (ou padronizada). • Distribuição normal: onde f(x) é a densidade de probabilidade da variável aleatória x, é a média populacional e 2 é a variância populacional. dxe 2 1 dx )x(f 2 2 2 x • A figura a seguir mostra a famosa curva em forma de sino que é o gráfico de densidade de probabilidade de uma distribuição normal padrão (=0 e 2 =1): dxe 2 1 )x(f 2 x2 •Quais as características desta figura? •São parecidas com a do histograma dos caroços? • A curva é perfeitamente simétrica em torno do ponto central, que é a média (no caso igual a zero). • O valor da densidade é máximo sobre a média e cai rapidamente quando nos afastamos dela, em ambas direções. • Sãocaracterísticas parecidas com as que vimos no histograma dos 140 caroços •O que acontece com a densidade de probabilidade a 3 desvios padrão de distância da média? • A três desvios padrão de distância da média, a densidade de probabilidade praticamente reduz-se a zero. • Para obter probabilidades correspondentes a intervalos finitos, que são os únicos com sentido físico, temos que integrar a densidade de probabilidade entre os limites apropriados. • A integral é a área sob a curva f(x) entre estes limites, o que equivale a dizer que a figura também é um histograma. • Como a variável aleatória agora é contínua, as probabilidades passam a ser calculadas por integrais e não mais por somatórios. b a dx )x(fbxaPbxaP • A maior parte da área sob uma gaussiana está contida no intervalo definido por um desvio padrão em torno da média, e praticamente toda ela está situada entre -3 e +3. • Para obter os valores numéricos correspondentes, integramos, entre os limites apropriados, a expressão de f(x): • ou seja, 68.26% • ou seja, 99.73% dx )x(fxP 6826.0dxe 2 1 xP 2 x2 9973.0dx )x(f3x3P 3 3 • Calculando integrais semelhantes, podemos obter as probabilidades correspondentes a quaisquer limites de interesse. • Na prática, felizmente, não precisamos calcular integral nenhuma, porque podemos consultar os valores destas integrais em tabelas. Na Tabela A.1 (livro Bruns, página 392) são dados os valores das integrais para vários intervalos de uma variável z ≈ N(0,1). • Apesar de corresponderem à distribuição padrão, com média zero e variância 1, estes valores podem ser usados para fazermos inferências a respeito de qualquer distribuição normal. • Para explicar como se utiliza a tabela A.1, precisamos introduzir o conceito de padronização. • Padronizar uma variável aleatória x de média e variância 2 é construir a partir dela uma nova variável aleatória z, cujos valores são obtidos subtraindo-se de cada valor de x a média populacional e dividindo-se o resultado pelo desvio padrão: x = variável aleatória com distribuição N(,2) z = variável aleatória com distribuição N(0,1) x z • Exemplo: vamos admitir que o peso de um caroço de feijão se distribua normalmente, com =0.2024 g e =0.0363 g. • Com isso estamos fazendo duas suposições questionáveis: Que os pesos seguem uma distribuição normal Que os parâmetros populacionais são iguais aos valores que calculamos para a amostra • Na verdade estamos tentando descrever os dados experimentais com nosso primeiro modelo. Chegará a hora de nos perguntarmos se ele é adequado. Por enquanto vamos admitir que sim. • O peso padronizado será: • onde x é o peso de um caroço. • Como o numerador e o denominador têm a mesma unidade, z é adimensional. g 0363.0 g 2024.0x z • O valor numérico de z representa o afastamento do valor de x em relação à média populacional , medido em desvios padrão. • Exemplo: reescrevendo a equação como x = +z e fazendo z = -2 temos: x = -2 o valor de x está dois desvios padrão abaixo da média. x z • No nosso exemplo, o peso do caroço correspondente a z = -2 seria: x = 0.2024 g – 2 x 0.0363 g = 0.1298 g. • Substituindo x por z na expressão geral da distribuição normal: • Fazendo x = +z e dx = dz. dxe 2 1 dx )x(f 2 2 2 x dz e 2 1 dx )x(f 2 2 2 z dz e 2 1 dz )z(f 2 z2 • A padronização transforma a variável original x, que se distribuía de acordo com N(,2), numa nova variável z, que segue a distribuição padrão, zN(0,1). dz e 2 1 dz )z(f 2 z2 •A variável z não depende de e 2. Qual a vantagem disso? • Como essa transformação não depende dos valores numéricos de e , sempre poderemos usar a distribuição normal padrão para discutir o comportamento de uma distribuição normal qualquer. Como usar as caudas da distribuição normal padrão • A Tabela A.1 contém, para valores de z que vão de 0.00 a 3.99, o que se chama de área da cauda (à direita) da distribuição normal padrão. • A primeira coluna dá o valor de z até a primeira casa decimal, enquanto a linha superior da tabela dá a segunda casa. Como usar as caudas da distribuição normal padrão • Para saber a área da cauda correspondente a um certo valor de z temos que procurar na tabela o valor localizado na interseção da linha e da coluna apropriadas. • Qual o valor da área da cauda à direita de z=0.63? •O que significa este valor em termos de probabilidade? • A probabilidade de um valor retirado ao acaso de uma população com distribuição normal padrão ser maior que z=0.63 é de 26.43%. • A distribuição normal padrão é simétrica em torno da média (zero). • Qual a probabilidade de um valor retirado ao acaso de uma população com distribuição normal padrão ser menor do que z=-0.63? • Também é de 26.43%. • E então, qual a probabilidade de um valor retirado ao acaso de uma população que segue a distribuição normal padrão estar no intervalo: -0.63<z<0.63 ?? • A probabilidade é 100%-2*26.43%=47.14% • O valor correspondente a z = 1.96, por exemplo, está na interseção da linha referente a z = 1.9 com a coluna encabeçada por 0.06. • Este valor, 0.0250, é a fração da área total da curva que está localizada à direita de z=1.96. • Como a curva é simétrica em torno da média, uma área idêntica está situada à esquerda de z=-1.96 na outra metade da gaussiana. • A soma destas duas caudas, a da direita e a da esquerda, dá 5% da área total. Daí concluímos que os 95% restantes estão entre -1.96 e 1.96. • Se extrairmos aleatoriamente um valor de z, há uma chance em cada vinte (5%) de que esse valor fique acima de 1.96 ou abaixo de -1.96. • Como usar o Statistica para calcular o valor de z: • Se queremos determinar qual o valor de z para 95% de confiança, ou seja, qual o valor de z tal que 95% de todos os valores observados estejam entre –z e +z • Para 99% de confiança: • z= 2.58 • Aceitando o modelo normal como uma representação adequada da distribuição populacional dos pesos dos caroços, podemos usar a tabela A.1, juntamente com os valores dos parâmetros amostrais, para responder a questões sobre a probabilidade de ocorrência de valores de interesse. • Exemplo: Qual a probabilidade de um caroço retirado ao acaso pesar entre 0.18 g e 0.25 g? • Em primeiro lugar, precisamos padronizar os valores dos pesos: • Com isso a pergunta não se refere mais aos pesos e sim a z. O que queremos saber agora é: “qual a probabilidade de um valor cair no intervalo [-0.62,1.31]?” 62.0 g 0363.0 g 2024.0g 18.0 z1 31.1 g 0363.0 g 2024.0g 25.0 z2 • Essaprobabilidade corresponde à área situada entre os limites indicados pela seta na figura • Ela é a área total, que é um, menos as áreas das duas caudas, a que fica acima de 1.31 e a que fica abaixo de -0.62. • A da direita podemos ler diretamente na Tabela A.1, procurando o valor correspondente a z=1.31, que é 0.0951. • A área da cauda da esquerda não pode ser tirada diretamente da tabela, que não contém valores negativos. No entanto, pela simetria da curva, a área que fica abaixo de - 0.62 tem de ser igual à que está localizada acima de 0.62. • Encontramos o valor de 0.2676. • Como usar o Statistica para encontrar estes valores? • Para z=-0.62: • Para z=1.31: • Temos então que a probabilidade desejada é: (1.0-0.0951-0.2676)=0.6373. • A resposta à nossa pergunta inicial, portanto, é que 63.73% dos caroços (cerca de dois terços) devem pesar de 0.18 g a 0.25 g. • Não devemos nos esquecer, porém, de que essa resposta se baseia na validade de nossas duas suposições: a de que a distribuição dos pesos dos caroços é normal e a de que os parâmetros populacionais são iguais aos valores amostrais. • O histograma dos pesos de 140 caroços tem uma aparência bastante simétrica. • À primeira vista, não dá pra perceber nele nada que realmente contradiga a hipótese de que a amostra tenha vindo de uma população normal. • Uma maneira de testar quantitativamente se essa hipótese é adequada é comparar as freqüências observadas com as freqüências previstas pela teoria. • Usando os valores amostrais =0.024 g e s=0.0363 g para determinar os limites dos intervalos , e , verificamos que eles correspondem, respectivamente a 66.6%, 96.8% e 100% da área total do histograma amostral. • Para uma variável aleatória realmente normal, os intervalos populacionais correspondentes contêm 68.3%, 95.4% e 99.7% de todas as observações. x sx,sx s2x,s2x s3x,s3x • Estes valores estão em ótima concordância com os valores amostrais, a pior diferença não chega a 2%. Porque a distribuição normal é tão importante? • Não precisamos nos preocupar com a ausência de um teste rigoroso (neste curso) para verificar se a distribuição é normal: as técnicas estatísticas que apresentaremos são robustas em relação a desvios da normalidade. Porque a distribuição normal é tão importante? • Mesmo que a população de interesse não se distribua normalmente, as técnicas podem ser usadas, porque continuam aproximadamente válidas. • Esta robustez vem, em última análise, do teorema do limite central, um dos teoremas fundamentais da estatística. “Se a flutuação total numa certa variável for o resultado da soma das flutuações de muitas variáveis independentes e de importância mais ou menos igual, a sua distribuição tenderá para a normalidade, não importa qual seja a natureza das distribuições das variáveis individuais.” • Muitas vezes o erro final de um valor obtido experimentalmente vem da agregação de vários erros individuais mais ou menos independentes, sem que nenhum deles seja dominante. • Na titulação, por exemplo, lembramos: erro da leitura na bureta erro causado por uma gota que fica na pipeta erro devido a uma tonalidade diferente no ponto final, etc. • Com os caroços de feijão é mais ou menos a mesma coisa, o peso de cada um depende: do grau de desidratação da ação das pragas da própria carga genética do feijão, etc. • A priori não temos motivos para imaginar que esses erros- tanto nos feijões quanto na titulação- sigam distribuições normais, mas também não devemos supor que eles dependem uns dos outros, ou que um deles seja muito mais importante do que os demais. • O teorema do limite central nos diz então que o erro final se distribuirá de forma aproximadamente normal, e tanto mais normal quanto mais numerosas forem as fontes de erros individuais. Amostragem aleatória em populações normais • Vamos supor a partir de agora que as amostras que estamos considerando sejam extraídas de populações normais. • Como já vimos, esta é uma hipótese perfeitamente aceitável em muitas situações de interesse prático. • Consideremos agora amostras de N elementos, extraídas aleatoriamente de uma população normal de média e variância 2. Podemos mostrar que: As médias amostrais também se distribuem normalmente, com a mesma média , mas com variância igual a 2/N (quanto maior o tamanho da amostra, menor a variância), onde e 2 são a média e a variância populacional da distribuição das observações individuais. • A partir desta conclusão podemos obter intervalos de confiança. Distribuição dos pesos individuais de 140 caroços de feijão: desvio padrão . Distribuição dos pesos médios de 140 amostras de 10 caroços de feijão: desvio padrão 10/ • Para ver como se faz, vamos usar um amostra de 10 caroços retirados do kg de feijão. Suponhamos que os pesos destes caroços sejam os dez primeiros valores da tabela do slide 33. • Para esta amostra temos que = 0.1887 g e s=0.0423 g. • Como, a partir destes valores, podemos tirar conclusões sobre a média populacional? x • Como a média se distribui normalmente, ao subtrair a média populacional e dividir o resultado pelo desvio padrão, / , teremos uma variável normal padronizada: • Já vimos que para um intervalo de confiança de 95% o valor de z é 1.96. Isso significa que há 95 chances em 100 de que -1.96< z <1.96, ou de que: N x z)1,0(Nz N/ x Lembrando: 96.1 N/ x 96.1 • Isolando a média populacional: • Para se definir os limites deste intervalo, precisamos do valor do desvio padrão populacional. Vamos admitir mais uma vez que o valor do desvio padrão calculado para os 140 caroços é uma aproximação aceitável. 96.1 N/ x 96.1 N/96.1xN/96.1x • Assim: / =0.0363/ =0.0155 g. • Lembrando que na nossa amostra =0.1887 g • A partir desta expressão podemos dizer, com 95% de confiança, que o quilo de feijão deve ter de 4735 a 6017 caroços. N 10 x g 0.2112g 0.1662 ou g 0115.096.11887.0g 0115.096.11887.0 N/96.1xN/96.1x • Lembrando que a partir do peso de dois caroços (o primeiro e segundo valores da tabela), nossa estimativa ia de 5226 a 20964, vemos que o novo intervalo é bem menor. •Obtivemos agora 4735 a 6017 caroços • Podemos torná-lo ainda mais preciso se usarmos uma amostra mais numerosa. • Intervalo de confiança para a média populacional a partir da distribuição normal: N/zxN/zx • Até agora ao determinar intervalos de confiança tivemos que supor que o valor do desvio padrão populacional era conhecido, mas só conhecíamos o valor amostral. • Vamos agora nos livrar desta restrição e obter intervalos de confiança sem precisar recorrer a valores populacionais. N/zxN/zx • Em 1908 Gosset, um químico que usava opseudônimo de Student para assinar seus trabalhos, publicou a dedução da curva representando a distribuição de frequências de uma grandeza z dada por • Hoje em dia prefere-se incluir o fator e falar da distribuição da variável exceto por s (amostral) e (populacional). s x N N/s x • Esta expressão é idêntica a exceto por s (amostral) e (populacional). N/s x )1,0(Nz N/ x • Por causa desta mudança, a variável não segue mais a distribuição normal padronizada, e sim a que Student deduziu, e que é rigorosamente válida para amostras aleatórias retiradas de uma população normal. • Com ela podemos comparar os desvios com um desvio padrão obtido da própria amostra, s/ , dispensando o valor populacional . N x N/ • A nova variável aleatória definida por Student é representada pelo símbolo tN-1 e sua distribuição é chamada de distribuição t ou distribuição de Student. • O índice N-1 lembra que a forma da distribuição varia com o tamanho da amostra. 1Nt N/s x • Na verdade são várias distribuições diferentes, cada uma delas correspondendo a um certo número de graus de liberdade na determinação do valor de s. 1Nt N/s x • É importante ressaltar que o número de graus de liberdade na distribuição de Student se refere à obtenção do desvio padrão e não ao cálculo da média. • Como veremos adiante, pode acontecer da média e o desvio padrão serem obtidos a partir de diferentes conjuntos de observações. • O valor de N em tN-1 não será então necessariamente o mesmo valor de N usado para calcular a média, e cuja raiz quadrada aparece no denominador da equação 1Nt N/s x • A Tabela A.2 (página 393, livro do Bruns) contém os valores de t para algumas áreas da cauda a direita na distribuição de Student. • As áreas aparecem na parte superior da tabela. • Na primeira coluna está o número de graus de liberdade, , com que o desvio padrão s é estimado. • A distribuição t também é simétrica em torno da média zero, como a distribuição normal padrão, de modo que só precisamos de um lado da curva. • Qual o valor de t para 95% de confiança no caso da amostra de 10 caroços de feijão? • Na amostra de dez caroços = N - 1 = 9, os valores apropriados encontram-se na nona linha. • Para descobrir, por exemplo, o valor de t que corresponde a um nível de 95% de confiança lemos o valor que se encontra na interseção da nona linha com a coluna correspondente a 0.025 de área de cauda. Obtemos assim t=2.262. • Na distribuição normal, para o mesmo nível de confiança, usamos z=1.96. Qual das duas distribuições é mais estreita? (t=2.262) Isso faz sentido? • A distribuição t é mais espalhada, ou seja, os intervalos de confiança obtidos a partir dela são mais largos. • Isto faz sentido, porque ao usar o valor de s para estimar estamos cometendo um erro, que evidentemente será maior quanto menor for a amostra. • Para uma amostra de apenas dois elementos, por exemplo, o valor de t sobe para 12.706, no mesmo nível de confiança. • Esse resultado quer dizer que, para os mesmos 95% de confiança, com uma amostra tão pequena, vamos obter um intervalo bem maior do que no caso da amostra de 10 caroços. • Olhe para a tabela A2 e explique porque vale a pena fazer o esforço de se fazer uma amostra de 3 elementos em termos de confiança, em relação à amostra de 2 elementos. N/s txN/s tx 1N1N • Quanto maior for a amostra, mais estreito será o intervalo. • No limite, com um número infinito de graus de liberdade, a distribuição t termina reduzindo-se a distribuição normal padrão. • Com a distribuição de Student, portanto, podemos calcular um novo intervalo de confiança usando apenas os valores amostrais. • Como usar o Statistica para calcular o valor de t? • Para =9 e 95% de confiança: • Intervalo de confiança para a média populacional a partir da distribuição de Student: • No nosso exemplo toda a informação vem de uma única amostra, e portanto o valor de N dentro da raiz quadrada é o mesmo que aparece em tN-1. • Para 95% de confiança e uma amostra de 10 elementos: N/s txN/s tx 1N1N 10/s 262.2x10/s 262.2x • Substituindo os valores para os dez caroços, =0.1887 g e s=0.0423 g, chegamos ao intervalo: 0.1584 g< <0.2190 g • E, logo, a: 4566-6313 caroços / kg x 4566-6313 caroços / kg • Como já esperávamos, a incerteza cresceu em relação à estimativa anterior (4735 a 6017 caroços), que era baseada no desvio padrão populacional (embora aproximado pelo desvio padrão da amostra de 140 caroços). • Com o aumento do número de graus de liberdade, os valores de tN-1 convergem, a princípio rapidamente e depois mais devagar, para os valores da distribuição normal padrão. À medida que a amostra cresce, portanto, a diferença entre as duas distribuições vai perdendo a importância. • Na prática, só se costuma usar a distribuição t quando o número de graus de liberdade na estimativa do desvio padrão é inferior a 30. Como determinar o tamanho da amostra • Como detectar uma variação de certa magnitude no valor da média ou estimar o valor de um parâmetro com um certo grau de precisão? • No exemplo da titulação do vinagre, digamos que nosso objetivo seja obter uma estimativa de concentração com precisão de 0.1%. Quantas titulações repetidas devemos fazer? • Os intervalos do teste t são dados por: • Para estimar a concentração média dentro de 0.1%, precisaremos de um número N de titulações tal que N s tx % 1.0 N s t ou 2 %1.0 st N N/s txN/s tx 1N1N • Aqui temos um problema. O valor de s deve ser calculado a partir da amostra, e no entanto não sabemos nem quantas titulações devem ser feitas. • Na prática, felizmente, esse problema não é tão grave quanto parece, porque as medições já realizadas ao longo do tempo fornecem um valor “histórico” para s. • Os resultados obtidos em 20 titulações foram: • No nosso exemplo, podemos usar o desvio padrão de todas as titulações feitas, que é s=0.1509%, e escrever: 2 19 %1.0 % 1509.0t N • Como o desvio padrão foi calculado a partir de 20 observações, o valor de t é o correspondente a 19 graus de liberdade, não importa qual venha a ser o valor de N. Isto contribui para reduzir ainda mais a largura do intervalo. • Calculando t19 (95% de confiança): • Substituindo t19 = 2.093 (95% de confiança), temos finalmente: • Para obter a precisão desejada, portanto, precisamos fazer pelo menos 10 titulações. 98.9 %1.0 % 1509.0t N 2 19 • Quando temos uma estimativa de desvio padrão obtida a partir de uma série histórica de extensão razoável, a diferença entre a distribuição t e a distribuição normal deixa de ter importância. • Esta éa situação mais comum em laboratórios de análise, onde todos os dias os mesmos procedimentos são realizados, repetidas vezes. • Para estimar o tamanho da amostra, nesses casos, podemos usar a expressão: 2 L z N L : precisão desejada, : desvio padrão, z : ponto da distribuição normal padrão
Compartilhar