Prévia do material em texto
ANÁLISE ESTATÍSTICA DE DADOS – IQA363 PAULA FERNANDES DE AGUIAR Profa. Departamento de Química Analítica Instituto de Química da UFRJ e-mail: paulafda@iq.ufrj.br /paula.fdeaguiar@gmail.com Tel: (21) 3938-7877 Sala: 517 PROGRAMA 1. CONCEITO ESTATÍSTICA 2. FERRAMENTAS NECESSÁRIAS AO CÁLCULO ESTATÍSTICO 2.1. ARREDONDAMENTO 2.2. ALGARISMOS SIGNIFICATIVOS 3. ERROS (TIPOS DE ERROS EXPERIMENTAIS) 3.1. ERROS GROSSEIROS 3.2. ERROS SISTEMÁTICOS OU DETERMINADOS 3.3. ERROS ALEATÓRIOS OU INDETERMINADOS 2 7. A DISTRIBUIÇÃO NORMAL 5. MEDIDAS DE DISPERSÃO 6. DISTRIBUIÇÃO DE FREQUÊNCIA 4. MEDIDAS DE POSIÇÃO OU TENDÊNCIA CENTRAL 7.1. TESTE DE NORMALIDADE: SHAPIRO-WILK PROGRAMA 8. GRAU DE CONFIANÇA DE STUDENT (t) – TESTE t-STUDENT 9. TESTE F-SNEDECOR 3 10. TESTES DE HIPÓTESES PROGRAMA 10.1. CASO 1. COMPARAÇÃO DE UM VALOR MEDIDO COM UM VALOR “CONHECIDO” 10.2. CASO 2. COMPARAÇÃO DE DOIS VALORES MEDIDOS – COMPARAÇÃO ENTRE MEDIDAS REPETIDAS 10.3. CASO 3. COMPARAÇÃO DE MÉDIAS DE DADOS EM PARES 4 11. ANÁLISE DE VARIÂNCIA (ANOVA) 11.1. ANÁLISE DE VARIÂNCIA COM UM FATOR 11.2. ANÁLISE DE VARIÂNCIA COM DOIS FATORES PROGRAMA 14. AVALIAÇÃO DA HOMOGENEIDADE DAS VARIÂNCIAS (HOMOCEDASTICIDADE) 13. A REGRESSÃO LINEAR 13.1. A ESTIMATIVA DOS PARÂMETROS DE REGRESSÃO 13.2. A VALIDAÇÃO DO MODELO 13.2.1 A ANÁLISE DE RESÍDUOS 16. BOX PLOT 5 12. TESTE DE VALORES DISCREPANTES/ABERRANTES (OUTLIERS) 12.1. TESTE DE DIXON 12.2. TESTE DE GRUBB’S 13.2.2 A ANÁLISE DE VARIÂNCIA 15. COMPARAÇÃO DA INCLINAÇÃO DE DUAS RETAS 1. Conceito Estatística 6 Estatística - Conceito 7 “É um conjunto de técnicas que permite, de forma sistemática, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos, realizados em qualquer área do conhecimento” Estatística - Conceito “É a ciência que coleta, classifica e avalia numericamente dados que servirão de base para inferências” 8 9 Inferência Estatística É o estudo de técnicas que possibilitam a extrapolação, a um grande conjunto de dados, das informações e conclusões obtidas a partir da amostra. 10 “Dizemos que uma inferência estatística é feita quando se estabelecem conclusões para a população com base nos dados de uma amostra e no resultado de um teste estatístico” O uso da ESTATÍSTICA na análise dos DADOS EXPERIMENTAIS é de extrema importância para que um resultado analítico possua uma CONFIABILIDADE ACEITÁVEL. 11 A CONFIABILIDADE necessária para um resultado, justifica o esforço extra requerido para que análises em replicatas sejam realizadas. Os resultados individuais de um conjunto de medidas raramente são iguais. 12 2. Ferramentas necessárias ao cálculo Estatístico 13 2.1. Arredondamento 14 Arredondamento Aplica-se quando há a intenção de que um número limitado de dígitos em um valor deva ser considerado significativo para fins de determinação da conformidade com as especificações. 15 1. Um valor observado ou calculado deve ser arredondado para o valor mais próximo. Procedimento Arredondamento OBSERVAÇÃO: ARREDONDAR PARA A UNIDADE – 0 CASA DEPOIS DA VÍRGULA ARREDONDAR PARA O DÉCIMO – 1 CASA DEPOIS DA VÍRGULA ARREDONDAR PARA O CENTÉSIMO – 2 CASAS DEPOIS DA VÍRGULA ARREDONDAR PARA O MILÉSIMO- 3 CASAS DEPOIS DA VÍRGULA 16 Ex: 121,7948 para o centésimo – 121,79 Não se faz primeiro o arredondamento 121,795 e depois 121,80. 2. O valor arredondado deve ser obtido em uma só etapa, por arredondamento direto do valor disponível mais preciso, e não em dois ou mais arredondamentos sucessivos. Arredondamento Procedimento 17 3. Se o número a ser removido for menor que cinco, o subsequente à esquerda mantém o seu valor. Procedimento Ex: 5,1234 para o milésimo – 5,123 5,1234 para o centésimo – 5,12 5,1234 para o décimo – 5,1 Arredondamento 18 4. Se o número a ser removido é maior que cinco, o subsequente à esquerda aumenta o seu valor de uma unidade. Ex: 6,1878 para o milésimo – 6,188 6,1878 para o centésimo – 6,19 6,1987 para o décimo – 6,2 6,1878 para o décimo – 6,2 3,965001 para o décimo – 4,0 Arredondamento Procedimento 19 Arredondamento Procedimento 5. Quando o número a ser removido for exatamente igual à 5, e não houver outros dígitos além deste, ou houver somente zeros, o anterior aumenta se ele for ímpar e permanece inalterado se for par. Ex: 1,375 para o centésimo – 1,38 1,385 para o centésimo – 1,38 45,8775 para o milésimo - 45,878 45,8765 para o milésimo - 45,87620 6. Quando o número a ser removido for exatamente igual à 5, e houver outros dígitos diferentes de zero além deste, o subsequente à esquerda aumenta o seu valor de uma unidade. Ex: 3,8655001 para o milésimo - 3,866 3,865001para o centésimo - 3,87 364,5001 para a unidade - 365 Arredondamento Procedimento 21 22 ARREDONDAR OS NÚMEROS A SEGUIR CONFORME A PRECISÃO INDICADA NÚMERO PRECISÃO RESULTADO 48,6 UNIDADE 136,5 UNIDADE 2,484 CENTÉSIMO 0,0435 MILÉSIMO 5,40001 UNIDADE 143,95 DÉCIMO 24448 MILHAR 5,56500 CENTÉSIMO 5,56501 CENTÉSIMO Exercício 1 Arredondamento 23 ARREDONDAR OS NÚMEROS A SEGUIR CONFORME A PRECISÃO INDICADA NÚMERO PRECISÃO RESULTADO 48,6 UNIDADE 49 136,5 UNIDADE 136 2,484 CENTÉSIMO 2,48 0,0435 MILÉSIMO 0,044 5,40001 UNIDADE 5 143,95 DÉCIMO 144,0 24448 MILHAR 24000 5,56500 CENTÉSIMO 5,56 5,56501 CENTÉSIMO 5,57 Exercício 1 Arredondamento 24 25 ARRED(núm;núm_dígitos) A função estatística ARRED arredonda um número até a quantidade especificada de dígitos. Como fazer isto no EXCEL??? 26 Exemplo ARRED(núm;núm_dígitos) 27 VAMOS FAZER NO EXCEL? 2.2. Algarismos Significativos (AS) 28 O número de algarismos significativos é o número mínimo de algarismos necessários para escrever um determinado valor em notação científica sem a perda de exatidão. HARRIS, Daniel C. Análise Química Quantitativa, 8ª edição. LTC Editora Capítulo 3 (3-1 Algarismos Significativos) Algarismos Significativos 29 O número de dígitos informado em uma medida reflete a exatidão da medida e a precisão do aparelho de medição. Todos os algarismos conhecidos com certeza mais um algarismo extra são chamados de algarismos significativos. Algarismos Significativos 30 Considera-se que na expressão numérica de uma medida, o último algarismo apresenta uma incerteza de +/- o valor da precisão do instrumento utilizado na medida, quando esta é conhecida. Caso contrário, utiliza-se a precisão avaliada, como sendo o décimo da menor medida da escala. Algarismos Significativos 31 Algarismos Significativos Procedimento 1. Números diferentes de zero são sempre significativos. Ex: 2,345 4 algarismos significativos 2. Zeros entre números diferentes de zero são sempre significativos. algarismos significativos Ex: 10,305 5 algarismos significativos 32 O dígito zero pode ter um valor específico ou apenas indicar uma ordem de grandeza. 3. Quando os zeros à frente do primeiro dígito não nulo de um número indicam apenas a ordem de grandeza, estes não são considerados dígitos significativos e devem ser expressos em notação científica. Ex: 0,0034 2 algarismos significativos 3,4 x 10-3 Procedimento Algarismos Significativos Ex: 0,0003 1 algarismo significativo 3 x 10-4 33 Algarismos Significativos Procedimento 4. Os zeros no final do número, depois de uma casa decimal, são significativos. Ex: 32,00 4 algarismos significativos 0,200 3 algarismos significativos 34 Algarismos Significativos Procedimento 5. Os zeros no final de um número, antes de uma casa decimal, são ambíguos (podem ou não ser significativos). algarismos significativos Ex: 140 000 2 a 6 algarismos significativos 10.300 3 a 5 algarismos significativos 35 Amostra pesada em vários tipos de balanças Balança Precisão (g) Medida (g) Resultado (g) 1 0,0001 6,1540 6,1540 2 0,001 6,1540 6,154 3 0,01 6,1540 6,15 4 0,1 6,1540 6,2 5 1 6,1540 65 36 Quantos algarismos significativos possuem os números abaixo: A) 142,7 B) 1,427 × 102 C) 1,4270 × 102 D) 1,9030 E) 0,03910 F) 1,40 × 104 G) 6,302 × 10−6 H) 0,000006302 Exemplo 1 Algarismos Significativos (AS) 37 38 Exemplo 1 Algarismos Significativos (AS) Quantos algarismos significativos possuem os números abaixo: A) 142,7 4AS B) 1,427 × 102 4AS C) 1,4270 × 102 5AS D) 1,9030 5AS E) 0,03910 4AS F) 1,40 × 104 3AS G) 6,302 × 10−6 4AS H) 0,000006302 4AS 39 1. ARREDONDE OS NÚMEROS PARA QUE TENHAM SOMENTE 1 ALGARISMO SIGNIFICATIVO NÚMERO 0,00025000 0,00025001 0,00025127 0,00035000 Exercício 1 Arredondamento e Algarismos Significativos 40 NÚMERO NOTAÇÃO CIENTÍFICA REGRA ARREDONDA MENTO RESULTADO 0,00025000 2,5000 x 10-4 5 2 x 10-4 0,00025001 2,5001 x 10-4 6 3 x 10-4 0,00025127 2,5127 x 10-4 6 3 x 10-4 0,00035000 3,5000 x 10-4 5 4 x 10-4 1. ARREDONDE OS NÚMEROS PARA QUE TENHAM SOMENTE 1 ALGARISMO SIGNIFICATIVO Exercício 1 41 2. QUANTOS ALGARISMOS SIGNIFICATIVOS HÁ EM CADA UM DOS SEGUINTES NÚMEROS ? NÚMERO NO. ALGARISMOS SIGNIFICATIVOS 45,8 cm 45,80 cm 1,40 m 3,50 x 10-3 mm 1,00560 cm 9 g 3,0 x 106 libras 7,54400 x 10-5 Kg Exercício 2 42 NÚMERO NO. ALGARISMOS SIGNIFICATIVOS 45,8 cm 3 45,80 cm 4 1,40 m 3 3,50 x 10-3 mm 3 1,00560 cm 6 9 g 1 3,0 x 106 libras 2 7,54400 x 10-5 Kg 6 2. QUANTOS ALGARISMOS SIGNIFICATIVOS HÁ EM CADA UM DOS SEGUINTES NÚMEROS ? Exercício 2 43 3. ARREDONDE OS NÚMEROS PARA QUE TENHAM OS NÚMEROS DE ALGARISMOS SIGNIFICATIVOS INDICADOS Exercício 3 NÚMERO NÚMERO DE ALGARISMOS SIGNIFICATIVOS REGRA ARREDONDA MENTO RESULTADO 7,243 g 2 3 4,736 g 3 4 43,5500 g 3 5 43,8500 g 3 5 43,8501 g 3 6 44 3. ARREDONDE OS NÚMEROS PARA QUE TENHAM OS NÚMEROS DE ALGARISMOS SIGNIFICATIVOS INDICADOS Exercício 3 NÚMERO NÚMERO DE ALGARISMOS SIGNIFICATIVOS REGRA ARREDONDA MENTO RESULTADO 7,243 g 2 3 7,2 g 4,736 g 3 4 4,74 g 43,5500 g 3 5 43,6 g 43,8500 g 3 5 43,8 g 43,8501 g 3 6 43,9 g 45 HARRIS, Daniel C. Análise Química Quantitativa, 8ª edição. LTC Editora Capítulo 3 (3-1 Algarismos Significativos) Exercício 4 4. QUANTOS ALGARISMOS SIGNIFICATIVOS POSSUI O NÚMERO ABAIXO ? 92 500 46 Resposta: O número 92 500 é ambíguo em relação ao número de algarismos significativos. Ele pode ser representado por uma das seguintes formas: 9,25 x 104 9,250 x 104 9,2500 x 104 3 AS 4 AS 5 AS HARRIS, Daniel C. Análise Química Quantitativa, 8ª edição. LTC Editora Capítulo 3 (3-1 Algarismos Significativos) Exercício 4 4. QUANTOS ALGARISMOS SIGNIFICATIVOS POSSUEM O NÚMERO ABAIXO: 92 500 47 Algarismos Significativos na Aritmética O arredondamento deve ser feito somente na resposta final (não nos resultados parciais), a fim de se evitar a acumulação de erros de arredondamento. HARRIS, Daniel C. Análise Química Quantitativa, 8ª edição. LTC Editora Capítulo 3 (3-2 Algarismos Significativos na Aritmética) Veremos quantos algarismos devem existir em uma resposta após serem executadas operações aritme ́ticas com seus dados. 48 49 1,9834 + 2,4404 + 0,9184 = ? 1,9834 + 2,4404 + 0,9184 = 5,5422 N° casas decimais conta Final obtido Final esperado 0 casa 2 + 2 +1 5 6 1 casa 2,0 + 2,4 + 0,9 5,3 5,5 2 casas 1,98 + 2,44 + 0,92 5,34 5,54 3 casas 1,983 + 2,440 + 0,918 5,341 5,542 Adição e Subtração: Se os números a serem somados ou subtraídos tiverem o mesmo número de algarismos, a resposta deve ter o mesmo número de casas decimais que os números envolvidos na operação. HARRIS, Daniel C. Análise Química Quantitativa, 8ª edição. LTC Editora Capítulo 3 (3-2 Algarismos Significativos na Aritmética) Algarismos Significativos na Aritmética 1,362 x 10-4 + 3,111 x 10-4 ___________________ 4,473 x 10-4 3 casas decimais / 4 AS 3 casas decimais / 4 AS ______________________________________ 3 casas decimais / 4 AS 50 Algarismos Significativos na Aritmética Adição e Subtração: o número de algarismos significativos na resposta pode ser maior ou menor do que o existente nos dados. HARRIS, Daniel C. Análise Química Quantitativa, 8ª edição. LTC Editora Capítulo 3 (3-2 Algarismos Significativos na Aritmética) 5,345 + 6,728 __________ 12,073 4 AS 4 AS ________ 5 AS 3 casas decimais 7,26 x 10-14 - 6,69 x 10-14 ___________________ 0,57 x 10-14 3 AS 3 AS ________ 2 AS 2 casas decimais 51 Adição e Subtração: se os números a serem somados ou subtraídos não possuírem o mesmo número de algarismos significativos, a resposta estará limitada pelo número que tem o menor número de casas decimais. 18,998 403 2 + 18,998 403 2 83,798 ___________________ 121,794 806 4 Resultado: 121,795 9 AS 9 AS 5 AS 7 casas decimais 7 casas decimais 3 casas decimais Algarismos Significativos na Aritmética 52 20,4 + 1,322 83 ___________________ 104,722 Resultado:105 3 AS 4 AS 2 AS 1 casa decimal 3 casas decimais 0 casa decimal Algarismos Significativos na Aritmética 53 Adição e Subtração: em adições ou subtrações de números expressos em notação científica, todos os nu ́meros devem, primeiro, ser convertidos ao mesmo expoente. 1,632 x 105 + 4,107 x 103 + 0,984 x 106 ___________________ 1,632 x 105 + 0,041 07 x 105 + 9,84 x 105 ___________________ 11,513 07 x 105 R:11,51 x 105 3 casas decimais 5 casas decimais 2 casas decimais Algarismos Significativos na Aritmética 54 Multiplicação e Divisão: o número de algarismos significativos contido no número com menos algarismos significativos limita a resposta. 3,26 x 10-5 x 1,78 __________ 5,80 x 10-5 3 AS 3 AS ________ 3 AS 4,3179 x 1012 x 3,6 x 10-19 _____________________ 1,6 x 10-6 5 AS 2 AS ________ 2 AS HARRIS, Daniel C. Análise Química Quantitativa, 8ª edição. LTC Editora Capítulo 3 (3-2 Algarismos Significativos na Aritmética) Algarismos Significativos na Aritmética 55 Algarismos Significativos na Aritmética 45,78 x 1,2 ________________ 54,936 Resultado:55 4 AS 2 AS ________ 5 AS 2 AS 56 Em qualquer cálculo, os resultados são informados com o menor número de algarismos significativos (para multiplicação e divisão) ou com o menor número de casas decimais (adição e subtração). 57 Resumindo: 58 Exercício 1 Algarismos Significativos na Aritmética Expresse o resultado da operação com o número de algarismos significativos adequado. 45,78 + 328,908 56,2 59 Exercício 1 Algarismos Significativos na Aritmética Expresse o resultado da operação com o número de algarismos significativos adequado. 45,78 + 328,908 56,2 430,888 430,9 2 casas decimais 3 casas decimais 1 casa decimal 1 casa decimal 60 Exercício 2 Algarismos Significativos na Aritmética HARRIS, Daniel C. Análise Química Quantitativa, 8ª edição. LTC Editora Capítulo 3 (3-2 Algarismos Significativos na Aritmética) Expresse o resultado da operação com o número de algarismos significativos adequado. 34,60 ÷ 2,462 87 _______________ 5,2 cm x 6,221 cm ________________ 61 34,60 ÷ 2,462 87 _______________ 14,05 4 AS 6 AS ________ 4 AS 5,2 cm x 6,221 cm _______________ 32,3492 cm2 2 AS 4 AS ________ 6 AS Resultado:32 cm2 2 AS Exercício 2 Algarismos Significativos na Aritmética Expresse o resultado da operação com o número de algarismos significativos adequado. 62 Exercício 3 Expresse o resultado da operação com o número de algarismos significativos adequado. 89,1 59,076,1 Algarismos Significativos na Aritmética 63 Exercício 3 Algarismos Significativos na Aritmética Expresse o resultado da operação com o número de algarismos significativos adequado. 89,1 59,076,1 a) faz-se primeiramente a subtração (1,76-0,59 = 1,17000) mantendo-se todas as casas. b) faz-se a divisão (1,17000/1,89 = 0,619048) mantendo-se o menor número de algarismos significativo (três), e fazendo-se o arredondamento. Resultado = 0,619 64 Exercício 4 Algarismos Significativos na Aritmética Expresse o resultado da operação com o número de algarismos significativos adequado. 59,0 89,176,1 65 Exercício 4 Algarismos Significativos na Aritmética Expresse o resultado da operação com o número de algarismos significativos adequado. 59,0 89,176,1 a) faz-se, primeiramente, a multiplicação (1,76x1,89 = 3,32640) de mantém-se todas as casas. b) faz-se a divisão (3,32640/0,59 = 5,637966) e mantem-se o menor número de algarismos significativo (dois), fazendo-se o arredondamento. Resultado = 5,6 66 67 3. Erros (Tipos de Erros Experimentais) 68 ERRAR É INEVITÁVEL Todas as medidas experimentais estão sujeitas a erros!! Erro ou incerteza? Erro de medição (EXATIDÃO): É o número que resulta da diferença entre a indicação de um sistema de medição (valor medido) e o valor verdadeiro do mensurando. Incerteza de medição (PRECISÃO): É o parâmetro, associado ao resultado de uma medição, que caracteriza a faixa dos valores que podem ser atribuídos ao mensurando. 69 O que se deseja é obter um resultado tão próximo quanto possível do valor verdadeiro mediante a aplicação correta do procedimento de medida. 70 Erro de Medição É de senso comum que qualquer experimento ao ser realizado deva ter suas medidas realizadas mais de uma vez. Devemos realizar as medições em duplicata, triplicata ou até mais vezes. Simplificando, é comum usar o termo replicata (uma tradução do inglês replicate) para qualquer número de medições. 71 Erro Absoluto valor real = valor verdadeiro ou mais provável Erro Absoluto = (valor medido – valor real) Erro Relativo Erro relativo (%) = (valor medido – valor real) x 100 valor real 72 Tipos de Erros Experimentais 1) Erros Grosseiros (evitáveis) 2) Erros Sistemáticos (ou determinados) 3) Erros Aleatórios (ou indeterminados) Os resultados experimentais estão sujeitos a vários tipos de ERROS, que podem ser designados de: 73 3.1. Erros Grosseiros 74 1) Erros Grosseiros É um erro ocasional e pode ser evitado. Normalmente, é responsável por resultados absurdos ou discrepantes em relação ao valor central ou valor verdadeiro. 75 1) Erros Grosseiros Exemplos: 1. Enganos na leitura de uma escala; 2. Erro de cálculo nas operações; 3. Emprego de teorias inadequadas; 4. Esquecer de colocar um indicador em uma solução; 5. Falha de energia; 6. Pane em equipamentos; 7. Percepção do uso de reagentes trocados; 8. Uso de reagentes com alto grau de impureza, etc. 76 3.2. Erros Sistemáticos ou Determinados 77 São aqueles que têm causas assinaláveis e valores definidos que, em princípio, podem ser medidos e seu efeito corrigido nos resultados. 2) Erros Sistemáticos ou Determinados 78 São erros unidirecionais, e que levam a um conjunto de resultados que apresente valores tendenciosos e que se distanciam do valor verdadeiro sempre no mesmo sentido (para mais ou para menos). 2) Erros Sistemáticos ou Determinados 79 É independente do número de medições feitas e não pode ser reduzido pelo aumento do número de análises sob condições constantes de medida. 2) Erros Sistemáticos ou Determinados 80 Exemplos: 1. Balança não tarada ou calibrada; 2. Pipeta não aferida; 2) Erros Sistemáticos ou Determinados 81 3.3. Erros Aleatórios ou Indeterminados 82 As vezes ocorrem em um sentido, outras vezes em outro, em relação ao valor verdadeiro. Os resultados das medições flutuam de um modo aleatório. 3) Erros Aleatórios ou Indeterminados 83 A origem dessas flutuações não é assinalável pois estas representam a soma de um conjunto de incertezas muito pequenas que não podem ser identificadas em sua origem. 3) Erros Aleatórios ou Indeterminados São flutuações devidas aos instrumentos, métodos de análises, condições ambientais e devidas ao próprio operador – não podem ser determinados. 84 O erro aleatório de um resultado analítico não pode ser compensado por correção, mas é reduzido pelo aumento do número de observações, embora esta não deva ser a primeira ação para a redução do valor do erro aleatório. 3) Erros Aleatórios ou Indeterminados 85 3) Erros Aleatórios ou Indeterminados São erros devidos a variações ao acaso, de causas não conhecidas exatamente, em geral irregulares e pequenas, e de difícil controle do operador. Exemplos: umidade, temperatura, iluminação, pureza dos reagentes etc. 86 4. Medidas de Posição ou Tendência Central 87 Média (Estatística paramétrica) Mediana (Estatística não paramétrica) Medidas de Posição ou Tendência Central 88 Média A média aritmética, usualmente abreviada para média, , é definida como a soma de todos os valores medidos, dividido pelo número, n, das medidas. x )( x n x n i ix 1 n = número de análises = valor da análise ix 89 90 Média )( x Nas operações que podem ser feitas com as médias aritméticas, estas somam-se e subtraem-se. Exemplo Se a média do conjunto A é igual a 17 e a média do conjunto B é igual a 15, determine a média de (A+B). Resposta: média (A+B) = 32 Essa propriedade é útil para verificar ou confirmar o resultado do cálculo da média de uma amostra ou variável, como também no desenvolvimento de provas matemáticas que apresentam a soma de desvios com relação à média. 91 Propriedades da Média Primeira propriedade A soma dos desvios de uma amostra ou variável é sempre igual a zero. 92 Propriedades da Média Segunda propriedade A soma dos quadrados dos desvios com relação à própria média de uma variável ou amostra é sempre um valor mínimo. mínimo 93 Como fazer isto no EXCEL??? Funções estatísticas do Excel SOMA(núm 1; núm 2;...;núm 30) A função estatística SOMA retorna a soma dos valores numéricos núm1; núm2;...;núm30. Cada um desses núm pode ser um intervalo de células de uma planilha contendo valores numéricos ou assemelhados. 94 Exemplo SOMA(núm 1; núm 2;...;núm 30) 95 VAMOS FAZER NO EXCEL? 96 Funções estatísticas do Excel MÉDIA(núm 1; núm 2;...;núm 30) A função estatística MÉDIA retorna a média aritmética dos valores numéricos núm1; núm2;...;núm30. Cada um desses núm pode ser um intervalo de células de uma planilha contendo valores numéricos ou assemelhados. 97 Exemplo MÉDIA(núm 1; núm 2;...;núm 30) 98 VAMOS FAZER NO EXCEL? Mediana (Med) É o valor que divide uma série ordenada de valores, de tal forma que 50% dos itens estão abaixo e, a outra metade, acima dela. Para um número ímpar de observações será o valor central da série ordenada. 99 Mediana (Med) Para um número par de observações será a média aritmética dos valores centrais da série ordenada. É utilizada quando os valores extremos são de pouca importância. 100 Posição da Mediana 2/)1( nMed Procedimento Colocar os resultados em ordem crescente Determinar a posição da mediana Verificar que valor corresponde à posição da mediana 1 2 3 101 VALORES 3,1 2,9 2,7 3,0 3,2 3,5 2,8 VALORES 2,7 2,8 2,9 3,0 3,1 3,2 3,5 Med = (7+1)/2 = 4 1 2 3 Exemplo 1 Posição da Mediana (Med) 102 VALORES 3,1 2,9 2,7 3,0 3,2 3,5 VALORES 2,7 2,9 3,0 3,1 3,2 3,5 Med = (6+1)/2 = 3,5 1 2 3 Mediana é o valor que se encontra entre aqueles das posições 3 e 4 = 3,05 Exemplo 2 Posição da Mediana (Med) 103 104 Funções estatísticas do Excel MED(núm 1; núm 2;...;núm 30) A função estatística MED retorna a mediana dos valores numéricos núm1; núm2;...;núm30. Cada um desses núm pode ser um intervalo de células de uma planilha contendo valores numéricos ou assemelhados. Como fazer isto no EXCEL??? 105 Exemplo SOMA(núm 1; núm 2;...;núm 30) MED(núm 1; núm 2;...;núm 30) 106 VAMOS FAZER NO EXCEL? 107 MAS TAMBÉM EXISTEOUTRA FORMA DE OBTER ESTES RESULTADOS NO EXCEL OUTRA FORMA DE FAZER NO EXCEL Dados Análise de dados Ferramentas de análise Estatística descritiva Medidas de Posição ou Tendência Central 108 Média Erro padrão Mediana Moda Desvio padrão Variância da amostra Curtose Assimetria Intervalo Mínimo Máximo Soma Contagem Nível de confiança(95,0%) Estatística Descritiva 109 OUTRA FORMA DE FAZER NO EXCEL EXCEL 110 VALORES 3,10 2,90 2,70 3,00 3,20 3,50 2,80 1. CALCULE A MÉDIA E A MEDIANA, USANDO O EXCEL, DO CONJUNTO DE DADOS A SEGUIR: EXCEL USAR AS FUNÇÕES MÉDIA, MED E A ESTATÍSTICA DESCRITIVA 111 Exercício 1 1. CALCULE A MÉDIA E A MEDIANA, USANDO O EXCEL, DO CONJUNTO DE DADOS A SEGUIR: EXCEL Exercício 2 VALORES 3,10 2,90 2,70 3,00 3,20 3,50 112 USAR AS FUNÇÕES MÉDIA, MED E A ESTATÍSTICA DESCRITIVA 5. Medidas de Dispersão 113 Consideremos os seguintes conjuntos de observações, referentes a três laboratórios A, B e C, que foram convidados a realizar análises de uma mesma amostra, usando a mesma técnica analítica. LABORATÓRIO A LABORATÓRIO B LABORATÓRIO C 4 1 2 5 1 2 5 1 5 5 9 8 6 9 8 9 Medidas de Dispersão 114 LABORATÓRIO A LABORATÓRIO B LABORATÓRIO C 4 1 2 5 1 2 5 1 5 5 9 8 6 9 8 9 Média 5 5 5 A média dos 3 laboratórios é a mesma!!! O desempenho dos 3 laboratórios é igual ? Medidas de Dispersão 115 LAB A LAB B LAB C 4 1 2 5 1 2 5 1 5 5 9 8 6 9 8 9 Média 5 5 5 No primeiro conjunto (LAB A) todos os dados estão próximos da média, no segundo (LAB B) estão bem afastados do valor central, e no terceiro (LAB C), há valores próximos e valores afastados Dizemos que o conjunto A é o menos disperso. Mas como quantificar essa dispersão? Através das estatísticas de dispersão em relação à média aritmética 116 Estas estatísticas são expressões que permitem quantificar essa dispersão, ou seja, o grau de afastamento dos valores das observações no que diz respeito à média da distribuição. Desvio padrão Absolutas Variância Relativa Coeficiente de variação 117 Desvio Padrão Variância Medidas de Dispersão Coeficiente de Variação ou Desvio Padrão Relativo 118 Desvio Padrão (s) Cada conjunto de resultados analíticos precisa estar acompanhado de uma indicação da precisão da análise. O conceito envolvido no cálculo do desvio padrão determina a amplitude, dentro da qual variam as medições, xi. 119 1 )( 1 2 n xx s n i i n-1 = número de graus de liberdade, isto é, a quantidade de comparações independentes que podem ser feitas entre as n unidades da amostra )( Desvio Padrão (s) O desvio padrão de um conjunto de dados experimentais é dado por: 120 Número de graus de liberdade É o número de desvios independentes )( )( ix )( xxi Exemplo: Leituras Desvios 4,2 3,8 4,1 4,0 3,9 0,2 -0,2 0,1 0 -0,1 0 x 20,0 4,0 121 122 A comparação de dois conjuntos de dados por meio do desvio-padrão somente é possível se as médias forem iguais. O conjunto de maior variabilidade é aquele com maior desvio-padrão. Desvio-padrão (s) 123 Exemplo Qual conjunto apresenta maior variabilidade? Conjunto A: Média = 15,5 e s = 3,389 Conjunto B: Média = 15,5 e s = 0,9258 Resposta: Quando as médias são iguais, o conjunto de maior variabilidade é conjunto que apresenta maior desvio-padrão, logo é o conjunto A. Desvio-padrão (s) 124 Nas operações que podem ser feitas com desvios-padrão, diferentemente da média aritmética, estes NÃO se somam nem se subtraem. Apenas se SOMAM VARIÂNCIAS. Ou seja, primeiro é necessário determinar as variâncias, somá-las para, então, extrair-se a raiz quadrada para retornar ao desvio-padrão resultante. Desvio-padrão (s) 125 Desvio-padrão (s) Exemplo PARA (n) IGUAIS ! 126 Funções estatísticas do Excel DESVPAD.A(núm 1; núm 2;...;núm 30) A função estatística DESVPAD retorna o desvio padrão da amostra dos valores numéricos núm1; núm2;...;núm30. Cada um desses núm pode ser um intervalo de células de uma planilha contendo valores numéricos ou assemelhados. Como fazer isto no EXCEL??? 127 Exemplo DESVPAD.A(núm 1; núm 2;...;núm 30) 128 VAMOS FAZER NO EXCEL? 1 )( 1 2 2 n xx s n i i Variância (s2) A variância de um conjunto de dados experimentais é dado por: n-1 = número de graus de liberdade )( 129 130 Funções estatísticas do Excel VAR(núm 1; núm 2;...;núm 30) A função estatística VAR retorna a variância da amostra dos valores numéricos núm1; núm2;...;núm30. Cada um desses núm pode ser um intervalo de células de uma planilha contendo valores numéricos ou assemelhados. Como fazer isto no EXCEL??? 131 Exemplo VAR(núm 1; núm 2;...;núm 30) 132 VAMOS FAZER NO EXCEL? É definido como o quociente entre o desvio padrão e a média. Sua vantagem é caracterizar a dispersão dos dados em termos relativos a seu valor médio. %100(%) x s CV Coeficiente de Variação ou Desvio Padrão Relativo (CV) 133 134 Exemplo Qual conjunto apresenta maior variabilidade? Conjunto A: Média = 34,75 e s= 5,98 Conjunto B: Média = 15,76 e s= 6,04 Resposta: Quando as médias são diferentes, o conjunto de maior variabilidade é conjunto que apresenta maior CV ou DPR, logo é o conjunto B. Conjunto A _CV= 17,2% e Conjunto B_CV= 38,3% Coeficiente de Variação ou Desvio Padrão Relativo (CV) 135 Exemplo 136 VAMOS FAZER NO EXCEL? 137 MAS TAMBÉM EXISTE OUTRA FORMA DE OBTER ESTES RESULTADOS NO EXCEL Média Erro padrão Mediana Moda Desvio padrão Variância da amostra Curtose Assimetria Intervalo Mínimo Máximo Soma Contagem Nível de confiança (95,0%) EXCEL Estatística Descritiva 138 Exemplo Excel EXCEL Calcular o desvio padrão, a variância e o coeficiente de variação do conjunto de dados (15, 12, 10, 17, 16). 139 EXCEL 140 3. Os seguintes resultados foram obtidos na análise de replicatas de uma amostra de sangue, para determinação do teor de chumbo presente: 0,752 – 0,756 – 0,752 – 0,751 e 0,760 µg/L de Pb. Calcule o desvio padrão desse conjunto de dados. EXCEL Exercício 3 141 USAR A FUNÇÃO DESVPAD.A E A ESTATÍSTICA DESCRITIVA AMOSTRA No. DETERMINAÇÔES TEORES EM µg/L 1 3 1,80-1,58-1,64 2 4 0,96-0,98-1,02-1,10 3 2 3,13-3,35 4 6 2,06-1,93-2,12-2,16-1,89-1,95 5 4 0,57-0,58-0,64-0,49 6 5 2,35-2,44-2,70-2,48-2,44 7 4 1,11-1,15-1,22-1,04 28 4. O teor de mercúrio em amostras de sete peixes de uma Baía foi determinado por um método baseado na absorção da radiação emitida pelo elemento mercúrio no estado gasoso. Calcular uma estimativa global do desvio padrão do método. Exercício 4 142 Determinar: •As médias por amostra e a média global •Os desvios por amostra e o desvio global •As variâncias por amostra e a variância global EXCEL Exercício 4 143 USAR AS FUNÇÕES MÉDIA, DESVPAD.A, VAR.A E A ESTATÍSTICA DESCRITIVA 144 LISTA DE EXERCÍCIOS 1 6. Distribuição de Frequência 145 Representação do conjunto de dados Distribuições de freqüência - Freqüência relativa - Freqüência acumulada Representação gráfica - Histogramas 146 Representação gráfica de dados HISTOGRAMA CLASSE F R E Q Ü Ê N C IA 147 Histograma É um gráfico composto por retângulos justapostos em que a base de cada um deles corresponde ao intervalo de classe e a sua altura à respectiva freqüência. CLASSE F R E Q Ü Ê N C IA O que é: 148 Para resumir e visualizar a forma da distribuição dos dados, a localização do valor central e a dispersão em torno desse valor. Histograma Para que serve: Usado para verificar a normalidade da distribuição de uma série de dados 149 Histograma Caracterização de uma distribuição: localização e dispersão Localização: Medida de tendência central (média / mediana / moda) 150 Histograma Da amostra A para B muda a tendência central, mas a variabilidade é constante; Da amostra A para C muda a variabilidade, mas a tendência central é constante; Da amostra B para C muda a tendência central e a variabilidade.151 Histograma Ao observar um histograma, note: 1) A forma, que deve ser simétrica 2) A dispersão, que deve ser pequena 3) A centralização, que deve estar na média 152 Histograma Tipos a) Histograma simétrico ou em forma de sino, tipo distribuição Normal 0 20 40 60 80 100 CLASSE F R E Q Ü Ê N C IA Característica: a freqüência é mais alta no centro e decresce gradualmente para as caudas de maneira simétrica (forma de sino). 153 Histograma Tipos b) Histograma assimétrico e com apenas um pico 0 20 40 60 80 100 CLASSE F R E Q Ü Ê N C IA Características: a frequência decresce bruscamente em um dos lados e de forma gradual no outro, produzindo uma cauda mais longa em um dos lados. 154 Histograma b) Histograma assimétrico e com apenas um pico Frequência maior para os menores valores e cauda maior à direita. Dados positivamente assimétricos (assimetria para a direita) –Média e mediana à direita da moda –Em geral, média à direita da mediana 155 Frequência maior para os maiores valores e cauda maior à esquerda. Dados negativamente assimétricos (assimetria para a esquerda) –Média e mediana à esquerda da moda –Em geral, média à esquerda da mediana Histograma b) Histograma assimétrico e com apenas um pico 156 Histograma Tipos c) Histograma tipo “despenhadeiro” 0 20 40 60 80 100 CLASSE F R E Q Ü Ê N C IA Característica: o histograma termina abruptamente de um ou dos dois lados, dando a impressão de faltar um pedaço na figura. 157 Histograma Tipos d) Histograma com dois picos 0 20 40 60 80 100 F R E Q Ü Ê N C IA CLASSE Característica: ocorrem dois picos e a freqüência é baixa entre eles. . 158 Histograma Tipos e) Histograma do tipo “platô” 0 10 20 30 40 50 60 70 80 F R E Q Ü Ê N C IA CLASSE Característica: classes centrais possuem aproximadamente a mesma frequência. F R E Q Ü Ê N C IA CLASSE 159 Histograma Tipos f) Histograma com uma pequena “ilha” isolada 0 20 40 60 80 100 F R E Q Ü Ê N C IA CLASSE Característica: algumas faixas de valores ficam isoladas da grande maioria dos dados, gerando barras ou pequenos agrupamentos separados. 160 Histograma Como fazer: 1) Organizar a tabela de distribuição de frequências 2) Contar a quantidade de valores coletados (n) 3) Determinar a amplitude R: R = Maior valor - Menor valor 4) Determinar o número de classes (k) 5) Determinar o intervalo de classe (H), dividindo o valor da amplitude R em um certo número de classes K H = R / K (arredondar o resultado) 161 Objetivo Destacar informações relevantes, mediante o resumo dos valores coletados em classes, categorias ou intervalos convenientes. Distribuição de Frequência Histograma Uma distribuição de frequência agrupa os dados por classes de ocorrência, resumindo a análise de conjunto de dados grandes. 162 1. Definir intervalos, classes ou categorias de agrupamento que sejam mutuamente excludentes e coletivamente exaustivas (para que os pontos do conjunto de dados tenham um, e só um, endereço possível; não pode haver pontos em comum nem vazios entre os espaços da distribuição); Construção Histograma 163 2. Traçar um quadro tabular no qual, mediante sinais convenientes, marcam-se os itens enquadráveis em cada classe – tais marcas servem para posterior contagem e cálculo da participação percentual das partes em relação ao total de dados 3. Resumir os resultados em uma tabela de freqüências e/ou gráfico. Histograma Construção 164 k = 1 + [3,222 x log(n)] k = número de classes O número de classes a ser utilizado será um número inteiro, próximo a k. Histograma Determinação do número de classes (k) Regra de Sturges (Regra do logaritmo) 165 EXISTEM OUTRAS FORMAS DE SE ESTIMAR k )ln(21 nk Determinação do número de classes Regra da raiz quadrada nk Regra da Potência de 2 k = menor valor inteiro tal que 2k ≥ n 166 Geralmente, o limite inferior do primeiro intervalo corresponde ao menor valor dos dados, e o superior, a esse valor acrescido do intervalo de classes (H) ou amplitude das classes. O limite inferior da próxima classe é o superior da anterior; o superior é esse valor acrescido da amplitude da classe. Repete-se o processo até atingir o teto dos dados. Intervalo e limites de classe ( a | b ) Histograma 167 A notação a | b indica o intervalo de valores da classe considerada, onde a é o limite inferior e b, o superior. A existência da barra lateral indica a inclusão do limite no intervalo; sua inexistência aponta a exclusão do referido valor. Histograma Intervalo e limites de classe ( a | b ) 168 Razão entre a frequência absoluta simples da classe (Fi) e o número total de observações. Frequência absoluta simples (Fi) Número de observações em cada classe. Frequência relativa simples (fir) Histograma 169 Corresponde a soma das frequências relativas simples (fir) de determinada classe com todas as anteriores. Frequência absoluta acumulada (Fa) Corresponde a soma das frequências de determinada classe com todas as anteriores. Frequência relativa acumulada (fa) Histograma 170 Tabela de pesos de recém nascidos vivos 2,522 2,150 2,500 1,900 3,000 2,450 3,300 2,900 2,450 2,400 2,720 3,300 3,550 3,600 3,750 3,400 3,200 2,920 3,400 3,450 3,125 3,250 3,000 3,200 3,150 2,400 3,200 2,720 3,400 3,120 2,250 3,200 4,100 3,300 3,200 3,120 2,800 2,900 1,570 2,120 3,220 3,720 3,200 2,900 2,500 3,400 4,600 2,000 3,800 2,450 3,000 2,800 3,450 2,500 2,900 3,200 1,720 2,720 2,700 2,700 3,725 2,900 3,100 3,600 3,200 2,700 2,750 2,480 2,900 3,100 2,890 2,950 3,150 2,500 4,100 3,150 4,200 3,900 3,700 3,200 3,110 2,480 2,800 2,300 2,400 2,800 2,100 2,500 2,120 2,780 3,520 3,800 2,900 2,950 2,700 2,700 4,450 2,480 3,150 3,155 Exemplo 171 Exemplo 1) Tamanho da amostra: n=100 2) Determinação da amplitude (R): R = Maior valor - Menor valor R = 4,600 - 1,570 = 3,030 3) Determinação do número de classes (k) k = 1 + [3,222 x log(n)] K= 7,444 ≈ 7 4) Determinação do intervalo de classe (H) H = R / K (arredondar o resultado) H = 3,030 / 7 ≈ 0,4 172 173 Como fazer isto no EXCEL??? 174 Exemplo da apostila 175 VAMOS FAZER NO EXCEL? Classe Frequência 1,5 2,0 2,5 3,0 3,5 4,0 4,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 3 16 31 34 11 4 1 Histograma Tabela de distribuição de frequências simples 176 Intervalo de 0,5 g manualmente CLASSE FREQUÊNCIAS SIMPLES FREQUÊNCIAS ACUMULADAS SIMPLES (Fi) RELATIVA (%) (fir) ABSOLUTA (Fa) RELATIVA (%) (fa) 1,5 2,0 3 (3/100)x100 = 3 3 (3/100)x100 = 3 2,0 2,5 16 (16/100)x100 = 16 (3+16) = 19 (19/100)x100 = 19 2,5 3,0 31 (31/100)x100 = 31 (19 + 31) = 50 (50/100)x100 = 50 3,0 3,5 34 (34/100)x100 = 34 (50 + 34) = 84 (84/100)x100 = 84 3,5 4,0 11 (11/100)x100 = 11 (84 + 11) = 95 (95/100)x100 = 95 4,0 4,5 4 (4/100)x100 = 4 (95 + 4) = 99 (99/100)x100 = 99 4,5 5,0 1 (1/100)x100 = 1 (99 + 1) = 100 (100/100)x100 = 100 TOTAL 100 100% 100 100% Tabela de distribuição de frequências 177 Histograma A PARTIR DA TABELA É POSSÍVEL FAZER Gráfico de frequências acumuladas 178 0 5 10 15 20 25 30 35 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 Classe F re q u ên ci a Histograma 179 180 ALGUÉM PODE ME DAR UM EXEMPLO DE HISTOGRAMA? https://covid.saude.gov.br/ 3 19 50 84 95 99 100 0 10 20 30 40 50 60 70 80 90 100 0 1 2 3 4 5 6 7 8 Classes fa Gráfico de frequências acumuladas 181 182 E DE FREQÜÊNCIA ACUMULADA ? https://covid.saude.gov.br/ 183 Funções estatísticas do Excel MAIOR (matriz; k-ésimo) A função estatística MAIOR retorna o k-ésimo maior valor da matriz ordenada de forma crescente. Para uma mesma matriz, o resultado dessa função dependerá do valor do argumento k-ésimo: Se k-ésimo-1, então o maior valor da matriz será o último valor da matriz ordenada de forma crescente. Se k-ésimo-2, então o maior valor da matriz será o penúltimo valorda matriz e assim sucessivamente, até o primeiro valor da matriz. 184 Funções estatísticas do Excel MENOR (matriz; k-ésimo) A função estatística MENOR retorna o k-ésimo menor valor da matriz ordenada de forma crescente. Para uma mesma matriz, o resultado dessa função dependerá do valor do argumento k-ésimo: Se k-ésimo-1, então o menor valor da matriz será o primeiro valor da matriz ordenada de forma crescente. Se k-ésimo-2, então o menor valor da matriz será o segundo valor da matriz ordenada e assim sucessivamente, até o último valor da matriz. 185 Exemplo 186 VAMOS FAZER NO EXCEL? 187 MAS TAMBÉM EXISTE OUTRA FORMA DE OBTER ESTES RESULTADOS NO EXCEL EXCEL Dados Análise de dados Ferramentas de análise Histograma Histograma 188 EXCEL 189 Refazer o exemplo do peso dos recém nascidos vivos usando o Excel EXCEL Exercício 5 190 191 LISTA DE EXERCÍCIOS 2 192 7. A Distribuição Normal A Curva Normal A distribuição normal, ou distribuição de Gauss, ou curva normal, é um dos mais importantes exemplos de uma distribuição contínua de probabilidades. m f(x) x 193 221 2 1 )( m x exf Existe uma função matemática que a descreve: A Curva Normal Onde: σ é o desvio padrão µ é o valor médio (na ausência de erros sistemáticos é o valor verdadeiro) 2 1 é o fator de normalização; padroniza a área sob a curva, de modo que seja sempre igual a 1, figura a seguir. 194 m3 2 32 68% 95,5% 99,7% Representação Equação ),(: 2mNx 2 2 2 2 1 m )( x eY Distribuição normal típica, obtida pela equação anterior 195 Propriedades da distribuição normal de probabilidades f(x) 0 quando x a curva em forma de sino, é simétrica ao redor da media (m. a área sob a curva vale 1 (probabilidade de x assumer qualquer valor real) existe um máximo em x = µ os valores menor e maior que µ ocorrem com igual probabilidade a configuração da curva é dada por 2 parâmetros µ e σ 196 197 7.1. Teste de Normalidade: Shapiro-Wilk Muitos testes são baseados na hipótese de que os dados obtidos seguem uma distribuição normal. Nem sempre isso acontece. Alguns conjuntos de dados podem não seguir uma distribuição normal, sendo necessários testes para verificar este desvio de normalidade. Testes de Normalidade 198 Os testes de normalidade são utilizados para verificar se a distribuição de probabilidade associada a um conjunto de dados pode ser aproximada pela distribuição normal. Os principais testes de normalidade são: • Teste de Kolmogorov-Smirnov • Teste de Anderson-Darling • Teste de Shapiro-Wilk • Teste de Ryan-Joiner Testes de Normalidade 199 Teste bastante utilizado Limitação: 3 < n < 50 Teste de Shapiro-Wilk 200 Teste de Shapiro-Wilk O teste de Shapiro-Wilk, proposto em 1965, é baseado na estatística W dada por: Onde: - Xi são os valores da amostra ordenados (X1 é o menor). - ai são constantes geradas pelas médias, variâncias e covariâncias das estatísticas de ordem de uma amostra de tamanho n de uma distribuição normal. SQT SW W 2 20 XXSQT i 21 xsn ou iin XXaiSw 1 201 202 203 Teste de Shapiro-Wilk Para realizar o teste de Shapiro-Wilk, devemos: 1. Formular as Hipóteses: H0: A amostra provém de uma população Normal H1: A amostra não provém de uma população Normal 2. Estabelecer o nível de significância do teste (a), normalmente 0,05; 204 Teste de Shapiro-Wilk Para realizar o teste de Shapiro-Wilk, devemos: 3. Calcular a estatística de teste: • Ordenar as n observações da amostra: X1, X2, X3,...,Xn (Arranjar os valores em ordem crescente); • Formar as subtrações: iin XX 1 O índice i varia de 1 a ou de 1 a 2 n 2 1n conforme n seja par ou ímpar 205 Teste de Shapiro-Wilk Para realizar o teste de Shapiro-Wilk, devemos: • Formar os produtos: • Calcular a soma SW: • Calcular SQT: • Calcular W: 3. Calcular a estatística de teste: iin XXai 1 iin XXaiSw 1 20 XXSQT i ou 21 xsn SQT SW W 2 206 Para realizar o teste de Shapiro-Wilk, devemos: 4. Tomar a decisão: Rejeitar H0 ao nível de significância a, se W calculado < W tabelado. Teste de Shapiro-Wilk Compara-se o valor de W calculado com o W tabelado. Se W calculado > W tabelado aceita-se que os valores estão distribuídos de acordo com uma certa função de distribuição normal . 207 Teste de Shapiro-Wilk: Valores críticos de W 208 20 – 556 – 426 – 169 – 56 – 574 – 61 – 463 – 404 -192 – 116 – 452 – 135 – 422 – 186 – 400 – 351 – 207 – 379 – 389 – 204 – 211 – 362 – 213 – 373 – 214 – 286 – 277 – 219 – 334 – 227 – 337 – 294 – 245 – 235 – 326 – 321 – 244 – 322 – 240 – 276 – 286 – 250 – 291 22 2 44 i 1,285 n X X i 1,121 1 2 n XX S i 44n Teste de Shapiro-Wilk 209 i Xi X45-i X45-i - Xi ai ai(X45-i - Xi) 1 20 574 554 0,3872 214,5088 2 56 556 500 0,2667 133,3500 3 61 463 402 0,2323 93,3846 4 116 452 336 0,2072 69,6192 5 135 426 291 0,1868 54,3588 6 169 422 253 0,1695 42,8835 7 186 404 218 0,1542 33,6156 8 192 400 208 0,1405 29,2240 9 204 389 185 0,1278 23,6430 10 207 379 172 0,1160 19,9520 11 211 373 162 0,1049 16,9938 Teste de Shapiro-Wilk 210 i Xi X45-i X45-i - Xi ai ai(X45-i - Xi) 1 20 574 554 0,3872 214,5088 2 56 556 500 0,2667 133,3500 3 61 463 402 0,2323 93,3846 4 116 452 336 0,2072 69,6192 5 135 426 291 0,1868 54,3588 6 169 422 253 0,1695 42,8835 7 186 404 218 0,1542 33,6156 8 192 400 208 0,1405 29,2240 9 204 389 185 0,1278 23,6430 10 207 379 172 0,116 19,9520 11 211 373 162 0,1049 16,9938 Teste de Shapiro-Wilk 12 213 362 149 0,0943 14,0507 13 214 351 137 0,0842 11,5354 14 219 337 118 0,0745 8,7910 15 227 334 107 0,0651 6,9657 16 235 326 91 0,056 5,0960 17 240 322 82 0,0471 3,8622 18 244 321 77 0,0383 2,9491 19 245 294 49 0,0296 1,4504 20 250 291 41 0,0211 0,8651 21 276 286 10 0,0126 0,1260 22 277 286 9 0,0042 0,0378 SOMA = 787,2627 211 Teste de Shapiro-Wilk: Coeficiente an (W) para cálculo de W 212 6308721,1211441 22 snSQT 263,787SW 982,0 630872 263,787 2 calculadoW Conclusão: Na tabela de valores críticos de W, com 95% de confiança , temos Wtabelado = 0,944. Como então, não rejeitamos a hipótese de normalidade.tabeladocalculado WW Teste de Shapiro-Wilk SQT SW W 2 213 Teste de Shapiro-Wilk: Valores críticos de W 214 215 Teste de Ryan-Joiner • (https://www.youtube.com/watch?v=Uoctpjx2kZ8) Teste de Kolmogorov-Smirnof Teste de Anderson Darling • (https://www.youtube.com/watch?v=eNjre6tx 7eU) • (https://www.youtube.com/watch?v=nGqhsxZrGlM) Para ver em casa EXCEL Vamos usar o EXCEL? 216 EXCEL 217 Refazer o exemplo do teste de Shapiro-Wilk usando o Excel EXCEL Exercício 6 218 8. Grau de Confiança de Student (t) – Teste t-Student 219 Grau de Confiança de Student (t) A distribuição usada para amostras pequenas, em geral menor que 30 elementos, é conhecida como distribuição de Student ou grau de confiança de Student. 220 Através dos valores tabelados de t pode-se conhecer em que intervalo de confiança (IC) encontra-se a média da população. Grau de Confiança de Student (t) intervalo de confiança (IC) 221 n ts x n ts x m Onde: Grau de Confiança de Student (t) intervalo de confiança (IC) x 222 n ts x m µ = média verdadeira (intervalo da média da população); = média aritmética (média da população); n = número de elementos; s = desvio-padrão; t = função distribuição t de Student; ν = grau de liberdade (n-1). Representação: ICx Intervalo de confiança )(IC n ts IC t = t-Student (tabelado) 223 Grau de Confiança de Student (t) O t tabelado é determinado através do conhecimento do tamanho da amostra (n) e do nível de confiança com que se deseja determinar o intervalo em que está a média da população (µ). O nível mais usado é o de 95% de confiança. A partir do tamanho da amostra(n) obtém-se o grau de liberdade (ν). Para uma amostra com n elementos o grau de liberdade é igual a n-1 (ν = n-1). 224 Dez amostras são retiradas de um lote de um mineral e analisadas. O teor de óxido de cálcio apresentou uma média de 4,30% e um desvio- padrão estimado de 0,30%. Qual é o intervalo de confiança, no nível de 95%, da média do lote? Exemplo Grau de Confiança de Student (t) 225 Resposta do Exemplo x ν = n -1 = 10 -1 = 9 Para 95% de confiança ( = 0,05) t = 2,262 (tabela) BILATERAL = 4,30% s = 0,30% n = 10 226 n ts x m 10 30,0262,2 30,4 x m %21,0%30,4 m a 227 BILATERAL 228 Como fazer isto no EXCEL??? 229 Funções estatísticas do Excel INVT (probabilidade; graus_liberdade) A função estatística INVT retorna o t crítico da distribuição t referente aos argumentos probabilidade e graus_liberdade, considerando que a probabilidade se refere às duas caudas da distribuição. No caso de realizar cálculos com a função INVT em uma cauda da distribuição, o valor do argumento probabilidade deverá ser informado como o dobro do valor do problema, pois o procedimento de cálculo da função INVT divide a probabilidade informada por dois. 230 Exemplo INVT (probabilidade; graus_liberdade) 231 Exemplo 232 VAMOS FAZER NO EXCEL? EXCEL 233 Dez amostras são retiradas de um lote de aço e analisadas. O teor de carbono apresentou uma média de 6,30% e um desvio-padrão estimado de 0,030%. Qual é o intervalo de confiança, no nível de 95%, da média do lote? Grau de Confiança de Student (t) Exercício 7 234 Resposta do Exercício 7 x ν = n -1 = 10 -1 = 9 Para 95% de confiança ( = 0,05) t = 2,262 (tabela) = 6,30% s = 0,030% n = 10 235 a n ts x m 10 030,0262,2 30,6 x m %021,0%30,6 m 236 9. Teste F-Snedecor Teste F-Snedecor Aplicado para determinar se uma população apresenta maior variabilidade que outra. Usado para comparar duas variâncias, determinar se dois métodos, dois analistas ou instrumentos de laboratório diferem em precisão. 237 Através da distribuição F, de Snedecor, é possível verificar se as variâncias das populações a que pertencem as amostras podem ser consideradas iguais, com o nível de confiança desejado. Teste F-Snedecor 238 Teste de comparação de variâncias F-Snedecor 1. Calcular valor de F (Fcalc) 2. Comparar com valor de F tabelado (Ftab ) ETAPAS: 239 Hipóteses para o teste de F-Snedecor Hipótese nula Hipótese alternativa 2 2 2 10 : ssH 0: 2 2 2 10 ssH 2 2 2 11 : ssH 0: 22 2 11 ssH 240 2 2 m M calc s s F Condição: F tem que ser sempre ≥ 1 Se Fcalc > Ftab, H0 é rejeitada. Não se aceita a igualdade das variâncias. 2 M s = maior variância 2 m s = menor variância Teste de comparação de variâncias F-Snedecor Se Fcalc < Ftab, H0 é aceita. Aceita-se a igualdade das variâncias. 241 Exemplo Teste F-Snedecor O desvio-padrão de um conjunto de 11 determinações é sA = 0,210 e o desvio-padrão de outras 13 determinações é sB = 0,641. Existe alguma diferença significativa entre as precisões destes dois conjuntos de resultados? 242 Resposta do Exemplo F tabelado = 2,91 Logo, os desvios-padrão são significativamente diferentes no nível de confiança de 95%. Assim, a diferença entre os dois conjuntos de dados é altamente significativa. Se Fcalc > Ftab, H0 é rejeitada. Não se aceita a igualdade das variâncias. 243 2 2 210,0 641,0 calcF 0441,0 410881,0 calcF 32,9calcF 244 245 Como fazer isto no EXCEL??? 246 Funções estatísticas do Excel INVF (probabilidade; gl_numerador; gl_denominador) A função estatística INVF retorna o F crítico da distribuição F para uma dada probabilidade na cauda superior da distribuição F, e os graus de liberdade do numerador e do denominador, respectivamente, os argumentos gl_numerador e gl_denominador. No caso de realizar cálculos com a função INVF em duas caudas da distribuição, o valor do argumento probabilidade deverá ser informado como a metade do valor do problema, pois o procedimento de cálculo da função INVF multiplica a probabilidade informada por dois. 247 Exemplo INVF (probabilidade; gl_numerador; gl_denominador) 248 VAMOS FAZER NO EXCEL? 249 Vamos usar o EXCEL? Exemplo anterior 250 MAS TAMBÉM EXISTE OUTRA FORMA DE OBTER ESTES RESULTADOS NO EXCEL EXCEL Dados Análise de dados Ferramentas de análise Teste F: duas amostras para variâncias Teste F-Snedecor 251 252 Exemplo anterior 253 Usando a função do EXCEL 254 Usando a função do EXCEL corretamente 255 VAMOS FAZER NO EXCEL? EXCEL 256 Determinação da concentração de tiol em sangue de voluntários saudáveis e de voluntários com artrite reumatóide. Concentração de tiol SAUDÁVEL ARTRITE 1,84 1,92 1,94 1,92 1,85 1,91 2,07 2,81 4,06 3,62 3,27 3,27 3,76 Exercício 8 Existe alguma diferença significativa entre as variâncias destes dois conjuntos de resultados? 257 Teste F-Snedecor 379,33 0058,0 1936,0 calc F Ftab = 5,988 (bilateral) Fcalc > Ftab, então H0 é rejeitada; as variâncias são diferentes. Ftab = 4,39 (unilateral) Resposta do Exercício 8 258 259 10. Testes de Hipóteses 260 10. Testes de Hipóteses No teste de hipóteses são utilizadas duas hipóteses: A hipótese nula H0 é a hipótese sobre a qual devem ser obtidas evidências para rejeitá-la. A hipótese alternativa H1 é a hipótese sobre a qual devem ser obtidas evidências para aceitá-la. 261 10. Testes de Hipóteses A hipótese nula e a hipótese alternativa descrevem dois possíveis estados mutuamente excludentes, pois as duas hipóteses não podem ser aceitas ou rejeitadas ao mesmo tempo. 262 Testes de hipóteses em uma cauda (unicaudal) e nas duas caudas (bicaudal) 10. Testes de Hipóteses Um teste de hipótese em uma cauda da distribuição (unicaudal) é um teste no qual a hipótese alternativa H1 define a mudança em alguma direção da hipótese nula H0, incluindo na especificação um dos símbolos “≤” ou “≥”. 263 Testes de hipóteses em uma cauda (unicaudal) e nas duas caudas (bicaudal) 10. Testes de Hipóteses Um teste de hipótese em duas caudas da distribuição (bicaudal) é um teste no qual a hipótese alternativa H1 define uma mudança da hipótese nula H0 sem especificar nenhuma direção, incluindo na especificação o símbolo “≠”. Caso 1. Comparação de um valor medido com um valor “conhecido” Caso 2. Comparação de dois valores medidos e - Comparação entre medidas repetidas Caso 3. Teste t emparelhado para comparação de diferenças individuais – Comparação de médias de dados em pares HARRIS, Daniel C. Análise Química Quantitativa, 8ª edição. LTC Editora Capítulo 4 (4-3 Comparação entre Médias Utilizando o Teste t de Student) )( 1x )( 2x 264 Testes de Hipóteses (3 Casos) 265 10.1. Caso 1 – Comparação de um valor medido com um valor “conhecido” Caso 1. Comparação de um valor medido com um valor: tabelado conhecido de referência aceito como verdadeiro 266 Medimos uma grandeza várias vezes, obtendo um valor médio e um desvio-padrão. Precisamos agora comparar o nosso resultado com um determinado valor que é conhecido e aceito. A média que obtivemos não concorda exatamente com o valor que é aceito. Será que esta diferença é aceitável levando-se em conta o “erro experimental”? Caso 1. Comparação de um valor medido com um valor “conhecido” HARRIS, Daniel C. Análise Química Quantitativa, 8ª edição. LTC Editora Capítulo 4 (4-3 Comparação entre Médias Utilizando o Teste t de Student) 267 Valor médio encontrado = 5,0% 4,7% A concentração do conteúdo do frasco corresponde àquela do rótulo ? NaCl 5% p/v Aplicação 268 HARRIS, Daniel C. Análise Química Quantitativa, 8ª edição. LTC Editora Capítulo 4 (4-3 Comparação entre Médias Utilizando o Teste t de Student) Caso 1. Comparação de um valor medido com um valor “conhecido” Intervalo de confiança (IC) Teste de hipótese )(x m 269 Nestecaso, calcula-se o intervalo de confiança de 95% para a resposta obtida e verificamos se esta faixa inclui a resposta verdadeira. Se a resposta verdadeira não estiver dentro do intervalo de confiança de 95%, os dois resultados são considerados estatisticamente diferentes. HARRIS, Daniel C. Análise Química Quantitativa, 8ª edição. LTC Editora Capítulo 4 (4-3 Comparação entre Médias Utilizando o Teste t de Student) Caso 1. Comparação de um valor medido com um valor “conhecido” Intervalo de confiança (IC) 270 Hipóteses mxHo : Hipótese nula Hipótese alternativa 0: 1 mxH0: mxH o mxH : 1 Caso 1. Comparação de um valor medido com um valor “conhecido” Teste de hipótese 271 1. Calcular valor de t (tcalc) 2. Comparar com valor de t tabelado (ttab ) ETAPAS Se tcalc > ttab, então Ho é rejeitada e H1 deverá ser aceita. Caso 1. Comparação de um valor medido com um valor “conhecido” Teste de hipótese 272 s nx tcalc )( m Exemplo 1 Uma amostra de carvão foi adquirida como um Material de Referência Padrão, certificado pelo Instituto Nacional de Padrões e Tecnologia (NIST) dos EUA, contendo 3,19% m/m de enxofre. Você está testando um novo método analítico para verificar se o valor conhecido pode ser reproduzido. Os valores medidos são 3,29, 3,22, 3,30 e 3,23% m/m de enxofre, dando uma média de 3,26 e um desvio-padrão de 0,041. Sua resposta concorda com o valor conhecido? HARRIS, Daniel C. Análise Química Quantitativa, 8ª edição. LTC Editora Capítulo 4 (4-3 Comparação entre Médias Utilizando o Teste t de Student) Intervalo de confiança (IC) Caso 1. 273 Resposta do Exemplo 1 (IC) = 3,26 e s = 0,041 n= 4 n-1 (graus de liberdade) = 3 t = 3,182 (95% confiança, tabela) O valor verdadeiro (3,19 % m/m) está fora do intervalo conhecido de 95% (3,20 até 3,32 % m/m) Portanto, o valor medido é considerado significativamente diferente do valor conhecido. x 274 06,026,3 m 4 041,0182,3 26,3 x m n ts x m m3 2 32 68% 95,5% 99,7% 3,26 = 3,19 ? Há evidências de erro sistemático ? Não há evidência de erro sistemático Exemplo 1 O erro sistemático faz com que a média de um conjunto de dados se afaste do valor verdadeiro (aceito). Afeta a EXATIDÃO. 275 276 Como fazer isto no EXCEL??? 277 Exemplo (IC) 278 VAMOS FAZER NO EXCEL? Resposta do Exemplo 1 (H0) = 3,26 e s = 0,041 n= 4 n-1 (graus de liberdade) = 3 t = 3,182 (95% confiança, tabela) O valor verdadeiro (3,19 % m/m) está fora do intervalo conhecido de 95% (3,20 até 3,32 % m/m) Portanto, o valor medido é considerado significativamente diferente do valor conhecido. x 279 06,026,3 m 4 041,0182,3 26,3 x m n ts x m 280 Como fazer isto no EXCEL??? 281 Exemplo H0 282 VAMOS FAZER NO EXCEL? Determinação de Ag por AAS em um material que contém 18,3% Ag Análises )( ix 17,9 18,3 18,1 2)( xxi 0,04 0,04 0 Desvios )( xxi -0,2 0,2 0 Caso 1. Exemplo 2 283 1,18x 2,0s 3,4)2;05,0( t 21n 3 2,03,4 x IC Teor (%) = 5,01,18 Resposta 1 do Exemplo 2 (IC) O valor verdadeiro (18,3 % Ag) está dentro do intervalo conhecido de 95% (17,6 até 18,6 % Ag) Portanto, o valor medido não é considerado significativamente diferente do valor conhecido. 18,1 = 18,3 ? 284 n ts x m m3 2 32 68% 95,5% 99,7% 18,1 = 18,3 ? Há evidências de erro sistemático ? Não há evidência de erro sistemático Exemplo 2 O erro sistemático faz com que a média de um conjunto de dados se afaste do valor verdadeiro (aceito). Afeta a EXATIDÃO. 285 286 Como fazer isto no EXCEL??? 287 Exemplo 2 usando IC 288 VAMOS FAZER NO EXCEL? Aplicando-se a equação abaixo: 289 041,0 4)26,319,3( calct s nx tcalc )( m 415,3414634146,3 calct Resposta 2 do Exemplo 2 (H0) ttabelado= 3,182 Como tcalculado (3,415) ≥ ttabelado (3,182), podemos afirmar que os resultados não são os mesmos no nível de confiança de 95%. Portanto, o valor medido é considerado significativamente diferente do valor verdadeiro no nível de confiança de 95%. Resposta 2 do Exemplo 2 Se tcalc > ttab, então Ho é rejeitada e H1 deverá ser aceita. 290 Determinação de Ag por AAS num material que contém 18,3% Ag 1,18x 2,0s n = 3 a = 0,05 7,1 2,0 3)1,183,18( calct 17,9 18,3 18,1 Análises ttab = 4,303 tcalc < ttab, então Ho pode ser aceita Resposta 2 do Exemplo 2 Portanto, o valor medido não é considerado significativamente diferente do valor conhecido. 291 292 Exemplo 2 usando H0 293 VAMOS FAZER NO EXCEL? 294 Comparação de duas médias Caso 2. Comparação de médias de duas amostras independentes Caso 3. Comparação de médias de duas amostras pareadas 295 10.2. Caso 2 – Comparação de dois valores medidos e Comparação entre medidas repetidas )( 1x )( 2x 296 10.2. Caso 2 – Comparação de médias de duas amostras independentes Medimos uma grandeza diversas vezes utilizando dois métodos distintos, que fornecem duas respostas diferentes, cada uma com seu desvio-padrão. Os dois resultados concordam entre si “dentro do erro experimental”? HARRIS, Daniel C. Análise Química Quantitativa, 8ª edição. LTC Editora Capítulo 4 (4-3 Comparação entre Médias Utilizando o Teste t de Student) Caso 2. Comparação entre medidas repetidas 297 Amostras independentes B 1 ... m B x A 1 ... n A x Quando os dados são coletados de tal maneira que as observações não são relacionadas umas às outras. 298 Hipótese nula Hipótese alternativa 210 : xxH 0: 210 xxH 0: 211 xxH 211 : xxH Hipóteses Caso 2. Comparação entre medidas repetidas 299 210 : xxH Calcular t Comparar com t tabelado 300 210 : xxH Calcular t maneira 1 Comparar com t tabelado Calcular t maneira 2 2 2 2 1 ss 2221 ss 301 Teste F-Snedecor Qual teste usaremos para descobrir se existe ou não existe diferença significativa para a variância (s2) nos 2 conjuntos de dados? 302 210 : xxH Calcular t maneira 1 Comparar com t tabelado 2 2 2 1 ss 303 Cálculo de t e de quando as variâncias forem iguais 2 1 1 1 )21( nnag s xx calct )2( 21 nn sag = desvio padrão agrupado )2( ])1()1[( 21 2 22 2 11 nn snsn s ag 304 Determinação de boro em plantas MÉTODO 1: espectrofotométrico (M1) MÉTODO 2: fluorimétrico (M2) M1 M2 28,0 0,3 10 9 26,3 0,2 10 9 n s x Exemplo 305 Comparação das médias 210 : xxH 3,260,28: 0 H 0 210 xxH Comparação das variâncias 0: 2 2 2 10 ssH 004,009,0: 0 H 03,260,28: 0 H 2 2 2 10 : ssH 04,009,0: 0 H 306 Teste de comparação de variâncias F-Snedecor a = 0,05 25,2 04,0 09,0 calc F )(03,4 bilateralFtab Fcalc < Ftab, então as variâncias são iguais )(18,3 unilateralFtab 307 Cálculo do t-Student 21 21 11 )( nns xx t calc 9,14 10 1 10 125,0 )3,260,28( calct 25,0 ag s )(101,2 bilateralttab tcalc > ttab, então H0 é rejeitada; as médias são diferentes. 18)21010()2( 21 nn 308 )21010( ]04,0)110(09,0)110[( ags 309 Como fazer isto no EXCEL??? 310 Exemplo Determinação de boro em plantas 311 Exemplo Determinação de boro em plantas 312 VAMOS FAZER NO EXCEL? 313 MAS TAMBÉM EXISTE OUTRA FORMA DE OBTER ESTES RESULTADOS NO EXCEL EXCEL Dados Análise de dados Ferramentas de análise Teste t: duas amostras presumindo variâncias equivalentes Caso 2. Comparação entre medidas repetidas 2 2 2 1 ss 314 315 Como fazer isto no EXCEL??? 316 Este exemplo não dá para fazer com a função do EXCEL porque não temos os dados brutos 317 VAMOS FAZER NO EXCEL? EXCEL 318 Refazer o exemplo da determinação de boro em plantas usando o Excel EXCEL Exercício 9 Teste t: duas amostras presumindo variâncias equivalentes 319 210 : xxH Calcular t maneira 2 Comparar com t tabelado 2 2 2 1 ss 320 Cálculo de t e de quando as variâncias forem diferentes 2 2 2 1 2 1 21 )( n s n sxx tcalc 2 )1()1( 2 2 2 2 2 2 2 1 1 2 1 2 2 2 1 2 1 n n s n n s n s n s OBS.: O valor de calculado deve ser arredondado para o inteiro mais próximo 321 Determinação da concentração de tiol em sangue de voluntários saudáveis e de voluntários com artrite reumatóide Concentração de tiol SAUDÁVEL ARTRITE 1,84 1,92 1,94 1,92 1,85 1,91 2,07 2,81 4,06 3,62 3,27 3,27 3,76 Existe alguma diferença significativa entre as médias destes dois conjuntos de resultados? Exemplo 322 Comparação das médias as xxH : 0 0: 0 as xxH 0921,1465,3: 0 H SAUDÁVEIS ARTRITE ns = 7 na = 6 92,1 s x 47,3 a x 076,0 s s 440,0 a s 6 s 5 a 323 Comparação das variâncias 22 0 : as ssH 0: 22 0 as ssH 0)440,0()076,0(: 22 0 H Teste F-Snedecor 379,33 0058,0 1936,0 calc F Ftab = 5,988 (bilateral) Fcalc > Ftab, então H0 é rejeitada; as variâncias são diferentes. Ftab = 4,39 (unilateral) 324 Cálculo do t-Student 6 1936,0 7 0058,0 921,1465,3)( 22 a a s s as calc n s n s xx t 487,8 0323,00008,0 544,1 calct Stat t (Excel) 325 Cálculo do número de graus de liberdade 2 )1()1( 2222 222 a a a s s s a a s s n n s n n s n s n s 2 1048,1105,8 1091,10 48 4 xx x 5237,7 326 )(571,2 05,0 bilateralttab a tcalc > ttab, então H0 deve ser rejeitada; as médias são diferentes 327 328 Como fazer isto no EXCEL??? 329 Exemplo 330 VAMOS FAZER NO EXCEL? 331 MAS TAMBÉM EXISTE OUTRA FORMA DE OBTER ESTES RESULTADOS NO EXCEL EXCEL Dados Análise de dados Ferramentas de análise Teste t: duas amostras presumindo variâncias diferentes Caso 2. Comparação entre medidas repetidas 2 2 2 1 ss 332 333 Exemplo 334 VAMOS FAZER NO EXCEL? EXCEL 335 Refazer o exemplo da determinação da concentração de tiol de sangue usando o Excel EXCEL Exercício 10 Teste t: duas amostras presumindo variâncias diferentes 336 337 10.3. Caso 3 – Teste t emparelhado para comparação de diferenças individuais Comparação de médias de dados em pares 338 10.3. Caso 3 – Comparação de médias de duas amostras pareadas A amostra A é medida uma vez pelo método 1 e uma vez pelo método 2, que não fornecem exatamente o mesmo resultado. A seguir, uma amostra diferente, denominada B, é também medida uma vez pelo método 1 e uma vez pelo método 2. Novamente, os resultados não são exatamente iguais entre si. O procedimento é repetido para n amostras diferentes. Os dois métodos concordam entre si “dentro do erro experimental”? HARRIS, Daniel C. Análise Química Quantitativa, 8ª edição. LTC Editora Capítulo 4 (4-3 Comparação entre Médias Utilizando o Teste t de Student) Caso 3. Comparação de Médias de Dados em Pares 339 Neste caso, usamos dois métodos diferentes para fazer medidas individuais em várias amostras diferentes. Nenhuma medida foi duplicada. Os dois métodos fornecem a mesma resposta “dentro do erro experimental”? HARRIS, Daniel C. Análise Química Quantitativa, 8ª edição. LTC Editora Capítulo 4 (4-3 Comparação entre Médias Utilizando o Teste t de Student) Caso 3. Comparação de Médias de Dados em Pares 340 Caso 3. Comparação de Médias de Dados em Pares Quando duas distribuições são dependentes e, a cada valor de uma delas corresponde apenas um valor na outra, e vice-versa, tem-se o que é chamado de dados em pares. Então, cria-se uma nova distribuição na qual cada elemento é a diferença entre os dois elementos de cada par das distribuições anteriores. 341 Amostras dependentes (em pares ou pareadas) n amostras Método A Método B 1 ... m B x 1 ... n A x Quando uma mesma amostra é analisada por dois métodos diferentes. 342 Amostras independentes Amostras em pares B 1 ... m B x A 1 ... n A x n amostras Método A Método B 1 ... m B x 1 ... n A x 343 Amostras independentes- Faz-se, primeiramente o teste F-Snedecor para verificar se as variâncias das amostras podem ser consideradas iguais. Amostras dependentes- A aplicação do teste F-Snedecor não é necessária. Aplicação do teste t-Student 344 Caso 3. Comparação de Médias de Dados em Pares Exemplo 1: Se oito amostras semelhantes são analisadas por dois métodos, para comparação dos métodos, tem-se oito pares de dados. Exemplo 2: Se cinco analistas usarem uma mesma amostra com dois equipamentos diferentes, para comparação de equipamentos, tem-se cinco pares de dados. 345 Caso 3. Comparação de Médias de Dados em Pares Para comparação de médias de dados em pares, é calculada a média e a variância da nova distribuição, constituída pelas diferenças entre os resultados de cada par. Testa-se, então, a média das diferenças, , com auxílio da distribuição t. O teste consiste na comparação de t tabelado com t calculado. dx 346 Caso 3. Comparação de Médias de Dados em Pares O valor de t calculado é obtido através da seguinte expressão: d dcalc s nxt 0 A média das diferenças ( ) tem a seguinte expressão: dx n i d d n x x i 1 n = número de pares 347 Caso 3. Comparação de Médias de Dados em Pares Se tcalc < ttab ou (ttab > tcalc), não há diferença entre os objetivos testados Se tcalc > ttab ou (ttab < tcalc), há diferença entre os objetivos testados Se tcalc > ttab, H0 é rejeitada Se tcalc < ttab, H0 é aceita 348 Hipóteses Hipótese nula Hipótese alternativa Caso 3. Comparação de Médias de Dados em Pares 0 diferença: 0 d xH 0: 1 d xH Média das diferenças ( )dx 349 Caso 3. Exemplo Na determinação do teor de ThO2 em minério de nióbio, columbita, oito amostras foram analisadas para testar dois métodos ligeiramente diferentes, com os resultados em %. Determinar se os métodos são iguais no nível de confiança a 0,05%. AMOSTRA MÉTODO 1 MÉTODO 2 d 1 0,20 0,18 0,02 2 0,14 0,15 -0,01 3 0,23 0,25 -0,02 4 0,12 0,10 0,02 5 0,21 0,20 0,01 6 0,15 0,13 0,02 7 0,27 0,23 0,04 8 0,20 0,21 -0,01 350 0: 0 d xH 0: 1 d xH 01,0 d x 02,0 d s 718 %5a 365,2tabt 22,1 02,0 8001,0 calct Como tcalc < ttab, H0 é aceita Determinação do teor de ThO2 usando o Excel 351 352 Como fazer isto no EXCEL??? 353 Exemplo 354 VAMOS FAZER NO EXCEL? 355 MAS TAMBÉM EXISTE OUTRA FORMA DE OBTER ESTES RESULTADOS NO EXCEL EXCEL Dados Análise de dados Ferramentas de análise Teste t: duas amostras em par para médias Caso 3. Comparação de Médias de Dados em Pares 356 357 Exemplo 358 VAMOS FAZER NO EXCEL? EXCEL 359 Refazer o exemplo da determinação do teor de ThO2 usando o Excel EXCEL Exercício 11 Teste t: duas amostras em par para médias 360 361 11. Análise de Variância (ANOVA) 362 O nome Análise de Variância é comumente chamado de ANOVA do inglês – ANalysis Of VAriance 363 Uma análise de variância permite que vários grupos sejam comparados a um só tempo, utilizando variáveis contínuas. O teste é paramétrico (a variável de interesse deve ter distribuição normal) e os grupos têm que ser independentes. 364 Análise de Variância (ANOVA) Análise de variância com um fator - one-way ANOVA. Análise de variância com dois fatores - two-way ANOVA. Análise de variância com mais de dois fatores - multi-way ANOVA (MANOVA – Análise de Variância Multivariada). 365 11.1. Análise de variância com um fator - one-way ANOVA. 366 Análise de variância com um fator – one-way ANOVA É avaliado apenas um fator (a) de interesse ou que influi na variável dependente. 367 Análise de Variância Medida: ijij ex m Quando existe efeito de um fator a ijjij eax m Variância total: ART SSSSSS 368SSA= soma dos quadradosdos desvios graças ao fator a SSR= soma dos quadrados dos resíduos ANOVA divide, basicamente, a variabilidade em variabilidade Entre Grupos e variabilidade Dentro dos Grupos, e compara as duas. Quanto maior for a primeira comparada à segunda, maior será a evidência de que existe variabilidade entre grupo. Como funciona a ANOVA? 369 Tabela da ANOVA com 1 fator A variabilidade presente em um ensaio é analisada com o auxílio de um quadro padrão denominado Tabela da Análise de Variância. 370 Fonte de variação Graus de liberdade Soma dos quadrados (SQ) – Sum of Squares (SS) Quadrados médios (QM) – Mean Square (MS) F entre colunas (A) nas colunas (resíduos) total k-1 n-k n-1 SSA SSR SST SSA/(k-1) SSR/(n-k) MSA/MSR Fa;k-1;n-k Os quadrados médios (MS) são obtidos dividindo as somas de quadrados (SS) pelos respectivos graus de liberdade. Tabela da ANOVA com 1 fator 371 k = número de colunas; n = (no linhas x no colunas) A = fator; R = resíduos; T = total Coluna 1 (Fontes de Variação) Nesta coluna são descritas as causas de variabilidade dos dados do experimento. O interesse do pesquisador está em conhecer a variabilidade entre os TRATAMENTOS. As outras fontes de variabilidade são agrupadas em RESÍDUO (correspondente à variabilidade existente Dentro dos Tratamentos). Tabela da ANOVA com 1 fator 372 Variabilidade Entre Tratamentos (entre colunas) – provocada pelos tratamentos e por outras fontes de variabilidade. Variabilidade Dentro de Tratamentos (nas colunas) – provocada por várias fontes de variabilidade exceto tratamentos. Coluna 1 (Fontes de Variação) Tabela da ANOVA com 1 fator 373 Coluna 2 (Graus de Liberdade) A cada fonte de variação está associado um número de graus de liberdade. Graus de Liberdade do tratamento (entre colunas): Graus de Liberdade do resíduo (nas colunas): )1( k )( kn Tabela da ANOVA com 1 fator 374 Coluna 3 (Soma dos Quadrados - SS) São as somas dos quadrados dos desvios calculadas para cada fonte de variação. Tabela da ANOVA com 1 fator 375 Variância Total (expressa somente pelos desvios) k j n i ijT XxSS 1 1 2)( k j n i k j jjjijT XxnxxSS 1 1 1 22 )()( SSR SSA SSR= soma dos quadrados dos resíduos SSA= soma dos quadrados dos desvios graças ao fator a X média global 376 SST= soma dos quadrados totais A soma dos quadrados dos desvios graças ao fator a (entre colunas): A soma dos quadrados dos resíduos (nas colunas): ATR SSSSSS RTA SSSSSS 377 A soma dos quadrados totais: ART SSSSSS Coluna 4 (Quadrados Médios – MS) São obtidos pela razão entre as Somas dos Quadrados (SS) e os seus respectivos graus de liberdade. Pode-se demonstrar que são estimativas de variâncias porque divide-se a soma dos quadrados pelo número de graus de liberdade. Tabela da ANOVA com 1 fator 378 O quadrado médio do tratamento (entre colunas): )1( k SS MS AA O quadrado médio do resíduo (nas colunas): )( kn SS MS RR Note que os quadrados médios (MS) são obtidos dividindo as somas dos quadrados (SS) pelos respectivos graus de liberdade. 379 SSA= soma dos quadrados dos desvios graças ao fator a SSR= soma dos quadrados dos resíduos É o valor obtido para a estatística do teste F, dado pela razão entre o quadrado médio do Tratamentos (MSA) e o quadrado médio do Resíduo (MSR). Coluna 5 (Valor da estatística F – Fcal) Tabela da ANOVA com 1 fator 380 R A calc MS MS F )1( k SS MS AA )( kn SS MS RR Coluna 5 (Valor da estatística F – Fcal) 381 SSA= soma dos quadrados dos desvios graças ao fator a SSR= soma dos quadrados dos resíduos MSA= quadrado médio de tratamento (entre colunas) MSR= quadrado médio de resíduo (nas colunas) Para testar as hipóteses é utilizada a estatística F de Snedecor, com (k – 1) graus de liberdade no numerador e (n – k) graus de liberdade no denominador. Se Fcalc > Fa;k-1;n-k rejeita-se H0 e conclui-se que existe pelo menos uma média que difere de outra. Tabela da ANOVA com 1 fator 382 Se Fcalc > Ftab, rejeitar H0. Neste caso, dizemos que existem diferenças estatisticamente significativas entre as médias. Se Fcalc < Ftab, não rejeitar H0. Neste caso, dizemos que não existem evidências estatísticas de que as médias sejam diferentes. 383 384 SUPOSIÇÕES: * Populações normalmente distribuídas * Populações tem mesma variância (ou mesmo desvio padrão) * Amostras são aleatórias e mutuamente independentes * As diferentes amostras são obtidas de populações classificadas em apenas uma categoria 385 O estatístico George E. P. Box mostrou que os resultados são confiáveis desde que o tamanho das Se as distribuições são fortemente não normais devemos utilizar outros métodos, por exemplo, o teste de Kruskal-Wallis. amostras seja igual (ou quase igual); a diferença entre as variâncias pode ser de tal ordem que a maior seja nove vezes a menor. 386 HIPÓTESE ALTERNATIVA: nem todas a médias populacionais são iguais, ou seja: Pelo menos uma média é diferente, isto é, existe efeito do tratamento. Não quer dizer que todas as médias sejam diferentes (alguns pares podem ser iguais) H0: m1 = m2 = m3 = ... mk H1: Nem todas as médias populacionais são iguais Hipóteses do ANOVA de um critério HIPÓTESE NULA: a média de todas as populações é igual, ou seja, o tratamento (fator) não tem efeito (nenhuma variação em média entre os grupos). 387 https://edisciplinas.usp.br/pluginfile.php/3260534/mod_resource /content/1/T%C3%B3pico_13.pdf 388 https://edisciplinas.usp.br/pluginfile.php/3260534/mod_resource /content/1/T%C3%B3pico_13.pdf 389 https://edisciplinas.usp.br/pluginfile.php/3260534/mod_resource /content/1/T%C3%B3pico_13.pdf Exemplo: Determinação dos teores de ferro, em mg/100g, em uma formulação para vitaminas e sais minerais. Os valores foram determinados por absorção atômica (AAS). Cada conjunto de dados foi obtido por um método diferente de preparo das amostras. Existe efeito significativo, no nível de confiança 0,05, em algum dos métodos empregados? 390 Exemplo Dry Micro ZZC SZC LTA ZZF SZF j 1 2 3 4 5 6 7 1 5,59 5,67 5,75 4,74 5,52 5,52 5,43 2 5,59 5,67 5,47 4,45 5,47 5,62 5,52 3 5,37 5,55 5,43 4,65 5,66 5,47 5,43 4 5,54 5,57 5,45 4,94 5,52 5,18 5,43 5 5,37 5,43 5,24 4,95 5,62 5,43 5,52 6 5,42 5,57 5,47 5,06 5,76 5,33 5,52 média 5,48 5,58 5,47 4,80 5,59 5,43 5,48 desvio 0,11 0,089 0,16 0,23 0,11 0,15 0,05 391 Determinação dos teores de ferro, em mg/100g, em uma formulação para vitaminas e sais minerais, determinada por AAS. Concentração de ferro em uma formulação, determinada por AAS 4 4,2 4,4 4,6 4,8 5 5,2 5,4 5,6 5,8 6 0 1 2 3 4 5 6 7 8 C o n ce n tr aç ã o d e F er ro (n g /1 0 0g ) Métodos 392 DRY MICRO ZZC SZC LTA ZZF SZF Fonte de variação Graus de liberdade F entre colunas nas colunas total k-1=7-1= 6 n-k=42 – 7 = 35 n-1=42-1 = 41 SSA= 2,68342 SSR= 0,67608 SST= 3,35951 F0,05; 6; 35= 2,372 F0,001; 6; 35= 4,894 Tabela da ANOVA com 1 fator 393 Soma dos quadrados (SQ) – Sum of Squares (SS) Quadrados médios (QM) – Mean Square (MS) k = número de colunas; n = (no linhas x no colunas) SSA/(k-1)= 0,44724 SSR/(n-k)= 0,01932 MSA/MSR= 23,153 SSA= soma dos quadrados dos desvios graças ao fator a SSR= soma dos quadrados dos resíduos MSA= quadrado médio dos tratamentos (entre colunas) MSR= quadrado médio dos resíduos (nas colunas) 394 Resposta do Exemplo 35951,3)40,552,5()40,552,5()40,543,5(... ...)40,537,5()40,559,5()40,559,5( 222 222 k j n i ijT XxSS 1 1 2)( 40,5X SST= soma dos quadrados totais 395 k j n i k j jjjijT XxnxxSS 1 1 1 22 )()( SSR SSA 67608,0)48,552,5()48,552,5()48,543,5(... ...)43,547,5()43,562,5()43,552,5(... ...)59,566,5()59,547,5()59,552,5(... ...)80,465,4()80,445,4()80,474,4(... ...)47,543,5()47,547,5()47,575,5(... ...)58,555,5()58,567,5()58,567,5(......)48,537,5()48,559,5()48,559,5( 222 222 222 222 222 222 222 RSS Resposta do Exemplo 396 68342,2)40,548,5(6 )40,543,5(6)40,559,5(6)40,580,4(6 )40,547,5(6)40,558,5(6)40,548,5(6 2 222 222 ASS k j n i k j jjjijT XxnxxSS 1 1 1 22 )()( SSR SSA SSA= soma dos quadrados dos desvios graças ao fator a SSR= soma dos quadrados dos resíduos SST= soma dos quadrados totais Resposta do Exemplo 397 44724,0 )17( 68342,2 AMS 7k )1( k SS MS AA SSA= soma dos quadrados dos desvios graças ao fator a MSA= quadrado médio dos tratamento (entre colunas) Resposta do Exemplo 398 01932,0 )742( 67608,0 RMS 42n )( kn SS MS RR 7k SSR= soma dos quadrados dos resíduos MSR= quadrado médio dos resíduos (nas colunas) Resposta do Exemplo 399 153,23 01932,0 44724,0 calcF 372,235,6;05,0 F R A calc MS MS F Resposta do Exemplo Como Fcalc > Ftab, rejeitamos a hipótese nula (H0). Logo existem diferenças estatisticamente significativas entre as médias. Existe um efeito significativo em um dos métodos. E a suspeita recai sobre o método 4. 400 401 Como fazer isto no EXCEL??? 402 Resposta do Exemplo 403 Resposta do Exemplo 404 VAMOS FAZER NO EXCEL? 405 MAS TAMBÉM EXISTE OUTRA FORMA DE OBTER ESTES RESULTADOS NO EXCEL EXCEL Análise de Variância (ANOVA) Análise de variância com um fator - one-way ANOVA. Dados Análise de dados Ferramentas de análise Anova: fator único 406 407 Resposta do Exemplo 408 VAMOS FAZER NO EXCEL? EXCEL 409 EXCEL Exercício 12: Refazer o exemplo da concentração de ferro em uma formulação, determinada por AAS, usando o Excel Anova: fator único 410 11.2 Análise de variância com dois fatores - two-way ANOVA. 411 Serão avaliados dois fatores de interesse que influnciam numa variável dependente, seja de forma isolada ou simultaneamente; Na análise da variância com dois fatores, os fatores A e B podem influenciar na variável dependente de forma isolada, denominados efeitos principais, e de forma combinada, efeito de uma combinação específica dos fatores A e B. Análise de variância com dois fatores – two-way ANOVA 412 O teste de hipóteses para dois fatores A e B tem três hipóteses nulas: H0: Não há efeito principal do fator A H0: Não há efeito principal do fator B. H0: Não há combinação de efeitos. H1: Há efeito em cada um dos três casos. Análise de variância com dois fatores – two-way ANOVA 413 ANOVA com 2 fatores Medida: ijij ex m Quando existem efeitos de 2 fatores a e b ijljij ebax m Variância total: BART SSSSSSSS 414 415 Variância Total (expressa somente pelos desvios) Tabela de ANOVA com 2 fatores Fonte de variação Graus de liberdade F Interação Fator b Total (l-1) (k-1) l-1 l k (n-1) SSI SSR SST MSB=SSB/(l-1) MSR=SSR/l k (n-1) MSB/MSR Fa;k-1;n-k Fator a Resíduos k-1 l k - 1 SSB SSA MSA=SSA/(k-1) MSA/MSR 416 Soma dos quadrados (SQ) – Sum of Squares (SS) Quadrados médios (QM) – Mean Square (MS) k = no de níveis do fator a; l = no de níveis do fator b; n = no de replicatas MSI=SSI/(l-1) (k-1) MSI/MSR Exemplo: Análise de variância com dois fatores – two-way ANOVA A empresa de porte médio que manufatura autopeças para o mercado de reposição está tentando reduzir o tempo de produção de cada peça. O gerente de pesquisas testou dois processos diferentes e três dosagens de um novo aditivo químico para acelerar a secagem. Os tempos obtidos estão apresentados na tabela seguinte. Realizar uma análise da variância considerando o nível de significância de 5%. 417 Aditivo Processo 1 Processo 2 Dosagem 1 2,5 2,9 2,8 2,6 2,9 2,8 2,7 2,3 2,7 2,9 Dosagem 2 2,9 2,8 2,7 2,9 2,8 2,8 2,6 2,9 3,0 2,6 Dosagem 3 2,6 2,4 2,7 2,7 2,8 2,7 2,5 2,1 2,9 2,5 Exemplo: ANOVA com 2 fatores 418 Cada fator (fator A e fator B) tem um número de níveis: O fator A (processo), possui dois tipos diferentes de processos (processo 1 e processo 2). O fator B (aditivo), possui três dosagens diferentes de um determinado aditivo para acelerar a secagem (dosagem 1, dosagem 2 e dosagem 3). 419 Resposta do Exemplo: Esses dois fatores formam seis grupos de resultados com cinco repetições cada um. Neste tipo de análise da variância os grupos devem ter o mesmo número de observações ou repetições, neste caso cinco. Resposta do Exemplo: O teste de hipóteses para o fator Aditivo e o fator Processo tem três hipóteses nulas: H0: Não há efeito principal do fator Aditivo. H0: Não há efeito principal do fator Processo. H0: Não há combinação dos efeitos Aditivo e Processo. H1 : Há efeito em cada um dos três casos. 420 Resposta do Exemplo: Fonte de variação gl MS (QM) Fcalculado Amostra (Fator B) Colunas (Fator A) Total l-l=1 0,222 0,856 1,2 Interações Dentro k-1=2 0,048 0,074 0,111 0,048 0,037 0,036 3,1122 1,3458 1,0378 SS (SQ) valor-p 0,06 0,26 0,36 Fcrítico 3,4028 4,2596 3,4028 421 Soma dos quadrados (SQ) – Sum of Squares (SS) Quadrados médios (QM) – Mean Square (MS) (l-1)(k-1)=2 l = no de níveis do fator a; k = no de níveis do fator b; n = no de replicatas l k (n-1)=24 l k n – 1=29 Analisando os resultados da tabela ANOVA Teste da combinação de fatores (LINHA INTERAÇÕES) F calculado (1,037) < F crítico ou F tabelado (3,403), com nível de significância de 5%, a hipótese nula deve ser aceita. Se Fcalc < Ftab, não rejeitar H0. Quando isso ocorre, dizemos que não há interação dos efeitos Aditivo e Processo. 422 A aceitação da hipótese nula indica que a combinação dos fatores Aditivo e Processo não é significativa. Não há suficiente evidência de que a combinação de efeitos provocada pelos dois fatores influencie o tempo de produção. Analisando os resultados da tabela ANOVA Teste da combinação de fatores (LINHA INTERAÇÕES) 423 Resposta do Exemplo: Fonte de variação gl MS (QM) Fcalculado Amostra (Fator B) Colunas (Fator A) Total l-l=1 0,222 0,856 1,2 Interações Dentro k-1=2 0,048 0,074 0,111 0,048 0,037 0,036 3,1122 1,3458 1,0378 SS (SQ) valor-p 0,06 0,26 0,36 Fcrítico 3,4028 4,2596 3,4028 424 Soma dos quadrados (SQ) – Sum of Squares (SS) Quadrados médios (QM) – Mean Square (MS) (l-1)(k-1)=2 l = no de níveis do fator a; k = no de níveis do fator b; n = no de replicatas l k (n-1)=24 l k n – 1=29 Analisando os resultados da tabela ANOVA Teste do fator Aditivo (LINHA AMOSTRA) F calculado (3,11) < F crítico ou F tabelado (3,40), com nível de significância de 5%, a hipótese nula deve ser aceita. A aceitação da hipótese nula indica que o fator Aditivo não influencia o tempo de produção das autopeças. Não há suficiente evidência de que o fator Aditivo influencie o tempo de produção da autopeça. 425 Resposta do Exemplo: Fonte de variação gl MS (QM) Fcalculado Amostra (Fator B) Colunas (Fator A) Total l-l=1 0,222 0,856 1,2 Interações Dentro k-1=2 0,048 0,074 0,111 0,048 0,037 0,036 3,1122 1,3458 1,0378 SS (SQ) valor-p 0,06 0,26 0,36 Fcrítico 3,4028 4,2596 3,4028 426 Soma dos quadrados (SQ) – Sum of Squares (SS) Quadrados médios (QM) – Mean Square (MS) (l-1)(k-1)=2 l = no de níveis do fator a; k = no de níveis do fator b; n = no de replicatas l k (n-1)=24 l k n – 1=29 Analisando os resultados da tabela ANOVA Teste do fator Processo (LINHA COLUNAS) F calculado (1,34) < F crítico ou F tabelado (4,26), com nível de significância de 5%, a hipótese nula deve ser aceita. A aceitação da hipótese nula indica que o fator Processo não influencia o tempo de produção das autopeças. Não há suficiente evidência de que o fator Processo influencie o tempo de produção da autopeça. 427 428 Como fazer isto no EXCEL??? 429 Podemos construir a função no EXCEL como temos feito até o momento. Para este exemplo em particular, vai dar mais trabalho e vocêspodem fazer em casa 430 MAS TAMBÉM EXISTE OUTRA FORMA DE OBTER ESTES RESULTADOS NO EXCEL Dados Análise de dados Ferramentas de análise Anova: fator duplo com repetição EXCEL Análise de Variância (ANOVA) Análise de variância com dois fatores - two-way ANOVA. 431 432 Resposta do exemplo Processo 1 Processo 2 D o sa g e m 1 2,5 2,9 2,8 2,6 2,9 2,8 2,7 2,3 2,7 2,9 D o sa g e m 2 2,9 2,8 2,7 2,9 2,8 2,8 2,6 2,9 3,0 2,6 D o sa g e m 3 2,6 2,4 2,7 2,7 2,8 2,7 2,5 2,1 2,9 2,5 Anova: fator duplo com repetição RESUMO Processo 1 Processo 2 Total Dosagem 1 Contagem 5 5 10 Soma 13,6 13,5 27,1 Média 2,72 2,7 2,71 Variância 0,022 0,065 0,039 Dosagem 2 Contagem 5 5 10 Soma 14 14 28 Média 2,8 2,8 2,8 Variância 0,025 0,015 0,018 Dosagem 3 Contagem 5 5 10 Soma 13,5 12,4 25,9 Média 2,7 2,48 2,59 Variância 0,025 0,062 0,052 433 Resposta do exemplo Total Contagem 15 15 Soma 41,1 39,9 Média 2,74 2,66 Variância 0,023 0,060 ANOVA Fonte da variação SQ u MQ F valor-P F crítico Amostra 0,222 2 0,111 3,112 0,0628 3,4028 Colunas 0,048 1 0,048 1,346 0,2574 4,2597 Interações 0,074 2 0,037 1,037 0,3697 3,4028 Dentro 0,856 24 0,036 Total 1,2 29 434 VAMOS FAZER NO EXCEL? 435 ANOVA de fator duplo EXCEL 436 EXCEL Exercício 13: Refazer o exemplo da empresa de porte médio que manufatura autopeças para o mercado de reposição, usando o Excel Anova: fator duplo com repetição 437 438 LISTA DE EXERCÍCIOS 4 12. Teste de Valores Discrepantes (Aberrantes/Outliers) 439 Aberrantes/Outliers são definidos como membros de uma série de valores que são inconsistentes com os outros membros da série. Teste de Valores Discrepantes (Aberrantes/Outliers) Estes valores são aqueles resultados que diferem de uma série de medidas. 440 Em um conjunto de dados que se supõe seguir uma distribuição normal, um valor aberrante pode ser descoberto, e eliminado, com uso de testes. Existem vários testes de rejeição de dados e, dependendo do teste, em um mesmo conjunto podem ser detectados um ou mais de um resultado(s) suspeito(s). 441 Teste de Valores Discrepantes (Aberrantes/Outliers) Testes estatísticos para detectar valores aberrantes/outliers: - Teste de Dixon - Teste de Grubb’s 442 Teste de Valores Discrepantes (Aberrantes/Outliers) 12.1. Teste de Dixon 443 Teste de Dixon Está atualmente abolido. Não é mais recomendado por organismos mundiais, como a IUPAC (União Internacional de Química Pura e Aplicada). 444 12.2. Teste de Grubb’s 445 Teste de Grubb’s É recomendado pela EPA (Agência de Proteção Ambiental) O teste de Grubb’s detecta valores aberrantes, contudo é recomendado não ser utilizado em uma distribuição com n ≤ 6. 446 Teste de Grubb’s - Teste de Grubb’s para 1 valor aberrante - Teste de Grubb’s para 2 valores aberrantes 447 Teste de Grubb’s O teste de Grubb’s é primeiramente realizado verificando a existência de um valor aberrante em cada extremidade do conjunto. Se nesta primeira análise, um dos dois valores for considerado aberrante, ele é rejeitado, retirado do conjunto e novo teste, verificando a existência de um valor aberrante em cada extremidade do conjunto, é realizado e assim sucessivamente. 448 Caso contrário, se nesta primeira análise, ambos os valores forem aceitos como não aberrantes, o teste é então realizado verificando-se a existência de dois valores aberrantes em cada extremidade do conjunto. Teste de Grubb’s 449 Se nesta segunda análise os dois resultados de uma das extremidades forem considerados como aberrantes, eles devem ser rejeitados, retirados do conjunto e novo teste verificando a existência de dois valores aberrantes em cada extremidade do conjunto é realizado e assim sucessivamente. Teste de Grubb’s 450 Valores Aberrantes Teste de Grubb’s para 1 valor suspeito (pode ser o menor ou o maior) 1. Calcular valor de G (Gcalc) 2. Comparar com valor de G tabelado (Gtab ) ETAPAS s xx G icalc )( Se Gcalc > Gtab, o valor suspeito é aberrante. xi = valor suspeito de ser aberrante 451 452 Determinação de cloreto em água de rejeito 21,0 22,0 23,0 24,0 25,0 26,0 27,0 0 2 4 6 8 10 Análises C o n c e n tr a ç ã o d e c lo re to Exemplo 1: LEITURAS (mg/L) 22,1 22,4 22,9 23,0 23,5 23,7 23,9 26,5 453 206,2 36,1 )5,235,26( calcG 126,2tabG Gcalc > Gtab, o valor suspeito é aberrante 5,26ix 53,23x 36,1s 05,0a Dados n = 8 Exemplo 1: Determinação de cloreto em água de rejeito 454 s xx G icalc )( Vamos supor que as leituras sejam LEITURAS (mg/L) 22,1 22,4 22,9 23,0 23,5 23,7 23,9 26,5 26,0 683,1 68,1 )8,235,26( calcG 126,2tabG Gcalc < Gtab, o valor suspeito NÃO é aberrante 5,26ix 8,23x 68,1s 05,0a 8n Dados Exemplo 2: 455 456 Como fazer isto no EXCEL??? 457 Resposta do exemplo 458 VAMOS FAZER NO EXCEL? EXCEL 459 EXCEL Exercício 14: Refazer os exemplos 1 e 2 da determinação de cloreto em água de rejeito, usando o Excel Teste de Grubb’s para 1 valor suspeito 460 Valores Aberrantes Teste de Grubb’s para 2 valores suspeitos (podem ser os 2 menores ou os 2 maiores) 1. Calcular valor de G (Gcalc) 2. Comparar com valor de G tabelado (Gtab ) E T A P A S 0 ,1 SS SS G nncalc Se Gcalc < Gtab, o valor PAR suspeito é aberrante. SSn-1,n e SS1,2 = soma dos quadrados dos desvios depois da remoção do par suspeito 20 )( xxSS i ATENÇÃO !! 461 Determinação de cloreto em água de rejeito LEITURAS (mg/L) 22,1 22,4 22,9 23,0 23,5 23,7 26,0 26,5 21,0 22,0 23,0 24,0 25,0 26,0 27,0 0 2 4 6 8 10 Análises C o n c e n tr a ç ã o d e c lo re to Exemplo: 462 LEITURAS (mg/L) 22,1 22,4 22,9 23,0 23,5 23,7 26,0 26,5 Cálculo de SS0 8,23x 8n 52,180 SS 1022,0 52,18 89,1 calcG 1101,0tabG Gcalc < Gtab, o par é aberrante Cálculo de SS7,8 9,22x 8n 89,18,7 SS 463 464 Como fazer isto no EXCEL??? 465 Resposta do exemplo 466 VAMOS FAZER NO EXCEL? EXCEL 467 EXCEL Exercício 15: Refazer o exemplo da determinação de cloreto em água de rejeito, usando o Excel Teste de Grubb’s para 2 valores suspeitos 468 13. A Regressão Linear 469 A Regressão Linear É utilizada quando se deseja tirar informações de relações entre duas ou mais variáveis Relação: y = f(x) y = variável aleatória ou dependente (resposta) x = variável controlada ou independente (variável) Suposição: a variável independente não está sujeita a erros 470 471 A Regressão O procedimento de regressão envolve várias etapas: 1) Seleção de um modelo; 2) Estabelecimento do planejamento experimental, que significa a escolha do domínio experimental; 3) Estimativa dos parâmetros do modelo; 4) Validação do modelo e 5) Cálculo dos intervalos de confiança. 13.1. A estimativa dos parâmetros de regressão 472 A estimativa dos parâmetros de regressão A utilização de uma curva analítica para determinar a concentração de um analito em uma amostra é uma aplicação importante da regressão linear. A variável y representa a resposta da medida A variável x representa a concentração das soluções padrão. 473 Os erros inerentes ao preparo dos padrões são desprezíveis em comparação com os erros associados ao processo de medição. Portanto, presumir que a variável x seja exatamente conhecida, e não tenha erros, é perfeitamente plausível no processo de calibração. 474 A estimativa dos parâmetros de regressão A variável x é a variável independente A variável y é a variável dependente 475 A estimativa dos parâmetros de regressão A calibração pode ser obtida por ajuste de um modelo matemático adequado através dos dados experimentais. A reta ajustada pelos mínimos quadrados minimiza a soma dos quadrados dos resíduos. Onde: O resíduo di é o desvio associado à medida yi em relação ao valor previsto pela reta de regressão ŷi. 476 A estimativa dosparâmetros de regressão A reta estimada, que é uma estimativa da verdadeira mas desconhecida reta, é também chamada de reta dos mínimos quadrados, quando a estimativa é realizada pelo método dos mínimos quadrados. iii yyd ˆ iŷ y x di xi iy iii yyd ˆ xbby 10ˆ Desvio do valor previsto pela reta de regressão Deseja-se minimizar di 477 A estimativa dos parâmetros de regressão Método dos Mínimos Quadrados O método dos mínimos quadrados é um critério para ajustar a reta da regressão, no objetivo de encontrar b0 e b1. n i n i n i iiiii xbbyyydD 1 1 1 2 10 22 )()ˆ( Deseja-se minimizar D, a soma dos quadrados dos resíduos 478 Método dos Mínimos Quadrados Ao ser estabelecida a condição de que a soma dos quadrados dos desvios seja um valor mínimo, exige-se que sejam aplicados conceitos de cálculo diferencial e derivadas parciais, por serem duas as variáveis. Aplicando-se essa condição na equação anterior, chega-se aos coeficientes do modelo (b0 e b1). 479 Método dos Mínimos Quadrados xby n xby b ii 1 1 0 21 )( ))(( xx yyxx b i ii n x x n i i 1 n y y n i i 1 480 Variância Residual Um outro parâmetro estatístico importante na análise de regressão é a variância residual, isto é, variância da amostra, s2e. 2 )ˆ( 2 22 2 . 2 n yy n d ss iiixye O denominador (n-2) resulta do fato da reta ajustada necessitar estimar dois parâmetros, b0 e b1. 481 A variância residual é uma medida da dispersão dos resultados em torno da reta de regressão. Consequentemente, representa a variância na resposta, que não pode ser contabilizada, ou não explicada, para a reta de regressão. Se o modelo estiver correto, s2e é uma estimativa da variância das medições, também chamado puro erro experimental. 482 Variância Residual 483 2 2 22 )( ))(( )()ˆ( xx yyxx yyyy i ii iii Variância Residual Para cálculos manuais, a soma dos quadrados dos resíduos, , na equação anterior pode ser obtida a partir de: 2)ˆ( ii yy 484 Dados de calibração da quininaExemplo: i 1 2 3 4 5 6 xi (ng/mL) 0,1 10,0 20,0 30,0 40,0 50,0 y1 (I) 4,1 20,7 44,4 62,1 77,7 105,4 y2 (I) 3,6 21,6 44,8 61,6 78,2 104,9 y3 (I) 4,3 21,3 44,6 61,7 78,1 105,3 Usando os dados acima: a) calcule os coeficientes da reta y = b0+ b1x b) construa o gráfico com a curva analítica c) calcule a variância residual A resposta yi representa a intensidade de fluorescência (I) em unidades arbitrárias. 485 a) calcule os coeficientes da reta y = b0+ b1x 6n Resposta do Exemplo: 486 a) calcule os coeficientes da reta y = b0+ b1x Resposta do Exemplo: 487 Portanto: a) calcule os coeficientes da reta y = b0+ b1x Resposta do Exemplo: 488 b) construa o gráfico com a curva analítica Curva analítica para a determinação fluorimétrica da quinona. Resposta do Exemplo: y = 1,9846x + 2,8184 R² = 0,9948 0 20 40 60 80 100 120 0 10 20 30 40 50 60 mg/mL 489 c) calcule a variância residual (s2e) A partir desta reta ajustada, a variância residual (s2e) pode ser calculada como se segue: 0 4,0 3,0 1,0 1,0 10 21,2 22,7 -1,5 2,1 20 44,6 42,5 2,1 4,4 30 61,8 62,4 -0,6 0,3 40 78,0 82,2 -4,2 17,7 50 105,2 102,0 3,2 9,9 ix iy iŷ )ˆ( iii yyd 2 id 0id Resposta do Exemplo: 490 c) calcule a variância residual (s2e) 6n Resposta do Exemplo: 491 Como fazer isto no EXCEL??? 492 Resposta do Exemplo 493 Resposta do Exemplo 494 Resposta do Exemplo 495 VAMOS FAZER NO EXCEL? O coeficiente de correlação é uma medida adimensional, isto é, ele é independente das unidades de medida das variáveis x e y. Coeficiente de Correlação 22 )()( ))(( yyxx yyxx r ii ii Com o objetivo de verificar se os pontos experimentais se ajustam a uma reta, calcula-se o coeficiente de correlação r, dado por: 496 Correlação negativa: quando r < 0, e nesse caso à medida que x cresce, decresce y (em média). 497 Correlação positiva: quando r > 0, e nesse caso à medida que x cresce, também cresce y (em média). r pode variar de (-1) a (+1) Coeficiente de Correlação 498 Quanto maior o valor de r (positivo ou negativo), mais forte a associação entre as variáveis x e y. Quanto mais próximo de +1 for r, maior o grau de relacionamento linear positivo entre as variáveis x e y. Quanto mais próximo de -1 for r, maior o grau de relacionamento linear negativo entre as variáveis x e y. Quanto mais próximo de zero for r, menor será o relacionamento linear entre as variáveis x e y. Coeficiente de Correlação Não se verificar correlação linear, não significa que não se verifique outro tipo de correlação, por exemplo, exponencial. 499 Um valor de r igual a zero, indicará ausência apenas de relacionamento linear. Coeficiente de Correlação 500 As interpretações dependem de cada contexto em particular Coeficiente de Correlação 501 Coeficiente de Correlação r = 0,75 r = -0,32 r = -0,95 r = 0 r = 0 r = 1 502 Como fazer isto no EXCEL??? 503 Resposta do Exemplo 504 VAMOS FAZER NO EXCEL? 505 MAS TAMBÉM EXISTE OUTRA FORMA DE OBTER TODOS ESTES RESULTADOS NO EXCEL Dados Análise de dados Ferramentas de análise Regressão EXCEL Coeficiente de Correlação 506 507 508 Estatística de Regressão R múltiplo – É o coeficiente de correlação (r). R-quadrado – É o coeficiente de determinação (r2) da regressão. R-quadrado ajustado – Idem ao R-quadrado, porém ajustado levando em conta o número de variáveis independentes. Erro padrão – É o erro padrão da estimativa (Se). É o desvio padrão do modelo, dado pela raiz quadrada da variância residual. Observações – É o número de valores das amostras que devem ter o mesmo tamanho. 509 R-quadrado ajustado – É o coeficiente de determinação ajustado (r2 ajustado), medida utilizada em regressão linear múltipla. Partindo da regressão linear simples, com uma única variável independente, o significado do coeficiente de determinação é a porcentagem de explicação dessa regressão. Ao adicionar uma ou mais variáveis independentes, demonstra-se que o r2 não deverá diminuir, devendo aumentar em alguns casos. O r2 ajustado tenta compensar o aumento natural de explicação provocado pelo aumento do número de variáveis independentes e o tamanho da amostra. 510 Estatística de Regressão 511 Estatística de Regressão Onde: n é o número de valores das amostras k é o número de variáveis independentes À medida que n aumenta, r2 ajustado se aproxima de r2. Esse ajuste pode ser útil para comparar projeções de uma mesma variável dependente realizada com número diferente de variáveis independentes. 512 Estatística de Regressão Erro padrão da estimativa – Ao ajustar uma reta, espera-se que ela explique o grupo de valores amostrados. Embora a reta de regressão tenha sido obtida minimizando a soma dos quadrados dos desvios, sempre haverá uma variabilidade dos dados ao redor da reta, exceto se os dados fizerem parte da própria reta de regressão. O desvio padrão dos dados ao redor da reta de regressão é denominado erro padrão da estimativa Se, cuja medida é obtida da variância com (n-2) graus de liberdade. 513 Como fazer isto no EXCEL??? 514 Funções estatísticas do Excel EPADYX (val_conhecidos_y; val_conhecidos_x) A função estatística EPADYX retorna o erro padrão da estimativa Se da reta de regressão , considerando os valores das amostras informadas nos argumentos val_conhecidos_y e val_conhecidos_x. xbby 10ˆ 515 VAMOS FAZER NO EXCEL? 516 Erro padrão da reta EXCEL Exercício 16: Usando os dados a seguir: a) calcule os coeficientes da reta y = b0+ b1x b) construa o gráfico com a curva analítica c) calcule o coeficiente de determinação (r2) Regressão X = variável controlada ou independente (variável) Y = variável aleatória ou dependente (resposta) 2 2 3 5 4 7 5 10 6 11 517 EXCEL 518 Efeito de valores aberrantes na regressão linear -2 02 4 6 8 10 12 0 1 2 3 4 5 6 x y -2 0 2 4 6 8 10 0 1 2 3 4 5 6 7 8 9 x y 519 -2 0 2 4 6 8 10 12 0 1 2 3 4 5 6 x y -2 0 2 4 6 8 10 12 0 1 2 3 4 5 6 x y Efeito de valores aberrantes na regressão linear 520 13.2. A Validação do Modelo 521 522 A Validação do Modelo É importante para verificar: 1) se o modelo selecionado está correto (por exemplo, o modelo é realmente uma linha reta ou os dados são melhor descritos por uma curva) e 2) as suposições de normalidade e variância constante dos resíduos. ANÁLISE DE RESÍDUOS ANÁLISE DE VARIÂNCIA (ANOVA) 13.2.1 A Análise de Resíduos 523 Análise de Resíduos Para a validação de um modelo é necessário verificar a sua adequação ao descrever a relação entre as duas variáveis x e y, e também analisar a suposição de normalidade e variância constante dos resíduos. 524 Análise de Resíduos Quando o modelo proposto é linear, a aplicação da regressão linear assume que: - para cada xi, os resíduos (di) fazem parte de uma população distribuída com média zero; - os resíduos (di) são independentes e - os resíduos (di) possuem a mesma variância. 525 Análise de Resíduos O resíduo (di) é a diferença entre o valor medido (y) e a previsão da reta (ŷ), e pode ser descrito segundo a equação: 526 iii yyd ˆ Análise de Resíduos Uma boa modelagem não estaria completa sem uma investigação da exatidão das mesmas. A existência e consequente transgressão de algumas das suposições permitem evitar o emprego de modelos que acarretem baixa confiabilidade nos resultados. Uma das maneiras de investigar o problema é estudando as discrepâncias entre os valores observados e os ajustados, ou seja, a ANÁLISE DE RESÍDUOS. 527 Análise de Resíduos Através da análise de resíduos é possível avaliar se o modelo empregado está correto, e ainda, fazer previsões a respeito de seu comportamento, ou seja, verificar sua HOMO ou HETEROCEDASTICIDADE. 528 Resíduos ANÁLISE RESÍDUO 1 2 3 4 5 6 7 8 9 10 -2,5 -6,5 7,5 1,5 -5,0 1,0 7,0 -2,0 8,5 -1,5 ANÁLISE 11 12 13 14 15 16 17 18 19 20 1,5 -7,5 0 -7,0 6,0 -4,0 -4,5 -5,5 9,5 -0,6 RESÍDUO Análise de Resíduos 529 -10 -5 0 5 10 15 0 2 4 6 8 10 12 14 16 18 20 Análise R e s íd u o Gráfico de Resíduos 530 -6 -4 -2 0 2 4 6 8 0 2 4 6 8 10 12 14 análise re s íd u o -3 -2 -1 0 1 2 3 0 2 4 6 8 10 12 14 análise re s íd u o -6 -4 -2 0 2 4 6 8 0 1 2 3 4 5 6 7 análise re s íd u o Gráfico de Resíduos 531 532 Curva analítica de Ca, obtida a partir da espectrometria de absorção atômica de chama Gráfico de resíduos correspondentes Exemplo: 533 Observa-se um padrão incomum de resíduos positivos e negativos. Os 19 resíduos são organizados em 5 grupos de respectivamente, 6 resíduos negativos, 9 resíduos positivos, 1 resíduos negativo, 1 resíduo positivo e 2 resíduos negativos (em sequência). A probabilidade de que a disposição dos 19 resíduos, em 5 grupos de resíduos positivos e negativos, seja aleatória é inferior a 5%. Portanto, uma disposição não aleatória foi detectada e pode ser atribuída a um (pequeno) desvio da linearidade da curva analítica do Ca em baixa faixa de concentração. Resposta do Exemplo: 534 Como fazer isto no EXCEL??? 535 CURVA ANALÍTICA 536 GRÁFICO DE RESÍDUOS 537 VAMOS FAZER NO EXCEL? 538 MAS TAMBÉM EXISTE OUTRA FORMA DE OBTER ESTES RESULTADOS NO EXCEL Dados Análise de dados Ferramentas de análise Regressão – Resíduos – Plotar resíduos EXCEL Análise de Resíduos 539 540 Análise de Resíduos 541 VAMOS FAZER NO EXCEL? EXCEL 542 EXCEL Exercício 17: d) Construa o gráfico de resíduos a partir dos dados a seguir: Regressão X = variável controlada ou independente (variável) Y = variável aleatória ou dependente (resposta) 2 2 3 5 4 7 5 10 6 11 543 13.2.2 A Análise de Variância 544 545 Análise de Variância A análise de variância (ANOVA) pode ser usada para detectar a falta de ajuste na regressão, a fim de verificar se o modelo escolhido é o correto. Portanto, as replicatas das medições são necessárias. 546 Análise de Variância k i n j ijT yySS 1 1 2)( A variação total dos valores de y sobre o valor médio, , como descrito pela soma dos quadrados totais, SST, é dada por: y ijy , uma das ni medições repetidas em xi in , o número de medições repetidas feitas em xi nn k i i 1 , o número total de observações, incluindo todas as medições repetidas k, o número de níveis, isto é, diferentes valores de x y, a média de todas as observações (grande média) 547 Análise de Variância k i n j ijT yySS 1 1 2)( 2 1 2 11 1 2 )ˆ()ˆ()( yynyynyy k i k i k i n j ij iiiiii SSR SSREG SSEP SSFDA SSR= soma dos quadrados dos resíduos SSREG= soma dos quadrados da regressão linear SST= soma dos quadrados totais FDAEPR SSSSSS REGRT SSSSSS 548 Análise de Variância na curva analítica SST= soma dos quadrados totais SSR= soma dos quadrados dos resíduos SSREG= soma dos quadrados da regressão linear SSEP= soma dos quadrados do erro puro SSFDA= soma dos quadrados da falta de ajuste Fonte de variação Graus de liberdade Soma dos quadrados (SQ) – Sum of Squares (SS) Quadrados médios (QM) – Mean Square (MS) F Regressão Resíduo Total l n-2 n-k SSREG SSR SSEP SSREG/l SSR/(n-2) MSREG/MSR Fa;k-2;n-k Tabela da ANOVA do modelo de regressão com observações repetidas 549 k = número de níveis, isto é, diferentes valores de x n = número total de observações, incluindo todas as medições repetidas Falta de ajuste Erro puro k-2 SSFDA SSFDA/(k-2) MSFDA/MSEP n-l SST SSEP/(n-k) Coluna 1 (Fontes de Variação) Tabela da ANOVA 550 Nesta coluna são descritas as causas de variabilidade dos dados do experimento. 551 Tabela da ANOVA Coluna 2 (Graus de Liberdade) A cada fonte de variação está associado um número de graus de liberdade. Graus de Liberdade do Resíduo: )2( n Graus de Liberdade da Falta de Ajuste: )2( k Graus de Liberdade do Erro Puro: )( kn Coluna 3 (Soma dos Quadrados - SS) São as somas dos quadrados dos desvios calculadas para cada fonte de variação. 552 Tabela da ANOVA Coluna 4 (Quadrados Médios – MS) São obtidos pela razão entre as Somas dos Quadrados (SS) e os seus respectivos graus de liberdade. Pode-se demonstrar que são estimativas de variâncias porque divide-se a soma dos quadrados pelo número de graus de liberdade. 553 Tabela da ANOVA O quadrado médio do resíduo )2( n SS MS RR O quadrado médio da falta de ajuste: )2( k SS MS FDAFDA 554 SSR= soma dos quadrados dos resíduos SSFDA= soma dos quadrados da falta de ajuste O quadrado médio do erro puro: )( kn SS MS EPEP SSEP= soma dos quadrados do erro puro É o valor obtido para a estatística do teste F, dado pela razão entre o quadrado médio da falta de ajuste (MSFDA) e o quadrado médio do erro puro (MSEP). Coluna 5 (Valor da estatística F – Fcal) 555 Tabela da ANOVA EP FDA calc MS MS F Coluna 5 (Valor da estatística F – Fcal) 556 MSFDA= quadrado médio da falta de ajuste MSEP= quadrado médio do erro puro )2( k SS MS FDAFDA )( kn SS MS EPEP SSFDA= soma dos quadrados da falta de ajuste SSEP= soma dos quadrados do erro puro Para testar as hipóteses é utilizada a estatística F de Snedecor, com (k – 2) graus de liberdade no numerador e (n – k) graus de liberdade no denominador. Se Fcalc > Fa;k-2;n-k rejeita-se H0 e conclui-se que o termo da falta de ajuste é altamente significativa e, consequentemente, o modelo linear não é adequado para descrever a relação entre y e x. Logo, o modelo escolhido não é o correto. 557 Tabela da ANOVA Se Fcalc > Ftab, rejeitar H0. Neste caso, dizemos que o modelo linear não é adequado para descrever a relação entre y e x. Logo, o modelo escolhido não é o correto. Se Fcalc < Ftab, não rejeitar H0. Neste caso, dizemos que omodelo linear é adequado para descrever a relação entre y e x. Logo, o modelo escolhido é o correto. 558 559 Exemplo Verifique a falta de ajuste do modelo por meio da ANOVA Dados de calibração Xi = variável controlada ou independente (variável) 0,5 0,50 0,48 0,46 1,44 0,48 0,775 1 1,20 1,25 1,22 3,67 1,22 1,204 2 2,10 2,20 2,16 6,46 2,15 2,060 3 3,45 3,49 3,39 10,33 3,44 2,917 4 3,71 3,92 3,88 11,51 3,84 3,774 5 4,32 4,27 4,25 12,84 4,28 4,631 Yij = variável aleatória ou dependente (resposta) ijy iy iŷ 560 Informações: Equação do modelo k = número de níveis, isto é, diferentes valores de x 6k n = número total de observações, incluindo todas as medições repetidas , a média de todas as observações (grande média) Fonte de variação Graus de liberdade Soma dos quadrados (SQ) – Sum of Squares (SS) Quadrados médios (QM) – Mean Square (MS) F Regressão Resíduo Total l n-2=18-2=16 n-k=18-6=12 SSREG=33,50 SSR= 1,484 SSEP=0,040 MSREG=33,50 MSR=0,092 364,13 Fa;k-2;n-k Tabela da ANOVA do modelo de regressão com observações repetidas 561 k = número de níveis, isto é, diferentes valores de x n = número total de observações, incluindo todas as medições repetidas Falta de ajuste Erro puro k-2=6-2=4 SSFDA= 1,444MSFDA=0,3611 109,23 n-l=18-1=17 SST=34,98 MSEP=0,0033 F0,05;4;5 562 Resposta do exemplo k i n j ijT yySS 1 1 2)( ଶ ଶ ଶ ଶ ଶ ଶ ଶ ଶ ଶ ଶ ଶ ଶ 563 Resposta do exemplo REGRT SSSSSS REGFDAEPT SSSSSSSS REGEPTFDA SSSSSSSS 1,444 564 Resposta do exemplo )2( k SS MS FDAFDA MSFDA= quadrado médio da falta de ajuste SSFDA= soma dos quadrados da falta de ajuste 6k 565 Resposta do exemplo )( kn SS MS EPEP MSEP= quadrado médio do erro puro SSEP= soma dos quadrados do erro puro Como Fcalc > Ftab, rejeitar H0. Neste caso, dizemos que o modelo linear não é adequado para descrever a relação entre y e x. Logo, o modelo escolhido não é o correto. 566 Resposta do exemplo EP FDA calc MS MS F 567 Como fazer isto no EXCEL??? EXCEL 568 EXCEL Exercício 18 Refazer o exemplo da falta de ajuste do modelo, usando o Excel 569 14. Avaliação da homogeneidade das variâncias (homocedasticidade) 570 Qualquer método quantitativo que siga um modelo de regressão linear deve apresentar uma curva analítica onde as variâncias, obtidas para cada concentração distinta da reta, apresentem valores significativamente constantes (homogeneidade das variâncias). Isto é o que denominamos HOMOCEDASTICIDADE 571 O método dos mínimos quadrados supõe que os resíduos têm a mesma variância* Então, para cada xi as respostas yi têm distribuição normal * Na calibração isto significa que a precisão das medições é independente do valor da concentração. Esta condição de variância uniforme é chamada HOMOCEDASTICIDADE 572 Quando as variâncias aumentam conforme o aumento da concentração da espécie analisada, a condição de homocedasticidade é violada Isto é o que denominamos HETEROCEDASTICIDADE 573 Quando a condição de homocedasticidade é violada (heterocedasticidade), é preciso realizar uma transformação ponderada da reta, transformado a heterocedasticidade em homocedasticidade, para sua utilização. Para avaliar a homo ou heterocedasticidade de um método, podemos utilizar o teste de Cochran 574 Teste de Cochran 575 Teste de Cochran Este teste avalia o desvio bilateral das variâncias a um nível de significância de 5%. A única limitação para sua utilização é que o número de replicatas (n) deve ser igual para todas as séries de medições. Comparação de Variâncias 576 1. Calcular valor de C (Ccalc) 2. Comparar com valor de C tabelado (Ctab) ETAPAS n i i Max calc s s C 1 2 2 s2Max = maior valor de variância (variância máxima) Comparação de Variâncias Teste de Cochran Ss2 = somatório de todas as variâncias 577 578 Comparação de Variâncias Teste de Cochran Ao aplicar este teste, temos: 1º) Se Ccal < Ctab Neste caso, as variâncias são significativamente iguais, sendo possível agrupá-las. (COMPORTAMENTO HOMOCEDÁSTICO). 2º) Se Ccal > Ctab Neste caso, as variâncias não são iguais. Então temos um COMPORTAMENTO HETEROCEDÁSTICO, necessitando sua transformação em HOMOCEDÁSTICO. 579 k = 7 (número de concentrações) n = 6 (número de replicatas) s2Max = 0,052 Ss2 = 0,135 Ccalc = 0,052/0,135 =0,382 Ctab = 0,397 Ccalc < Ctab – COMPORTAMENTO HOMOCEDÁSTICO s12 =0,011 s22 =0,008 s32 =0,027 s42 =0,052 s52 =0,012 s62 =0,024 s72 =0,002 580 Exemplo 581 Como fazer isto no EXCEL??? 582 583 VAMOS FAZER NO EXCEL? EXCEL 584 EXCEL Exercício 19 Refazer o exemplo da concentração de ferro em uma formulação, determinada por AAS, usando o Excel 585 Definido o COMPORTAMENTO HETEROCEDÁSTICO da curva analítica, devemos transformar a HETEROCEDASTICIDADE em HOMOCEDASTICIDADE Para isto, emprega-se a TÉCNICA DA TRANSFORMAÇÃO DE DADOS 586 Se a condição de homocedasticidade é violada, o simples procedimento de mínimos quadrados não pode ser utilizado sem reduzir a confiabilidade das estimativas. O problemas da variância não-constante (heterocedasticidade) pode ser resolvido por uma transformação de variáveis ou utilizando um procedimento de mínimos quadrados ponderados. 587 Heterocedasticidade Os dados podem ser transformados de modo que passem a ter distribuição aproximadamente normal e as médias e variâncias se tornem independentes, resultando também em variâncias homogêneas. 588 Heterocedasticidade Transformação de Dados 589 Heterocedasticidade 1. Transformação da Raiz quadrada; 2. Transformação Logarítmica e 3. Mínimos quadrados ponderados A escolha adequada depende, em parte, da experiência do usuário. Transformação de Dados 590 A transformação a ser utilizada depende da função da variância, isto é, o modo como a variância dos valores de y, s2y, muda como uma função da resposta. Heterocedasticidade Transformação de Dados 591 Heterocedasticidade 1. Transformação da Raiz quadrada Se a variância for proporcional a y, uma transformação raiz quadrada deve ser aplicada e dará uma variância constante. xbby 10 As médias obtidas com os dados transformados são convertidas para a escala original através da operação inversa, ou seja, sendo elevadas ao quadrado. Heterocedasticidade Se a variância for proporcional a y2, o que significa que sy é proporcional a y, isto é, o desvio padrão relativo (DPR) é constante, uma transformação logarítmica deve ser aplicada. )log()log( 10 xbby 592 2. Transformação Logarítmica As médias obtidas na escala logarítmica são convertidas para a escala original através da operação inversa, ou seja, utilizando-se antilogarítmos dos valores obtidos para essas médias. Exemplo: 593 Resultados Calibração Pb-ICP. Heterocedasticidade com desvio padrão relativo constante (relative standard deviation, RSD) Transformação Logarítmica x (µg.mL-1) y y sy RSD (%) 1,5 1,02 1,06 0,04 3,771,5 1,10 1,5 1,06 2,0 5,59 5,49 0,146 2,662,0 5,32 2,0 5,55 2,5 10,24 10,24 0,355 3,472,5 9,88 2,5 10,59 3,0 15,39 15,39 0,715 4,653,0 14,67 3,0 16,10 3,5 22,74 22,74 1,135 4,993,5 23,87 3,5 21,60 594 595 596 Ambas as variáveis y e x são transformadas para evitar gráficos em linhas retas, tornando-se curvado após a transformação raiz quadrada ou a transformação logarítmica. Deve-se entender que a transformação é realizada para estabilizar a variância e não necessariamente para preservar a relação linear. A transformação logarítmica leva a uma linha reta apenas quando o intercepto é zero ou perto de zero, o que geralmente é verdadeiro em calibração. Resposta do exemplo 597 O que se pode observar desta tabela ? Resposta do exemplo x y sy RSD(%) slog(y) RSDlog(y)(%) sln(y) RSDln(y)(%) 1,5 1,1 0,04 3,77 0,016 0,15 0,038 0,34 2,0 5,5 0,15 2,66 0,012 0,11 0,027 0,24 2,5 10,2 0,36 3,47 0,015 0,14 0,035 0,323,0 15,4 0,72 4,65 0,020 0,18 0,047 0,42 3,5 22,7 1,14 4,99 0,022 0,20 0,050 0,46 Dados originais 598 Resposta do exemplo Quando os dados têm uma distribuição heterocedástica, o RSD(%) para cada nível de concentração permanece razoavelmente constante. Porém, o desvio padrão aumenta muito. A transformação log ou ln conseguem reduzir muito o desvio padrão de cada nível de concentração. O RSD(%) dos dados transformados permanecem razoavelmente constantes. Numa distribuição homocedástica tanto o RSD(%) quanto o desvio padrão para os níveis de concentração são razoavelmente constantes. 599 Na regressão pelos mínimos quadrados ponderados, o problema da heterocedasticidade é superado pela introdução de fatores de ponderação inversamente proporcionais à variância. Heterocedasticidade 3. Mínimos quadrados ponderados 2 1 iy i s w iw = peso 2 iy s = variância de Yi Dá-se peso inversamente proporcional as variâncias. 600 Desta forma, a maior importância é dada para as observações mais precisas. Isso significa que precisamos calcular a reta que passa mais perto destes pontos do que dos pontos menos precisos. A inclinação e o intercepto são, então, dados por: Heterocedasticidade 21 )( ))(( wii wiwii xxw yyxxw b ww xbyb 10 3. Mínimos quadrados ponderados i ii w w xw x i ii w w yw y wx = média dos valores corrigidos de Xi wy = média dos valores corrigidos de Yi Xi = valor da variável controlada ou variável independente Yi = valor da variável resposta ou variável dependente Heterocedasticidade 601 iw = peso 3. Mínimos quadrados ponderados Após a aplicação destas equações, originamos uma nova reta ( ), a qual deverá ser utilizada para fins de quantificação. ww xbby 10 Heterocedasticidade 602 3. Mínimos quadrados ponderados 603 O uso dos mínimos quadrados ponderados requer informações sobre os erros (variações) que ocorrem nos diferentes níveis de concentração. Esta informação deve ser obtida experimentalmente a partir um grande número de medições repetidas ou pode ser obtida a partir da função variância relativa a variância das medições, , para y. Heterocedasticidade 2 iy s 3. Mínimos quadrados ponderados 604 Se variância das medições, , para y é conhecida, a variação pode ser estimada a partir desta relação funcional. O procedimento de mínimos quadrados ponderados não deve ser usado para corrigir dados ruins. Heterocedasticidade 2 iy s 3. Mínimos quadrados ponderados 605 Exemplo: 10 22 20 21 22 21 21,2 0,84 0,70 20 44 46 45 44 44 44,6 0,89 0,80 30 60 63 60 63 63 61,8 1,64 2,69 40 75 81 79 78 77 78,0 2,24 5,02 50 104 109 107 101 105 105,2 3,03 9,18 ix iy iy is 2 i s Comparação de Variâncias Teste de Cochran Dados de calibração da quinina. A resposta yi representa a intensidade de fluorescência (I) em unidades arbitrárias. Mínimos quadrados ponderados k = 6 (número de concentrações) n = 5 (número de replicatas) s2Max = 9,18 Ss2 = 18,89 Ccalc = 9,18/18,89=0,486 Ctab = 0,480 Ccalc > Ctab – COMPORTAMENTO HETEROCEDÁSTICO s12 =0,50 s22 =0,70 s32 =0,80 s42 =2,69 s52 =5,02 s62 =9,18 606 Teste de Cochran Resposta do Exemplo: Definido o COMPORTAMENTO HETEROCEDÁSTICO da curva analítica, devemos transformar a HETEROCEDASTICIDADE em HOMOCEDASTICIDADE Para isto, empregaremos os MÍNIMOS QUADRADOS PONDERADOS 607 Resposta do Exemplo: 608 609 10 21,2 0,84 1,43 -9 -36 116 467 20 44,6 0,89 1,25 1 -32 1 -39 30 61,8 1,64 0,37 11 -28 45 -114 40 78,0 2,24 0,20 21 -25 88 -104 50 105,2 3,03 0,11 31 -19 104 -66 ix iy is 21 iy i s w )( wi xx )( wi yy 2)( wii xxw ))(( wiwii yyxxw Cálculos para a reta de regressão ponderada. Resposta do Exemplo: 354 143 610 i ii w w xw x i ii w w yw y 21 )( ))(( wii wiwii xxw yyxxw b Resposta do Exemplo: =(63,83/3,36)= 19,01 =(135,94/27,19)= 40,49 =(714,88/354,44)= 2,017 =(40,49 –(2,017*19,01)) = 2,142ww xbyb 10 611 A equação de regressão ponderada é: Esta equação é muito semelhante à equação de regressão não ponderada: Ambas as retas irão produzir resultados semelhantes quando usados para prever uma concentração. Contudo, as diferenças se tornam evidentes nos erros de previsão. Resposta do Exemplo: ŷ = 2,142 + 2,017x ŷ = 1,740 + 2,104x 612 Como fazer isto no EXCEL??? 613 614 VAMOS FAZER NO EXCEL? EXCEL 615 EXCEL Exercício 20 Refazer o exemplo dos mínimos quadrados ponderados, usando o Excel 616 617 15. Comparação da Inclinação de Duas Retas 618 Comparação da Inclinação de Duas Retas A comparação entre as inclinações de duas retas é uma ferramenta útil na validação de métodos analíticos. 619 Comparação da Inclinação de Duas Retas A comparação entre as inclinações de duas retas (representadas como b11 e b12, respectivamente) pode ser realizada por meio do teste t: 1211 22 1211 bb ss bb t b11= coeficiente angular da reta 1 b12= coeficiente angular da reta 2 620 Comparação da Inclinação de Duas Retas 1 11 1 2 11 1 2 2 )( n i i e b xx s s 2 12 1 2 22 2 2 2 )( n i i e b xx s s n1 = número de concentrações da reta 1 n2 = número de concentrações da reta 2 s2e1 = variância residual da reta 1 s2e2 = variância residual da reta 2 xi = valores de concentração 621 2 )ˆ( 2 22 2 n yy n d s iiie Cálculo das variâncias residuais das retas 1 ( ) e 2 ( ) 2 1es 2 2es O denominador (n-2) resulta do fato da reta ajustada necessitar estimar dois parâmetros, b0 e b1. Onde: di= resíduo n = número de concentrações da reta 12110 : bbH Calcular t Comparar com t tabelado 622 Calcular t maneira 1 Comparar com t tabelado Calcular t maneira 2 2 2 2 1 ee ss 623 12110 : bbH 2 2 2 1 ee ss Teste F-Snedecor Qual teste usaremos para descobrir se existe ou não existe diferença significativa entre as variâncias residuais das retas 1 ( ) e 2 ( )? 624 2 2es 2 1es Calcular t maneira 1 Comparar com t tabelado 625 12110 : bbH 2 2 2 1 ee ss Cálculo da variância agrupada (s2ag) e de t quando as variâncias residuais das retas 1 e 2 forem iguais )4( 21 nn)4( )2()2( 21 2 22 2 112 nn snsn s eeag 626 11 1 2 22 1 2 11 2 1211 )( 1 )( 1 n i i n i i ag xxxx s bb t 627 Se tcalc > ttab, então H0 deve ser rejeitada; as inclinações das retas 1 e 2 são diferentes Se tcalc < ttab, então H0 deve ser aceita; as inclinações das retas 1 e 2 são iguais Comparação tcalculado com ttabelado 628 Exemplo: ANÁLISE DE Al NO SORO POR MEIO DA ESPECTROMETRIA DE ABSORÇÃO ATÔMICA EM FORNO DE GRAFITE. PARA VALIDAR UM NOVO MÉTODO, UM CURVA ANALÍTICA AQUOSA E UMA CURVA DE ADIÇÃO PADRÃO, A PARTIR DE UMA AMOSTRA DE SORO FORAM COMPARADAS. A AVALIAÇÃO DO SINAL FOI FEITA POR MEIO DAS ABSORVÂNCIAS INTEGRADAS (A.s) 629 Exemplo: CURVA ANALÍTICA (1) Xi1 (µg/L) Yi1 (A.s) 50 0,32 100 0,64 150 1,32 200 1,80 250 2,20 300 2,90 OS RESULTADOS A SEGUIR FORAM OBTIDOS: ADIÇÃO PADRÃO (2) Xi2 (µg/L adicionado) Yi2 (A.s) 49,9 0,29 99,8 0,62 148,9 1,29 199,7 1,78 225,6 1,99 251,3 2,20 302,1 3,01 61 n 72 n 630 Cálculo das variâncias residuais das retas 1 ( ) e 2 ( )21es 2 2es Comparação das variâncias 2 2 2 10 : ee ssH 0: 2 2 2 10 ee ssH Teste F-Snedecor Ftab 0,05;4;5 = 5,19 (unilateral) Fcalc < Ftab, então H0 é aceita; as variâncias residuais das retas 1 e 2 são iguais. 631 Cálculo da variância agrupada (s2ag) quando as variâncias residuais das retas 1 e 2 são iguais 9)476()4( 21 nn 632 )4( )2()2( 21 2 22 2 112 nn snsn s eeag 633 11 1 2 22 1 2 11 2 1211 )( 1 )( 1 n i i n i i ag xxxx s bb t Cálculo de t quando as variâncias residuais das retas 1 e 2 são iguais 634 Comparação tcalculadocom ttabelado ttab 0,05;9 = 2,26 Como tcalc < ttab, então H0 deve ser aceita; as inclinações das retas 1 e 2 são iguais e isto indica que não há efeito de matriz 635 Como fazer isto no EXCEL??? 636 VAMOS FAZER NO EXCEL? EXCEL 637 EXCEL Exercício 21 Refazer o exemplo da comparação entre as inclinações das duas retas, usando o Excel Comparação entre as inclinações das retas, quando as variâncias residuais das retas são iguais 638 Calcular t maneira 2 Comparar com t tabelado 639 12110 : bbH 2 2 2 1 ee ss 640 Cálculo de t’ quando as variâncias residuais das retas 1 ( ) e 2 ( ) forem diferentes 1211 1211 22 2 2 2 1' bb bb ss stst t t1= t tabelado para (n1 – 2) graus de liberdade t2= t tabelado para (n2 – 2) graus de liberdade 1 11 1 2 11 1 2 2 )( n i i e b xx s s 2 12 1 2 22 2 2 2 )( n i i e b xx s s 2 1es 2 2es 641 Comparação do valor de t’ com o valor de t 1211 1211 22 2 2 2 1' bb bb ss stst t 1211 22 1211 bb ss bb t Se t’ < t, então H0 deve ser aceita; as inclinações das retas 1 e 2 são iguais Se t’ > t, então H0 deve ser rejeitada; as inclinações das retas 1 e 2 são diferentes 642 Não é necessário calcular t’, se ambas as retas de regressão são baseadas no mesmo número de concentrações (n1 = n2). Então, t’ = t1 = t2. 643 Exemplo: ANÁLISE DE Cu NO SORO DE LEITE POR MEIO DA ESPECTROMETRIA DE ABSORÇÃO ATÔMICA EM FORNO DE GRAFITE. PARA VALIDAR UM NOVO MÉTODO, UM CURVA ANALÍTICA AQUOSA E UMA CURVA DE ADIÇÃO PADRÃO, A PARTIR DE UMA AMOSTRA DE SORO FORAM COMPARADAS. A AVALIAÇÃO DO SINAL FOI FEITA POR MEIO DAS ABSORVÂNCIAS INTEGRADAS (A.s) 644 Exemplo: CURVA ANALÍTICA (1) Xi1 (µg/L) Yi1 (A.s) 50 0,32 100 0,64 150 1,32 200 1,80 250 2,20 300 2,90 OS RESULTADOS A SEGUIR FORAM OBTIDOS: ADIÇÃO PADRÃO (2) Xi2 (µg/L adicionado) Yi2 (A.s) 49,9 0,03 99,8 0,08 148,9 0,16 199,7 0,23 225,6 0,27 251,3 0,30 302,1 0,46 61 n 72 n Comparação das variâncias Teste F-Snedecor Ftab 0,05;4;5 = 5,19 (bilateral) 645 2 2 2 1 ee ss 12110 : bbH 646 1 11 1 2 11 1 2 2 )( n i i e b xx s s Comparação do valor de t’ com o valor de t 647 Comparação do valor de t’ com o valor de t 2 12 1 2 22 2 2 2 )( n i i e b xx s s 648 Comparação do valor de t’ com o valor de t 1211 1211 22 2 2 2 1' bb bb ss stst t 649 Comparação do valor de t’ com o valor de t 1211 22 1211 bb ss bb t 650 Como t’ < t, então H0 deve ser aceita; as inclinações das retas 1 e 2 são iguais. Comparação do valor de t’ com o valor de t 16. Box Plot 651 Representa os dados através de um retângulo construído com os quartis. Fornece informações sobre a variabilidade dos dados e valores atípicos que podem influenciar o cálculo de medidas como a média aritmética, por exemplo. Utiliza cinco medidas estatísticas: mínimo, máximo, mediana, primeiro quartil, terceiro quartil. O conjunto destas medidas fornece evidência sobre a posição, dispersão, assimetria e valores extremos (atípicos). Box Plot 652 Box Plot 1 2 LABORATÓRIOS RESPOSTAS MEDIANA 50% (DQ) 25% QUARTIL INFERIOR (QI) QUARTIL SUPERIOR (QS) DQ = DISTÂNCIA ENTRE QUARTIS OU INTERVALO INTERQUARTÍLICO LIMITE SUPERIOR (LS) LIMITE INFERIOR (LI) 653 654 Box Plot 655 Box Plot SOBREPOSIÇÃO GRÁFICA DE UMA CURVA NORMAL E UM BOX PLOT HORIZONTAL 656 Box Plot ESTRUTURA BÁSICA DO BOXPLOT EM ORIENTAÇÃO VERTICAL (A) E HORIZONTAL (B) ETAPAS DA CONSTRUÇÃO DE UM BOX PLOT MEDIANA QI – QUARTIL INFERIOR (QUARTIL 1) QS – QUARTIL SUPERIOR (QUARTIL 3) DQ – DISTÂNCIA ENTRE QUARTIS LS – LIMITE SUPERIOR LI – LIMITE INFERIOR COLOCAR OS DADOS EM ORDEM CRESCENTE DETERMINAR CONSTRUIR O GRÁFICO 657 ATRAVÉS DO BOX PLOT VERIFICAMOS PRESENÇA DE VALORES ABERRANTES (“OUTLIERS”) COMPORTAMENTO DE DIVERSOS LABORATÓRIOS, MÉTODOS, ANALISTAS, EQUIPAMENTOS, ETC NORMALIDADE DA DISTRIBUIÇÃO DOS DADOS VERIFICAR VISUALMENTE REPETITIVIDADE E EXATIDÃO 658 DETERMINAÇÃO DE Cd EM SUCOS DE FRUTA LABORATÓRIO 1,6 4,6 1,2 1,5 6,0 6,2 3,3 2,0 2,9 1,1 3,5 5,5 4,5 2,8 2,9 4,5 3,4 1,8 3,8 5,3 3,1 2,7 4,0 2,9 4,3 5,5 1,9 2,2 3,0 4,9 5,8 4,2 3,8 3,4 3,9 Exemplo: 659 1. RESULTADOS EM ORDEM CRESCENTE 1,1 1,2 1,5 1,6 1,8 1,9 2,0 2,2 2,7 2,8 2,9 2,9 2,9 3,0 3,1 3,3 3,4 3,4 3,5 3,8 3,8 3,9 4,0 4,2 4,3 4,5 4,5 4,6 4,9 5,3 5,5 5,5 5,8 6,0 6,2 2. CÁLCULOS DOS PARÂMETROS 3. CONSTRUÇÃO DO GRÁFICO 4. ANÁLISE DO GRÁFICO 660 1. MEDIANA (MED) MED = (N+1) / 2 MED = (35 +1) / 2 = 18 = 3,4 2. QI (QUARTIL 1) QI = (Ni+1) / 2 MED(QI) = (18 +1) / 2 = 9,5 = 2,75 3. QS (QUARTIL 3) QS = (Ns+1) / 2 MED(QS) = (18 +1) / 2 = 9,5 = 4,5 4. DISTÂNCIA ENTRE QUARTIS OU INTERVALO INTERQUARTÍLICO (DQ) DQ = (QS - QI) DQ = (4,5 - 2,75) = 1,75 5. LIMITE INFERIOR (LI) LI = QI - (1,5 * DQ) LI = 2,75 - (1,5 * 1,75) = 0,13 6. LIMITE SUPERIOR (LS) LS = QS + (1,5 * DQ) LS = 4,5 + (1,5 * 1,75) = 7,13 Ni E Ns= NÚMERO DE DADOS DE CADA LADO DA MEDIANA 2. CÁLCULOS DOS PARÂMETROS 661 VANTAGENS LIMITAÇÃO ROBUSTO SIMPLES DE SER CONSTRUÍDO FACILMENTE COMPREENDIDO CAPAZ DE DAR UMA IDÉIA DO COMPORTAMENTO DE DIVERSOS PARÂMETROS AO MESMO TEMPO NECESSITA DE UM NÚMERO RELATIVAMENTE GRANDE DE DADOS 662 663 Exemplo DETERMINAÇÃO DE AFLATOXINA M EM 7 LABORATÓRIOS Laboratórios a b c d e f g 1,6 4,6 1,2 1,5 6,0 6,2 3,3 2,9 2,8 1,9 2,7 3,9 3,8 3,8 3,5 3,0 2,9 3,4 4,3 5,5 5,5 1,8 4,5 1,1 2,0 5,8 4,2 4,9 2,2 3,1 2,9 3,4 4,0 5,3 4,5 MÉDIA 2,4 3,6 2,0 2,6 4,8 5,0 4,4 MEDIANA 2,2 3,1 1,9 2,7 4,3 5,3 4,5 DESVIO PADRAO 0,79 0,87 0,88 0,85 1,02 0,98 0,87 VARIÂNCIA 0,63 0,77 0,77 0,72 1,04 0,96 0,76 COEF. VARIAÇÃO 33 24 44 33 21 20 20 664 BOX PLOT USADOS NA COMPARAÇÃO DE DIFERENTES GRUPOS DE RESULTADOS Exemplo: LAB. C MUITO DIFERENTE DO LAB. F A dispersão em cada um dos grupos é similar, o que significa que a precisão dentro de cada laboratório é mais ou menos a mesma. 665 Como fazer isto no EXCEL??? 666 VAMOS FAZER NO EXCEL? EXCEL 667 Calcular os parâmetros (mediana, QI, QS, DQ, LS e LI), construir e analisar o gráfico Boxplot, usando o Excel, para cada um dos conjuntos de dados. Exercício 22 DADOS 1 DADOS 2 DADOS 3 708,913 693,040 715,751 708,181 699,390 715,751 707,692 697,436 715,507 707,204 689,866 714,286 708,913 686,203 715,018 710,623 689,866 716,239 719,902 677,900 717,705 709,158 758,974 713,797 720,147 757,509 716,239 729,182 720,391 715,751 EXCEL 668 DADOS 1 DADOS 2 DADOS 3 MENOR VALOR NÃO OUTLIERS 707,204 677,900 713,797 QUARTIL 1 708,364 689,866 715,140 MEDIANA 709,036 695,238 715,751 QUARTIL 3 717,582 715,141 716,117 MAIOR VALOR NÃO OUTLIERS 729,182 720,391 716,239 LIMITE INFERIOR DA DEFINIÇÃO DE OUTLIERS 694,537 651,954 713,675 INTERVALO INTERQUARTÍLICO - DQ 9,218 25,275 0,977 LIMITE SUPERIOR DA DEFINIÇÃO DE OUTLIERS 731,410 753,053 717,582 MÍNIMO (QUARTIL 1 - MENOR VALOR NÃO OUTLIERS) 1,160 11,966 1,343 QUARTIL 1 708,364 689,866 715,14 MEDIANA (MEDIANA – QUARTIL 1) 0,671 5,372 0,611 QUARTIL 3 (QUARTIL 3 – MEDIANA) 8,547 19,903 0,366 MÁXIMO (MAIOR VALOR NÃO OUTLIERS – QUARTIL 3) 11,600 5,250 0,122 Box Plot 669 Box Plot 670 680 690 700 710 720 730 740 750 760 1 2 3 Box Plot QUARTIL 3 MEDIANA QUARTIL 1 Série4 Série5 menor dispersão (repetibilidade melhor) maior dispersão (repetibilidade pior) 670