Baixe o app para aproveitar ainda mais
Prévia do material em texto
TRATAMENTO E ANÁLISE ESTATÍSTICA DE DADOS Determinação de incerteza, validação de métodos e testes de significância QUÍMICA ANALITICA 2 Profa. Valéria R. Bellotto VALIDAÇÃO: é o processo onde se verifica se um procedimento analítico rende resultados aceitáveis para a finalidade que se propõe. ERROS EM ANÁLISE QUÍMICA Medidas experimentais sempre apresentam algumas variações, logo nenhuma conclusão pode ser tirada com certeza absoluta. A estatística fornece ferramentas que possibilitam ACEITAR CONCLUSÕES COM UMA GRANDE PROBABILIDADE DE ESTAREM CORRETAS E REJEITAR CONCLUSÕES QUE SEJAM IMPROVÁVEIS. Se um experimento é repetido várias vezes, e se os erros são puramente aleatórios, então os resultados tendem a se agrupar simetricamente em torno de um valor médio. Quanto mais vezes o experimento for repetido, mais os resultados se aproximam de uma curva idealmente suave, chamada DISTRIBUIÇÃO GAUSSIANA. CURVA GAUSSIANA Gráfico de barras e curva Gaussiana descrevendo o tempo de vida de um conjunto hipotético de lâmpadas elétricas (fonte: Harris, 2007) DESVIO PADRÃO DA POPULAÇÃO DESVIO PADRÃO DA AMOSTRA n-1 é o número de graus de liberdade Usado normalmente como estimativa da incerteza das medidas Incerteza da medida em métodos clássicos Em métodos clássicos a incerteza pode ser obtida por cálculos de propagação de erro e pelo desvio padrão de resultados obtidos por meio de replicatas autênticas. No caso de mreplicatas, obtêm-se sxo por: 1 )( 1 2 m xx s m i i xo (1) onde x é a média das concentrações e xié o valor individual de cada replicata. Incerteza para uma estimativa da concentração utilizando uma curva analítica Métodos de regressão utilizam uma curva analítica para estimar a concentração da espécie de interesse. Nestes casos, obtêm-se sxo por: n i i xy xo xxb yy nmb s s 1 22 2 0 )( )(11 (2) onde, b é o coeficiente angular, n é o número de padrões utilizados na construção da curva, m o número de replicatas (amostras), 0 y é a média do valor da medida instrumental para a amostra, y é a média das medidas instrumentais para os padrões da curva analítica, x é a média das concentrações dos padrões e xi a concentração do padrão i. O valor det95,ν é tabelado da distribuição t-Student com νgraus de liberdade. Para uma curva de adição de padrão o valor de m é igual a 1 e o valor de yoé igual a zero, pois não existe medida instrumental para a amostra. Assim, a incerteza é calculada como: n i i xy xo xxb y nb s s 1 22 2 )( 1 (3) Para as equações (2) e (3), sy/x é o desvio-padrão dos resíduos da curva analítica: 2 )ˆ( 1 2 n yy s n i ii xy (4) ondeyi e iyˆ são os valores instrumentais medidos e estimados pela curva analítica, respectivamente. DESVIO PADRÃO COMBINADO Se temos vários subconjuntos de dados, podemos ter uma estimativa melhor do desvio padrão da população pela combinação dos dados do que usando cada conjunto individualmente. O desvio padrão combinado é uma média ponderada das estimativas individuais. INTERVALO DE CONFIANÇA A estatística permite estabelecer um intervalo ao redor da média X determinada experimentalmente, no qual se espera que a média μ esteja contida com uma certa probabilidade. Este intervalo é conhecido como intervalo de confiança e é calculado a partir do desvio padrão. A amplitude do intervalo de confiança depende de quão bem o desvio padrão da amostra (s) estima o desvio padrão da população (σ). INTERVALO DE CONFIANÇA INTERVALO DE CONFIANÇA INTERVALO DE CONFIANÇA INTERVALO DE CONFIANÇA Determinação de IC quando σ é conhecido ou quando s é uma boa estimativa de σ IC para μ = x ± z σ Com estimativa da média com uma única medida Usando a média experimental ( x) de N medidas como estimativa do melhor valor de μ IC para INTERVALO DE CONFIANÇA Determinação de IC quando σ não é conhecido - isto ocorre quando se tem um pequeno conjunto de dados O valor de s calculado a de um pequeno conjunto de dados pode ser bastante incerto. Assim, intervalos de confiança mais amplos são necessários, quando precisamos utilizar um valor de s, calculado com um pequeno número de medidas, como estimativa de σ. usamos Em lugar de z Com estimativa da média com uma única medida INTERVALO DE CONFIANÇA Usando a média experimental ( x) de N medidas como estimativa do melhor valor de μ O intervalo de confiança para a média experimental ( x) de N réplicas de medidas pode ser calculado a partir de t pela equação: IC para TESTES DE HIPÓTESES Servem de base para a tomada de decisões em trabalhos científicos e de engenharia. Testes usados com maior frequência em química analítica, comparação: 1- média de um conjunto de dados experimentais com o valor verdadeiro ; 2- média com valor previsto ou de corte (limite); 3- média ou desvio padrão de dois ou mais conjuntos de dados. E ainda, detecção de erros grosseiros. TESTES DE HIPÓTESES Hipótese nula (H0): postula que duas ou mais quantidades observadas são iguais. Hipótese alternativa (Ha): uma ou mais quantidades observadas são diferentes. Normalmente, trabalha-se com probabilidade de 95%. Isto é, se a diferença observada for maior ou igual à diferença que ocorreria 5 vezes em 100, devido à fatores aleatórios (nível de significância de 0,05), a hipótese nula é rejeitada e a diferença é considerada significativa. Nível de confiança (NC) é a probabilidade de que a média verdadeira esteja localizada em um certo intervalo. Nível de significância é a probabilidade de um resultado estar fora do intervalo de confiança TESTES DE HIPÓTESES TESTES DE HIPÓTESES Pode-se adotar outros níveis de significância, dependendo da exatidão desejada no julgamento – 0,01 (1%) ou 0,001 (0,1%). Nível de significância na forma de fração: α ex.: 0,05 Nível de confiança (NC) = (1- α) x 100% ex.: 95% TESTES DE HIPÓTESES Apresentar a hipótese nula (H0): H0: μ=μ0 Formular o teste estatístico: Para grandes amostras (z): 0 Para pequenas amostras (t): Comparação de uma média de um valor experimental com um valor conhecido 0 TESTES DE HIPÓTESES Determinar a hipótese alternativa (Ha): Teste de duas caudas Para Ha : μ≠μ0 , rejeitar H0 se z (ou t) ≥ zcrit ( ou tcrit) ou z (ou t)≤ - zcrit ( ou - tcrit) Para NC=95% a probabilidade é de 0,025 de cada lado Teste de uma cauda Para Ha : μ>μ0 , rejeitar H0 se z (ou t) ≥ zcrit ( ou tcrit) Para Ha : μ<μ0 , rejeitar H0 se z (ou t) ≤- zcrit ( ou -tcrit) Para NC=95% a probabilidade é de 0,05 somente de um lado, e a probabilidade total em ambas as caudas é de 10%. Comparação de uma média de um valor experimental com um valor conhecido Exemplo: Uma classe de 30 alunos determinou a energia de ativação de uma reação química como 27,7 kcal/mol (valor médio), com um desvio padrão de 5,2 kcal/mol. Pergunta-se: os dados estão de acordo com o valor de 30,8 kcal/mol descrito na literatura em um nível de confiança de 95% ? Teste de duas caudas H0= x =μ0 Para Ha : x ≠μ0 , rejeitar H0 se z ≥ zcrit ou z ≤ - zcrit Para NC=95% a probabilidade é de 0,025 de cada lado0 = 27,7 – 30,8 = -3,26 5,2 √30 zcrit = -1,96 z= - 3,26 como z ≤ - zcrit Rejeitamos a hipótese nula ao nível de confiança de 95%. Conclusão: a média obtida pelos estudantes é realmente diferente da média descrita na literatura e não apenas resultado de erros aleatórios. Zcrit Comparação de duas médias experimentais- Teste t para diferença de médias TESTES DE HIPÓTESES Se as variâncias forem iguais: O número de graus de liberdade para encontrar o valor crítico de t na tabela é N1+N2-2 Teste t para dados pareados TESTES DE HIPÓTESES Exemplo de aplicação: comparação de dois métodos empregando as mesmas amostras. Os testes t pareados usam o mesmo tipo de procedimento que o teste t normal, exceto que são analisados pares de dados. O desvio padrão agora é o desvio padrão da diferença nas médias. A hipótese nula é H0: μd =Δ0 em que Δ0 é um valor específico da diferença a ser testado, frequentemente zero. Erros nos Testes de Hipóteses TESTES DE HIPÓTESES Em um nível de confiança de 95 %, por exemplo, existem 5% de chance de rejeitarmos a hipótese nula, embora ela possa ser verdadeira. O erro que resulta da rejeição de H0 quando esta é verdadeira é chamado ERRO TIPO I Em algumas áreas da ciência, um erro tipo 1 é chamado de falso negativo. Outro tipo de erro possível consiste em aceitar H0 quando ela é falsa. Esse erro é denominado de ERRO TIPO II (β) e é denominado de falso positivo em algumas situações. Quando se pensa em erros dos testes de hipótese é importante se considerar as consequências de cometer erros tipo I ou tipo II. Se for muito mais provável que o erro tipo I tenha consequências mais sérias que um erro tipo II, é aconselhável escolher uma valor pequeno para α. ANÁLISE DE VARIÂNCIA (ANOVA) TESTES DE HIPÓTESES É usada para se testar se existe diferença nas médias de mais de dois conjunto de dados - comparação múltipla. Exemplos típicos da aplicação da ANOVA: 1- Existe diferença nos resultados de cinco análises para determinar cálcio por meio de um método volumétrico? 2- Quatro solventes com composições diferentes terão influência no rendimento de uma síntese química? 3- Os resultados da determinação de manganês realizada por três métodos analíticos distintos são diferentes? O teste estatístico básico usado pela ANOVA é o F. Aqui , um valor grande de F, comparado com o valor crítico descrito nas tabelas, pode fornecer a razão para rejeitar H0. TESTES DE HIPÓTESES TESTE F - Usado para comparação de variâncias (ou desvio padrão) de duas populações (comparação de precisão). - Usado para se testar se existe diferença nas médias de mais de dois conjunto de dados - comparação múltipas na análise de regressão linear. O teste F está baseado na hipótese nula de que as variâncias das duas populações consideradas sejam iguais, H0 : σ1 2 = σ2 2 . O teste estatístico F, que é definido como a razão entre as duas variâncias das amostras (F= s1 2 / s2 2 ), é calculado e comparado com o valor crítico de F em um determinado nível de confiança. A hipótese nula é rejeitada se o teste estatístico difere muito de 1. Maior variância sempre no numerador DETECÇÃO DE ERROS GROSSEIROS TESTE Q Existem situações quando um conjunto de dados contém um resultado anômalo que parece estar fora da faixa definida pelos erros aleatórios associada ao procedimento. O teste Q é um teste estatístico simples, amplamente utilizado para se decidir se um resultado suspeito deve ser mantido ou rejeitado. Neste teste, o valor absoluto da diferença entre o resultado questionável xq e seu vizinho mais próximo xp é dividido pela faixa f do conjunto inteiro para dar a grandeza Q. Essa razão é comparada com o valor crítico Q crit (tabela a seguir). Se Q for maior que Q crit , o valor questionável deve ser eliminado (rejeitado), com o grau de confiança indicado.
Compartilhar