Buscar

Teste de Aderência Qui-Quadrado

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

FLAVIO FELICIO DA SILVA JUNIOR
Trabalho Estatistica
Guaratinguetá - SP
2018
Sumario
Resumo
Introdução
Teste de aderência.
4.	Teste qui-quadrado para aderência das distribuições
3.1.1 Normal.
No próximo exemplo iremos testar a hipótese da amostra ser proveniente da distribuição normal que será definida em H0 e não proveniente em H1. O teste de aderência será aplicado para concluir a cerca das hipóteses.
Exemplo: Um dado é lançado 1200 vezes e você deve testar a hipótese de que o dado é honesto ao nível de 5%. Os valores de frequência para cada número que caiu no dado são:
	Ocorrência
	Frequência
	1
	190
	2
	179
	3
	228
	4
	183
	5
	226
	6
	194
Erro de tipo I: considerar que o dado não é viciado (ou seja, conjunto apresenta média igual a 200 ao nível de 5% de significância);
Erro de tipo II: considerar que o dado é viciado (ou seja, conjunto apresenta média é diferente de 200 ao nível de 5% de significância);
H0 – o dado não é viciado (média igual a 200);
HA – o dado é viciado (média diferente de 200);
Considerando que estamos tratando de uma distribuição normal, encontra-se uma média de 200 e desvio padrão de 21,57, onde calculando o valor do qui-quadrado temos que χ² = 11,63.
Neste caso possuímos 6 ocorrências que resultarão em n-1 = 5 graus de liberdade. Com α também definido, consultar a probabilidade correspondente na tabela de qui-quadrado, que é 11,07. Assim, definimos a região crítica como RC ≥ 11,07. Por quê sempre é maior ou igual (ou seja, para direita no gráfico)? Quanto mais perto de zero, menor a diferença entre o esperado e o obtido e as variáveis são independentes.
Como o valor encontrado em nossa estatística de teste de aderência é maior que a o valor da região critica, rejeitamos H0 , concluindo que trata-se de um evento raro, que no caso do exemplo descrito conclui-se que existem evidencias da falsidade do dado e esteja viciado. Caso aceitássemos a hipótese nula, diríamos que não houve evidência amostral significativa no sentido de permitir a rejeição de Ho – o valor de qui-quadrado pertenceria à região crítica.
Também temos o p-valor (1 – β) para 5 graus de liberdade observando na tabela do qui-quadrado a probabilidade maior que o valor de χ² calculado (11,63), que é 11,644 e corresponde a uma probabilidade de 4%. Esse é o menor nível de significância com que não se rejeitaria a hipótese nula. Assim, pode-se rejeitar a hipótese nula a 5%, pois o p-valor é menor que essa porcentagem. Em outras palavras, hipótese de que os dados não estejam viciados é significante ao nível de 5%.
3.1.2 Binomial.
Suponha que uma moeda é lançada 800 vezes fornecendo 432 caras. Verifique se a moeda pode ser considerada viciada ao nível de significância de 5%. A partir do teste do qui quadrado verifique se a mesma conclusão poderá ser obtida.
H0:a moeda é honesta 
H1:a moeda não é honesta 
 
Com o uso da fórmula:
sendo Oi o número de casos observados classificados na categoria i. E sendo Ei o número de casos esperados na categoria “i” sob H0 em que K (número de categorias).
Qual Χ2 utilizar:
O número de graus de liberdade é dado por: ν = k – 1. Em que k = número de linhas da tabela, como k=2, então ν = 1.Portanto, como α = 5% e ν = 1,Χ21 = 3,84 (dados da tabela )
Conclusão: O valor crítico Χ2 é tal que p(Χ2 > 3,84) = 5%. Então RC = [3,84;∞).Como Χ2 = 5,12 ℮ RC ou 5,12 > 3,84, rejeita H0 , ou seja , a 5% de significância , pode se afirmar que a moeda é viciada.
3.1.3 Poisson.
O teste de aderência pelo qui-quadrado foi desenvolvida por Karl Pearson afim de se testar a adequabilidade de um modelo probabilístico - hipóteses – a um conjunto de dados observados em uma distribuição de uma variável aleatória. A estatística do teste é: 
Onde : Oi são frequências observadas,
	Ei são frequências esperadas
Podemos entender melhor como se calcula para uma Distribuição de Poisson no exemplo abaixo:
Exemplo:
A Tabela 2 descreve o número de reclamações diárias observado em 100 dias de funcionamento de um biblioteca. Um analista desconfia que uma distribuição de Poisson poderia ser utilizada para descrever o comportamento dessa variável. Com base nos dados apresentados na Tabela 2, pode-se concluir que ele tem razão? 4 O primeiro passo para a determinação da estatística qui-quadrado é o cálculo da probabilidade de ocorrência de cada categoria da variável em questão. Aventa-se a hipótese de que a distribuição de Poisson é adequada para modelar este fenômeno, no entanto, não foi fornecido o valor do parâmetro da distribuição. Desse modo, é necessário estimá-lo a partir dos dados. Como o parâmetro da Poisson é a média da distribuição, decidiu-se estimá-lo por 1,49, a média aritmética dos dados.
TABELA 2
A Tabela 3 traz as probabilidades de cada categoria, obtidas a partir de uma distribuição de Poisson com média 1,49. Note que essas probabilidades não somam 100%, condição estabelecida para o cálculo da estatística qui-quadrado. Para contornar esse problema, e para levar em conta que há poucas observações na última categoria de resposta, decidiu-se reorganizar os dados conforme a Tabela 4.
TABELA 3
TABELA 4
Para os dados do Exemplo 2, obteve-se = 3,34. A Tabela 5 resume o cálculo dessa estatística. Note que os valores esperados não são números inteiros. Isso é uma ocorrência comum que não deve ser corrigida, uma vez que os valores esperado constituem apenas pontos de referência.
TABELA 5
3.1.4 Exponencial.
A seguir, testaremos a hipótese da amostra ser proveniente de uma distribuição exponencial.
Exemplo:
Teste, para o nível α = 0.01, se os dados abaixo vêm de uma distribuição exponencial com média 0.5:
0.378 0.391 0.458 0.063 0.009 
1.007 0.470 0.368 0.831 0.387 
0.228 0.389 0.627 0.480 0.093 
0.123 0.089 0.646 0.093 0.400 
 
Fonte: Morettin & Bussab, Estatística Básica 5ª edição, pág 409.
Para distribuições contínuas, devemos construir a tabela de valores esperados/observados a partir dos dados fornecidos. Note que queremos testar se os dados têm distribuição exponencial, com λ = 2. Temos que os valores teóricos são dados por: 
q1(X) é tal que ∫ λe^(−λx) = 0.25, com os limites da integral variando de 0 até q1;
q2(X) = Med(X) é tal que ∫ λe^(−λx) = 0.5, com os limites da integral variando de 0 até q2;
q3(X) é tal que ∫ λe^(−λx)= 0.75, com os limites da integral variando de 0 até q3.
Para λ = 2, temos que q1 = 0.1438, q2 = 0.3466 e q3 = 0.6931. 
Definidas as categorias A1, A2, A3 e A4, onde:
-> um elemento x ∈ A1 se x < q1(X), 
-> x ∈ A2 se q1(X) < x < q2(X), 
-> x ∈ A3 se q2(X) < x < q3(X) e 
-> x ∈ A4 se x > q3(X). 
Se a hipótese nula é verdadeira (isto é, os dados têm distribuição exponencial), então a proporção esperada de cada categoria é 1/4. 
Construímos então a tabela com as frequências observadas e esperadas:
	
	A1
	A2
	A3
	A4
	Total
	Oi
	6
	1
	11
	2
	20
	Ei
	5
	5
	5
	5
	20
A estatística observada X² é dada por:
 X² =[(6 − 5)^2 + (1 − 5)^2 + (11 − 5)^2 + (2 − 5)^2]/5 = 12.4
que tem 3 graus de liberdade. Como 12.4 > 7.814 (valor de X² obtido através da tabela),
rejeito H0. Isso significa que os dados não têm distribuição exponencial.
Teste K-S da distribuição normal.
O teste de Kolmogorov-Smirnov, abreviadamente K-S, ao contrário do teste do Quiquadrado, não se aplica a dados qualitativos nem a variáveis discretas, pois a tabela disponível para este teste só é exacta caso a distribuição em teste seja contínua. No entanto, tem a vantagem de não estar dependente de classificações dos dados, que além de serem sempre algo arbitrárias envolvem perdas de informação. De facto, no ajustamento de uma distribuiçãocontínua a uma amostra usando o teste do Qui-quadrado, temos de proceder à agregação dos dados em classes, sendo por isso mais adequado utilizar o teste K-S.
Por outro lado, o teste K-S só pode ser aplicado quando a distribuição indicada na hipótese nula está completamente especificada (o que não sucede com o teste do Quiquadrado). No caso de pretendermos, por exemplo, efetuar um ajustamento de uma distribuição normal, sem especificar µ e σ, podemos recorrer a outro teste, neste caso o teste desenvolvido por Lilliefors (teste de normalidade de Lilliefors) que será abordado mais tarde.
Além disso, o teste do Qui-Quadrado está orientado essencialmente para grandes amostras, enquanto que o teste K-S é aplicável a pequenas amostras.
Definem-se de seguida função de distribuição da amostra e função de distribuição empírica, conceitos estes fundamentais para o desenvolvimento do teste de K-S.
Função de distribuição empírica e função de distribuição da amostra Seja (X1, X2,...,Xn) uma amostra aleatória de uma certa população X e (x1, x2,...,xn) uma sua realização.
 A função de distribuição empírica é definida por 
onde #{xi: xi≤x} é o número de valores xi que são inferiores ou iguais a x.
A função de distribuição da amostra é definida, para as variáveis aleatórias (X1, X2,...,Xn), por
Convém fazer aqui uma clara distinção entre função de distribuição empírica Fn, definida para uma particular realização (x1, x2,...,xn), e função de distribuição da amostra Fn, definida para as variáveis aleatórias (X1, X2,...,Xn). Note-se que ) F (x) é uma função de distribuição do tipo discreto associado a uma particular amostra, enquanto que F (x) n é, para cada -∞< x <+∞ fixo, uma variável aleatória, função de (X1, X2,...,Xn), ou seja, é uma estatística.
Vejamos como construir uma função de distribuição empírica associada a uma determinada amostra. Consideremos, por exemplo, a amostra constituída pelas observações: 5, 7, 8, 8, 10 e 11. A função de distribuição empírica F6 , associada a esta amostra, é dada por
A representação gráfica de F6 ˆ , em forma de escada, é apresentada a seguir:
Note-se que a função Fn é descontínua à esquerda em cada valor xi.
Para uma variável aleatória X, o teste K-S baseia-se na análise do ajustamento entre a função de distribuição populacional admitida em H0, F0, e a função de distribuição empírica Fn .
Assim, sendo F a função de distribuição (desconhecida) da população, as hipóteses a testar serão:
onde F0 á a função de distribuição proposta, contínua e completamente especificada. No teste de Kolmogorov-Smirnov considera-se a estatística.
como uma medida da discrepância entre a função de distribuição da amostra Fn e a função de distribuição proposta F0. Observe-se que Dn representa a distância vertical máxima entre as imagens da função de distribuição da amostra, Fn(x), e da função de distribuição proposta F0(x), dando assim uma ideia do ajustamento, como aliás se pretendia.
Ao substituir em Dn a função de distribuição da amostra Fn pela função de distribuição empírica Fn , obtém-se o valor observado da estatística teste:
Uma vez que F0 é uma função (contínua) crescente e Fn é uma função em escada (ver gráfico II), o supremo dn ocorre num ponto onde se verifica um salto de Fn (numa observação xi) ou imediatamente antes desse ponto. Isto é,
Assim, se H0 for verdadeira, a distância vertical máxima entre as imagens das duas distribuições não deve de ser muito grande, e logo espera-se que Dn tome um valor pequeno.
Conhecendo a distribuição de Dn é possível avaliar o seu valor observado dn, e decidir se este é suficientemente pequeno para que não se rejeite H0 a um dado nível de significância α.
Mais concretamente, rejeita-se H0, para um nível de significância α, se o valor observado dn da estatística teste Dn for superior ou igual ao ponto crítico Dn,α onde Dn,α é tal que,
Os valores críticos Dn,α podem ser consultados na Tabela 7 (em anexo).
Exemplo 1: Um certo Politécnico do país efectuou um contrato com uma determinada empresa que ficou responsável pelo abastecimento da carne que compunha as refeições na cantina dessa Escola. O contrato refere uma média de 290 gramas de carne por refeição, por estudante. No entanto, alguns alunos queixaram-se acerca da comida, em particular acerca da quantidade de carne servida por refeição. Os alunos falaram com o cozinheiro chefe, que lhes disse que a quantidade de carne servida por refeição a cada estudante tinha aproximadamente distribuição normal de média 290 gr com um desvio padrão de 56 gr. 
Após esta conversa com o cozinheiro, alguns alunos concordaram em recolher as suas refeições ao longo de vários dias, resultando assim uma amostra de 10 refeições, que foram levadas para um laboratório afim de serem pesados os pedaços de carne nelas contidos. Os dados obtidos são os seguintes:
198 254 262 272 275 278 285 287 287 292
Ao nível de significância de 5%, há evidência para rejeitar a hipótese de que o cozinheiro seguia as regras que afirmou em relação à quantidade de carne servida? 
Denote-se por X a quantidade, em gramas, de carne servida por refeição a cada estudante. As hipóteses a testar são, neste caso,
Note-se que a função de distribuição proposta em H0, F0, é a função de distribuição normal com média 290 gr e desvio padrão 56. Assim, sendo uma distribuição contínua completamente especificada, podemos usar o teste de K-S.
A estatística de teste é: 
O ponto crítico da estatística de teste D10 é, para α=0.05, D10,0.05= 0.409 (Tabela 7).
A função de distribuição empírica definida para a amostra dada foi calculada do modo descrito anteriormente, e é indicada na Tabela V.
Falta calcular as imagens das observações pela função distribuição F0. Indicam-se apenas os cálculos para as duas primeiras observações; os restantes encontram-se na respectiva coluna da tabela V.
Tabela 1 Tabela V: Cálculo do valor observado da estatística D10.
Observamos, através das duas últimas colunas da tabela, que o valor observado da estatística teste d10 é igual a 0.484. Assim, como d10>0.409, ao nível de significância de 5%, rejeitamos a hipótese de a quantidade de carne servida por refeição a cada estudante seguir distribuição N(290, 562 ).
Conclusão
Referencias.

Outros materiais