Estatística não-paramétrica

•

UFAL

0

João Victor de Castro Silva

10/01/2016

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

Estatística Não – Paramétrica
Alex Nascimento dos Santos
Por que usar testes não – paramétricos
Testes paramétricos requerem a estimação de parâmetros desconhecidos (média ou variância populacional.
Testes paramétricos fazem suposições não realista sobre a normalidade da distribuição das variáveis na população.
Requerem uma amostra muito grande para utilizar a TLC.
Por que usar testes não – paramétricos
Testes não – paramétricos são testes livres de distribuições.
Focam apenas nos sinais ou na ordem (postos) dos dados, em vez de no valor numérico.
Não especificam a forma da distribuição, da variável na população.
Podem ser utilizados em dados ordinais (quando a escala não é de razão ou intervalar).
Por que usar testes não – paramétricos
Vantagens
Desvantagens
Frequentementepodem ser usados em amostras pequenas
Requerem tabelasespeciais para amostras pequenas
2. Geralmente são mais poderosos que um teste paramétrico,quando não se pode assumir normalidade
2.Os testes paramétricos são geralmente mais poderosos, se a normalidade puder ser assumida.
3. Podem ser usados para dados ordinais
Por que usar testes não – paramétricos
Teste de sequência para uma amostra
É também chamado de teste de Wald – Wolfowitz.
Objetivo do teste é detectar não – aleatoriedade em uma sequência binária.
Um padrão não - aleatório sugere uma não independência dos dados.
Pergunta-se, se cada observação em uma sequência é independente de sua predecessora.
Teste de sequência para uma amostra
As hipóteses testadas são:
H0: Os eventos seguem um padrão aleatório
H1: Os eventos não seguem um padrão aleatório
Para testar as hipóteses de aleatoriedade, conta-se o número de resultados de cada tipo:
n1 = número de resultados do primeiro tipo
n2 = número de resultado do segundo tipo
n = total da amostra = n1 + n2
Teste de sequência para uma amostra
Uma sequência é uma série de resultados consecutivos do mesmo tipo, rodeado por uma sequência de resultados de outro tipo.
Como exemplo, considere um série de 44 defeitos (D) ou aceitáveis chips de computador
DAAAAAAADDDDAAAAAAAADDAAAAAAAADDDDAAAAAAAAAA
Onde as sequências são:
Teste de sequência para uma amostra
Temos 8 sequências (R = 8).
n1 = número de chips defeituosos (D) = 11
n2 = número de chips aceitáveis (A) = 33
n = total da amostra = n1 + n2 = 11 + 33 = 44
As hipóteses são:
H0: Os defeitos seguem uma sequência aleatória
H1:Os defeitos não seguem uma sequência aleatória
Teste de sequência para uma amostra
Quando n1 > 10 and n2 > 10, a amostra é considerada grande, e assumisse que R seja normalmente distribuído.
Teste de sequência para uma amostra
A estatística do teste consiste em:
Para uma dada significância α, encontra-se um valor crítico de za para duas caudas.
Rejeita-se H0 quando z for z < -za ou se z > +za
Teste de sequência para uma amostra
Teste de postos sinalizados de Wilcoxon
É um teste não – paramétrico para comparar a mediana da amostra com um valor de referência.
Pode ser usado para testar diferenças em amostras pareadas.
As vantagens do teste são:
teste não requer normalidade dos dados
É robusto frente a outliers
É aplicável em dados ordinais.
Teste de postos sinalizados de Wilcoxon
A distribuição da variável na população deve ser simétrica.
Quando usa-se o teste para comparar a mediana M da mostra com um valor de referência para a mediana M0 as hipóteses são:
Teste de postos sinalizados de Wilcoxon
Quando se compara a diferença entre observações pareadas, o teste é o mesmo, mas se utiliza o símbolo Md para a mediana da diferença.Geralmente se usa o zero como valor de referência.
Teste de postos sinalizados de Wilcoxon
Calcula-se a diferença entre cada observação e a mediana (ou diferenças entre as observações).
Logo após se ordena do menor para o maior em valor absoluto. E se adiciona os postos das diferenças positivas para obter a soma dos postos.
Teste de postos sinalizados de Wilcoxon
Para um amostra pequena requer uma tabela especial.
Para uma amostra grande (n > 20), a estatística é aproximada por uma normal.
Pode-se usar a tabela normal ou usar o excel para calcular o valor p.
Rejeitar H0 se o p-valor < a.
Teste de correlação de postos de Spearman
É um teste não – paramétrico que mede a força de associação, se houver alguma, entre duas variáveis.
Usa somente postos.
Não supõe escala de medida intervalar.
O coeficiente de correlação rs deve está no intervalo entre -1 < rs < +1.
O sinal do rs indica se a relação é direta ou inversa.
Teste de correlação de postos de Spearman
Se rs estiver perto de zero, há pouca ou nenhuma relação.
Se rs for perto de +1, há uma forte relação positiva.
Se rs for perto de -1, indica uma forte relação negativa.
Teste de correlação de postos de Spearman
Fórmula para cálculo:
Onde: di = diferença entre os postos. n = o tamanho da amostra.
Para atribuir os postos aos dados, deve-se ordenar do maior para o menor, dentro de cada amostra.
Quando se tem valores iguais, se atribuem os postos do valor na sequência normal, e depois é feita uma média.
Teste de correlação de postos de Spearman
Teste de correlação de postos de Spearman
As hipóteses a serem testadas são:
H0: A verdadeira correlação de postos é nula (rs < 0)
H1: a verdadeira correlação de postos é positiva (rs > 0)
Para um teste de correlação negativa se inverte a direção do teste.
Se N for maior que 20 observações, pode-se aproximar por uma distribuição t-student, com v = n – 1 graus de liberdade.
Teste de correlação de postos de Spearman
Fórmula utilizada para testar as hipóteses:
Rejeita-se H0 se t > ta ou se o p-value < a.
Obrigado