Baixe o app para aproveitar ainda mais
Prévia do material em texto
Outliers Alunos Julyanna, Octavio, Ricceli e Tainan Seminário de Bioestatística Papel do PTP1B na doença de Alzheimer Original Sem outliers Teste ROUT Teste t não paramétrico Como detectar um outlier? Antes de qualquer análise, olhe para seus dados! Critérios para identificar um outlier Distância até a média, em quantidade de desvios-padrão Box plot Teste de Grubbs Outros Um bom ponto de partida Pressupostos A variável deve ter distribuição que se aproxime da distribuição normal Problema Não aplicável para amostras que tenham distribuições diferentes da Normal Box- Plot Vantagem: não depende da simetria dos dados em torno da média. Método baseado na amplitude interquartil (IQR IQR= Q3-Q1 Podemos usar o IQR para calcular os limites superior e inferior Limite Superior= Q3 +1,5X IQR Limite Inferior = Q1 -1,5 x IQR Box- Plot- um exemplo Observação Valor 1 501 2 504 3 493 4 499 5 497 6 503 7 525 8 495 9 506 10 502 Mediana 501,5 Quartil 1 497,5 Quartil 3 503,75 IQR (Q3 -Q1) 6,25 Lim Sup. 513,125 Lim Inferior 488,125 Teste de Grubbs Atividade relativa daLuciferase% (G1748S) 80,43694807 90,71636743 80,28815256 101,9298292 MEDIA 88,34282432 DESVIO PADRÃO 10,28949344 n AMOSTRAS 4 G 1,320473645 O que fazer ao identificar um outlier? Outlier O problema é sempre achar que o outlier é um erro, sem saber a razão de estar ali ERRO VARIABILIDADE DOS DADOS Excluir o outlier Usar transformações Fazer truncamento O que fazer ao identificar um outlier? Testes paramétricos x não-paramétricos Paramétricos: aplicam abordagens de teste de significância convencional às decisões sobre a rejeição de um único outlier. tendência central e a dispersão pela média aritmética e pelo desvio padrão, o que requer uma distribuição normal dos dados. Não-paramétricos: evita a rejeição do outlier com o uso da mediana em vez da média aritmética como a "medida da tendência central". Testes paramétricos para outliers Teste de Dixon (Q) Ordenar os valores de forma crescente de “1” a “H”. Supor a hipótese de que o menor valor, 1, ou o maior valor, H, são suspeitos como valores outliers. Ordenar os valores de forma crescente de “1” a “H”. Supor a hipótese de que o menor valor, 1, ou o maior valor, H, são suspeitos como valores outliers. 15 Testes paramétricos para outliers Teste de Dixon (Q) Ordenar os valores de forma crescente de “1” a “H”. Supor a hipótese de que o menor valor, 1, ou o maior valor, H, são suspeitos como valores outliers. 16 Testes paramétricos para outliers Teste de Dixon (Q) Exemplo: Ordem crescente - 9.97, 10.02, 10.05, 10.07 e 10.27 Q10 = (suspect value - nearest value)/range (10.27 - 10.07)/(10.27 - 9.97) = 0.667 Testes paramétricos para outliers Se D > valor crítico, temos a presença de um outlier. Testes paramétricos para outliers Teste de Dixon (Q) Exemplo: Ordem crescente - 9.97, 10.02, 10.05, 10.07 e 10.27 Q10 = (suspect value - nearest value)/range (10.27 - 10.07)/(10.27 - 9.97) = 0.667 Não excluir outlier! Testes não-paramétricos para outliers Teste de Wilcoxon-Mann-Whitney Exemplo: Concentração de íon metálico (ng cm-3) Área A: 29,42,60,80, 83, 110, 130, 168, 194,230, 260, 270, 275, 280, 350, 780 Mediana = 181 ng cm-3 Área B: 122, 140, 160, 220, 245, 250, 260, 268, 348, 390, 420,430, 445, 454, 482, 498 Mediana= 308 ng cm-3 Testes não-paramétricos para outliers Teste de Wilcoxon-Mann-Whitney Exemplo: Concentração de íon metálico (ng cm-3) Área A: 29,42,60,80, 83, 110, 130, 168, 194,230, 260, 270, 275, 280, 350, 780 Mediana = 181 ng cm-3 Área B: 122, 140, 160, 220, 245, 250, 260, 268, 348, 390, 420,430, 445, 454, 482, 498 Mediana= 308 ng cm-3 N de valores excedentes = 10 Testes não-paramétricos para outliers Teste de Wilcoxon-Mann-Whitney Exemplo: Concentração de íon metálico (ng cm-3) Área A: 29,42,60,80, 83, 110, 130, 168, 194,230, 260, 270, 275, 280, 350, 780 Mediana = 181 ng cm-3 Área B: 122, 140, 160, 220, 245, 250, 260, 268, 348, 390, 420,430, 445, 454, 482, 498 Mediana= 308 ng cm-3 N de valores excedentes = 9 E assim por diante... Testes não-paramétricos para outliers Teste de Wilcoxon-Mann-Whitney Exemplo: Concentração de íon metálico (ng cm-3) Área A: 29,42,60,80, 83, 110, 130, 168, 194,230, 260, 270, 275, 280, 350, 780 Mediana = 181 ng cm-3 Área B: 122, 140, 160, 220, 245, 250, 260, 268, 348, 390, 420,430, 445, 454, 482, 498 Mediana= 308 ng cm-3 10+9+9+7+6+6+5+5+2+1+1+1+1+1+1+1 = 66 Testes não-paramétricos para outliers Teste de Wilcoxon-Mann-Whitney A hipótese nula (que os dois conjuntos de medições têm medianas iguais) deve ser rejeitada. O método sugere que os níveis de íons metálicos nas duas áreas são provavelmente diferentes. Testes não-paramétricos para outliers Teste de Wilcoxon-Mann-Whitney Exemplo: Concentração de íon metálico (ng cm-3) Área A: 29,42,60,80, 83, 110, 130, 168, 194,230, 260, 270, 275, 280, 350, 780 Mediana = 181 ng cm-3 Área B: 122, 140, 160, 220, 245, 250, 260, 268, 348, 390, 420,430, 445, 454, 482, 498 Mediana= 308 ng cm-3 O mesmo resultado de Mann-Whitney teria sido obtido se esta leitura tivesse tomado qualquer valor 3499, isto é, qualquer valor superior ao valor de área B mais elevado. Em contrapartida, a leitura de 780 ng cm-3 inflama grandemente tanto a média quanto o desvio padrão dos resultados para a área A. Esta propriedade do método de Mann-Whitney (isto é, de ser pouco afectada por resultados anómalos) é conhecida como Robustez 25 Estatística Robusta “Acomodam os outliers sem nenhum inconveniente sério - ou são robustos contra a presença de outliers“ (Barnett & Lewis, 1994, p.35) Em vez de transformações ou truncamento, os pesquisadores às vezes usam vários procedimentos "robustos" para proteger seus dados de serem distorcidos pela presença de outliers. Essas técnicas "acomodam os outliers sem nenhum inconveniente sério - ou são robustos contra a presença de outliers" (Barnett & Lewis, 1994, p.35). Determinadas estimativas de parâmetros, especialmente as estimativas de médias e de mínimos quadrados, são particularmente vulneráveis a valores atípicos, ou têm valores de "baixo desagregação". Por esta razão, os pesquisadores se voltam para métodos robustos ou de "alto desdobramento" para fornecer estimativas alternativas para esses aspectos importantes dos dados. 26 Estatística Robusta Média aparada Omissão Cerca de 10-25% de aparagem 27 Estatística Robusta Média aparada Omissão Cerca de 10-25% de aparagem Por que aparar em ambas as extremidades da amostra de dados quando resultados suspeitos só podem ocorrer em uma extremidade? Como podemos decidir a extensão do aparamento? Por que remover esses resultados completamente quando, como já observado, pode ser melhor simplesmente reduzir seus pesos? N 28 Estatística Robusta Média windsorizada um resultado periférico é "movido" de modo que seja reduzido e se torne o mesmo que o segundo (ou talvez terceiro) maior ou menor resultado. 29 Estatística Robusta Desvio mediano absoluto Exemplo: Ordem crescente - 9.97, 10.02, 10.05, 10.07 e 10.27 Desvios absolutos individuais da mediana são: 0,08, 0,03, 0, 0,02 e 0,22 Desvio mediano absoluto = 0,03 Mediana 30 Estatística Robusta Desvio mediano absoluto Exemplo: Ordem crescente - 9.97, 10.02, 10.05, 10.07 e 10.27 Desvios absolutos individuais da mediana são: 0,08, 0,03, 0, 0,02 e 0,22 Desvio mediano absoluto = 0,03 Se desvio absoluto do outlier/desvio mediano absoluto for >5 o outlier pode ser REJEITADO! 0.22/0.03= 7.3, logo o valor se 10.27 será rejeitado! 31 Estatística Robusta Desvio mediano absoluto Exemplo: Ordem crescente - 9.97, 10.02, 10.05, 10.07 e 10.27 Desvios absolutos individuais da mediana são: 0,08, 0,03, 0, 0,02 e 0,22 Desvio mediano absoluto = 0,03 Se desvio absoluto do outlier/desvio medianoabsoluto for >5 o outlier pode ser REJEITADO! 0.22/0.03= 7.3, logo o valor se 10.27 será rejeitado! Discordância com o teste de Dixon 32
Compartilhar