Baixe o app para aproveitar ainda mais
Prévia do material em texto
See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/303262973 Estatistica parametrica e não parametrica para principiantes com apoio do SPSS Technical Report · May 2016 CITATIONS 0 READS 4,554 1 author: Some of the authors of this publication are also working on these related projects: Psicologia View project Análise de Dados View project Margarida Pocinho Escola Superior de Tecnologia da Saúde de Coimbra / Instituto Politécnico de Coimbra 91 PUBLICATIONS 144 CITATIONS SEE PROFILE All content following this page was uploaded by Margarida Pocinho on 23 May 2016. The user has requested enhancement of the downloaded file. https://www.researchgate.net/publication/303262973_Estatistica_parametrica_e_nao_parametrica_para_principiantes_com_apoio_do_SPSS?enrichId=rgreq-25249d639f0cee9975f3f47d10af125a-XXX&enrichSource=Y292ZXJQYWdlOzMwMzI2Mjk3MztBUzozNjUwNTM2NDA0OTUxMDVAMTQ2NDA0Njk3ODkwMQ%3D%3D&el=1_x_2&_esc=publicationCoverPdf https://www.researchgate.net/publication/303262973_Estatistica_parametrica_e_nao_parametrica_para_principiantes_com_apoio_do_SPSS?enrichId=rgreq-25249d639f0cee9975f3f47d10af125a-XXX&enrichSource=Y292ZXJQYWdlOzMwMzI2Mjk3MztBUzozNjUwNTM2NDA0OTUxMDVAMTQ2NDA0Njk3ODkwMQ%3D%3D&el=1_x_3&_esc=publicationCoverPdf https://www.researchgate.net/project/Psicologia-18?enrichId=rgreq-25249d639f0cee9975f3f47d10af125a-XXX&enrichSource=Y292ZXJQYWdlOzMwMzI2Mjk3MztBUzozNjUwNTM2NDA0OTUxMDVAMTQ2NDA0Njk3ODkwMQ%3D%3D&el=1_x_9&_esc=publicationCoverPdf https://www.researchgate.net/project/Analise-de-Dados?enrichId=rgreq-25249d639f0cee9975f3f47d10af125a-XXX&enrichSource=Y292ZXJQYWdlOzMwMzI2Mjk3MztBUzozNjUwNTM2NDA0OTUxMDVAMTQ2NDA0Njk3ODkwMQ%3D%3D&el=1_x_9&_esc=publicationCoverPdf https://www.researchgate.net/?enrichId=rgreq-25249d639f0cee9975f3f47d10af125a-XXX&enrichSource=Y292ZXJQYWdlOzMwMzI2Mjk3MztBUzozNjUwNTM2NDA0OTUxMDVAMTQ2NDA0Njk3ODkwMQ%3D%3D&el=1_x_1&_esc=publicationCoverPdf https://www.researchgate.net/profile/Margarida-Pocinho?enrichId=rgreq-25249d639f0cee9975f3f47d10af125a-XXX&enrichSource=Y292ZXJQYWdlOzMwMzI2Mjk3MztBUzozNjUwNTM2NDA0OTUxMDVAMTQ2NDA0Njk3ODkwMQ%3D%3D&el=1_x_4&_esc=publicationCoverPdf https://www.researchgate.net/profile/Margarida-Pocinho?enrichId=rgreq-25249d639f0cee9975f3f47d10af125a-XXX&enrichSource=Y292ZXJQYWdlOzMwMzI2Mjk3MztBUzozNjUwNTM2NDA0OTUxMDVAMTQ2NDA0Njk3ODkwMQ%3D%3D&el=1_x_5&_esc=publicationCoverPdf https://www.researchgate.net/institution/Escola-Superior-de-Tecnologia-da-Saude-de-Coimbra-Instituto-Politecnico-de-Coimbra?enrichId=rgreq-25249d639f0cee9975f3f47d10af125a-XXX&enrichSource=Y292ZXJQYWdlOzMwMzI2Mjk3MztBUzozNjUwNTM2NDA0OTUxMDVAMTQ2NDA0Njk3ODkwMQ%3D%3D&el=1_x_6&_esc=publicationCoverPdf https://www.researchgate.net/profile/Margarida-Pocinho?enrichId=rgreq-25249d639f0cee9975f3f47d10af125a-XXX&enrichSource=Y292ZXJQYWdlOzMwMzI2Mjk3MztBUzozNjUwNTM2NDA0OTUxMDVAMTQ2NDA0Njk3ODkwMQ%3D%3D&el=1_x_7&_esc=publicationCoverPdf https://www.researchgate.net/profile/Margarida-Pocinho?enrichId=rgreq-25249d639f0cee9975f3f47d10af125a-XXX&enrichSource=Y292ZXJQYWdlOzMwMzI2Mjk3MztBUzozNjUwNTM2NDA0OTUxMDVAMTQ2NDA0Njk3ODkwMQ%3D%3D&el=1_x_10&_esc=publicationCoverPdf 16-05-2016 1 ESTATÍSTICA § É a ciência que se utiliza das teorias probabilísticas para explicar a frequência da ocorrência de eventos, de forma a estimar ou possibilitar a previsão de fenômenos futuros, conforme o caso. § Pode ser aplicada em praticamente todas as áreas do conhecimento humano e em algumas áreas recebe um nome especial. Este é o caso da Bioestatística, que trata de aplicações da Estatística em Ciências Biológicas e da Saúde. 16-05-2016 2 Estatística Paramétrica Não Paramétrica Calcula diferenças numéricas exatas entre os resultados Considera que se certos resultados são superiores ou inferiores a outros resultados Paramétricos Ø Teste T-student para dados independentes Ø Teste T-Student para dados emparelhados Ø Teste R de Pearson Ø Testes Anova Não Paramétrico Testes para amostras emparelhadas Ø Teste do sinal Ø Teste de McNemar Ø Teste Q de Cochran Ø Teste de Wilcoxon Ø Teste de Friedman Testes para amostras independentes Ø Teste de Mann-Whitney Ø Teste de Kruskal-Wallis Ø Teste de Wald-Wolfowitz ou teste de aleatoriedade da amostra Ø Rho Spearman Ø Teste de Moses para reações extremas Outras temas Ø Teste binominal Ø Teste de ajustamento do Qui-Quadrado Ø Teste de indepêndencia do Qui-Quadrado Ø Teste de Fisher 16-05-2016 3 POPULAÇÃO E AMOSTRA. MÉTODOS DE AMOSTRAGEM População DEFINIÇÃO: qSão os elementos que têm determinadas características em comum e que estão sujeitos a uma análise estatística. 16-05-2016 4 População Quanto à sua origem: • Conjunto de situações; • Conjunto de pessoas; • Conjunto de objetos; Pode ainda ser: • Real; • Hipotética; Amostra DEFINIÇÃO: qÉ um subconjunto retirado da população. qÉ representativo de todas as suas características e é sobre esta amostra que o estudo é realizado. 16-05-2016 5 Amostragem DEFINIÇÃO: q Procedimento através do qual um grupo de elementos é escolhido com o objetivo de obter informações relacionadas com o fenómeno em estudo. Métodos de amostragem Amostragens probabilísticas Amostragem Aleatória Simples • Cada um dos elementos da população-alvo tem igual probabilidade de ser escolhido para fazer parte de uma amostra. Amostragem Aleatória Estratificada • A população-alvo é dividida em sub-grupos homogéneos – estratos - e tirar de forma aleatória uma amostra de cada um. Amostragem Sistemática • Quando existe uma lista ordenada de elementos da população. 16-05-2016 6 Métodos de amostragem Amostragens não probabilísticas Amostragem Acidental • Formada por sujeitos presentes num determinado local e momento. Amostragem por Tipicidade • O investigador faz os seus próprios julgamentos dos elementos, de modo a formar uma amostra de sujeitos em função do seu caráter. Amostragem por Redes • Escolha de sujeitos, para a amostra, que não seriam tão acessíveis de encontrar, utilizando por exemplo redes sociais. Baseada em medidas de tendência central e de dispersão (moda, média, mediana, desvio padrão, etc) Margarida Pocinho Patrícia Gonçalo 16-05-2016 7 Ø Os indicadores de tendência central são capazes de nos mostrar como uma certa variável ou característica do grupo estudado se distribui utilizando apenas um número. Ø Considerar dois fatores são importantes nas análises deste tipo: - A avaliação da tendência central da distribuição; - A avaliação da dispersão dos valores em torno desta tendência central. Atenção: Apenas em variáveis quantitativas!! ØNa barra de ferramentas seleccionamos ANALYSE , depois DESCRIPTIVES STATISTICS e depois FREQUENCIES . - Selecionar a variável (ex : EVA1) 16-05-2016 8 ØSelecionar aqueles indicadores que pretendemos analisar. Ø Selecionar a opção STATISTICS para conseguirmos indicadores de tendência central e de dispersão. ØComo se tratam de variáveis quantitativas podemos excluir as tabelas de frequências. ØDesativamos a DISPLAY FREQUENCY TABLE. Ø Resultados da análise da variável Eva1. 16-05-2016 9 Ø A opção CHART relaciona uma série de recursos para a visualização gráfica da distribuição de dados de variáveis categóricas; sendo única excepção o histograma. Ø Como pretendemos medidas de tendência central, nossa análise está restringinda a variáveis quantitativas . Ø Selecionamos a opção histograms . Ø Podemos também selecionar a opção With normal curve para analisar a curva normal do gráfico. 16-05-2016 10 Ø A curva tem uma distribuição ligeiramente assimétrica para a direita, uma simetria positiva, onde média > mediana > moda. Ø Obtemos os resultados da análise da variável Eva1. Ø Existe ainda um segundo modo para representar graficamente as medidas de tendência central. Os seus resultados são baseados na distribuição dos quartis e mediana e a definição do parâmetro de repartição da amostra é dada em função das categoriasde uma segunda variável. Ø Na barra de ferramentas escolheremos GRAPHS, depois BOX PLOT . 16-05-2016 11 Ø No menu para definição deste gráfico, poderemos escolher: - Entre trabalhar com apenas uma variável no eixo X (simple) ou trabalhar com duas variáveis agregadas no eixo X (Clustered). - Poderemos trabalhar com a separação por grupos de casos (groups of cases) ou por variáveis (separate variables). Ø Se selecionarmos a opção SIMPLE e Summaries for Groups of Cases 16-05-2016 12 Ø A opção VARIABLE deve ser preenchido com a variável para a análise de tendência central; Ø A opção CATEGORY AXIS deve ser preenchido com a variável em função da qual serão estabelecidos os grupos de casos a serem comparados, por exemplo entre homem ou mulher. Ø O preenchimento da opção Label Cases By não é obrigatório e a variável presente será usada para caracterização dos outliers. 16-05-2016 13 Ø A linha preta no interior do rectângulo castanho corresponde a mediana da distribuição em cada categoria sexual. Ø Os retângulos castanhos compreendem a distribuição de 50% dos casos e os traços pretos acima a abaixo deste retângulo compreendem os 50% restantes dos casos. 16-05-2016 14 Ø No gráfico verificamos que não existem outliers que são os valores dos casos estudados quando se diferenciaram muito da distribuição central dos dados (estão fora da distribuição principal) Ø Neste exemplo temos um outlier no sexo masculino no caso 15. Ø Devemos verificar a base de dados para verificar se não ocorreu erro na inserção dos dados. Ø Se forem verdadeiros outliers devemos retiramos da amostra e analisá-los individualmente. 16-05-2016 15 TESTES DE NORMALIDADE O que são Testes de Normalidade? São testes não paramétricos, que se também designam por testes de ajustamento. São utilizados para verificar se a distribuição de probabilidade associada a um conjunto de dados pode ser aproximada pela distribuição normal. Mais precisamente, os testes são uma forma de seleção de modelos, e podem ser interpretados de várias maneiras, dependendo de como cada um interpreta as probabilidades. 16-05-2016 16 Exemplos de testes de normalidade: • Shapiro-Wilk test • Kolmogorov-Smirnov • Anderson-Darling test • D’Agostino’s K – squared test • Jarque-Bera test • Cramér-von-Mises criterion • Pearson’s chi-square test • Shapiro-Francia test for normality • Ryan-Joiner test • Lillliefors A curva de distribuição normal é simétrica em forma de sino. Esta distribuição possui um conjunto de propriedades matemáticas importantes: • É Simétrica; • A média, a mediana e a moda apresentam todas o mesmo valor; • A curva desce rapidamente de início, a partir o ponto central, mas esta descida abranda à medida que as caudas da curva são atingidas; • Independentemente da extensão das caudas da curva, elas nunca atingem o eixo horizontal. Distribuição Normal: Como afirma Gonzaga (1994), uma das formas de distribuição de frequências é a designada Distribuição Normal, cuja curva apresenta a seguinte forma. 16-05-2016 17 Curva de Distribuição Normal e o Desvio Padrão (σ ou DP): Outro valor importante relacionado com as curvas de distribuição normal é o desvio- padrão (que representa a raiz quadrada da variância): Ora entre as propriedades mais importantes da distribuição normal está o facto de que cerca de 68%, 95% e 99,5% dos valores da amostra estão compreendidos no intervalo entre a média (µ) mais (+) ou menos (-) 1, 2 e 3 desvios-padrão (σ) (GONZAGA, 1994). Quando um conjunto de dados apresenta uma distribuição normal, uma percentagem fixa de resultados cairá numa determinada área debaixo da curva. Quanto maior a área, maior será a percentagem da população! Se tomar o ponto central da curva (valor médio- µ), apresentado na figura, há factos constantes: • Se movermos 1 desvio padrão para cima e abaixo do valor médio, 68% dos resultados acabam sempre por cair neste intervalo, 34% das observações caem num desvio padrão acima da média e os outros 34% num desvio padrão abaixo da mesma. 16-05-2016 18 • Prosseguindo,13,5% das observações caem entre 1 e 2 desvios padrão acima da média, e 13,5% entre 1 e 2 desvios padrão abaixo da média. Assim, no intervalo [µ-2σ; µ+2σ] tem 95% das observações (13,5%+34%+34%+13,5%). • Considerando agora 2 e 3 desvios padrão (acima e abaixo da média),verifica que 2,36% das observações estão entre os 2 e os 3 desvios padrão. Assim sendo, no intervalo [µ- 3σ; µ+3σ] tem 99,73% das observações (2,36%+13,5%+34%+34%+13,5%+2,36%). Testes de Hipóteses: 16-05-2016 19 Testes de Hipóteses Paramétricas: Testes de Hipóteses Paramétricas: 16-05-2016 20 16-05-2016 21 Testes de Normalidade: 16-05-2016 22 TESTES de NORMALIDADE (SPSS): O SPSS realiza dois testes de normalidade: •Shapiro-Wilk •Kolmogorov-Smirnov teste de normalidade no SPSS: Analisar Estatística Descritiva Explorar Após abrir o Explorar escolher a variável e escolhemos a opção Gráficos Dentro do gráficos, marcar a opção com testes de normalidade EXERCICIO-SPSS: Dado um conjunto de dados, vamos verificar se a distribuição é normal. Neste exemplo, a hipótese nula (H0) é que os dados são normalmente distribuídos e a hipótese alternativa (H1) é que os dados não estão normalmente distribuídos. O conjunto de dados pode ser obtido aqui. Os dados a ser testados estão na primeira coluna: 16-05-2016 23 1º Passo: Selecionar “Analize” à “Descriptive Statistics” à “Explore” Uma nova janela aparece. 2º Passo: Na linha à esquerda, selecione as variável “Data” para a “Dependent List”. Clique em “Plots” no lado direito. Uma nova janela abrirá. Verifique se em “Boxplots” está marcado “None”, e desmarque tudo em “Descriptive” e certifique-se que a “Normality plots with tests” está marcada. 16-05-2016 24 3º Passo: Os resultados saem em janelas “Output”. 4º Passo: Agora podemos interpretar os resultados. As estatísticas do teste são apresentadas na terceira tabela. Aqui dois testes para a normalidade são executados. Para conjunto de dados com menos de 2000 elementos, usamos o teste Shapiro-Wilk, caso contrário, usamos o teste Kolmogorov-smirnov. No nosso caso, uma vez que temos apenas 20 elemento, usamos o teste de Shapiro-wilk. A partir do valor de p-value (0,316), nós podemos rejeitar a hipótese alternativa, e concluir que os dados seguem uma distribuição normal. 16-05-2016 25 Teste de Anderson-Darling (FERRAMENTA ACTION): 16-05-2016 26 16-05-2016 27 16-05-2016 28 Resultados e Interpretação: 16-05-2016 29 § The Tests of Normality table in SPSS produces the Kolmogorov–Smirnov test and the Shapiro–Wilk test. But there are many alternative tests of univariate normality: the Lilliefors test, the Pearson's chi-squared test, and the Shapiro–Francia test, D'Agostino's K-squared test, the Anderson–Darling test, the Cramér–von Mises criterion, and the Jarque–Bera test. The Shapiro-Wilk test and Anderson- Darling test have better power for a given significance compared to Kolmogorov-Smirnov or Lilliefors test - an adaptation of the Kolmogorov–Smirnov test (Razali, Nornadiah, Wah, Yap Bee 2011). • É uma das mais importantes distribuições da estatística, conhecida também como Distribuição de Gauss ou Gaussiana. Foi primeiramente introduzida pelo matemático Abraham de Moivre. • Além de descrever uma série de fenômenos físicos e financeiros, possui grande uso na estatística inferencial. DISTRIBUIÇÃO NORMAL 16-05-2016 30 Se a variável aleatória segue esta distribuição escreve-se: ~ . Se e , a distribuição é chamada de distribuição normal padrão e a função de densidade de probabilidade reduz-se a: A função densidade de probabilidade da distribuição normal com média e variância (de forma equivalente, desvio padrão ) é assim definida: FUNÇÃO DA DENSIDADE DE PROBABILIDADE CARACTERÍSTICAS DA DISTRIBUIÇÃO NORMAL 1. É simétrica em relação a média Se os elementos que constituemuma distribuição estão muito próximos ou muito dispersos, encontraremos: X 50% 50% 16-05-2016 31 CARACTERÍSTICAS DA DISTRIBUIÇÃO NORMAL 2. A curva normal tem a forma de sino 3. Prolonga-se de -∞ a +∞ (apenas em teoria) (assintótica) 4. A media, a mediana e a moda encontram-se no mesmo ponto da curva; Media /moda/mediana CARACTERÍSTICAS DA DISTRIBUIÇÃO NORMAL 5. Fica completamente especificada por sua média e seu desvio padrão; 6. A área total sob a curva é considerada 100% ou igual a 1 100 % 16-05-2016 32 A área sob a curva entre dois pontos é a probabilidade de uma variável normalmente distribuída a tomar um valor entre esses pontos 5 media e desvio padrão conhecendo-se estes valores consegue-se determinar qualquer probabilidade em uma distribuição Normal 68,2% 95,4% 99,8% 2,2 % 2,2 % 200 ----- 100% X--------- 15,9% X=31,8 32 pessoas tem resultados < 52 pontos e 32 pessoas tem resultados > 68 pontos EXERCÍCIO Um professor obtém os resultados de um teste de leitura a 200 alunos. Os resultados são normalmente distribuídos com uma média de 60 pontos e um desvio padrão de 8. Quantos alunos se afastam mais de 8 pontos da média? 2,2 % 2,2 % 6 0 6 8 5 2 7 6 4 4 3 6 8 4 13,6 + 2,2 + 0,1 = 15,9 % < 52 e > 68 pontos 16-05-2016 33 A distância entre a média e um ponto qualquer é dado em número de desvios padrões (z) Normal padronizada Normal não padronizada z = x - µσ µ x 0 z PP DISTRIBUIÇÃO NORMAL A distribuição normal padronizada tem média e desvio padrão iguais a: μ = 0 σ =1 DISTRIBUIÇÃO NORMAL PADRONIZADA Facilita os cálculos de probabilidade, evitando o uso da fórmula e projetando qualquer análise mediante utilização de ESCORES (Z) 16-05-2016 34 DISTRIBUIÇÃO NORMAL Outras Distribuições Normais Se µ ≠ 0 ou σ ≠ 1 (ou ambos), os valores são convertidos para os valores padronizados através da expressão abaixo Podendo utilizar então os mesmos procedimentos tomados com a distribuição normal padrão, x - µ σ 16-05-2016 35 Probabilidade de uma variável aleatória normal tomar um valor z entre a média e o ponto situado a z desvios padrões área entre a média e z área tabelada = área desejada 0 z CONSULTANDO A TABELA 16-05-2016 36 A probabilidade de escolher um termômetro que acuse leitura entre 1,20 e 2,30 °C corresponde à área ombreada da figura | É fácil perceber que podemos calcular esta área, subtraindo- se a área de 0 até o maior valor (2,30), da área de 0 até o menor valor (1,20), que são lidas na Tabela A- 2 ! EXERCÍCIO Após 28 dias de curagem, o cimento de uma certa marca tem uma resistência compressiva média de 4000psi. Suponha que a resistência tem uma distribuição normal com desvio-padrão de 120psi. Qual a probabilidade de se comprar um pacote de cimento com resistência compressiva de 28 dias menor que 3850psi? N(µ;σ) = N(4000,120) psi X = 3850psi %56,101056,0)25,1( ==−≤ZP 3850 4000 -1,25 Área em verde = z = -1,25 = 0,3944 Área desejada = 0,50 – 0,3944 = 0,1056 = 10,56% 25,1 120 40003850 −= − = − = σ µXz P(z ≤ -1,25) EXERCÍCIO 16-05-2016 37 Um máquina produz peças com o diâmetro médio de 2,00” e o desvio-padrão de 0,01”. As peças que se afastam da média por mais de 0,03” são consideradas defeituosas. Qual é a percentagem de peças defeituosa? )3()3()97,1()03,2( −<+>=<> ZPZPxouPxP 3 01,0 203,2 1 += − = − = σ µXz f(x) 2=µ X2 0 3 Z 2,031,97 -3 N(µ,σ) = N(2,00;0,01) X1 = 2,03 e X2=1,97 3 01,0 297,1 2 −= − = − = σ µXz Consultando a tabela: %26,00013,00013,0)3()3( =+=−<+> ZPZP 0,5- 0,4987= 0,0013 EXERCÍCIO 50 % TESTES T DE STUDENT 16-05-2016 38 § Calcula as diferenças numéricas exatas entre os resultados. § Estes testes exigem que a(s) amostra(s) tenha(m) uma distribuição normal, especialmente se tiverem uma dimensão inferior a 30. Testes paramétricos Quando se pretende aplicar um teste t de Student para fazer comparações entre amostras, existe uma série de requisitos que não devem ser esquecidos: • Variável mensurada num nível mínimo intervalar; • Distribuição simétrica; • Variável com distribuição normal numa dada população; Requisitos para utilização de testes paramétricos 16-05-2016 39 Teste paramétrico t de Student para dados independentes § Características e requisitos: § Teste de comparação de médias; § Distribuição com forma leptocúrtica; § Escala de medida intervalar e contínua; § Simétrica; § Varia de mais infinito a menos infinito; § Desvio padrão de variável com n; § Distribuição normal; § n>=30). Teste T de Student independente § O objetivo deste teste é comparar a quantidade da variabilidade total nos resultados dos sujeitos. § As diferenças previstas são calculadas como uma diferença entre os resultados médios entre dois grupos. § § A estatística t representa o tamanho da diferença entre as médias para os dois grupos, tomando em consideração a variância total. § Para que o valor observado de t seja significativo terá de ser igual ou superior aos valores críticos de t apresentados na tabela. 16-05-2016 40 § A comparação das médias é feita entre os casos de uma variável numa das amostras com os casos dessa variável na outra amostra (testes t). Ex. Testar se o rendimento médio dos homens é semelhante ao das mulheres. § A comparação das médias é feita entre os casos de um grupo de variáveis numa das amostras com os casos dessa variável na outra amostra (testes simultâneos). Ex. Testar se o rendimento médio e os gastos médios são semelhantes entre homens e mulheres. Testes t 1. Elevar ao quadrado cada resultado individual para ambos os grupos em separado; 2. Adicionar os totais dos resultados ao quadrado para cada grupo; 3. Elevar ao quadrado todos os resultados individuais para cada grupo; 4. Calcular a média para cada grupo; 5. Calcular t. Instruções passo-a-passo: 16-05-2016 41 Instruções passo-a-passo: Se t observado t crítico rejeita-se H0 se t observado t crítico aceita-se H0 § Este é um teste de hipóteses, que conduz a uma decisão acerca das hipóteses nula (H0) e alternativa (H1), tirando partido da informação contida na amostra recolhida. § Assim sendo, de um modo geral, tomamos uma de duas decisões. § Rejeitar H0: a qualquer n.s. α0 ≤ p-value § Não rejeitar H0: n.s α0 > p-value NOTA: p-value é o maior nível de significância que leva à não rejeição de H0. 16-05-2016 42 Exercício usando o SPSS: § Com o objetivo de testar a influência do olfato no sono dos recém nascidos, foi registado o tempo (em min.) que um bebé com uma semana demora a adormecer, tendo sido considerados dois grupos de bebés: § grupo I: em que se colocou no berço uma peça de roupa utilizada pela mãe; § grupo II: em que se colocou no berço uma peça de roupa utilizada por outra pessoa. § Os resultados obtidos encontram-se no quadro seguinte: 16-05-2016 43 Sabendo que a variável em estudo segue uma distribuição normal, teste se existem diferenças significativas entre o tempo que os dois grupos de bebés levaram a adormecer (α=0.05). Resolução usando o SPSS: H0: µ1 − µ2 = 0 ou H0 : µ1 = µ2 H1: µ1 − µ2 ≠ 0 ou H1 : µ1 ≠ µ2 (Teste bilateral à pois possui um sinal diferente) H0: hipótese nula; H1: hipótese alternativa; µ: média. 16-05-2016 44 A tabela Group statistics apresenta as medidas descritivas dos dados (dimensão n de cada amostra), média, desvio-padrão e erro-padrão amostrais). Esta tabela (Independet Samples Test) apresenta o teste de Levene para a homogeneidade (igualdade) das variâncias e ao teste t para a comparação de duas médias no caso de duas amostras independentes. O quadro apresenta o valor da estatística do teste t para a igualdade das médias, o número de graus de liberdade e a probabilidade de significância do teste (nível de significância descritivo do teste/p-value - sig.). 16-05-2016 45 Neste exemplo, como se tratar de um teste bilateral, compara-se diretamente pvalue=0.016 com α=0.05 (nível de significância). Como 0.05 > 0.016 à rejeita-seH0. Assim sendo, pode-se afirmar com 95% de confiança que existem diferenças significativas entre o tempo que os dois grupos de bebés levam a adormecer. Interpretação dos resultados Rejeitar H0 a qualquer n.s α0 > p-value EXERCÍCIO 16-05-2016 46 Inquérito sobre a dor § Verificar se a dor sentida pelos alunos é influenciada pelo sexo. § H0 – A dor sentida pelos alunos não é influenciada pelo sexo § H1 – A dor sentida pelos alunos depende do sexo Verificar se as variáveis seguem distribuição normal H0 – As variáveis seguem uma distribuição normal. H1 – As variáveis não seguem uma distribuição normal. 16-05-2016 47 Verificar se as variáveis seguem distribuição normal Simétrica: Para a variável ser simétrica, é necessário que o resultado da divisão do coeficiente de assimetria pelo erro padrão esteja compreendido entre -2 e 2. EVA(Feminino): 0,888/0,752=1,570 EVA(Masculino): -0,552/0,616= -0,896 Logo, a distribuição é simétrica. Mesocúrtica: Uma vez que vai ser utilizado o Teste T de Student para amostras independentes, não é necessário verificar se a variável é mesocúrtica. Verificar se as variáveis seguem uma distribuição normal Distribuição normal Sig(EVAFeminino)=0,525 Sig(EVAMasculino)=0,057 Como ambos os valores de Sig são superiores a (0,05), aceita-se H0, que nos diz que a variável segue uma distribuição normal. A normalidade visualiza-se através do teste Shapiro-Wilk, pois a amostra tem menos de 50 casos e só se recorre ao teste de Kolmogorov-Smimov se a amostra tiver mais de 50 casos. Assim sendo, as variáveis são paramétricas. 16-05-2016 48 Escolher o teste estatístico adequado Descrição das variáveis: A variável independente (sexo) é qualitativa nominal; A variável dependente (EVA da dor cervical) é quantitativa; Tratam-se de variáveis independentes; Seguem uma distribuição normal. Este teste é utilizado para comparar a quantidade da variabilidade total nos resultados dos sujeitos, ou seja, VERIFICAR SE EXISTEM DIFERENÇAS NO TIPO DE EVA UTILIZADA PARA AVALIAR A DOR CERVICAL ENTRE OS SEXOS FEMININO E MASCULINO! Assim sendo, temos de recorrer ao teste paramétrico T de Student para amostras independentes. H0: a média do sexo feminino é igual à média do sexo masculino H1: a média do sexo feminino não é igual à média do sexo masculino Teste T de Student para amostras independentes 16-05-2016 49 Teste T de Student para amostras independentes Teste T de Student para amostras independentes Pelo teste de Levene, verificamos que as variáveis são homogéneas, pois o valor de Sig é igual a 0,396, ou seja, superior a 0,05. Assim sendo, utilizamos os resultados da linha Equal variances assumed. Pela tabela, verificamos que os valores das médias são semelhantes em ambos os sexos. 16-05-2016 50 Teste T de Student para amostras independentes Conclusão: Concluímos assim, pelos testes efetuados, que não existem diferenças entre a dor cervical em função dos sexos, ou seja, a dor cervical sentida pelos alunos desta turma não é influenciada pelo sexo. Uma vez que verificámos na tabela que o valor de Sig (0,383) é superior a 0,05, aceitamos H0, que nos diz que as médias são iguais para ambos os sexos. TESTE T PARA DADOS EMPARELHADOS 16-05-2016 51 Teste T Emparelhado Teste paramétrico Calcula as diferenças numéricas exatas entre os resultados Teste T Emparelhado Pré-requisitos para utilizar um teste paramétrico: • Que a variável tenha sido mensurada num nível mínimo intervalar; • Que a distribuição seja simétrica; • Que a variável tenha distribuição normal numa dada população; • Pressupostos. 16-05-2016 52 Teste T Emparelhado Quando se utiliza o Teste T Emparelhado? • Utiliza-se para designs experimentais com duas situações testando uma variável independente, quando os mesmos sujeitos (ou emparelhados) se encontram em ambas as situações - design relacionado. • O objetivo é comparar as diferenças entre as duas situações experimentais com a variabilidade total nos resultados. NOTA: Este teste é equivalente ao teste não paramétrico de Wilcoxon Teste T Emparelhado Calcular as diferenças entre os resultados dos sujeitos subtraindo os resultados da situação B para a situação A Elevar essas diferenças ao quadrado Calcular o somatório das diferenças obtidas Calcular o somatório do quadrado das diferenças Elevar ao quadrado as diferenças totais Calcular t Consultar a tabela dos valores críticos e, se t observado ≥ t crítico rejeita- se H0, se t observado < t crítico aceita-se H0 Como se utiliza? 16-05-2016 53 Teste T Emparelhado Como calcular t? Teste T Emparelhado Tabela de valores de t critico 16-05-2016 54 Teste T Emparelhado Bilaterais ou unilaterais • Teste bilateral: utilizado quando interessam os resultados de ambos os lados da curva • Teste unilateral: utilizado quando são importantes os dados de apenas um lado da curva Teste T Emparelhado Exemplo • Suponha que deseja comparar a eficácia de uma determinada. Para o efeito compara a terapia A com a B em pares de sujeitos com as mesmas categoria. Antes das terapias serrem ministradas semanalmente durante 3 meses os doentes foram avaliados, tornando a sê-lo no fim do tempo estipulado. 16-05-2016 55 Teste T Emparelhado Exemplo - tabela de resultados Teste T Emparelhado Exemplo - formulação de hipóteses • H0: A média da concentração das Aspirinas A e B não é diferente • H1: A média da concentração das Aspirinas A e B é diferente 16-05-2016 56 Teste T Emparelhado Exemplo - resolução no SPSS Analyse Compare Means Paired Samples T Test Teste T Emparelhado Exemplo - resolução no SPSS Passar para o quadro as variáveis que se quer estudar Ok 16-05-2016 57 Teste T Emparelhado Exemplo - resolução no SPSS Coeficiente de correlação de Pearson entre as duas variáveis ≠ Teste T Emparelhado Exemplo - interpretação dos resultados • Neste caso, como o teste é bilateral, e tcritico (1,833) < tobs (3,674) rejeita-se a hipótese nula ao nível de significância de 0,05. Há evidências estatísticas de que a média de concentração das Aspirinas A e B é diferente. 16-05-2016 58 EXERCÍCIO § Objetivo: Verificar se existe progresso, relativamente à dor no joelho, em pessoas com osteoartrite, com a utilização da joalheira elástica. § § Para tal, foram realizados inquéritos a 40 pessoas que sofriam de osteoartrite. Nestes inquéritos a dor foi avaliada através da escala análoga da dor relativamente à sua intensidade durante a realização de uma atividade (subir umas escadas com 8 degraus) com e sem joalheira elástica. Efeito da utilização da joalheira elástica em indivíduos com osteoartrite 16-05-2016 59 Requisitos dos testes paramétricos • Variáveis quantitativas – as escalas análogas da dor são variáveis quantitativas; • Distribuição simétrica; • Distribuição mesocúrtica; • Distribuição normal. 16-05-2016 60 16-05-2016 61 EVA (sem joelheira) -0,206/0,374=-0,55 EVA (com joalheira) -0,124/0,374=-0,332 Estes dois valores encontram-se entre -2 e 2 logo estas duas distribuições são simétricas. Coeficiente de simetria Através dos gráficos, nomeadamente das curvas de Gauss, podemos verificar que as distribuições são simétricas. 16-05-2016 62 Podemos verificar que não existem outliers, logo as distribuições são simétricas. Ø Boxplot EVA (sem joelheira) -0,777/0,733=-1,06 EVA (com joelheira) -0,505/0,733=-0,689 Estes dois valores encontram-se entre -2 e 2 logo estas duas distribuições são mesocúrticas. Coeficiente de achatamento 16-05-2016 63 Sig>0,05, logo esta variável apresenta uma distribuição normal. Teste Shapiro-wilk pois amostras pequenas e Kolmogorov-smirnov para grandes. Dado que as variáveis cumprem todos os requisitos posso utilizar testes paramétricos. Neste caso vou usar o teste T de Student para amostras emparelhadas. Definição das hipóteses: o H0 – a média da dor sentida pelos doentes, ao realizar a atividade, com e sem joelheira é a mesma; o H1 – a média da dorsentida pelos doentes difere quando realizam a atividade com e sem joelheira. α=0,05. A população é a mesma nas duas situações 16-05-2016 64 16-05-2016 65 Teste T de Student para amostras emparelhadas § Sendo que o Sig é ≤ 0,05, rejeita-se H0, podendo afirmar-se, com 95% de confiança, que houve diferença na dor sentida pelos doentes na realização da atividade com e sem joelheira elástica. § µs.j.=7,208 § µc.j= 6,457 § µs.j.>µc.j 16-05-2016 66 R DE PEARSON 16 de maio de 2016 Algoritmo e exercícios Karl Pearson ü Matemático britânico, nasceu a 27 de Março de 1857, em Londres; ü Formou-se na Universidade de Cambridge em Matemática, 1879; ü Fundou o departamento de estatística aplicada na Universidade de Londres (University College) em 1911; ü Pearson foi fundamental no desenvolvimento do coeficiente de correlação. ü Morreu a 27 de Abril de 1936 em Londres e ficou conhecido como o "Criador da Estatística Aplicada". 16-05-2016 67 ü Fundador e editor da revista "Biometrika" deu um grande contributo à estatística, desenvolvendo um grande número de métodos estatísticos padrões. Correlação üQuando estudamos um grupo relativamente a 2 caracteres vemos que pode existir uma relação entre eles. ü Se variarem sempre no mesmo sentido ou sempre em sentidos contrários, podemos dizer que existe uma correlação entre eles. ü A correlação pode ser definida como o grau de semelhança no sentido das variações entre os valores correspondentes dos dois caracteres, isto é, a correlação preocupa-se quer com a descrição da relação entre variáveis quer com a sua direcção. ü Devemos salientar que, para o cálculo das correlações, é necessário termos sempre duas medidas para cada sujeito. 16-05-2016 68 R de Pearson Ø Teste paramétrico, como tal é importante testar os “pré-requisitos” antes de o proceder Ø O teste Rho de Spearman é o teste equivalente não paramétrico ØUtilizamos quando estudamos um grupo relativamente a dois caracteres, em que pode existir uma relação entre estes. Ø Desde que os dois caracteres sejam tais que as suas variações sejam sempre no mesmo sentido, ou em sentidos contrários dizemos, que existe uma correlação entre eles. Ø A correlação preocupa-se quer com a descrição da relação entre variáveis quer com a sua direcção (directa ou inversamente proporcional, positiva ou negativa). Ø Coeficiente de correlação é representado por "r", § Distribuição normal § Simétrica § Ser mesocúrtica § N ≥ 30 CARACTERISTICAS E REQUISITOS DE UTILIZAÇÃO DO TESTE R § Este tipo de coeficiente de correlação utiliza-se quando: § 2. As duas variáveis são contínuas; § 3. A distribuição aproxima-se da distribuição normal; § 4. É preferível para distribuições unimodais; § 5. Escala intervalar de medida. 16-05-2016 69 Interpretação § Para Cardoso: § r ≤ 0,2 Correlação muito baixa (valores desprezíveis) § 0,2 < r ≤ 0,5 Correlação baixa § 0,5 < r ≤ 0,7 Valores significativos § 0,7 < r ≤ 0,9 Alta correlação § 0,9 < r ≤ 1 Muito alta correlação Varia de -1 ≤ r ≤ 1, quanto mais perto dos extremos maior a correlação. Ausência de correlação é 0. O coeficiente de correlação (r) obtido pode se interpretado de diferentes formas: Para Borg: 0,20 < r ≤ 0,35 Ligeira relação entre as variáveis, embora já possam ser estatisticamente significativas 0,35 < r ≤ 0,65 Correlação estatisticamente significativa para além do nível de 1% 0,65 < r ≤ 0,85 Correlacoes que tornam possiveis predicoes do grupo de que sao dignas r > 0,85 Intima relacao entre as variaveis correlacionadas Para Bryman e Cramer: ≤ 0,2 Correlação muito fraca e sem significância 0,2 < r ≤ 0,39 Correlação fraca 0,4 < r ≤ 0,69 Correlação moderada 0,7 < r ≤ 0,89 Correlação forte 0,9 < r ≤ 1 Correlação muito elevada A direcção: indicada pelo sinal + ou – 138 Correlação Linear de Pearson (r) & Dadas duas variáveis X e Y, quantitativas, r entre X e Y é calculado do seguinte modo: [ ][ ]∑ ∑∑ ∑ ∑ ∑ ∑ −− − = 2222 )()( YiYinXiXin YiXiXiYin r �= � �� � − �� �� �� 16-05-2016 70 139 Apenas se aplica quando: FAs duas variáveis são contínuas; FA distribuição se aproxima da distribuição normal; F É preferível para distribuições unimodais; F Escala intervalar de medida. 140 Concluindo O coeficiente de correlação dá-nos: üA direcção, que é indicada pelo sinal + /-; üA intensidade ou força. 16-05-2016 71 141 Exemplo Cálculo do coeficiente de correlação de Pearson entre X e Y: Sabendo que: Xi= numero de visitas por semana Yi=satisfação com os cuidados 130801201006010070608050Yi 25232120151815131410Xi 142 Exemplo Cálculo do coeficiente de correlação de Pearson entre X e Y: Sabendo que: 130801201006010070608050Yi 25232120151815131410Xi ∑ Xi2= 3234 ∑ Yi2=78700 ∑ XiYi=15760Temos: Número de visitas semanais (X) Satisfação (Y) XY X2 Y2 10 50 500 100 2500 14 80 1120 196 6400 13 60 780 169 3600 15 70 1050 225 4900 18 100 1800 324 10000 15 60 900 225 3600 20 100 2000 400 10000 21 120 2520 441 14400 23 80 1840 529 6400 25 130 3250 625 16900 174 850 15760 3234 78700 [ ][ ]∑ ∑∑ ∑ ∑ ∑ ∑ −− − = 2222 )()( YiYinXiXin YiXiXiYin r �� � �� � � �� �� �� � 16-05-2016 72 143 Exemplo Cálculo do coeficiente de correlação de Pearson entre X e Y: Sabendo que: 130801201006010070608050Yi 25232120151815131410Xi ∑ Xi2= 3234 ∑ Yi2=78700 ∑ XiYi=15760 Substituindo na fórmula [ ][ ]∑ ∑∑ ∑ ∑ ∑ ∑ −− − = 2222 )()( YiYinXiXin YiXiXiYin r Temos: [ ][ ] 8407.08507870010174323410 8501741576010 22 = −×−× ×−× =r Correlação linear positiva muito elevada ANÁLISE DE VARIÂNCIA 16-05-2016 73 § Porquê ANOVA? § Enquadramento estatístico § Definição § Exemplo e explicação § Aplicação ao IBMSPSS 21 § § RONALD AYLMER FISHER § É considerado um dos pais e o fundador da estatística moderna. Utilizou os resultados que obteve na Estatística como ferramentas para aplicação nos seus estudos de genética. § um dos maiores nomes na Teoria da Estatística e na Estatística aplicada à Biologia. § Entre as suas descobertas mais importantes, está a análise de variância ANOVA, que demonstra como um número restrito de experimentações pode ser suficiente para determinar leis genéricas considerando várias variáveis ao mesmo tempo. § Este tipo de teste, serve como uma rigorosa medida numérica de confiabilidade de uma amostra de dados como fonte de previsão científica. Porquê ANOVA? 16-05-2016 74 • Testes Paramétricos: calcula as diferenças numéricas exatas entre os resultados. • Pressupostos iniciais: se a variável dependente segue uma distribuição normal se os dados entre diferentes sujeitos são independentes ou emparelhados/relacionados. • Mas se os resultados de um teste paramétrico, não cumpriram com os requisitos (no mínimo dados intervalares; distribuição simétrica, mesocurtica e normal), então não têm interpretação significativa. Sempre que não se pode admitir a simetria e a normalidade de distribuição, ou os dados foram recolhidos num nível de mensuração inferior ao intervalar, devemos recorrer a testes que não incluem a normalidade da distribuição ou nível intervalar de mensuração. O PODER DE UM TESTE O poder de um teste é a probabilidade de rejeitarmos a H0 quando ela é realmente nula. Os testes mais poderosos (os que têm maior probabilidade) de rejeição de H0, são testes que possuem pré-requisitos mais difíceis de satisfazer (testes paramétricos como t e F). As alternativas não paramétricas exigem muito menos pré-requisitos mas produzem testes de significância com menos poder que os correspondentes paramétricos. . Enquadramento estatístico ANOVA § A ANOVA é um método estatístico com o objetivo de comparar médias de dois ou mais grupos. Podem ser usados para testar diferenças em diversas situações e para duas ou mais variáveis. § Em relação à ANOVA I ou One-way ANOVA, tem 1 fator com o mínimo de 3 categorias independentes. § Ex: Fator-curso Na análise da variância, a variabilidade observada na amostra divide-se em duascomponentes: § -Variabilidade das observações dentro do grupo (residual ou within) § - Variabilidade entre médias dos Grupos (entre ou between) § Se a variabilidade entre grupos for suficientemente grande face à variabilidade dentro dos grupos, rejeita-se a H0, que afirma que todas as médias da população são iguais. Definição 16-05-2016 75 ANOVA § Trata-se um teste bastante difundido, inúmeros softwares estatísticos como o IBM SPSStatistics. § Suposições da ANOVA: § Normalidade (teste paramétrico) § Homogeneidade das Variâncias § Ausência de Outliers § Independência dos dados dentro e entre tratamentos Definição QUESTÃO HIPÓTESE Diferenças entre médias 1 amostra 2 amostras +2 amostras emparelhadasindependentesANOVA I H-Kruskal- Wallis 16-05-2016 76 Numa clínica foi realizado um estudo acerca do efeito analgésico de 3 terapias, TENS, Ultrassom e Terapia Manual em situação de osteoartrose no joelho. Foram selecionados aqueles que numa primeira fase tinha dor 9, de 1 a 10. Os pacientes foram distribuídos pelos diferentes tipos de tratamento e posteriormente foi lhes pedido para avaliarem a sua dor novamente através da mesma escala, Escala numérica da dor. Haverá alguma diferença entre os 3 tratamentos tendo em conta α=0.05? Exemplo TENS Ultrassom Terapia Manual (mobilização) 9 7 4 8 6 3 7 6 2 8 7 3 8 8 4 9 7 3 8 6 2 ∑= 57 47 21 Numa clínica foi realizado um estudo acerca do efeito analgésico de 3 terapias, TENS, Ultrassom e Terapia Manual em situação de osteoartrose no joelho. Foram selecionados aqueles que numa primeira fase tinha dor 9, de 1 a 10. Os pacientes foram distribuídos pelos diferentes tipos de tratamento e posteriormente foi lhes pedido para avaliarem a sua dor novamente através da mesma escala, Escala numérica da dor. Haverá alguma diferença entre os 3 tratamentos tendo em conta α=0.05? H0: μ1 � μ2 � μ3 (a média dos 3 grupos é igual entre si) H1: existe pelo menos 1 diferença. Exemplo 16-05-2016 77 α=0.05 Estatística- Quadro da ANOVA SQ GL QM F Regressão (E) 2 Resíduo (R) 18 Total 20 SQ- soma dos quadrados GL-Graus de Liberdade QM-Quadrado da média Graus de Liberdade: (GLE) K-1= 3-1=2 (GLR) N-K=21-3=18 Total= 20 Valor crítico de F= 3,555 n:7 N:21 Se F é maior que 3,555 (valor crítico) rejeita-se a hipótese nula. α=0.05 Estatística- Quadro da ANOVA SQ GL QM F Entre grupos/Regressão (E) 98,67 2 Dentro/Resíduo (R) 10,29 18 Total 108,25 20 SQ- soma dos quadrados GL-Graus de Liberdade QM-Quadrado da média SQE ou SQE= ����������� � - ���² �� � 98,67 SQR ou SQR= 853 - ���² �� � 10,29 SQT= SQE+SQR SQT= 98,67+ 10,29 SQT= 108,95 16-05-2016 78 α=0.05 Estatística- Quadro da ANOVA SQ- soma dos quadrados GL-Graus de Liberdade QM-Quadrado da média SQ GL QM F Entre grupos/Regressão (E) 98,67 2 49,34 86,57 Dentro/Resíduo (R) 10,29 18 0,57 Total 108,25 20 F� �� � �� � �� � � ��� ��� �� � � ��� ��� �� � � 98,67 2 � 49,34 �� � � 10,29 18 � 0,57 F�86,57 86,57 � 3,555 Para saber onde são as diferenças realizaríamos um POST HOC. CURVA DE FREQUÊNCIA 3,555 α=0.05 86,57 16-05-2016 79 Rejeitou-se a H0, ou seja as médias dos 3 grupos relativamente à dor diferem significativamente entre si. F(2,18)=86,56 α=0.05 (significância de 5%) e o valor crítico de F, encontrado na tabela tem o valor de 3,555. Com estes dados e sabendo que F é maior que 3,555 rejeita-se a H0. Concluiu-se que os três tipos de tratamento têm diferentes ações analgésicas pelo que diferem significativamente relativamente ao seu efeito na diminuição da dor testada através da Escala numérica da Dor. IBM SPSS Statistics 16-05-2016 80 16-05-2016 81 16-05-2016 82 16-05-2016 83 Análise de dados estatísticos no SPSS MANOVA 16-05-2016 84 § O que é? § A análise de variância multivariada (MANOVA) é uma forma generalizada da análise de variância (ANOVA). É utilizada em casos onde existem duas ou mais variáveis dependentes. § Para que é usado? § É usado para determinar se há diferenças ou relações entre grupos independentes mas com mais de uma dependente variável entre si. Ajuda-nos a reduzir o erro do tipo I que seria maior no caso de utilizarmos múltiplos testes ANOVA para obter o mesmo resultado. § Teste MANOVA não nos diz quais os grupos específicos são significativamente diferentes dos outros; diz-nos apenas que pelo menos dois grupos são diferentes sendo que podemos ter 3,4 ou 5 grupos diferentes no nosso estudo e só com testes post-hoc se pode saber as diferenças significativas entre os grupos. 16-05-2016 85 PASSOS PARA A REALIZAÇÃO E INTERPRETAÇÃO NO SPSS DO TESTE ONE-WAY MANOVA Neste teste vamos utilizar 3 grupos de estudantes de três escolas de diferentes, cada grupo com 20 alunos cada. O objetivo era comparar a sua prestação escolar nos exames. Sendo as as variáveis independentes as escolas (escola A, escola B e escola C), e as variáveis dependentes as notas de Matemática e Inglês. Para ajudar neste exemplo criámos o grupo “school” onde juntámos as variáveis das escolas para facilitar o processo no SPSS. 16-05-2016 86 Aplicação no SPSS 16-05-2016 87 16-05-2016 88 Análise do Output Nesta primeira tabela podemos já observar as médias das três escolas sendo já uma forma de análise. Nesta tabela podemos observar que Sig. (p-value) < 0.05 , logo podemos concluir que o percurso escolar destes alunos influenciou as notas nos exames destas duas disciplinas. E por isso continuamos a nossa análise, se p-value fosse > 0.05 então não faríamos mais testes visto que os resultados não eram significativos. 16-05-2016 89 Nesta tabela podemos observar que a média de resultados em Inglês foram estatisticamente significantes entre a escola A e a Escola B pois p-value< 0.05 assim como entre a escola A e C no entanto entre a escola B e C já não se verifica isso pois p-value > 0.05 que é .897 . A Matemática as médias foram estatisticamente significativas entre a escola A e C e a escola B e C no entanto isso já não se verifica entre a escola A e B. Os gráficos ilustram quais as médias que se diferenciam umas das outras nas diferentes escolas. 16-05-2016 90 TESTES NÃO PARAMÉTRICOS Teste Não Paramétrico § São procedimentos mais simples para testar hipóteses pré-estabelecidas; § Utilizam-se quando não estão reunidas as condições de aplicabilidade para os testes paramétricos; § As variáveis envolvidas são tipicamente qualitativas (nominais ou ordinais), ou no caso de variáveis quantitativas, tratam-se de distribuições afastadas da normalidade e/ou amostras pequenas. 16-05-2016 91 CARACTERIZAÇÃO DO TESTE DO QUI-QUADRADO Caracterização do Teste do Qui-quadrado § É utilizado para variáveis nominais ou ordinais; § Para pelo menos 20 casos § Neste tipo de dados por categorias, trabalha-se com as frequências; § Verifica se existe relação ou não entre duas variáveis; § Existem vários tipos de teste do Qui-quadrado; § Todos comparam o valor observado na amostra com o chamado valor esperado. 16-05-2016 92 Qui-quadrado aderência/ajustamento Ou Qui-quadrado da independência Qui-quadrado da aderência § Teste consiste em comparar os dados obtidos experimentalmente com os dados esperados de acordo com a teoria. • Diferenças podem ser grandes ou pequenas. A hipótese nula (H0) que pressupõe um bom ajustamento deverá ser rejeitada em favor da hipótese alternativa (H1). A hipótese nula (H0) não será rejeitada e as diferenças são atribuíveis ao acaso. 16-05-2016 93 Objetivo . . . . . . Comparar frequências observadas com frequências teóricas ou esperadas, ou seja, verificar o seu grau de aproximação, que pode ser grande (=0) ou pequeno (>0) . . . § Utiliza-se quando os dados são nominais – em vez de se medirem resultados dos sujeitos apenas se podem distribuir os sujeitos por uma ou mais categorias; § Testa a hipótese experimental que prevê quantos sujeitos de cada grupo são distribuídos por uma determinada categoria. 16-05-2016 94 1. Calcular as frequênciasesperadas (E) para cada célula, somando as frequências observadas e dividindo pelo número total de categorias. � = ∑(�) � Em que: O = Frequências observadas para cada categoria C = número de categorias 2. Calcular ��: �� = ∑(� − �)� � 3. Calcular os graus de liberdade: �. �. = � − 1 Se �� observado ≥ �� crítico rejeita-se H0 Se �� observado < �� crítico aceita-se H0 Exemplo … § A depressão acontece mais em homens ou em mulheres. § Amostra aleatória de indivíduos diagnosticados com depressão nos últimos 5 anos, que foram ou estão a ser acompanhados em determinado hospital. FO FE RESÍDUOS Feminino 45 50 -5 Masculino 55 50 +5 100/2 = 50 16-05-2016 95 �� = − � � �� + � � �� �� = 1 O �� observado é igual a 1 O �� crítico é igual a 3,84 O valor observado é inferior ao valor critico, logo aceita-se a hipótese nula : a distribuição de deprimidos por sexo é homogénea. Qui-quadrado da independência § Ajuda a decidir se as duas variáveis são dependentes uma da outra (relação de dependência). § Utiliza-se quando os dados são qualitativos e se pretende saber como se comportam os dados quando as variáveis se cruzam – qual a contingência entre as variáveis. 16-05-2016 96 Objetivo . . . § . . . Comparar as frequências observadas em cada uma das células de uma tabela de contingência com as diferenças esperadas. § Teste compara o número de sujeitos que se distribuem por uma determinada categoria com o número de sujeitos que se esperaria se distribuíssem por essa mesma categoria, caso não existissem diferenças. § Reflete o tamanho das diferenças entre as frequências observadas e esperadas. § Para ser significativo, o valor de �� deverá ser igual ou superior aos valores críticos da tabela. 1. Numerar as ‘células’ que representam cada uma das categorias e calcular as frequências esperadas (E) para uma, multiplicando os dois totais parciais relevantes para cada uma e dividindo pelo número total de sujeitos. � = ����� �� ����� �� �é���� �� ������ × ����� �� ������ �� �é���� �� ������ ����� ������ 2. Calcular ��: �� = ∑(� − �)� � Em que: O = frequências observadas para cada célula E = frequências esperadas para cada célula 3. Calcular graus de liberdade: �. �. = (�− 1)(�− 1) Em que: r = número de linhas da tabela de contingência c = número de colunas da tabela de contingência 16-05-2016 97 g.l.= ��� ��� �� �������− 1 ��� ��� �� ������− 1 = 1 × 1 = 1 Consulta-se a tabela dos valores críticos e: se �� observado≥ �� critico rejeita-se H0 se �� observado < �� critico aceita-se H0 Exemplo … para tabela de dupla entrada 2*2 Saber se os estudantes de Ciências sociais utilizam um método de estudo diferente daquele que é utilizado pelos estudantes de Tecnologias. Amostra: dois grupos com 50 alunos de cada área referida, que posteriormente responderam a um questionário acerca da frequência do seu estudo. Foram recebidas 44 respostas dos estudantes de Ciências sociais e 42 dos estudantes de Tecnologias. Hipótese experimental H1 : H1: O tipo de estudo varia em função do curso frequentado Exemplo … 16-05-2016 98 Resultados … (tabela de contingência 2*3) Regular Irregular Misto Grupo 1 – Estudantes de Ciências Sociais 6 15 23 Grupo 2 – Estudantes de Tecnologia 10 8 24 Tipo de Estudo 1) Enumerar as células, obter os totais e calcular as frequências esperadas (E) Regular Irregular Misto Totais Grupo 1 E1=16*44/86=8,19 6 E2=23*44/86=11,77 15 E3=47*44/86=24,0 5 23 44 Grupo 2 E3=16*42/86=7,81 10 E5=23*42/86=11,23 8 E6=47*42/86=22,9 5 24 42 Totais 16 23 47 N=86 16-05-2016 99 2) Aplicar a fórmula do �� e proceder ao calculo do teste �� = (���,��) � �,�� + (�����,��) � ��,�� +(�����,��) � ��,�� +(����,��) � �,�� + (����,��) � ��,�� + (�����,��) � ��,�� �� = 0,59+0,89+0,05+0,61+0,93+0,05 = 3,12 �� = ∑(� − �)� � 3) Calcular os graus de liberdade (gl) g.l.= (r-1)(c-1)= (2-1)(3-1)=2 4) Consultar a tabela dos valores críticos Para p=0,05 e g.l.=2 �� ������� = 5,99 16-05-2016 100 Dado que o valor observado de ��é apenas de 3,12, ou seja, inferior ao valor critico de 5,99 para p< 0,05, o resultado da experiencia não é significativo. Aceita-se hipótese nula de que os padrões de estudo dos estudantes de Ciências sociais e de Tecnologia não diferem, rejeitando-se desta forma a nossa hipótese experimental H1. Conclusões … Teste utilizado: • teste do Qui-quadrado de independência (para duas amostras independentes) • duas variáveis com duas categorias cada (tabela 2x2) Este teste também pode ser aplicado em variáveis com mais do que duas categorias (tabelas 2x3, 3x2, 3x3, …). 16-05-2016 101 Amostra: § O Sporting quer estudar a relação dos adeptos do Sporting e do Benfica para com o respetivo estádio, e especificamente, a assiduidade desses adeptos aos jogos. Exercicios u 78 sócios e simpatizantes do Sporting u 122 sócios e simpatizantes do Benfica Método: § Orientou-se um grupo de entrevistadores de rua para perguntar a esses adeptos se vão ou não ao estádio com frequência. Objetivo: u Estudar se o facto de pertencer a um clube ou a outro reflete, do ponto de vista estatístico, uma maior ou menor tendência para ir ao estádio assistir aos jogos. 16-05-2016 102 Comandos SPSS: u 1: Inserir variáveis na base de dados Comandos SPSS: u 1: Inserir variáveis na base de dados 16-05-2016 103 Comandos SPSS: u 2: Data Weight Cases Weight Cases by Frequency Variable: Frequência Ok Comandos SPSS: u 3: Analyze Descriptive Statistics Crosstabs 16-05-2016 104 Comandos SPSS: u 4: Row(s): Clube Columns(s): Estádio Comandos SPSS: u 5: Na caixa ‘Statistics’ selecionar Chi-square Continue 16-05-2016 105 u 6: Na caixa ‘Cells’ selecionar em ‘Counts’: Observed e Expected Continue Ok Comandos SPSS: Output obtido: 16-05-2016 106 Hipótese nula: Existe independência entre filiação clubística (Sporting, Benfica) e ida habitual ao estádio para assistir a jogos (não vai, vai) Hipótese alternativa: Existe relação entre filiação clubística (Sporting, Benfica) e a ida habitual ao estádio para assistir a jogos (não vai, vai) p-value 16-05-2016 107 Conclusão: Não existe relação entre a filiação clubística e o hábito de ir ao estádio ver os jogos. Temos que α=0,05 Se p-value < α Rejeita-se a hipótese nula Se p-value > α Aceita-se a hipótese nula Neste caso, p-value > α Aceita-se a hipótese nula Introdução Segundo MAUSNER & BAHN “um teste de diagnóstico é um instrumento básico dum programa de rastreio”. As suas características mais importantes são: o Validade o Confiança o Produtividade 16-05-2016 108 Introdução Doença Presente Ausente Total Teste Positivo A Verdadeiro positivo B Falso positivo A+B Negativo C Falso negativo D Verdadeiro negativo C+D Total A+C B+D A+B+C+D Testes de Diagnóstico Sensibilidade (S) Especificidade (E) Valor Preditivo Positivo (VPP) Valor Preditivo Negativo (VPN) Acuracy (Precisão) Razão de Probabilidade Positiva (LR+) Razão de Probabilidade Negativa (LR-) Probabilidade pré/pós-teste da doença Odds pré/pós-teste Teorema de Bayes 16-05-2016 109 Sensibilidade � = � � + � Proporção de verdadeiros positivos entre todos os doentes. Avalia a capacidade de um teste de diagnóstico identificar a doença nos indivíduos verdadeiramente doentes. Escolhemosum teste sensível quando a doença é potencialmente grave. Os testes sensíveis também são utilizados para realizar rastreios de doenças Especificidade � = � � + � Proporção de verdadeiros negativos entre todos os sadios. Avalia a capacidade do teste de diagnóstico afastar a doença quando ela está ausente. Os testes específicos são utilizados para confirmar um diagnóstico, uma vez que dão poucos falsos positivos. São particularmente necessários quando os resultados errados (falsos positivos) podem provocar traumas psicológicos, económicos ou sociais, como por exemplo o teste anti-HIV. (MEDRONHO & PEREZ, 2002). 16-05-2016 110Valor Preditivo Positivo Proporção de verdadeiros positivos entre todos os indivíduos com teste positivo. Expressa a probabilidade de um paciente com o teste positivo ter a doença. Valor Preditivo Negativo Proporção de verdadeiros negativos entre todos os indivíduos com teste negativo. Expressa a probabilidade de um paciente com o teste negativo não ter a doença. 16-05-2016 111 Valor Preditivo v Quanto mais sensível for o teste melhor o seu valor preditivo negativo, isto é, maior a segurança de que um doente com resultado negativo não tenha a doença. v Quanto mais específico for o teste melhor o seu valor preditivo positivo, isto é, maior a segurança de que um doente com resultado positivo tenha a doença. v Se a prevalência da doença for baixa, mesmo um teste extremamente válido terá um fraco valor preditivo. Acuracy (precisão) Proporção de acertos de um teste diagnóstico. Proporção entre os verdadeiros positivos e negativos em relação a todos os resultados possíveis. 16-05-2016 112 Razão de Probabilidade Permite avaliar a acuidade de um teste através do cálculo da Razão de Verosimilhança, definida como: Razão entre a probabilidade de um determinado resultado de um teste diagnóstico em indivíduos portadores da doença e a probabilidade do mesmo resultado em indivíduos sem a doença. Razão de Probabilidade Positivo Expressa quantas vezes é mais provável encontrar um resultado positivo em pessoas doentes quando comparado com pessoas não doentes. Quanto maior o valor do LR+ melhor o valor de diagnóstico do teste (LR+ ≥ 10 representa um teste de elevado valor de diagnóstico). 16-05-2016 113 Razão de Probabilidade Negativo Expressa quantas vezes é mais provável encontrar um resultado negativo em pessoas doentes quando comparado com pessoas não doentes. Quanto menor o valor do LR- melhor o valor de diagnóstico do teste (LR- ≤ 0,1 representa um teste de elevado valor de diagnóstico). Probabilidade Pré-Teste Probabilidade do indivíduo ter a doença antes da realização do teste de diagnóstico. 16-05-2016 114 Odds Pós-teste Estimativa que resulta do produto do Odds Pré-teste da doença e da Razão de Versomilhança Positiva (LR+). Probabilidade Pós-Teste Teorema de Bayes Se os resultados dos testes forem positivos, qual a probabilidade de que o paciente tenha a doença? Se os resultados dos testes forem negativos, qual a probabilidade de que esse paciente não tenha a doença? 16-05-2016 115 229 Correlação Rho de Spearman @Medida de associação das ordenações dos valores das variáveis e não dos valores em si; @ Pode ser calculado para variáveis definidas numa escala ordinal; @Calcula-se a partir de ordenações das variáveis. 230 Passos para o cálculo 1. Listagem das observações das duas variáveis; 2. Ordenação, atribuindo o número 1 ao menor valor; 3. Cálculo das diferenças (D / d) entre as ordenações; 4. Elevação ao quadrado dessas diferenças; 16-05-2016 116 231 Continuando... 5. Por último, cálculo do Coeficiente de Correlação de Spearman, ρ, através da seguinte fórmula: )1( 6 1 2 2 − −= ∑ nn D ρ Sendo D= Xi-Yi NOTA ü Se as duas classificações forem iguais, D é sempre 0 ρ=1 ü Se as ordens mais altas de uma classe estão associadas às mais baixas das outras ρ torna-se (-) üSe as duas classificações são inversas ρ = -1 232 Interpretação de Resultados • É feita do mesmo modo que para a correlação de Pearson. 16-05-2016 117 233 Exemplo: 3.0 )125(5 1461 )1( 6 1 2 2 = − × −= − −= ∑ nn D ρ As diferenças D seriam -4, -2, 0, 2 e 4, logo ∑ = 142D Como o resultado é próximo de 0 a correlação é positiva mas fraca. X Ord. Y Ord. D D2 7 1 12 2 -1 1 13 3 5 1 2 4 14 4 23 5 -1 1 10 2 20 4 -2 4 17 5 16 3 2 4 ∑ =142D H1: Existe correlação entre o perímetro abdominal e a obesidade Foram efetuadas medições do perímetro abdominal e cálculos do IMC a 28 indivíduos do sexo masculino obesos, aleatoriamente selecionados, de forma a entender se é possível determinar se um indivíduo é obeso apenas medindo o seu perímetro abdominal. Nível de Risco Masculino Feminino Risco Aumentado ≥ 94 ≥ 80 Risco Muito Aumentado ≥ 102 ≥ 88 Classificação IMC Obesidade ≥ 30 16-05-2016 118 Obtiveram-se os seguintes resultados Perímetro Abdominal (cm) IMC 1 101,23 34,45 2 98,04 31,65 3 102,37 37,25 4 97,47 31,24 5 101,45 34,85 6 100,54 33,87 7 97,72 31,65 8 101,20 32,85 9 107,42 42,86 10 95,76 30,86 11 103,40 37,65 12 100,17 35,00 13 97,41 31,07 14 97,46 30,07 Perímetro Abdominal (cm) IMC 15 95,42 30,11 16 104,22 37,64 17 101,28 33,50 18 102,43 35,38 19 106,32 40,06 20 104,96 38,05 21 95,65 30,86 22 98,40 32,44 23 97,58 31,62 24 103,38 37,64 25 97,50 31,11 26 101,28 34,22 27 103,12 37,33 28 102,15 35,11 H1 : Existe correlação entre o perímetro abdominal e a obesidade? Variable View 16-05-2016 119 H1: Existe correlação entre o perímetro abdominal e a obesidade? Data View H1: Existe correlação entre o perímetro abdominal e a obesidade Aplicação do Teste Analyse Correlate Bivariate 16-05-2016 120 H1: Existe correlação entre o perímetro abdominal e a obesidade Aplicação do Teste H1: Existe correlação entre o perímetro abdominal e a obesidade Aplicação do Teste Syntax 16-05-2016 121 H1: Existe correlação entre o perímetro abdominal e a obesidade Aplicação do Teste Output Coeficiente de correlação entre o perímetro abdominal e o IMC ( de obesos) = 0,962 Significância= 0,000 muito significativo logo, rejeita-se a H0 De acordo com, Bryman e Cramer, podemos afirmar que a correlação é muito elevada pois 0,9 < 0,962 ≤ 1 Representação Gráfica da Correlação § Diagrama de dispersão de pontos ou Scatterplot Variáveis negativamente correlacionad as (inclinação negativa) Variáveis positivamente correlacionadas (inclinação positiva) Não existe Correlação 16-05-2016 122 Scatter Plot Graphs Legacy Dialogs Scatter/Dot Scatter Plot 16-05-2016 123 Scatter Plot Syntax Scatter Plot Output 16-05-2016 124 Scatter Plot Output Variáveis positivamente correlacionadas À medida que o IMC (de obesos) aumenta, o perímetro abdominal (cm) também aumenta (diretamente proporcionais). H1: Existe correlação entre o perímetro abdominal e a obesidade §Sim, existe correlação entre o perímetro abdominal e a obesidade. 16-05-2016 125 TESTE U DE MANN-WHITNEY TESTE U DE MANN WHITNEY 250 § QUANDO UTILIZAR: § Dadas duas amostras, de tamanhos n1 e n2, é possível saber se ambas as amostras podem ser consideradas provenientes da mesma população. § § O teste de Mann-Whitney deve ser utilizado em designs com duas situações, não-relacionados, quando são utilizados sujeitos diferentes em cada uma das situações experimentais. § EXEMPLO: § Suponha que quer investigar o efeito de material significante numa tarefa de memorização. § A memorização é medida pelo número de palavras relembradas e a nossa previsão é que os resultados serão superiores na Situação 2. 16-05-2016 126 RACIONAL: § O teste de Mann-Whitney ordena os resultados de todos os sujeitos em ambas as situações como se fossem apenas um conjunto simples de resultados. 251 Tabela: Resultados na memorização de material mais ou menos concreto Resultados na Situação 1 (Material abstracto) Ordem (1) Resultados na Situação 2 (Material concreto) Ordem (2) 3 3 9 11 4 4 7 9 2 1,5 5 5,5 6 7,5 10 12 2 1,5 6 7,5 5 5,5 8 10 TOTAL 22 T1=23 45 T2=55 MÉDIA 3,67 7,5 RACIONAL: § Se as diferenças entre as situações forem aleatórias, como é postulado por Ho, então os resultados devem ser aproximadamente os mesmos e, consequentemente, as ordens devem ser também aproximadamente as mesmas para as duas situações. 252 16-05-2016 127 Racional (cont) § Se houver uma preponderância de ordens altas ou baixas numa situação ou na outra, então é porque a diferença no total dos resultados ordenados para cada situação é devida aos efeitos previstos da variávelindependente e não ao acaso. 253 Racional (cont) § Se a soma total das ordens for muito baixa para uma das situações, então terá de haver uma preponderância de ordens elevadas na outra situação. Quanto menor for U mais significativas serão as diferenças entre as ordens das duas situações. 254 16-05-2016 128 INSTRUÇÕES PASSO-A-PASSO: 255 §1.Ordene todos os resultados para ambos os grupos como se se tratasse de um conjunto único de resultados, atribuindo a ordem 1 ao resultado inferior e assim sucessivamente. § O ordenamento global de todos os resultados é apresentado em Ordens(1) e Ordens (2) §2. Adicione as ordens totais para o grupo 1 e grupo 2 em separado. § T1=23 e T2=55 256 3. Seleccione o maior total das ordens. T2=55 4. Calcule o valor de U através da fórmula Nx (nx + 1) U = n1 x n2 + ----------------- - Tx, 2 em que n1=número de sujeitos no grupo 1 n1=6 n2=número de sujeitos no grupo 2 n2=6 Tx=maior total de ordens Tx=T2=55 Nx=número de sujeitos do grupo com o maior total de ordens Nx=6 6 x 7 U = 6 x 6 + ------------- - 55 = 36+21-55=2 2 Normalmente, é preferível ter um número idêntico de sujeitos em cada grupo; no entanto, se tiver de utilizar um número desigual de sujeitos, poderá fazê-lo. Em caso de dúvida, calcule U para ambas as ordens totais, seleccionando o n apropriado a cada caso e, depois, considere o U mais pequeno. 16-05-2016 129 CONSULTA DE SIGNIFICÂNCIA NA TABELA 257 §As Tabelas dos valores criticos apresentam os valores críticos de U nos diferentes níveis de significância de testes unicaudais e bicaudais, para as diferentes combinações de n1 e n2 dos dois grupos. § O procedimento mais usual é começar com as Tabelas dos valores criticos para verificar se o valor de U é significativo ao nível de significância de p < 0,05 para testes unicaudais ou para testes bicaudais. CONSULTA DE SIGNIFICÂNCIA NA TABELA 258 § Uma vez que previmos que os sujeitos da Situação 2, aqueles que aprendiam com material concreto, obteriam resultados superiores, poderemos consultar a Tabela dos valores críticos unicaudal para 0,05. Localizando n1=6 na linha superior e n2=6 na coluna do lado esquerdo, encontraremos o valor crítico de U na intercepção dos dois. 16-05-2016 130 CONSULTA DE SIGNIFICÂNCIA NA TABELA 259 § Uma vez que se convencionou utilizar o nível inferior de U, o nosso valor de U=2 deve ser igual ou inferior ao valor crítico 7, o que acontece. Passando para a Tabela bicaudal a 0,05, o nosso valor de U=2 é inferior ao valor crítico 5 para n1=6 e n2=6. 260 • 3. O valor observado U=2 é inferior ao valor crítico para n1=6 e n2=6. Podemos, desta forma, rejeitar a hipótese nula e aceitar que existem diferenças significativas a favor da memorização de material concreto (p < 0,05). 16-05-2016 131 Em SPSS § Este estudo baseou-se numa amostra de 30 pessoas, 15 do sexo feminino e 15 do sexo masculino. Todas elas sofreram entorses da tibiotársica em inversão num espaço temporal de há mais de dois anos e há menos de dez. O objetivo foi saber se a população em estudo teve recidivas destes entorses, num espaço de dois anos após o mesmo ter ocorrido, e se sim, que fatores influenciaram estas recidivas. Inquérito sobre entorses da tibiotársica 1ªHipótese: O IMC influencia a existência de recidivas de um entorse até 2 anos após a sua ocorrência H0: O IMC não influencia a existência de recidivas de um entorse até 2 anos após a sua ocorrência H1: O IMC influencia a existência de recidivas de um entorse até 2 anos após a sua ocorrência 16-05-2016 132 Inquérito sobre entorses da tibiotársica 2ªHipótese: A idade influencia a existência de recidivas de um entorse até 2 anos após a sua ocorrência H0: A idade não influencia a existência de recidivas de um entorse até 2 anos após a sua ocorrência H1: A idade influencia a existência de recidivas de um entorse até 2 anos após a sua ocorrência Verificação de variáveis Mesocúrtica: Para a variável ser mesocúrtica é necessário fazer-se a divisão de Kurtosis pelo erro padrão e o seu resultado deve estar compreendido entre -2 e 2. Idade: -0,318/0,833=-0,381, logo é mesocúrtica IMC: 0,894/0,833=1,073, logo é mesocúrtica Simétrica: Para haver simetria da distribuição, é necessário a divisão de Skewness pelo erro padrão e o resultado estar compreendido entre 2 e -2. Idade: 0,775/0,427=1,814, logo é simétrica IMC: 1,057/0,427=2,475, logo não é simétrica e é não paramétrica. 16-05-2016 133 Verificação de variáveis Como sig é inferior a 0,05, conclui-se que as variáveis não têm distribuição normal. Logo, não são paramétricas e temos de usar o teste U de Mann-Whitney. (Se fossem usar-se-ia o T de student para dados independentes) No SPSS O Valor do sig é inferior a 0,05, logo rejeita-se a H0. Como se rejeita a H0, admite-se que o IMC influencia as recidivas de um entorse até 2 anos após a sua ocorrência. 16-05-2016 134 No SPSS O Valor do sig é inferior a 0,05, logo rejeita-se a H0. Como se rejeita a H0, admite-se que a idade influencia as recidivas de um entorse até 2 anos após a sua ocorrência. Conclusão Com o teste U de Mann-Whitney, provou-se que o IMC e a idade influenciam a existência de recidivas de entorses da tibiotársica, até 2 anos após a sua ocorrência. 16-05-2016 135 EXERCÍCIOS Inquérito sobre entorses numa equipa de futebol das Caldas da Rainha Hipótese – A prática de desporto influencia a EVA numérica. Ho: A prática de desporto influencia a EVA numérica. H1: A prática de desporto não influencia a EVA numérica. 16-05-2016 136 Pré-requisitos Mesocúrtica: Para a variável ser mesocúrtica, é necessário fazer-se a divisão de Kurtosis pelo erro padrão e o seu resultado deve estar compreendido entre -2 e 2. EVA: -0,878/1,279=-0,686 Entorse:-0,213/0,661=-0,322 Logo, a variável é mesocúrtica. Simétrica: Para haver simetria da distribuição, é necessário a divisão de Skewness pelo erro padrão e o resultado estar compreendido entre 2 e -2. EVA:-0,329/0,661=-0,498 Entorse:-2,444/1,279=-1,912 Logo, a distribuição é simétrica. Distribuição normal Sig=0,000 e Sig=0,018 Como o Sig é inferior a 0.05, rejeita-se a H0 e diz- nos que a variável não tem distribuição normal. Logo, as variáveis são não paramétricas! 16-05-2016 137 Teste de Mann-Whitney § Se tratavam de variáveis não emparelhadas; § A variável dependente é quantitativa (EVA numérica); § A variável independente é qualitativa nominal (Entorses). Além disso o teste em questão é utilizado para testar a hipótese nula que afirma que as médias populacionais são as mesmas para os dois grupos, não exigindo que as populações tenham a mesma variância. Em que as variáveis não obedeciam a todos os requisitos da estatística paramétrica (distribuição normal, mesocúrtica, simetria). Chegamos assim á conclusão que teríamos de usar um teste não paramétrico e tendo em conta que: O teste de Mann-Whitney cria um ranking (ordenação) de todos os casos (independente do grupo) e depois compara estes ranking entre cada grupo. Observamos o rank médio e a soma dos rankings de cada grupo, havendo diferença entre os grupos e consequentemente diferença significativa nos rankings médios, sendo maior o ranking do grupo que pratica mais do que um desporto. Resultados 16-05-2016 138 Em Test Statistics, podemos observar que não há diferença entre a EVA numérica dos que praticam um desporto e da EVA numérica dos que praticam mais do que um desporto, isto porque o Sig>0,05, ou seja, 0,431>0,05, aceitando-se portanto a hipótese nula, aceitando-se homogeneidade, concluindo assim que as variáveis em questão não dependem uma da outra. Conclusões • A prática de um ou mais desportos pelos jogadores de uma equipa de futebol das Caldas da Rainha influencia a EVA numérica, ou seja, os jogadores que praticam mais do que um deporto tem uma maior intensidade de dor no que diz respeito a entorses do pé. • É relativamente fácil de compreender estes resultados, pois osjogadores que mais esforço fazem nos mais diversos desportos estão mais propensos a fazer entorses, a ter entorses reincidentes e claro, mais esforço pode levar a mais dor. 16-05-2016 139 WILCOXON Wilcoxon § Este teste é a versão não paramétrica do teste t para amostras emparelhadas. Em particular, nós usamos este teste quando temos medições repetidas de uma amostra. § O teste de Wilcoxon pode ser usado com dados ordinais, intervalares ou proporcionais. Os dados para esse teste consistem dos diferentes registos das medições repetidas. Essas diferenças são então classificadas da menor para a maior em valores absolutos (sem considerar o sinal). § Se existir uma diferença real entre as duas medições, ou tratamentos, então os diferentes registos serão positivos ou negativos. Por outro lado, se não houver diferença entre os tratamentos, então os diferentes registos serão misturados regularmente. 16-05-2016 140 Consideremos o seguinte exemplo § O diretor d recursos humanos de uma empresa crê que os operadores de um call-center com treino de competências sociais, deixam uma impressão mais favorável nos clientes do que os operadores sem este tipo de treino. Portanto medem o grau de simpatia de 20 operadores antes e depois do treino de competências sociais. O grau de simpatia é medido numa escala de 0 a 10, sendo que 10 indica um elevado grau de simpatia. Princípios para aplicação § Estudos com grupos de: Controlo e Experimental; § Estudos em momento: “Antes” e “Após”; § Estudos com duas situações experimentais: submetendo um grupo de sujeitos a duas situações ou dois grupos de sujeitos emparelhados a duas situações distintas; § Os dados, quanto ao Nível de Mensuração: Ordinais ou Quantitativas; § Não existe uma fórmula, mas sim um par de procedimentos para calcular as diferenças entre grupos; § A estatística do teste: T de Wilcoxon 16-05-2016 141 Procedimentos para aplicação do teste Procedimentos com um n amostral ≤ 100: § Σxi – situação A: Σxi – situação B; § Estimar a diferença (dA-B) de cada par de resultados e identificar os respetivos sinais + e -; § Determinar a ordem das diferenças (dA-B); § A diferença entre um par de resultados = 0 (excluir o par de análise); § Números ordenados com sinal (+) na coluna “ordem(+)”. Números Ordenados com sinal (-) na coluna “Ordem(-)” § Σxi da “Ordem +”; Σxi da “Ordem –”; § Considere os dois totais “T Ord(-)” e “T Ord(+). O valor de Tobservado (estatística do teste) será o Menor deles. § Para que o valor Tobservado seja significativo, num determinado nível de probabilidade (1-α), deve ser inferior ou igual aos valores críticos associados a N do estudo. Tobservado ≤ Tcrítico Procedimentos para aplicação do teste 16-05-2016 142 Exemplo para aplicação de teste § Um médico (Diretor de Serviço) decidiu avaliar a variação de confiança percecionado por um grupo de doentes internados, em relação aos enfermeiros que vestiam bata branca ou não quanto à realização, por parte dos doentes, de determinadas prescrições clínicas. A avaliação do grau de confiança foi medido numa escala de 5 pontos (dados ordinais), em que o doente exprimia a forma como “se sente quando tratado por um enfermeiro com bata branca e por um enfermeiro sem bata branca”. Nesta escala, o resultado de 1 significa “nada confiante”, enquanto o 5 significa “totalmente confiante”. O questionário foi entregue a 15 doentes que se encontravam em regime de internamento. h0 = os doentes internados, independentemente, de serem tratados por enfermeiros com ousem uniforme, a sua relação de confiança no cumprimento de determinadas prescrições pelos mesmos não é afetada h1 = os doentes internados revelam um nível de confiança mais elevado, quando tratados porenfermeiros de bata branca, aderindo mais facilmente às prescrições clínicas. Exemplo para aplicação de teste Doentes Resultados Situação A com uniforme Situação B sem uniforme 1 5 3 2 4 3 3 5 2 4 2 5 5 4 4 6 3 3 7 5 4 8 5 3 9 4 2 10 4 2 11 2 2 12 3 1 13 5 1 14 4 2 15 5 1 Σ 60 38 x 4 2,533 ► Como “se sente quando tratado por um enfermeiro com bata branca e por um enfermeiro sem bata branca”. ► Nesta escala, o resultado de 1 significa “nada confiante”, enquanto o 5 significa “totalmente confiante”. ► O questionário foi entregue a 15 doentes que se encontravam em regime de internamento. 16-05-2016 143 Exemplo para aplicação de teste u Determinar a ordem das diferenças (dA-B). Doentes Resultados Cálculos Situação A com uniforme Situação B sem uniforme d = A – B 1 5 3 +2 2 4 3 +1 3 5 2 +3 4 2 5 -3 5 4 4 0 6 3 3 0 7 5 4 +1 8 5 3 +2 9 4 2 +2 10 4 2 +2 11 2 2 0 12 3 1 +2 13 5 1 +4 14 4 2 +2 15 5 1 +4 Σ 60 38 x 4 2,533 Exemplo para aplicação de teste § No sentido de verificar se estas situações diferem significativamente entre cada situação, tem de se seguir os passos conforme se indicam: § Atribuir a ordem 1 à menor diferença, a ordem 2 à diferença imediatamente a seguir, e assim sucessivamente. Ao realizar este passo é necessário não esquecer que os zeros foram omitidos e que se ignora os valores + e – § Contudo, sempre que a diferença entre um par de resultados é 0, omite-se esse par de toda a análise 16-05-2016 144 Exemplo para aplicação de teste Doentes Resultados Cálculos Situação A com uniforme Situação B sem uniforme d = A – B 1 5 3 +2 (3) 2 4 3 +1 (1) 3 5 2 +3 (9) 4 2 5 -3 (10) 5 4 4 0 6 3 3 0 7 5 4 +1 (2) 8 5 3 +2 (4) 9 4 2 +2 (5) 10 4 2 +2 (6) 11 2 2 0 12 3 1 +2 (7) 13 5 1 +4 (11) 14 4 2 +2 (8) 15 5 1 +4 (12) Σ 60 38 x 4 2,533 ► Ordenação Restrita: se os valores das diferenças (d) forem idênticos (como é o caso). Aqui, por exemplo, os sujeitos 2 e 7 apresentam ambos os valores =1. Estes dois resultados são os mais baixos e, por isso, devem corresponder aos dois lugares mais baixos, isto é, números 1 e 2, respetivamente. Exemplo para aplicação de teste Doentes Resultados Cálculos Situação A com uniforme Situação B sem uniforme d = A – B Ordem de d Ordem das diferenças (+) Ordem das diferenças (-) 1 5 3 +2 (3) (+) 5,5 (+) 5,5 2 4 3 +1 (1) (+) 1,5 (+) 1,5 3 5 2 +3 (9) (+) 9,5 (+) 9,5 4 2 5 -3 (10) (-) 9,5 (-) 9,5 5 4 4 0 Excluído 6 3 3 0 Excluído 7 5 4 +1 (2) (+) 1,5 (+) 1,5 8 5 3 +2 (4) (+) 5,5 (+) 5,5 9 4 2 +2 (5) (+) 5,5 (+) 5,5 10 4 2 +2 (6) (+) 5,5 (+) 5,5 11 2 2 0 Excluído 12 3 1 +2 (7) (+) 5,5 (+) 1,5 13 5 1 +4 (11) (+) 11,5 (+) 5,5 (14 4 2 +2 (8) (+) 5,5 (+) 5,5 15 5 1 +4 (12) (+) 11,5 (+) 5,5 Σ 60 38 (+) 68,5 (-) 9,5 x 4 2,533 ����� �� � = ����������� � = 5,5 ����� �� � = ��� � = 1,5 ����� �� � = ���� � = 9,5 ����� �� � = ����� � = 11,5 Adiciona-se os números e divide-se pelo número de valores d com o mesmo resultado. 16-05-2016 145 Exemplo para aplicação de teste Considere os dois totais “T Ord(+)” e “T Ord(-)”. O valor de Tobservado (estatística do teste) será o menor deles. Logo, T: -9,5 Cálculos d = A – B Ordem de d Ordem das diferenças (+) Ordem das diferenças (-) +2 (+) 5,5 (+) 5,5 +1 (+) 1,5 (+) 1,5 +3 (+) 9,5 (+) 9,5 -3 (-) 9,5 (-) 9,5 0 Excluído 0 Excluído +1 (+) 1,5 (+) 1,5 +2 (+) 5,5 (+) 5,5 +2 (+) 5,5 (+) 5,5 +2 (+) 5,5 (+) 5,5 0 Excluído +2 (+) 5,5 (+) 1,5 +4 (+) 11,5 (+) 5,5 +2 (+) 5,5 (+) 5,5 +4 (+) 5,5 (+) 5,5 (+) 68,5 (-) 9,5 O número de pares em análise é representado por N, o que é dado pela diferença entre o total dos pares e o número de pares cuja diferença de d é nula. Deste modo, temos: N = 15 – 3; N = 12 Princípios para interpretação u Valores críticos de T (teste de Wilcoxon) em vários níveis de probabilidades: para que o valor Tobservado seja significativo, num determinado nível de probabilidade, deve ser ≤ aos valores Tcríticos associados ao N do estudo da tabela u Submetendo os dados a um teste de Wilcoxon (Tobservado = 9,5 < Tcrítico = 13 para n=12), os resultados “nível de confiança” foram considerados
Compartilhar