Prévia do material em texto
AULA IV BIOESTATÍSTICA – Correlação de Pearson e Spearman Estatística Descritiva: o objetivo é descrever os dados obtidos num estudo, evidenciando os seus atributos (média, moda e mediana, variância, desvio padrão), desse modo, podemos dizer que se trata de um resumo e apresentação/descrição dos dados. Quando os dados estão descritos concisa, completa e acuradamente, podem ser úteis pata fazer INFERÊNCIAS, isto é, as informações obtidas por meio da amostra serão generalizadas e aplicadas para toda a população, sendo, assim, uma conclusão sobre os dados coletados. DESCRITIVA Medidas de tendência central (média, moda, mediana); ESTATÍSTICA Porcentagem, amplitude, variância e desvio padrão; INFERENCIAL Paramétrica Não paramétrica Na estatística inferencial, podemos classificar os dados em paramétricos e não paramétricos, dependendo da existência ou não de uma distribuição normal, geralmente acontece quando as mostras são maiores que 200, pode ser conferida com o teste de normalidade e cujo gráfico se apresenta da seguinte maneira: Ambos os gráficos acima têm uma distribuição normal, já os mostrados abaixo, não seguem esse padrão. Os dados paramétricos, portanto, são aqueles que possuem uma distribuição normal, diferentemente dos não paramétricos. Precisamos saber disso e conseguir diferenciá-las, porque o tipo de análise que iremos usar para cada um desses dados vai modificar de acordo com o seu padrão. Para dados paramétricos, temos os seguintes tipos de análises: Correlação de Pearson Teste T ANOVA Manova Regressão Já para os não paramétricos, são esses: Correlação de Spearman Mann-Whitney/Wilcoxon Kruskal-Wallis/ Friedman Quando queremos fazer uma correlação isso quer dizer que pretendemos apenas relacionar os dados, buscar se existe uma relação entre eles, para isso podemos usar tanto Correlação de Pearson (paramétrico) quanto Correlação de Spearman (não paramétrico). Usamos a regressão quando pretendemos mostrar a existência (ou não) de causalidade em uma determinada relação, ou seja, o porquê dessa relação acontecer, mas, para isso, devemos realizar uma correlação de Pearson anteriormente, pois essa irá confirmar a presença de uma relação, uma vez que não podemos demonstrar causa em dados que não têm relação. Não podemos utilizar a correlação de Spearman, pois não existe uma análise semelhante à regressão para dados não paramétricos. Quando pretendemos comparar dados, temos à nossa disposição as análises: teste t, ANOVA e Manova - dados paramétricos - e seus correspondentes Mann-Whitney/Wilcoxon (teste t) e Kruskal-Wallis/ Friedman (ANOVA) - dados não paramétricos. Desse modo, não existe correspondente não paramétrico para Manova. COMPARAÇÃO (dados paramétricos) Teste t 1 Variável Independente (até 2 níveis) 1 Variável Dependente ANOVA 1 VI (+ de 2 níveis) 1 VD Manova Acrescenta VD, isto é, podemos ter quantas VIs e VDs quisermos, desde que seja + de 1 VD. As amostras podem ser tanto dependendentes/pareadas/medidas repetidas quanto independentes, o que vai diferencia-las é a coleta de dados em grupos semelhantes e grupos diferentes, respectivamente, isto é, quando comparamos amostras dependentes, utilizamos o mesmo grupo, antes e depois de um “marco”; já se comparamos amostras independentes, são grupos diferentes. Ex: Quando selecionamos uma turma de 25 alunos e comparamos o seu comportamento antes e depois de assistir um desenho animado violento (amostras dependentes); Quando comparamos a ansiedade do P4 da FCM antes e depois da prova de antimicro (amostras dependentes); Quando comparamos a ansiedade do P4 A e do P4 B da FCM antes da prova de antimicro (amostras independentes); COMPARAÇÃO (dados não paramétricos) Mann-Whitney / Wilcoxon Ambas as análises são correspondentes do teste t, isto é, servem para comparar dados, desde que seja 1 variável independente (até 2 níveis) e 1 variável dependente. A análise de Mann-Whitney serve para comparar amostras independentes e a de Wilcoxon para amostras dependentes. MACETE = 2 palavras = 2 grupos = grupos diferentes = amostras independentes = 1 palavra = 1 grupo = mesmo grupo = amostras dependentes Kruskal-Wallis / Friedman As análises correspondem a ANOVA para dados não paramétricos, tratando-se também de 1 variável independente (+ de 2 níveis) e 1 variável dependente. Acontece a mesma coisa que a anterior, isto é, Kruskal- -Wallis para amostras independentes e Friedman para dependentes. Repetindo o mesmo macete. CORRELAÇÃO DE PEARSON Obtenção de conclusões a partir da análise de correlação Correlações não sugerem causalidade!!! Isso é função da regressão, que só pode ser realizada se houver uma correlação anterior que confirme a existência de relação entre as variáveis. Os resultados significantes podem refletir a influência de uma terceira variável (Ex.: pessoas que tomam picolé e nº de afogamentos). O relacionamento demonstrado por uma análise de correlação pode ser espúrio, vulgo alterado, adulterado, ilegítimo, segundo anotado em sala, deriva de uma relação interveniente, como ocorre no exemplo acima, em que essa variável é o local – praia, pois é nele onde as pessoas mais tomam sorvete e mais se afogam, não atribuindo nem uma relação nem uma causalidade (obviamente) as outras variáveis. Falácia lógica é quando há uma falsa atribuição de causalidade a uma relação entre duas variáveis, isso acontece porque nosso cérebro busca constantemente explicar as coisas que acontecem e acaba atribuindo causa a tudo que se relaciona. Temos algumas ferramentas que permitem uma maior precisão desses dados e sua análise, que, nesse caso, trata-se de uma correlação, como: Direção Correlação positiva R de Pearson Correlação negativa Magnitude Fraco (0,1 – 0,3) Moderado (0,4 – 0,6) Forte (0,7 – 0,9) Perfeito (1) O coeficiente de correlação de Pearson (r) ou r de Pearson mede o grau da correlação linear entre duas variáveis quantitativas. É um índice adimensional com valores situados ente -1 e 1, inclusive, que reflete a intensidade de uma relação linear entre dois conjuntos de dados. Quanto mais próximo de 1, maior a relação entre as variáveis. Ex: Ansiedade e depressão Horas de estudo e desempenho nas provas Idade de motorista e acidentes de carro. Relacionamentos perfeitos: são aqueles no qual todos os pontos do diagrama encontram-se em linha reta, podendo ser positivos (crescente) ou negativos (decrescente). Relacionamentos imperfeitos: embora os pontos não estejam em linha reta, ainda são relacionamentos lineares, podendo também ser tanto positivos quanto negativos. Relacionamentos não-lineares O valor p ou probabilidade de significância é um número que deve ser menor que 0,05 (p<0,05), para que a pesquisa seja considerada de confiança, isso é uma convenção e se baseia no raciocínio de que se a chance de erros é apenas de 5 em 100, podemos considera-la confiável. Para áreas como a farmacêutica, em que a chance de 5 erros em 100 é muito grande, posto que, na maioria das vezes, pretendemos comercializar o medicamento e alcançar um grande público. Dessa maneira, nesses casos, diminuímos o p para menor que 0,01 (p<0,01) por exemplo. Esse valor irá confirmar se a minha hipótese é nula (p> 0,05), ou seja, não devemos considera-la, ou se a minha hipótese é alternativa/de pesquisa (p<0,05) pode ser confirmada. Resumindo, • Hipótese nula: não existe relacionamento real entre as duas variáveis (p>0,05);• Hipótese alternativa: existe relacionamento real entre as duas variáveis (p<0,05). OBSERVAÇÃO: O “rô” (ρ) da correlação de Spearman (estatística não paramétrica) equivale ao r de Pearson.