Baixe o app para aproveitar ainda mais
Prévia do material em texto
Disciplina: Análise de dados Aula : Correlação e Regressão Profa. Mônica Botter UFRPE 2 �Correlação: • Medida do relacionamento linear entre variáveis; •Relações ou associações quantitativas entre duas variáveis medidas em escalas ordinais (mínimo) ou quantitativos (discretos ou contínuos); •Não necessariamente significa um relação de CAUSA e EFEITO; A correlação não faz distinção entre variável explicativa e resposta •Usado para testar a significância de uma associação linear •Mede a FORÇA da relação entre duas variáveis; CORRELAÇÃO varia entre +1 e -1 (perfeitas correlações) Positiva: quando as duas variáveis aumentam Negativa: quando uma variável aumenta e a outra variável diminui Sem correlação: nuvem de pontos paralela 4 •COEFICIENTE DE CORRELAÇÃO: estatística usado para verificar a correlação entre duas variáveis �Índice de Correlação de Pearson (r): �Índice de Correlação de Spearman (rs) : Força e direção da correlação: de -1 a 1 Ambos fortemente dependentes do tamanho amostral e do nível de significância escolhido 1º Faça um Diagrama de dispersão: Mostra a direção e a intensidade da relação entre duas observações bivariadas ótimo para descobrir valores atípicos Coeficiente de correlação produto-momento ou coeficiente de Pearson (r) Outra maneira de se avaliar a correlação é usar um coeficiente (ro= letra r minúscula, no alfabeto grego) Vantagens: • Número independente da unidade de medida das variáveis • É uma medida da intensidade de associação entre duas variáveis quantitativas Diagrama de dispersão Correlações Perfeitas +1 = perfeita correlação positiva -1 = perfeita correlação negativa 0 = falta de correlação Para dados intervalares: Quando todos os pontos caem sobre uma linha reta 8 a) forte correlação positiva b) fraca correlação positiva 9 c) nenhuma relação d) fraca correlação negativa 10 �Avaliação Qualitativa de r quanto à intensidade (Fonte: callegari-jacques,2004) Valor do coeficiente de r (positivo ou negativo) A correlação é dita 0,00 nula 0,00 a 0,3 fraca 0,3 a 0,6 regular 0,6 a 0,9 Forte 0,90 a 1,00 muito forte 1 Plena ou perfeita �A Direção: Indicada pelo sinal 11 Correlação (Pearson) Graus de liberdade= n-2 r calculado > r tabelado Altamente significativo R² = coeficiente de correlação ao quadrado= coeficiente de determinação Comprimento do otólito x (mm) Massa do peixe y (g) 6,6 86 6,9 92 7,3 71 7,5 74 8,2 185 8,3 85 9,1 201 9,2 283 9,4 255 10,2 222 0,8383² =0.703 ou 70,3% 12 Correlação (Pearson) Graus de liberdade= n-2 r calculado > r tabelado Altamente significativo R² = coeficiente de correlação ao quadrado= coeficiente de determinação -Decisão usando o valor crítico da tabela Se rcal >r critico então rejeita H0 =resultado significativo Se r cal < r critico então aceita H0 = resultado não significativo -Escolha do nível de significância (α): Normalmente 5% (0,05) -Graus de Liberdade: (n-2), onde n- tamanho da amostra -Hipóteses nula : H0: duas variáveis não variam de modo linear Teste de hipóteses sobre Correlação -Decisão usando o valor crítico da tabela Se r ≥ r critico então rejeita H0 =resultado significativo Se r ≤ r critico então aceita H0 = resultado não significativo teste de hipóteses sobre correlação -Decisão usando o valor de P Se P ≤ α então rejeita H0 =resultado significativo Se P ≥ α então aceita H0 = resultado não significativo Coeficiente de correlação Spearman (rs) � Quando não se aplica a correlação de Pearson � Aplicado quando as observações são: proporções, contagens ou índices � Pode se usado para observações em escala ordinal (ver H’ na tabela) Anos após aplicação de pesticida Diversidade de gafanhotos (H’) 0 0 1 0.19 3 0.15 5 1.49 8-10 1.10 12 1.12 13 1.61 15 1.42 21 1.48 +25 1.92 Pearson (r) Spearman (rs) Similaridades Teste de relações lineares Não existe variável dependente e independente Dados relacionados Diferenças Paramétrico Apenas dados quantitativos e principalmente contínuo Dados normais Não-paramétricos Use quando uma ou ambas as observações estão em escala ordinal, são proporções, índices ou contagens Tamanho da amostra Entre 7 e 30 pares de observações Tabela comparativa entre testes de correlação de Pearson e Spearman (Holmes et al., 2011) 17 �Coeficiente de determinação (R²) •O coeficiente de correlação de Pearson pode ser elevado ao quadrado para fornecer o Coeficiente de determinação •Significado: É uma medida da proporção da variabilidade de uma variável que é representada pela variabilidade de outra •O R² indica que outros fatores estão influenciando x e y Exemplos: � Se r = 0,9 então R² =0, 81 (0,9 x0,9) ou seja, 81% da variação de uma variável é explicada pela variação da outra • Definição 18 �Tipos de hipóteses: � Comparar nossas observações com nossas expectativas: • Razoavelmente podemos arguir que todas as amostras ou observações deveriam ter os mesmos valores • Exemplo: número de besouros coletados em armadilhas com diferentes cores = mesmo número de besouros � Se há associação entre duas ou mais variáveis: • Presença ou ausência de uma associação • Exemplo: grupo sanguíneo e cor dos olhos? Temperatura e taxa de crescimento de bactérias? • Tipo de teste: Qui-quadrado, Teste G, Correlação ou Regressão � As amostras vêm da mesma população estatística ou de populações distintas? • Comparar diferenças entre tratamentos • Exemplo: a eficácia de diferentes bactericidas sobre o número de bactérias ou comparar as concentrações de fosfato em amostras de água coletadas antes e após um ponto de despejo. Regressão Linear Regressão Linear 21 �Regressão: •Quando a função f que relaciona duas variáveis é do tipo f (Y) = a + bx temos o modelo de regressão simples Em geral usamos uma reta de regressão para predizer o valor de y para determinado valor de x • Descreve a relação entre uma Variável explicativa (independente ) e uma variável resposta (dependente = Regressão simples Variáveis dependentes e independentes Convenção: variável dependente no eixo Y e variável independente no eixo x 22 �Outliers 23 �Regressão: Ajuste do modelo: Achar o melhor!!!!!(ajustar uma linha reta aos dados que foram coletados) Usar seus olhos Método dos Mínimos quadrados Subjetivo e sem garantia 24 �Qual a melhor ajustamento de linha? 25 Método dos Mínimos quadrados A equação estimada é calculada determinando-se a equação que minimiza a soma do quadrado das distâncias entre os pontos de dados da amostra e os valores preditos pela equação. 26 �Regressão: Equação linear : y = a + bx Intercepto (a): valor de y quando x =0 Inclinação da reta (b): alteração de y quando x aumenta 1 unidade Variável dependente Variável independente a e b = parâmetros �Regressão: A inclinação é 5 positiva. Quando x aumenta em 1, y aumenta em 5. O intercepto y é 2. A inclinação é negativa 0,4. Quando o x aumenta em 1, y diminui em 0,4. O intercepto y é 7,2. Fonte: https://support.minitab.com/pt-br/minitab/18/help-and-how- to/modeling-statistics/regression/supporting-topics/basics/slope- and-intercept-of-the-regression-line/ 28 Altura final do carro acima do nível do mar = a + bx, onde b é o gradiente. (Fonte: Fowler et al. (1998)Practical statistics for field Biology.) 29 �Regressão: 30 �Quando usar a regressão? (1) Procurando por uma relação entre uma variável dependente e variável independente; (2) Dados da amostra são medidos em um nível quantitiativo discreto ou contínuo; (3) Dados são relacionados; (4) Você tem um interesse particular na predição (previsão) �Diagrama de Dispersão � Ao se plotar num gráfico os pares de informação referente a cada observação obtemos uma “nuvem” de pontos definidos pelas coordenadas x e y de cadaponto. � Essa nuvem, por sua vez, definirá um eixo ou direção que caracterizará o padrão de relacionamento entre X e Y. 32 (Fonte: Sidia Callegari-jacques. Bioestatísitca. Artmed. 2004) variável dependente no eixo Y = escore de dano ecológico variável independente no eixo x = concentração de poluentes Fazer um diagrama de Dispersão �Regressão: Usada para estimativas Massa (x) g Comprimento (y) cm 10 10 20 15 30 20 40 25 50 30 34 �Regressão: Usada para estimativas Massa (x) g Comprimento (cm) y 10 10 20 15 30 20 40 25 50 30 -Determinar o comprimento quando a massa for de 25g? Y =5 + (0,5 x 25) =17,5cm -1ª) Qual modelo de regressão linear melhor descreve as mudanças na variável dependente baseadas na variável independente? As 3 questões a serem respondidas pela regressão -2ª) Qual destes modelos descreve uma quantidade significativa de variação na variável dependente? Ou seja, a variável dependente tem uma relação linear com a variável independente? -3ª) Quanto da variação o modelo pode explicar? Encontre os valores de a e b Tese de hipóteses envolvendo a Estatística F calcular o coeficiente de determinação (R²) -Decisão usando o valor crítico da tabela Se tcal >t critico então rejeita H0 =resultado significativo Se t cal < t critico então aceita H0 = resultado não significativo -Escolha do nível de significância (α): Normalmente 5% (0,05) -Hipóteses nula : H0: b = 0 H0: b ≠ 0 Teste de hipóteses da Regressão -O teste estatístico: Estatística F ou teste t �Regressão: exemplo usando Excel. Àrea da reserva (km²) Riqueza (numero de espécies) 4840 22 3126 14 2074 17 565 10 325 12 58 5 � calculando o valor de F � Conclusão: A riqueza é linearmente relacionada com o tamanho da área da reserva (teste de regressão: F1,4 =14,332, P = 0,019); 38 �Regressão: exemplo usando Excel.distância da planta (m) Concentração de zinco (µ Zn/g solo) 1 648 1,5 610 2,0 534 2,5 500 3,0 472 � calculando o valor de t � tcalculado = -9,84689 � t tabelado = 3,182 (p =0,05) � Tcalculado > t tabelado então rejeita-se H0. � Há uma associação altamente significativa (0,01> p >0,001 ) entre a distância da planta e a concentração de zinco no solo. 40 �PRESSUPOSTOS DO TESTE 1. A variável y deve ter distribuição aproximadamente normal: MENOS PREOCUPANTE! 2. A variação de y deve ser a mesma em cada valor de x (homogeneidade das variâncias) 3. Pontos no gráfico devem apresentar tendência linear, caso contrário, a equação que melhor descreverá o fenômeno não será uma reta. 41 �Análise de resíduos Um teste para validade dos pressupostos para a regressão pode ser feito do seguinte modo: (1) Calculam-se os resíduos para cada valor de y. Os resíduos representam a diferença entre aquilo que foi realmente observado e o que predito pelo modelo da regressão. (2) Desenha-se um gráfico no qual os resíduos são colocados no eixo vertical e os valores esperados de y, no horizontal. Aparência desejada: nuvens de pontos aleatórias e bem equilibradas acima e abaixo da linha Variâncias nas homogêneas: possível solução =transformação de dados Não linearidade: possível solução =transformação de dados 42 �Análise de resíduos Aparência desejada: nuvens de pontos aleatórias e bem equilibradas acima e abaixo da linha; resíduos parecem aleatórios, sem padrão Não existe homocedasticidade das variâncias. Tentar fazer uma transformação em y A equação da regressão não é linear. Transformações em y e/ou x 43 �Transformação dos dados Devo transformar um eixo ou os dois eixos de relações curvilíneas usando log? (1) Prepare o gráfico de dispersão com apenas 1 eixo transformado (2) Prepare um gráfico com os dois eixos transformados. (3) Escolha por uma avaliação visual , mas se ainda houver dúvidas, então calcule o coeficiente de determinação (r²) para cada uma deles e escolha o que possui o maior r². 44 CHECANDO AS PREMISSAS PELAS FERRAMENTAS DO EXCEL Usar os gráficos: • Plotagem dos Resíduos • Se os dados atendem às premissas, o gráfico deve mostrar uma faixa horizontal centrada em torno do 0, sem mostrar uma tendência positiva ou negativa • Plotagem de Probabilidade Normal • Se o gráfico é aproximadamente linear, podemos assumir que os resíduos têm distribuição normal 45 �Outras alternativas de regressão � Regressão múltipla: situações que envolvem mais de uma variável independente ; � Análise de covariância ou ANCOVA: situações envolvendo variáveis independentes contínuas e categóricas (escala nominal); � Regressão curvilínea: usada para explorar relações que não são lineares; � Regressão logística: pode ser usada quando se tem uma variável dependente que é medida em escala nominal ou ordinal
Compartilhar