Baixe o app para aproveitar ainda mais
Prévia do material em texto
Correlação e Regressão Correlação Linear de Pearson A correlação nada mais é do que a relação entre duas variáveis. Representa a “união” entre elas. Não representa dependência entre elas. Em um gráfico X versus Y, o sentido da correlação pode ser: Positivo: X aumenta, Y aumenta Negativo: X aumenta, Y diminui O Coeficiente de Correlação (r) mede o quanto uma variável X está ligada a uma variável Y -1<r<+1 Interpretação Intensidade e Sentido Intensidade: Considerado o módulo de r ( |r| ) ; Quanto mais próximo de 1, mais intensa é a relação R=0: ausência 0<r<0,25: fraca 0,25 <r<0,5: moderada fraca 0,5<r<0,75: moderada forte O,75<r<1: forte R=1: correlação perfeita Sentido: considera-se o “sinal” (+/-). Sinal Positivo (+): Correlação direta (X cresce, Y também cresce) Sinal Negativo (-): Correlação inversa (X cresce, Y decresce) Cuidado!!! Correlação Espúria: acontece quando a correlação se dá por meio de uma terceira variável. Extrapolação: não se pode estimar, com base no que se observou em um determinado período, o que acontecerá em outro período. Intervalo Adequado: a observação dos dados deve ocorrer em intervalos adequados, não podendo ser pequenos demais, pois a correlação pode não ser evidente no intervalo pequeno Estratificação: amostras vindas de diferentes estratos devem ser analisadas separadamente Dimensão dos eixos: o diagrama (gráfico) deve ter aspecto quadrado, ou mais próximo deste. E deve-se atentar às escalas. Valores discrepantes (outlier): quando perceber um valor discrepante, deve-se conferir se não houve erro e, talvez, desconsiderá-lo (porém na descrição do estudo é importante avisar o leitor sobre o outlier) Regressão A Regressão é associada à dependência entre duas variáveis. A partir dos dados é possível determinar a equação da reta e coeficiente de determinação. Coeficiente de determinação: É uma medida descritiva da proporção da variabilidade de Y que pode ser explicada por X. Exemplo: se o coeficiente de determinação é de 40%, posso afirmar que a variação de Y se explica 40% pela variação de X, e 60% por outros fatores Gráficos Por que usar gráficos? A utilização de gráficos se dá pois os gráficos permitem uma transmissão rápida e eficiente da informação, permitem análise de tendências, encontrar erros. Porém demonstram perda de precisão, pois os dados precisam ser adaptados ao formato do gráfico Gráficos de barras Para representar a frequência de dados qualitativos ou quantitativos discretos (não agrupados) Gráficos de setores (pizza) Para representar frequências percentuais ou relativas de variáveis qualitativas ou quantitativas Histograma Para representar distribuição de frequências para variáveis quantitativas agrupadas em classes contínuas Polígono de frequência Outra forma de representar as distribuições de frequências. Usa-se o ponto médio de cada classe para representar toda a classe. Usamos uma linha para ligar os pontos médios. É necessário marcar outras duas classes (nas extremidades) com valores de frequência igual a zero. Box-plot/Box-whiskers (gráfico de caixas) Dispersão Cuidados sobre os gráficos Não se devem utilizar gráficos “tridimensionais”, exceto quando realmente necessário (gráfico de 3 eixos). Ao utilizar gráficos em preto-e-branco, fazer uso de diferentes padrões, para facilitar o entendimento. Inferência Inferência Inferência é tirar conclusões sobre um grande número de eventos (população) com base na observação de apenas uma parte deles (amostra) Inferência Estatística: Estimativa de parâmetros; teste de hipóteses. Estimativa de Parâmetros Estatísticas versus parâmetros: com base nos dados de amostras, estimar, em termos probabilísticos, os valores de média, desvio padrão, etc. na população. Intervalo de confiança (IC) para médias populacionais: estimativa de média populacional (µ) -> necessário: média de amostra, erro amostral, probabilidade do erro ocorrer. Confiança da estimativa: há sempre uma chance de tirarmos uma conclusão errada. O (alfa) representa a chance desse erro ocorrer. Ex.: para um = 2%, temos um nível de confiança de 98%. Para o cálculo do IC, temos duas fórmulas. Uma para amostras inferiores a 30 indivíduos e uma para amostras com 30 ou mais indivíduos. Para menos do que 30 indivíduos, usa-se uma variável t, e para 30 ou mais, usa-se a variável z. Os valores de “t” e “z”: os valores são dados por uma tabela especial, que depende do tamanho da amostra e do . Teste de hipóteses Os testes determinam, em termos probabilísticos, se as diferenças entre as amostras significam que estas são realmente diferentes entre as populações submetidas à amostragem. Em um exemplo onde existam duas populações, A e B, e de cada uma fora retirada uma amostra: H0: hipótese nula; não há diferença entre os grupos; µA = µB H1: há diferença entre os grupos; µA ≠ µB (bicaudal ou bilateral); µA > µB (unicaudal ou unilateral) Testamos sempre H0, ela será aceita ou rejeitada em favor de H1. Nível de significância (): probabilidade de rejeitar H0 quando ela é verdadeira. Em geral, usa-se o valor de =0,05 (5%). Qual teste escolher? Qui-quadrado, teste T, Wilcoxon, Mann-Whintey, teste F, G, ANOVA, Mancova, etc.? Dividem-se em dois grupos: Paramétricos: relacionados a parâmetros; dependem de qualificações específicas. Premissas básicas: amostra aleatória, variáveis quantitativas, populações com a mesma variância (homocedastidade), distribuição normal. Não-paramétricos: mais generalistas. Premissas básicas: amostra aleatória, variáveis quantitativas e qualitativas, populações com variância iguais ou diferentes, distribuições normais, conhecidas ou não. *Distribuição normal ou Gaussiana: variáveis quantitativas contínuas; n > 30; o gráfico se apresenta em “forma de sino”; simétrico; unimodal; Média, mediana e moda coincidem. Por que usar um teste paramétrico? Porque sim, zé mané, se toca, o todo fodão Nápoli falou que tem que usar seu bosta. Porque é mais robusto (maior garantia de acerto). Quando usar um teste não-paramétrico? Quando há a impossibilidade de usar um teste paramétrico: distribuição não-normal ou desconhecida; amostras pequenas (n<30); variáveis qualitativas (ordinais ou nominais) Pareamento: Amostras pareadas: as amostras são dependentes; comparam-se os valores em pares (antes/depois; medidas de um mesmo indivíduo; geneticamente equivalentes) Amostras não-pareadas: as amostras são independentes; Resultados dos testes O valor de “P” representa a probabilidade de ter errado a conclusão. Deve ser comparado ao valor de : Se P for menor: há diferença significativa Se P for maior ou igual: nada pode ser dito Regra prática: P≥0,05: nada pode ser dito; P<0,05: há diferença significativa. _1432323235.xls _1432324847.xls _1432325658.xls _1432323751.xls _1432323078.xls
Compartilhar