Prévia do material em texto
1 UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS BIOLÓGICAS APOSTILA ANÁLISE E INTERPRETAÇÃO DE DADOS II Professores: Dr. Leandro Juen Dr. Leandro Brasil Dr. Tiago Begot Monitoras: Ms. Ana Luiza-Andrade Ms. Naiara Torres 2 SUMÁRIO II. INTRODUÇÃO ..................................................................................................... 3 III. A ESCOLHA DO TESTE ESTATÍSTICO ......................................................... 3 A. Quanto ao tipo de variável: ................................................................................. 3 B. Quanto a distribuição dos dados: ........................................................................ 4 1. Média (Mean): ................................................................................................ 4 2. Desvio padrão (SD, do inglês Standard Deviation): ........................................ 4 IV. Distribuição Normal ........................................................................................... 6 V. ESTRUTURA DOS TESTES ESTATÍSTICOS ......................................................... 6 VI. O software R ...................................................................................................... 7 VII. ##Teste T de Student – Grupos independentes## .............................................. 10 VIII. ##Teste T de Student - Grupos dependentes##.................................................. 12 IX. ##Análise de variância: ANOVA One way## ................................................... 12 X. ##Kruskal Wallis## ............................................................................................. 15 XI. ##Qui-Quadrado## ........................................................................................... 17 XII. ##Correlação de Pearson (r) – Paramétrico ## .................................................. 20 XIII. ##Correlação de Spearman (r) – Não Paramétrico ## ........................................ 22 XIV. ##Regressão Linear## ...................................................................................... 23 3 I. INTRODUÇÃO Em estatística, as populações são representadas por amostras, este fato se justifica, entre outros motivos, pela rapidez, viabilidade logística e baixo custo financeiro na coleta de dados biológicos (Figura 01). Figura 01. Esquema ilustrando uma população de formigas, uma amostra representativa dessa população e o método de coleta dos dados. Um estudo utilizando amostras deve sempre apresentar conclusões generalizadas para as populações de onde as amostras foram extraídas, esta extrapolação é feita por meio do uso de testes estatísticos. Dessa forma, assumimos que os testes estatísticos testam hipóteses a respeito de uma população (Figura 02) Hipótese: explicações potenciais que podem representar nossas observações do mundo externo Previsões (Se... Então....) Direciona a coleta de dados Figura 02. Esquema ilustrando os passos as etapas do método cientifico por trás da estatística. II. A ESCOLHA DO TESTE ESTATÍSTICO A escolha de um teste estatístico requer alguns conhecimentos básicos sobre a distribuição e o tipo de dados: A. Quanto ao tipo de variável: As variáveis podem ser classificadas quanto a dependência, e quanto ao tipo de informação de ela carrega. Assim as variáveis podem ser dependentes ou independentes, como o próprio nome sugere existe uma relação de domínio entre elas, ou seja, a variável dependente possui observações que dependem de como a variável 4 independente é manipulada. Dessa forma, dizemos que a variável dependente (é quem está sofrendo a ação) e a variável independente (é quem causa). As variáveis podem ser classificadas também como variáveis qualitativas (categóricas) ou variáveis quantitativas (contínuas) como apresentadas a seguir ( Figura 03). Figura 03. Esquema conceitual dos tipos de variáveis e exemplos de cada um delas. É fundamental sabermos classificar as variáveis quanto a dependência/independência e quanto ao tipo de informação de cada uma carregar se é quantitativa ou categórica. B. Quanto a distribuição dos dados: Os dados podem ser de distribuição normal ou anormal, a distribuição dos dados é baseada em dois parâmetros, a média e o desvio padrão; 1. Média (Mean): A média da amostra, chamada também por média aritmética é calculada por meio do somatório de todos os elementos da amostra (∑x) dividido pelo número de total de elementos que a amostra possui (n). 2. Desvio padrão (SD, do inglês Standard Deviation): O desvio padrão é uma medida complementar a média da amostra, o SD mede a dispersão dos dados em torno da média. Mas para calcular o desvio padrão, é preciso, primeiro, calcular a variância. Mas o que é variância? Quando a média é usada como medida de tendência central, podemos calcular a diferença (desvio) de cada observação em relação à média como segue: Desvio = Observação – Média 5 Tabela 01. Número de observações de uma amostra, cuja média é igual a seis (6), e posterior cálculo baseado na diferença da observação para a média. Exemplo retirada de Vieira, S (1942). Após calcularmos cada diferença entre valor observado e média, precisamos reunir todos os valores de desvio em um único valor, que irá representar essa medida de variabilidade. Porém os valores de desvios possuem sinais alternados, isso é, alguns são positivos (+) outros negativos (-) (observe na Tabela 01), essa soma resulta em valor igual a zero. Vejamos na prática: -3+0+(-1)+1+(-3) = 0 A solução foi encontrar uma maneira de ignorar os sinais, antes de somar os valores, por isso os valores precisam ser elevados ao quadrado. Dessa forma a soma ficou denominada de soma dos quadrados dos desvios. Tabela 02. Número de observações de uma amostra, diferença para média e posterior cálculo dos quadrados médios. Exemplo retirada de Vieira, S (1942). Assim a fórmula da variância levou o exponencial (s²), e o desvio padrão é do que a raiz quadrada de s² (variância). Se os desvios forem pequenos, os dados estão aglomerados em torno da média; logo, a variabilidade é pequena. Em contrapartida, se 6 os desvios forem grandes significa que as observações estão dispersas em torno da média e a variabilidade é grande. III. Distribuição Normal A partir dos cálculos de média e desvio padrão é possível determinar se a amostra possui distribuição normal ou anormal. O ponto máximo da curva normal encontra-se na média, se a é distribuição Normal a curva é simétrica de ambos os lados, e o desvio padrão determina o quanto a curva é achatada ou larga (Figura 04). Figura 04. Gráfico representando a distribuição normal dos dados, característico pela assimetria dos lados da curva. Lembre-se: A estatística do teste é baseada em hipóteses, os resultados fornecem um valor de probabilidade (p-valor) que permite ao pesquisador decidir, com base nos dados, se existe evidência para aceitar ou recusar uma hipótese. O nível de significância aceitável de probabilidade do teste é p<0,05. Figura 03. Esquema retirado de “De Marco Jr et al.(2009). Material de Apoio para Análises Estatísticas - Departamento de Biologia Geral, Universidade Federal de Goiás.” IV. ESTRUTURA DOS TESTES ESTATÍSTICOS 1- Teoria ecológica a ser testada: Qual teoria ecológica devo embasar minha hipótese? 2- Hipótese Nula (H0): não há efeito, ou seja, são iguais as variações dos dados entre os tratamentos. 7 3- Estatística do teste (testes paramétricos ou não paramétricos): Qual teste será utilizado? 4- Resultado esperado de H0 for verdadeiro 5- A hipótese alternativa é que as médias das amostras são diferentes. 6- Probabilidade de H0 for verdadeiro Testes paramétricos : Necessário atender parâmetrosde Distribuição Normal (a) e Homogeneidade das variâncias (b) a) Distribuição Normal b) Homogeneidade dos dados Antes dos testes estatísticos propriamente ditos vamos falar um pouquinho sobre uma das ferramentas disponíveis para a sua execução V. O software R O software R foi desenvolvido a partir de um projeto colaborativo com muitos pesquisadores de diversas áreas de atuação e diferentes regiões geográficas. O programa é gratuito e possui uma interface simplificada que funciona por meio de linhas de comando. Estas linhas de comando ficam armazenadas em uma vasta biblioteca, cuja organização dos arquivos é compacta o que torna o programa leve à memória do computador. Por isso, a execução de determinadas tarefas no R é dependente de pacotes contendo dados e funções com múltiplos argumentos. Desta forma, o usuário é capaz de realizar inúmeras analises estatísticas e construções gráficas, entre outras funções. O R possui versões compatíveis com diferentes sistemas operacionais como Windows, 8 MacOS e Linux. O programa é amplamente utilizado e atualmente possui inúmeros tutoriais e scripts (conjunto de linhas de comandos), facilmente acessíveis na internet, que facilitam o uso do programa por qualquer pessoa que não possui conhecimentos na linguagem de programação. Passos básicos para Importar e ler planilhas no R Importante: Utilize “Ctrl+R” para executar os comandos Passo 1: Para realizar um teste no R deve-se escolher inicialmente o diretório ou arquivo do computador onde se encontram os dados que serão utilizados no teste estatístico, para isso utilize os comandos “setwd(choose.dir())” abaixo. Em “dir()” selecione a pasta com os dados. setwd(choose.dir()) dir() Passo 2: O programa R não inclui na sua instalação todos os pacotes que são necessários para realizar os testes estatísticos, dessa forma devemos instalar os pacotes necessários. Para isso use o comando “install.packages(“pacote_necessário”)”, como visto abaixo. Obs: atenção a instalação de cada pacote é realizada uma única vez!!! install.packages("vegan") install.packages("car") Passo 3: Para que o pacote seja utilizado pelo programa não basta instalá-lo, deve-se carregar (“chamar o pacote”) o mesmo com o comando “library(pacote_necessário)” todas as vezes que abrir o R. library(vegan) library(car) Passo 4: Para o teste é necessário importar os dados para leitura pelo R, através do comando “read.table(“nome_da_planilha..formato”, indicar se existe cabeçalho h=T)”. No exemplo abaixo chamamos as planilhas de “dados”. Para conferir se os dados foram realmente “chamados” aperte Ctrl+R em “dados”. Veja abaixo. Note que estamos trabalhando com dados em formato .TXT (texto sem tabulação), por isso é necessário que o arquivo esteja salvo neste formato. dados<-read.table("cupim.txt", h=T) 9 # Para conferir os dados “chamamos o objeto”, basta repetir o nome que esta antes da seta (<-) dados Nesta planilha temos o número de espécies que é a variável dependente (quem está sofrendo a ação) e tempo de impacto como variável independente (quem causa), a variável independente é a categórica e possui dois níveis de organização (2 anos e 6 anos). Assim o teste usado será o teste T independente, porque temos uma variável quantitativa e uma categórica de dois níveis e os dados não possuem dependência (Tabela 03) Tabela 03. Tipo de variáveis para determinação da escolha do teste estatístico. Passo 5: A função “attach” serve para reconhecer os nomes presentes nas colunas da planilha e o comando “colnames” irá mostrar quais são estes nomes. attach(dados) # Reconhece as colunas da planilha colnames(dados) # Lê o nome das variáveis contidas nas colunas 10 Este passos 5 são básicos do R, para recenhecimento e leitra dos arquivos, iremos executar em todas as analises VI. ##Teste T de Student – Grupos independentes## Objetivo do teste: compara médias de duas amostras independentes e mostra se a diferença é significativa. Dica: cada amostra oferece apenas uma observação para compor a análise. Testar hipóteses Médias iguais 𝐻0: 𝜇1 = 𝜇2 (aceitar H0 quando p ≥ 0.05) Médias diferentes 𝐻1: 𝜇1 ≠ 𝜇2 (aceitar H1 quando p ≤ 0.05) Repetimos os passos 1 ao 5, Lembre de conferir o nome da planilha que deseja trabalhar, este nome precisa ser alterado no passo 4 dados<-read.table("cupim.txt", h=T) Passo 6: Neste passo iremos testar os pressupostos do teste para saber se as variâncias são homogêneas ou heterogêneas (homocedasticidade), testaremos através do teste Levene. Esse é um teste de hipótese onde 𝐻0: 𝜇1 = 𝜇2 e 𝐻1: 𝜇1 ≠ 𝜇2, ou seja, quando p ≥ 0.05 aceita-se Ho e as variâncias serão homogêneas, ou seja, não existe diferença e a curva de distribuição é simétrica (como na Figura 04). leveneTest(especie~Tempo_impacto) ATENÇÃO: a interpretação deste passo é determinante à escolha do teste Baseada no valor e interpretação do teste de Levene escolha qual será o passo seguinte – se o 7ª para variâncias homogêneas (p- levene >0,05) ou o 7B para variâncias heterogêneas (p-levene < 0,05). Passo 7A: Quando as variâncias forem iguais proceder o seguinte comando abaixo. Observe que “especie” é a amostra dependente e “Tempo_impacto” é a amostra independente; “paired = F ou FALSE” indica que as amostra não são pareadas; “var.equal=T ou TRUE” indica que as 11 variâncias são homogêneas. O próximo comando “boxplot (especie~Tempo_impacto)” irá plotar um gráfico boxplot mostrando média, quartis e possíveis outliers t.test(especie~Tempo_impacto, paired = F, var.equal = T,data=dados) boxplot (especie~Tempo_impacto) 2anos 6anos 5 1 0 1 5 2 0 Lembrando que variáveis heterogêneas podem ser “ajustadas” com a transformação dos dados por meio de logaritmo (vamos usar o log10). Existem outras transformações como arco seno, raiz quadrada etc., esses dependem do formato dos dados, cada um exige um tipo de transformação. O log. é usado para diminuir a dispersão entre os valores, causado na maioria dos casos por outliers – isso é, valores discrepantes, muito diferentes dos demais valores que possuem dispersão em torno do valor da média. # logrend<-log10(especie) # só uso quando teste levene der heterogêneo p<0,05 #logplan<-as.matrix(cbind(Tempo_impacto,logrend)) #substitui espécie por log de espécie Se mesmo usando o Log10 o levene der heterogêneo vou para o passo 7B. Passo 7B: Quando as variâncias forem DIFERENTES/HETEROGÊNEAS proceder o seguinte comando abaixo. Lembre-se que isso ocorrerá quando o p do teste LEVENE for menor que 0.05 (p ≤ 0.05). 12 t.test(especie~Tempo_impacto, paired = F, var.equal = F,data=dados) boxplot(especie~Tempo_impacto,ylab="especie") VII. ##Teste T de Student - Grupos dependentes## Objetivo do teste: compara médias de duas amostras pareadas e mostra se a diferença é significativa. Dica: cada amostra oferece mais de uma observação para compor a análise, ex: antes e depois. Script R Teste T para amostras dependentes: Repetir passos 1 ao 4 (escolher diretório e inserir planilha de dados). #não é necessário reinstalar os pacotes setwd(choose.dir()) dir() dados<-read.table("dieta.txt", h=T) Passo 5: Realizar o teste t pareado. Observe que o comando “colnames” retoma os nomes de linha ou coluna de um objeto semelhante a matriz. attach(dados) colnames(dados) t.test(antes, depois, paired = TRUE) VIII. ##Análise de variância: ANOVA One way## Objetivo do teste: Testa a diferença entre uma única variável quantitativa dependente contra dois, três ou mais grupos formados pelas categorias de uma única variável categórica independente. Dica: Haverá mais de duas categorias para comparação. 13 Script R Teste ANOVA One Way: Repetir passo 1 ao 5 do teste T para amostras independentes. Passo 6 também sera repetido, testaremosas variâncias com o teste Levene. Lembrando de ter cuidado na interpretação dos resultados, se levene for heterogêneo podemos tentar transformar os dados com log10. ATENÇÃO: SE MESMO APÓS O USO DO LOG10, O VALOR DO TESTE FOR P<0,05, NÃO DEVE PROSSEGUIR NO TESTE DE ANOVA. DEVO ESCOLHER UM TESTE QUE NÃO EXIJA DADOS COM PARAMETROS, VER KRUSKAL WALLIS. Passo 7: Após executar os passos 1 ao 6 do teste anterior devemos originar os resíduos do teste ANOVA, com o objetivo de avaliar o pressuposto de normalidade dos resíduos de maneira visual. Para isso execute o comando abaixo. Lembrando que RIQUEZA é a observação dependente e TRECHO a amostra independente anova<-aov(RIQUEZA~TRECHO)# Verificando o pressuposto de normalidade dos resíduos qqnorm(anova$residuals) #Plota os resíduos em um gráfico qqline(anova$residuals, lty=2) #Acrescenta a linha no gráfico -2 -1 0 1 2 -6 -4 -2 0 2 4 6 Normal Q-Q Plot Theoretical Quantiles S a m p le Q u a n ti le s Passo 8: Para avaliar através de um teste de hipótese a normalidade dos resíduos realizaremos o teste Shapiro-Wilk (comando “shapiro.test”). Com o valor de p acima de 0.05 teremos uma distribuição semelhante a normal (p≥0.05) shapiro.test(anova$residuals) 14 ATENÇÃO: A INTERPRETAÇÃO DA NORMALIDADE TAMBEM É FUNDAMENTAL, CASO OS DADOS APRESENTEM DISTRIBUIÇÃO EM S em torno da linha ou um valor de Shakiro p<0,05. Passo 9: Para visualizar os resultados da ANOVA execute o comando abaixo. summary(anova) Passo 10: o teste ANOVA mostra se existem diferenças entre as categorias, mas não em quais existem. Neste caso para saber onde existem essas diferenças realizamos um teste posterior, como o teste de Tukey HSD. Para realizar o teste execute o comando abaixo TukeyHSD(anova) Passo 11: Para gerar gráfico de erro ou confiança é necessário instalar o pacote “sciplot”. Onde: xlab indica install.packages("sciplot")#Caso o pacote ainda não esteija instalado no computador library(sciplot) lineplot.CI(TRECHO,RIQUEZA, type="p", las=1, xlab="Trecho do rio", ylab="Riqueza de espécies")#lembrar sempre de mudar os títulos de x e de y no gráfico [U1] Comentário: Mostrar o diff das diferenças medias, e qdo tiver dados log, fazer no excel 15 10 15 20 25 30 35 Trecho do rio R iq u e z a d e e s p é c ie s FOZ INTER NASC Passo 12: Para calcular o tamanho do efeito será necessário fazer a comparação das médias de cada tratamento tapply(RIQUEZA,TRECHO,mean) #média ATENÇÃO AOS DADOS TRANSFORMADOS POR LOG. NÃO DEVO FAZER OS CALCULOS DE TAMANHO DE EFEITO COM DADOS TRANSFORMADOS, CASO TENHA SIDO NECESSARIO USAR LOG. NO LEVENE, CALCULE OS VALORES DAS DIFERENÇAS ENTRE AS MEDIAS DOS GRUPOS PELO EXCEL. IX. ##Kruskal Wallis## Teste não paramétrico – o que isso significa? Que o kruskal Wallis é um teste que não segue os pressupostos de normalidade e homogeneidade das variâncias. Para rodar o teste de Kruskal Wallis preciso ter certeza que os dados atingiram os pressupostos de normalidade e/ou homogeneidade de variâncias. Vantagens: têm a vantagem de permitir estudar, quanto à significância, dados que são inerentemente classificados (escala nominal) ou se apresentam em postos (escala ordinal). Para isso preciso obrigatoriamente rodar os passos 1 ao 8 da anova Passo 9: Só após ter certeza pelo teste de Shapiro que os dados possuem distribuição anormal e/ou possuem variâncias heterogêneas testadas pelo teste de levene, posso seguir com o comando: kruskal.test(Abundancia ~ Fitofisionomia) 16 Testes não - paramétricos – Não é necessário atender parâmetros de Normalidade dos dados e Homocedasticidade das variâncias. Porém, possui menor precisão pois trabalha com “ranks” ##Kruska Wallis## Objetivo do teste: teste não paramétrico utilizado na comparação de três ou mais amostras independentes. Dica: quando não for possível atender aos parâmetros de normalidade e homocedasticidade usa-se Kruskal – Wallis. Script R Teste Kruska Wallis: Repetir passo 1 ao 6 do teste ANOVA One Way. Passo 7: QPara efetuar o teste kruskal execute o kruskal.test(Abundancia ~ Fitofisionomia) -1 0 1 -1 0 0 0 -5 0 0 0 5 0 0 Normal Q-Q Plot Theoretical Quantiles S a m p le Q u a n ti le s 17 X. ##Qui-Quadrado## Objetivo do teste: O objetivo do teste é verificar se a frequência absoluta observada de uma variável é significativamente diferente da distribuição de frequência absoluta esperada. Este é aplicado quando se quer conhecer a dependência entre duas variáveis, através de uma tabela de dupla entrada ou também conhecida como tabela de contingência. Pressupostos do teste: *Exclusivamente para variáveis nominais e ordinais; *Observações independentes; *Não se aplica se 20% das observações forem inferiores a 5 *Não pode haver frequências inferiores a 1; Script R Teste Qui-Quadrado: Passo 1: Seleção do diretório e entrada de dados setwd(choose.dir()) #direciona para seleção de pasta dir()#serva para ver as pastas do diretório dados<-read.table("aprovacao.txt",h=T) #entrada de dados “aprovação.txt” dados #ver dados Observação para entrada dos dados Aprovação sim não Exercicio sim 18 4 não 3 15 Aprovação Exercicio 1 sim sim 2 sim sim 3 sim sim 4 sim sim 5 sim sim 6 sim sim 7 sim sim 18 8 sim sim 9 sim sim 10 sim sim 11 sim sim 12 sim sim 13 sim sim 14 sim sim 15 sim sim 16 sim sim 17 sim sim 18 sim sim 19 nao sim 20 nao sim 21 nao sim 22 nao sim 23 sim nao 24 sim nao 25 sim nao 26 nao nao 27 nao nao 28 nao nao 29 nao nao 30 nao nao 31 nao nao 32 nao nao 33 nao nao 34 nao nao 35 nao nao 36 nao nao 37 nao nao 19 38 nao nao 39 nao nao 40 nao nao colnames (dados) #para ver o nome das colunas > colnames(dados) [1] "Aprovação" "Exercicio" attach(dados) #juntar dados summary(dados)#resumo dos dados Passo 2: Transformar os dados em uma tabela de contingência, ou seja uma tabela de frequência. tabela<-table(Aprovação,Exercicio) tabela Passo 3: #fazendo o teste de qui-quadrado resultado.qui<-chisq.test(tabela) # Testando o pressuposto resultado.qui$expected #25% da células com números menores que 5. #Resultado do teste, probabilidade do acaso resultado.qui Tamanho do efeito 20 Como a hipótese do teste “Aprovação” é que quanto mais o aluno resolve os exercicios maior será a possibilidade de aprovação na disciplina, para calcular o tamanho do efeito basta somar a coluna sim de “Aprovação” e realizar uma regra de três simples, observe abaixo: Tabela de contingência Aprovação sim não Exercicio sim 18 4 não 3 15 18+3 = 21 21 – 100% 18 - x% x= (18*100)/21 = 85,71% Dessa forma, 85,71% dos alunos que resolveram os exercício foram aprovados na disciplina. XI. ##Correlação de Pearson (r) – Paramétrico ## Objetivo do teste: O objetivo do teste correlação de Pearson (r) é medir o grau da correlação linear entre duas variáveis quantitativas. SEM CAUSALIDADE entre as variáveis, neste teste é possível apenas avaliar se existe uma correlação (relação) entre elas e identificar se esta relação é positiva ou negativa. Como interpretar o r r= 1: Significa uma correlação perfeita positiva entre as duas variáveis. r= -1: Significa uma correlação negativa perfeita entre as duas variáveis - Isto é, se uma aumenta, a outra sempre diminui. r= 0: Significa que as duas variáveis não dependem linearmente uma da outra. No entanto, pode existir outra dependência que seja "não linear". Assim, o resultado r=0 deve ser investigado por outros meios. Script R Teste Correlação de Pearson: 21 Passo 1: Seleção do diretório e entrada de dados setwd(choose.dir()) dir() dados<-read.table("pH.txt", h=T) dadosattach(dados) colnames (dados) summary(dados) Passo 2: Testar pressupostos de normalidade por Teste Shapiro lapply(dados,shapiro.test) #se todas as variáveis são normais (p > 0.05) rodar Correlação de Pearson Passo 3: Testando a significância da correlação: cor.test(alumínio,pH, method="pearson") 22 Passo 4: Gerar matriz de correlação #cor(dados)#matriz de correlação entre as variaveis Passo 5: Gerar Gráfico da correlação plot(alumínio~pH, las=1, pch=16) 4 5 6 7 3.0 3.5 4.0 4.5 5.0 5.5 6.0 pH a lu m ín io XII. ##Correlação de Spearman (r) – Não Paramétrico ## Objetivo do teste: Quando não atender o parâmetro de normalidade do teste anterior de Correlação de Pearson, deve-se realizar o teste não paramétrico de Correlação de Spearman. ##Somente quando os dados não atenderem o parâmetro da normalidade Script R Teste Correlação de Spearman: Realizar o teste a partir do Passo 2 do teste anterior #cor.test(alumínio~pH, method="spearman") 23 Passo 3: Gerar Gráfico da correlação plot(alumínio~pH, las=1, pch=16) XIII. ##Regressão Linear## Quando tem CAUSA x EFEITO entre as variáveis. A variável x sempre será quem causa e a variável y sempre quem sofre o efeito de x. Objetivo do teste: A analise de regressão linear objetiva realizar uma avaliação da existência de relação entre uma variável dependente com uma ou mais variáveis independentes. Pressupostos #Variáveis aleatórias #Variâncias Heterogêneas #Distribuição normal dos dados Script R Teste Regressão Linear: Repetir Passo 1 da análise anterior de correlação Passo 2: ajuste do modelo de Regressão linear resultado<-lm(Riqueza~Dossel) #cuidado com a ordem de entrada das #variáveis = explicativa (x), resposta (y); Passo 3: Testar a normalidade dos residuos - Shapiro.test shapiro.test (resultado$residual) Passo 4: Homocedasticidade – calcula o resíduo – resíduo é a distancia de cada ponto para a reta – quanto mais distante o ponta da reta = menor a explicação da amostra ( amostra = ponto). A soma desses resíduos é interpretada como a variação dos dados não explicada pelos dados testados. Sempre será testado com a variável X - variável dependente 24 plot(Dossel,resultado$residual) abline (h=0) 5 10 15 20 -6 -4 -2 0 2 4 6 Dossel re s u lt a d o $ re s id u a l Observa-se que os resíduos distribuem-se uniformemente no gráfico Passo 5: Resultados do teste summary(resultado) 25 Passo 6: Gráfico plot(Riqueza~Dossel,xlab="Abertura de Dossel",ylab="Riqueza de espécies",pch=19) abline(resultado) resultado 26 27 Tamanho do efeito da Regressão Valor de Alfa (α) e Beta (β) vezes o valor que pretendo estimar Y=α+β *(X) β = -3.819 α = 1.411 Os valores de alfa e beta estão no comando “resultado” O x (variável independente) neste caso é o tamanho da estimativa que quero avaliar; estimamos x igual 10. Significa que em uma abertura de 10 metros de dossel eu tenho No excel faça o cálculo: Y=α+β *(X), onde x=10 Y= 10.291 E para x= 20 temos: Y=α+β *(X), onde x =20 Y=24.401 Agora podemos fazer o tamanho de efeito por diferença 24.401-10.291=14.11 AnaLu Lápis AnaLu Lápis 28 Outro exemplo de tamanho do efeito no exercicio “concentração”