Buscar

ANÁLISE E INTERPRETAÇÃO DE DADOS II

Prévia do material em texto

1 
 
 
UNIVERSIDADE FEDERAL DO PARÁ 
INSTITUTO DE CIÊNCIAS BIOLÓGICAS 
 
 
 
 
 
 
 
APOSTILA ANÁLISE E 
INTERPRETAÇÃO DE DADOS II 
 
 
 
 
 
 
Professores: 
Dr. Leandro Juen 
Dr. Leandro Brasil 
Dr. Tiago Begot 
 
Monitoras: 
Ms. Ana Luiza-Andrade 
Ms. Naiara Torres 
 
 
2 
 
 
SUMÁRIO 
II. INTRODUÇÃO ..................................................................................................... 3 
III. A ESCOLHA DO TESTE ESTATÍSTICO ......................................................... 3 
A. Quanto ao tipo de variável: ................................................................................. 3 
B. Quanto a distribuição dos dados: ........................................................................ 4 
1. Média (Mean): ................................................................................................ 4 
2. Desvio padrão (SD, do inglês Standard Deviation): ........................................ 4 
IV. Distribuição Normal ........................................................................................... 6 
V. ESTRUTURA DOS TESTES ESTATÍSTICOS ......................................................... 6 
VI. O software R ...................................................................................................... 7 
VII. ##Teste T de Student – Grupos independentes## .............................................. 10 
VIII. ##Teste T de Student - Grupos dependentes##.................................................. 12 
IX. ##Análise de variância: ANOVA One way## ................................................... 12 
X. ##Kruskal Wallis## ............................................................................................. 15 
XI. ##Qui-Quadrado## ........................................................................................... 17 
XII. ##Correlação de Pearson (r) – Paramétrico ## .................................................. 20 
XIII. ##Correlação de Spearman (r) – Não Paramétrico ## ........................................ 22 
XIV. ##Regressão Linear## ...................................................................................... 23 
 
 
 
 
 
 
 
 
 
 
 
3 
 
I. INTRODUÇÃO 
Em estatística, as populações são representadas por amostras, este fato se 
justifica, entre outros motivos, pela rapidez, viabilidade logística e baixo custo 
financeiro na coleta de dados biológicos (Figura 01). 
 
Figura 01. Esquema ilustrando uma população de formigas, uma amostra representativa dessa 
população e o método de coleta dos dados. 
 Um estudo utilizando amostras deve sempre apresentar conclusões 
generalizadas para as populações de onde as amostras foram extraídas, esta extrapolação 
é feita por meio do uso de testes estatísticos. Dessa forma, assumimos que os testes 
estatísticos testam hipóteses a respeito de uma população (Figura 02) 
Hipótese: explicações potenciais que podem
representar nossas observações do mundo externo
Previsões
(Se... Então....) Direciona a coleta de dados
 
Figura 02. Esquema ilustrando os passos as etapas do método cientifico por trás da estatística. 
 
II. A ESCOLHA DO TESTE ESTATÍSTICO 
A escolha de um teste estatístico requer alguns conhecimentos básicos sobre a 
distribuição e o tipo de dados: 
A. Quanto ao tipo de variável: 
 As variáveis podem ser classificadas quanto a dependência, e quanto ao tipo de 
informação de ela carrega. Assim as variáveis podem ser dependentes ou independentes, 
como o próprio nome sugere existe uma relação de domínio entre elas, ou seja, a 
variável dependente possui observações que dependem de como a variável 
4 
 
independente é manipulada. Dessa forma, dizemos que a variável dependente (é quem está 
sofrendo a ação) e a variável independente (é quem causa). 
 As variáveis podem ser classificadas também como variáveis qualitativas (categóricas) 
ou variáveis quantitativas (contínuas) como apresentadas a seguir ( Figura 03). 
 
Figura 03. Esquema conceitual dos tipos de variáveis e exemplos de cada um delas. 
É fundamental sabermos classificar as variáveis quanto a dependência/independência e 
quanto ao tipo de informação de cada uma carregar se é quantitativa ou categórica. 
B. Quanto a distribuição dos dados: 
 Os dados podem ser de distribuição normal ou anormal, a distribuição dos dados 
é baseada em dois parâmetros, a média e o desvio padrão; 
1. Média (Mean): 
A média da amostra, chamada também por média aritmética é calculada por 
meio do somatório de todos os elementos da amostra (∑x) dividido pelo número de total 
de elementos que a amostra possui (n). 
 
2. Desvio padrão (SD, do inglês Standard Deviation): 
O desvio padrão é uma medida complementar a média da amostra, o SD mede a 
dispersão dos dados em torno da média. Mas para calcular o desvio padrão, é preciso, 
primeiro, calcular a variância. Mas o que é variância? 
Quando a média é usada como medida de tendência central, podemos calcular a 
diferença (desvio) de cada observação em relação à média como segue: 
Desvio = Observação – Média 
5 
 
 
 Tabela 01. Número de observações de uma amostra, cuja média é igual a seis (6), e posterior 
cálculo baseado na diferença da observação para a média. Exemplo retirada de Vieira, S (1942). 
Após calcularmos cada diferença entre valor observado e média, precisamos 
reunir todos os valores de desvio em um único valor, que irá representar essa medida de 
variabilidade. Porém os valores de desvios possuem sinais alternados, isso é, alguns são 
positivos (+) outros negativos (-) (observe na Tabela 01), essa soma resulta em valor 
igual a zero. 
Vejamos na prática: 
-3+0+(-1)+1+(-3) = 0 
A solução foi encontrar uma maneira de ignorar os sinais, antes de somar os 
valores, por isso os valores precisam ser elevados ao quadrado. Dessa forma a soma 
ficou denominada de soma dos quadrados dos desvios. 
 
Tabela 02. Número de observações de uma amostra, diferença para média e posterior cálculo 
dos quadrados médios. Exemplo retirada de Vieira, S (1942). 
Assim a fórmula da variância levou o exponencial (s²), e o desvio padrão é do 
que a raiz quadrada de s² (variância). Se os desvios forem pequenos, os dados estão 
aglomerados em torno da média; logo, a variabilidade é pequena. Em contrapartida, se 
6 
 
os desvios forem grandes significa que as observações estão dispersas em torno da 
média e a variabilidade é grande. 
III. Distribuição Normal 
A partir dos cálculos de média e desvio padrão é possível determinar se a 
amostra possui distribuição normal ou anormal. O ponto máximo da curva normal 
encontra-se na média, se a é distribuição Normal a curva é simétrica de ambos os 
lados, e o desvio padrão determina o quanto a curva é achatada ou larga (Figura 04). 
 
Figura 04. Gráfico representando a distribuição normal dos dados, característico pela assimetria 
dos lados da curva. 
 Lembre-se: A estatística do teste é baseada em hipóteses, os resultados 
fornecem um valor de probabilidade (p-valor) que permite ao pesquisador decidir, com 
base nos dados, se existe evidência para aceitar ou recusar uma hipótese. O nível de 
significância aceitável de probabilidade do teste é p<0,05. 
 
Figura 03. Esquema retirado de “De Marco Jr et al.(2009). Material de Apoio para 
Análises Estatísticas - Departamento de Biologia Geral, Universidade Federal de 
Goiás.” 
 
IV. ESTRUTURA DOS TESTES ESTATÍSTICOS 
1- Teoria ecológica a ser testada: Qual teoria ecológica devo embasar minha hipótese? 
2- Hipótese Nula (H0): não há efeito, ou seja, são iguais as variações dos dados entre os 
tratamentos. 
7 
 
3- Estatística do teste (testes paramétricos ou não paramétricos): Qual teste será 
utilizado? 
4- Resultado esperado de H0 for verdadeiro 
5- A hipótese alternativa é que as médias das amostras são diferentes. 
6- Probabilidade de H0 for verdadeiro 
 
Testes paramétricos : Necessário atender parâmetrosde 
Distribuição Normal (a) e Homogeneidade das variâncias (b) 
a) Distribuição Normal 
 
b) Homogeneidade dos dados 
 
 
Antes dos testes estatísticos propriamente ditos vamos falar um pouquinho sobre 
uma das ferramentas disponíveis para a sua execução 
V. O software R 
O software R foi desenvolvido a partir de um projeto colaborativo com muitos 
pesquisadores de diversas áreas de atuação e diferentes regiões geográficas. O programa 
é gratuito e possui uma interface simplificada que funciona por meio de linhas de 
comando. Estas linhas de comando ficam armazenadas em uma vasta biblioteca, cuja 
organização dos arquivos é compacta o que torna o programa leve à memória do 
computador. Por isso, a execução de determinadas tarefas no R é dependente de pacotes 
contendo dados e funções com múltiplos argumentos. Desta forma, o usuário é capaz de 
realizar inúmeras analises estatísticas e construções gráficas, entre outras funções. O R 
possui versões compatíveis com diferentes sistemas operacionais como Windows, 
8 
 
MacOS e Linux. O programa é amplamente utilizado e atualmente possui inúmeros 
tutoriais e scripts (conjunto de linhas de comandos), facilmente acessíveis na internet, 
que facilitam o uso do programa por qualquer pessoa que não possui conhecimentos na 
linguagem de programação. 
Passos básicos para Importar e ler planilhas no R 
Importante: Utilize “Ctrl+R” para executar os comandos 
Passo 1: Para realizar um teste no R deve-se escolher inicialmente o diretório ou arquivo do 
computador onde se encontram os dados que serão utilizados no teste estatístico, para isso 
utilize os comandos “setwd(choose.dir())” abaixo. Em “dir()” selecione a pasta com os dados. 
 setwd(choose.dir()) 
dir() 
 
Passo 2: O programa R não inclui na sua instalação todos os pacotes que são necessários para 
realizar os testes estatísticos, dessa forma devemos instalar os pacotes necessários. Para isso use 
o comando “install.packages(“pacote_necessário”)”, como visto abaixo. 
Obs: atenção a instalação de cada pacote é realizada uma única vez!!! 
install.packages("vegan") 
install.packages("car") 
Passo 3: Para que o pacote seja utilizado pelo programa não basta instalá-lo, deve-se carregar 
(“chamar o pacote”) o mesmo com o comando “library(pacote_necessário)” todas as vezes que 
abrir o R. 
library(vegan) 
library(car) 
Passo 4: Para o teste é necessário importar os dados para leitura pelo R, através do comando 
“read.table(“nome_da_planilha..formato”, indicar se existe cabeçalho h=T)”. No exemplo 
abaixo chamamos as planilhas de “dados”. Para conferir se os dados foram realmente 
“chamados” aperte Ctrl+R em “dados”. Veja abaixo. 
Note que estamos trabalhando com dados em formato .TXT (texto sem tabulação), por isso é 
necessário que o arquivo esteja salvo neste formato. 
dados<-read.table("cupim.txt", h=T) 
9 
 
# Para conferir os dados “chamamos o objeto”, basta repetir o nome que esta antes da seta (<-) 
dados 
 
Nesta planilha temos o número de espécies que é a variável dependente (quem está sofrendo a 
ação) e tempo de impacto como variável independente (quem causa), a variável independente é 
a categórica e possui dois níveis de organização (2 anos e 6 anos). Assim o teste usado será o 
teste T independente, porque temos uma variável quantitativa e uma categórica de dois níveis e 
os dados não possuem dependência (Tabela 03) 
 
Tabela 03. Tipo de variáveis para determinação da escolha do teste estatístico. 
Passo 5: A função “attach” serve para reconhecer os nomes presentes nas colunas da planilha e 
o comando “colnames” irá mostrar quais são estes nomes. 
attach(dados) # Reconhece as colunas da planilha 
colnames(dados) # Lê o nome das variáveis contidas nas colunas 
10 
 
 
Este passos 5 são básicos do R, para recenhecimento e leitra dos arquivos, iremos executar 
em todas as analises 
VI. ##Teste T de Student – Grupos independentes## 
Objetivo do teste: compara médias de duas amostras independentes e mostra se a 
diferença é significativa. Dica: cada amostra oferece apenas uma observação para 
compor a análise. 
Testar hipóteses 
Médias iguais  𝐻0: 𝜇1 = 𝜇2 (aceitar H0 quando p ≥ 0.05) 
Médias diferentes  𝐻1: 𝜇1 ≠ 𝜇2 (aceitar H1 quando p ≤ 0.05) 
Repetimos os passos 1 ao 5, 
Lembre de conferir o nome da planilha que deseja trabalhar, este nome precisa ser 
alterado no passo 4 
dados<-read.table("cupim.txt", h=T) 
 Passo 6: Neste passo iremos testar os pressupostos do teste para saber se as variâncias são 
homogêneas ou heterogêneas (homocedasticidade), testaremos através do teste Levene. 
Esse é um teste de hipótese onde 𝐻0: 𝜇1 = 𝜇2 e 𝐻1: 𝜇1 ≠ 𝜇2, ou seja, quando p ≥ 0.05 aceita-se 
Ho e as variâncias serão homogêneas, ou seja, não existe diferença e a curva de distribuição é 
simétrica (como na Figura 04). 
leveneTest(especie~Tempo_impacto) 
 
ATENÇÃO: a interpretação deste passo é determinante à escolha do teste 
Baseada no valor e interpretação do teste de Levene escolha qual será o passo seguinte – se o 7ª 
para variâncias homogêneas (p- levene >0,05) ou o 7B para variâncias heterogêneas (p-levene 
< 0,05). 
Passo 7A: Quando as variâncias forem iguais proceder o seguinte comando abaixo. Observe 
que “especie” é a amostra dependente e “Tempo_impacto” é a amostra independente; “paired = 
F ou FALSE” indica que as amostra não são pareadas; “var.equal=T ou TRUE” indica que as 
11 
 
variâncias são homogêneas. O próximo comando “boxplot (especie~Tempo_impacto)” irá 
plotar um gráfico boxplot mostrando média, quartis e possíveis outliers 
t.test(especie~Tempo_impacto, paired = F, var.equal = T,data=dados) 
 
boxplot (especie~Tempo_impacto) 
2anos 6anos
5
1
0
1
5
2
0
 
Lembrando que variáveis heterogêneas podem ser “ajustadas” com a transformação dos dados 
por meio de logaritmo (vamos usar o log10). Existem outras transformações como arco seno, 
raiz quadrada etc., esses dependem do formato dos dados, cada um exige um tipo de 
transformação. O log. é usado para diminuir a dispersão entre os valores, causado na maioria 
dos casos por outliers – isso é, valores discrepantes, muito diferentes dos demais valores que 
possuem dispersão em torno do valor da média. 
# logrend<-log10(especie) # só uso quando teste levene der heterogêneo p<0,05 
#logplan<-as.matrix(cbind(Tempo_impacto,logrend)) #substitui espécie por log de espécie 
Se mesmo usando o Log10 o levene der heterogêneo vou para o passo 7B. 
Passo 7B: Quando as variâncias forem DIFERENTES/HETEROGÊNEAS proceder o 
seguinte comando abaixo. Lembre-se que isso ocorrerá quando o p do teste LEVENE for menor 
que 0.05 (p ≤ 0.05). 
12 
 
t.test(especie~Tempo_impacto, paired = F, var.equal = F,data=dados) 
boxplot(especie~Tempo_impacto,ylab="especie") 
 
VII. ##Teste T de Student - Grupos dependentes## 
Objetivo do teste: compara médias de duas amostras pareadas e mostra se a diferença é 
significativa. Dica: cada amostra oferece mais de uma observação para compor a 
análise, ex: antes e depois. 
 
Script R Teste T para amostras dependentes: Repetir passos 1 ao 4 (escolher diretório e 
inserir planilha de dados). #não é necessário reinstalar os pacotes 
setwd(choose.dir()) 
dir() 
dados<-read.table("dieta.txt", h=T) 
 
Passo 5: Realizar o teste t pareado. Observe que o comando “colnames” retoma os nomes de 
linha ou coluna de um objeto semelhante a matriz. 
attach(dados) 
colnames(dados) 
t.test(antes, depois, paired = TRUE) 
 
 
VIII. ##Análise de variância: ANOVA One way## 
Objetivo do teste: Testa a diferença entre uma única variável quantitativa dependente 
contra dois, três ou mais grupos formados pelas categorias de uma única variável 
categórica independente. Dica: Haverá mais de duas categorias para comparação. 
 
13 
 
Script R Teste ANOVA One Way: Repetir passo 1 ao 5 do teste T para amostras 
independentes. 
Passo 6 também sera repetido, testaremosas variâncias com o teste Levene. 
Lembrando de ter cuidado na interpretação dos resultados, se levene for heterogêneo podemos 
tentar transformar os dados com log10. 
ATENÇÃO: SE MESMO APÓS O USO DO LOG10, O VALOR DO TESTE FOR P<0,05, 
NÃO DEVE PROSSEGUIR NO TESTE DE ANOVA. DEVO ESCOLHER UM TESTE QUE 
NÃO EXIJA DADOS COM PARAMETROS, VER KRUSKAL WALLIS. 
Passo 7: Após executar os passos 1 ao 6 do teste anterior devemos originar os resíduos do teste 
ANOVA, com o objetivo de avaliar o pressuposto de normalidade dos resíduos de maneira 
visual. Para isso execute o comando abaixo. Lembrando que RIQUEZA é a observação 
dependente e TRECHO a amostra independente 
anova<-aov(RIQUEZA~TRECHO)# Verificando o pressuposto de normalidade dos resíduos 
qqnorm(anova$residuals) #Plota os resíduos em um gráfico 
qqline(anova$residuals, lty=2) #Acrescenta a linha no gráfico 
-2 -1 0 1 2
-6
-4
-2
0
2
4
6
Normal Q-Q Plot
Theoretical Quantiles
S
a
m
p
le
 Q
u
a
n
ti
le
s
 
Passo 8: Para avaliar através de um teste de hipótese a normalidade dos resíduos realizaremos o 
teste Shapiro-Wilk (comando “shapiro.test”). Com o valor de p acima de 0.05 teremos uma 
distribuição semelhante a normal (p≥0.05) 
 shapiro.test(anova$residuals) 
14 
 
 
ATENÇÃO: A INTERPRETAÇÃO DA NORMALIDADE TAMBEM É FUNDAMENTAL, 
CASO OS DADOS APRESENTEM DISTRIBUIÇÃO EM S em torno da linha ou um valor de 
Shakiro p<0,05. 
 
Passo 9: Para visualizar os resultados da ANOVA execute o comando abaixo. 
summary(anova) 
 
Passo 10: o teste ANOVA mostra se existem diferenças entre as categorias, mas não em quais 
existem. Neste caso para saber onde existem essas diferenças realizamos um teste posterior, 
como o teste de Tukey HSD. Para realizar o teste execute o comando abaixo 
TukeyHSD(anova) 
 
Passo 11: Para gerar gráfico de erro ou confiança é necessário instalar o pacote “sciplot”. Onde: 
xlab indica 
install.packages("sciplot")#Caso o pacote ainda não esteija instalado no computador 
library(sciplot) 
lineplot.CI(TRECHO,RIQUEZA, type="p", las=1, xlab="Trecho do rio", ylab="Riqueza 
de espécies")#lembrar sempre de mudar os títulos de x e de y no gráfico 
[U1] Comentário: Mostrar o diff das 
diferenças medias, e qdo tiver dados 
log, fazer no excel 
15 
 
10
15
20
25
30
35
Trecho do rio
R
iq
u
e
z
a
 d
e
 e
s
p
é
c
ie
s
FOZ INTER NASC
 
Passo 12: Para calcular o tamanho do efeito será necessário fazer a comparação das médias de 
cada tratamento 
tapply(RIQUEZA,TRECHO,mean) #média 
 
ATENÇÃO AOS DADOS TRANSFORMADOS POR LOG. NÃO DEVO FAZER 
OS CALCULOS DE TAMANHO DE EFEITO COM DADOS TRANSFORMADOS, 
CASO TENHA SIDO NECESSARIO USAR LOG. NO LEVENE, CALCULE OS 
VALORES DAS DIFERENÇAS ENTRE AS MEDIAS DOS GRUPOS PELO EXCEL. 
IX. ##Kruskal Wallis## 
Teste não paramétrico – o que isso significa? Que o kruskal Wallis é um teste que não 
segue os pressupostos de normalidade e homogeneidade das variâncias. 
Para rodar o teste de Kruskal Wallis preciso ter certeza que os dados atingiram os 
pressupostos de normalidade e/ou homogeneidade de variâncias. 
Vantagens: têm a vantagem de permitir estudar, quanto à significância, dados que são 
inerentemente classificados (escala nominal) ou se apresentam em postos (escala 
ordinal). 
Para isso preciso obrigatoriamente rodar os passos 1 ao 8 da anova 
 
Passo 9: Só após ter certeza pelo teste de Shapiro que os dados possuem distribuição anormal 
e/ou possuem variâncias heterogêneas testadas pelo teste de levene, posso seguir com o 
comando: 
kruskal.test(Abundancia ~ Fitofisionomia) 
 
 
16 
 
Testes não - paramétricos – Não é necessário atender 
parâmetros de Normalidade dos dados e Homocedasticidade das 
variâncias. Porém, possui menor precisão pois trabalha com 
“ranks” 
 
##Kruska Wallis## 
Objetivo do teste: teste não paramétrico utilizado na comparação de três ou mais amostras 
independentes. Dica: quando não for possível atender aos parâmetros de normalidade e 
homocedasticidade usa-se Kruskal – Wallis. 
Script R Teste Kruska Wallis: Repetir passo 1 ao 6 do teste ANOVA One Way. 
Passo 7: QPara efetuar o teste kruskal execute o 
kruskal.test(Abundancia ~ Fitofisionomia) 
-1 0 1
-1
0
0
0
-5
0
0
0
5
0
0
Normal Q-Q Plot
Theoretical Quantiles
S
a
m
p
le
 Q
u
a
n
ti
le
s
 
 
 
 
17 
 
X. ##Qui-Quadrado## 
Objetivo do teste: O objetivo do teste é verificar se a frequência absoluta observada de 
uma variável é significativamente diferente da distribuição de frequência 
absoluta esperada. Este é aplicado quando se quer conhecer a dependência entre duas 
variáveis, através de uma tabela de dupla entrada ou também conhecida como tabela de 
contingência. 
Pressupostos do teste: 
*Exclusivamente para variáveis nominais e ordinais; 
*Observações independentes; 
*Não se aplica se 20% das observações forem inferiores a 5 
*Não pode haver frequências inferiores a 1; 
Script R Teste Qui-Quadrado: 
Passo 1: Seleção do diretório e entrada de dados 
setwd(choose.dir()) #direciona para seleção de pasta 
dir()#serva para ver as pastas do diretório 
 
dados<-read.table("aprovacao.txt",h=T) #entrada de dados “aprovação.txt” 
dados #ver dados 
Observação para entrada dos dados 
 Aprovação 
 sim não 
Exercicio 
sim 18 4 
não 3 15 
 
 Aprovação Exercicio 
1 sim sim 
2 sim sim 
3 sim sim 
4 sim sim 
5 sim sim 
6 sim sim 
7 sim sim 
18 
 
8 sim sim 
9 sim sim 
10 sim sim 
11 sim sim 
12 sim sim 
13 sim sim 
14 sim sim 
15 sim sim 
16 sim sim 
17 sim sim 
18 sim sim 
19 nao sim 
20 nao sim 
21 nao sim 
22 nao sim 
23 sim nao 
24 sim nao 
25 sim nao 
26 nao nao 
27 nao nao 
28 nao nao 
29 nao nao 
30 nao nao 
31 nao nao 
32 nao nao 
33 nao nao 
34 nao nao 
35 nao nao 
36 nao nao 
37 nao nao 
19 
 
38 nao nao 
39 nao nao 
40 nao nao 
 
colnames (dados) #para ver o nome das colunas 
> colnames(dados) 
[1] "Aprovação" "Exercicio" 
attach(dados) #juntar dados 
summary(dados)#resumo dos dados 
 
Passo 2: Transformar os dados em uma tabela de contingência, ou seja uma tabela de 
frequência. 
tabela<-table(Aprovação,Exercicio) 
tabela 
 
Passo 3: #fazendo o teste de qui-quadrado 
resultado.qui<-chisq.test(tabela) 
 
# Testando o pressuposto 
resultado.qui$expected #25% da células com números menores que 5. 
 
#Resultado do teste, probabilidade do acaso 
resultado.qui 
 
 
Tamanho do efeito 
20 
 
Como a hipótese do teste “Aprovação” é que quanto mais o aluno resolve os 
exercicios maior será a possibilidade de aprovação na disciplina, para calcular o 
tamanho do efeito basta somar a coluna sim de “Aprovação” e realizar uma regra de três 
simples, observe abaixo: 
Tabela de contingência 
 Aprovação 
 sim não 
Exercicio 
sim 18 4 
não 3 15 
 
18+3 = 21 
21 – 100% 
18 - x% 
x= (18*100)/21 = 85,71% 
 Dessa forma, 85,71% dos alunos que resolveram os exercício foram aprovados 
na disciplina. 
 
 
 
XI. ##Correlação de Pearson (r) – Paramétrico ## 
Objetivo do teste: O objetivo do teste correlação de Pearson (r) é medir o grau da 
correlação linear entre duas variáveis quantitativas. 
 SEM CAUSALIDADE entre as variáveis, neste teste é possível apenas avaliar 
se existe uma correlação (relação) entre elas e identificar se esta relação é 
positiva ou negativa. 
Como interpretar o r 
r= 1: Significa uma correlação perfeita positiva entre as duas variáveis. 
r= -1: Significa uma correlação negativa perfeita entre as duas variáveis - Isto é, se uma 
aumenta, a outra sempre diminui. 
r= 0: Significa que as duas variáveis não dependem linearmente uma da outra. No 
entanto, pode existir outra dependência que seja "não linear". Assim, o resultado r=0 
deve ser investigado por outros meios. 
 
Script R Teste Correlação de Pearson: 
 
21 
 
Passo 1: Seleção do diretório e entrada de dados 
setwd(choose.dir()) 
dir() 
dados<-read.table("pH.txt", h=T) 
dadosattach(dados) 
colnames (dados) 
summary(dados) 
 
Passo 2: Testar pressupostos de normalidade por Teste Shapiro 
lapply(dados,shapiro.test) 
#se todas as variáveis são normais (p > 0.05) rodar Correlação de Pearson 
 
 
Passo 3: Testando a significância da correlação: 
cor.test(alumínio,pH, method="pearson") 
 
22 
 
 
Passo 4: Gerar matriz de correlação 
#cor(dados)#matriz de correlação entre as variaveis 
 
Passo 5: Gerar Gráfico da correlação 
plot(alumínio~pH, las=1, pch=16) 
4 5 6 7
3.0
3.5
4.0
4.5
5.0
5.5
6.0
pH
a
lu
m
ín
io
 
XII. ##Correlação de Spearman (r) – Não Paramétrico ## 
Objetivo do teste: Quando não atender o parâmetro de normalidade do teste anterior de 
Correlação de Pearson, deve-se realizar o teste não paramétrico de Correlação de 
Spearman. 
##Somente quando os dados não atenderem o parâmetro da 
normalidade 
Script R Teste Correlação de Spearman: 
Realizar o teste a partir do Passo 2 do teste anterior 
#cor.test(alumínio~pH, method="spearman") 
23 
 
 
Passo 3: Gerar Gráfico da correlação 
plot(alumínio~pH, las=1, pch=16) 
 
XIII. ##Regressão Linear## 
 Quando tem CAUSA x EFEITO entre as variáveis. A variável x sempre será quem 
causa e a variável y sempre quem sofre o efeito de x. 
Objetivo do teste: A analise de regressão linear objetiva realizar uma avaliação da 
existência de relação entre uma variável dependente com uma ou mais variáveis 
independentes. 
Pressupostos 
#Variáveis aleatórias 
#Variâncias Heterogêneas 
#Distribuição normal dos dados 
Script R Teste Regressão Linear: 
Repetir Passo 1 da análise anterior de correlação 
Passo 2: ajuste do modelo de Regressão linear 
resultado<-lm(Riqueza~Dossel) #cuidado com a ordem de entrada das 
#variáveis = explicativa (x), resposta (y); 
 
Passo 3: Testar a normalidade dos residuos - Shapiro.test 
shapiro.test (resultado$residual) 
 
Passo 4: Homocedasticidade – calcula o resíduo – resíduo é a distancia de cada ponto 
para a reta – quanto mais distante o ponta da reta = menor a explicação da amostra ( 
amostra = ponto). A soma desses resíduos é interpretada como a variação dos dados não 
explicada pelos dados testados. 
Sempre será testado com a variável X - variável dependente 
24 
 
plot(Dossel,resultado$residual) 
abline (h=0) 
5 10 15 20
-6
-4
-2
0
2
4
6
Dossel
re
s
u
lt
a
d
o
$
re
s
id
u
a
l
 
Observa-se que os resíduos distribuem-se uniformemente no gráfico 
 
Passo 5: Resultados do teste 
summary(resultado) 
25 
 
 
Passo 6: Gráfico 
plot(Riqueza~Dossel,xlab="Abertura de Dossel",ylab="Riqueza de espécies",pch=19) 
abline(resultado) 
resultado 
 
26 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
27 
 
Tamanho do efeito da Regressão 
Valor de Alfa (α) e Beta (β) vezes o valor que pretendo estimar 
Y=α+β *(X) 
β = -3.819 α = 1.411 
 
Os valores de alfa e beta estão no comando “resultado” 
 
 
 O x (variável independente) neste caso é o tamanho da estimativa que quero 
avaliar; estimamos x igual 10. Significa que em uma abertura de 10 metros de dossel eu 
tenho 
No excel faça o cálculo: Y=α+β *(X), onde x=10 
 
Y= 10.291 
E para x= 20 temos: Y=α+β *(X), onde x =20 
 
Y=24.401 
 
 
Agora podemos fazer o tamanho de efeito por diferença 
24.401-10.291=14.11 
 
 
 
 
 
AnaLu
Lápis
AnaLu
Lápis
28 
 
 
Outro exemplo de tamanho do efeito no exercicio “concentração”

Continue navegando