ANÁLISE E INTERPRETAÇÃO DE DADOS II

•

UEMG

Aldrey Raine

09/08/2022

Prévia do material em texto

UNIVERSIDADE FEDERAL DO PARÁ
INSTITUTO DE CIÊNCIAS BIOLÓGICAS

APOSTILA ANÁLISE E
INTERPRETAÇÃO DE DADOS II

Professores:
Dr. Leandro Juen
Dr. Leandro Brasil
Dr. Tiago Begot

Monitoras:
Ms. Ana Luiza-Andrade
Ms. Naiara Torres

SUMÁRIO
II. INTRODUÇÃO ..................................................................................................... 3
III. A ESCOLHA DO TESTE ESTATÍSTICO ......................................................... 3
A. Quanto ao tipo de variável: ................................................................................. 3
B. Quanto a distribuição dos dados: ........................................................................ 4
1. Média (Mean): ................................................................................................ 4
2. Desvio padrão (SD, do inglês Standard Deviation): ........................................ 4
IV. Distribuição Normal ........................................................................................... 6
V. ESTRUTURA DOS TESTES ESTATÍSTICOS ......................................................... 6
VI. O software R ...................................................................................................... 7
VII. ##Teste T de Student – Grupos independentes## .............................................. 10
VIII. ##Teste T de Student - Grupos dependentes##.................................................. 12
IX. ##Análise de variância: ANOVA One way## ................................................... 12
X. ##Kruskal Wallis## ............................................................................................. 15
XI. ##Qui-Quadrado## ........................................................................................... 17
XII. ##Correlação de Pearson (r) – Paramétrico ## .................................................. 20
XIII. ##Correlação de Spearman (r) – Não Paramétrico ## ........................................ 22
XIV. ##Regressão Linear## ...................................................................................... 23

I. INTRODUÇÃO
Em estatística, as populações são representadas por amostras, este fato se
justifica, entre outros motivos, pela rapidez, viabilidade logística e baixo custo
financeiro na coleta de dados biológicos (Figura 01).

Figura 01. Esquema ilustrando uma população de formigas, uma amostra representativa dessa
população e o método de coleta dos dados.
Um estudo utilizando amostras deve sempre apresentar conclusões
generalizadas para as populações de onde as amostras foram extraídas, esta extrapolação
é feita por meio do uso de testes estatísticos. Dessa forma, assumimos que os testes
estatísticos testam hipóteses a respeito de uma população (Figura 02)
Hipótese: explicações potenciais que podem
representar nossas observações do mundo externo
Previsões
(Se... Então....) Direciona a coleta de dados

Figura 02. Esquema ilustrando os passos as etapas do método cientifico por trás da estatística.

II. A ESCOLHA DO TESTE ESTATÍSTICO
A escolha de um teste estatístico requer alguns conhecimentos básicos sobre a
distribuição e o tipo de dados:
A. Quanto ao tipo de variável:
As variáveis podem ser classificadas quanto a dependência, e quanto ao tipo de
informação de ela carrega. Assim as variáveis podem ser dependentes ou independentes,
como o próprio nome sugere existe uma relação de domínio entre elas, ou seja, a
variável dependente possui observações que dependem de como a variável
4

independente é manipulada. Dessa forma, dizemos que a variável dependente (é quem está
sofrendo a ação) e a variável independente (é quem causa).
As variáveis podem ser classificadas também como variáveis qualitativas (categóricas)
ou variáveis quantitativas (contínuas) como apresentadas a seguir ( Figura 03).

Figura 03. Esquema conceitual dos tipos de variáveis e exemplos de cada um delas.
É fundamental sabermos classificar as variáveis quanto a dependência/independência e
quanto ao tipo de informação de cada uma carregar se é quantitativa ou categórica.
B. Quanto a distribuição dos dados:
Os dados podem ser de distribuição normal ou anormal, a distribuição dos dados
é baseada em dois parâmetros, a média e o desvio padrão;
1. Média (Mean):
A média da amostra, chamada também por média aritmética é calculada por
meio do somatório de todos os elementos da amostra (∑x) dividido pelo número de total
de elementos que a amostra possui (n).

2. Desvio padrão (SD, do inglês Standard Deviation):
O desvio padrão é uma medida complementar a média da amostra, o SD mede a
dispersão dos dados em torno da média. Mas para calcular o desvio padrão, é preciso,
primeiro, calcular a variância. Mas o que é variância?
Quando a média é usada como medida de tendência central, podemos calcular a
diferença (desvio) de cada observação em relação à média como segue:
Desvio = Observação – Média
5

Tabela 01. Número de observações de uma amostra, cuja média é igual a seis (6), e posterior
cálculo baseado na diferença da observação para a média. Exemplo retirada de Vieira, S (1942).
Após calcularmos cada diferença entre valor observado e média, precisamos
reunir todos os valores de desvio em um único valor, que irá representar essa medida de
variabilidade. Porém os valores de desvios possuem sinais alternados, isso é, alguns são
positivos (+) outros negativos (-) (observe na Tabela 01), essa soma resulta em valor
igual a zero.
Vejamos na prática:
-3+0+(-1)+1+(-3) = 0
A solução foi encontrar uma maneira de ignorar os sinais, antes de somar os
valores, por isso os valores precisam ser elevados ao quadrado. Dessa forma a soma
ficou denominada de soma dos quadrados dos desvios.

Tabela 02. Número de observações de uma amostra, diferença para média e posterior cálculo
dos quadrados médios. Exemplo retirada de Vieira, S (1942).
Assim a fórmula da variância levou o exponencial (s²), e o desvio padrão é do
que a raiz quadrada de s² (variância). Se os desvios forem pequenos, os dados estão
aglomerados em torno da média; logo, a variabilidade é pequena. Em contrapartida, se
6

os desvios forem grandes significa que as observações estão dispersas em torno da
média e a variabilidade é grande.
III. Distribuição Normal
A partir dos cálculos de média e desvio padrão é possível determinar se a
amostra possui distribuição normal ou anormal. O ponto máximo da curva normal
encontra-se na média, se a é distribuição Normal a curva é simétrica de ambos os
lados, e o desvio padrão determina o quanto a curva é achatada ou larga (Figura 04).

Figura 04. Gráfico representando a distribuição normal dos dados, característico pela assimetria
dos lados da curva.
Lembre-se: A estatística do teste é baseada em hipóteses, os resultados
fornecem um valor de probabilidade (p-valor) que permite ao pesquisador decidir, com
base nos dados, se existe evidência para aceitar ou recusar uma hipótese. O nível de
significância aceitável de probabilidade do teste é p<0,05.

Figura 03. Esquema retirado de “De Marco Jr et al.(2009). Material de Apoio para
Análises Estatísticas - Departamento de Biologia Geral, Universidade Federal de
Goiás.”

IV. ESTRUTURA DOS TESTES ESTATÍSTICOS
1- Teoria ecológica a ser testada: Qual teoria ecológica devo embasar minha hipótese?
2- Hipótese Nula (H0): não há efeito, ou seja, são iguais as variações dos dados entre os
tratamentos.
7

3- Estatística do teste (testes paramétricos ou não paramétricos): Qual teste será
utilizado?
4- Resultado esperado de H0 for verdadeiro
5- A hipótese alternativa é que as médias das amostras são diferentes.
6- Probabilidade de H0 for verdadeiro

Testes paramétricos : Necessário atender parâmetrosde
Distribuição Normal (a) e Homogeneidade das variâncias (b)
a) Distribuição Normal

b) Homogeneidade dos dados

Antes dos testes estatísticos propriamente ditos vamos falar um pouquinho sobre
uma das ferramentas disponíveis para a sua execução
V. O software R
O software R foi desenvolvido a partir de um projeto colaborativo com muitos
pesquisadores de diversas áreas de atuação e diferentes regiões geográficas. O programa
é gratuito e possui uma interface simplificada que funciona por meio de linhas de
comando. Estas linhas de comando ficam armazenadas em uma vasta biblioteca, cuja
organização dos arquivos é compacta o que torna o programa leve à memória do
computador. Por isso, a execução de determinadas tarefas no R é dependente de pacotes
contendo dados e funções com múltiplos argumentos. Desta forma, o usuário é capaz de
realizar inúmeras analises estatísticas e construções gráficas, entre outras funções. O R
possui versões compatíveis com diferentes sistemas operacionais como Windows,
8

MacOS e Linux. O programa é amplamente utilizado e atualmente possui inúmeros
tutoriais e scripts (conjunto de linhas de comandos), facilmente acessíveis na internet,
que facilitam o uso do programa por qualquer pessoa que não possui conhecimentos na
linguagem de programação.
Passos básicos para Importar e ler planilhas no R
Importante: Utilize “Ctrl+R” para executar os comandos
Passo 1: Para realizar um teste no R deve-se escolher inicialmente o diretório ou arquivo do
computador onde se encontram os dados que serão utilizados no teste estatístico, para isso
utilize os comandos “setwd(choose.dir())” abaixo. Em “dir()” selecione a pasta com os dados.
setwd(choose.dir())
dir()

Passo 2: O programa R não inclui na sua instalação todos os pacotes que são necessários para
realizar os testes estatísticos, dessa forma devemos instalar os pacotes necessários. Para isso use
o comando “install.packages(“pacote_necessário”)”, como visto abaixo.
Obs: atenção a instalação de cada pacote é realizada uma única vez!!!
install.packages("vegan")
install.packages("car")
Passo 3: Para que o pacote seja utilizado pelo programa não basta instalá-lo, deve-se carregar
(“chamar o pacote”) o mesmo com o comando “library(pacote_necessário)” todas as vezes que
abrir o R.
library(vegan)
library(car)
Passo 4: Para o teste é necessário importar os dados para leitura pelo R, através do comando
“read.table(“nome_da_planilha..formato”, indicar se existe cabeçalho h=T)”. No exemplo
abaixo chamamos as planilhas de “dados”. Para conferir se os dados foram realmente
“chamados” aperte Ctrl+R em “dados”. Veja abaixo.
Note que estamos trabalhando com dados em formato .TXT (texto sem tabulação), por isso é
necessário que o arquivo esteja salvo neste formato.
dados<-read.table("cupim.txt", h=T)
9

# Para conferir os dados “chamamos o objeto”, basta repetir o nome que esta antes da seta (<-)
dados

Nesta planilha temos o número de espécies que é a variável dependente (quem está sofrendo a
ação) e tempo de impacto como variável independente (quem causa), a variável independente é
a categórica e possui dois níveis de organização (2 anos e 6 anos). Assim o teste usado será o
teste T independente, porque temos uma variável quantitativa e uma categórica de dois níveis e
os dados não possuem dependência (Tabela 03)

Tabela 03. Tipo de variáveis para determinação da escolha do teste estatístico.
Passo 5: A função “attach” serve para reconhecer os nomes presentes nas colunas da planilha e
o comando “colnames” irá mostrar quais são estes nomes.
attach(dados) # Reconhece as colunas da planilha
colnames(dados) # Lê o nome das variáveis contidas nas colunas
10

Este passos 5 são básicos do R, para recenhecimento e leitra dos arquivos, iremos executar
em todas as analises
VI. ##Teste T de Student – Grupos independentes##
Objetivo do teste: compara médias de duas amostras independentes e mostra se a
diferença é significativa. Dica: cada amostra oferece apenas uma observação para
compor a análise.
Testar hipóteses
Médias iguais  𝐻0: 𝜇1 = 𝜇2 (aceitar H0 quando p ≥ 0.05)
Médias diferentes  𝐻1: 𝜇1 ≠ 𝜇2 (aceitar H1 quando p ≤ 0.05)
Repetimos os passos 1 ao 5,
Lembre de conferir o nome da planilha que deseja trabalhar, este nome precisa ser
alterado no passo 4
dados<-read.table("cupim.txt", h=T)
Passo 6: Neste passo iremos testar os pressupostos do teste para saber se as variâncias são
homogêneas ou heterogêneas (homocedasticidade), testaremos através do teste Levene.
Esse é um teste de hipótese onde 𝐻0: 𝜇1 = 𝜇2 e 𝐻1: 𝜇1 ≠ 𝜇2, ou seja, quando p ≥ 0.05 aceita-se
Ho e as variâncias serão homogêneas, ou seja, não existe diferença e a curva de distribuição é
simétrica (como na Figura 04).
leveneTest(especie~Tempo_impacto)

ATENÇÃO: a interpretação deste passo é determinante à escolha do teste
Baseada no valor e interpretação do teste de Levene escolha qual será o passo seguinte – se o 7ª
para variâncias homogêneas (p- levene >0,05) ou o 7B para variâncias heterogêneas (p-levene
< 0,05).
Passo 7A: Quando as variâncias forem iguais proceder o seguinte comando abaixo. Observe
que “especie” é a amostra dependente e “Tempo_impacto” é a amostra independente; “paired =
F ou FALSE” indica que as amostra não são pareadas; “var.equal=T ou TRUE” indica que as
11

variâncias são homogêneas. O próximo comando “boxplot (especie~Tempo_impacto)” irá
plotar um gráfico boxplot mostrando média, quartis e possíveis outliers
t.test(especie~Tempo_impacto, paired = F, var.equal = T,data=dados)

boxplot (especie~Tempo_impacto)
2anos 6anos
5
1
0
1
5
2
0

Lembrando que variáveis heterogêneas podem ser “ajustadas” com a transformação dos dados
por meio de logaritmo (vamos usar o log10). Existem outras transformações como arco seno,
raiz quadrada etc., esses dependem do formato dos dados, cada um exige um tipo de
transformação. O log. é usado para diminuir a dispersão entre os valores, causado na maioria
dos casos por outliers – isso é, valores discrepantes, muito diferentes dos demais valores que
possuem dispersão em torno do valor da média.
# logrend<-log10(especie) # só uso quando teste levene der heterogêneo p<0,05
#logplan<-as.matrix(cbind(Tempo_impacto,logrend)) #substitui espécie por log de espécie
Se mesmo usando o Log10 o levene der heterogêneo vou para o passo 7B.
Passo 7B: Quando as variâncias forem DIFERENTES/HETEROGÊNEAS proceder o
seguinte comando abaixo. Lembre-se que isso ocorrerá quando o p do teste LEVENE for menor
que 0.05 (p ≤ 0.05).
12

t.test(especie~Tempo_impacto, paired = F, var.equal = F,data=dados)
boxplot(especie~Tempo_impacto,ylab="especie")

VII. ##Teste T de Student - Grupos dependentes##
Objetivo do teste: compara médias de duas amostras pareadas e mostra se a diferença é
significativa. Dica: cada amostra oferece mais de uma observação para compor a
análise, ex: antes e depois.

Script R Teste T para amostras dependentes: Repetir passos 1 ao 4 (escolher diretório e
inserir planilha de dados). #não é necessário reinstalar os pacotes
setwd(choose.dir())
dir()
dados<-read.table("dieta.txt", h=T)

Passo 5: Realizar o teste t pareado. Observe que o comando “colnames” retoma os nomes de
linha ou coluna de um objeto semelhante a matriz.
attach(dados)
colnames(dados)
t.test(antes, depois, paired = TRUE)

VIII. ##Análise de variância: ANOVA One way##
Objetivo do teste: Testa a diferença entre uma única variável quantitativa dependente
contra dois, três ou mais grupos formados pelas categorias de uma única variável
categórica independente. Dica: Haverá mais de duas categorias para comparação.

Script R Teste ANOVA One Way: Repetir passo 1 ao 5 do teste T para amostras
independentes.
Passo 6 também sera repetido, testaremosas variâncias com o teste Levene.
Lembrando de ter cuidado na interpretação dos resultados, se levene for heterogêneo podemos
tentar transformar os dados com log10.
ATENÇÃO: SE MESMO APÓS O USO DO LOG10, O VALOR DO TESTE FOR P<0,05,
NÃO DEVE PROSSEGUIR NO TESTE DE ANOVA. DEVO ESCOLHER UM TESTE QUE
NÃO EXIJA DADOS COM PARAMETROS, VER KRUSKAL WALLIS.
Passo 7: Após executar os passos 1 ao 6 do teste anterior devemos originar os resíduos do teste
ANOVA, com o objetivo de avaliar o pressuposto de normalidade dos resíduos de maneira
visual. Para isso execute o comando abaixo. Lembrando que RIQUEZA é a observação
dependente e TRECHO a amostra independente
anova<-aov(RIQUEZA~TRECHO)# Verificando o pressuposto de normalidade dos resíduos
qqnorm(anova$residuals) #Plota os resíduos em um gráfico
qqline(anova$residuals, lty=2) #Acrescenta a linha no gráfico
-2 -1 0 1 2
-6
-4
-2
0
2
4
6
Normal Q-Q Plot
Theoretical Quantiles
S
a
m
p
le
Q
u
a
n
ti
le
s

Passo 8: Para avaliar através de um teste de hipótese a normalidade dos resíduos realizaremos o
teste Shapiro-Wilk (comando “shapiro.test”). Com o valor de p acima de 0.05 teremos uma
distribuição semelhante a normal (p≥0.05)
shapiro.test(anova$residuals)
14

ATENÇÃO: A INTERPRETAÇÃO DA NORMALIDADE TAMBEM É FUNDAMENTAL,
CASO OS DADOS APRESENTEM DISTRIBUIÇÃO EM S em torno da linha ou um valor de
Shakiro p<0,05.

Passo 9: Para visualizar os resultados da ANOVA execute o comando abaixo.
summary(anova)

Passo 10: o teste ANOVA mostra se existem diferenças entre as categorias, mas não em quais
existem. Neste caso para saber onde existem essas diferenças realizamos um teste posterior,
como o teste de Tukey HSD. Para realizar o teste execute o comando abaixo
TukeyHSD(anova)

Passo 11: Para gerar gráfico de erro ou confiança é necessário instalar o pacote “sciplot”. Onde:
xlab indica
install.packages("sciplot")#Caso o pacote ainda não esteija instalado no computador
library(sciplot)
lineplot.CI(TRECHO,RIQUEZA, type="p", las=1, xlab="Trecho do rio", ylab="Riqueza
de espécies")#lembrar sempre de mudar os títulos de x e de y no gráfico
[U1] Comentário: Mostrar o diff das
diferenças medias, e qdo tiver dados
log, fazer no excel
15

10
15
20
25
30
35
Trecho do rio
R
iq
u
e
z
a
d
e
e
s
p
é
c
ie
s
FOZ INTER NASC

Passo 12: Para calcular o tamanho do efeito será necessário fazer a comparação das médias de
cada tratamento
tapply(RIQUEZA,TRECHO,mean) #média

ATENÇÃO AOS DADOS TRANSFORMADOS POR LOG. NÃO DEVO FAZER
OS CALCULOS DE TAMANHO DE EFEITO COM DADOS TRANSFORMADOS,
CASO TENHA SIDO NECESSARIO USAR LOG. NO LEVENE, CALCULE OS
VALORES DAS DIFERENÇAS ENTRE AS MEDIAS DOS GRUPOS PELO EXCEL.
IX. ##Kruskal Wallis##
Teste não paramétrico – o que isso significa? Que o kruskal Wallis é um teste que não
segue os pressupostos de normalidade e homogeneidade das variâncias.
Para rodar o teste de Kruskal Wallis preciso ter certeza que os dados atingiram os
pressupostos de normalidade e/ou homogeneidade de variâncias.
Vantagens: têm a vantagem de permitir estudar, quanto à significância, dados que são
inerentemente classificados (escala nominal) ou se apresentam em postos (escala
ordinal).
Para isso preciso obrigatoriamente rodar os passos 1 ao 8 da anova

Passo 9: Só após ter certeza pelo teste de Shapiro que os dados possuem distribuição anormal
e/ou possuem variâncias heterogêneas testadas pelo teste de levene, posso seguir com o
comando:
kruskal.test(Abundancia ~ Fitofisionomia)

Testes não - paramétricos – Não é necessário atender
parâmetros de Normalidade dos dados e Homocedasticidade das
variâncias. Porém, possui menor precisão pois trabalha com
“ranks”

##Kruska Wallis##
Objetivo do teste: teste não paramétrico utilizado na comparação de três ou mais amostras
independentes. Dica: quando não for possível atender aos parâmetros de normalidade e
homocedasticidade usa-se Kruskal – Wallis.
Script R Teste Kruska Wallis: Repetir passo 1 ao 6 do teste ANOVA One Way.
Passo 7: QPara efetuar o teste kruskal execute o
kruskal.test(Abundancia ~ Fitofisionomia)
-1 0 1
-1
0
0
0
-5
0
0
0
5
0
0
Normal Q-Q Plot
Theoretical Quantiles
S
a
m
p
le
Q
u
a
n
ti
le
s

X. ##Qui-Quadrado##
Objetivo do teste: O objetivo do teste é verificar se a frequência absoluta observada de
uma variável é significativamente diferente da distribuição de frequência
absoluta esperada. Este é aplicado quando se quer conhecer a dependência entre duas
variáveis, através de uma tabela de dupla entrada ou também conhecida como tabela de
contingência.
Pressupostos do teste:
*Exclusivamente para variáveis nominais e ordinais;
*Observações independentes;
*Não se aplica se 20% das observações forem inferiores a 5
*Não pode haver frequências inferiores a 1;
Script R Teste Qui-Quadrado:
Passo 1: Seleção do diretório e entrada de dados
setwd(choose.dir()) #direciona para seleção de pasta
dir()#serva para ver as pastas do diretório

dados<-read.table("aprovacao.txt",h=T) #entrada de dados “aprovação.txt”
dados #ver dados
Observação para entrada dos dados
Aprovação
sim não
Exercicio
sim 18 4
não 3 15

Aprovação Exercicio
1 sim sim
2 sim sim
3 sim sim
4 sim sim
5 sim sim
6 sim sim
7 sim sim
18

8 sim sim
9 sim sim
10 sim sim
11 sim sim
12 sim sim
13 sim sim
14 sim sim
15 sim sim
16 sim sim
17 sim sim
18 sim sim
19 nao sim
20 nao sim
21 nao sim
22 nao sim
23 sim nao
24 sim nao
25 sim nao
26 nao nao
27 nao nao
28 nao nao
29 nao nao
30 nao nao
31 nao nao
32 nao nao
33 nao nao
34 nao nao
35 nao nao
36 nao nao
37 nao nao
19

38 nao nao
39 nao nao
40 nao nao

colnames (dados) #para ver o nome das colunas
> colnames(dados)
[1] "Aprovação" "Exercicio"
attach(dados) #juntar dados
summary(dados)#resumo dos dados

Passo 2: Transformar os dados em uma tabela de contingência, ou seja uma tabela de
frequência.
tabela<-table(Aprovação,Exercicio)
tabela

Passo 3: #fazendo o teste de qui-quadrado
resultado.qui<-chisq.test(tabela)

# Testando o pressuposto
resultado.qui$expected #25% da células com números menores que 5.

#Resultado do teste, probabilidade do acaso
resultado.qui

Tamanho do efeito
20

Como a hipótese do teste “Aprovação” é que quanto mais o aluno resolve os
exercicios maior será a possibilidade de aprovação na disciplina, para calcular o
tamanho do efeito basta somar a coluna sim de “Aprovação” e realizar uma regra de três
simples, observe abaixo:
Tabela de contingência
Aprovação
sim não
Exercicio
sim 18 4
não 3 15

18+3 = 21
21 – 100%
18 - x%
x= (18*100)/21 = 85,71%
Dessa forma, 85,71% dos alunos que resolveram os exercício foram aprovados
na disciplina.

XI. ##Correlação de Pearson (r) – Paramétrico ##
Objetivo do teste: O objetivo do teste correlação de Pearson (r) é medir o grau da
correlação linear entre duas variáveis quantitativas.
 SEM CAUSALIDADE entre as variáveis, neste teste é possível apenas avaliar
se existe uma correlação (relação) entre elas e identificar se esta relação é
positiva ou negativa.
Como interpretar o r
r= 1: Significa uma correlação perfeita positiva entre as duas variáveis.
r= -1: Significa uma correlação negativa perfeita entre as duas variáveis - Isto é, se uma
aumenta, a outra sempre diminui.
r= 0: Significa que as duas variáveis não dependem linearmente uma da outra. No
entanto, pode existir outra dependência que seja "não linear". Assim, o resultado r=0
deve ser investigado por outros meios.

Script R Teste Correlação de Pearson:

Passo 1: Seleção do diretório e entrada de dados
setwd(choose.dir())
dir()
dados<-read.table("pH.txt", h=T)
dadosattach(dados)
colnames (dados)
summary(dados)

Passo 2: Testar pressupostos de normalidade por Teste Shapiro
lapply(dados,shapiro.test)
#se todas as variáveis são normais (p > 0.05) rodar Correlação de Pearson

Passo 3: Testando a significância da correlação:
cor.test(alumínio,pH, method="pearson")

Passo 4: Gerar matriz de correlação
#cor(dados)#matriz de correlação entre as variaveis

Passo 5: Gerar Gráfico da correlação
plot(alumínio~pH, las=1, pch=16)
4 5 6 7
3.0
3.5
4.0
4.5
5.0
5.5
6.0
pH
a
lu
m
ín
io

XII. ##Correlação de Spearman (r) – Não Paramétrico ##
Objetivo do teste: Quando não atender o parâmetro de normalidade do teste anterior de
Correlação de Pearson, deve-se realizar o teste não paramétrico de Correlação de
Spearman.
##Somente quando os dados não atenderem o parâmetro da
normalidade
Script R Teste Correlação de Spearman:
Realizar o teste a partir do Passo 2 do teste anterior
#cor.test(alumínio~pH, method="spearman")
23

Passo 3: Gerar Gráfico da correlação
plot(alumínio~pH, las=1, pch=16)

XIII. ##Regressão Linear##
 Quando tem CAUSA x EFEITO entre as variáveis. A variável x sempre será quem
causa e a variável y sempre quem sofre o efeito de x.
Objetivo do teste: A analise de regressão linear objetiva realizar uma avaliação da
existência de relação entre uma variável dependente com uma ou mais variáveis
independentes.
Pressupostos
#Variáveis aleatórias
#Variâncias Heterogêneas
#Distribuição normal dos dados
Script R Teste Regressão Linear:
Repetir Passo 1 da análise anterior de correlação
Passo 2: ajuste do modelo de Regressão linear
resultado<-lm(Riqueza~Dossel) #cuidado com a ordem de entrada das
#variáveis = explicativa (x), resposta (y);

Passo 3: Testar a normalidade dos residuos - Shapiro.test
shapiro.test (resultado$residual)

Passo 4: Homocedasticidade – calcula o resíduo – resíduo é a distancia de cada ponto
para a reta – quanto mais distante o ponta da reta = menor a explicação da amostra (
amostra = ponto). A soma desses resíduos é interpretada como a variação dos dados não
explicada pelos dados testados.
Sempre será testado com a variável X - variável dependente
24

plot(Dossel,resultado$residual)
abline (h=0)
5 10 15 20
-6
-4
-2
0
2
4
6
Dossel
re
s
u
lt
a
d
o
$
re
s
id
u
a
l

Observa-se que os resíduos distribuem-se uniformemente no gráfico

Passo 5: Resultados do teste
summary(resultado)
25

Passo 6: Gráfico
plot(Riqueza~Dossel,xlab="Abertura de Dossel",ylab="Riqueza de espécies",pch=19)
abline(resultado)
resultado

Tamanho do efeito da Regressão
Valor de Alfa (α) e Beta (β) vezes o valor que pretendo estimar
Y=α+β *(X)
β = -3.819 α = 1.411

Os valores de alfa e beta estão no comando “resultado”

 O x (variável independente) neste caso é o tamanho da estimativa que quero
avaliar; estimamos x igual 10. Significa que em uma abertura de 10 metros de dossel eu
tenho
No excel faça o cálculo: Y=α+β *(X), onde x=10

Y= 10.291
E para x= 20 temos: Y=α+β *(X), onde x =20

Y=24.401

Agora podemos fazer o tamanho de efeito por diferença
24.401-10.291=14.11

AnaLu
Lápis
AnaLu
Lápis
28

Outro exemplo de tamanho do efeito no exercicio “concentração”

ANÁLISE E INTERPRETAÇÃO DE DADOS II

UEMG

Continue navegando