Buscar

O Segredo De Fisher

Prévia do material em texto

O Segredo de Fisher
Carlos Roberto Fonseca
Departamento de Ecologia
Universidade Federal do Rio Grande do Norte
(fonseca.crsd@gmail.com)
No Mundo Tudo Varia
A Ciência visa compreender esta variação
através de Modelos, mas eles sempre vão ser um retrato imperfeito da realidade.
Pior modelo
 Menor conhecimento
 Maior ignorância
Melhor modelo
 Maior conhecimento
 Menor ignorância
O Aprimoramento dos Modelos Científicos
A Estatística é uma kit de ferramenta que ajuda a Ciência a compreender a variação do Mundo, 
separando o conhecimento da ignorância
Ronald Aylmer Fisher
(1890 – 1962)
Nasceu em Londres (Inglaterra)
Graduação em Matemática
 (University of Cambridge)
Biólogo Evolutivo
Geneticista
Estatístico
Pai da estatística moderna
MODELOS LINEARES GENERALIZADOS (GLM)
Variância, Teste F
Soma dos Quadrados, Média dos Quadrados
Desvio Padrão (DP), Erro Padrão (EP)
Teste t
Análise de Variância simples (ANOVA)
ANOVA Fatorial (dois ou mais fatores)
ANOVA Fatorial em bloco
Regressão Linear
Regressão Não Linear
Análise de Covariância (ANCOVA)
Regressão Múltipla
ANOVA de medidas repetidas
ANOVA split plot
ANOVA Latin square
GLM Complexos
O segredo de Fisher
A ESTATÍSTICA É UM JOGO DE SOMA DE VARETAS
+
	Fonte de Variação	Soma dos Quadrados	Graus de liberdade	Média dos Quadrados	F
	Modelo				
	Erro				
	Total				
Tabela de Análise de Variância
F = Variância do Modelo / Variância do Erro 
Razão entre Conhecimento e Ignorância
F
Como descrever quantitativamente a variação?
POPULAÇÃO A
POPULAÇÃO B
3
5
1
Se todos os dados são iguais, não há variação!
Metros
Altura
4
2
3
5
1
Se todos os dados são iguais, não há variação!
Metros
Altura
4
2
Y = 3
 Média 
Geral
Todos os dados são iguais a Média Geral!
Estimando a Média Geral = (3 + 3 + 3 + 3 + 3 + 3 + 3 + 3 + 3 + 3 + 3 + 3) / 12 = 3
Estimando a Média Geral = Σx / N
3
5
1
Se há pouca diferença, há pouca variação
Y = 3
Metros
Altura
4
2
3
5
1
Se há muita diferença, há muita variação
Y = 3
Metros
Altura
4
2
3
5
1
Y = 3
Metros
Altura
A sacação de Fisher!!!
(As varetas representam a variação!)
4
2
Vareta
3
5
1
Y = 3
Metros
Altura
A sacação de Fisher!!!
4
2
A vareta é medida pela diferença entre o dado e a média
DADO - MÉDIA
3
5
1
Y = 3
Metros
Altura
4
2
O somatório das Varetas
é uma boa medida da variação total dos dados
3
5
1
Y = 3
Metros
Altura
4
2
O somatório das Varetas
1
1
1
2
-1
0
0
0
0
-2
-1
-1
Σ(Dado – Média geral) = ZERO!
Como se livrar do sinal negativo?
Opção 1. Usando o módulo dos números!
	Exemplo: |-2|= 2
Opção 2. Elevando o número ao quadrado
 	Exemplo: -22 = 4
Regra matemática: “Todo número elevado ao quadrado é positivo”
3
5
1
Y = 3
Metros
Altura
4
2
1
1
1
2
-1
0
0
0
0
-2
-1
-1
Elevando-se ao quadrado
o tamanho das varetas
2
3
0
Elevando-se as distâncias ao quadrado
4
Metros2
1
4
4
1
0
1
1
1
1
1
0
0
0
2
3
0
4
Metros2
1
4
4
1
0
1
1
1
1
1
0
0
0
Soma dos Quadrados Total (SQtotal)
Σ(Dado – Média geral)2 = 14
1
1
1
4
4
1
1
1
SQtotal
A Soma dos Quadrados Total é uma medida da variação total dos dados
1
1
1
4
4
1
1
1
Mas, a Soma dos Quadrados aumenta 
com o número de dados da amostra (N)
2
2
2
2
SQ = 6
2
2
2
2
SQ = 12
N = 3
2
N = 6
Qual é o tamanho da varetinha média?
Média dos Quadrados (MQtotal)
MQ = SQ / N-1
Graus de Liberdade
A Média dos Quadrados Total é chamada de 
VARIÂNCIA
Representa o quanto os dados estão afastados, em media, da média geral
Variância
MQ = 14 / (12-1)
MQ = 1,27 m2
MQ = 1,27 m2
Contudo, a Variância é medida na 
unidade da medida ao quadrado
(neste caso, m2)
Como voltarmos à unidade original?
Tirando a raiz quadrada!
O Desvio Padrão (DP)
 representa o afastamento médio 
dos dados em relação a media geral,
 mas na unidade original dos dados (m)
A raiz quadrada da variância é o que chamamos DESVIO PADRÃO (DP)
Desvio Padrão = Variância
Desvio Padrão (DP)
DP = 1,27 m2
DP = 1,13 m
A Distribuição Normal
+DP
-DP
O desvio padrão (DP) representa o quanto os dados estão afastados, em média, da média
Compreendendo
 os graus de liberdade
Graus de Liberdade
g.l. = N – k
Número de parâmetros
estimados a partir 
dos dados
Número 
de dados
Se eu te digo que temos dois dados (N=2)
e te pedir para adivinhar que dados são estes, você consegue? 
Muito provavelmente não!
Porque eles tem a liberdade de ser qualquer coisa
E se eu te digo o primeiro número.
Você consegue adivinhar o último? 
Ainda não! 
Pois ele ainda tem a liberdade de ser qualquer coisa
7
Mas se eu te digo que a média é 5?
Você consegue adivinhar o último? 
Agora sim! 
Pois ao te dar a média, que foi estimada a partir dos dados, o último número perde a sua liberdade
7
Mas se eu te digo que a média é 5?
Você consegue adivinhar o último? 
7 + = 5
2
3
Ao dar a média 5, o segundo número é obrigatoriamente 3 (perdeu sua Liberdade)
Média dos Quadrados total (MQtotal)
MQ = SQ / N-1
Graus de Liberdade
Nós estimamos a Média Geral com todos os dados (média = Σx / N)
Ao fazer isto, um dos dados perdeu a sua liberdade.
Para asseguramos, matematicamente, que a estimativa da média e da variância sejam independentes...
Para a estimativa da média dos quadrados total (variância) nós só podemos utilizar N-1 dados.
Conclusão: Sempre o grau de liberdade total = N - 1
Partilhando a Variação Total 
entre o Modelo e o Erro
Partilhando a Variação Total
VARIAÇÃO TOTAL
 DA VARIÁVEL RESPOSTA (Y)
(SQtotal)
VARIAÇÃO EXPLICADA
 PELO MODELO
(SQmodelo)
VARIAÇÃO 
NÃO EXPLICADA
(SQerro)
Soma 
dos Quadrados
TOTAL
(SQtotal)
Soma 
dos Quadrados
MODELO
(SQmodelo)
Soma 
dos Quadrados
ERRO
(SQerro)
Partição da Variância
A variação total a ser compreendida
O quanto 
conseguimos explicar
(Conhecimento)
O quanto ainda não 
conseguimos explicar
(Ignorância)
	Fonte de Variação	Soma dos Quadrados	Graus de liberdade	Média dos Quadrados	F
	Modelo	SQm			
	Erro	SQe			
	Total	SQtotal			
Tabela de Análise de Variância
+
=
MODELOS ESTATÍSTICOS GLM
(tudo é a mesma coisa!)
As Três Regras de Ouro
VARIAÇÃO TOTAL = DADO ATÉ MÉDIA GERAL
(SQtotal)
ERRO = DADO ATÉ ESTIMADO
(SQerro)
MODELO = ESTIMADO ATÉ MÉDIA GERAL
(SQmodelo)
Análise de Variância
Y – Contínuo
X1 – Categórico
170
190
180
Homens
Mulheres
160
Testando como a altura das pessoas 
é definida pelo sexo
Sexo
Altura (m)
Modelo
Modelo
170
190
180
Homens
Mulheres
160
Sexo
Altura (m)
Soma dos Quadrados Total
(ANOVA)
SQtotal = ∑(Dado - Media Y)2
Y
170
190
180
Homens
Mulheres
160
Sexo
Altura (m)
Soma dos Quadrados do Erro
(ANOVA)
SQerro = Σ(Dado - Estimado)2
Y
Dado
Estimado
170
190
180
Homens
Mulheres
160
Sexo
Altura (m)
Soma dos Quadrados do Modelo
(ANOVA)
SQmodelo = Σ(Estimado – Média Y)2
Y
Regressão Linear
Y – Contínuo
X1 – Contínuo
100
200
150
Altura (cm)
0 20 40 60 80
Número de frutos
Testando como o número de frutos é determinado pela altura da planta
Modelo =
1 Reta inclinada
100
200
150
Altura (cm)
0 20 40 60 80
Soma dos Quadrados Total 
(Regressão linear)
Número de frutos
SQtotal = ∑(Dado - Media Y)2
Y
Altura (cm)
Número de frutos
100
200
150
0 20 40 60 80
Soma dos Quadrados do Erro
(Regressão linear)
SQerro = Σ(Dado - Estimado)2
Dado
Estimado
100
200
150
0 20 40 60 80
Altura (cm)
Número de frutos
Soma dos Quadrados do Modelo
(Regressão linear)
SQmodelo = Σ(Estimado – Média Y)2
Y
ANOVA FATORIAL
Y – Contínuo
X1 – Categórico
X2 – Categórico
Controle
Nutriente
Água
A + N
Modelo =
Média dos Grupos
Testandocomo o crescimento da planta é determinado por água e nutriente
Crescimento (cm)
Controle
Nutriente
Água
A + N
Y
Soma dos Quadrados Total
(Anova fatorial)
SQtotal = ∑(Dado - Media Y)2
Controle
Nutriente
Água
A + N
Soma dos Quadrados do Erro
(Anova fatorial)
SQerro = Σ(Dado - Estimado)2
Controle
Nutriente
Água
A + N
Y
Soma dos Quadrados do Modelo
(Anova fatorial)
SQmodelo = Σ(Estimado – Média Y)2
Análise de Covariância
Y – Contínuo
X1 – Contínuo
X2 – Categórico
Testando como tamanho do chifre é determinado pelo o sexo e a massa do corpo 
Massa do corpo (Kg)
Tamanho do chifre (cm)
MACHO
FÊMEA
Modelo =
2 Retas inclinadas
Soma dos Quadrados Total
(ANCOVA)
Massa do corpo (Kg)
Tamanho do chifre (cm)
y
SQtotal = ∑(Dado - Media Y)2
Massa do corpo (Kg)
Tamanho do chifre (cm)
MACHO
FÊMEA
Soma dos Quadrados do Erro
(ANCOVA)
SQerro = Σ(Dado - Estimado)2
Massa do corpo (Kg)
Tamanho do chifre (cm)
Soma dos Quadrados do Modelo
(ANCOVA)
y
SQmodelo = Σ(Estimado – Média Y)2
Regressão Múltipla
Y – Contínuo
X1 – Contínuo
X2 – Contínuo
Nitrogênio (x1)
Fósforo (x2)
Produtividade (y)
Testando como a produtividade é determinada pelo nitrogênio e pelo fósforo
Modelo = Plano inclinado
Soma dos Quadrados Total
Nitrogênio (x1)
Fósforo (x2)
Produtividade (y)
y
SQtotal = ∑(Dado - Media Y)2
(Regressão Múltipla)
Soma dos Quadrados do Erro
Nitrogênio (x1)
Fósforo (x2)
Produtividade (y)
SQerro = Σ(Dado - Estimado)2
(Regressão Múltipla)
Soma dos Quadrados do Modelo
Nitrogênio (x1)
Fósforo (x2)
Produtividade (y)
y
SQmodelo = Σ(Estimado – Média Y)2
(Regressão Múltipla)
As Três Regras de Ouro
VARIAÇÃO TOTAL = DADO ATÉ MÉDIA GERAL
(SQtotal)
ERRO = DADO ATÉ ESTIMADO
(SQerro)
MODELO = ESTIMADO ATÉ MÉDIA GERAL
(SQmodelo)
Compreendendo
 a Tabela de ANOVA
Número de Dados = 13
Número de Tratamentos = 3
Nosso Exemplo
Controle
Pouca Água
Muita Água
Altura (m)
	Fonte de Variação	Soma dos Quadrados	Graus de liberdade	Média dos Quadrados	F
	Modelo	SQm	GLm = T	MQm/GLm	MQm/MQe
	Erro	SQe	GLe =N-T-1	Mqe/GLe	
	Total	SQtotal	N-1		
Tabela de Análise de Variância
	Fonte de Variação	Soma dos Quadrados	Graus de liberdade	Média dos Quadrados	F
	Modelo	60	2	30	5
	Erro	60	10	6	
	Total	120	12		
Tabela de Análise de Variância
	Fonte de Variação	Soma dos Quadrados	Graus de liberdade	Média dos Quadrados	F
	Modelo	60	2	30	5
	Erro	60	10	6	
	Total	120	12		
Tabela de Análise de Variância
120 é o quanto varia a nossa variável resposta
(Variância total)
	Fonte de Variação	Soma dos Quadrados	Graus de liberdade	Média dos Quadrados	F
	Modelo	60	2	30	5
	Erro	60	10	6	
	Total	120	12		
Tabela de Análise de Variância
60 foi explicada pelo nosso modelo!
Conhecimento
	Fonte de Variação	Soma dos Quadrados	Graus de liberdade	Média dos Quadrados	F
	Modelo	60	2	30	5
	Erro	60	10	6	
	Total	120	12		
Tabela de Análise de Variância
60 NÃO foi explicado pelo nosso modelo!
Ignorância
	Fonte de Variação	Soma dos Quadrados	Graus de liberdade	Média dos Quadrados	F
	Modelo	60	2	30	5
	Erro	60	10	6	
	Total	120	12		
Tabela de Análise de Variância
+
=
	Fonte de Variação	Soma dos Quadrados	Graus de liberdade	Média dos Quadrados	F
	Modelo	60	2	30	5
	Erro	60	10	6	
	Total	120	12		
Quanto da variação total foi explicada pelo nosso modelo?
R2 = Coeficiente de determinação = 
R2 = SQmodelo / SQtotal = 
R2 = 60 / 120 = 0,5
Ou seja, 50% da variação total foi explicada pelo nosso modelo!
	Fonte de Variação	Soma dos Quadrados	Graus de liberdade	Média dos Quadrados	F
	Modelo	60	2	30	5
	Erro	60	10	6	
	Total	120	12		
Tabela de Análise de Variância
+
=
GLtotal = 13 dados -1 = 12
GLmodelo = 3 tratamentos - 1 = 2
GLerro = GLtotal – Glmodelo = 12 – 2 = 10 
	Fonte de Variação	Soma dos Quadrados	Graus de liberdade	Média dos Quadrados	F
	Modelo	60	2	30	5
	Erro	60	10	6	
	Total	120	12		
Tabela de Análise de Variância
÷
=
	Fonte de Variação	Soma dos Quadrados	Graus de liberdade	Média dos Quadrados	F
	Modelo	60	2	30	5
	Erro	60	10	6	
	Total	120	12		
Tabela de Análise de Variância
÷
=
	Fonte de Variação	Soma dos Quadrados	Graus de liberdade	Média dos Quadrados	F
	Modelo	60	2	30	5
	Erro	60	10	6	
	Total	120	12		
Tabela de Análise de Variância
Conhecimento
Ignorância
	Fonte de Variação	Soma dos Quadrados	Graus de liberdade	Média dos Quadrados	F
	Modelo	60	2	30	5
	Erro	60	10	6	
	Total	120	12		
Tabela de Análise de Variância
÷
=
Fórmula do F
F = Variância do Modelo
	 Variância do Erro
F = 30 = 5
	 6
Neste caso, nosso Conhecimento 
é cinco vezes maior do que nossa Ignorância
As Três Regras de Ouro
VARIAÇÃO TOTAL = DADO ATÉ MÉDIA GERAL
(SQtotal)
ERRO = DADO ATÉ ESTIMADO
(SQerro)
MODELO = ESTIMADO ATÉ MÉDIA GERAL
(SQmodelo)
Conclusão
Graças à Fisher, muitas estatísticas básicas que usamos têm exatamente a mesma lógica!
Não se deixem iludir pelas aparências, tudo é a mesma coisa!
A representação geométrica da estatística nos faz ter uma excelente compreensão dos métodos sem utilizar nenhuma fórmula!
Usem estatística e conheçam o Mundo!
O Segredo de Fisher
Carlos Roberto Fonseca
Departamento de Ecologia
Universidade Federal do Rio Grande do Norte
(fonseca.crsd@gmail.com)
Erro Padrão
Realidade
Média real
Variação real
X
Média 
estimada
Desvio Padrão (DP)
Desvio médio dos dados até a média
Observação
Erro Padrão (EP) – Medida de incerteza da média
Erro Padrão (EP)
O Erro Padrão (EP)
 representa a variação ao redor da média
(medida da incerteza da média)
Média = 100
DP = 20
EP
Erro Padrão = 
Desvio Padrão (DP) / Raiz(N)
Se N = 1, EP = DP
Ou seja, a incerteza da média 
é igual a incerteza dos dados.
Se N = infinito, EP = 0
Ou seja, não há incerteza
A média estimada é a média real!
O fato do Erro Padrão diminuir tão rapidamente com o tamanho amostral é uma boa notícia!!!
Nós não precisamos tantas amostras assim para ter uma estimativa razoável da média
Se Média = 100 e Desvio Padrão (DP) =20,
Com N=30
O Erro Padrão (EP) é apenas 3,65!!!
Quando representar uma média, 
sempre colocar o Erro Padrão
A
B
Erro Padrão
Construa três conjunto de dados aleatórios, 
de uma distribuição normal de:
a) Média 100 e DP = 30, N = 50
b) Média 100 e DP = 15, N = 50
c) Média 100 e DP = 5, N = 50
Faça um histograma para cada conjunto de dados
Faça um script para calcular a Soma dos dados, o N, a média, a Soma dos Quadrados, a Variância e o Desvio Padrão de cada um destes conjunto de dados. Calcule também o Erro Padrão, sabendo que EP = DP/sqrt(N).
Ao fazer o script, não adicione dados a mão (por exemplo, o N). Salve os resultados em um objeto para serem utilizados posteriormente.
Ex: soma <- sum(a)
 N <- length(a)
 Media <- soma/N
Compare os resultados do Desvio Padrão.
Mande o script pelo SIGAA
Exercício

Continue navegando