Prévia do material em texto
O Segredo de Fisher Carlos Roberto Fonseca Departamento de Ecologia Universidade Federal do Rio Grande do Norte (fonseca.crsd@gmail.com) No Mundo Tudo Varia A Ciência visa compreender esta variação através de Modelos, mas eles sempre vão ser um retrato imperfeito da realidade. Pior modelo Menor conhecimento Maior ignorância Melhor modelo Maior conhecimento Menor ignorância O Aprimoramento dos Modelos Científicos A Estatística é uma kit de ferramenta que ajuda a Ciência a compreender a variação do Mundo, separando o conhecimento da ignorância Ronald Aylmer Fisher (1890 – 1962) Nasceu em Londres (Inglaterra) Graduação em Matemática (University of Cambridge) Biólogo Evolutivo Geneticista Estatístico Pai da estatística moderna MODELOS LINEARES GENERALIZADOS (GLM) Variância, Teste F Soma dos Quadrados, Média dos Quadrados Desvio Padrão (DP), Erro Padrão (EP) Teste t Análise de Variância simples (ANOVA) ANOVA Fatorial (dois ou mais fatores) ANOVA Fatorial em bloco Regressão Linear Regressão Não Linear Análise de Covariância (ANCOVA) Regressão Múltipla ANOVA de medidas repetidas ANOVA split plot ANOVA Latin square GLM Complexos O segredo de Fisher A ESTATÍSTICA É UM JOGO DE SOMA DE VARETAS + Fonte de Variação Soma dos Quadrados Graus de liberdade Média dos Quadrados F Modelo Erro Total Tabela de Análise de Variância F = Variância do Modelo / Variância do Erro Razão entre Conhecimento e Ignorância F Como descrever quantitativamente a variação? POPULAÇÃO A POPULAÇÃO B 3 5 1 Se todos os dados são iguais, não há variação! Metros Altura 4 2 3 5 1 Se todos os dados são iguais, não há variação! Metros Altura 4 2 Y = 3 Média Geral Todos os dados são iguais a Média Geral! Estimando a Média Geral = (3 + 3 + 3 + 3 + 3 + 3 + 3 + 3 + 3 + 3 + 3 + 3) / 12 = 3 Estimando a Média Geral = Σx / N 3 5 1 Se há pouca diferença, há pouca variação Y = 3 Metros Altura 4 2 3 5 1 Se há muita diferença, há muita variação Y = 3 Metros Altura 4 2 3 5 1 Y = 3 Metros Altura A sacação de Fisher!!! (As varetas representam a variação!) 4 2 Vareta 3 5 1 Y = 3 Metros Altura A sacação de Fisher!!! 4 2 A vareta é medida pela diferença entre o dado e a média DADO - MÉDIA 3 5 1 Y = 3 Metros Altura 4 2 O somatório das Varetas é uma boa medida da variação total dos dados 3 5 1 Y = 3 Metros Altura 4 2 O somatório das Varetas 1 1 1 2 -1 0 0 0 0 -2 -1 -1 Σ(Dado – Média geral) = ZERO! Como se livrar do sinal negativo? Opção 1. Usando o módulo dos números! Exemplo: |-2|= 2 Opção 2. Elevando o número ao quadrado Exemplo: -22 = 4 Regra matemática: “Todo número elevado ao quadrado é positivo” 3 5 1 Y = 3 Metros Altura 4 2 1 1 1 2 -1 0 0 0 0 -2 -1 -1 Elevando-se ao quadrado o tamanho das varetas 2 3 0 Elevando-se as distâncias ao quadrado 4 Metros2 1 4 4 1 0 1 1 1 1 1 0 0 0 2 3 0 4 Metros2 1 4 4 1 0 1 1 1 1 1 0 0 0 Soma dos Quadrados Total (SQtotal) Σ(Dado – Média geral)2 = 14 1 1 1 4 4 1 1 1 SQtotal A Soma dos Quadrados Total é uma medida da variação total dos dados 1 1 1 4 4 1 1 1 Mas, a Soma dos Quadrados aumenta com o número de dados da amostra (N) 2 2 2 2 SQ = 6 2 2 2 2 SQ = 12 N = 3 2 N = 6 Qual é o tamanho da varetinha média? Média dos Quadrados (MQtotal) MQ = SQ / N-1 Graus de Liberdade A Média dos Quadrados Total é chamada de VARIÂNCIA Representa o quanto os dados estão afastados, em media, da média geral Variância MQ = 14 / (12-1) MQ = 1,27 m2 MQ = 1,27 m2 Contudo, a Variância é medida na unidade da medida ao quadrado (neste caso, m2) Como voltarmos à unidade original? Tirando a raiz quadrada! O Desvio Padrão (DP) representa o afastamento médio dos dados em relação a media geral, mas na unidade original dos dados (m) A raiz quadrada da variância é o que chamamos DESVIO PADRÃO (DP) Desvio Padrão = Variância Desvio Padrão (DP) DP = 1,27 m2 DP = 1,13 m A Distribuição Normal +DP -DP O desvio padrão (DP) representa o quanto os dados estão afastados, em média, da média Compreendendo os graus de liberdade Graus de Liberdade g.l. = N – k Número de parâmetros estimados a partir dos dados Número de dados Se eu te digo que temos dois dados (N=2) e te pedir para adivinhar que dados são estes, você consegue? Muito provavelmente não! Porque eles tem a liberdade de ser qualquer coisa E se eu te digo o primeiro número. Você consegue adivinhar o último? Ainda não! Pois ele ainda tem a liberdade de ser qualquer coisa 7 Mas se eu te digo que a média é 5? Você consegue adivinhar o último? Agora sim! Pois ao te dar a média, que foi estimada a partir dos dados, o último número perde a sua liberdade 7 Mas se eu te digo que a média é 5? Você consegue adivinhar o último? 7 + = 5 2 3 Ao dar a média 5, o segundo número é obrigatoriamente 3 (perdeu sua Liberdade) Média dos Quadrados total (MQtotal) MQ = SQ / N-1 Graus de Liberdade Nós estimamos a Média Geral com todos os dados (média = Σx / N) Ao fazer isto, um dos dados perdeu a sua liberdade. Para asseguramos, matematicamente, que a estimativa da média e da variância sejam independentes... Para a estimativa da média dos quadrados total (variância) nós só podemos utilizar N-1 dados. Conclusão: Sempre o grau de liberdade total = N - 1 Partilhando a Variação Total entre o Modelo e o Erro Partilhando a Variação Total VARIAÇÃO TOTAL DA VARIÁVEL RESPOSTA (Y) (SQtotal) VARIAÇÃO EXPLICADA PELO MODELO (SQmodelo) VARIAÇÃO NÃO EXPLICADA (SQerro) Soma dos Quadrados TOTAL (SQtotal) Soma dos Quadrados MODELO (SQmodelo) Soma dos Quadrados ERRO (SQerro) Partição da Variância A variação total a ser compreendida O quanto conseguimos explicar (Conhecimento) O quanto ainda não conseguimos explicar (Ignorância) Fonte de Variação Soma dos Quadrados Graus de liberdade Média dos Quadrados F Modelo SQm Erro SQe Total SQtotal Tabela de Análise de Variância + = MODELOS ESTATÍSTICOS GLM (tudo é a mesma coisa!) As Três Regras de Ouro VARIAÇÃO TOTAL = DADO ATÉ MÉDIA GERAL (SQtotal) ERRO = DADO ATÉ ESTIMADO (SQerro) MODELO = ESTIMADO ATÉ MÉDIA GERAL (SQmodelo) Análise de Variância Y – Contínuo X1 – Categórico 170 190 180 Homens Mulheres 160 Testando como a altura das pessoas é definida pelo sexo Sexo Altura (m) Modelo Modelo 170 190 180 Homens Mulheres 160 Sexo Altura (m) Soma dos Quadrados Total (ANOVA) SQtotal = ∑(Dado - Media Y)2 Y 170 190 180 Homens Mulheres 160 Sexo Altura (m) Soma dos Quadrados do Erro (ANOVA) SQerro = Σ(Dado - Estimado)2 Y Dado Estimado 170 190 180 Homens Mulheres 160 Sexo Altura (m) Soma dos Quadrados do Modelo (ANOVA) SQmodelo = Σ(Estimado – Média Y)2 Y Regressão Linear Y – Contínuo X1 – Contínuo 100 200 150 Altura (cm) 0 20 40 60 80 Número de frutos Testando como o número de frutos é determinado pela altura da planta Modelo = 1 Reta inclinada 100 200 150 Altura (cm) 0 20 40 60 80 Soma dos Quadrados Total (Regressão linear) Número de frutos SQtotal = ∑(Dado - Media Y)2 Y Altura (cm) Número de frutos 100 200 150 0 20 40 60 80 Soma dos Quadrados do Erro (Regressão linear) SQerro = Σ(Dado - Estimado)2 Dado Estimado 100 200 150 0 20 40 60 80 Altura (cm) Número de frutos Soma dos Quadrados do Modelo (Regressão linear) SQmodelo = Σ(Estimado – Média Y)2 Y ANOVA FATORIAL Y – Contínuo X1 – Categórico X2 – Categórico Controle Nutriente Água A + N Modelo = Média dos Grupos Testandocomo o crescimento da planta é determinado por água e nutriente Crescimento (cm) Controle Nutriente Água A + N Y Soma dos Quadrados Total (Anova fatorial) SQtotal = ∑(Dado - Media Y)2 Controle Nutriente Água A + N Soma dos Quadrados do Erro (Anova fatorial) SQerro = Σ(Dado - Estimado)2 Controle Nutriente Água A + N Y Soma dos Quadrados do Modelo (Anova fatorial) SQmodelo = Σ(Estimado – Média Y)2 Análise de Covariância Y – Contínuo X1 – Contínuo X2 – Categórico Testando como tamanho do chifre é determinado pelo o sexo e a massa do corpo Massa do corpo (Kg) Tamanho do chifre (cm) MACHO FÊMEA Modelo = 2 Retas inclinadas Soma dos Quadrados Total (ANCOVA) Massa do corpo (Kg) Tamanho do chifre (cm) y SQtotal = ∑(Dado - Media Y)2 Massa do corpo (Kg) Tamanho do chifre (cm) MACHO FÊMEA Soma dos Quadrados do Erro (ANCOVA) SQerro = Σ(Dado - Estimado)2 Massa do corpo (Kg) Tamanho do chifre (cm) Soma dos Quadrados do Modelo (ANCOVA) y SQmodelo = Σ(Estimado – Média Y)2 Regressão Múltipla Y – Contínuo X1 – Contínuo X2 – Contínuo Nitrogênio (x1) Fósforo (x2) Produtividade (y) Testando como a produtividade é determinada pelo nitrogênio e pelo fósforo Modelo = Plano inclinado Soma dos Quadrados Total Nitrogênio (x1) Fósforo (x2) Produtividade (y) y SQtotal = ∑(Dado - Media Y)2 (Regressão Múltipla) Soma dos Quadrados do Erro Nitrogênio (x1) Fósforo (x2) Produtividade (y) SQerro = Σ(Dado - Estimado)2 (Regressão Múltipla) Soma dos Quadrados do Modelo Nitrogênio (x1) Fósforo (x2) Produtividade (y) y SQmodelo = Σ(Estimado – Média Y)2 (Regressão Múltipla) As Três Regras de Ouro VARIAÇÃO TOTAL = DADO ATÉ MÉDIA GERAL (SQtotal) ERRO = DADO ATÉ ESTIMADO (SQerro) MODELO = ESTIMADO ATÉ MÉDIA GERAL (SQmodelo) Compreendendo a Tabela de ANOVA Número de Dados = 13 Número de Tratamentos = 3 Nosso Exemplo Controle Pouca Água Muita Água Altura (m) Fonte de Variação Soma dos Quadrados Graus de liberdade Média dos Quadrados F Modelo SQm GLm = T MQm/GLm MQm/MQe Erro SQe GLe =N-T-1 Mqe/GLe Total SQtotal N-1 Tabela de Análise de Variância Fonte de Variação Soma dos Quadrados Graus de liberdade Média dos Quadrados F Modelo 60 2 30 5 Erro 60 10 6 Total 120 12 Tabela de Análise de Variância Fonte de Variação Soma dos Quadrados Graus de liberdade Média dos Quadrados F Modelo 60 2 30 5 Erro 60 10 6 Total 120 12 Tabela de Análise de Variância 120 é o quanto varia a nossa variável resposta (Variância total) Fonte de Variação Soma dos Quadrados Graus de liberdade Média dos Quadrados F Modelo 60 2 30 5 Erro 60 10 6 Total 120 12 Tabela de Análise de Variância 60 foi explicada pelo nosso modelo! Conhecimento Fonte de Variação Soma dos Quadrados Graus de liberdade Média dos Quadrados F Modelo 60 2 30 5 Erro 60 10 6 Total 120 12 Tabela de Análise de Variância 60 NÃO foi explicado pelo nosso modelo! Ignorância Fonte de Variação Soma dos Quadrados Graus de liberdade Média dos Quadrados F Modelo 60 2 30 5 Erro 60 10 6 Total 120 12 Tabela de Análise de Variância + = Fonte de Variação Soma dos Quadrados Graus de liberdade Média dos Quadrados F Modelo 60 2 30 5 Erro 60 10 6 Total 120 12 Quanto da variação total foi explicada pelo nosso modelo? R2 = Coeficiente de determinação = R2 = SQmodelo / SQtotal = R2 = 60 / 120 = 0,5 Ou seja, 50% da variação total foi explicada pelo nosso modelo! Fonte de Variação Soma dos Quadrados Graus de liberdade Média dos Quadrados F Modelo 60 2 30 5 Erro 60 10 6 Total 120 12 Tabela de Análise de Variância + = GLtotal = 13 dados -1 = 12 GLmodelo = 3 tratamentos - 1 = 2 GLerro = GLtotal – Glmodelo = 12 – 2 = 10 Fonte de Variação Soma dos Quadrados Graus de liberdade Média dos Quadrados F Modelo 60 2 30 5 Erro 60 10 6 Total 120 12 Tabela de Análise de Variância ÷ = Fonte de Variação Soma dos Quadrados Graus de liberdade Média dos Quadrados F Modelo 60 2 30 5 Erro 60 10 6 Total 120 12 Tabela de Análise de Variância ÷ = Fonte de Variação Soma dos Quadrados Graus de liberdade Média dos Quadrados F Modelo 60 2 30 5 Erro 60 10 6 Total 120 12 Tabela de Análise de Variância Conhecimento Ignorância Fonte de Variação Soma dos Quadrados Graus de liberdade Média dos Quadrados F Modelo 60 2 30 5 Erro 60 10 6 Total 120 12 Tabela de Análise de Variância ÷ = Fórmula do F F = Variância do Modelo Variância do Erro F = 30 = 5 6 Neste caso, nosso Conhecimento é cinco vezes maior do que nossa Ignorância As Três Regras de Ouro VARIAÇÃO TOTAL = DADO ATÉ MÉDIA GERAL (SQtotal) ERRO = DADO ATÉ ESTIMADO (SQerro) MODELO = ESTIMADO ATÉ MÉDIA GERAL (SQmodelo) Conclusão Graças à Fisher, muitas estatísticas básicas que usamos têm exatamente a mesma lógica! Não se deixem iludir pelas aparências, tudo é a mesma coisa! A representação geométrica da estatística nos faz ter uma excelente compreensão dos métodos sem utilizar nenhuma fórmula! Usem estatística e conheçam o Mundo! O Segredo de Fisher Carlos Roberto Fonseca Departamento de Ecologia Universidade Federal do Rio Grande do Norte (fonseca.crsd@gmail.com) Erro Padrão Realidade Média real Variação real X Média estimada Desvio Padrão (DP) Desvio médio dos dados até a média Observação Erro Padrão (EP) – Medida de incerteza da média Erro Padrão (EP) O Erro Padrão (EP) representa a variação ao redor da média (medida da incerteza da média) Média = 100 DP = 20 EP Erro Padrão = Desvio Padrão (DP) / Raiz(N) Se N = 1, EP = DP Ou seja, a incerteza da média é igual a incerteza dos dados. Se N = infinito, EP = 0 Ou seja, não há incerteza A média estimada é a média real! O fato do Erro Padrão diminuir tão rapidamente com o tamanho amostral é uma boa notícia!!! Nós não precisamos tantas amostras assim para ter uma estimativa razoável da média Se Média = 100 e Desvio Padrão (DP) =20, Com N=30 O Erro Padrão (EP) é apenas 3,65!!! Quando representar uma média, sempre colocar o Erro Padrão A B Erro Padrão Construa três conjunto de dados aleatórios, de uma distribuição normal de: a) Média 100 e DP = 30, N = 50 b) Média 100 e DP = 15, N = 50 c) Média 100 e DP = 5, N = 50 Faça um histograma para cada conjunto de dados Faça um script para calcular a Soma dos dados, o N, a média, a Soma dos Quadrados, a Variância e o Desvio Padrão de cada um destes conjunto de dados. Calcule também o Erro Padrão, sabendo que EP = DP/sqrt(N). Ao fazer o script, não adicione dados a mão (por exemplo, o N). Salve os resultados em um objeto para serem utilizados posteriormente. Ex: soma <- sum(a) N <- length(a) Media <- soma/N Compare os resultados do Desvio Padrão. Mande o script pelo SIGAA Exercício