Baixe o app para aproveitar ainda mais
Prévia do material em texto
E. Novaes 1 Universidade Federal de Goiás Escola de Agronomia e Engenharia de Alimentos Engenharia Florestal Professor: Evandro Novaes Estatística e Experimentação Florestal Disciplina Aula de hoje • Apresentações – curso, professor e alunos • Introdução a Esta=s>ca – Conceitos, importância, relação com o método cien=fico E. Novaes 2 Contato: Prédio Central Setor de Melhoramento novaes_ufg@yahoo.com Obje>vos do curso • Formar um profissional de Engenharia Florestal que compreenda o processo de experimentação, desde o planejamento de experimentos até a análise e publicação de resultados. • Es>mular o aluno a desenvolver a sua capacidade de observar, inferir, formular hipóteses, fazer predições e julgamentos crí>cos a par>r da análise de dados por ele ob>dos ou coletados da literatura; • Desenvolver no aluno a capacidade de aplicar corretamente os principais delineamentos experimentais em trabalhos de pesquisa; • Desenvolver no aluno a capacidade de realizar análises esta=s>cas de dados observados; • Desenvolver no aluno a capacidade de compreender trabalhos cien=ficos que u>lizam metodologia esta=s>ca. E. Novaes 3 Programa: Esta=s>ca descri>va e distri-‐ buições de probabilidade Amostragem e testes de hipóteses esta=s>cas Esta=s>ca experimental Estratégias de ensino • Exposição oral (com e sem recursos audiovisuais); • Alguns ar>gos rela>vos ao conteúdo; • Resolução e discussão de exercícios; • Aulas prá>cas, com u>lização de ferramentas computacionais de análise esta=s>ca (MS Excel e ambiente R). E. Novaes 4 Encontros e salas de aula • Teóricas – Terças das 10-‐11:40h – sala 33 – Quartas das 8-‐9:40h – sala 33 • Prá>cas – Sexta das 10-‐11:40 – sala 33 • Monitoria Avaliações • Três provas escritas (P1, P2 e P3) com peso de 70% na média final; • Provinhas das listas de exercícios (L) com peso de 30% na média final; • Média final (MF): € MF = 0,7 P1 + P2 + P33 " # $ % & ' + 0,3 L1 + L2 + L3 + ... + Lnn " # $ % & ' E. Novaes 5 Regras e combinados • Esta=s>ca não é um curso fácil • Listas de exercícios • Calculadora cien=fica • Avaliações -‐> cola E. Novaes 6 Introdução à Esta=s>ca Esta=s>ca -‐ definição • “É o ramo da matemá>ca responsável pela coleta, análise, interpretação e apresentação de dados.” (Dicionário Merriam-‐ Webster) • “É a ciência da coleta, organização e interpretação de dados.” (Wikipedia) Matemá>ca Esta=s>ca Álgebra -‐ matrizes Teoria de Probabilidade Experim entação E. Novaes 7 Esta=s>ca -‐ importância • Pra>camente todas as disciplinas (áreas de conhecimento) e profissionais u>lizam-‐se de dados (observações) para orientarem o planejamento (tomada de decisão) dos seus “negócios”. • Esta=s>ca pode e deve ser u>lizada para: – melhor coleta dos dados (p.ex. com experimentação) – apresentação e interpretação criteriosa dos resultados -‐ Ex: governantes, economistas, meteorologistas, médicos/ farmacêu>cos, sociólogos, agrônomos, engenheiros... e claro pesquisadores em geral. A par>r do século XIV Em 1519 (2005) E. Novaes 8 Histórico da disciplina • 1654 -‐-‐ Pascal – matemá>ca da probabilidade, em correspondência com Fermat • 1662 -‐-‐ William Pexy and John Graunt – primeiros estudos demográficos para o governo Inglês • 1713 -‐-‐ Jakob Bernoulli – Fundamentos da teoria moderna da probabilidade • 1733 -‐-‐ Abraham DeMoivre – Doctrine of Chances -‐ aplicação da teoria de probabilidade aos levantamentos esta=s>cos • 1763 -‐-‐ Thomas Bayes – Teorema de Bayes (fundamentos da Esta=s>ca Bayesiana) • 1805 e 1809 -‐-‐ A-‐M Legendre e C. F. Gauss – método dos mínimos quadrados • 1812 -‐-‐ P. S. Laplace -‐-‐ Théorie analy>que des probabilités • 1834 – estabelecimento da Sta>s>cal Society of London • 1853 -‐-‐ Adolphe Quetelet – organizou a primeira conferência internacional de esta=s>ca; aplicou ferramentas esta=s>cas em estudos biológicos; • 1888 -‐-‐ F. Galton (primo de Darwin) – análise de regressão e correlação • 1889 -‐-‐ F. Galton – estabeleceu os fundamentos da hereditariedade de caracteres poligenicos • 1900 -‐-‐ Karl Pearson – Qui-‐quadrado; extendeu as aplicações da correlação • 1904 -‐-‐ Spearman – coeficiente de correlação não paramétricos (baseado em ranking) • 1908 -‐-‐ "Student" (W. S. Gossex) -‐-‐ The probable error of the mean; teste t • 1919 -‐-‐ R.A. Fisher – esta=s>ca experimental; ANOVA; gené>ca e biologia evolu>va • 1930's -‐-‐ Jerzy Neyman and Egon Pearson (filho de Karl Pearson) – erro >po II, poder do teste e intervalo de confiânça Paralelo com o método cien=fico • “Método cien=fico lida com os princípios e procedimentos para a busca do conhecimento, envolvendo a análise e formulação de um problema, a coleta de dados através da observação ou experimentação, e a formulação e testes de hipóteses” (Dicionário Merriam-‐Webster). • De maneira similar as análises esta=s>cas envolvem (1) definição de um problema e formulação hipóteses,(2) coleta de dados, (3) avaliação dos dados através de parâmetros descri>vos e gráficos, (4) análise dos dados, interpretação e comunicação dos resultados. E. Novaes 9 Esta=s>ca é dividida • Descri*va: descreve o conjunto de dados variáveis reduzindo-‐os a um pequeno número de medidas que contêm todas as informações relevantes. – Apresentação dos dados observados na forma de sumários numéricos e/ou gráficos • Indu*va (Inferência estaHs*ca): a par*r de conjuntos menores (amostras) permite inferências (induções) prováveis sobre agregados maiores (população ou universo) – Baseia-‐se fortemente nas teorias de probabilidade Exemplo Produ>vidade em m3 de madeira/ha!ano de duas espécies de Eucalyptus. E. urophylla E. grandis 37.64 27.68 29.64 45.96 34.03 45.47 42.03 39.54 37.53 32.42 30.01 30.80 53.53 44.56 40.70 42.92 35.57 31.33 28.31 29.27 42.89 30.54 53.50 35.42 25.73 31.81 27.08 42.11 44.39 50.47 45.01 36.89 34.51 29.14 26.02 35.23 41.31 39.49 45.12 33.44 29.18 24.69 31.00 36.03 33.69 35.46 34.19 44.80 27.31 33.54 30.65 34.60 43.52 31.54 41.20 44.38 24.42 26.86 35.01 35.13 38.70 48.83 41.62 39.97 25.98 23.78 34.81 26.53 42.21 36.54 42.12 47.41 29.96 33.87 37.02 34.71 51.27 38.77 50.26 42.21 37.33 33.53 36.20 34.80 42.89 39.68 39.11 39.35 39.08 32.63 33.33 35.12 48.63 40.75 36.80 48.77 24.72 29.90 36.46 36.86 38.98 35.47 46.36 37.94 28.76 39.49 33.51 28.72 37.58 41.76 38.28 42.48 35.51 38.54 41.41 38.07 36.76 41.70 40.67 45.56 E. Novaes 10 Análise Esta=s>ca Descri>va Parâmetros (descritores) E. urophylla E. grandis N de observações 60 60 Amplitude 23,78 – 45,96 30,54 – 53,53 Média 32,61 41,49 Mediana 33,42 41,46 Produ>vidade em m3 de madeira/ha!ano de duas espécies de Eucalyptus. Análise Esta=s>ca Descri>va E. urophylla E. grandis Produ>vidade em m3 de madeira/ha!ano de duas espécies de Eucalyptus. E. Novaes 11 Conceitos fundamentais da Inferência EstaHs*ca • População: conjunto de unidades (pessoas, objetos, transações, eventos...) que temos interesse em estudar; • Amostra: é um subconjunto de unidades da população; • Variável: é uma caracterís>ca ou propriedade que assume diferentes valores nas unidades individuais da população. População Amostra Exemplo População: conjunto com todos os indivíduos de E. grandis; Amostra: subconjunto de 60 indivíduos de E. grandis; Variável: produ>vidade de madeira. Determine a população, amostra e variável • “Cola war” é o termo que os americanos atribuíram para a intensa compe>ção entre Coca-‐Cola e Pepsi demonstrado em suas campanhas publicitárias. Suponhamos que a Pepsi, em sua nova campanha publicitária, toma 1000 consumidores de refrigerantes para aplicar-‐lhes um “teste cego”, em que os consumidores provarão o produto (Coca ou Pepsi) mas não terão conhecimento da marca. Cada consumidor deverá dizer qual é o produto preferido. População: conjunto de todos os consumidores de refrigerante do >po “Cola”; Amostra: os 1000 consumidores selecionados a par>r da população; Variável: preferência por Coca ou Pepsi é a variável de interesse. E. Novaes 12 Inferência Esta=s>ca • Finalidade: a par>r de conjuntos menores (amostras), permite inferências (induções) prováveis sobre agregados maiores (população ou universo) • Exemplo Coca: se a amostra dos 1000 consumidores foi bem feita (representa>va) pode-‐se es>mar a porcentagem dos consumidores que preferem Coca e Pepsi. • Exemplo eucalipto: será que as amostras de E. grandis e E. urohpylla indicam diferenças significa>vas na produ>vidade das espécies? – Hipótese: a produ>vidade das espécies difere. Testando hipóteses esta=s>cas • Medidas não foram calculadas a par>r de um censo da população, mas sim de uma amostra; • Es>ma>vas (p.ex. de média) baseados em amostragem sempre podem conter erro; – Portanto, as inferências acerca das hipóteses devem ter uma probabilidade de erro -‐ medida de confiabilidade -‐ associadas (p-‐ valor); Parâmetros (descritores) E. urophylla E. grandis N de observações 60 60 Média 32,61 m3/ha!ano 41,49 m3/ha!ano Mediana 33,42 m3/ha!ano 41,46 m3/ha!ano E. Novaes 13 Testando as hipóteses esta=s>cas • A variância dos erros amostrais é fundamental para determinar a confiança de se rejeitar ou não uma hipótese. – Lei dos grandes números: quanto maior o tamanho da amostra, mais a es>ma>va se aproxima do valor real do parâmetro populacional (menor variância). urop gran urop gran n = 20 n = 60 33 40 33 40 Inferência Esta=s>ca – exemplo eucalipto • Hipótese: a produ>vidade das duas espécies difere. • Para testar essa hipótese temos que avaliar quão diferente são as médias em relação a variação aleatória dos dados. E. urophylla -‐ Um teste esta=s>co apropriado é o test t; -‐ Pelo teste t, a probabilidade de que essas duas amostras das espécies tenham vindo de uma mesma população (com médias iguais) é menor do que 0,0001. E. grandis E. Novaes 14 Importante! Toda inferência ou teste de hipótese esta=s>ca deve ter uma medida de confiabilidade (prob. de erro) associada. Cartomante vs. Esta=s>co • Ambos podem prever o futuro;– Ex: quem vai ganhar a eleição? – Vai chover amanhã ou não? • A diferença é que a inferência da cartomante não tem nenhuma medida de confiabilidade; E. Novaes 15 Tipos de Variáveis (e dados) Para cada >po, existem métodos diferentes de análise esta=s>ca Tipos de variáveis • Quan>ta>va -‐ assume qualquer valor na escala de números naturais; Pode ser: – Con=nua (Ex: altura, peso, etc.) – Discreta (Ex: número de peças defeituosas numa amostra, número de alunos matriculados, etc.) • Qualita>vas -‐ são classificações; Pode ser: – Nominal: cores, cidades, espécies, etc. – Ordinal: classificação de tamanho (pequeno/médio/grande), gosto por um determinado produto (ruim, regular, bom e excelente), escala de resistência/susce>bilidade a uma doença. E. Novaes 16 Porque isso importa? t, ANOVA, comp. múl>plas Regressão linear Regressão logís>ca € χ2 € Y € X Tabelas con>ngência Classifique as variáveis a seguir • Porcentagem de jovens que u>lizam maconha nos campi universitários • Número de indivíduos de uma população que sucumbiram a uma geada; • Região de procedência de sementes de Eucalyptus • Formato das folhas de espécies arbóreas do cerrado • Temperatura média diária • Classificação (defeituosa ou não) de embalagens produzidas em uma determinada indústria • Média final dos alunos em Esta=s>ca • Avaliação do gosto de consumidores (ruim, regular, bom e excelente) por uma nova marca de cerveja; E. Novaes 17 Notação das variáveis por índices • O símbolo Xi representa qualquer uma das N observações, X1 , X2 , X3 , ... , Xn , assumida pela variável X. • A letra i representa qualquer dos nº 1, 2, 3, ... , N. – No exemplo das espécies de eucalipto, N = 60. – Portanto temos i = 1, 2, 3, ...., 60. Métodos de coleta de dados E. Novaes 18 Métodos de coleta de dados • Pesquisa observacional: coleta de dados em sistemas naturais – Ex: zoólogo mede o peso médio dos elefantes nascidos em ca>veiro e na natureza • Pesquisa experimental: pesquisador exerce grande controle sobre as unidades em estudo – Ex: para estudar uma nova droga, uma empresa delineou um estudo em que metade dos pacientes receberão a pílula com o princípio a>vo e a outra metade o placebo • Fontes já publicadas – jornais, IBGE, literatura cien=fica; • Ques>onário/Entrevista • 3.1. Pesquisa observacional: • O pesquisador vale-‐se de observações da “natureza”, registrando os aspectos selecionados e eventos, sem perturbá-‐los mais do que a observação requer (Figura 1). E. Novaes 19 Problema ou lacuna no conhecimento • 3.2. Pesquisa experimental: • Em pesquisa experimental, o pesquisador impõe novas condições experimentalmente. • Estas condições resultam em três grandes vantagens: " Poder delinear o experimento desejado para diminuir as influências de outros fatores que não sejam o tratamento em estudo; "Permite uma melhor comparação entre experimentos diferentes; e "As condições ou os tratamentos podem ser muito mais abrangentes do que as condições proporcionadas pela natureza, no caso da ciência observacional (Figura 2). E. Novaes 20 Figura 2. Esquema formal dos processos da ciência experimental. Problema ou lacuna no conhecimento Planejamento de experimentos • Qual é o objetivo do meu experimento ? • Quantas parcelas ou amostras devo selecionar ? • Que variáveis são necessárias para atender o objetivo ? • Como vou coletar meus dados ? • Como vou tabular meus dados ? • Que tipo de análise estatística vou fazer para atender o objetivo ? • Que software vou utilizar ? • Como vou apresentar meus resultados ?
Compartilhar