Baixe o app para aproveitar ainda mais
Prévia do material em texto
Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar Estatística e Probabilidade para as Ciências Ambientais Departamento de Ciências do Mar Universidade Federal de São Paulo Campus Baixada Santista Fabio Cop Ferreira 21 de novembro de 2017 Sumário 1 Introdução 2 1.1 População, amostra e unidade amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 Distribuições de frequência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3 Parâmetros e estatísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.4 Amostragem, estimadores e inferência . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.5 Medidas de tendência central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.6 Medidas de variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2 Estatística descritiva 7 2.1 Dados quantitativos vs. qualitativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.2 Níveis de mensuração . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 3 Amostragem 9 3.1 Amostragem aleatória simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 3.2 Amostragem aleatória estrati�cada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3.3 Amostragem sistemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3.4 Erro amostral, acurácia e precisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.5 Exempli�cando erro amostral, acurácia e precisão . . . . . . . . . . . . . . . . . . . . . 13 3.6 Introdução à su�ciência amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.7 Exempli�cando a questão da su�ciência amostral (códigos no R) . . . . . . . . . . . . 20 1 Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar 1 Introdução A origem do termo estatística está relacionada ao processo de obtenção de dados demográ�cos e socioeconômicos para descrever as características de um Estado ou Nação. Um dos primeiros usos neste sentido pode ter sido o estudo das taxas de mortalidade em Londres publicado em 1663 por John Graunt. Nesta apostila, vamos tratar da Estatística como a ciência estuda o planejamento de experimentos, coleta, análise, apresentação e interpretação de dados. Ao longo do século XX, o método estatístico se tornou central à construção do conhecimento cientítico. Alguns autores se referem a uma revolução estatística nas ciências, onde o método cientí�co e o pensamento estatístico tornaram-se intimamente relacionados (Salsburg, 2001). 1.1 População, amostra e unidade amostral Em estatística, o conceito de população se refere a todos os elementos sobre os quais queremos tirar conclusões. É comum a confusão entre os termos população estatística e população biológica (nas ciências naturais) ou população humana (em ciências sociais). No entanto, população estatística refere-se ao conjunto de medidas (e não organismos ou pessoas) associadas a um determinado estudo. Estas medidas podem ser pesos, temperaturas, velocidades, tempos de reação, entre outras. A abran- gência da população estatística depende do contexto do estudo e do escopo da pergunta que se pretende responder. Suponha um estudo para descrever o peso uma espécie de robalo no estuário de Cananéia. A população estatística não são os robalos em si, mas o peso de cada indivíduo. Dado o escopo do estudo, a população estatística abrange somente pesos dos organismos que habitam o estuário de Cananéia. Suponha agora que desejamos estudar a diversidade de espécies de peixes em reservatórios do estado de São Paulo. Neste caso, a população estatística poderia consistir de um índice de diversidade calculado para cada um dos reservatórios do estado. Fica claro que, neste caso, população estatística não tem qualquer relação com população biológica. Nos dois exemplos acima é inviável obtermos informações de todos os elementos que compõem a população estaística. Para o exemplo dos robalos, temos provavelmente alguns milhares de peixes e consequentemente, o mesmo número de pesos individuais. O número de reservatórios é bem menor, porém ainda é inviável mensurar a diversidade de espécies em todos eles. Um censo ocorre nos raros exemplos em que é possível mensurar todos os elementos da população estatística. Entretanto, a prática em estatística lida com a maioria dos casos em que mensuramos um subconjunto da população estatística, de�nido como uma amostra. Finalmente, unidade amostral é de�nida como um único elemento da população estatística. A unidade amostral deve ser a menor unidade independente associada ao estudo. A necessidade das unidades amostrais constituirem elementos independentes é um dos pressupostos centrais da estatística e suas implicações �carão mais claras quando tratarmos do processo de amostragem. No exemplo dos robalos, unidade amostral é o peso mensurado em um indivíduo da população, enquanto no exemplo dos reservatórios, unidade amostral é um único valor dediversidade calculado para um dos reservatórios. Os conceitos de população estatística, amostra e unidade amostral são discutidos em capítulos introdutórios de diversos livros texto (Morettin, 2010; Triola, 2014). 2 Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar População estatística: todos os elementos que podem compor uma amostra. Podem ser medidas como pesos, temperaturas, velocidades, etc. Unidade amostral: um único elemento da população. Censo: o levantamento de todos os elementos da população. Amostra: um subconjunto extraído da população. Tamanho populacional (N ): o número de elementos da população. Tamanho amostral (n): o número de elementos da amostra. 1.2 Distribuições de frequência Os valores da população estatística não são idênticos. Os robalos não têm todos o mesmo peso e a diversidade de peixes não é a mesma em todos os reservatórios do estado de São Paulo. Dizemos que existe uma distribuição de valores possíveis. O comprimento de robalos pode abranger desde alguns milímetros (pós-larva) a mais de 1 metro, porém nem todos os valores são igualmente representados. Provavelmente existem mais robalos pequenos e médios que robalos grandes. Se fosse possível obser- var todos os elementos da população estatística, poderíamos organizá-los em uma distribuição de frequências, onde veríamos que algumas classes de valores são mais comuns que outras. No exemplo abaixo existem mais observações concentradas entre os valores de 45 e 55 e poucas observações acima de 60, ou abaixo de 40 (Figura 1). Classe de valores N úm er o de o bs er va çõ es 35 40 45 50 55 60 65 0 5 10 15 Figura 1: Distribuição de frequências de uma população estatística 1.3 Parâmetros e estatísticas Um conjunto de observações costuma ser caracterizada por dois tipos de descritores, medidas de tendência central e medidas de dispersão. Considere a questão: Qual o peso de robalos do estuário de Cananéia? Geralmente, entendemos esta questão como: - Qual o peso de um robalo típico? Sendo que um robalo típico pode ser entendido como um robalo de peso médio. Se o peso médio é calculado a partir de todos os elementos da população, ele é um parâmetro, um descritor da população estatística. Os parâmetros só podem ser obtidos por meio de um censo, pois para serem calculados requerem que todos os elementos da população sejam mensurados. Por outro lado, se �zermos uma amostragem da população, pesando 30 robalos por exemplo, teremos um descritor da amostra. Os descritores de uma amostra são conhecidos como estatísticas ou estimadores. 3 Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar Parâmetro: a medida que descreve uma característica da população. Ex.: a média (µ) ou a variância (σ2) populacional. Estimador ou Estatística: Uma medida que descreve uma característica da amostra. Ex.: a média (X) ou a variância (s2) amostral. Estimativa: é o valornumérico assumido pelo estimador. Ex. o valor número da média ou variância amostral. 1.4 Amostragem, estimadores e inferência Uma vez de�nida a população estística, deve ser de�nido o procedimento amostral que iremos utili- zar para acessar seus elementos. Em última instância, não estamos interessados na amostra em si, mas nas características da população da qual ela é proveniente. Tendo essa premisa em mente, a importân- cia do processo de amostragem está no fato de que, na impossibilidade de observar toda a população, a amostra é nossa única fonte de informação disponível. Uma amostragem mal conduzida pode nos trazer informações inúteis sobre a população. Dizemos então que uma amostra deve representativa da população de origem. Tendo em mãos uma amostra representativa, calculamos estatísticas que são os estimadores dos parâmetros populacionais. A inferência é o processo inverso da amostragem, i.e. aquele que nos permite tirar conclusões sobre a população de origem a partir das informações contidas na amostra (Figura 2). Figura 2: Representação do processo de amostragem e inferência sobre os parâmetros populacionais. 1.5 Medidas de tendência central Uma distribuição de frequência pode ser descrita a partir de uma medida de tendência central que indica o valor ao redor dos quais a maior parte das observações está concentrada. Iremos apresentar quatro destas medidas: a média aritmética, a mediana, a moda e o ponto médio. A média aritmética é a medida de tendência central mais comum. Para uma população estatística de tamanho N, com X1, X2, X3, · · · , XN elementos, ela é referida como a média populacional, indicada pela letra grega µ, onde: µ = X1+X2+X3+···+XNN = ∑N i=1Xi N Quando nos referimos a uma amostra com n elementos, a média aritmética amostral (X) é dada por: 4 Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar X = X1+X2+X3+···+Xnn = ∑n i=1Xi n Amediana é outra medida de centro que pode ser de�nida como o valor do meio de uma distribuição, de modo que metade dos valores estão abaixo e metade está acima da mediana. A mediana, ao contrário da média, é pouco in�uenciada por valores extremos. A moda é de�nida como o valor mais frequente de uma distribuição e �nalmente, o ponto médio é calculado com base em somente dois valores da distribuição - o máximo e o mínimo, sendo obtido por: Pmedio = Xmaximo+Xminimo 2 Valores extremos não têm in�uência sobre a moda porém têm grande efeito sobre o ponto médio. Dissemos que um conjunto de dados pode ser representado por uma distribuição de frequências e por medidas de tendencia central. Existe uma relação entre o formato de uma distribuição de frequência e a posição relativa da média aritmética, da mediana e da moda. Em um grá�co simétrico, onde as observações estão dispersas igaulmente acima e abaixo do ponto central, os valores da média, mediana e moda coincidem. Este tipo de distribuição é dita simétrica (Figura 3B). Por outro lado, pode ocorrer que a distribuição de valores seja assimétrica. Neste caso, a posição relativa da média, mediana e moda depende se a assimetria é à direita (Figura 3A) ou à esquerda (Figura 3C). Esta discrepância ocorre devido à sensibilidade destas medidas a valores extremos na distribuição, em que a média é mais sensível que a mediana e a moda (Triola, 2014). Assimetria à direita Moda Mediana Média A Distribuição simétrica Média = Mediana = Moda B Assimetria à esquerda Moda Mediana Média C Figura 3: Relação entre a assimetria de uma distribuição de frequência e a posição relativa da média, mediana e moda. Média: utiliza todo o conjunto de dados. Sensível a valores extremos. Dentre todos os estimadores de tendência central é o menos variável; Mediana: o valor do meio. Metade dos pontos está acima e metade abaixo da mediana. A mediana é uma medida resistente a valores extremos; Moda: valor mais frequente. Se mais de um valor tem a mesma frequência, os dados têm uma distribuição multimodal ; Ponto médio: considera somente os valores máximos e mínimos. Fácil de calcular porém não utiliza a maioria do conjunto de dados e é muito sensível a valores extremos. 5 Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar 1.6 Medidas de variação Diferente das medidas de tendência central, as medidas de variação indicam o grau de dispersão das observações. Distribuições com observações muito próximas à média têm baixo grau de dispersão, enquanto aquelas com observações muito distantes da média têm alto grau de dispersão. Vamos apre- sentar quatro índices que medem o grau de dispersão: a variância, o desvio padrão, o coe�ciente de variação e a amplitude de variação. A variância mede quão distante os valores estão da média aritmética. A variância populacional é indicada pela letra grega σ2, onde: σ2 = ∑N i=1 (Xi−µ)2 N Quando nos referimos a uma amostra, a variância amostral é indicada por s2 e dada por: s2 = ∑N i=1 (Xi−X)2 n−1 Note que para a variância amostral, utilizamos X e não µ, porque estamos medindo a dispersão das observações ao redor da média amostral. O denominador da equação também muda para n-1 pois agora estamos nos referindo à uma amostra com n elementos. A subtração por n-1 é necessária para que s2 seja um estimador não viciado de σ2. Outra medida de dispersão é o desvio padrão que é simplesmente a raiz quadrada da variância e por- tanto, dado na mesma escala de mensuração das observações originais. O desvio padrão populacional (σ) é dado por: σ = √∑N i=1 (Xi−µ)2 N enquanto para a amostra (s) é: s = √∑N i=1 (Xi−X)2 n−1 O coe�ciente de variação (cv) relaciona o desvio padrão à média, sendo de�nido por: cv = s/X ou cv% = s/X · 100 O coe�ciente de variação amostral descrito acima, é um estimador do coe�ciente de variação da população, onde s é substituído por σ, e X por µ. Finalmente, a amplitude de variação é a diferença entre os pontos máximo e mínimo de um grupo de observações Amplitude de variação = Xmaximo −Xminimo 6 Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar Cálculo das medidas de tendência central e dispersão Considere uma amostra do comprimento da carapaça de 10 caranguejos Menipe nodifrons: Xi (em centímetros): 4.0, 4.1, 4.5, 4.9, 5.0, 5.0, 6.6, 7.0, 7.7, 7.9 Média: X = 4.0+4.1+4.5+4.9+5.0+5.0+6.6+7.0+7.7+7.910 = 56.7/10 = 5.67 Mediana: 4.0, 4.1, 4.5, 4.9, 5.0, 5.0, 6.6, 7.0, 7.7, 7.9 Mediana = 5+52 = 5 Moda = 5 (o único número que se repete mais de uma vez na distribuição) Pmedio = 7.9+4.0 2 = 5.95 Variância: s2 = (4.0−5.67+4.1−5.67+4.5−5.67+4.9−5.67+5.0−5.67+5.0−5.67+6.6−5.67+7.0−5.67+7.7−5.67+7.9−5.67) 2 10−1 Variância: s2 = 19.84/9 = 2.20 Desvio padrão: s = √ 2.20 = 1.48 Coe�ciente de variação: cv = 1.48/5.95 · 100 = 26.19% 2 Estatística descritiva Vimos como descrever um conjunto de dados por histogramas de frequência, medidas de centra- lidade (média, mediana, moda) ou dispersão (desvio padrão, variâncias, amplitude de variação). A estatística descritiva envolve ainda uma série de outros métodos utilizados para compreendermos quais são as informações mais relevantes em um conjunto de dados e resumí-las de maneira adequada. Estes métodos envolvem em grande parte, a contrução de grá�cos e tabelas apropriados a diferentes tipos de dados a �m de simpli�car a interpretação. 2.1 Dados quantitativos vs. qualitativos Dados podem ser do tipo i) quantitativo, representando contagens ou medidas (pesos, temperaturas, comprimentos), ou ii) qualitativo representando atributos ou categorias não-numéricas (cor, pro�ssão, tipos de vegetação). Dados quantitativos podem ainda ser discretos ou contínuos. Dados são discretos quando descrevem elementos enumeráveis. A contagem do número de pessoas em uma sala, número de ovos em uma ninhada, número conchas no oceano. Dados discretos podem somente assumir valores inteiros (0, 1, 2,. . . ). Não existem valores fracionários como 1.5 pessoas, 2.5 conchas. Dados contínuos se referem a medidas que podem assumir in�nitosvalores, sem intervalos vazios. Pluviosidade, temperatura e pesos são alguns exemplos. A pluviosidade pode ser de 200 mm, 200.1 mm, 200.01 mm, 200.001 mm de chuva. O limite de precisão é aquele que podemos mensurar com os aparelhos disponíveis. 2.2 Níveis de mensuração Uma outra forma de organizar tipos de dados pode ser em função dos níveis de mensuração: no- minal, ordinal, intervalar e razão. 7 Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar Nível nominal: é característico de dados que possuem atributos ou categorias. Estes dados não podem ser ordenados. Ex. cor, grupo taxonômico, nomes de cidades, etc. Nível ordinal: é aquele em que os atributos podem ser ordenados, embora não seja possível quan- ti�car as diferenças entre dois níveis. Ex. i - Maratonistas podem ser classi�cados quanto à ordem de chegada em uma competição (1o, 2o, 3o, . . . ). ii - Cidades podem ser classi�cadas quanto às condições de saneamento: ótimo, bom, ruim, péssimo. iii - Pessoas podem ser ordenadas em ordem alfabética. No nível ordinal, não há sentido em quanti�car as diferenças entre os níveis. Nível intervalar: é aquele em que, além ser possível ordenar, é posível quanti�car as diferenças entre duas observações. No entanto, não há um ponto inicial natural, um ponto zero que indique au- sência da quantia. Ex. i - Temperatura: zero graus não signi�ca ausência de temperatura, assim como dez graus não é duas vezes mais quente que 5 graus centígrados. Essas características são somente uma convenção relacionada à escala de mensuração da temperatura. ii - Ano do calendrário: o ano zero é uma convenção do calendário, não signi�ca ausência de tempo. Nível de razão: É como o intervalar, mais existe um ponto zero natural. Peso igual a 0 kg é ausência de peso e dez quilogramas é duas vezes mais pesado que 5 kg. O mesmo vale para comprimento, distância, velocidade, número de ovos. Existe uma relação entre tipo de dados e nível de mensuração. Da explicação acima, �ca claro que os níveis nominal e ordinal se referem a dados qualitativos, enquanto os níveis intervalar e razão referem-se a dados quantitativos. Sempre é possível transformar dados quantitativos em qualitativos. Se temos o comprimento em cm de peixes desembarcados (dados quantitativos, nivel de mensuração razão), podemos transformá-lo em atributos como peixes grandes e pequenos (qualitativo, nível de mensuração ordinal). Por outro lado, o contrário não é possível. 8 Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar 3 Amostragem O objetivo da amostragem é descrever características da população estatística por meio de carac- terísticas da amostra. E um estudo do diâmetro dos caules de Rhizophora mangle em um manguezal (DAP: diâmetro a altura do peito), a população estatística são os diâmetros de todas as árvores do re- ferido manguezal. Esta população pode ser descrita por parâmetros que representam medidas de centro como o diâmetro médio (µ), ou por medidas de variação como o desvio padrão (σ), que representam o grau de dispersão das unidades amostrais ao redor da média. Se amostramos n elementos desta população, a média amostral (X) e o desvio padrão amostral (s) dos diâmetros serão os estimadores destas características. Dependendo da questão envolvida e do conhecimento prévio sobre a população, diferentes méto- dos de amostragem são apropriados. A teoria da amostragem é a área da ciência que estuda estes métodos. Nesta apostila vamos discutir quatro tipos de amostragem: aleatória simples, estrati�cada e sistemática. Mais sobre este assundo deve ser visto em Stuart (1984), Morettin (2010) e Triola (2014). 3.1 Amostragem aleatória simples É aquela em que cada elemento da população tem a mesma probabilidade de ser selecionado para compor a amostra. Por exemplo, se a população consiste de 1000 elementos, cada um terá uma probabilidade de 1/1000 de ser escolhido. Isto isenta o pesquisador de tomar qualquer decisão com base em julgamentos pré-concebidos, sobre quais alementos devem ou não fazer parte da amostra. Para exempli�car suponha uma população hipotética de somente 10 elementos: População: 3, 10, 14, 19, 27, 28, 29, 41, 42, 43 Em uma amostra aleatória simples de cinco elementos, qualquer combinação destes 10 elementos é igualmente provável. Se por puro acaso sortearmos uma amostra aleatória contendo os cinco menores valores da população: Amostra 1: 3, 10, 14, 19, 27 a amostra seria tão aleatória (e tão provável) quanto outra em que as observações se distribuíssem de forma mais homogênea ao longo dos limites da população: Amostra 2: 10, 29, 27, 43, 28 Isto sugere que uma amostra aleatória não é necessariamente representativa da população. Amos- tras pequenas por exemplo, têm uma chance maior de selecionar os maiores ou menores elementos da população. A média amostral calculada para estas amostras estará distante da média populacional. No entanto, a importância central da amostragem aleatória em estatística está no fato de que a alea- toriedade produz, em média, amostras representativas da população, no sentido de que a maioria das vezes, uma amostra aleatória tenderá a gerar mádias amostrais próximas à média populacional. Deste modo, garantir a aleatoriedade no processo amostral é importante para permitir que a inferência seja válida com base nas leis de probabilidade (Stuart, 1984; Underwood, 1997; Manly and Alberto, 2014). O modo mais direto de se obter uma amostra aleatória é por meio de sorteio. Após atribuir um número de 1 a N a cada unidade amostral, estas são sorteadas até que seja atingido o tamanho n desejado. Na prática, nem sempre é possível obtermos uma amostra aleatória nestes moldes. Para o exemplo do DAP de Rhizophora mangle, não seria viável enumerar todas as árvores para, após um sorteio, tomar as medidas das árvores selecionadas. Entretanto, se tivermos as coordenadas geográ�cas da área, poderíamos sortear n posições no espaço e, chegando ao local desejado, escolher a árvore mais 9 Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar próxima. Este procedimento nos daria um resultado igualmente válido em termos de garantirmos a escolha aleatória das unidades amostrais. Outras di�culdades práticas obviamente seriam possíveis neste procedimento, como garantir acesso irrestrito ou tempo disponível para percorrer a toda região. Questões como estas não devem desmerecer o requisito básico de se obter uma amostra aleatória, mas nos auxiliar a decidir como conciliar a prática de campo ou de laboratório com a necessidade da aleatorização em um experimento. 3.2 Amostragem aleatória estrati�cada Se tivermos algum conhecimento prévio de como a população está estruturada, a amostra aleatória simples, embora não esteja incorreta, pode não ser a estratégia mais e�ciente. Se for possivel iden- ti�car estratos ou subgrupos dentro da população, podemos conduzir uma amostragem aleatória estatificada. Voltemos ao exemplo da Rhizophora mangle. Suponha que o manguezal em estudo possa ser dividido em duas áreas. Uma área que foi recentemente perturbada por ações antrópicas e encontra-se em estado de regeneração, e uma área que sempre esteve livre da ação humana. Espera-se que as árvores na área íntegra sejam mais velhas e portanto tenham em média DAPs maiores, enquanto na área em regeneração os DAPs médios sejam menores (Figura 4A). Em uma amostra aleatória simples, sobretudo se for pequena, é possível que puramente ao acaso, um ou outro estrato se torne mais representado. Isto tornará as estimativas mais variáveis. Se dermos azar da maioria das unidades amostrais serem sorteadas do estrato íntegro, teremos estimativas de DAP muito acima de µ (Figura 4B). No entanto, se a seleção dos indivíduos foi feita por meio de sorteio, o simples fato de observarmos este padrão não é por si só justi�cativa para refarzermos a amostra. O ponto relevante aqui é que em uma amostra aleatória simples estes extremos indesejáveis são mais prováveis de acontecer. Em umaamostragem estrati�cada o esforço amostral é subdividito entre os estratos, que em nosso exemplo seriam as áreas integra e perturbada. O tamanho amostral em cada estrato será o mesmo, ou proporcional ao tamanho do estrato. Após de�nirmos o tamanho amostral em cada estrato, as unidades amostrais são selecionadas por meio de uma amostragem aleatória simples. Deste modo, teremos certeza de que todos os estratos estarão representados na amostra conforme sua representatividade na população (Figura 4C) e as estimativas tenderão a se concentrar mais próximas à µ se compararmos com os resultados de uma amostra aleatória simples. Quando os estratos são identi�cados corretamente, a principal vantagem da amostra aleatória es- trati�cada sobre a amostra aleatória simples está em aumentar a precisão das estimativas. Mais a frente iremos discutir os conceitos de precisão e acurácia e relacioná-los com as estratégias amostrais discutidas aqui. 3.3 Amostragem sistemática Uma amostragem sistemática é possível quando as unidades amostrais podem ser ordenadas. A ordenação segue alguma característica da unidade como peso, idade, salinidade, posição no espaço ou intervalo de tempo. O objetivo é garantir que a amostra inclua todo o intervalo de variação da população. Neste tipo de amostragem, selecionamos um elemento inicial e, em intervalos regulares, selecionamos os demais elementos. Em nossa amostragem de Rhizophora mangle, poderíamos ordenar as árvores da menor para a maior, selecionar uma árvore inicial (p. ex. a 5a) e um intervalo (por exemplo a cada 10 árvores). A amostragem iria consistir da 5a, 15a, 25a, 35a, · · · árvores, até chegarmos ao maior indivíduo. Deste modo, saberíamos que todo o intervalo de DAPs estaria representado na amostra. Obviamente este exemplo é inviável, pois necessitaríamos de uma lista de prévia do tamanho e posição de todas as 10 Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar árvores antes de conduzirmos a amostragem. Um exemplo de amostragem sistemática mais factível, seria de�nir alguns transectos lineares e dispor n pontos equidistantes. A amostra iria consistir dos DAPs mensurados nas árvores imediatamente mais próximas a cada um dos pontos (Figura 4D). Se o comprimento e direção dos transectos forem bem escolhidos, garantimos que toda a área de estudo seja abrangida. Index Á re a ín te gr a Á re a em r eg en er aç ão A Index 1 Á re a ín te gr a Á re a em r eg en er aç ão B Á re a ín te gr a Á re a em r eg en er aç ão C 1 Á re a ín te gr a Á re a em r eg en er aç ão − − − − − − − − − − − − D Figura 4: Distribuição de uma população com N = 200 em uma área em regeneração e uma área íntegra adjacentes. Os triângulos representam a posição espacial dos indivíduos em uma amostra aleatória simples (B), aleatória estrati�cada (C) e sistemática (D). A amostra sistemática consiste de três transectos com 4 pontos em cada. A amostra consiste do indivíduo imediatamente mais próximo a cada ponto. A escolha da amostragem sistemática ao invés de uma amostragem aleatória simples, se deve à sua praticidade. Se a característica de interesse das unidades amostrais estiver disposta de forma aleatória ao longo do transecto escolhido, os dois métodos irão gerar resultados similares. Na maioria dos casos, é isto que o pesquisador assume (ainda que implicitamente) quando opta por uma amostragem 11 Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar sistemática. Por outro lado, se houver um gradiente justamente na direção do transecto, a variância amostral irá superestimar a variância populacional equanto, se houver uma periodicidade que coincida com o intervalo escolhido, a variância amostral irá subestimar a variância populacional (Manly and Alberto, 2014). 3.4 Erro amostral, acurácia e precisão Falha na pesquisa da Literary Digest Adaptado de Triola (2011): Introdução à Estatística Fundada em 1890, a revista Literary Digest �cou famosa por seu sucesso na realização de pesquisas eleitorais para presidente nos EUA. A revista previu corretamente os vencedores das eleições de 1926, 1920, 1924, 1928 e 1932. Na disputa de 1936 entre Alf Landon e Frankling D. Roosevelt, a revista enviou 10 milhões de cédulas à população e recebeu de volta 1.293.669 de cédulas favoráveis à Landon e 972.897 favoráveis a Roosevelt. Isto sugeria que Landon teria 57% dos votos. O tamanho amostral da pesquisa era extremamente grande em comparação a outras pesquisas da época. Mais de 2 milhões de eleitores opinaram, de maneira que ninguém podia imaginar um resultado contrário à Landon. James A. Farley, presidente do Comitê Democrático Nacional à época, elogiou a pesquisa dizendo: "Qualquer pessoa em sã consciência não pode não pode escapar à implicação de tão gigantesca amostragem da opinião popular... Eu a considero como evidência do desejo do povo desse país de uma mudança no Governo Nacional. A pesquisa da Literary Digest é um avanço de não pequena dimensão. É uma pesquisa realizada de maneira justa e correta". Resultado: Landon recebeu 16.679.583 votos contra 27.751.597 votos para Roosevelt. Isto signi�ca 37% dos votos para Landon (e não 57%) contra 61% para Roosevelt. O enorme erro da Literary Digest foi humilante, de modo que a revista logo saiu de circulação. A Guallup por outro lado se tornou central nas pesquisas das futuras eleições presidenciais e até hoje é uma das organizações mais proeminentes de pesquisa eleitoral Na mesma eleição, George Gallup usou uma pesquisa muito menor, com 50.000 eleitores que predisse corretamente o resultado a favor de Roosevelt. Como poderia uma pesquisa feita com tão grande errar, e por uma diferença tão marcante? Serão as pesquisas de opinião irrelevantes? O que não deu certo? No Brasil, pesquisas de intenção de votos presidenciais são feitas com um número muito menor de eleitores, cerca de 2.500 (a Literary Digest usou mais de 2 milhões e Gallup, 50.000!!). O que dizer da qualidade destas pesquisas com número aparentemente tão pequenos se considerarmos o tamanho da população eleitoral brasileira? Elas seriam menos con�áveis? Como as estimativas são obtidas de um subconjunto da população (a amostra), é regra que o resultado obtido de uma amostra aleatória particular, não será igual ao verdadeiro valor da população (o parâmetro), embora exista uma grande probabilidade estar próximo. O erro amostral é a diferença entre uma estimativa em particular e a média populacional e portanto, é inerente à variabilidade do processo de amostragem. Suponha que, puramente ao acaso, a amostra inclua os menores elementos da população. A média amostral (X) estará abaixo da média populacional (µ) e o erro amostral será grande. O erro amostral é dado por E = X − µ. A estatística estuda o comportamento probabilístico dos erros amostrais. Existe também o erro não amostral que decorre de equívocos de amostragem, inexperiência do amostrador, falha de equipamentos, enganos no cômputo dos resultados, etc. A estatística não é capaz de lidar com estes erros. Acurácia se refere à proximidade entre o parâmetro e a estimativa média. Um estimativa acurada será, em média, igual ao parâmetro populacional. Diferente do erro amostral, a acurácia não se refere a uma estimativa em particular, mas ao valor esperado da estimativa, caso a amostragem fosse repetida um grande número de vezes. Uma estimativa não-acurada (viciada) resulta em valores consistentemente diferentes do parâmetro, podendo estar acima (viés positivo) ou abaixo (viés negativo) do verdadeiro valor populacional. Uma estimativa viciada pode resultar de um processo 12 Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar amostral equivocado ou do uso de um estimador não apropriado. Precisão tem relação com a variabilidade da estimativa. Estimadores que geram estimativas simi- lares entre si são precisos. Porém, se as estimativas estiverem distantes de sua média, o estimador será pouco preciso.Já dissemos que uma amostragem aleatória estrati�cada, se conduzida corretamente, irá produzir estimativas mais precisas que uma amostra aleatória simples. O objetivo da amostragem é obter estimativas precisas e acuradas (Figura 5). Porém, na impos- sibilidade de obtermos um censo, os parâmetros da população jamais serão conhecidos, de modo que é muito difícil termos uma ideia do grau de acurácia de nossas estimativas. Stuart (1984) cita esta questão como o "paradoxo da amostragem" "O paradoxo central da amostragem é que é impossível saber, a partir da observação da amostra, se ela é ou não uma boa amostra, no sentido de que seja livre de viés" (Stuart, 1984). Deste modo, garantir estimativas precisas e acuradas depende do conhecimento do pesquisador sobre a teoria de amostragem, de seu material de estudo e de um do delineamento experimental adequado. Figura 5: Representação dos conceitos de precisão e acurácia. O centro do alvo representa o parâmetro populacional e os pontos os valores das estimativas. Da esquerda para a direita as �guras descrevem estimativas não-acuradas e precisas; acuradas e precisas; acuradas e não-precisas; não-acuradas e não- precisas. 3.5 Exempli�cando erro amostral, acurácia e precisão Voltermos à nossa população �ctícia com somente 10 elementos: População: 3, 10, 14, 19, 27, 28, 29, 41, 42, 43 Para esta população em particular nós conhecemos a média populacional, de modo que será possível compará-la com as estimativas amostais. A média populacional é: Média Populacional: µ = 25.6 O que acontece se tomarmos uma amostra aleatória de tamanho n = 5: 13 Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar Amostra 1: 10, 29, 27, 43, 28 Para esta amostra, a média vale: Média amostral 1: X1 = 27.4 Obviamente, os valores µ = 25.6 e X = 27.4 não são idênticos, pois a amostra contém somente alguns elementos da população. A diferença entre µ e X é o erro amostral. Erro amostral 1: E1 = 27.4− 25.6 = 1.8 Se tomarmos outra amostra aleatória, teremos outro conjunto de unidades amostrais, e consequen- temente, um X e um erro amostral diferentes. Por exemplo: Amostra 2: 10 41 19 14 42 Média amostral 2: X2 = 25.2 Erro amostral 2: E2 = 25.2− 25.6 = −0.4 Acurácia Até agora, analisamos duas amostras diferentes da população. Porém, quantas amostras distintas seriam possíveis? Para uma população com 10 elementos, a teoria combinatória nos diz que são possíveis: ( 10 5 ) 10! (10−5)!·5! = 252 formas diferentes de combinarmos N = 10 elementos em amostras de tamanho n = 5. Inicialmente vamos avaliar a questão com um número menor. Sejam por exemplo, 10 amostras tomadas aleatoriamente, gerando os resultados a seguir: Am1 Am2 Am3 Am4 Am5 Am6 Am7 Am8 Am9 Am10 X1 10 43 28 42 29 27 3 29 43 41 X2 29 10 14 43 19 10 10 41 14 42 X3 27 29 29 10 43 14 29 14 3 14 X4 43 19 10 19 10 29 41 27 10 19 X5 28 41 42 3 14 3 19 3 28 27 X 27.4 28.4 24.6 23.4 23.0 16.6 20.4 22.8 19.6 28.6 Cada coluna desta matriz corresponde a uma possível amostra aleatória e as respectivas médias podem ser vistas na última linha. Algumas amostras tiveram médias muito distantes de µ, como: Am6 = 16.6 ou Am10 = 28.6. Esta variação é natural do processo amostral. Para entender melhor este processo, vamos obter todas as 252 combinações possíveis de amostras com n = 5 e extrair suas respectivas médias. Os resultados podem ser vistos no Box a seguir: 14 Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar 252 médias de amostras com n = 5 de uma população com N = 10 14.6 14.8 15.0 16.4 16.6 16.8 17.4 17.4 17.6 17.6 17.8 17.8 18.2 18.4 18.6 19.0 19.2 19.2 19.4 19.4 19.4 19.4 19.6 19.6 19.6 19.8 19.8 20.0 20.0 20.2 20.2 20.2 20.4 20.4 20.4 20.6 20.6 20.8 20.8 21.0 21.0 21.2 21.2 21.2 21.2 21.4 21.4 21.6 21.6 21.8 22.0 22.0 22.0 22.2 22.2 22.2 22.2 22.2 22.4 22.4 22.4 22.4 22.4 22.6 22.6 22.6 22.6 22.6 22.6 22.8 22.8 22.8 22.8 23.0 23.0 23.0 23.0 23.0 23.2 23.2 23.2 23.4 23.4 23.4 23.6 23.8 23.8 23.8 24.0 24.0 24.0 24.0 24.0 24.2 24.2 24.2 24.2 24.2 24.4 24.4 24.4 24.4 24.6 24.6 24.6 24.8 24.8 24.8 25.0 25.0 25.0 25.0 25.2 25.2 25.2 25.2 25.2 25.4 25.4 25.4 25.4 25.4 25.4 25.6 25.6 25.6 25.6 25.6 25.6 25.8 25.8 25.8 25.8 25.8 25.8 26.0 26.0 26.0 26.0 26.0 26.2 26.2 26.2 26.2 26.4 26.4 26.4 26.6 26.6 26.6 26.8 26.8 26.8 26.8 27.0 27.0 27.0 27.0 27.0 27.2 27.2 27.2 27.2 27.2 27.4 27.4 27.4 27.6 27.8 27.8 27.8 28.0 28.0 28.0 28.2 28.2 28.2 28.2 28.2 28.4 28.4 28.4 28.4 28.6 28.6 28.6 28.6 28.6 28.6 28.8 28.8 28.8 28.8 28.8 29.0 29.0 29.0 29.0 29.0 29.2 29.2 29.2 29.4 29.6 29.6 29.8 29.8 30.0 30.0 30.0 30.0 30.2 30.2 30.4 30.4 30.6 30.6 30.8 30.8 30.8 31.0 31.0 31.0 31.2 31.2 31.4 31.4 31.6 31.6 31.6 31.8 31.8 31.8 31.8 32.0 32.0 32.2 32.6 32.8 33.0 33.4 33.4 33.6 33.6 33.8 33.8 34.4 34.6 34.8 36.2 36.4 36.6 Note que a menor e maior médias possíveis são 14.6 e 36.6 respectivamente. Estes valores são os mais distantes do parâmetro populacional (µ = 25.6) e ocorrem quando, puramente ao acaso, são amostrados os cinco menores (3, 10, 14, 19 e 27) ou os cinco maiores (28 29 41 42 43) elementos da população. Estes casos extremos são raros. Em nosso exemplo, valores superiores a 34 ou inferiores a 16 são muito improváveis e a grande maioria das médias amostrais concentra-se na porção intermediária do grá�co (Figura 6). Se calcularmos amédia das médias (X), ou seja, somarmos todos este valores e dividirmos por 252, o resultado será 25.6 que é exatamente o valor da média populacional µ. Isto têm uma implicação central em inferência estatística. Signi�ca que a média amostral X é um estimador acurado (= não-viciado) pois tende a estimar corretamente o valor da média populacional µ. 15 Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar Distribuição das médias amostrais N úm er o de o bs er va çõ es 15 20 25 30 35 0 10 20 30 40 50 60 X = µ = 25.6 Figura 6: Distribuição de frequências de todas as 252 as médias amostrais X que podem ser obtidas a partir de amostras de tamanho 5. Precisão Suponha agora que tomemos ao acaso amostras de tamanho 7 desta mesma população. Existem( 10 7 ) 10! (10−7)!·7! = 120 amostras diferentes de tamanho 7 que podem ser retiradas de uma população de tamanho 10. Se pudéssemos obter estas 120 amostras e calcularmos suas respectivas médias amostrais, teremos os resultados abaixo. 120 médias de amostras com n = 7 de uma população com N = 10 18.6 20.3 20.4 20.4 20.6 20.6 20.6 20.7 20.7 20.9 21.7 21.9 22.0 22.3 22.4 22.4 22.4 22.6 22.6 22.6 22.6 22.7 22.7 22.7 22.9 23.0 23.1 23.3 23.6 23.7 23.7 23.9 23.9 23.9 24.0 24.0 24.0 24.1 24.1 24.3 24.3 24.4 24.4 24.6 24.6 24.6 24.6 24.7 24.7 24.9 24.9 25.0 25.0 25.1 25.1 25.1 25.3 25.3 25.4 25.7 25.7 25.9 25.9 25.9 26.0 26.0 26.0 26.0 26.1 26.1 26.1 26.3 26.3 26.3 26.4 26.4 26.4 26.6 26.6 26.7 27.0 27.0 27.1 27.1 27.3 27.3 27.3 27.4 27.6 27.7 27.9 28.0 28.0 28.0 28.1 28.1 28.3 28.3 28.3 28.4 28.6 28.6 28.7 28.9 29.0 29.1 29.3 29.3 29.4 29.6 30.0 30.1 30.3 30.4 30.6 30.7 30.9 31.4 32.0 32.7 16 Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar Distribuição das médias amostrais N úm er o de o bs er va çõ es 15 20 25 30 35 0 10 20 30 40 X = µ = 25.6 Figura 7: Distribuição de frequências de todas as 120 as médias amostrais X que podem ser obtidas a partir de amostras de tamanho 7. Se compararmos as Figuras 6 e 7, veremos que as duas geram estimativas acuradas, pois X = µ. No entando, o intervalo de variação é menor para amostras de tamanho 7, pois os valores estão mais concentrados ao redor da média. Podemos medir esta variação pelo erro padrão da média (σX) que é o desvio padrão de todas as médias amostrais que poderiam ser obtidas de uma amostra com tamanho n. Para nossas amostras com n = 5, σX = 4.43, enquanto para n = 7, σX = 2.91. Dizemos que última foi mais precisa. Conforme aumenta o tamanho amostral, aumenta a precisão do estimador. Como na vida real não temos como o obter todas as médias amostrais dapopulação, não temos como saber com exatidão qual será o valor de σX . No entanto, dado que temos uma amostra em particular, podemos estimar σX a partir de: sX = s√ n onde s é o desvio padrão de uma amostra em particular. Após esta discussão, podemos representar os conceitos de precisão e acurária mostrados inicialmente na Figura 5, utilizando histogramas de distribuição de frequência para as médias amostrais. Estes histogramas representam os resulados esperados de estimativas acuradas e não-precisas (Figura 8A), acuradas e precisas (Figura 8B), não-acuradas e precisas (Figura 8C) e não-acuradas e não-precisas (Figura 8D). Vemos portanto que precisão e acurária têm relação respectivamente com o grau de variabilidade das médias amostrais e a distância esperada de µ. 17 Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar Distribuição das médias amostrais 20 40 60 80 X = µ A Distribuição das médias amostrais 20 40 60 80 X = µ B Distribuição das médias amostrais 20 40 60 80 X < µ C Distribuição das médias amostrais 20 40 60 80 X < µ D Figura 8: Representação dos conceitos de precisão e acurácia. A linha vermelha tracejada representa a média populacional µ e os histogramas representam a distribuição de todas a médias amostrais com tamanho n desta população. A: estimativas acuradas e não-precisas; B: acuradas e precisas; C: não-acuradas e precisas; D: não-acuradas e não-precisas. 18 Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar 3.6 Introdução à su�ciência amostral Uma decisão central ao planejamento amostral é quanto recurso e tempo devem ser investidos em um experimento para se obter boas estimativas dos parâmetros populacionais. Por boas estimativas entendemos, amostras precisas, ou seja, com baixo erro padrão. Neste caso, uma das primeiras questões que se faz é: - Qual tamanho amostral aplicar em meu estudo? Já dissemos que aumentar o tamanho amostral resulta em estimativas mais precisas. Portanto, um bom delineamento amostral é aquele que permita, a um custo mínimo, obter estimativas com a precisão desejada. Uma pesquisa que resulte em estimativas demasiadamente imprecisas pode se mostrar inútil. O que dizer por exemplo, se um estudo conclui que o DAP médio de Rhizophora mangle é de 10 cm com uma incerteza entre 2 e 18 cm? Uma estimativa com tal nível de imprecisão não terá qualquer implicação prática. Já discutimos que amostras grandes geram estimativas mais precisas. No entanto, a partir de um determinado tamanho amostral o ganho em precisão torna-se mínimo. Veja que o erro padrão é dado por: sX = s√ n Se �zermos sX em função de n teremos uma �gura como abaixo: Tamanho amostral (n) E rr o pa dr ão d a am os tr a ( σ x ) 0 10 20 30 40 50 60 70 80 90 100 0. 5 1. 0 1. 5 2. 0 2. 5 3. 0 3. 5 4. 0 Figura 9: Valor esperado do erro padrão de amostras de tamanho 1 a 100 de uma população estatística com σ = 4 19 Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar Para amostras de tamanho 1, σX = 4. Se tivermos agora amostras de tamanho 10, σX = 1.2. No entanto se temos por exemplo amostras de tamanho 50 o erro padrão cai somente de 1.2 para 0.56 (Figura 9). Isto signi�ca que a partir de determinado ponto (neste exemplo 10 a 20 amostras), a redução no erro padrão torna-se mínima. Neste momento podemos podemos re�etri sobre o custo de continuar aumentando o tamanho amostral e o ganho cada vez menor em precisão. Encontrar o tamanho amostral desejado depende de: i - de�nirmos um nível de precisão desejado e ii - obtermos uma estimativa prévia ao menos sobre a ordem de grandeza de σ. O nível de precisão adequado varia em função do material em estudo e dos objetivos do experimento. Estimativas prévias dos parâmetros populacionais podem ser obtidas na literatura, buscando estudos similares ou por meio de um projeto piloto. Em um experimento piloto o pesquisador irá conduzir seu plano de amostragem com um tamanho mínimo, justamente para avaliar a e�ciência metodológica, adequabilidade dos re- sultados e prever o esforço amostral adequado. As informações de um pequeno estudo pilot, se bem aproveitadas, podem evitar erros simples de delineamento, além de invariavelmente permitir economia de recusros e ganho em qualidade. 3.7 Exempli�cando a questão da su�ciência amostral (códigos no R) Nesta seção, vamos exempli�car quais os efeitos do tamanho amostral sobre a precisão das estima- tivas de µ. Vamos simular a amostragem de uma população hipotética de DAPs de Rhizophora mangle mostrando os comandos feitos em R. Suponha que existam 5000 indivíduos em uma determinada área, com DAP médio µ = 10 cm e desvio padrão σ = 2 cm. A distribuição de frequências dos DAPs para a população estatistica pode ser observada na Figura 10. Classe de valores N úm er o de o bs er va çõ es 5 10 15 0 20 0 40 0 60 0 80 0 10 00 Figura 10: Distribuição de frequências de uma população estatística de DAPs. N = 5000, µ = 10, σ = 2. set.seed(1) rmangle = rnorm(5000) rmangle = (((rmangle - mean(rmangle))/sd(rmangle)) * 2) + 10 hist(rmangle, col = "gray", main = , ylab = "Número de observações", xlab = "Classe de valores", cex.lab = 1.6, cex.axis = 1.5) box() rm(.Random.seed) 20 Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar Seja uma amostra de tamanho 5 desta população. set.seed(1) Am5.1 <- round(sample(rmangle, 5, replace = F),2) cat("Amostra 1: ", Am5.1) rm(.Random.seed) Os valores obtidos foram: 39, 9.54, 13.31, 11.61, 6.28 A média desta amostra é X = 8.39, e está -1.61 centímetros abaixo da média populacional µ. Como já dissemos, este é o erro amostral. Poderíamos tomar uma amostra grande, por exemplo 100 indivíduos: set.seed(2) Am100.1 <- round(sample(rmangle, 100, replace = F),2) cat("Amostra 2: ") Esta amostra resultou nos seguintes valores: 10.83, 14.00, 10.46, 8.09, 11.39, 6.84, , 6.90, 10.66, 10.10, 9.94, 7.68, 9.19, 11.21, 10.38, 6.63, 9.77, 11.34, 7.55, 7.10, 9.87, 11.38, 7.62, 9.99, 13.46, 9.93, 7.62, 12.51, 8.84, 7.87, 7.89, 8.81, 6.77, 10.26, 7.98, 11.06, 9.15, 10.30, 11.31, 10.35, 12.02, 7.75, 6.21, 8.07, 11.42, 8.82, 8.68, 7.27, 12.35, 13.25, 9.97, 9.20, 11.20, 10.54, 11.92, 7.21, 9.74, 9.81, 8.88, 9.75, 9.60, 10.21, 7.26, 8.37, 9.80, 11.19, 7.29, 6.29, 6.06, 11.09, 10.89, 8.42, 13.76, 11.06, 8.18, 7.83, 9.17, 12.52, 11.69, 7.30, 10.01, 6.75, 8.26, 9.66, 10.98, 11.47, 11.14, 8.74, 8.79, 8.42, 8.91, 9.67, 10.89, 11.69, 8.01, 9.76, 7.75, 9.45, 11.00, 12.14 e 9.91 Neste caso, a média X = 10.83 está 0.83 centímetros acima da média populacional µ. Nosso objetivo não é saber sobre estas amostras em particular, mas entender qual seria o resul- tado esperado do erro amostral conforme aumenta o tamanho da amostra. Para isto, vamos simular 100 amostras aleatórias para um n = 2 e calcular suas médias. Em seguida, vamos fazer isto para n cada vez maiores e entender o que acontece com o erro amostral a medida que o tamanho da amostra cresce. Esperamos que conforme aumente o tamanho da amostra, a precisão aumente (o erro amostral diminua), mas que a partir de um determinado momento o ganho em precisão torne-se mínimo. R = 100 n = c(2, 5, 7, 10, 15, 20, 25, 30, 40, 50, 60) Rmangle1 <- matrix(NA, nrow = length(n), ncol = 100) for (i in 1: length(n)) a1 <- replicate(n = 100, sample(rmangle, size = n[i], rep = F)) Rmangle1[i,] <- apply(a1, 2, mean) IC = apply(Rmangle1, 1, quantile, probs = c(.05,.95)) Rmangle2 <- matrix(NA, nrow = length(n), ncol = 100000) for (i in 1: length(n)) a2 <- replicate(n = 100000, sample(rmangle, size = n[i], rep = F)) Rmangle2[i,] <- apply(a2, 2, mean) 21 Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar layout(m = matrix(1:2, nc = 2)) matplot(y = Rmangle1, x = matrix(n, nc = 1), pch = 1, col = 1, xlab = "Tamanho amostral", ylab = "Posição das médias amostrais", ylim = c(7, 14), cex.lab = 1.3, cex.axis = 1.2) legend(x = "topleft", legend = "A", bty = "n", cex = 2) matplot(y= t(IC), x = matrix(n, nc = 1), pch = 19, col = 1, type = "b", xlab = "Tamanho amostral", ylab = "Limites que abramgem 95legend(x = "topleft", legend = "B", bty = "n", cex = 2) 0 10 20 30 40 50 60 7 8 9 10 11 12 13 14 Tamanho amostral P os iç ão d as m éd ia s am os tr ai s A 0 10 20 30 40 50 60 7 8 9 10 11 12 13 14 Tamanho amostral Li m ite s qu e ab ra m ge m 9 5% d as m éd ia s am os tr ai s B Figura 11: Distribuição das possíveis médias amostrais com n variando entre 2 e 60. Em A estão as observações individuais das médias obtidas a partir da simulação de 100 amostras distintas para cada n. Em B estão os limites que abrangem 95% das possíveis médias amostrais. A �gura 11A mostra que com n = 2 poderíamos obter, puramente ao acaso, médias acima de 12 ou abaixo de 8. Considerando que a grande maioria das observações encontra-se entre 5 e 15, esta variação pode ser considerada alta. Conforme o tamanho amostral cresce, a probabilidade de ocorrerem estes extermos diminui. Para amostras com n = 60, todas as médias amostrais �cam entre 9.5 e 10.5 o que representa uma precisão mais eleveda. Entretando, vemos que não são necessárias amostras tão grandes para obter este nível de precisão. A partir de 20 ou 30 amostras, o ganho em precisão torna-se cada vez menor (Figura 11B), sugerindo que um n entre 20 e 30 já seria su�ciente para gerar estimativas precisas. Este padrão em cone é comum quando avaliamos o ganho em precisão em função do tamanho da amostra (Figura 11B). Avaliar a partir de qual tamanho a precisão torna-se adequada e se é possível obtê-la com os recursos e tempo disponíveis são os pontos chave de um bom delineamento. Voltaremos ao tópico da su�ciência amostral quando falarmos em inferência estatística, e após falarmos sobre os conceitos de probabilidade e distribuição normal. Neste ponto, iremos apresentar uma de�nição mais detalhada do que seriam limites de precisão adequados associando-os ao teste de hipóteses e estimação intervalar. Para uma discussão sobre sufuciência amostral veja Pillar (2004). 22 Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar Referências B. F. Manly and J. A. N. Alberto. Introduction to Ecological Sampling. CRC Press, 2014. L. G. Morettin. Estatística básica: probabilidade e inferência. Pearson Prentice Hall, 2010. V. P. Pillar. Su�ciência amostral. In C. E. de M. Bicudo e Denise de C. Bicudo, editor, Amostragem em limnologia. RiMa, São Carlos, 2004. D. Salsburg. The lady tasting tea: How statistics revolutionized science in the twentieth century. Macmillan, 2001. A. Stuart. The ideas of sampling. Gri�n, 1984. M. F. Triola. Introdução à Estatística: atualizaçao da tecnologia. LTC, 2014. A. J. Underwood. Experiments in ecology: their logical design and interpretation using analysis of variance. Cambridge University Press, 1997. 23 Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar Atividades Práticas Lançamento de dados Esta atividade tem como objetivo discutir os conceitos de Parâmetros e Estimadores. O grupo deve escolher um dado. O experimento consiste em jogar o dado e anotar a face que sair para cima. a) Anote quais os possíveis resultados deste experimento (o espaço amostral - S). S: b) Calcule a média (µ) e desvio padrão (σ) da população. µ: σ: c) Lance o dado 5 vezes anote os resultados e calcule a média (X), desvio padrão (s), erro padrão (sX) e o erro amostral (E) da amostra. Repita este procedimento 10 vezes. Lançamento 1 2 3 4 5 X s sX E Experimento 1 Experimento 2 Experimento 3 Experimento 4 Experimento 5 Experimento 6 Experimento 7 Experimento 8 Experimento 9 Experimento 10 d) Refaça o experimento anterior lancando o dado 15 vezes em cada experimeto. Repita o procedi- mento 10 vezes. Lançamento 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 X s sX E Experimento 1 Experimento 2 Experimento 3 Experimento 4 Experimento 5 Experimento 6 Experimento 7 Experimento 8 Experimento 9 Experimento 10 e) Para os resultados dos items c e d, faça os histogramas de X, s, sX e E. Calcule a média das médias (X) e a média dos erros amostrais (E) 24 Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar f) Com base nestes resultados, explique as diferênças em termos de precisão, dos experimentos reali- zados em c e d. g) X, s, sX são estimadores. Como eles se relacionam aos Parâmetros µ e σ? 25 Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar Tamanho populacional e padrão de distribuição espacial Neste exercício iremos estimar a densidade média de uma população em 3 regiões (A, B e C) de 250.000 m2 cada (500 x 500m de extensão). A amostragem será feita por parcelas. Devido à limitação de tempo, a área total amostrada não pode ultrapassar 90.000 m2 (300 x 300 m). • Você irá testar 2 dois tipos parcelas em cada região, parcelas pequenas (50 x 50 m) e grandes (100 x 100 m). Em função das áreas das parcelas grandes e pequenas, de�na qual serão os tamanhos amostrais. • Sorteie a posição de cada parcela no grid em Branco. • Sobreponha as parcelas sorteadas em cada uma das �guras abaixo. • Calcule as densidades médias (X), desvios padrões (s) e erros padrões (sX). QUESTÕES a) Quais foram os tamanhos amostrais para cada tipo de parcela? b) Explique como foram escolhidas as posições das parcelas. c) Faça histogramas dos seus resultados. d) Qual foram as densidades médias estimadas em cada região? e) Qual foram as incertezas nas estimativas para cada região? Como você explica este padrão? f) Diante dos resultados, você pode dizer se há diferença nas densidades médias das três regiões? 26 Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar 0 50 100 150 200 250 300 350 400 450 500 0 50 100 150 200 250 300 350 400 450 500 Figura 12: Grid para a de�nição das áreas de amostragem. 27 Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar 0 50 100 150 200 250 300 350 400 450 500 0 50 100 150 200 250 300 350 400 450 500 Figura 13: Distribuição Espacial Aleatória. X: s: sX : 28 Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar 0 50 100 150 200 250 300 350 400 450 500 0 50 100 150 200 250 300 350 400 450 500 Figura 14: Distribuição Espacial agregada. X: s: sX : 29 Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar 0 50 100 150 200 250 300 350 400 450 500 0 50 100 150 200 250 300 350 400 450 500 Figura 15: Distribuição Espacial em gradiente. X: s: sX : 30 Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar Jogo do funil Materiais: garrafa pet, folha grande, régua e tesoura. Corte a boca de uma garrafa plática e �que com a parte superior. Em uma cartolina, trace duas linhas perpendiculales dividindo o papel em 4 quadrantes. O objetivo é passar uma bola de gude pela garrafa de modo a acertar o meio da cartolina, no curzamento das duas linhas. Posicione a garrafa a uma altura �xa (ex. 1m) tentando, ao máximo, alinhar com o centro da cartolina. Uma segunda pessoa irá jogar a bola de gude. Vocês devem anotar a distância que a bola caiu do centro. Esta distância poderá ser negativa se cair dentro dos quadrandes 1 ou 3 ou positiva se cair nos quadrantes 2 ou 4. a) Pegue uma bola de gude grande e joge 20 vezes. Anote as distâncias. b) Faça um histograma dos seus resultados. c) Calcule X, s e sX . d) Repita os items anteriores com uma bole de gude pequena. e) Cada grupo da sala irá escrever os resultados do item c na lousa. Com base nestes resultados: • Faça histogramas das médias (X), desvios padrões (s) e erros padrões (sX). • Comparem os experimentos com bolas grandes e pequenas em termos de acurácia e precisão? 31
Compartilhar