Buscar

Apostila_Estatistica_BICT

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 31 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 31 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 31 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar
Estatística e Probabilidade para as
Ciências Ambientais
Departamento de Ciências do Mar
Universidade Federal de São Paulo
Campus Baixada Santista
Fabio Cop Ferreira
21 de novembro de 2017
Sumário
1 Introdução 2
1.1 População, amostra e unidade amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Distribuições de frequência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Parâmetros e estatísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 Amostragem, estimadores e inferência . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.5 Medidas de tendência central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.6 Medidas de variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2 Estatística descritiva 7
2.1 Dados quantitativos vs. qualitativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Níveis de mensuração . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3 Amostragem 9
3.1 Amostragem aleatória simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.2 Amostragem aleatória estrati�cada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.3 Amostragem sistemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.4 Erro amostral, acurácia e precisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.5 Exempli�cando erro amostral, acurácia e precisão . . . . . . . . . . . . . . . . . . . . . 13
3.6 Introdução à su�ciência amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.7 Exempli�cando a questão da su�ciência amostral (códigos no R) . . . . . . . . . . . . 20
1
Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar
1 Introdução
A origem do termo estatística está relacionada ao processo de obtenção de dados demográ�cos e
socioeconômicos para descrever as características de um Estado ou Nação. Um dos primeiros usos
neste sentido pode ter sido o estudo das taxas de mortalidade em Londres publicado em 1663 por
John Graunt. Nesta apostila, vamos tratar da Estatística como a ciência estuda o planejamento de
experimentos, coleta, análise, apresentação e interpretação de dados. Ao longo do século XX, o método
estatístico se tornou central à construção do conhecimento cientítico. Alguns autores se referem a uma
revolução estatística nas ciências, onde o método cientí�co e o pensamento estatístico tornaram-se
intimamente relacionados (Salsburg, 2001).
1.1 População, amostra e unidade amostral
Em estatística, o conceito de população se refere a todos os elementos sobre os quais queremos
tirar conclusões. É comum a confusão entre os termos população estatística e população biológica (nas
ciências naturais) ou população humana (em ciências sociais). No entanto, população estatística
refere-se ao conjunto de medidas (e não organismos ou pessoas) associadas a um determinado estudo.
Estas medidas podem ser pesos, temperaturas, velocidades, tempos de reação, entre outras. A abran-
gência da população estatística depende do contexto do estudo e do escopo da pergunta que se pretende
responder.
Suponha um estudo para descrever o peso uma espécie de robalo no estuário de Cananéia. A
população estatística não são os robalos em si, mas o peso de cada indivíduo. Dado o escopo do estudo,
a população estatística abrange somente pesos dos organismos que habitam o estuário de Cananéia.
Suponha agora que desejamos estudar a diversidade de espécies de peixes em reservatórios do estado de
São Paulo. Neste caso, a população estatística poderia consistir de um índice de diversidade calculado
para cada um dos reservatórios do estado. Fica claro que, neste caso, população estatística não tem
qualquer relação com população biológica.
Nos dois exemplos acima é inviável obtermos informações de todos os elementos que compõem a
população estaística. Para o exemplo dos robalos, temos provavelmente alguns milhares de peixes e
consequentemente, o mesmo número de pesos individuais. O número de reservatórios é bem menor,
porém ainda é inviável mensurar a diversidade de espécies em todos eles. Um censo ocorre nos raros
exemplos em que é possível mensurar todos os elementos da população estatística. Entretanto, a
prática em estatística lida com a maioria dos casos em que mensuramos um subconjunto da população
estatística, de�nido como uma amostra.
Finalmente, unidade amostral é de�nida como um único elemento da população estatística. A
unidade amostral deve ser a menor unidade independente associada ao estudo. A necessidade das
unidades amostrais constituirem elementos independentes é um dos pressupostos centrais da estatística
e suas implicações �carão mais claras quando tratarmos do processo de amostragem. No exemplo dos
robalos, unidade amostral é o peso mensurado em um indivíduo da população, enquanto no exemplo
dos reservatórios, unidade amostral é um único valor dediversidade calculado para um dos reservatórios.
Os conceitos de população estatística, amostra e unidade amostral são discutidos em capítulos
introdutórios de diversos livros texto (Morettin, 2010; Triola, 2014).
2
Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar
População estatística: todos os elementos que podem compor uma amostra. Podem
ser medidas como pesos, temperaturas, velocidades, etc.
Unidade amostral: um único elemento da população.
Censo: o levantamento de todos os elementos da população.
Amostra: um subconjunto extraído da população.
Tamanho populacional (N ): o número de elementos da população.
Tamanho amostral (n): o número de elementos da amostra.
1.2 Distribuições de frequência
Os valores da população estatística não são idênticos. Os robalos não têm todos o mesmo peso e a
diversidade de peixes não é a mesma em todos os reservatórios do estado de São Paulo. Dizemos que
existe uma distribuição de valores possíveis. O comprimento de robalos pode abranger desde alguns
milímetros (pós-larva) a mais de 1 metro, porém nem todos os valores são igualmente representados.
Provavelmente existem mais robalos pequenos e médios que robalos grandes. Se fosse possível obser-
var todos os elementos da população estatística, poderíamos organizá-los em uma distribuição de
frequências, onde veríamos que algumas classes de valores são mais comuns que outras. No exemplo
abaixo existem mais observações concentradas entre os valores de 45 e 55 e poucas observações acima
de 60, ou abaixo de 40 (Figura 1).
Classe de valores
N
úm
er
o 
de
 o
bs
er
va
çõ
es
35 40 45 50 55 60 65
0
5
10
15
Figura 1: Distribuição de frequências de uma população estatística
1.3 Parâmetros e estatísticas
Um conjunto de observações costuma ser caracterizada por dois tipos de descritores, medidas de
tendência central e medidas de dispersão. Considere a questão: Qual o peso de robalos do estuário de
Cananéia? Geralmente, entendemos esta questão como: - Qual o peso de um robalo típico? Sendo que
um robalo típico pode ser entendido como um robalo de peso médio. Se o peso médio é calculado a
partir de todos os elementos da população, ele é um parâmetro, um descritor da população estatística.
Os parâmetros só podem ser obtidos por meio de um censo, pois para serem calculados requerem que
todos os elementos da população sejam mensurados. Por outro lado, se �zermos uma amostragem da
população, pesando 30 robalos por exemplo, teremos um descritor da amostra. Os descritores de
uma amostra são conhecidos como estatísticas ou estimadores.
3
Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar
Parâmetro: a medida que descreve uma característica da população. Ex.: a média (µ)
ou a variância (σ2) populacional.
Estimador ou Estatística: Uma medida que descreve uma característica da amostra.
Ex.: a média (X) ou a variância (s2) amostral.
Estimativa: é o valornumérico assumido pelo estimador. Ex. o valor número da média
ou variância amostral.
1.4 Amostragem, estimadores e inferência
Uma vez de�nida a população estística, deve ser de�nido o procedimento amostral que iremos utili-
zar para acessar seus elementos. Em última instância, não estamos interessados na amostra em si, mas
nas características da população da qual ela é proveniente. Tendo essa premisa em mente, a importân-
cia do processo de amostragem está no fato de que, na impossibilidade de observar toda a população,
a amostra é nossa única fonte de informação disponível. Uma amostragem mal conduzida pode nos
trazer informações inúteis sobre a população. Dizemos então que uma amostra deve representativa
da população de origem.
Tendo em mãos uma amostra representativa, calculamos estatísticas que são os estimadores dos
parâmetros populacionais. A inferência é o processo inverso da amostragem, i.e. aquele que nos
permite tirar conclusões sobre a população de origem a partir das informações contidas na amostra
(Figura 2).
Figura 2: Representação do processo de amostragem e inferência sobre os parâmetros populacionais.
1.5 Medidas de tendência central
Uma distribuição de frequência pode ser descrita a partir de uma medida de tendência central
que indica o valor ao redor dos quais a maior parte das observações está concentrada. Iremos apresentar
quatro destas medidas: a média aritmética, a mediana, a moda e o ponto médio.
A média aritmética é a medida de tendência central mais comum. Para uma população estatística
de tamanho N, com X1, X2, X3, · · · , XN elementos, ela é referida como a média populacional, indicada
pela letra grega µ, onde:
µ = X1+X2+X3+···+XNN =
∑N
i=1Xi
N
Quando nos referimos a uma amostra com n elementos, a média aritmética amostral (X) é dada
por:
4
Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar
X = X1+X2+X3+···+Xnn =
∑n
i=1Xi
n
Amediana é outra medida de centro que pode ser de�nida como o valor do meio de uma distribuição,
de modo que metade dos valores estão abaixo e metade está acima da mediana. A mediana, ao contrário
da média, é pouco in�uenciada por valores extremos.
A moda é de�nida como o valor mais frequente de uma distribuição e �nalmente, o ponto médio é
calculado com base em somente dois valores da distribuição - o máximo e o mínimo, sendo obtido por:
Pmedio =
Xmaximo+Xminimo
2
Valores extremos não têm in�uência sobre a moda porém têm grande efeito sobre o ponto médio.
Dissemos que um conjunto de dados pode ser representado por uma distribuição de frequências e
por medidas de tendencia central. Existe uma relação entre o formato de uma distribuição de frequência
e a posição relativa da média aritmética, da mediana e da moda. Em um grá�co simétrico, onde as
observações estão dispersas igaulmente acima e abaixo do ponto central, os valores da média, mediana e
moda coincidem. Este tipo de distribuição é dita simétrica (Figura 3B). Por outro lado, pode ocorrer
que a distribuição de valores seja assimétrica. Neste caso, a posição relativa da média, mediana e
moda depende se a assimetria é à direita (Figura 3A) ou à esquerda (Figura 3C). Esta discrepância
ocorre devido à sensibilidade destas medidas a valores extremos na distribuição, em que a média é mais
sensível que a mediana e a moda (Triola, 2014).
Assimetria à direita
Moda
Mediana
Média
A
Distribuição simétrica
Média = Mediana = Moda
B
Assimetria à esquerda
Moda
Mediana
Média
C
Figura 3: Relação entre a assimetria de uma distribuição de frequência e a posição relativa da média,
mediana e moda.
Média: utiliza todo o conjunto de dados. Sensível a valores extremos. Dentre todos os
estimadores de tendência central é o menos variável;
Mediana: o valor do meio. Metade dos pontos está acima e metade abaixo da mediana.
A mediana é uma medida resistente a valores extremos;
Moda: valor mais frequente. Se mais de um valor tem a mesma frequência, os dados têm
uma distribuição multimodal ;
Ponto médio: considera somente os valores máximos e mínimos. Fácil de calcular porém
não utiliza a maioria do conjunto de dados e é muito sensível a valores extremos.
5
Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar
1.6 Medidas de variação
Diferente das medidas de tendência central, as medidas de variação indicam o grau de dispersão
das observações. Distribuições com observações muito próximas à média têm baixo grau de dispersão,
enquanto aquelas com observações muito distantes da média têm alto grau de dispersão. Vamos apre-
sentar quatro índices que medem o grau de dispersão: a variância, o desvio padrão, o coe�ciente de
variação e a amplitude de variação.
A variância mede quão distante os valores estão da média aritmética. A variância populacional é
indicada pela letra grega σ2, onde:
σ2 =
∑N
i=1 (Xi−µ)2
N
Quando nos referimos a uma amostra, a variância amostral é indicada por s2 e dada por:
s2 =
∑N
i=1 (Xi−X)2
n−1
Note que para a variância amostral, utilizamos X e não µ, porque estamos medindo a dispersão
das observações ao redor da média amostral. O denominador da equação também muda para n-1 pois
agora estamos nos referindo à uma amostra com n elementos. A subtração por n-1 é necessária para
que s2 seja um estimador não viciado de σ2.
Outra medida de dispersão é o desvio padrão que é simplesmente a raiz quadrada da variância e por-
tanto, dado na mesma escala de mensuração das observações originais. O desvio padrão populacional
(σ) é dado por:
σ =
√∑N
i=1 (Xi−µ)2
N
enquanto para a amostra (s) é:
s =
√∑N
i=1 (Xi−X)2
n−1
O coe�ciente de variação (cv) relaciona o desvio padrão à média, sendo de�nido por:
cv = s/X ou cv% = s/X · 100
O coe�ciente de variação amostral descrito acima, é um estimador do coe�ciente de variação da
população, onde s é substituído por σ, e X por µ.
Finalmente, a amplitude de variação é a diferença entre os pontos máximo e mínimo de um grupo
de observações
Amplitude de variação = Xmaximo −Xminimo
6
Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar
Cálculo das medidas de tendência central e dispersão
Considere uma amostra do comprimento da carapaça de 10 caranguejos Menipe nodifrons:
Xi (em centímetros): 4.0, 4.1, 4.5, 4.9, 5.0, 5.0, 6.6, 7.0, 7.7, 7.9
Média: X = 4.0+4.1+4.5+4.9+5.0+5.0+6.6+7.0+7.7+7.910 = 56.7/10 = 5.67
Mediana: 4.0, 4.1, 4.5, 4.9, 5.0, 5.0, 6.6, 7.0, 7.7, 7.9
Mediana = 5+52 = 5
Moda = 5 (o único número que se repete mais de uma vez na distribuição)
Pmedio =
7.9+4.0
2 = 5.95
Variância: s2 = (4.0−5.67+4.1−5.67+4.5−5.67+4.9−5.67+5.0−5.67+5.0−5.67+6.6−5.67+7.0−5.67+7.7−5.67+7.9−5.67)
2
10−1
Variância: s2 = 19.84/9 = 2.20
Desvio padrão: s =
√
2.20 = 1.48
Coe�ciente de variação: cv = 1.48/5.95 · 100 = 26.19%
2 Estatística descritiva
Vimos como descrever um conjunto de dados por histogramas de frequência, medidas de centra-
lidade (média, mediana, moda) ou dispersão (desvio padrão, variâncias, amplitude de variação). A
estatística descritiva envolve ainda uma série de outros métodos utilizados para compreendermos quais
são as informações mais relevantes em um conjunto de dados e resumí-las de maneira adequada. Estes
métodos envolvem em grande parte, a contrução de grá�cos e tabelas apropriados a diferentes tipos de
dados a �m de simpli�car a interpretação.
2.1 Dados quantitativos vs. qualitativos
Dados podem ser do tipo i) quantitativo, representando contagens ou medidas (pesos, temperaturas,
comprimentos), ou ii) qualitativo representando atributos ou categorias não-numéricas (cor, pro�ssão,
tipos de vegetação).
Dados quantitativos podem ainda ser discretos ou contínuos. Dados são discretos quando descrevem
elementos enumeráveis. A contagem do número de pessoas em uma sala, número de ovos em uma
ninhada, número conchas no oceano. Dados discretos podem somente assumir valores inteiros (0, 1,
2,. . . ). Não existem valores fracionários como 1.5 pessoas, 2.5 conchas. Dados contínuos se referem
a medidas que podem assumir in�nitosvalores, sem intervalos vazios. Pluviosidade, temperatura e
pesos são alguns exemplos. A pluviosidade pode ser de 200 mm, 200.1 mm, 200.01 mm, 200.001 mm
de chuva. O limite de precisão é aquele que podemos mensurar com os aparelhos disponíveis.
2.2 Níveis de mensuração
Uma outra forma de organizar tipos de dados pode ser em função dos níveis de mensuração: no-
minal, ordinal, intervalar e razão.
7
Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar
Nível nominal: é característico de dados que possuem atributos ou categorias. Estes dados não
podem ser ordenados. Ex. cor, grupo taxonômico, nomes de cidades, etc.
Nível ordinal: é aquele em que os atributos podem ser ordenados, embora não seja possível quan-
ti�car as diferenças entre dois níveis. Ex. i - Maratonistas podem ser classi�cados quanto à ordem de
chegada em uma competição (1o, 2o, 3o, . . . ). ii - Cidades podem ser classi�cadas quanto às condições
de saneamento: ótimo, bom, ruim, péssimo. iii - Pessoas podem ser ordenadas em ordem alfabética.
No nível ordinal, não há sentido em quanti�car as diferenças entre os níveis.
Nível intervalar: é aquele em que, além ser possível ordenar, é posível quanti�car as diferenças
entre duas observações. No entanto, não há um ponto inicial natural, um ponto zero que indique au-
sência da quantia. Ex. i - Temperatura: zero graus não signi�ca ausência de temperatura, assim como
dez graus não é duas vezes mais quente que 5 graus centígrados. Essas características são somente uma
convenção relacionada à escala de mensuração da temperatura. ii - Ano do calendrário: o ano zero é
uma convenção do calendário, não signi�ca ausência de tempo.
Nível de razão: É como o intervalar, mais existe um ponto zero natural. Peso igual a 0 kg é
ausência de peso e dez quilogramas é duas vezes mais pesado que 5 kg. O mesmo vale para comprimento,
distância, velocidade, número de ovos.
Existe uma relação entre tipo de dados e nível de mensuração. Da explicação acima, �ca claro
que os níveis nominal e ordinal se referem a dados qualitativos, enquanto os níveis intervalar e razão
referem-se a dados quantitativos.
Sempre é possível transformar dados quantitativos em qualitativos. Se temos o comprimento em
cm de peixes desembarcados (dados quantitativos, nivel de mensuração razão), podemos transformá-lo
em atributos como peixes grandes e pequenos (qualitativo, nível de mensuração ordinal). Por outro
lado, o contrário não é possível.
8
Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar
3 Amostragem
O objetivo da amostragem é descrever características da população estatística por meio de carac-
terísticas da amostra. E um estudo do diâmetro dos caules de Rhizophora mangle em um manguezal
(DAP: diâmetro a altura do peito), a população estatística são os diâmetros de todas as árvores do re-
ferido manguezal. Esta população pode ser descrita por parâmetros que representam medidas de centro
como o diâmetro médio (µ), ou por medidas de variação como o desvio padrão (σ), que representam
o grau de dispersão das unidades amostrais ao redor da média. Se amostramos n elementos desta
população, a média amostral (X) e o desvio padrão amostral (s) dos diâmetros serão os estimadores
destas características.
Dependendo da questão envolvida e do conhecimento prévio sobre a população, diferentes méto-
dos de amostragem são apropriados. A teoria da amostragem é a área da ciência que estuda estes
métodos. Nesta apostila vamos discutir quatro tipos de amostragem: aleatória simples, estrati�cada e
sistemática. Mais sobre este assundo deve ser visto em Stuart (1984), Morettin (2010) e Triola (2014).
3.1 Amostragem aleatória simples
É aquela em que cada elemento da população tem a mesma probabilidade de ser selecionado para
compor a amostra. Por exemplo, se a população consiste de 1000 elementos, cada um terá uma
probabilidade de 1/1000 de ser escolhido. Isto isenta o pesquisador de tomar qualquer decisão com
base em julgamentos pré-concebidos, sobre quais alementos devem ou não fazer parte da amostra.
Para exempli�car suponha uma população hipotética de somente 10 elementos:
População: 3, 10, 14, 19, 27, 28, 29, 41, 42, 43
Em uma amostra aleatória simples de cinco elementos, qualquer combinação destes 10 elementos é
igualmente provável. Se por puro acaso sortearmos uma amostra aleatória contendo os cinco menores
valores da população:
Amostra 1: 3, 10, 14, 19, 27
a amostra seria tão aleatória (e tão provável) quanto outra em que as observações se distribuíssem de
forma mais homogênea ao longo dos limites da população:
Amostra 2: 10, 29, 27, 43, 28
Isto sugere que uma amostra aleatória não é necessariamente representativa da população. Amos-
tras pequenas por exemplo, têm uma chance maior de selecionar os maiores ou menores elementos da
população. A média amostral calculada para estas amostras estará distante da média populacional.
No entanto, a importância central da amostragem aleatória em estatística está no fato de que a alea-
toriedade produz, em média, amostras representativas da população, no sentido de que a maioria das
vezes, uma amostra aleatória tenderá a gerar mádias amostrais próximas à média populacional. Deste
modo, garantir a aleatoriedade no processo amostral é importante para permitir que a inferência seja
válida com base nas leis de probabilidade (Stuart, 1984; Underwood, 1997; Manly and Alberto, 2014).
O modo mais direto de se obter uma amostra aleatória é por meio de sorteio. Após atribuir um
número de 1 a N a cada unidade amostral, estas são sorteadas até que seja atingido o tamanho n
desejado. Na prática, nem sempre é possível obtermos uma amostra aleatória nestes moldes. Para
o exemplo do DAP de Rhizophora mangle, não seria viável enumerar todas as árvores para, após um
sorteio, tomar as medidas das árvores selecionadas. Entretanto, se tivermos as coordenadas geográ�cas
da área, poderíamos sortear n posições no espaço e, chegando ao local desejado, escolher a árvore mais
9
Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar
próxima. Este procedimento nos daria um resultado igualmente válido em termos de garantirmos a
escolha aleatória das unidades amostrais. Outras di�culdades práticas obviamente seriam possíveis
neste procedimento, como garantir acesso irrestrito ou tempo disponível para percorrer a toda região.
Questões como estas não devem desmerecer o requisito básico de se obter uma amostra aleatória,
mas nos auxiliar a decidir como conciliar a prática de campo ou de laboratório com a necessidade da
aleatorização em um experimento.
3.2 Amostragem aleatória estrati�cada
Se tivermos algum conhecimento prévio de como a população está estruturada, a amostra aleatória
simples, embora não esteja incorreta, pode não ser a estratégia mais e�ciente. Se for possivel iden-
ti�car estratos ou subgrupos dentro da população, podemos conduzir uma amostragem aleatória
estatificada.
Voltemos ao exemplo da Rhizophora mangle. Suponha que o manguezal em estudo possa ser
dividido em duas áreas. Uma área que foi recentemente perturbada por ações antrópicas e encontra-se
em estado de regeneração, e uma área que sempre esteve livre da ação humana. Espera-se que as
árvores na área íntegra sejam mais velhas e portanto tenham em média DAPs maiores, enquanto na
área em regeneração os DAPs médios sejam menores (Figura 4A).
Em uma amostra aleatória simples, sobretudo se for pequena, é possível que puramente ao acaso,
um ou outro estrato se torne mais representado. Isto tornará as estimativas mais variáveis. Se dermos
azar da maioria das unidades amostrais serem sorteadas do estrato íntegro, teremos estimativas de
DAP muito acima de µ (Figura 4B). No entanto, se a seleção dos indivíduos foi feita por meio de
sorteio, o simples fato de observarmos este padrão não é por si só justi�cativa para refarzermos a
amostra. O ponto relevante aqui é que em uma amostra aleatória simples estes extremos indesejáveis
são mais prováveis de acontecer.
Em umaamostragem estrati�cada o esforço amostral é subdividito entre os estratos, que em nosso
exemplo seriam as áreas integra e perturbada. O tamanho amostral em cada estrato será o mesmo, ou
proporcional ao tamanho do estrato. Após de�nirmos o tamanho amostral em cada estrato, as unidades
amostrais são selecionadas por meio de uma amostragem aleatória simples. Deste modo, teremos
certeza de que todos os estratos estarão representados na amostra conforme sua representatividade na
população (Figura 4C) e as estimativas tenderão a se concentrar mais próximas à µ se compararmos
com os resultados de uma amostra aleatória simples.
Quando os estratos são identi�cados corretamente, a principal vantagem da amostra aleatória es-
trati�cada sobre a amostra aleatória simples está em aumentar a precisão das estimativas. Mais a
frente iremos discutir os conceitos de precisão e acurácia e relacioná-los com as estratégias amostrais
discutidas aqui.
3.3 Amostragem sistemática
Uma amostragem sistemática é possível quando as unidades amostrais podem ser ordenadas. A
ordenação segue alguma característica da unidade como peso, idade, salinidade, posição no espaço
ou intervalo de tempo. O objetivo é garantir que a amostra inclua todo o intervalo de variação da
população. Neste tipo de amostragem, selecionamos um elemento inicial e, em intervalos regulares,
selecionamos os demais elementos.
Em nossa amostragem de Rhizophora mangle, poderíamos ordenar as árvores da menor para a
maior, selecionar uma árvore inicial (p. ex. a 5a) e um intervalo (por exemplo a cada 10 árvores).
A amostragem iria consistir da 5a, 15a, 25a, 35a, · · · árvores, até chegarmos ao maior indivíduo. Deste
modo, saberíamos que todo o intervalo de DAPs estaria representado na amostra. Obviamente este
exemplo é inviável, pois necessitaríamos de uma lista de prévia do tamanho e posição de todas as
10
Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar
árvores antes de conduzirmos a amostragem. Um exemplo de amostragem sistemática mais factível,
seria de�nir alguns transectos lineares e dispor n pontos equidistantes. A amostra iria consistir dos
DAPs mensurados nas árvores imediatamente mais próximas a cada um dos pontos (Figura 4D). Se
o comprimento e direção dos transectos forem bem escolhidos, garantimos que toda a área de estudo
seja abrangida.
Index
Á
re
a 
ín
te
gr
a
Á
re
a 
em
 r
eg
en
er
aç
ão
A
Index
1
Á
re
a 
ín
te
gr
a
Á
re
a 
em
 r
eg
en
er
aç
ão
B
Á
re
a 
ín
te
gr
a
Á
re
a 
em
 r
eg
en
er
aç
ão
C
1
Á
re
a 
ín
te
gr
a
Á
re
a 
em
 r
eg
en
er
aç
ão
−
−
−
−
−
−
−
−
−
−
−
−
D
Figura 4: Distribuição de uma população com N = 200 em uma área em regeneração e uma área
íntegra adjacentes. Os triângulos representam a posição espacial dos indivíduos em uma amostra
aleatória simples (B), aleatória estrati�cada (C) e sistemática (D). A amostra sistemática consiste de
três transectos com 4 pontos em cada. A amostra consiste do indivíduo imediatamente mais próximo
a cada ponto.
A escolha da amostragem sistemática ao invés de uma amostragem aleatória simples, se deve à sua
praticidade. Se a característica de interesse das unidades amostrais estiver disposta de forma aleatória
ao longo do transecto escolhido, os dois métodos irão gerar resultados similares. Na maioria dos
casos, é isto que o pesquisador assume (ainda que implicitamente) quando opta por uma amostragem
11
Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar
sistemática. Por outro lado, se houver um gradiente justamente na direção do transecto, a variância
amostral irá superestimar a variância populacional equanto, se houver uma periodicidade que coincida
com o intervalo escolhido, a variância amostral irá subestimar a variância populacional (Manly and
Alberto, 2014).
3.4 Erro amostral, acurácia e precisão
Falha na pesquisa da Literary Digest Adaptado de Triola (2011): Introdução à Estatística
Fundada em 1890, a revista Literary Digest �cou famosa por seu sucesso na realização de pesquisas
eleitorais para presidente nos EUA. A revista previu corretamente os vencedores das eleições de 1926,
1920, 1924, 1928 e 1932. Na disputa de 1936 entre Alf Landon e Frankling D. Roosevelt, a revista
enviou 10 milhões de cédulas à população e recebeu de volta 1.293.669 de cédulas favoráveis à Landon
e 972.897 favoráveis a Roosevelt. Isto sugeria que Landon teria 57% dos votos. O tamanho amostral
da pesquisa era extremamente grande em comparação a outras pesquisas da época. Mais de 2 milhões
de eleitores opinaram, de maneira que ninguém podia imaginar um resultado contrário à Landon.
James A. Farley, presidente do Comitê Democrático Nacional à época, elogiou a pesquisa dizendo:
"Qualquer pessoa em sã consciência não pode não pode escapar à implicação de tão gigantesca
amostragem da opinião popular... Eu a considero como evidência do desejo do povo desse país de
uma mudança no Governo Nacional. A pesquisa da Literary Digest é um avanço de não pequena
dimensão. É uma pesquisa realizada de maneira justa e correta".
Resultado: Landon recebeu 16.679.583 votos contra 27.751.597 votos para Roosevelt. Isto signi�ca
37% dos votos para Landon (e não 57%) contra 61% para Roosevelt. O enorme erro da Literary
Digest foi humilante, de modo que a revista logo saiu de circulação. A Guallup por outro lado se
tornou central nas pesquisas das futuras eleições presidenciais e até hoje é uma das organizações
mais proeminentes de pesquisa eleitoral
Na mesma eleição, George Gallup usou uma pesquisa muito menor, com 50.000 eleitores que predisse
corretamente o resultado a favor de Roosevelt. Como poderia uma pesquisa feita com tão grande
errar, e por uma diferença tão marcante? Serão as pesquisas de opinião irrelevantes? O que não deu
certo?
No Brasil, pesquisas de intenção de votos presidenciais são feitas com um número muito menor de
eleitores, cerca de 2.500 (a Literary Digest usou mais de 2 milhões e Gallup, 50.000!!). O que dizer
da qualidade destas pesquisas com número aparentemente tão pequenos se considerarmos o tamanho
da população eleitoral brasileira? Elas seriam menos con�áveis?
Como as estimativas são obtidas de um subconjunto da população (a amostra), é regra que o
resultado obtido de uma amostra aleatória particular, não será igual ao verdadeiro valor da população
(o parâmetro), embora exista uma grande probabilidade estar próximo. O erro amostral é a diferença
entre uma estimativa em particular e a média populacional e portanto, é inerente à variabilidade do
processo de amostragem. Suponha que, puramente ao acaso, a amostra inclua os menores elementos
da população. A média amostral (X) estará abaixo da média populacional (µ) e o erro amostral será
grande. O erro amostral é dado por E = X − µ. A estatística estuda o comportamento probabilístico
dos erros amostrais. Existe também o erro não amostral que decorre de equívocos de amostragem,
inexperiência do amostrador, falha de equipamentos, enganos no cômputo dos resultados, etc. A
estatística não é capaz de lidar com estes erros.
Acurácia se refere à proximidade entre o parâmetro e a estimativa média. Um estimativa acurada
será, em média, igual ao parâmetro populacional. Diferente do erro amostral, a acurácia não se
refere a uma estimativa em particular, mas ao valor esperado da estimativa, caso a amostragem fosse
repetida um grande número de vezes. Uma estimativa não-acurada (viciada) resulta em valores
consistentemente diferentes do parâmetro, podendo estar acima (viés positivo) ou abaixo (viés
negativo) do verdadeiro valor populacional. Uma estimativa viciada pode resultar de um processo
12
Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar
amostral equivocado ou do uso de um estimador não apropriado.
Precisão tem relação com a variabilidade da estimativa. Estimadores que geram estimativas simi-
lares entre si são precisos. Porém, se as estimativas estiverem distantes de sua média, o estimador será
pouco preciso.Já dissemos que uma amostragem aleatória estrati�cada, se conduzida corretamente,
irá produzir estimativas mais precisas que uma amostra aleatória simples.
O objetivo da amostragem é obter estimativas precisas e acuradas (Figura 5). Porém, na impos-
sibilidade de obtermos um censo, os parâmetros da população jamais serão conhecidos, de modo que
é muito difícil termos uma ideia do grau de acurácia de nossas estimativas. Stuart (1984) cita esta
questão como o "paradoxo da amostragem"
"O paradoxo central da amostragem é que é impossível
saber, a partir da observação da amostra, se ela é ou não
uma boa amostra, no sentido de que seja livre de viés"
(Stuart, 1984).
Deste modo, garantir estimativas precisas e acuradas depende do conhecimento do pesquisador
sobre a teoria de amostragem, de seu material de estudo e de um do delineamento experimental
adequado.
Figura 5: Representação dos conceitos de precisão e acurácia. O centro do alvo representa o parâmetro
populacional e os pontos os valores das estimativas. Da esquerda para a direita as �guras descrevem
estimativas não-acuradas e precisas; acuradas e precisas; acuradas e não-precisas; não-acuradas e não-
precisas.
3.5 Exempli�cando erro amostral, acurácia e precisão
Voltermos à nossa população �ctícia com somente 10 elementos:
População: 3, 10, 14, 19, 27, 28, 29, 41, 42, 43
Para esta população em particular nós conhecemos a média populacional, de modo que será possível
compará-la com as estimativas amostais. A média populacional é:
Média Populacional: µ = 25.6
O que acontece se tomarmos uma amostra aleatória de tamanho n = 5:
13
Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar
Amostra 1: 10, 29, 27, 43, 28
Para esta amostra, a média vale:
Média amostral 1: X1 = 27.4
Obviamente, os valores µ = 25.6 e X = 27.4 não são idênticos, pois a amostra contém somente
alguns elementos da população. A diferença entre µ e X é o erro amostral.
Erro amostral 1: E1 = 27.4− 25.6 = 1.8
Se tomarmos outra amostra aleatória, teremos outro conjunto de unidades amostrais, e consequen-
temente, um X e um erro amostral diferentes. Por exemplo:
Amostra 2: 10 41 19 14 42
Média amostral 2: X2 = 25.2
Erro amostral 2: E2 = 25.2− 25.6 = −0.4
Acurácia
Até agora, analisamos duas amostras diferentes da população. Porém, quantas amostras distintas
seriam possíveis? Para uma população com 10 elementos, a teoria combinatória nos diz que são
possíveis: (
10
5
)
10!
(10−5)!·5! = 252
formas diferentes de combinarmos N = 10 elementos em amostras de tamanho n = 5.
Inicialmente vamos avaliar a questão com um número menor. Sejam por exemplo, 10 amostras
tomadas aleatoriamente, gerando os resultados a seguir:
Am1 Am2 Am3 Am4 Am5 Am6 Am7 Am8 Am9 Am10
X1 10 43 28 42 29 27 3 29 43 41
X2 29 10 14 43 19 10 10 41 14 42
X3 27 29 29 10 43 14 29 14 3 14
X4 43 19 10 19 10 29 41 27 10 19
X5 28 41 42 3 14 3 19 3 28 27
X 27.4 28.4 24.6 23.4 23.0 16.6 20.4 22.8 19.6 28.6
Cada coluna desta matriz corresponde a uma possível amostra aleatória e as respectivas médias
podem ser vistas na última linha.
Algumas amostras tiveram médias muito distantes de µ, como: Am6 = 16.6 ou Am10 = 28.6. Esta
variação é natural do processo amostral. Para entender melhor este processo, vamos obter todas as 252
combinações possíveis de amostras com n = 5 e extrair suas respectivas médias. Os resultados podem
ser vistos no Box a seguir:
14
Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar
252 médias de amostras com n = 5 de uma população com N = 10
14.6 14.8 15.0 16.4 16.6 16.8 17.4 17.4 17.6 17.6 17.8 17.8 18.2 18.4 18.6
19.0 19.2 19.2 19.4 19.4 19.4 19.4 19.6 19.6 19.6 19.8 19.8 20.0 20.0 20.2
20.2 20.2 20.4 20.4 20.4 20.6 20.6 20.8 20.8 21.0 21.0 21.2 21.2 21.2 21.2
21.4 21.4 21.6 21.6 21.8 22.0 22.0 22.0 22.2 22.2 22.2 22.2 22.2 22.4 22.4
22.4 22.4 22.4 22.6 22.6 22.6 22.6 22.6 22.6 22.8 22.8 22.8 22.8 23.0 23.0
23.0 23.0 23.0 23.2 23.2 23.2 23.4 23.4 23.4 23.6 23.8 23.8 23.8 24.0 24.0
24.0 24.0 24.0 24.2 24.2 24.2 24.2 24.2 24.4 24.4 24.4 24.4 24.6 24.6 24.6
24.8 24.8 24.8 25.0 25.0 25.0 25.0 25.2 25.2 25.2 25.2 25.2 25.4 25.4 25.4
25.4 25.4 25.4 25.6 25.6 25.6 25.6 25.6 25.6 25.8 25.8 25.8 25.8 25.8 25.8
26.0 26.0 26.0 26.0 26.0 26.2 26.2 26.2 26.2 26.4 26.4 26.4 26.6 26.6 26.6
26.8 26.8 26.8 26.8 27.0 27.0 27.0 27.0 27.0 27.2 27.2 27.2 27.2 27.2 27.4
27.4 27.4 27.6 27.8 27.8 27.8 28.0 28.0 28.0 28.2 28.2 28.2 28.2 28.2 28.4
28.4 28.4 28.4 28.6 28.6 28.6 28.6 28.6 28.6 28.8 28.8 28.8 28.8 28.8 29.0
29.0 29.0 29.0 29.0 29.2 29.2 29.2 29.4 29.6 29.6 29.8 29.8 30.0 30.0 30.0
30.0 30.2 30.2 30.4 30.4 30.6 30.6 30.8 30.8 30.8 31.0 31.0 31.0 31.2 31.2
31.4 31.4 31.6 31.6 31.6 31.8 31.8 31.8 31.8 32.0 32.0 32.2 32.6 32.8 33.0
33.4 33.4 33.6 33.6 33.8 33.8 34.4 34.6 34.8 36.2 36.4 36.6
Note que a menor e maior médias possíveis são 14.6 e 36.6 respectivamente. Estes valores são
os mais distantes do parâmetro populacional (µ = 25.6) e ocorrem quando, puramente ao acaso, são
amostrados os cinco menores (3, 10, 14, 19 e 27) ou os cinco maiores (28 29 41 42 43) elementos da
população. Estes casos extremos são raros. Em nosso exemplo, valores superiores a 34 ou inferiores a 16
são muito improváveis e a grande maioria das médias amostrais concentra-se na porção intermediária
do grá�co (Figura 6).
Se calcularmos amédia das médias (X), ou seja, somarmos todos este valores e dividirmos por 252, o
resultado será 25.6 que é exatamente o valor da média populacional µ. Isto têm uma implicação central
em inferência estatística. Signi�ca que a média amostral X é um estimador acurado (= não-viciado)
pois tende a estimar corretamente o valor da média populacional µ.
15
Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar
Distribuição das médias amostrais
N
úm
er
o 
de
 o
bs
er
va
çõ
es
15 20 25 30 35
0
10
20
30
40
50
60
X = µ = 25.6
Figura 6: Distribuição de frequências de todas as 252 as médias amostrais X que podem ser obtidas a
partir de amostras de tamanho 5.
Precisão
Suponha agora que tomemos ao acaso amostras de tamanho 7 desta mesma população. Existem(
10
7
)
10!
(10−7)!·7! = 120
amostras diferentes de tamanho 7 que podem ser retiradas de uma população de tamanho 10. Se
pudéssemos obter estas 120 amostras e calcularmos suas respectivas médias amostrais, teremos os
resultados abaixo.
120 médias de amostras com n = 7 de uma população com N = 10
18.6 20.3 20.4 20.4 20.6 20.6 20.6 20.7 20.7 20.9 21.7 21.9 22.0 22.3 22.4
22.4 22.4 22.6 22.6 22.6 22.6 22.7 22.7 22.7 22.9 23.0 23.1 23.3 23.6 23.7
23.7 23.9 23.9 23.9 24.0 24.0 24.0 24.1 24.1 24.3 24.3 24.4 24.4 24.6 24.6
24.6 24.6 24.7 24.7 24.9 24.9 25.0 25.0 25.1 25.1 25.1 25.3 25.3 25.4 25.7
25.7 25.9 25.9 25.9 26.0 26.0 26.0 26.0 26.1 26.1 26.1 26.3 26.3 26.3 26.4
26.4 26.4 26.6 26.6 26.7 27.0 27.0 27.1 27.1 27.3 27.3 27.3 27.4 27.6 27.7
27.9 28.0 28.0 28.0 28.1 28.1 28.3 28.3 28.3 28.4 28.6 28.6 28.7 28.9 29.0
29.1 29.3 29.3 29.4 29.6 30.0 30.1 30.3 30.4 30.6 30.7 30.9 31.4 32.0 32.7
16
Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar
Distribuição das médias amostrais
N
úm
er
o 
de
 o
bs
er
va
çõ
es
15 20 25 30 35
0
10
20
30
40
X = µ = 25.6
Figura 7: Distribuição de frequências de todas as 120 as médias amostrais X que podem ser obtidas a
partir de amostras de tamanho 7.
Se compararmos as Figuras 6 e 7, veremos que as duas geram estimativas acuradas, pois X = µ.
No entando, o intervalo de variação é menor para amostras de tamanho 7, pois os valores estão mais
concentrados ao redor da média. Podemos medir esta variação pelo erro padrão da média (σX) que é o
desvio padrão de todas as médias amostrais que poderiam ser obtidas de uma amostra com tamanho n.
Para nossas amostras com n = 5, σX = 4.43, enquanto para n = 7, σX = 2.91. Dizemos que última
foi mais precisa.
Conforme aumenta o tamanho amostral, aumenta a precisão do estimador. Como na vida real não
temos como o obter todas as médias amostrais dapopulação, não temos como saber com exatidão qual
será o valor de σX . No entanto, dado que temos uma amostra em particular, podemos estimar σX a
partir de:
sX =
s√
n
onde s é o desvio padrão de uma amostra em particular.
Após esta discussão, podemos representar os conceitos de precisão e acurária mostrados inicialmente
na Figura 5, utilizando histogramas de distribuição de frequência para as médias amostrais. Estes
histogramas representam os resulados esperados de estimativas acuradas e não-precisas (Figura 8A),
acuradas e precisas (Figura 8B), não-acuradas e precisas (Figura 8C) e não-acuradas e não-precisas
(Figura 8D). Vemos portanto que precisão e acurária têm relação respectivamente com o grau de
variabilidade das médias amostrais e a distância esperada de µ.
17
Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar
Distribuição das médias amostrais
20 40 60 80
X = µ
A
Distribuição das médias amostrais
20 40 60 80
X = µ
B
Distribuição das médias amostrais
20 40 60 80
X < µ
C
Distribuição das médias amostrais
20 40 60 80
X < µ
D
Figura 8: Representação dos conceitos de precisão e acurácia. A linha vermelha tracejada representa
a média populacional µ e os histogramas representam a distribuição de todas a médias amostrais
com tamanho n desta população. A: estimativas acuradas e não-precisas; B: acuradas e precisas; C:
não-acuradas e precisas; D: não-acuradas e não-precisas.
18
Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar
3.6 Introdução à su�ciência amostral
Uma decisão central ao planejamento amostral é quanto recurso e tempo devem ser investidos em
um experimento para se obter boas estimativas dos parâmetros populacionais. Por boas estimativas
entendemos, amostras precisas, ou seja, com baixo erro padrão. Neste caso, uma das primeiras questões
que se faz é:
- Qual tamanho amostral aplicar em meu estudo?
Já dissemos que aumentar o tamanho amostral resulta em estimativas mais precisas. Portanto, um
bom delineamento amostral é aquele que permita, a um custo mínimo, obter estimativas com a precisão
desejada. Uma pesquisa que resulte em estimativas demasiadamente imprecisas pode se mostrar inútil.
O que dizer por exemplo, se um estudo conclui que o DAP médio de Rhizophora mangle é de 10 cm
com uma incerteza entre 2 e 18 cm? Uma estimativa com tal nível de imprecisão não terá qualquer
implicação prática.
Já discutimos que amostras grandes geram estimativas mais precisas. No entanto, a partir de um
determinado tamanho amostral o ganho em precisão torna-se mínimo. Veja que o erro padrão é dado
por:
sX =
s√
n
Se �zermos sX em função de n teremos uma �gura como abaixo:
Tamanho amostral (n)
E
rr
o 
pa
dr
ão
 d
a 
am
os
tr
a 
( 
σ x
 )
0 10 20 30 40 50 60 70 80 90 100
0.
5
1.
0
1.
5
2.
0
2.
5
3.
0
3.
5
4.
0
Figura 9: Valor esperado do erro padrão de amostras de tamanho 1 a 100 de uma população estatística
com σ = 4
19
Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar
Para amostras de tamanho 1, σX = 4. Se tivermos agora amostras de tamanho 10, σX = 1.2.
No entanto se temos por exemplo amostras de tamanho 50 o erro padrão cai somente de 1.2 para
0.56 (Figura 9). Isto signi�ca que a partir de determinado ponto (neste exemplo 10 a 20 amostras), a
redução no erro padrão torna-se mínima. Neste momento podemos podemos re�etri sobre o custo de
continuar aumentando o tamanho amostral e o ganho cada vez menor em precisão.
Encontrar o tamanho amostral desejado depende de: i - de�nirmos um nível de precisão desejado
e ii - obtermos uma estimativa prévia ao menos sobre a ordem de grandeza de σ. O nível de precisão
adequado varia em função do material em estudo e dos objetivos do experimento. Estimativas prévias
dos parâmetros populacionais podem ser obtidas na literatura, buscando estudos similares ou por meio
de um projeto piloto. Em um experimento piloto o pesquisador irá conduzir seu plano de amostragem
com um tamanho mínimo, justamente para avaliar a e�ciência metodológica, adequabilidade dos re-
sultados e prever o esforço amostral adequado. As informações de um pequeno estudo pilot, se bem
aproveitadas, podem evitar erros simples de delineamento, além de invariavelmente permitir economia
de recusros e ganho em qualidade.
3.7 Exempli�cando a questão da su�ciência amostral (códigos no R)
Nesta seção, vamos exempli�car quais os efeitos do tamanho amostral sobre a precisão das estima-
tivas de µ. Vamos simular a amostragem de uma população hipotética de DAPs de Rhizophora mangle
mostrando os comandos feitos em R.
Suponha que existam 5000 indivíduos em uma determinada área, com DAP médio µ = 10 cm e
desvio padrão σ = 2 cm. A distribuição de frequências dos DAPs para a população estatistica pode
ser observada na Figura 10.
Classe de valores
N
úm
er
o 
de
 o
bs
er
va
çõ
es
5 10 15
0
20
0
40
0
60
0
80
0
10
00
Figura 10: Distribuição de frequências de uma população estatística de DAPs. N = 5000, µ = 10,
σ = 2.
set.seed(1)
rmangle = rnorm(5000)
rmangle = (((rmangle - mean(rmangle))/sd(rmangle)) * 2) + 10 hist(rmangle, col = "gray",
main = , ylab = "Número de observações", xlab = "Classe de valores", cex.lab = 1.6, cex.axis =
1.5)
box()
rm(.Random.seed)
20
Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar
Seja uma amostra de tamanho 5 desta população.
set.seed(1) Am5.1 <- round(sample(rmangle, 5, replace = F),2)
cat("Amostra 1: ", Am5.1)
rm(.Random.seed)
Os valores obtidos foram: 39, 9.54, 13.31, 11.61, 6.28
A média desta amostra é X = 8.39, e está -1.61 centímetros abaixo da média populacional µ. Como
já dissemos, este é o erro amostral.
Poderíamos tomar uma amostra grande, por exemplo 100 indivíduos:
set.seed(2)
Am100.1 <- round(sample(rmangle, 100, replace = F),2)
cat("Amostra 2: ")
Esta amostra resultou nos seguintes valores:
10.83, 14.00, 10.46, 8.09, 11.39, 6.84, , 6.90, 10.66, 10.10, 9.94, 7.68, 9.19, 11.21, 10.38, 6.63, 9.77,
11.34, 7.55, 7.10, 9.87, 11.38, 7.62, 9.99, 13.46, 9.93, 7.62, 12.51, 8.84, 7.87, 7.89, 8.81, 6.77, 10.26,
7.98, 11.06, 9.15, 10.30, 11.31, 10.35, 12.02, 7.75, 6.21, 8.07, 11.42, 8.82, 8.68, 7.27, 12.35, 13.25,
9.97, 9.20, 11.20, 10.54, 11.92, 7.21, 9.74, 9.81, 8.88, 9.75, 9.60, 10.21, 7.26, 8.37, 9.80, 11.19, 7.29,
6.29, 6.06, 11.09, 10.89, 8.42, 13.76, 11.06, 8.18, 7.83, 9.17, 12.52, 11.69, 7.30, 10.01, 6.75, 8.26,
9.66, 10.98, 11.47, 11.14, 8.74, 8.79, 8.42, 8.91, 9.67, 10.89, 11.69, 8.01, 9.76, 7.75, 9.45, 11.00,
12.14 e 9.91
Neste caso, a média X = 10.83 está 0.83 centímetros acima da média populacional µ.
Nosso objetivo não é saber sobre estas amostras em particular, mas entender qual seria o resul-
tado esperado do erro amostral conforme aumenta o tamanho da amostra. Para isto, vamos simular
100 amostras aleatórias para um n = 2 e calcular suas médias. Em seguida, vamos fazer isto para n
cada vez maiores e entender o que acontece com o erro amostral a medida que o tamanho da amostra
cresce. Esperamos que conforme aumente o tamanho da amostra, a precisão aumente (o erro amostral
diminua), mas que a partir de um determinado momento o ganho em precisão torne-se mínimo.
R = 100
n = c(2, 5, 7, 10, 15, 20, 25, 30, 40, 50, 60)
Rmangle1 <- matrix(NA, nrow = length(n), ncol = 100)
for (i in 1: length(n))
a1 <- replicate(n = 100, sample(rmangle, size = n[i], rep = F))
Rmangle1[i,] <- apply(a1, 2, mean)
IC = apply(Rmangle1, 1, quantile, probs = c(.05,.95))
Rmangle2 <- matrix(NA, nrow = length(n), ncol = 100000)
for (i in 1: length(n))
a2 <- replicate(n = 100000, sample(rmangle, size = n[i], rep = F))
Rmangle2[i,] <- apply(a2, 2, mean)
21
Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar
layout(m = matrix(1:2, nc = 2))
matplot(y = Rmangle1, x = matrix(n, nc = 1), pch = 1, col = 1, xlab = "Tamanho amostral",
ylab = "Posição das médias amostrais", ylim = c(7, 14), cex.lab = 1.3, cex.axis = 1.2)
legend(x = "topleft", legend = "A", bty = "n", cex = 2)
matplot(y= t(IC), x = matrix(n, nc = 1), pch = 19, col = 1, type = "b", xlab = "Tamanho
amostral", ylab = "Limites que abramgem 95legend(x = "topleft", legend = "B", bty = "n",
cex = 2)
0 10 20 30 40 50 60
7
8
9
10
11
12
13
14
Tamanho amostral
P
os
iç
ão
 d
as
 m
éd
ia
s 
am
os
tr
ai
s
A
0 10 20 30 40 50 60
7
8
9
10
11
12
13
14
Tamanho amostral
Li
m
ite
s 
qu
e 
ab
ra
m
ge
m
 9
5%
 d
as
 m
éd
ia
s 
am
os
tr
ai
s
B
Figura 11: Distribuição das possíveis médias amostrais com n variando entre 2 e 60. Em A estão as
observações individuais das médias obtidas a partir da simulação de 100 amostras distintas para cada
n. Em B estão os limites que abrangem 95% das possíveis médias amostrais.
A �gura 11A mostra que com n = 2 poderíamos obter, puramente ao acaso, médias acima de 12
ou abaixo de 8. Considerando que a grande maioria das observações encontra-se entre 5 e 15, esta
variação pode ser considerada alta. Conforme o tamanho amostral cresce, a probabilidade de ocorrerem
estes extermos diminui. Para amostras com n = 60, todas as médias amostrais �cam entre 9.5 e 10.5
o que representa uma precisão mais eleveda. Entretando, vemos que não são necessárias amostras
tão grandes para obter este nível de precisão. A partir de 20 ou 30 amostras, o ganho em precisão
torna-se cada vez menor (Figura 11B), sugerindo que um n entre 20 e 30 já seria su�ciente para gerar
estimativas precisas.
Este padrão em cone é comum quando avaliamos o ganho em precisão em função do tamanho da
amostra (Figura 11B). Avaliar a partir de qual tamanho a precisão torna-se adequada e se é possível
obtê-la com os recursos e tempo disponíveis são os pontos chave de um bom delineamento. Voltaremos
ao tópico da su�ciência amostral quando falarmos em inferência estatística, e após falarmos sobre os
conceitos de probabilidade e distribuição normal. Neste ponto, iremos apresentar uma de�nição mais
detalhada do que seriam limites de precisão adequados associando-os ao teste de hipóteses e estimação
intervalar. Para uma discussão sobre sufuciência amostral veja Pillar (2004).
22
Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar
Referências
B. F. Manly and J. A. N. Alberto. Introduction to Ecological Sampling. CRC Press, 2014.
L. G. Morettin. Estatística básica: probabilidade e inferência. Pearson Prentice Hall, 2010.
V. P. Pillar. Su�ciência amostral. In C. E. de M. Bicudo e Denise de C. Bicudo, editor, Amostragem
em limnologia. RiMa, São Carlos, 2004.
D. Salsburg. The lady tasting tea: How statistics revolutionized science in the twentieth century.
Macmillan, 2001.
A. Stuart. The ideas of sampling. Gri�n, 1984.
M. F. Triola. Introdução à Estatística: atualizaçao da tecnologia. LTC, 2014.
A. J. Underwood. Experiments in ecology: their logical design and interpretation using analysis of
variance. Cambridge University Press, 1997.
23
Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar
Atividades Práticas
Lançamento de dados
Esta atividade tem como objetivo discutir os conceitos de Parâmetros e Estimadores. O grupo
deve escolher um dado. O experimento consiste em jogar o dado e anotar a face que sair para cima.
a) Anote quais os possíveis resultados deste experimento (o espaço amostral - S).
S:
b) Calcule a média (µ) e desvio padrão (σ) da população.
µ: σ:
c) Lance o dado 5 vezes anote os resultados e calcule a média (X), desvio padrão (s), erro padrão
(sX) e o erro amostral (E) da amostra. Repita este procedimento 10 vezes.
Lançamento 1 2 3 4 5 X s sX E
Experimento 1
Experimento 2
Experimento 3
Experimento 4
Experimento 5
Experimento 6
Experimento 7
Experimento 8
Experimento 9
Experimento 10
d) Refaça o experimento anterior lancando o dado 15 vezes em cada experimeto. Repita o procedi-
mento 10 vezes.
Lançamento 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 X s sX E
Experimento 1
Experimento 2
Experimento 3
Experimento 4
Experimento 5
Experimento 6
Experimento 7
Experimento 8
Experimento 9
Experimento 10
e) Para os resultados dos items c e d, faça os histogramas de X, s, sX e E. Calcule a média das
médias (X) e a média dos erros amostrais (E)
24
Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar
f) Com base nestes resultados, explique as diferênças em termos de precisão, dos experimentos reali-
zados em c e d.
g) X, s, sX são estimadores. Como eles se relacionam aos Parâmetros µ e σ?
25
Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar
Tamanho populacional e padrão de distribuição espacial
Neste exercício iremos estimar a densidade média de uma população em 3 regiões (A, B e C) de
250.000 m2 cada (500 x 500m de extensão). A amostragem será feita por parcelas. Devido à limitação
de tempo, a área total amostrada não pode ultrapassar 90.000 m2 (300 x 300 m).
• Você irá testar 2 dois tipos parcelas em cada região, parcelas pequenas (50 x 50 m) e grandes (100
x 100 m). Em função das áreas das parcelas grandes e pequenas, de�na qual serão os tamanhos
amostrais.
• Sorteie a posição de cada parcela no grid em Branco.
• Sobreponha as parcelas sorteadas em cada uma das �guras abaixo.
• Calcule as densidades médias (X), desvios padrões (s) e erros padrões (sX).
QUESTÕES
a) Quais foram os tamanhos amostrais para cada tipo de parcela?
b) Explique como foram escolhidas as posições das parcelas.
c) Faça histogramas dos seus resultados.
d) Qual foram as densidades médias estimadas em cada região?
e) Qual foram as incertezas nas estimativas para cada região? Como você explica este padrão?
f) Diante dos resultados, você pode dizer se há diferença nas densidades médias das três regiões?
26
Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar
0 50 100 150 200 250 300 350 400 450 500
0
50
100
150
200
250
300
350
400
450
500
Figura 12: Grid para a de�nição das áreas de amostragem.
27
Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar
0 50 100 150 200 250 300 350 400 450 500
0
50
100
150
200
250
300
350
400
450
500
Figura 13: Distribuição Espacial Aleatória.
X:
s:
sX :
28
Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar
0 50 100 150 200 250 300 350 400 450 500
0
50
100
150
200
250
300
350
400
450
500
Figura 14: Distribuição Espacial agregada.
X:
s:
sX :
29
Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar
0 50 100 150 200 250 300 350 400 450 500
0
50
100
150
200
250
300
350
400
450
500
Figura 15: Distribuição Espacial em gradiente.
X:
s:
sX :
30
Probabilidade e Estatística Universidade Federal de São Paulo, DCMAR - BictMar
Jogo do funil
Materiais: garrafa pet, folha grande, régua e tesoura.
Corte a boca de uma garrafa plática e �que com a parte superior. Em uma cartolina, trace duas
linhas perpendiculales dividindo o papel em 4 quadrantes. O objetivo é passar uma bola de gude pela
garrafa de modo a acertar o meio da cartolina, no curzamento das duas linhas. Posicione a garrafa a
uma altura �xa (ex. 1m) tentando, ao máximo, alinhar com o centro da cartolina. Uma segunda pessoa
irá jogar a bola de gude. Vocês devem anotar a distância que a bola caiu do centro. Esta distância
poderá ser negativa se cair dentro dos quadrandes 1 ou 3 ou positiva se cair nos quadrantes 2 ou 4.
a) Pegue uma bola de gude grande e joge 20 vezes. Anote as distâncias.
b) Faça um histograma dos seus resultados.
c) Calcule X, s e sX .
d) Repita os items anteriores com uma bole de gude pequena.
e) Cada grupo da sala irá escrever os resultados do item c na lousa. Com base nestes resultados:
• Faça histogramas das médias (X), desvios padrões (s) e erros padrões (sX).
• Comparem os experimentos com bolas grandes e pequenas em termos de acurácia e precisão?
31

Outros materiais

Outros materiais