Buscar

Estatística Aplicada

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 56 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 56 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 56 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

6ª Edição 
Revisada e Ampliada 
 
 
 
O Autor: 
William Costa Rodrigues é Agrônomo, Doutor em Fitotecnia e Pós-
Doutor em Entomologia, pela Univ. Federal Rural do Rio de Janeiro. 
Prof. da Universidade Severino Sombra e no Instituto Superior de 
Tecnologia de Paracambi/ FAETEC-RJ, ministra aulas de Ecologia1, 
Toxicologia1, Climatologia1, Estudos de Impacto Ambiental1, Estatís-
tica Aplicada2 e Auditoria Certificação Ambiental2, Metodologia da 
Pesquisa Científica2 na graduação e de Estatística Ambiental1 e Bion-
dicadores Ambientais1 na especialização de Planejamento e Gestão 
Ambiental1, onde também é Supervisor Pedagógico. Atua como de-
senvolvedor de softwares agrícolas e Científicos. Coordenador Geral 
do projeto Entomologistas do Brasil (www.ebras.bio.br). Coordena-
dor e autor de capítulos no livro Citricultura Fluminense: Principais 
pragas e seus inimigos naturais. Trabalha ativamente com análise es-
tatística em projetos na área agrícola e ambiental. O autor poderá ser 
contatado através do e-mail: wcostarodrigues@yahoo.com.br. 
 
Esta Obra: 
A apostila Estatística Ambiental foi inicialmente utilizada no progra-
ma de Pós-Graduação Lato Sensu, Planejamento e Gestão Ambiental e 
no Curso de graduação em Gestão Ambiental, na disciplina Estatística 
Aplicada, tendo como objetivo informar o discente sobre os princípios 
básicos da estatística, relacionando-a com a metodologia científica, 
possibilitando um entendimento básico sobre o assunto. Hoje a aposti-
la é também utilizada em cursos de graduação. Capa: Fotos do Autor 
na Ilha da Marambaia. Foto superior Casulo de Plecoptera e foto infe-
rior, córrego onde ao casulo foi coletado. 
 
Esta obra é distribuída através da Creative Commons Licence. 
http://creativecommons.org/licenses/by-nc-sa/2.5/br� 
 
 
Copyright©2004Copyright©2004Copyright©2004Copyright©2004----2002002002008888, W.C. Rodr, W.C. Rodr, W.C. Rodr, W.C. Rodriiiiguesguesguesgues 
 
 
1
 Disciplina Ministrada na Universidade Severino Sombra 
2
 Disciplina Ministrada no Instituto Superior de Tecnologia em Paracambi, RJ- Curso de Gestão Ambiental 
 
Sumário 
 
1 Introdução................................................................................................................. 1 
1.1 Crescimento e Desenvolvimento da Estatística Moderna ................................ 1 
1.2 Variação ao Acaso ............................................................................................ 1 
2 Ensaio x Experimentação ......................................................................................... 2 
3 Conceitos Estatísticos ............................................................................................... 2 
3.1 Estatística Descritiva ........................................................................................ 2 
3.2 Inferência Estatística......................................................................................... 2 
3.3 Tipos de Dados ................................................................................................. 3 
3.3.1 Variáveis Aleatórias Categorizadas.......................................................... 3 
3.3.2 Variáveis Aleatórias Numéricas ............................................................... 3 
4 Por que Utilizar a Estatística .................................................................................... 4 
5 Planejamento Experimental...................................................................................... 4 
5.1 Fases do Planejamento ..................................................................................... 4 
5.1.1 Problema................................................................................................... 5 
5.1.2 Informações Existentes............................................................................. 5 
5.1.3 Noções Gerais Sobre Hipótese ................................................................. 5 
5.1.4 Formulação das Hipóteses ........................................................................ 6 
5.1.4.1 Elaborando as hipóteses........................................................................ 6 
5.1.4.2 Hipótese Estatística x Hipótese Científica ........................................... 6 
5.1.5 Testando as Hipóteses .............................................................................. 6 
5.1.6 Riscos na Tomada de Decisão Através Teste de Hipóteses ..................... 6 
5.1.7 Aleatorização ............................................................................................ 7 
5.2 Erros de Observações ....................................................................................... 7 
5.2.1 Erros do Observador................................................................................. 7 
5.2.2 Erro do Método de Observação ................................................................ 8 
5.2.3 Por Falta de Resposta ............................................................................... 8 
5.3 Controle dos Erros nas Observações ................................................................ 8 
5.4 Métodos de Coleta de Dados ............................................................................ 8 
5.4.1 Fontes Primárias ....................................................................................... 8 
5.4.2 Fontes Secundárias ................................................................................... 8 
5.5 Pesquisa Observacional .................................................................................... 9 
5.6 Pesquisa Experimental...................................................................................... 9 
5.6.1 Princípios da Experimentação ................................................................ 10 
5.7 Tipos de Amostras .......................................................................................... 10 
5.7.1 Amostras Simples ao Acaso ................................................................... 10 
5.7.2 Amostra Estratificada ............................................................................. 11 
5.7.3 Amostra Sistemática ............................................................................... 11 
5.7.4 Amostra por Área ................................................................................... 11 
5.7.5 Amostra por Conglomeradas .................................................................. 11 
5.7.6 Amostra Selecionada .............................................................................. 11 
5.8 Determinação do Tamanho da Amostra ......................................................... 12 
5.8.1 Tamanho da Amostra para Dados Discretos .......................................... 12 
5.8.2 Tamanho da Amostra para Dados Contínuos ......................................... 13 
6 Técnicas Estatísticas Para Análise de dados .......................................................... 14 
6.1 Medidas de Tendência Central ....................................................................... 14 
6.1.1 Média Aritmética Simples ( X ) .............................................................. 14 
6.1.2 Média Aritmética Ponderada .................................................................. 14 
6.1.3 Média Aritmética de Dados Agrupados em Intervalos .......................... 15 
 
6.1.4 Mediana (Me) ......................................................................................... 16 
6.2 Medidas de Variação ...................................................................................... 17 
6.2.1 Desvio-Médio (DM) ............................................................................... 17 
6.2.2 Desvio Padrão......................................................................................... 17 
6.3 Variância ouQuadrado Médio ....................................................................... 18 
6.4 Erro-Padrão da Média - s(x) ........................................................................... 19 
6.5 Coeficiente de Variação.................................................................................. 19 
6.6 Curva de Distribuição Normal........................................................................ 19 
6.6.1 Limites de Confiança.............................................................................. 21 
6.6.2 Erro Padrão ............................................................................................. 22 
6.7 Teste de Normalidade dos Dados ................................................................... 22 
6.8 Teste de Klomogorov-Smirnov (K-S) ............................................................ 22 
6.9 Teste de Shapiro-Wilks (S-W) ....................................................................... 22 
7 Testes Paramétricos e Não Paramétricos................................................................ 23 
7.1 Teste t - Student.............................................................................................. 23 
7.1.1 Dados Pareados (Amostras Dependentes).............................................. 24 
7.1.2 Dados Pareados (Amostras Independentes) ........................................... 25 
7.1.3 Dados Não-Pareados - Variâncias Desiguais (Heterocedásticas)........... 26 
7.1.4 Dados Não-Pareados - Variâncias Iguais (Homocedásticas) ................. 27 
7.2 Teste Qui-Quadrado (χ²) ................................................................................ 28 
7.3 Tabela de Contingência .................................................................................. 28 
7.4 Teste de Kruskal-Wallis ................................................................................. 29 
7.5 Teste de Friedman (Análise da Variância) ..................................................... 31 
8 Correlação Linear ................................................................................................... 32 
8.1 Coeficiente de Correlação (r) ......................................................................... 32 
8.1.1 Correlação de Pearson ............................................................................ 32 
8.1.2 Correlação de Spearman......................................................................... 32 
8.1.3 Aspectos Gerais da Correlação Linear ................................................... 33 
8.2 Coeficiente de Determinação (r²) ................................................................... 34 
8.3 Coeficiente de Alienação (K) ......................................................................... 34 
8.4 Significância do Teste de Correlação ............................................................. 34 
8.4.1 Significância Baseada nos Intervalos ..................................................... 34 
8.4.2 Significância Baseada no Teste t para r (Pearson) ................................. 35 
9 Análise de Regressão.............................................................................................. 35 
9.1 Regressão Linear Simples .............................................................................. 36 
9.2 Regressão Linear Múltipla.............................................................................. 36 
9.3 Regressão Múltipla ......................................................................................... 37 
10 Transformação de Dados .................................................................................... 37 
10.1 Raiz Quadrada ................................................................................................ 38 
10.2 Transformação Logarítimica .......................................................................... 38 
10.3 Transformação Angular (Arcoseno)............................................................... 38 
10.4 Considerações Gerais ..................................................................................... 38 
11 Testes Específicos Para Análise de Populações e Comunidades ....................... 38 
11.1 Índice de Diversidade e Dominância Populacional........................................ 38 
11.1.1 Índice de Margalef (α)............................................................................ 39 
11.1.2 Índice de Glason (Dg) ............................................................................. 39 
11.1.3 Índice de Menhinick (Dm) ...................................................................... 39 
11.1.4 Índice de Shanon-Wiener (H') ................................................................ 39 
11.1.5 Índice de Dominância Berger-Parker (d)................................................ 39 
11.2 Exemplo.......................................................................................................... 39 
 
11.3 Índice de Similaridade entre Populações........................................................ 40 
11.3.1 Quociente de Similaridade...................................................................... 40 
11.3.2 Porcentagem de Similaridade ................................................................. 40 
11.3.3 Índice de Afinidade ................................................................................ 41 
11.3.4 Constância .............................................................................................. 41 
11.3.5 Índice de Associação (IA) ...................................................................... 41 
12 Bibliografia......................................................................................................... 42 
13 Anexos................................................................................................................ 43 
 
 
Índice de Tabelas 
 
Tabela 1. Resultados da interpretação de 500 fotos aéreas de diversas áreas com 
presença de mata. (dados fictícios)........................................................................... 7 
Tabela 2. Dados do peso de 10 crianças antes e depois da administração a base de folhas 
de mandioca (dados fictícios). ................................................................................ 24 
Tabela 3. Dados de um experimento com a taxa de crescimento de mudas de duas 
leguminosas em sistema agro-silvo-pastoril, numa área de re-vegetação (dados 
fictícios). ................................................................................................................. 25 
Tabela 4. Resultados das amostras de cinco diferentes áreas delimitadas pelas 
características edáficas do solo, em quatro diferentes profundidades. Os dados 
apresentados referem-se a o poluente αααα-ββββ-16-Imaginol-Poluentis, em mg.mm³ de 
solo ......................................................................................................................... 31 
Tabela 5. Correlação de Spearman entre as notas brutas de matemática e biologia (Zar, 
1999)....................................................................................................................... 33 
Tabela 6. Classificação do valor r através de intervalos de 0 a 1................................... 34 
Tabela 7. Classificação do valor r através de intervalos de acordo com e Teste de Rugg.
................................................................................................................................ 34 
Tabela 8. Série de dados da correlação da flutuação populacional do pulgão Toxoptera 
aurantii (Homoptera, Aphididae) em função da brotação foliar de tangerina cv 
Poncã, sob cultivo orgânico na Fazendinha Agroecológica, no período de outubro 
de 2002 e outubro de 2003 (Extraído de Rodrigues, 2004). Exemplo para o 
Microsoft Excel. .....................................................................................................35 
Tabela 9. Índices de diversidade de cochonilhas em agroecossiema cítrico. ................. 40 
Tabela 10. Duas comunidades com sua composição de espécies em percentagem ....... 40 
Tabela 11. Valores de t -student em níveis de 5% e 1% (αααα=0,05 a 0,01) de 
probabilidade. ......................................................................................................... 44 
Tabela 12. Valores de χ² (Qui-quadrado) em níveis de 5% e 1% (αααα=0,05 a 0,01) de 
probabilidade .......................................................................................................... 45 
Tabela 13. Valores críticos para o Coeficiente de Correlação de Spearman (rs)............ 46 
Tabela 14. Valores para transformação %arcsen ....................................................... 47 
Tabela 15. Valores mínimos de j, significativos a 0,5% (Southwood, 1971). ............... 48 
 
Índice de Figuras 
 
Figura 1. Diagrama de uma estatística descritiva, com seus diversos níveis de 
categorias. ................................................................................................................. 3 
Figura 2. Diagrama de tipos de dados .............................................................................. 4 
Figura 3. Interpretação dos dados experimentais. O gráfico à esquerda, baseado em 
apenas dois pares de valores anotados para X e Y (que definem os pontos A e B), 
parece sugerir que Y cresce à medida que X cresce, entretanto no gráfico à direita, 
em que foram registrados outros valores intermediários (definidos pelos pontos B e 
C), mostra que a relação entre X e Y obedece a uma lei mais completa................ 10 
Figura 4. Curva de distribuição normal simétrica, onde µµµµ é a média e s o desvio padrão.
................................................................................................................................ 20 
Figura 5. Curvas de distribuição normal das freqüências de X, tendo a mesma média (µµµµ) 
e diferentes graus de dispersão dos valores de X, isto é, desvios padrões (s) 
diferentes. ............................................................................................................... 20 
Figura 6. Curva normal padrão, tendo por parâmetros µµµµ=0 e s= 1. As áreas sob a curva 
assinaladas entre os traços verticais, indicam as percentagens de valores de X aí 
contidas................................................................................................................... 21 
Figura 7. Os valores de Z (compreendidos entre -Z e +Z) correspondem aos 
afastamentos de X em relação à média µµµµ, medidos em unidades de desvio-padrão. 
A probabilidade (P) com que X possa ter valor menor que uma coordenada 
escolhida (C) é indicada pela área, sob a curva, situada à esquerda de C. ............. 22 
Figura 8. Correlação linear simples positiva (A); e inversa ou negativa (B), 
apresentando a linha de tendência de regressão linear simples de dados fictícios. 33 
Figura 9. Janela de configuração da linha de tendência (linha de regressão) e 
configuração da equação de regressão no Microsoft Excel.................................... 36 
Figura 10. Regressão linear simples entre a flutuação populacional de T. aurantii e a 
brotação foliar de tangerina cv. Poncã, em cultivo orgânico de tangerina cv. Poncã, 
na Fazendinha Agroecológica, no período de outubro de 2002 a outubro de 2003 
(Adaptado de Rodrigues, 2004).............................................................................. 36 
Figura 11. Correlação múltipla da amplitude térmica (variável x), brotação (variável y) e 
a flutuação populacional de Toxoptera citricida (variável z), em cultivo orgânico 
de tangerina cv. Poncã, na Fazendinha Agroecológica, no período de outubro de 
2002 a outubro de 2003 (Adaptado de Rodrigues, 2004)....................................... 37 
Figura 12. Regressão múltipla entre a flutuação populacional de T. aurantii e a brotação 
foliar de tangerina cv. Poncã, em cultivo orgânico de tangerina cv. Poncã, na 
Fazendinha Agroecológica, no período de outubro de 2002 a outubro de 2003 
(Adaptado de Rodrigues, 2004).............................................................................. 37 
Figura 13. Fluxograma Para Auxiliar na Escolha de Testes Estatísticos ....................... 43 
 
 
Apostila de Estatística Aplicada 
 
1 
1 Introdução 
 Diariamente estamos envolvidos em análises estatísticas, por exemplo, quando 
você é abordado na rua para responder qual o candidato irá votar na próxima eleição, 
quando o IBGE faz uma visita a sua casa para o censo. Desta forma, você está fazendo 
parte da estatística, mas não é só desta forma que você faz parte do infinito mundo da 
estatística. Quando você está desempregado ou empregado, está fazendo parte da esta-
tística, quando seu salário aumenta, faz parte também. Bom, podemos ver que em quase 
tudo, eu disse quase tudo, podemos empregar a estatística, obviamente que não pode-
mos deixar a estatística dominar nossas vidas, pois o principal objetivo desta ferramenta 
é auxiliar na tomada de decisão ou de avaliar uma determinada situação e poder melhor 
indicar o caminho para uma tomada de decisão. 
 A estatística, como parte da matemática aplicada, trata da coleta, da análise e da 
interpretação de dados observados. Estudando os mais variados fenômenos das diversas 
áreas do conhecimento, ela representa um valioso instrumento de trabalho nos dias de 
hoje. 
 Na área ambiental, o estudo da estatística justifica-se pela necessidade de desen-
volver pesquisas, realizar experimentos, e mesmo pela utilização dos resultados e pes-
quisas feitas, realizar experimentos, e mesmo pela utilização dos resultados e pesquisas 
feitas por aqueles que a isso se dediquem, seja visando o aprimoramento de métodos e 
técnicas de investigação, seja por exigências do próprio desenvolvimento do país. 
 
1.1 Crescimento e Desenvolvimento da Estatística Moderna 
 Historicamente, o crescimento e o desenvolvimento da estatística moderna po-
dem ser relacionados a três fatores isolados – a necessidade dos governos de coletar 
dados dos cidadãos, o desenvolvimento da teoria da probabilidade e o advento da in-
formática. 
 Foram levantados dados através dos registros históricos. Durante as civilizações 
egípcias, grega e romana, os dados eram obtidos principalmente com o objetivo de reco-
lherem impostos e para o recenseamento militar. Na Idade Média, as instituições religi-
osas freqüentemente mantinham registros relativos a nascimentos, morte e casamentos. 
No Brasil o censo é realizado a cada 10 anos, avaliando o crescimento populacional e a 
distribuição desta população no território nacional entre outros aspectos avaliados. De 
fato, a crescente necessidade dos censos ajudou a incentivar o desenvolvimento de e-
quipamentos de tabulação no início do século XX. Isso levou ao desenvolvimento de 
computadores mainframe e finalmente a revolução dos computadores pessoais. 
 
1.2 Variação ao Acaso 
 O que dificulta ao trabalho de pesquisador e exige a análise estatística é a pre-
sença, em todos os dados obtidos, de efeitos fatores não controlados (que podem ser 
controlados). Esses efeitos, sempre presentes, não podem ser conhecidos individualmen-
te e alteram pouco ou muito, os resultados obtidos. Eles são indicados pela designação 
geral de variação do acaso ou variação aleatória. O efeito dessa variação do acaso é tal 
que pode alterar completamente os resultados experimentais. Assim, ao comparar no 
campo duas paisagens, poderá haver, se a avaliação for, em dias diferentes, uma interfe-
rência da luz solar, que irá interferir na distinção das cores. As variações ao acaso po-
dem ser exemplificadas como: temperatura ambiente, aferição do aparelho utilizado 
para mensurar, variação nos intervalos de amostragem, variação no horário de coleta 
dos dados, etc. 
 
William CostaRodrigues 
 
2 
 
2 Ensaio x Experimentação 
 Existem diferenças básicas entre os dois métodos de avaliar um dado científico. 
As diferenças vão desde a simples forma de avaliar e encarar a coleta dos dados até a 
forma de apresentação dos dados. Abaixo no Quadro 1 são listadas as diferenças entre 
os dois métodos. 
 
Quadro 1. Diferenças entre Ensaio e Experimentação. 
Ensaio Experimentação 
 Tempo de duração da avaliação é curta, obje-
tivando somente uma pré-avaliação dos resul-
tados. 
 O tempo de avaliação deverá ser o suficiente 
para que os dados coletado possam garantir 
uma avaliação, com margem de erro menor 
possível. 
 O número de amostras é reduzido. O número de amostra deverá ser suficiente 
para avaliar os dados com a maior precisão 
possível 
 O tamanho do experimento é reduzido. O tamanho do experimento deverá ser sufici-
ente para avaliar os dados. 
 As variações ao acaso são parcialmente con-
trolados, não havendo rigor. 
 As variações ao acaso são controladas com 
rigor, possibilitando assim menor erro amos-
tral e na análise estatística. 
 A análise e interpretação dos dados não podem 
possuir muito rigor e deve se adequar ao tipo 
de ensaio realizado, número de amostras, nú-
mero de amostragens realizadas, etc. 
 A análise e interpretação dos dados deverão 
ser rigorosas e adequadas ao tipo de experi-
mentação realizada. 
 
 
3 Conceitos Estatísticos 
 
3.1 Estatística Descritiva 
 Pode ser definida como os métodos que envolvem a coleta, a apresentação e a 
caracterização de um conjunto de dados de modo a descrever apropriadamente as várias 
características deste conjunto. 
 Embora os métodos estatísticos descritivos sejam importantes para a apresenta-
ção e a caracterização dos dados, foi o desenvolvimento de métodos estatísticos de infe-
rência, como um produto de teoria da probabilidade, que levou à ampla aplicação da 
estatística em todos os campos de pesquisas atuais. 
 
3.2 Inferência Estatística 
 Pode ser definida como os métodos que tornam possível a estimativa de uma 
característica de uma população ou a tomada de uma decisão referente à população com 
base somente em resultados de amostras (Figura 1). 
 Para tornar mais claro esta definição, as definições seguintes são necessárias: 
Uma população (ou universo) é a totalidade dos itens ou objetos a ser considerado. 
Uma amostra é a parte da população selecionada para análise. 
Um parâmetro é a medida calculada para descrever uma característica de toda uma 
população. 
Uma estatística é a medida calculada para descrever uma característica de apenas uma 
amostra da população. 
 
Apostila de Estatística Aplicada 
 
3 
 Para melhor elucidar estes conceitos, digamos que há uma necessidade de saber 
a opinião da qualidade de vida no campus de sua faculdade. A população, ou universo, 
será todos os alunos da faculdade, enquanto a amostra consistirá os estudantes selecio-
nados para participar da pesquisa. O objetivo da pesquisa é descrever várias atitudes ou 
características de toda a população (os parâmetros). Isto seria alcançado utilizando-se 
as estatísticas obtidas da amostra de estudantes para estimar atitudes ou características 
de interesse da população. Desse modo, um aspecto principal da inferência é o processo 
que utiliza a estatística amostral para tomar decisões sobre os parâmetros da população. 
 
 
Figura 1. Diagrama de uma estatística descritiva, com seus diversos níveis de categori-
as. 
 A amostra pode ser definida também como o conjunto de observações extraídas 
de uma fonte (população), segundo determinadas regras e critérios, sendo a po-
pulação a fonte de observações. 
 A população pode ser constituída de elementos simples, como é o caso dos seres 
humanos ou das plantas superiores ou das bactérias, ou por elementos coletivos, 
como é o caso das irmandades com mais de um indivíduo, das famílias, ou das 
pessoas que habitam uma casa. 
 
 A necessidade da inferência estatística deriva da necessidade da amostragem. 
Quando a população se torna grande, é geralmente dispendioso demais, consome muito 
tempo e é muito cansativo obter informações sobre a população inteira. Decisões perti-
nentes às características da população devem ser baseadas na informação contida numa 
amostra da população. 
 
3.3 Tipos de Dados 
 Existem basicamente dois tipos de dados de características de variáveis aleató-
rias que podem ser estudadas e que produzem os resultados ou os dados observados: 
categorizados ou numéricos (Figura 2). 
 
3.3.1 Variáveis Aleatórias Categorizadas 
 Este tipo de variável produz respostas categorizadas. Por exemplo, você tem 
carro? Sim Não. 
 
3.3.2 Variáveis Aleatórias Numéricas 
 Produz respostas numéricas, podendo ser números discretos ou contínuos. A 
resposta para pergunta: "Quantos livros você possui?", a resposta é discreta, enquanto a 
reposta para "Qual a sua altura?", é contínua. 
PPooppuullaaççããoo//UUnniivveerrssoo 
AAmmoossttrraa 
PPaarrââmmeettrroo 
EEssttaattííssttiiccaa 
William Costa Rodrigues 
 
4 
 Dados discretos são respostas numéricas que surgem a partir de processo de con-
tagem e dados contínuos são repostas numéricas que surgem a partir de um processo de 
medição. 
 Na Figura 2, segue exemplos de variáveis tanto para aleatórias categorizadas, 
quanto para aleatórias numéricas (discretas e contínuas). 
 
Figura 2. Diagrama de tipos de dados 
 
 
4 Por que Utilizar a Estatística 
 A Estatística é uma área da matemática muito utilizada hoje em dia, entretanto 
o uso inadequado e fanático desta ferramenta torna muito difícil a compreensão dos 
resultados e levam-na ao descrédito. 
 A Estatística nada mais é que uma ferramenta que poderá auxiliará na interpre-
tação dos resultados e poderá confirmar a hipótese a ser testada ou simplesmente recu-
sá-la. 
 Desta forma devemos ter muito cuidado ao utilizar à estatística, como a ferra-
menta que irá dizer se, por exemplo, "uma área será condenada por poluição de metais 
pesado no solo". O que pode ocorrer é que a estatística irá indicar uma diferença numé-
rica, caberá ao profissional avaliar os parâmetros não previsíveis no modelo matemático 
e tomar a decisão. 
 
 
5 Planejamento Experimental 
 
5.1 Fases do Planejamento 
 Quando realizamos um estudo, primeiro consideramos sua importância. Em se-
guida, traçamos os objetivos que pretendemos alcançar e a finalidade de sua realização. 
Se houver alguma informação que possa auxiliar como ponto de partida, esta poderá 
fornecer alguns indicadores ou ensinar novas técnicas que servirão para complementar 
nossa experiência. Estas informações deverão ser avaliadas e criticadas, pois os dados 
poderão apresentar falhas ou nada representaram para o estudo do problema ou para a 
elaboração das hipóteses a serem formuladas. Em suma, diremos que os dados selecio-
nados devem ser os estritamente necessários. 
Tipos de Dados 
Categorizadas Numéricas 
Você possui 
carro? 
ƒ Sim ƒ Não 
Discretas Contínuas 
Qual sua altura? Quantas revistas você 
assina? 
5 1,75m 
Apostila de Estatística Aplicada 
 
5 
 
5.1.1 Problema 
 Ao planejar o problema que se vai pesquisar, deverá ser dada especial atenção 
aos seguintes pontos: 
 Definição da importância do problema que se estuda; 
 Determinação do(s) objetivo(s) e finalidade da investigação. 
 
 Definir a importância do problema que se estuda é explicar o que vamos estudar. 
Será impossível o planejamento das etapas subseqüentes se não ficar claramente evi-
denciado o problema a investigar. Não basta, por exemplo, dizer que se vai estudar a 
biodiversidade da floresta atlântica, o efeito da poluição do rio Paraíba do Sul, pois pro-
vavelmente nenhum pesquisador terá possibilidade e capacidade de abordar todos os 
aspectos da biodiversidadeou da poluição. É importante também especificar sua exten-
são. 
 
5.1.2 Informações Existentes 
 Antes de empreender o experimento, o pesquisador deve revisar tudo o que diz 
respeito ao fato em estudo, com a finalidade de saber o que já se conhece sobre o assun-
to. Decerto serão encontrados vários subsídios que fornecerão valiosa colaboração para 
o estudo. 
 A revisão bibliográfica sobre o assunto deverá sofrer cuidadosa seleção para que 
os resultados mais afins possam ser aproveitados no conforto e discussão posteriores à 
da pesquisa. 
5.1.3 Noções Gerais Sobre Hipótese 
 A hipótese, resultado de um raciocínio indutivo (consciente ou subconsciente), 
requer demonstração ou prova de sua adequação. Sabemos que a veracidade de uma 
hipótese nunca pode ser demonstrada ou provada definitivamente. O que se faz é verifi-
car se ela não seria falsa; o que nos levaria a rejeitá-la e a formular outra, se necessário. 
 Enquanto não se possa demonstrar que ela é incorreta, mantém-se a hipótese 
como boa. Dela deduzimos as conseqüências ou fazemos previsões. 
 Por sua vez, essas conseqüências e previsões serão testadas, para ver se a hipóte-
se adotada ainda se mantém ou não. 
 O planejamento de pesquisa consiste, portanto, na elaboração de um plano de 
observação, ou de experimentação, destinado a contestar determinada hipótese, por mais 
justa e sólida que possa parecer. A estratégia para isso depende da natureza do problema 
em causa. 
 Muitas vezes, o que se tem em vista é verificar uma relação de causa e efeito: 
queremos saber se a variável X e a variável Y, peculiares a determinado fenômeno, guar-
dam entre si relações de causa e efeito (direta ou indiretamente). 
 Na prática, teremos de montar uma observação ou uma experiência em que se 
possa verificar o aparecimento de Y quando ocorre X, ou alterações dos valores de Y 
quando varia X, de tal forma que se possa demonstrar a existência de uma relação cons-
tante entre os valores de X e Y. A variável X, que precede a outra, é chamada variável 
independente, enquanto Y, que se supõe depender de X, é a variável dependente. 
 Do ponto de vista operacional, podemos encontrar duas situações. Uma própria 
de fenômenos sobre os quais não podemos influir nem exercer qualquer controle, limi-
tando-se o estudo científico à observação de como X e Y se apresentam espontaneamen-
te, então, como observar e medir seus valores e como analisar as relações qualitativas e 
quantitativas que possam existir entre eles (ver item Pesquisa Observacional, p. 9). A 
outra seria a interdependência das duas variáveis. 
William Costa Rodrigues 
 
6 
 
5.1.4 Formulação das Hipóteses 
 A estatística, testa duas hipóteses, que geralmente são denominadas de H0 ou 
Hipótese nula e H1 ou Hipótese alternativa. 
 As hipóteses estatísticas não necessariamente deverão ser idênticas à hipótese 
científica. 
 
5.1.4.1 Elaborando as hipóteses 
 O pressuposto a hipótese estatística é sempre testar a nulidade dos dados. Por 
exemplo, em um experimente está sendo testada a capacidade de duas substâncias pos-
suírem o mesmo poder de reação química, nas proporções utilizadas. A H0 deverá ser a 
seguinte: As substâncias possuem a mesma capacidade de reação. Já a H1, será As 
substâncias não possuem a mesma capacidade de reação. 
 A hipótese nula admite que os resultados sejam iguais ou com diferenças aleató-
rias entre os tratamentos. 
n3210 X ...XXX :H === 
 
 Já a hipótese alternativa, testa a falta de nulidade ou falta de diferenças aleató-
rias entre os tratamentos. 
n321a X ...XXX :H ≠≠≠ 
 
5.1.4.2 Hipótese Estatística x Hipótese Científica 
 A hipótese estatística testa somente os dados numéricos obtidos através de um 
modelo matemático fixo e contendo restrições, que não o permite avaliar variáveis 
complexas e multáveis (clima, efeito antrôpico, etc.). 
 A hipótese científica poderá ser a mesma hipótese estatística ou basear-se nela, 
porém a resposta para entendimento dos resultados, não será somente baseada em um 
modelo matemático. Desta forma, valerá além da experiência do pesquisador, uma boa 
revisão bibliográfica e uma interpretação imparcial dos dados, somada com uma facili-
dade de concluir de acordo não somente pelos números, mas pela descrição do fato, seja 
ela: biológica, social, etc. 
 
5.1.5 Testando as Hipóteses 
 Existem várias formas de testar as hipóteses elaboradas. Normalmente testa-se 
através de modelos matemáticos, que são denominados testes estatísticos, que se divi-
dem basicamente em Teste Paramétricos e Não Paramétricos, que serão visto no item 
Técnicas Estatísticas Para Análise de dados, p. 14. 
 
5.1.6 Riscos na Tomada de Decisão Através Teste de Hipóteses 
 Quando se utiliza uma estatística para tomar decisão sobre um parâmetro da po-
pulação, existe um risco de se chegar a uma conclusão incorreta. Na verdade, dois tipos 
de erro podem ocorrer quando aplicamos a metodologia do teste de hipóteses: 
 Um erro do tipo I ocorre se a hipótese nula H0 for rejeitada quando de fato é 
verdadeira e não deveria ser rejeitada. 
 Um erro do tipo II ocorre se a hipótese nula H0 for rejeitada quando de fato é 
falsa e não deveria ser rejeitada. 
 
Apostila de Estatística Aplicada 
 
7 
5.1.7 Aleatorização 
 Na oportunidade em que organizamos os ensaios devemos proporcionar condi-
ções idênticas para cada tratamento, possibilitando que se houver algum erro este seja 
atribuído ao acaso, ou seja, não tendencioso. Com este processo o erro experimental 
poderá ser mensurado através do modelo matemático utilizado para analisar os dados. 
 
5.2 Erros de Observações 
 Quanto aos componentes de uma população, o pesquisador terá a oportunidade 
de verificar a existência de diferenças entre os mesmos. 
 Através da observação ou coleta de dados, haverá sempre uma discrepância en-
tre as amostragens realizadas, seja por falha no aparelho utilizado ou pela desatenção do 
observador. São os erros experimentais oriundos de fatores que não podem ser controla-
dos. 
 
5.2.1 Erros do Observador 
 O grau de treinamento dos observadores, o excesso de trabalho, seu estado físico 
e condições ambientais podem ser as principais causas de erros das observações. Como 
exemplo, poderíamos citar a experiência de que participaram cinco técnicos especiali-
zados em análise de foto aérea (foto interpretação), que examinaram em épocas separa-
das por um período de dois meses, as mesmas 500 fotos, com a finalidade de verificar a 
degradação ambiental acentuada das áreas fotografadas. As fotos foram interpretadas 
separadamente por cada técnico conforme a Tabela 1. 
 Erros cometidos pelo observador deverão ser considerados no modelo matemáti-
co escolhido para análise dos dados. Entretanto se estes erros forem muito distantes, ou 
seja, forem muito discrepantes, o modelo matemático poderá não prevê erro tão grande. 
Assim o treinamento dos observadores deverá ser de forma a permitir um menor erro 
experimental possível. 
 
Tabela 1. Resultados da interpretação de 500 fotos aéreas de diversas áreas com pre-
sença de mata. (dados fictícios) 
Fotos onde a degradação foi considerada positiva (nº) Observador 1ª leitura 2ª leitura 
A 118 139 
B 69 78 
C 83 88 
D 96 89 
E 106 92 
 
 Observa-se pela tabela acima que em nenhuma das duas ocasiões os diferentes 
observadores coincidiram quanto ao número de fotos consideradas positivas para o refe-
rido diagnóstico. O mesmo foi verificado em relação a cada um dos observadores que 
apresentaram resultados diferentes entre as duas leituras. 
 Devemos concluir que, tais discordâncias não refletem uma variação real, e sim 
cometida por quem procedeu à leitura do material fotográfico. 
 
William Costa Rodrigues 
 
8 
5.2.2 Erro do Método de Observação 
 Os métodos de observação possuem erros mais ou menos importantes. Por isso 
há uma preocupação naturalde todo pesquisador em aperfeiçoá-los ou substituí-los por 
outros métodos mais eficientes a fim de aumentar a exatidão dos resultados. 
 Cada método em particular pode ter uma série de fatores que conduzem à distor-
ção dos resultados. 
 
5.2.3 Por Falta de Resposta 
 Este tipo de erro poderá ou não ocorrer no experimento. Ele ocorrerá se não 
houver a possibilidade de obter, dentro da metodologia, o dado que irá compor o con-
junto de informações a serem analisadas. Por exemplo, na coleta de informações a res-
peito da poluição de um determinado córrego, houve uma seca muito intensa secando a 
água no ponto de coleta pré-determinado, desta forma, houve um erro por falta de res-
posta, assim não poderá o observador coletar em outro ponto, já que a metodologia pre-
viu que aquele era o ponto a ser amostrado. 
 Em experimento, que constituem blocos e parcelas, o erro por falta de resposta 
ocorrerá através da perda de uma parcela. 
 Os modelos matemáticos que prevêem erros por falta de resposta são apropria-
dos, pois irão permitir uma flexibilidade de estimar o dado faltoso. 
 
5.3 Controle dos Erros nas Observações 
 Apesar da distinção que procuramos dar ás diferentes fontes de erros. Devemos 
lembrar que eles são bastante independentes. 
 Qualquer que seja a causa dos erros anteriormente abordados, estes poderão ser 
reduzidos ou eliminados de acordo com as coisas que os determinam. 
 Os erros dependentes dos observadores podem ser minimizados por uma prepa-
ração e por um treinamento mais eficientes, assim como por uma melhoria das condi-
ções físicas e de trabalho. 
 Os erros causados pelos métodos de observação podem ser reduzidos selecio-
nando-se o funcionamento dos aparelhos utilizados. 
 
5.4 Métodos de Coleta de Dados 
 Embora a maioria das experimentações as informações devam ser retiradas dire-
tamente no "campo", em muitas ocasiões podem-se aproveitar dados previamente obti-
dos por outras pessoas. No primeiro caso, consideramos que a informação foi recolhida 
de fonte primária e no segundo caso dizemos que a fonte é secundária. 
 
5.4.1 Fontes Primárias 
 Quando não há informações dos dados que queremos estudar, devemos ir a a-
campo para obtê-lo, assim a metodologia deverá prever a coleta de dados na fonte pri-
mária. 
 Um exemplo deste tipo de fonte é a coleta de água para a análise de poluição de 
um determinado córrego. A coleta esta sendo realizada no campo, não sendo utilizados 
dados previamente coletados por outro pesquisador. 
 
5.4.2 Fontes Secundárias 
 Quando as informações que nos interessa já foram coletadas por outro pesquisa-
dor, podemos utilizá-las. Este tipo de fonte é chamado secundário, pelo simples fato, da 
coleta dos dados ter sido realizada por outra pessoa. É óbvio que a qualidade deverá ser 
Apostila de Estatística Aplicada 
 
9 
levada em consideração, além do que, devemos verificar a metodologia utilizada, para 
saber se esta poderá responder ao questionamento que a pesquisa propõe-se a responder. 
 
5.5 Pesquisa Observacional 
 Em certos campos da biologia e das ciências sociais, por exemplo, os métodos 
experimentais podem ser difíceis ou mesmo impossíveis de aplicar. Então a observação 
científica adquire grande importância e deve ser feita com o máximo de cuidado. 
 Teorias tão fundamentais como a da evolução forma estabelecidas com base 
exclusiva na observação da natureza. A viagem de Darwin ao redor do mundo permitiu-
lhe coligir tal quantidade de informações que pôde consubstanciar a hipótese formulada 
por Lamarck, Saint Hilaire e outros naturalistas sobre a evolução dos seres vivos. Dar-
win buscou correlacionar as características próprias das espécies com as condições do 
meio em que vivia cada uma delas. Suas observações sobre as relações entre organismos 
e o meio contribuíram decisivamente para a criação da ecologia. 
 A observação deve ser inteligente e sagaz, de modo permitir clara distinção entre 
os fatos que são relevantes, para o estudo em causa, e os inúmeros outros que se apre-
sentam concomitantemente. Por isso deve ser atenta, precisa e metódica. Deve ser per-
sistente, completa, porém analítica. 
 Exige que o pesquisador seja curioso, paciente, objetivo e imparcial; capaz de 
com os olhos isentos de preconceitos e a cabeça livre das fórmulas tradicionais, de idéi-
as fixas ou baseadas em dogmas ou em autoridades que não demonstraram cabalmente, 
na praticam a validade de suas bases. 
 Sempre que possível, portanto, as observações devem ser corretamente registra-
das, repetidas e quantificadas, partindo-se de medidas rigorosas que permitam a análise 
estatística dos dados. 
 
5.6 Pesquisa Experimental 
 A experimentação ou experimento ou simplesmente experimento é um método 
científico e de observação dos fatos ou fenômenos naturais, sob condições particulares 
estabelecidas pelo pesquisador. 
 Em sua essência, a experimentação deve permitir comparar o efeito de suas ou 
mais condições ou tratamentos, bem definidos, sobre um atributo do organismo ou ma-
terial que é objeto da pesquisa. 
 As condições, que o pesquisador seleciona ou manipula na experiência, são ge-
ralmente denominadas variáveis independentes, enquanto que as mudanças observadas 
em conseqüência, no atributo, são as variáveis independentes. Assim, em estudos de 
dietas ou os alimentos administrados seriam as variáveis independentes, e o crescimento 
em peso ou altura, corresponderiam às variáveis dependentes. 
 Em experiências mais simples, os valores de uma variável independente (eixo 
das abscissas - X), são confrontados com os dados da variável dependente (eixo das 
ordenadas - Y). Por vezes, apenas duas condições da variável são testadas (por exemplo: 
duas temperaturas, duas concentrações de uma substância, a presença ou a ausência de 
luz, a administração ou não de um medicamento, etc.). Mas, como a resposta do orga-
nismo ou do fenômeno pode não ser diretamente proporcional à intensidade do fator 
ensaiado, torna-se em geral necessário experimentar três ou mais valores de variável 
independente, para que se possa apreciar seu efeito e estabelecer a lei do fenômeno. 
(Figura 3). 
 
William Costa Rodrigues 
 
10 
B
A
5
10
15
20
25
30
A B
X
Y
A
C
D
B
5
10
15
20
25
30
35
A B C D
X
Y
 
Figura 3. Interpretação dos dados experimentais. O gráfico à esquerda, baseado em 
apenas dois pares de valores anotados para X e Y (que definem os pontos A e B), parece 
sugerir que Y cresce à medida que X cresce, entretanto no gráfico à direita, em que fo-
ram registrados outros valores intermediários (definidos pelos pontos B e C), mostra 
que a relação entre X e Y obedece a uma lei mais completa. 
 
5.6.1 Princípios da Experimentação 
 A experimentação é a forma que o pesquisador, seja na área científica ou social, 
encontra para estimar os dados da pesquisa que irá realizar. 
 Os princípios básicos da experimentação científica são: 
a. A experimentação deverá ter impreterivelmente repetições, para assegurar que a 
resposta não foi obtida por mera casualidade e sim por inerência do tratamento. 
b. A casualização é um princípio fundamental, pois permite que o experimento possa 
ser regido por efeitos gerais a todos os experimentos. Assim as parcelas dos trata-
mentos deverão ser distribuídas ao acaso pelo experimento, caso a área experimental 
não apresente uniformidade; 
c. O controle das variáveis aleatórias (chuva, vento, temperatura, efeito antrópico, 
etc.), deverá ser controlado, caso não seja possível, recomenda-se que o efeito seja 
igual para todos os tratamentos ou itens testados; 
d. O experimento deverá ser realizado de acordo com uma técnica já conhecida e testa-
da; 
e. Caso a técnica a ser utilizada seja original, esta deverá ser experimentada antes de 
ser utilizada na experimentação; 
f. Os modelos estatísticosa serem utilizados na experimentação deverão ser adequados 
ao que se pretende responder, ou seja, deverá haver uma adequação da metodologia 
(objetivos) com o modelo, para que os resultados possam levar o pesquisador a uma 
resposta coerente e segura; 
g. Amostragens regulares, quando possíveis, pois permitem uma melhor análise dos 
dados; 
h. Certificação de que as pessoas envolvidas na experimentação possuam treinamento e 
conhecimento a cerca do modelo estatístico e da metodologia a ser empregada. 
 
5.7 Tipos de Amostras 
5.7.1 Amostras Simples ao Acaso 
 Um dos métodos mais usados. Emprega-se este processo, quando dispomos de 
uma população que apresenta características homogêneas, isto é, pouca variação no con-
junto dos elementos, ou seja, variância próxima ou igual à média. 
Apostila de Estatística Aplicada 
 
11 
 
5.7.2 Amostra Estratificada 
 Utilizada quando dispomos de informações de que a população apresenta carac-
terísticas heterogêneas, isto é, grande número de fatores ou variáveis que podem com-
prometer as conclusões se não eliminados, através de um procedimento correto. 
 A população heterogênea é transformada em subpopulações homogêneas. Estas 
subpopulações têm nome de estratos. O tamanho da amostra será determinado em fun-
ção da variância de característica a estudar em cada estrato, ou então considerando o 
número de seus elementos e procedendo-se a um percentual de cada estrato. Obtém-se, 
assim, uma amostra estratificada proporcional. 
 Considera-se este tipo de amostra que possibilita maior precisão quanto aos re-
sultados. 
 
5.7.3 Amostra Sistemática 
 Aplicada quando a população apresenta um número finito de elementos e os da-
dos estão distribuídos aleatoriamente. O número de elementos da amostra será obtido da 
seguinte forma: 
 Numa população constituída por 500 elementos e a amostra por 50 elementos, 
onde N = 500 e n = 50 dividem-se N por n, isto é, 500 por 50, obtendo-se 10, em segui-
da, sorteia-se um número da primeira dezena e, a partir dele, escolhem-se os demais, 
observando-se que se o número sorteado for, por exemplo, cinco, o segundo deverá ser 
15, o terceiro será 25, e assim por diante, até obterem-se os 50 elementos que constitui-
rão a amostra. 
 
5.7.4 Amostra por Área 
 Utiliza mapas geográficos de cidades e municípios. As unidades que comporão a 
amostra serão sorteadas em função das condições de variabilidade existentes, podendo a 
seqüência ser obtida através de sorteio de ruas e residências. A família poderá ser a uni-
dade mais simples a ser pesquisada. 
 
5.7.5 Amostra por Conglomeradas 
 Visto que, pela estratificação, o uso de amostragem nos conduz a ganhar em 
precisão. Embora a subdivisão da população seja em estratos, para que, de cada um, 
utiliza-se uma quantidade de elementos – o que torna o método de seleção um pouco 
mais trabalhoso – ele redunda conseqüentemente em ganho de precisão, o que é, no en-
tanto, compensado apenas pela diminuição das tarefas. Após a determinação dos con-
glomerados da população, sorteiam-se aleatoriamente os conglomerados que irão parti-
cipar da amostra. 
 Outros métodos de seleção poderão ser associados para determinação dos ele-
mentos de cada conglomerado para compor a fração amostral. 
 
5.7.6 Amostra Selecionada 
 Este tipo de amostra se caracteriza por elementos que o pesquisador seleciona 
para avaliar o perfil de seus componentes, considerando que os mesmos apresentam 
pelo menos uma característica em comum. 
 Por exemplo, na área de saúde é comum a realização de pesquisas de que são 
selecionados os pacientes portadores de determinadas enfermidades. Poderia ser a doen-
ça de Parkinson, hepatite, tuberculose, entre outras. Portanto, neste caso, só farão parte 
do estudo indivíduos portadores de enfermidade a ser pesquisada. 
William Costa Rodrigues 
 
12 
 
5.8 Determinação do Tamanho da Amostra 
 É muito comum um pesquisador indagar qual o número de amostras a serem 
estabelecidas para uma determinada pesquisa de campo, laboratório ou uma simples 
investigação. 
 A determinação do tamanho da amostra depende de alguns fatores: 
1. Tamanho da população alvo. Quanto ao número de elementos que compõe, pode-
mos classificar em finitas e infinitas. Na obtenção do tamanho amostral será importante 
esta informação. 
 Na população finita, por exemplo, N= 3.000, a obtenção da amostra se torna 
menos complexa do que nos casos de populações infinitas de (N= 800.000). 
 
2. Variância ou porcentual. Em alguns casos são empregadas características que apre-
sentam determinada variabilidade. Em outros casos, observamos a percentagem de cer-
tas características em um conjunto. Dependendo do tipo de investigação, ora usamos a 
variância, ora usamos a percentagem. 
 
3. Nível de confiança (αααα). Deve-se imaginar que, ao apresentarmos um valor percentu-
al, referente à taxa de prevalência do fenômeno estudado na amostra observada, aquele 
valor tem, em relação ao valor percentual da população, uma diferença, que é, a priori, 
arbitrada pelo pesquisador. Esta diferença arbitrada é considerada tendo em conta um 
nível de acerto que normalmente consideramos de 95% ou 99% de confiança, ou seja, o 
nível de confiança de que aquela diferença arbitrada realmente ocorra até o limite de 
diferença proposto. 
 Os níveis de confiança propostos rotineiramente são de 95% e 99% de confian-
ça. Simbolizado pela letra z, este valor é substituído na fórmula (1) por uma constante 
1,96, quando o nível de confiança corresponde a 95%, e por 2,58 quando o nível de con-
fiança é de 99%. 
 
4. Informação da literatura (p). Toda pesquisa a realizar em que investigamos a taxa 
de prevalência que fenômeno apresenta, na literatura, resultados os quais utilizaremos 
quando da determinação do valor de n em relação ao valor de p. Chamamos q o valor 
complementar de p para 100%, ou seja, p + q = 100%. 
 
5. Erro de amostragem ou precisão. Ao procedermos às técnicas de amostragem para 
determinação do tamanho da amostra (n), entende-se que a amostra obtida apresentará 
um determinado valor para a taxa de prevalência de certo evento. Normalmente é espe-
rada uma diferença em relação à taxa de prevalência da população-alvo. Esta diferença é 
conhecida como erro de amostragem, a qual geralmente é arbitrada pelo pesquisador. 
 
5.8.1 Tamanho da Amostra para Dados Discretos 
 Quando dispomos de variáveis discretas, utilizamos as seguintes fórmulas: 
( ) ( )1 pP
qpz
n 2
2
0
−
××
= e ( )2 
N
n1
n
n
0
0
+
= 
 Onde n0: número inicial; Z: nível e confiança; p: valor obtido de trabalho anteri-
ormente realizado; N tamanho da população; q: 100%-p; (P-p): erro arbitrado pelo pes-
quisador. 
 
Apostila de Estatística Aplicada 
 
13 
 Quando se trata de trabalho original e não se dispõe de nenhum valor usamos 
p=50%. 
 Em populações finitas, são utilizadas as fórmulas (1) e (2). Para populações infi-
nitas e para as que N seja um valor muito elevado, apenas a fórmula (1) deve ser utiliza-
da. 
 Exemplo: com a finalidade para verificar a incidência de doença de Chagas em 
uma população de certa região, desejamos determinar o tamanho da amostra, sendo o 
tamanho da população igual a 40.000 pessoas. 
 Considerando uma prevalência de anos anteriores igual a 20% com valor z = 
1,96 (α=5%) e sendo estabelecida um erro de 4%, qual seria o número de elementos que 
a amostra deveria conter? 
 A fórmula adequada para mensurar o tamanho da amostra é a equação 1. Desta 
forma temos: 
Z = 1,96; p = 20%; q = 80%; e (P-p)= 4% 
384100 3,84 
16
600.184,3
 n 
4
802096,1
n 02
2
0 =×∴
×
=∴
××
= 
35,380
1,0096
384
n 
40.0000
3841
384
 n ==∴
+
= 
 
 O número de indivíduos que deveríamos examinar para a determinação da pre-
valência é de 384 para uma população infinita e 380, para umapopulação finita. 
 
5.8.2 Tamanho da Amostra para Dados Contínuos 
 Para variáveis quantitativas contínuas, dispomos das seguintes fórmulas: 
( ) ( )1 XX
Sz
n 2
22
0
−
×
= e ( )2 
N
n1
n
n
0
0
+
= 
 
 Onde n0: número inicial; z: nível de confiança; X : média da amostra; X : média 
da população alvo; S: desvio padrão obtido de trabalho anteriormente realizado. ( X -
X ): erro arbitrado pelo pesquisador; N: tamanho da população. 
 Não sendo encontrado um desvio padrão em outro trabalho, procede-se a uma 
pré-amostragem, retirando-se 30 observações da população e calculando-se o desvio 
padrão da característica a ser estudada. 
 A utilização das fórmulas (1) e (2), deste item, tem procedimento semelhante ao 
amostrado para variáveis discretas. 
 
 Exemplo: numa pesquisa para determinar a taxa média de hemoglobina dos in-
divíduos de uma comunidade, deparamos com o problema de definir o tamanho da a-
mostra. Apenas sabemos que a população desta comunidade é de aproximadamente de 
25.000 indivíduos, o que torna impraticável utilizar todos os elementos. Face a isto, 
resolvemos determinar o número de elementos que comporão a amostra. Selecionamos 
ao acaso 30 elementos, determinamos o valor do teor de hemoglobina de cada um e cal-
culamos a variância (medida de dispersão), cujo valor foi igual a 9mg2. 
 Para tal estudo, a fórmula a empregar para determinação do tamanho da amostra 
será a fórmula 1 deste item. 
William Costa Rodrigues 
 
14 
 A precisão considerada para esta pesquisa foi de 0,5mg e o valor z= 1,96. Substi-
tuindo na fórmula teremos: 
13824,138n 
25,0
56,34
n 
25,0
984,3
n 
5,0
996,1
n 0002
2
0 ≅=∴=∴
×
=∴
×
= 
13748,137n 
0055,1
24,138
n 
000.25
24,1381
24,138
n ≅=∴=∴
+
= 
 Para o estudo a será realizado recomenda-se que o número mínimo de indivíduos 
será igual a 138 para populações infinitas e 137 para populações finitas. 
 
 
6 Técnicas Estatísticas Para Análise de dados 
 
6.1 Medidas de Tendência Central 
 Os fenômenos quando estudados estatisticamente, são traduzidos por um conjun-
to de dados numéricos. A descrição desse conjunto de dados torna-se mais clara quando 
se obtêm medidas que resumem as informações necessárias. Essas medidas dão-nos o 
valor típico do conjunto de dados. 
 Os valores típicos de um conjunto de dados tendem a se localizar no centro da 
série. São, por isso, chamados medidas de tendência central. 
 A importância das medidas de tendência central é dupla: 
 Representam ou resumem todos os valores obtidos pelo grupo e, como tal, for-
necem uma descrição precisa da execução do grupo como um todo, e; 
 Permitem o confronto de dois ou mais grupos. 
 Usam-se, em geral, três medidas de tendência central: média aritmética (simples, 
ponderada, de dados agrupados em intervalos), mediana e moda. 
 
6.1.1 Média Aritmética Simples ( X ) 
 A media aritmética simples é a soma dos valores ou medidas, divididas pela 
quantidade destes. Sendo representado pela fórmula: 
n
x
X ∑= 
 Onde X : representa a média; ∑x : a soma das variáveis; e o n o números de 
indivíduos ou elementos. 
 Exemplo: deseja-se saber o valor médio do seguinte conjunto de dados: 32, 25, 
32, 30, 26, 30, 29, 26, 29 e 33. 
 
∑x : 32 + 25 + 32 + 30 + 26 + 30 + 29 + 26 + 29 + 33. 
n = 10 
2,29
10
292X ⇒= 
 
6.1.2 Média Aritmética Ponderada 
 Quando se tem uma séria de valores sucessivos com a respectiva distribuição de 
freqüência, pode-se calcular a média aritmética ponderada. A forma de apresentação da 
distribuição de freqüência seria: 
 
Apostila de Estatística Aplicada 
 
15 
Variável Freqüência 
X1 f1 
X2 f2 
. . 
. . 
. . 
Xn fn 
 
A expressão da média ponderada será: 
n21
nn2211
f...ff
fx...fxfx
n
fx
X
+++
+++
==
∑
 
 
Exemplo: Calcular a média de idade de crianças até 9 anos de uma determinada locali-
dade. 
Idade (anos) Freqüência 
2 10
 
3 8 
4 6 
5 5 
6 5 
7 5 
8 7 
9 4 
 
50
250
4...810
49...83102X =
+++
×++×+×
= = 5 anos 
 
6.1.3 Média Aritmética de Dados Agrupados em Intervalos 
 Há vezes em que os dados não são verificados com seu verdadeiro valor indivi-
dual, mas são representados por uma classe que pode ter um determinado intervalo. 
Neste caso, operamos da mesma maneira do caso anterior. Considerando que o intervalo 
não tem um valor definido e sim um conjunto de valores. Utilizaremos como represen-
tante o ponto médio de cada intervalo. 
 Por exemplo, a distribuição de freqüência abaixo, procede-se da seguinte forma: 
Idade (anos) Freqüência (f) 
0 |– 5 4 
5 |– 10 2 
10 |– 15 3 
15 |– 20 1 
 
Idade (anos) Valor central (X) Freqüência (f) X.f 
0 |– 5 2,5 4 10,0 
5 |– 10 7,5 2 15,0 
10 |– 15 12,5 3 37,5 
15 |– 20 17,5 1 17,5 
Σ – 10 80,0 
 
 Aplicando a fórmula para calcular a média ponderada teremos: 
William Costa Rodrigues 
 
16 
anos 8
10
80
 
n
xf
X =∴= ∑ 
 Desta forma a média da população avaliada é oito anos. 
 Quando os dados apresentam homogeneidade, é possível o uso da média aritmé-
tica, que tem como: 
 Vantagens: 
o Ser fácil de calcular e entender; 
o Unir em um valor todas as observações do conjunto. 
 Desvantagens: 
o Não servir para séries variáveis assimétricas; 
o Não expressar variações dentro da distribuição de dados. 
 
6.1.4 Mediana (Me) 
 É um valor situado no centro da distribuição de freqüências. A distribuição tem, 
portanto, como objetivo encontrar um valor que permita conter 50% dos dados acima 
deste valor e 50% abaixo. 
 A mediana é especialmente útil quando se trata de séries assimétricas, isto é, 
quando alguns valores são elevados ou baixos em relação aos demais. A mediana não é 
influenciada pela magnitude de cada uma dessas séries. Para o cálculo da mediana de-
vemos previamente realizar alguns ajustes aos dados como segue: 
 Ordenam-se todos os valores, de forma crescente; 
 Determina-se o total de valores (n); 
 Localiza-se o valor central mediante a fórmula: 
2
1n +
, quando o número de ob-
servações (n) for ímpar e 1
2
n
 e 
2
n
+ , quando o número de observações é par, o 
que corresponde à média dos valores centrais. 
 
Exemplo: 
a) Em determinada localidade foram selecionadas oito escolas, com a finalidade de 
estimar a mediana referente ao número de alunos. Tendo verificado o seguinte 
quadro: 
Escola Nº de alunos 
A 150 
B 180 
C 230 
D 2.500 
E 200 
F 160 
G 250 
H 170 
 Inicialmente ordenam-se os dados: 150, 160, 170, 180, 200, 250 e 2.500. 
 Como o número de observações é par utilizam-se as duas fórmulas 1
2
n
 e 
2
n
+ , 
para obter os dois valores centrais. Assim os valores centrais para este conjunto de da-
dos são 180 (4º) e 200 (5º), portanto o valor médio destes dois valores é igual a 190, que 
corresponde à mediana. 
Me= 190 alunos. 
Apostila de Estatística Aplicada 
 
17 
 
b) Em coletas de amostra de solo em cinco cidades, foram verificadas amostras po-
luídas com metais pesados, conforme o quadro a seguir: 
Municípios Amostras Poluídas 
A 48 
B 42 
C 52 
D 95 
E 46 
 Após ordenar os dados teremos: 42, 46, 48, 52 e 95. Como o número de obser-
vações é ímpar utilizaremos a fórmula 
2
1n +
, para encontra o valor central. Desta forma, 
o valor central é 48, que corresponde ao valor da mediana. 
 Me= 48 amostras poluídas 
 
6.2 Medidas de Variação 
6.2.1 Desvio-Médio (DM) 
 Considerado que num conjunto de dados cada valor apresenta um afastamento 
em relação à média. O desvio-médio será a média aritmética destes afastamentos, le-
vando-se em conta os valores absolutos desses desvios. 
 Para um conjunto de observações: 2, 5, 9, 11, 14 e 25 
11 
6
66X 
6
251411952
 X ==∴+++++= 
 
6
11-2511-1411-1111-911-511-2D.M.
+++++
= 
 
6,5 D.M. 
6
34
 D.M. 
6
1430269
 D.M. =∴=∴
+++++
= 
 
6.2.2 Desvio Padrão 
 Existem dois tipos de desvio padrão, o chamado desvio padrão estimado ou s e o 
desvio padrão absoluto ou σσσσ. O Desvio padrão estimado (s) é utilizado em populações 
infinitas, ou seja, onde não se conhece com precisão o valor absoluto de n, já o σσσσ (des-
vio padrão absoluto ou verdadeiro) é calculado para populações com valor n, bem co-
nhecido, ou seja, em populações finitas. 
 O desvio padrão é o afastamento atribuído ao acaso, ou seja, o erro amostral, que 
o conjunto de dados contém. Este erro refere-se à diferença do valor s calculado e a mé-
dia aritmética. Para calcular o Desvio Padrão utiliza-se a seguinte fórmula: 
( )
1n
n
x
x
 s
2
2
−
−
=
∑
∑
 
 Onde: x: valores do conjunto de dados; Σ: somatório; e n: número de observa-
ções. 
 
Exemplo: Calcular o desvio padrão do seguinte conjunto de dados: 2, 5, 9, 11, 14 e 25 
Σx= 2+ 5 + 9 + 11 + 14 + 25 = 66 
William Costa Rodrigues 
 
18 
Σx²= 2² + 5² + 9² + 11² + 14² + 25² ∴Σx²= 4 + 25 + 81 + 121 + 196 + 625 = 1.052 
n = 6 
 
07,8 s 
 5,206 s 
5
326
 s 
16
726052.1
 s 
5
6
356.4052.1
 s 
16
6
66052.1
 s
2
=∴
=∴=∴
−
−
=∴
−
=∴
−
−
= 
 
 É importante ressaltar que no cálculo do desvio padrão utilizou-se o denomina-
dor (n-1), ou seja, o grau de liberdade, pois como o valor s é uma estimativa, de-
vemos ajustar o erro desta estimativa, eliminando um elemento do conjunto de 
observações. Vale ressaltar que, no caso de populações finitas o denominador 
será n e o desvio passa ser o σσσσ (desvio padrão absoluto ou verdadeiro). 
 
 Observamos agora uma série de dados agrupados, isto é, uma série de valores 
que se repetem e, por conseguinte, são representados pela sua freqüência. 
x f fx 
2 2 4 
3 2 6 
4 4 16 
5 4 20 
6 2 12 
Total 14 58 
 Temos um total de 14 valores agrupados em cinco categorias. Desta forma lan-
ça-se mão de um novo quadro de dados para facilitar os cálculos 
x f fx fx² 
2 2 4 8 
3 2 6 36 
4 4 16 256 
5 4 20 400 
6 2 12 144 
Total 14 58 852 
 
 Para calcular o desvio padrão desta distribuição, utiliza-se a seguinte fórmula: 
22
n
fx
n
fx
 s 







−=
∑∑
, ou seja, 
 
6,6101 s 6935,43 s 1636,178571,60 s 1429,48571,60 s 
14
58
14
852
 s 2
2
=∴=∴−=∴−=∴





−=
 
 
6.3 Variância ou Quadrado Médio 
 É o valor do desvio padrão estimado ao quadrado, originando a variância esti-
mada (s²), ou o valor do desvio padrão populacional, originando a variância populacio-
nal (σσσσ²). 
Apostila de Estatística Aplicada 
 
19 
 A variância é a medida estimada ou calculada que determina a variação dos va-
lores entre si, ou seja, quanto menor este valor menor será a diferença entre os valores 
dos elementos do conjunto de dados. 
 
6.4 Erro-Padrão da Média - s(x) 
 Quando uma investigação científica é realizada através de amostra, a média a-
ritmética teria outros afastamentos (erros) em relação média populacional ou real. Para 
se determinar a média destes afastamentos utilizaremos o erro padrão da média, cujo 
cálculo é expresso pela fórmula: 
( )
n
s
 xs = 
Onde: s: desvio padrão da amostra e; n: número de observações do conjunto de dados. 
 Exemplo: em uma amostra com 100 observações, obteve-se um valor s igual a 
1,25, o erro-padrão da média será: 
( ) ( ) ( ) 125,0 xs 
10
25,1
 xs 
100
1,25
 xs =∴=∴= 
 É importante ressaltar que quanto menos o valor do erro-padrão da média, mais 
preciso será os resultados em relação à estimativa da média, análise da variância 
entre outras análises, baseadas na estimativa de dados. 
 
6.5 Coeficiente de Variação 
 O coeficiente de variação (CV) é uma medida abstrata que independe das unida-
des em que foram medidas os dados. Ele expressa o desvio padrão que obteríamos se a 
média representasse o índice 100. Pode ser também interpretado com uma medida de 
precisão alcançada das estimativas dos dados em relação aos valores reais. Este parâme-
tro é estimado pela fórmula: 
100
x
s
 C.V. ×= 
Onde: s: desvio padrão da amostra; x : média aritmética da amostra. 
 
 Quanto maior for a dispersão no conjunto de observações, maior será o valor do 
coeficiente de variação. Desta forma, podemos classificar o C.V. da seguinte forma: 
C.V. Classificação 
C.V. < 10% Ótimo 
11% < C.V. <20% Bom 
21% < C.V.< 30% Regular 
 
 É importante ressaltar que valores acima de 30% não significam um C.V. insa-
tisfatório, pois alguns experimentos em campo podem ter o valor C.V. de até 
65% e serem considerados bons. 
 
6.6 Curva de Distribuição Normal 
 A maioria dos fenômenos da natureza, em especial os biológicos, apresentam 
variações dentro de um intervalo definido. 
 Se coletássemos os dados quanto ao peso de mil indivíduos, encontraríamos di-
versos valores, dos quais haveria pequena quantidade de baixos e altos, e grande quanti-
dade em torno dos valores centrais. 
William Costa Rodrigues 
 
20 
 Numa representação gráfica dos dados obtidos encontraríamos uma distribuição 
normal conforme a figura abaixo. 
 
Figura 4. Curva de distribuição normal simétrica, onde µ é a média e s o desvio padrão. 
 A curva de distribuição normal ou simplesmente curva normal é caracterizada 
por dois parâmetros: a média e o desvio padrão (ou a variância). 
 O ponto máximo da função ocorre no valor médio (situado ao centro da curva, 
que é simétrica); a distância entre ele e cada um dos pontos em que muda a direção da 
curvatura, à esquerda e a direita da média (µ) corresponde ao valor do desvio padrão(s) 
(Figura 4). 
 A forma desta curva depende do desvio padrão, sendo tanto mais alta e estreita 
quanto menor for o valor de s (Figura 5). 
 
Figura 5. Curvas de distribuição normal das freqüências de X, tendo a mesma média 
(µ) e diferentes graus de dispersão dos valores de X, isto é, desvios padrões (s) diferen-
tes. 
 A área da figura sob a curva compreendida entre valores iguais a s, de um e ou-
tro lado da média (µ), contém 68,2% dos valores de X, que serão tanto mais próximos 
de µ quanto menor for o desvio padrão (Figura 6). 
Apostila de Estatística Aplicada 
 
21 
 
Figura 6. Curva normal padrão, tendo por parâmetros µ=0 e s= 1. As áreas sob a curva 
assinaladas entre os traços verticais, indicam as percentagens de valores de X aí conti-
das. 
 A área compreendida entre -2s e +2s abrange cerca de 95,5% dos valores de X, 
restando, portanto duas áreas extremas, apenas 4,5% das observações ou eventos medi-
dos. 
 As propriedades da curva normal permitem seu uso para o cálculo de probabili-
dade com que determinados valores obtidos durante as observações, ou as medições, 
possam ocorrer em função das variações. 
 
6.6.1 Limites de Confiança 
 Quando se desconhece o valor de determinado parâmetro de uma população (sua 
média, por exemplo), podemos estimá-lo a partir de uma amostra extraída dessa popula-
ção. A estimativa, entretanto, pode ser inexata e não saberemos o quanto ela é incorreta. 
 Para a estimativa de um parâmetro, consideram-se como sendo seus limites de 
confiança, aqueles valores entre os quais fica incluído, com uma alta probabilidade, o 
valor exato desse parâmetro. 
 A probabilidade P= 0,05 (ou 5%), que corresponde a um desvio ou erro padrão 
de aproximadamente 2s (ou, mais precisamente, 1,96s), é geralmente aceita, por con-
venção, como limite para decidir se um resultado afastado da média (ou a diferença en-
tre duas médias) é significativo ou não. 
 Um afastamento maior que 2s indica uma probabilidade menor que 1 para 20 de 
que os valores encontrados pertençam a uma mesma população. Assim, se o valor mé-
dio (m) de uma observação comportarum desvio ou erro padrão maior que 1,96s, em 
relação ao valor hipotético da média verdadeira (µ), concluiremos que ele não pertence 
à população cuja média é µ. 
 Na Figura 7, os limites de confiança são representados pelos valores de -C e +C 
que circunscrevem, com grande probabilidade, o valor do parâmetro em causa. A ampli-
tude entre esses valores limites denomina-se domínio de confiança ou intervalo de con-
fiança. 
 
William Costa Rodrigues 
 
22 
 
Figura 7. Os valores de Z (compreendidos entre -Z e +Z) correspondem aos afastamen-
tos de X em relação à média µ, medidos em unidades de desvio-padrão. A probabilidade 
(P) com que X possa ter valor menor que uma coordenada escolhida (C) é indicada pela 
área, sob a curva, situada à esquerda de C. 
 
6.6.2 Erro Padrão 
 Em alguns casos, é conveniente trabalhar com a média das médias amostrais. 
Nesse caso o desvio padrão de uma distribuição de médias ou de diferenças entre mé-
dias é também chamado de erro padrão. 
 
6.7 Teste de Normalidade dos Dados 
 Os testes empregados para verificar a distribuição normal dos dados, têm por 
objetivo direcionar o pesquisador a saber qual o tipo de teste será utilizado, se um teste 
paramétrico ou não paramétrico. 
 É necessário explorar um pouco mais a idéia sobre a distribuição de variáveis. 
Uma questão que pode ser levantada primeiramente é se a maioria das variáveis é nor-
malmente distribuída e, portanto poder ser empregados testes paramétricos sem preocu-
pação quantos às suas restrições. Testes estatísticos com grandes amostras mostram que 
nem sempre as suposições de normalidade de confirmam. Por outro lado, como nem 
sempre se dispões de um número elevado de casos para estudo, às vezes nem é possível 
decidir se determinada variável possui ou não distribuição normal (na prática a amostra 
deve ter o valor n > 100). 
 Os testes comumente utilizados são Klomogorov–Smirnov, ou teste K-S, que é 
um teste tradicional de normalidade e o teste de Shapiro-Wilks, ou teste S-W, vem sen-
do empregado cada vez com maior freqüência. 
 
6.8 Teste de Klomogorov-Smirnov (K-S) 
 Este teste compara a distribuição real dos dados (amostra) com uma distribuição 
normal gerada por uma média e um desvio padrão supostamente conhecidos (popula-
cionais). 
 
6.9 Teste de Shapiro-Wilks (S-W) 
 Este teste é uma boa opção para se testas a normalidade de uma distribuição. o 
teste pode ser usado em amostra de até 2.000 observações. Nos últimos anos o teste S-
W tem sido preferido ao teste K-S pela capacidade de adaptação a uma variada gama de 
problemas sobre a variação de normalidade. 
 
Apostila de Estatística Aplicada 
 
23 
7 Testes Paramétricos e Não Paramétricos 
 De acordo com a distribuição dos dados, utilizam-se testes de duas categorias: 
 Os testes paramétricos - aplicam-se a amostras extraídas de populações com dis-
tribuição normal e variâncias iguais ou muito próximas, além de exigirem que as 
medidas sejam feitas em escalas numéricas intervalares, suscetíveis de tratamen-
to matemático. Estes testes são, em geral, os de maior potência, podendo ser a-
plicados mesmo quando ocorram pequenos desvios de normalidade ou da vari-
ância entre as amostras. 
 Os testes não-paramétricos - são menos exigentes quanto à natureza da distribu-
ição dos dados experimentais, são em geral menos potentes. 
 Se os dados experimentais não estiverem de acordo com os pressupostos para a 
aplicação de provas paramétricas (por exemplo, se não seguirem a distribuição normal), 
uma alternativa é a transformação de dados dos seus valores (vide item Transformação 
de Dados, p. 37), de tal forma que os pressupostos possam ser satisfeitos. A transforma-
ção mais utilizada é a conversão dos dados em logaritmos decimais. 
 Os elementos necessários para a utilização de um teste são: 
 Formular as duas hipóteses: a de nulidade (H0), que supõe não haver diferença 
significativa entre os valores encontrados e os esperados; e a hipótese alternativa 
(H1), onde essa diferença existirá; 
 Estabelecer o nível de significância α e, conseqüentemente, as regiões críticas de 
aceitação de H0; 
 Definir se, se trata de um teste mono ou bicaudal; 
 Tomar as amostras de tamanho n e registrar os valores, calcular a média (µ), a 
variância (s²) e o desvio padrão (s) e; 
 Escolher o teste estatístico adequado. 
 Para maiores detalhes e saber com escolher um teste, consulte o Fluxograma 
Para Auxiliar na Escolha de Testes Estatísticos, p. 43. 
 
7.1 Teste t - Student 
 Há certas ocasiões em que o pesquisador deseja a comparação de suas amostras 
que provêm de populações diferentes. Neste caso, ao constatar as médias destas amos-
tras para verificar se há a diferença entre elas, estaremos indiretamente comparando as 
duas populações. E por analogia, poderíamos proceder a um experimento em que um 
grupo receberia uma droga (grupo tratado), enquanto outro grupo nada receberia (grupo 
controle). O efeito do tratamento aplicado seria verificado pela comparação dos dois 
grupos. 
 Nesses casos, o teste t seria indicado para tal comparação salientando que a vari-
ável em análise teria que apresentar os dados em distribuição normal ou aproximada-
mente normal. 
 O valor t - student calculado é dado pela fórmula: 
n
s
X
t
2
= 
Onde: X : média; s²= variância e N: número de observações 
 
 As formas de utilização deste teste apresentam situações diferentes como mos-
tras os subitens abaixo: 
 
William Costa Rodrigues 
 
24 
7.1.1 Dados Pareados (Amostras Dependentes) 
 Trata-se do estudo de um tipo de tratamento em que se utilizam pares de indiví-
duos ou animais ou plantas. Há a uma preocupação em que haja um pareamento entre 
indivíduos para que eles difiram somente no aspecto, tratado e não-tratado. 
 Em um estudo foi separada uma população de 10 crianças para os testes com 
administração da dieta de folha de mandioca, obtivemos os seguintes dados: 
 
Tabela 2. Dados do peso de 10 crianças antes e depois da administração a base de fo-
lhas de mandioca (dados fictícios). 
Peso (Kg) Item Antes Depois Diferença 
1 24 28 4 
2 23 25 2 
3 24 25 1 
4 23 29 6 
5 30 32 2 
6 31 34 3 
7 31 38 7 
8 14 19 5 
9 20 22 2 
10 18 23 5 
Total !Configuração não 
válida de caractere 
!Configuração não 
válida de caractere 
!Configuração não válida 
de caractere 
 
 Procedimento: 
a) Obtêm-se as diferenças entre os valores antes e depois (quadro acima); 
b) Verifica-se a média aritmética das diferenças; 
c) Verifica-se a variância das diferenças e; 
d) Aplica-se o teste t - student. 
b) 7,3
10
37Xd == 
 
c) Σd²=173; Σd=37; n= 10 
 
01,4
9
1,39
9
9,136173
9
10
1369173
s2 ==
−
=
−
= 
 
d) 84,5
0,6332
3,7
 
0,401
3,7
 t
10
4,01
3,7
t ===== 
 
 O próximo passo e recorrer à tabela do teste t - student (Tabela 11, p. 44) e com-
para-se o valor do t calculado com o valor crítico da tabela em função de α com n-1 
graus de liberdade. 
Apostila de Estatística Aplicada 
 
25 
 No exemplo acima, n= 10, portanto, devemos verificar os valores críticos com 
nove graus de liberdade. Desta forma, encontramos os valores 2,26 (5% ou α=0,05) e 
3,25 (1% ou α=0,01). 
 O valor encontrado (calculado) de t= 5,84 é maior do que os valores da tabela. 
Concluímos pela rejeição de H0 (hipótese nula) em nível de 1% de probabilidade 
(α=0,01). 
 Conclui-se que a adição do farelo de mandioca na alimentação contribuiu para o 
aumento do peso corpóreo das crianças. 
 
7.1.2 Dados Pareados (Amostras Independentes) 
 Neste caso os dados são tratados de forma diferente, ou seja, possuem o mesmo 
valor n, mas não pertencem ao mesmo tratamento ou não há comparação entre antes e 
depois. O teste t utilizado nesta situação pressupõe variâncias diferentes, mesmo o as 
duas amostras possuindo valores

Outros materiais