Buscar

ESTATISTICA

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 214 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 214 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 214 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Bráulio Roberto Gonçalves Marinho Couto
Janaína Giovani Noronha de Oliveira
Octávio Alcântara Torres
Reinaldo Carvalho de Morais
Estatística e 
Probabilidades
Bráulio Roberto Gonçalves Marinho Couto
Janaína Giovani Noronha de Oliveira
Octávio Alcântara Torres
Reinaldo Carvalho de Morais
ESTATÍSTICA E PROBABILIDADES
Belo Horizonte
Junho de 2015
COPYRIGHT © 2015
GRUPO ĂNIMA EDUCAÇÃO
Todos os direitos reservados ao:
Grupo Ănima Educação
Todos os direitos reservados e protegidos pela Lei 9.610/98. Nenhuma parte deste livro, sem prévia autorização 
por escrito da detentora dos direitos, poderá ser reproduzida ou transmitida, sejam quais forem os meios 
empregados: eletrônicos, mecânicos, fotográficos, gravações ou quaisquer outros.
Edição
Grupo Ănima Educação
Vice Presidência
Arthur Sperandeo de Macedo
Coordenação de Produção
Gislene Garcia Nora de Oliveira
Ilustração e Capa
Alexandre de Souza Paz Monsserrate
Leonardo Antonio Aguiar
Equipe EaD
Conheça 
o Autor
Bráulio Roberto Gonçalves Marinho Couto é 
doutor em Bioinformática, mestre em Ciência 
da Computação, especialista em Estatística, 
bacharel em Engenharia Química e técnico 
em Química. Atuante nas áreas de Estatística, 
Cálculo Numérico, Informática em Saúde, 
Epidemiologia Hospitalar e Bioinformática. 
Professor do Centro Universitário de Belo 
Horizonte (UniBH). 
Conheça 
a Autora
Janaína Giovani Noronha de Oliveira 
é mestre em Estatística e graduada 
em Licenciatura em Matemática com 
Habilitação em Física. Possui experiência 
como docente na área de Matemática e 
Estatística do Ensino superior e médio. 
Experiência com orientação de Monografias.
Conheça 
o Autor
Octávio Alcântara Torres é bacharel em 
Estatística e mestre em Demografia. Possui 
experiência nas áreas de probabilidade 
e estatística, regressão e correlação, 
análise estatística multivariada e controle 
estatístico de processo. Áreas de interesse: 
projeções populacionais, projeções de mão 
de obra qualificada, pesquisa de mercado, 
estatística aplicada.
Conheça 
o Autor
Reinaldo Carvalho de Morais é mestre e 
bacharel em Administração Pública, graduado 
em Estatística e especialista em Gestão 
Financeira. Possui experiência em pesquisas 
sobre economia e finanças públicas mineiras, 
bem como docência nas disciplinas de 
estatística, de economia, de engenharia 
econômica, de matemática financeira e de 
administração da produção.
Egressos de cursos de Engenharia e Tecnologia são profissionais que 
resolvem problemas. E como isso ocorre? Pela aplicação eficiente 
do método científico. Pois bem, é disso que se trata essa disciplina: 
apresentar ferramentas estatísticas que possibilitarão a você 
transformar-se num especialista em qualquer área do conhecimento 
e, portanto, apto a resolver problemas. A disciplina é dividida em oito 
unidades cujo objetivo é introduzir o aluno na área da Estatística e 
Probabilidades, tornando-o capaz de planejar e de executar experimentos 
de pequeno e médio porte nas áreas de Ciências Exatas e de Engenharia. 
Além de fazer a análise exploratória dos dados e de realizar inferências, 
por meio da tomada de decisão na presença de incerteza.
A Unidade 1 apresenta definições fundamentais para a correta 
compreensão do processo de coleta e de análise de dados. Conceitos 
sobre população e amostra, censo e amostragem, e variáveis são 
discutidos nessa unidade. A Unidade 2 trata da análise exploratória de 
dados, quando são apresentadas técnicas de Estatística Descritiva. O 
objeto dessa unidade, bastante intuitiva, é trabalhar a síntese numérica, 
gráfica e tabular dos dados. A ideia é usar ferramentas como o Excel para 
construir tabelas e gráficos, como histograma, diagrama de dispersão, 
Pareto e calcular valores como média, mediana, desvio padrão, e 
coeficiente de variação. Na Unidade 3 são introduzidos conceitos básicos 
de probabilidades, cruciais para que se entenda o processo de tomada 
de decisão na presença de incerteza. A Unidade 4 é uma continuação 
da terceira unidade, são apresentados os modelos probabilísticos mais 
importantes para se modelar problemas de pequeno e médio porte na 
área de Engenharia e Tecnologia. 
A partir da Unidade 5 caminhamos para a área “nobre” da Estatística, que 
envolve as inferências, isto é, o processo de generalização de resultados 
parciais, observados em amostras, para toda a população envolvida 
num problema. Nessa unidade é discutida a forma de obter os intervalos 
Apresentação 
da disciplina
de confiança, tanto para média quanto para proporção. Na Unidade 5 
discute-se, por exemplo, como o resultado de uma pesquisa eleitoral é 
calculado e o significado do intervalo definido pela soma e subtração de 
uma “margem de erro”. 
A Unidade 6 é voltada para o planejamento de experimentos, quando 
é apresentado, por exemplo, como calcular o tamanho de uma 
amostra. Em alguns livros este item é colocado na primeira unidade, 
o que tem certa lógica por tratar da coleta de dados, primeira etapa 
de qualquer análise estatística. Entretanto, como são necessários 
conceitos probabilísticos e de inferência para entender o planejamento 
de experimentos, optamos por colocar essa unidade logo após a 
discussão sobre intervalos de confiança. 
As Unidades 7 e 8 fecham a disciplina, apresentado as ferramentas mais 
úteis para que você finalmente se transforme num especialista em uma 
área qualquer e, portanto, realmente apto a resolver seus problemas. Na 
Unidade 7 são discutidos os métodos para fazer e interpretar testes de 
hipóteses, num contexto uni variado e, na Unidade 8, discute-se métodos 
de correlação e regressão, introduzindo a análise multivariada. 
Ao longo das oito unidades, procuraremos apresentar uma abordagem 
baseada em PPL – Aprendizagem Baseada em Problemas, além de 
usarmos como ferramentas computacionais o Microsoft® Excel e o 
software de domínio público, EpiInfo. 
Bom trabalho!
Bráulio, Janaína, Octávio e Reinaldo.
UNIDADE 2 023
Análise exploratória de dados 024
Síntese gráfica de dados 026
Síntese tabular de dados 047
Síntese numérica de dados 048
Revisão 059
UNIDADE 3 061
Introdução à teoria de probabilidades 062
A teoria das probabilidades 064
Probabilidade clássica e probabilidade frequentista 066
Leis básicas de probabilidades 067
União e interseção de eventos 068
Tabelas de contingência 070
Eventos independentes 072
Teorema de Bayes 072
Revisão 076
UNIDADE 4 079
Modelos probabilísticos 080
Variáveis aleatórias 081
Modelos probabilísticos 088
Distribuição binomial 088
Distribuição Poisson 089
Distribuição normal 090
Revisão 095
UNIDADE 1 003
Introdução à estatística 004
Conceitos básicos 006
O papel das variáveis numa base de dados: identificação, auxiliares,
variáveis explicativas e variável reposta (desfecho) 012
Tipos de variáveis 015
Uso do Excel como um sistema de gerenciamento de dados
e dos formulários do Google Docs para coleta de informações 017
Revisão 021
UNIDADE 5 096
Estimação de médias e proporções 097
Teorema central do limite 099
Estimação pontual e por intervalos de confiança para uma
média populacional 103
Estimação pontual e por intervalos de confiança para uma 
proporção populacional 112
Uso do Excel no cálculo de intervalos de confiança para
média e proporção 116
Introdução ao programa EpiInfo 120
Revisão 121
UNIDADE 6 124
Planejamento de experimentos 125
Cálculo de tamanho de amostra baseado em intervalos de
confiança para uma proporção 127
Cálculo de tamanho de amostra baseado em intervalos de confiança
para uma média 132
Planejamento de experimentos 135
Planejamento de experimentos - terminologia básica 140
Revisão144
UNIDADE 8 174
Análise de correlação e regressão 175
Análise de correlação 176
Regressão linear simples 185
Regressão linear múltipla 193
Revisão 200
REFERÊNCIAS 202
UNIDADE 7 147
Testes de Hipóteses 148
A construção e o significado de uma hipótese estatística 149
Testes para uma amostra 151
Testes para duas ou mais amostras 167
Revisão 172
Introdução à 
estatística 
• Conceitos 
básicos
• O papel das 
variáveis numa 
base de dados: 
identificação, 
auxiliares, 
variáveis 
explicativas e 
váriavel reposta 
(desfecho)
• Tipos de 
variáveis
• Uso do Excel 
como um 
sistema de 
gerenciamento 
de dados e dos 
formulários do 
Google Docs 
para coleta de 
informações
• Revisão
Introdução
Podemos entender o método estatístico como um processo para obter, 
apresentar e analisar características ou valores numéricos, identificando 
padrões que possibilitam a tomada de decisão em situações de incerteza. 
Pode acreditar, se você aplicar o método estatístico para a análise e solução 
de problemas, muito rapidamente se tornará um especialista de qualquer 
área do conhecimento! Num mundo real, completamente cercado de 
incertezas, ser capaz de identificar padrões de comportamento de 
pessoas, projetos, produtos, serviços, etc pode transformá-lo num “mago”. 
Entretanto, antes de você transformar-se num “mago”, é necessário 
um entendimento adequado do método estatístico, que tem suas 
“armadilhas”. Costumo dizer que Estatística não é Matemática... é muito 
mais “difícil”. Na verdade, Estatística é uma das áreas da Matemática 
que, por sinal, é a Ciência cuja aplicação no mundo real possibilitou ter 
uma vida incrivelmente confortável. Bom, quando afirmo que “Estatística 
não é Matemática”, quero dizer que, na Matemática que você aprendeu no 
Ensino Fundamental e Médio, os problemas têm usualmente uma única 
forma de serem resolvidos e devem todos chegar ao mesmo resultado 
(uma única resposta correta). Na Estatística, os problemas têm várias 
formas de serem resolvidos, podem chegar a resultados diferentes e 
todos estão corretos! Isso ocorre porque a Estatística requer a habilidade 
de considerarmos as coisas dentro de uma perspectiva probabilística, o 
que vai completamente contra a conceituação usual dos problemas em 
simplesmente certo ou errado. Não buscaremos a “verdade absoluta”, 
mas padrões de comportamento que nos possibilitarão tomar decisões 
com alto grau de confiança. 
Para melhor entendermos o que será discutido, o método estatístico 
será dividido em quatro grandes áreas:
1. amostragem e coleta de dados;
2. análise exploratória de dados (estatística descritiva);
3. teoria de probabilidades;
4. decisão na presença de incerteza (inferência). 
A ideia por trás dessa unidade é levar até você o conhecimento 
fundamental que lhe permitirá entender a coleta de dados. 
Estudaremos conceitos fundamentais de Estatística, questões 
simples, mas essenciais para que tenhamos sucesso nas outras 
etapas do método estatístico, que serão discutidas nas próximas 
unidades. Estes são os objetivos da Unidade 1:
a) apresentar conceitos básicos de Estatística e Probabilidades;
b) identificar as funções e os principais tipos de dados e de variáveis;
c) identificar e corrigir problemas de dados faltantes (missing); 
d) configurar o Excel como instrumento de coleta de dados;
e) entender o sistema de endereçamento de células do Excel. 
f) construir formulários de coleta de dados no Google Docs;
g) enviar formulários de coleta de dados por meio de mala direta. 
É crucial que você entenda os conceitos que serão discutidos 
nessa unidade. Sem o entendimento do que seja, por exemplo, uma 
variável, o seu tipo e a sua função na base de dados, não há como 
você ser feliz nas outras etapas do processo! 
ESTATÍSTICA E PROBABILIDADES
unidade 1
006
Vamos supor que uma cozinheira esteja preparando dois litros de sopa. 
Como ela sabe se a sopa está temperada? 
Os dois litros de sopa formam a população e, se a cozinheira 
comer/provar toda a sopa, estará fazendo um censo, o que geraria 
um absurdo do tipo “É, a sopa estava ótima!”. 
A cozinheira sabe que em experimentos baseados em ensaios 
destrutivos, quando a própria análise destrói o dado coletado, o 
censo é um absurdo. Na verdade, ela sabe que censos, de modo 
geral, são inviáveis, muito caros e/ou muito demorados. Mais 
ainda, ela sabe que se usar uma pequena amostra cuidadosamente 
retirada, chamada amostra representativa, poderá tomar decisões 
sobre toda a população envolvida no problema com um alto grau 
de confiança. 
A cozinheira então retira uma pequena amostra, uma “pitada” 
da comida, prova-a e generaliza o resultado para toda a sopa. 
Isso é chamado de inferência: tomar decisões sobre toda uma 
população com base em informações parciais de uma amostra 
(veja a FIGURA 1). 
Entretanto, a cozinheira sabe que para fazer inferências válidas, 
deve tomar cuidado para não trabalhar com amostras viciadas. E o 
que seria isso? 
Se ela retirar uma amostra somente da parte de cima da sopa, muito 
provavelmente terá uma amostra viciada, isto é, sem representantes 
Conceitos 
básicos
Você sabe o que é população? E amostra? Vejamos o exemplo a seguir.
ESTATÍSTICA E PROBABILIDADES
unidade 1
007
de todos os componentes da sopa como um todo que, neste caso, é 
a população amostrada. 
E como ela retira uma amostra representativa da sua população 
(“sopa”)? Como a cozinheira procede para obter uma amostra com 
“representantes” de cada estrato da sopa? 
Simples, ela mistura a sopa fazendo uma homogeneização e sorteia 
uma porção/pitada que será usada no seu processo decisório. 
Fazendo uma amostragem aleatória, a cozinheira sabe que terá 
grande chance de trabalhar com amostras representativas. 
Podemos agora resumir esses conceitos.
População: 
a. consiste na totalidade das unidades de observação a partir 
dos quais ou sobre os quais deseja tomar uma decisão;
b. conjunto de elementos que formam o universo do nosso 
estudo e que são passíveis de serem observados;
c. conjunto de indivíduos sobre os quais recairão todas as 
generalizações das conclusões obtidas no estudo;
d. usualmente, as unidades de observações são pessoas, 
objetos ou eventos;
e. é o universo a ser amostrado;
f. do ponto de vista matemático, a população é definida como 
um conjunto de elementos que possuem pelo menos uma 
característica em comum (SILVA, 2001).
População finita: o número de unidades de observação pode ser 
contado e é limitado. Exemplos: 
a. alunos matriculados na disciplina Estatística e 
Probabilidades; 
População finita: o 
número de unidades 
de observação pode 
ser contado e é 
limitado.
ESTATÍSTICA E PROBABILIDADES
unidade 1
008
b. todas as declarações de renda recebidas pela Receita Federal;
c. todas as pessoas que compram telefone celular num 
determinado ano;
d. um lote com N produtos. 
População infinita: a quantidade de unidades de observação é 
ilimitada, ou a sua composição é tal que as unidades da população 
não podem ser contadas. Exemplos:
a. conjunto de medidas de determinado comprimento;
b. gases, l íquidos e alguns sól idos em que as suas 
unidades não podem ser identificadas e contadas. 
Amostra: conjunto de unidades selecionadas de uma população, ou 
seja, uma parte dos elementos da população.
Amostra representativa: é uma versão em miniatura da população, 
exatamente como ela é, somente menor. A amostra representativa 
segue o modelo populacional, tal que suas características 
importantes são distribuídas similarmente entre ambos os grupos.
Unidade amostral: é a menor parte distinta de umapopulação, 
identificável para fins de seleção e construção da amostra. 
Amostra aleatória: é aquela obtida por meio de um processo de 
sorteio ou aleatorização.
Amostra viciada: é aquela que representa apenas parte da 
população, não possuindo elementos de todos os estratos ou 
subconjuntos que formam a população como um todo.
Censo: exame de todas as unidades de observação de uma 
população. Como discutido no exemplo da cozinheira, se a 
População infinita: 
a quantidade 
de unidades de 
observação é 
ilimitada, ou a sua 
composição é tal 
que as unidades 
da população não 
podem ser contadas. 
ESTATÍSTICA E PROBABILIDADES
unidade 1
009
pesquisa envolve ensaio destrutivo, o censo é inviável. Na verdade, 
somente se a população alvo for pequena é razoável observá-la 
por inteiro, através do censo, pois mesmo quando viáveis, censos 
são caros e demorados. Outros exemplos de ensaios destrutivos, 
nos quais é impossível aplicar censo: pesquisa sobre a força de 
tração de um lote de barras de aço para construção; pesquisa 
sobre contaminação de soro fisiológico em um lote; testes de 
resistência e durabilidade de um lote de concreto; tempo de pega 
de um lote de cimento. 
Amostragem: processo pelo qual uma amostra de unidades da 
população é retirada e observada. É a parte mais importante 
do processo de pesquisa. O principal e fundamental objetivo de 
qualquer plano de amostragem é selecionar a amostra, de tal 
maneira que ela retrate fielmente a população pesquisada. 
FIGURA 1 - População alvo, população amostrada e amostra
População alvo do estudo
Amostra
População 
amostrada
Inferência
Fonte: Elaborado pelo autor.
Inferir significa generalizar resultados de uma amostra para toda 
a população.
Por que usar amostras? Por que não incluir no estudo todos os 
indivíduos da população? 
ESTATÍSTICA E PROBABILIDADES
unidade 1
010
A amostragem deve ser usada porque torna o processo eficiente 
e preciso. E ela é eficiente, uma vez que o recurso que poderia 
ser despendido na coleta de dados desnecessários de um 
grande número de indivíduos pode ser gasto em outra atividade, 
como na monitoração da qualidade da própria coleta dos dados. 
As amostras, por serem menores que a população, podem ser 
estudadas mais rapidamente que censos e são também mais 
baratas. Além disso, se o processo de amostragem gerar uma 
amostra representativa da população alvo do estudo, os resultados 
observados poderão ser generalizados, sem risco de chegar a 
uma conclusão diferente daquela que seria obtida se trabalhar 
com toda a população.
Vejamos agora alguns aspectos relevantes para o campo da 
amostragem. São eles:
 - Questões da amostragem: Qual o tamanho da amostra? 
Como a amostra será obtida? Como garantir que a amostra 
obtida seja representante da população objeto do estudo? A 
questão mais importante não é o seu tamanho, mas como 
a amostra será obtida, pois a amostragem mal feita invalida 
qualquer pesquisa.
 - Tamanho da amostra (n): está relacionado ao total de 
unidades amostradas, usadas no processo de inferência. 
Imagino que você esteja curioso em relação ao tamanho 
da amostra, mas, como citado anteriormente, esta não é 
de longe a questão mais importante. Por exemplo, o que 
você que teria mais credibilidade numa pesquisa sobre 
a aceitação (ou não) do aborto por parte da população 
brasileira: resultados de pesquisa realizada no domingo 
à noite por uma emissora de TV, envolvendo milhões de 
pessoas que, após assistirem a uma reportagem sobre o 
assunto, responderam à pesquisa; ou resultados de uma 
amostra de 2.500 pessoas selecionadas aleatoriamente 
no território brasileiro? 
A amostragem deve 
ser usada porque 
torna o processo 
eficiente e preciso.
ESTATÍSTICA E PROBABILIDADES
unidade 1
011
No entanto, essa não é uma questão muito importante 
para obtermos o tamanho da amostra adequada para uma 
pesquisa, visto que é necessário estudarmos alguns conceitos 
probabilísticos, que serão apresentadas somente nas 
próximas unidades. 
A maioria das pessoas, quando questionadas sobre qual o tamanho da 
amostra necessária para uma pesquisa, tem o raciocínio equivocado de 
que o tamanho da amostra (n) tem relação direta com o tamanho da 
população amostrada (N). Inevitavelmente, a maioria das pessoas afirma 
erroneamente que uma boa amostra deve conter pelo menos, digamos, 
30% da população. O que a cozinheira diria disto? Para provar dois litros 
de sopa, quanto de amostra ela teria que avaliar? Isso mesmo, uma pitada. 
E para provar 400 litros de sopa, ela beberia um prato inteiro? Não. Ela 
provará a mesma pitada, pois sabe que, o mais importante nesse processo 
inferencial não é o tamanho da amostra, mas provar uma amostra não 
viciada, representativa de toda a sopa. 
Voltando aos processos de amostragem, as amostras podem ser 
classificadas em probabilísticas e não probabilísticas:
Amostra probabilística: 
 - existe uma garantia, em termos de probabilidade, de que 
qualquer membro da população possa ser selecionado 
para amostra. 
Amostra não probabilística:
 - os elementos da amostra não são escolhidos por meio de 
um sorteio. 
CARVALHO e COUTO (2003) apresentam as principais 
características de tipos de amostragem mais comuns, relacionados 
Amostra 
probabilística: 
existe uma garantia, 
em termos de 
probabilidade, de que 
qualquer membro 
da população possa 
ser selecionado para 
amostra. 
ESTATÍSTICA E PROBABILIDADES
unidade 1
012
principalmente com pesquisas de survey. Outras amostras, por 
exemplo, amostragem de minério, de solo, de gases e de líquidos 
têm procedimentos próprios que buscam, em última instância, 
obter amostras que sejam representativas de cada população 
envolvida. Em suma, qualquer que seja o esquema de amostragem, 
probabilístico ou não, deve-se sempre garantir que a amostra reflita 
as características da população da qual foi retirada. 
Conforme discutido anteriormente, algumas pessoas acreditam que uma 
amostra representativa é necessária coletar dados de um percentual 
mínimo da população, digamos, 30% do total de indivíduos. Isso é 
absolutamente falso e, o que é pior, mesmo que fossem analisados 
tal percentual de indivíduos da população, não é o tamanho que 
garante representatividade da amostra, mas a forma com ela é obtida. 
É a imparcialidade do processo de seleção dos seus elementos e a 
homogeneidade da distribuição das características da amostra e da 
população que garantem a representatividade da amostra.
O papel das variáveis 
numa base de dados: 
identificação, auxiliares, 
variáveis explicativas 
e variável reposta 
(desfecho)
O primeiro passo de qualquer processo estatístico é a coleta 
de dados. Portanto, tudo o mais será alicerçado sobre o que 
for coletado. Sendo assim, essa fase deve ser cuidadosamente 
Qualquer que 
seja o esquema 
de amostragem, 
probabilístico ou 
não, deve-se sempre 
garantir que a 
amostra reflita as 
características da 
população da qual 
foi retirada. 
ESTATÍSTICA E PROBABILIDADES
unidade 1
013
planejada, já que da qualidade dos dados coletados dependerá 
toda a análise e a tomada de decisão subsequente. 
Antes da coleta de um dado, é importante entender o conceito 
de variável que está por trás da informação que você procura. A 
variável contém a informação que você quer analisar, sob a forma 
de uma medição sobre determinadas características dos indivíduos 
estudados e das unidades de observação. 
E, por que esse conceito é tão importante? Porque, no fim das contas, 
é a variável que é analisada e não a informação que ela contém. Por 
isso, é importanteque você, antes de sair coletando informações, 
analise o seu questionário de coleta de dados, identifique cada variável 
envolvida e responda perguntas, tais como: O que exatamente a 
variável está medindo? Para que serve esta variável e, principalmente, 
é possível analisá-la? E com que método estatístico?
Uma variável é a quantificação de uma característica de interesse da 
pesquisa (SOARES e SIQUEIRA, 2002). Refere-se ao fenômeno a ser 
pesquisado. É o campo de variação de cada tipo de dado a ser pesquisado. 
Observe que, como o próprio nome diz, uma variável deve variar, ou seja, 
se você está coletando dados sobre características de alunos da disciplina 
Cálculo Diferencial, podemos pensar em inúmeras variáveis para a unidade 
de observação “aluno”: idade, sexo, curso, local do ensino médio, tempo 
entre final do ensino médio e início da graduação, nota final, percentual de 
presença às aulas etc. Entretanto, o tipo de disciplina não é uma variável 
nesse caso, pois ela é constante (Cálculo Diferencial). 
O grau de variabilidade de uma variável é chave no método 
estatístico e será foco de discussões nas próximas unidades. 
Entretanto, neste momento, é crucial que você entenda dois 
aspectos básicos de qualquer variável: o seu tipo e a sua função, o 
papel que ela exerce na base de dados. 
Uma variável é a 
quantificação de 
uma característica 
de interesse da 
pesquisa (SOARES e 
SIQUEIRA, 2002). 
ESTATÍSTICA E PROBABILIDADES
unidade 1
014
Toda análise que será feita na base de dados dependerá do seu 
entendimento sobre o tipo e a função de cada variável coletada! 
Vejamos os tipos de funções de cada variável: 
QUADRO 1 - O papel de uma variável numa base de dados.
Fonte: Elaborado pelo autor.
Variáveis de identificação 
e auxiliares
Variáveis explicativas
Variável desfecho
Servem para o rastreamento dos indivíduos e das unidades 
amostrais, ou são usadas na definição de outras variáveis. Exemplos 
de variáveis de identificação: CPF, nome, número de matrícula, 
número da amostra etc.
Exemplos de variáveis auxiliares: datas, peso e altura. 
Variáveis de identificação e auxiliares não são analisadas, mas fazem 
parte da base de dados.
São aquelas que, por hipótese, podem influenciar, determinar ou afetar 
a variável resposta ou desfecho da pesquisa. São chamadas também 
de co-variáveis ou variáveis independentes. 
Para cada estudo existem variáveis explicativas próprias, definidas 
por hipóteses da própria pesquisa ou conforme revisão da literatura. 
Em processos químicos, quando se busca entender os fatores que 
afetam o rendimento de uma reação química, são exemplos de 
variáveis explicativas a temperatura, a pressão, o tipo de catalisador e 
a concentração de reagentes. Se alguém pesquisar sobre as razões de 
algumas pessoas serem maiores que outras, as alturas do pai e da mãe, 
a origem étnica, a idade e o sexo são exemplos de variáveis explicativas. 
É aquela que queremos explicar, em função de ser influenciada, afetada 
por outros fatores (variáveis explicativas). Também denominada de 
variável dependente ou variável resposta. Sempre defina um ou mais 
desfechos para o estudo, conforme os objetivos da sua pesquisa. Por 
exemplo, numa pesquisa cujo objetivo é explicar porque imóveis de 
uma mesma região têm preços tão variados, o preço de venda seria 
uma variável resposta. Fatores como área, número de quatros, número 
e tipo de vaga de garagem, quantidade de suítes, presença de salão de 
festas ou piscina são algumas das possíveis variáveis explicativas para 
esse problema. 
TIPOS CARACTERÍSTICAS
ESTATÍSTICA E PROBABILIDADES
unidade 1
015
A função de cada variável na base de dados, assim como o seu 
tipo, definirá que tipo de análise será feita. Não subestime esses 
conceitos pois, sem eles, não há como entender os métodos de 
análise estatística que serão estuados nas próximas unidades. 
Tipos de 
variáveis
Se considerarmos a maioria absoluta das variáveis envolvidas em 
experimentos de pequeno e médio porte nas áreas de Ciências 
Exatas e Engenharia, teremos duas situações para o tipo da variável.
I) Variável qualitativa ou categórica: é aquela que expressa 
características ou atributos de classificação, distribuídos em 
categorias mutuamente exclusivas de objetos ou entidades. 
Categorias mutuamente exclusivas ou mutuamente excludentes 
não podem ser observadas simultaneamente num mesmo 
indivíduo. Por exemplo, grupo sanguíneo (A, B, AB, O) é uma 
variável categórica mutuamente exclusiva: um indivíduo tem 
somente um grupo sanguíneo, não podendo ser classificado em 
mais de uma categoria ao mesmo tempo. Variáveis qualitativas 
têm um nível baixo de informação, sendo obtidas por um critério 
de classificação. Por exemplo, sexo (masculino, feminino), estado 
civil (com companheiro, sem companheiro), cor de um produto 
(branco, verde, amarelo, azul), tipo de transmissão de um carro 
(manual, automática), conformidade de qualidade de um produto 
(aceito, não aceito), dia chuvoso (sim, não), resultado final de um 
aluno numa disciplina (aprovado, reprovado) etc. 
A análise de uma variável categórica é muito restrita e simples: 
conta-se quantas unidades amostrais ou resultados observados em 
cada categoria da variável e calcula-se o percentual de ocorrência 
de cada classe ou categoria. 
A função de cada 
variável na base de 
dados, assim como o 
seu tipo, definirá que 
tipo de análise será 
feita.
ESTATÍSTICA E PROBABILIDADES
unidade 1
016
II) Variável quantitativa: é aquela obtida por meio de um processo 
de medição ou contagem. Por exemplo: peso, altura, dosagem 
e concentrações de produtos químicos e outros insumos, 
temperatura, pressão, altitude, umidade, largura, diâmetro, 
comprimento, voltagem, corrente, quantidade de chuva (mm), 
número de falhas, número de ligações telefônicas, número de 
mensagens eletrônicas, número de faltas de um aluno numa 
disciplina, nota final na disciplina, área, preço, etc. 
A variável quantitativa possui o mais alto nível de informação, 
sendo objeto de inúmeras técnicas de análise. Para cada variável 
quantitativa podemos calcular seu valor médio, mediano, modal, 
mínimo, máximo, seu desvio padrão, coeficiente de variação, 
intervalos específicos de variação e outras técnicas analíticas que 
serão descritas na próxima unidade. 
As variáveis quantitativas são chamadas também de numéricas, 
mas essa nomenclatura pode gerar confusão, pois o simples 
fato de alocar números aos resultados de uma variável não a 
torna quantitativa. Por exemplo, se os grupos sanguíneos fossem 
classificados em 1, 2, 3 e 4 (ao invés de A, B, AB e O), tal codificação 
não a tornaria uma variável quantitativa. Na verdade, para que uma 
variável seja quantitativa, deve ser possível aplicarmos operações 
aritméticas aos seus resultados. A capacidade de realizarmos, por 
exemplo, somas e subtrações “válidas” aos resultados de uma 
variável é um indicativo de que ela é quantitativa. Claro que a análise 
do seu processo de obtenção é mais importante: os resultados 
de uma variável quantitativa devem ser obtidos por medição ou 
contagem. Além disso, essas variáveis podem ser contínuas, 
quando representadas por números reais, ou discretas, quando 
representadas por números inteiros. 
Usualmente, se ela é obtida por medição, então é contínua. Caso 
seja obtida por meio de contagem, é uma variável discreta. Para 
efeitos práticos, não faremos distinção entre variáveis contínuas e 
discretas, o fundamental é entendê-las como quantitativas. 
As variáveis 
quantitativas são 
chamadas também 
de numéricas.
ESTATÍSTICA E PROBABILIDADES
unidade 1
017
Algumas variáveis originalmente de classificação. Asnotas obtidas 
por um aluno numa prova são tratadas como quantitativas, mesmo 
que não sejam obtidas por meio de um aparelho ou dosador. Nesse 
caso, a nota de uma prova é tratada como variável quantitativa 
porque considera-se válido aplicar operações aritméticas aos seus 
resultados. Entretanto, será que um aluno que obtém 80 pontos 
numa disciplina sabe o dobro que um aluno que obteve 40 pontos? 
Claro que não. Já uma pessoa de 100 Kg tem o dobro de peso de 
uma pessoa de 50 Kg. Outro exemplo, as temperaturas medidas 
em Graus Celsius são tratadas como variáveis quantitativas. Isso 
quer dizer que um dia com 40ºC tem o dobro de calor de um dia 
com 20ºC? Transforme os valores em Graus Celsius para Kelvin e 
compare o resultado.
Bom, os conceitos por trás dessa discussão envolve o nível de 
mensuração da variável (nominal, ordinal, intervalar e de razão) que 
será tratado a seguir. Para efeito prático, consideraremos somente 
duas categorias de variáveis: quantitativas versus categóricas. 
Conforme citado anteriormente, esses são os tipos de variável 
coletadas em problemas típicos de Ciências Exatas e de Engenharia.
Uso do Excel como 
um sistema de 
gerenciamento de dados 
e dos formulários do 
Google Docs para coleta 
de informações
Duas ferramentas essenciais para coleta de dados de 
experimentos de pequeno e médio porte na área de Ciências 
Exatas e Engenharia são o Excel, um dos componentes do 
Para efeito prático, 
consideraremos 
somente duas 
categorias 
de variáveis: 
quantitativas versus 
categóricas.
ESTATÍSTICA E PROBABILIDADES
unidade 1
018
pacote Office da Microsoft, e os Formulários do Google Docs 
<https://docs.google.com/forms>. 
O Excel é uma planilha eletrônica com origens no Lotus 
1-2-3 (GAZZARRRINI, 2013). Ambas as ferramentas são 
extremamente práticas, de grande utilidade e serão discutidas 
por meio de vídeo aulas. 
Os formulários do Google Docs são ótimos para pesquisas 
envolvendo pessoas que têm endereço eletrônico (e-mails). 
Para usá-los você terá que obter uma lista com os nomes dos 
respondentes e os respectivos e-mails. Após construir o formulário 
de coleta de dados no Google Docs, você poderá enviá-lo usando o 
mecanismo de “mala direta”, da aba “correspondências” do Word, 
que também é parte do pacote Office da Microsoft. As respostas 
enviadas pelos respondentes são automaticamente armazenadas 
em planilha eletrônica, facilitando a coleta e a análise dos dados. 
É crucial que você domine o Excel como instrumento de coleta 
de dados e entenda perfeitamente o papel de cada variável a ser 
coletada. Identificar variáveis explicativas e desfecho (s), distinguir 
entre variável quantitativa e categórica é uma questão relativamente 
simples, mas fundamental para as discussões que serão feitas nas 
próximas unidades. 
Considere o artigo “Utilização de efluente de frigorífico, tratado com 
macrófita aquática, no cultivo de tilápia do Nilo”, de autoria de Adilson 
Reidel e outros pesquisadores da Universidade Estadual do Oeste do 
Paraná (REIDEL et al.; 2005) disponível em: 
<http://www.agriambi.com.br/revista/suplemento/index_arquivos/
PDF/181.pdf>
ESTATÍSTICA E PROBABILIDADES
unidade 1
019
Neste trabalho, os pesquisadores fizeram um experimento em que, 
resumidamente, foram colocadas amostras aleatórias de alevinos 
(“filhotes”) de tilápia em aquários com água potável (tratamento A) e em 
tanques com efluente de frigorífico após passar num sistema de filtro com 
aguapé (tratamento B), avaliando-se comparativamente o desenvolvimento 
e a sobrevivência dos peixes. A pergunta principal da pesquisa era: “É 
possível cultivar tilápias em efluente de frigorífico tratado com aguapé?” 
Nas tabelas 1 e 2 do artigo, são apresentados alguns resultados e um 
conjunto de variáveis envolvidas na pesquisa. 
TABELA 1 – Valores médios dos parâmetros físico-químicos 
determinados durante o cultivo da tilápia do Nilo (O. niloticus)
Fonte: REIDEL et al., 2005.
PARÂMETROS
TRATAMENTOS
A B
Temperatura média (ºC) 26,4 = 1,60 26,4 = 1,70
Oxigienio Dissolvido (mg L-1) 7,17 = 0,60 7,18 = 0,90
Condutividade Elétrica (uS cm-1) 227,48 = 36 1779,7 = 68
pH 8,44 = 0,12 7,40 = 0,35
Tratamentos: (A) controle (água potável + ração); (B) efluente tratado (efluente do sistema de 
filtro de aguapé + ração)
TABELA 2 – Valores médios de desempenho e sobrevivência de alevinos 
de tilápia do Nilo, cultivados com água potável e efluente tratado
Fonte: REIDEL et al.; 2005.
VARIÁVEIS
Tratamento A Tratamento B Teste t-Student 
T calculadomédia médiaO O
Peso inicial (indivíduo) (g) 0,235 a 43,267 0,232 a 46,113 0
Biomassa inicial (aquário) (g) 1,172 a 2,426 1,160 a 1,901 0,001
Peso final (indivíduo) (g) 1,391 a 42,269 1,054 a 45,582 0,028
Biomassa final (aquário) 5,280 a 38,890 4,300 a 45,721 0,028
Sobrevivência (%) 75 a 80,467 80 a 25,819 0,08
Médias seguidas da mesma letra, na linha, não diferem significadamente pelo teste t de Student ao nível 5% de significância
ESTATÍSTICA E PROBABILIDADES
unidade 1
020
Esse é um exemplo prático da aplicação de conceitos discutidos 
na Unidade 1 em experimentos de pequeno e médio porte na área 
de Ciências Exatas e de Engenharia. O experimento é baseado 
em amostragem e analisa o impacto de variáveis explicativas em 
desfechos diretamente ligados ao objetivo do projeto: sobrevivência 
dos peixes, peso e biomassa final no aquário. 
Nesse trabalho são usadas três variáveis resposta, uma categórica 
(“O peixe sobreviveu?” “sim ou não”) e dois desfechos quantitativos 
(peso final e biomassa final, medidos em gramas). Dentre as 
variáveis explicativas envolvidas, a mais importante, que está 
diretamente ligada ao objetivo da pesquisa é o tipo de tratamento (A 
versus B), uma variável categórica dicotômica. 
Muitas pessoas têm dificuldade em identificar essa variável 
explicativa, apesar dela ser a mais importante na pesquisa. As 
outras variáveis explicativas são todas quantitativas e, como tal, 
foram obtidas por meio de um processo de medição, contagem 
ou dosagem: temperatura (ºC), oxigênio Dissolvido (mg L-1), 
condutividade Elétrica (μS cm-1), pH, peso inicial (g) e biomassa 
inicial (g). 
Nas tabelas apresentadas aparecem métricas (média, desvio 
padrão e valor de t de student) que são usadas na análise e na 
conclusão do projeto. Fique tranquilo, esses conceitos serão 
tratados nas próximas unidades! 
De qualquer forma, a conclusão da pesquisa para a pergunta “É 
possível cultivar tilápias em efluente de frigorífico tratado com 
aguapé?”, é: “Sim, é possível cultivar tilápias em efluente de 
frigorífico tratado com aguapé. Os dados não mostraram diferença 
significativa entre os dois tratamentos, tanto em relação ao 
desenvolvimento quanto à sobrevivência dos peixes”. 
O entendimento completo das razões para chegar a essa conclusão 
será obtido nas próximas unidades. Entretanto, neste momento, é 
ESTATÍSTICA E PROBABILIDADES
unidade 1
021
fundamental que você já entenda conceitos referentes ao processo 
de amostragem/coleta de dados e, principalmente, que consiga 
diferenciar os tipos e as funções das variáveis numa pesquisa. 
Revisão
Vimos nessa unidade alguns dos principais tópicos introdutórios do 
campo da Estatística. Em resumo, estudamos sobre:
População, amostra, censo e amostragem: 
 - Censo de toda a população não é viável, devido aos altos 
custos e/ou quando a pesquisa envolve ensaios destrutivos.
 - Uma pequena, mas cuidadosamente escolhida amostra 
pode ser usada para representar a população.
 - Os resultados observados numa amostra representativa 
poderão ser generalizados, sem risco de chegar a uma 
conclusão diferentedaquela que seria obtida no caso de 
trabalhar com toda a população.
 - A questão mais importante numa amostragem não 
é o tamanho da amostra, mas como a amostra será 
obtida, pois o delineamento amostral mal feito invalida 
qualquer pesquisa.
Tipos de variáveis:
 - Variável qualitativa ou categórica: é aquela que expressa 
características ou atributos de classificação, distribuídos 
em categorias mutuamente exclusivas de objetos ou 
entidades.
 - Variável quantitativa: é aquela obtida por meio de um 
processo de medição ou contagem.
Variável 
quantitativa: é 
aquela obtida 
por meio de um 
processo de medição 
ou contagem.
ESTATÍSTICA E PROBABILIDADES
unidade 1
022
Função das variáveis:
 - Variáveis de identificação e auxiliares: servem para o 
rastreamento dos indivíduos e das unidades amostrais ou 
são usadas na definição de outras variáveis.
 - Variáveis explicativas: são aquelas que, por hipótese, 
podem influenciar, determinar ou afetar a variável resposta 
ou desfecho da pesquisa.
 - Variável desfecho: é aquela que queremos explicar, em 
função de ser influenciada e/ou afetada por outros fatores 
(variáveis explicativas). Também denominada de variável 
dependente ou variável resposta. Aconselha-se sempre 
definir um ou mais desfechos para o estudo, conforme os 
objetivos da sua pesquisa.
Ainda compreendemos que alguns sistemas computacionais são 
ferramentas essenciais para coleta de dados de experimentos de 
pequeno e médio porte na área de Ciências Exatas e da Engenharia. 
São eles: o Excel, um dos componentes do pacote Office da Microsoft, 
e os Formulários do Google Docs <https://docs.google.com/forms>.
Para aprofundar sobre as questões discutidas nessa unidade, leia o 
Capítulo 1 do livro texto: LEVINE, David M. et al. Estatística: teoria e 
aplicações usando Microsoft Excel em português, 3º edição ou superior: 
“Introdução e Coleta de Dados”, assim como o suplemento do capítulo 1 
“Introdução à Utilização do Microsoft Excel”.
Análise 
exploratória 
de dados
• Sintese gráfica 
de dados
• Sintese tabular 
de dados
• Sinteses 
numérica de 
dados
• Revisão
Introdução
Conforme citado na Unidade 1, se você usar técnicas de análise 
estatística, você poderá rapidamente se transformar num especialista 
em qualquer assunto, certo? Pois bem, como exemplo, que tal se tornar 
um especialista em reprovação em disciplinas básicas de cursos de 
Engenharia e Tecnologia? E você não precisará “repetir” nenhuma 
dessas disciplinas para ser um especialista em reprovação...! Esse é 
um problema bem conhecido, mas suas causas e fatores associados 
não! Uma hipótese é que durante o ensino fundamental e médio muitos 
alunos não conseguem adquirir habilidade em resolver problemas 
matemáticos. Essa deficiência então culmina nos cursos de Engenharia 
com altos índices de reprovação no ciclo básico. Disciplinas como 
Cálculo Diferencial, Geometria Analítica e Álgebra Linear (GAAL), 
Química Geral e Algoritmos (AEDS) podem ser verdadeiros “infernos” 
para alunos da área de Exatas. 
Considerando o problema geral “desempenho acadêmico em 
disciplinas de ciclo básico de cursos de Engenharia”, que tal analisar 
dados de amostra de alunos, buscando identificar as características 
e possíveis fatores associados aos desfechos “conceito” (aprovado 
ou reprovado), “nota histórico” (0 a 100 pontos) e “abandonou a 
disciplina?” (sim ou não)?
Para resolver o problema acima, qual a primeira providência? Muitos 
podem pensar: “Preciso estudar melhor o assunto, fazer uma 
revisão da literatura sobre o problema. Em seguida, preciso planejar 
e executar a coleta dos dados”. Essa primeira etapa já foi feita e 
faz parte de projeto de iniciação científica do Centro Universitário 
de Belo Horizonte – UniBH, cujo título da pesquisa é “Fatores 
associados ao desempenho acadêmico de alunos em disciplinas do 
ciclo básico de cursos de Engenharia”. A pesquisa foi aprovada pelo 
Comitê de Ética em Pesquisa (CEP) do UniBH com o nº 920.308, 
em 17/12/2014 e os dados estão disponíveis para download no link: 
http://disciplinas.nucleoead.com.br/complementos/graduacao/
grad_ep/arquivos/dados_brutos.xlsx. 
Agora que você já tem acesso aos dados, qual o próximo passo para 
resolvermos o problema de reprovação e abandono em Cálculo, 
GAAL, Química Geral e AEDS? A primeira etapa de qualquer análise 
estatística, ou melhor, a fase preliminar da busca das informações 
agregadas a dados já coletados, é a análise exploratória dos 
mesmos. Como o próprio nome diz, a análise exploratória dos 
dados é o conjunto de ferramentas da Estatística Descritiva que têm 
como objetivo fazer uma síntese dos dados, organizando-os sob a 
forma de tabelas, gráficos e números. Portanto, para entendermos e 
resolvermos nosso problema de reprovação, precisamos estudar as 
ferramentas da Estatística Descritiva:
a. Síntese tabular: Resumo da análise por meio de tabelas;
b. Síntese numérica: Medidas de posição (média e mediana) 
e medidas de variabilidade (soma dos quadrados dos 
resíduos, variância, desvio padrão, coeficiente de variação);
c. Síntese gráfica: Gráficos de pizza, barra, coluna, linha, séries 
históricas, histograma, gráfico de Pareto, gráfico misto, de 
coluna e de linha, diagrama de dispersão e box-plot. 
O objetivo desta unidade é promover o conhecimento fundamental 
que lhe permitirá entender dados coletados, transformando dados 
brutos em informações úteis!
ESTATÍSTICA E PROBABILIDADES
unidade 2
026
Uma figura vale mais que mil palavras! Isso é verdade, entretanto um 
gráfico vale mais que mil palavras se e somente se ele for desenhado 
de forma clara, correta e concisa. Sempre desenhe gráficos a partir 
de seus dados, mas tente fazê-los de tal forma que a frase “basta 
olhar para entender” seja válida. Os gráficos mais úteis para análise 
de dados de experimentos de pequeno e médio porte na área de 
Ciências Exatas e Engenharia são: gráficos de pizza, barras, colunas, 
linha, séries históricas, histograma, gráfico de Pareto, gráfico misto, 
de coluna e de linha, diagrama de dispersão e box-plot (tabela 3). 
De todos esses, somente vejo sentido em construi-los “à mão” 
histogramas e diagramas de dispersão. Entretanto, na prática 
devemos construir gráficos usando ferramentas computacionais 
como o Excel. 
Síntese gráfica 
de dados
TABELA 3 - Gráficos mais úteis para análise de dados de experimentos 
de pequeno e médio porte na área de Ciências Exatas e Engenharia.
Fonte: Elaborado pelo autor.
Pizza ou setor
Colunas (verticais)
Barras (horizontais)
Histograma
 
Gráficos de linha
 
Séries históricas
 
Gráfico de Pareto
Gráfico misto, de 
coluna e linhas
Diagrama de 
dispersão 
Box-plot
Uma
Uma
Uma
Uma
 
Duas
 
Duas
 
Uma
Duas
 
Duas
 
Uma ou mais
Categórica
Categórica
Categórica
Quantitativa, mas categorizada numa 
tabela de distribuição de frequências
Quantitativa no eixo vertical, e 
categórica no eixo horizontal
Quantitativa no eixo vertical, e 
o “tempo” no eixo horizontal
Categórica
Quantitativa no eixo vertical, e 
o “tempo” no eixo horizontal
Variável explicativa quantitativa no eixo horizontal, 
e desfecho quantitativo no eixo vertical
Quantitativa
TIPO DE GRÁFICO NÚMERO DE VARIÁVEIS 
ENVOLVIDAS
TIPO DE VARIÁVEL ANALISADA
ESTATÍSTICA E PROBABILIDADES
unidade 2
027
Como fazer os gráficos? Siga regras e comentários abaixo e você 
terá sucesso ao desenhar gráficos:
 1. Um gráfico deve conter um título, entretanto este não deve 
ser colocado no próprio gráfico (como o Excel insiste em 
fazer...). Quando desenhamos um gráficousando o Excel, 
por exemplo, este será exportado para algum documento 
do Word ou para o PowerPoint, ou para outros editores de 
texto e apresentadores de slides. O título do gráfico será 
então colocado no slide ou na descrição da figura no editor 
de textos, sendo desnecessário e errado colocá-lo no 
meio do próprio gráfico. Mesmo em casos excepcionais, 
quando o gráfico não é exportado para nenhum outro 
aplicativo, sendo impresso diretamente do Excel, o título 
não deve ser colocado no meio da figura. O título deve ser 
inserido no cabeçalho da planilha que contém o gráfico.
 2. Ao escrever um relatório, comece pelas figuras. É 
impressionante, mas as pessoas leem artigos científicos, 
relatórios técnicos, jornais e revistas de “fofoca” da 
mesma forma: começamos pelas figuras! Por isso, o título 
de gráficos e tabelas deve ser o mais claro possível: toda 
informação necessária para o entendimento da figura 
deve estar no seu título. Essa é uma tendência das revistas 
científicas (Nature, Science, por exemplo) e tem um efeito 
colateral: o título da figura fica muito longo. Isso não é 
exatamente uma regra, mas recomendação. Se você quer 
que seu relatório seja lido, invista nos títulos de figuras 
e tabelas e sempre coloque respostas claras para pelo 
menos quatro perguntas: O que? Quem? Quando? Onde? 
A interpretação das informações no gráfico também deve 
ser colocada como subtítulo da figura. Se necessário, 
coloque notas explicativas, usando siglas somente para 
coisas realmente conhecidas de quem lerá o seu texto 
(seu chefe ou o chefe do seu chefe...). Veja um exemplo 
de gráfico de pizza na figura a seguir.
Mesmo em casos 
excepcionais, 
quando o gráfico 
não é exportado 
para nenhum 
outro aplicativo, 
sendo impresso 
diretamente do Excel, 
o título não deve ser 
colocado no meio da 
figura. 
ESTATÍSTICA E PROBABILIDADES
unidade 2
028
A maioria absoluta (58%) dos 760 artigos publicados nos volumes 298 a 301 da NEJM utilizou somente técnicas de 
Estatística Descritiva na análise dos dados. Praticamente um quarto dos artigos usou teste t de student e 15% aplicou 
teste de qui-quadrado nas tabelas de contingência, ferramentas que serão discutidas na Unidade 7 deste livro. 
 
Fonte: BAILAR & MOSTELLER,1992.
FIGURA 2 – Principais ferramentas estatísticas encontradas em 
artigos publicados no New England Journal of Medicine (NEJM).
 3. Caso o gráfico tenha eixos (horizontal X e vertical Y), estes 
devem estar rotulados para entendimento. Os rótulos dos 
eixos devem conter as respectivas unidades de medida 
envolvidas (g, R$, kg, m/s, etc.). Esse é mais um ponto de 
erro do Excel! Além de não colocar os rótulos nos eixos, 
o Excel coloca o título no meio da figura e uma legenda 
que não tem a menor utilidade. Na verdade, as legendas 
somente devem ser colocadas se existirem mais de um 
grupo de dados na figura. Veja um exemplo correto de 
gráfico de barras na figura a seguir. 
ESTATÍSTICA E PROBABILIDADES
unidade 2
029
FIGURA 3 – Risco de reprovação em disciplinas de cursos de Engenharia 
e Tecnologia do Centro Universitário de Belo Horizonte – UniBH.
Análise de 21 disciplinas avaliadas em sete semestres (2011/1 a 2014/1), considerando amostra de 78.399 alunos. 
Quatro disciplinas têm mais de 40% de seus alunos reprovados: Cálculo Diferencial, Geometria Analítica e Álgebra 
Linear, Cálculo de Várias Variáveis e Algoritmo e Estruturas de Dados. 
 
Fonte: Elaborado pelo autor.
 4. Não existe regra fixa para a escolha da escala do gráfico. 
Qualquer escala é boa desde que os valores no gráfico 
não fiquem muito espalhados nem muito juntos numa 
única região da figura.
 5. Sombreamento, efeitos 3D e pequenas figuras relacionadas 
com o tipo de dado usado no gráfico, colocados para 
dar vida à figura: na maioria das vezes esses efeitos são 
inúteis, podendo até mesmo distorcer o gráfico.
 6. A maioria dos gráficos apresenta o valor zero como ponto 
de início dos eixos, mas isso não é necessário se o ponto 
de início da escala é devidamente marcado na figura. Na 
verdade, as pessoas usualmente assumem que o valor 
zero está na base do gráfico. Para os gráficos de linha isso 
ESTATÍSTICA E PROBABILIDADES
unidade 2
030
não é problemático, entretanto, quando se tratar de gráficos 
de colunas ou de barras, o valor zero deve obrigatoriamente 
estar na base da coluna. Caso isso não seja feito, ocorre 
uma distorção do gráfico levando a uma interpretação 
errada dos dados. Veja o exemplo abaixo. O primeiro 
gráfico, como não começa no valor zero, está errado, ele 
“ilude o leitor”: a auditoria foi um sucesso?! 
FIGURA 4 – Exemplos de gráfico de colunas: o valor 
zero deve obrigatoriamente ser incluído na figura.
Fonte: Elaborado pelo autor.
 7. Mais de uma curva ou linha pode ser desenhada em um 
único gráfico com o objetivo de comparação. Entretanto, 
deve-se diferenciar claramente os dados de cada linha 
para que não haja erro de interpretação (use cores 
diferentes ou linhas pontilhadas ou mesmo símbolos). 
Linhas de grade, usualmente colocadas no gráfico para 
auxiliar a leitura das escalas, devem ser discretas (na cor 
cinza, por exemplo) ou serem eliminadas.
ESTATÍSTICA E PROBABILIDADES
unidade 2
031
FIGURA 5- Exemplo de gráfico com legenda identificando diferentes dados.
Fonte: Elaborado pelo autor.
 8. Os gráficos devem ser desenhados no formato de 
paisagem, com a altura tendo aproximadamente ¾ da sua 
largura. Caso isso não seja feito, poderá haver distorção 
da figura e da própria informação, que fica comprometida: 
o primeiro gráfico está correto, mas os outros estão na 
categoria “como mentir com estatística”...
ESTATÍSTICA E PROBABILIDADES
unidade 2
032
FIGURA 6 – Formato dos gráficos: a figura deve ser desenhada em 
formato de paisagem, com a altura tendo aproximadamente 75% da largura.
Fonte: Elaborado pelo autor.
FIGURA 7 – Gráfico distorcido: desenhando a figura com a altura muito pequena, em relação 
à largura, a informação é falseada e se tem a sensação de estabilidade dos dados.
Fonte: Elaborado pelo autor.
ESTATÍSTICA E PROBABILIDADES
unidade 2
033
FIGURA 8 - Gráfico distorcido: desenhando a figura com a altura 
muito grande, em relação à largura, a informação é falseada e se 
tem a sensação de redução dos dados ao longo do tempo
Fonte: Elaborado pelo autor.
 9. Gráficos de pizza, “o queridinho”: Apesar de muito 
“engraçadinhos”, estes gráficos são muitos confusos. Evite 
o seu uso, substituindo por gráficos de barra ou de colunas. 
É aceitável construi-los somente quando são poucos setores 
bem definidos (até cinco pedaços). Evitar gráficos de pizza em 
3D, com vários pedaços. Construi-los como na figura 2. 
 10. Diagrama de dispersão: Ferramenta que nos permite avaliar 
o efeito de uma variável explicativa quantitativa sobre um 
desfecho. Serve tanto para visualizarmos funções matemáticas 
teóricas (figura 9) quanto funções de relacionamentos 
empíricos já conhecidos (figura 10), mas a sua grande utilidade 
ESTATÍSTICA E PROBABILIDADES
unidade 2
034
é quando tentamos estabelecer a associação entre duas 
variáveis quantitativas (figura 11). A figura 9 é um diagrama de 
dispersão mostrando uma relação completamente teórica entre 
duas variáveis (x e y). Como é uma relação exata, somente é 
desenhada a linha que liga os pontos do gráfico. Na figura 10 é 
desenhada uma relação empírica, no caso a lei de Abrams, que 
relaciona a resistência do concreto à compressão (R) com o fator 
água/cimento (fx) da seguinte forma: R = α/βfx. Nessa figura, α e 
β foram definidos como 100 e 10 respectivamente, de tal forma 
que a equação ficou R =100/10fx, fx variando de 0 a 3. Já a figura 
11 mostra o uso “nobre” dos diagramas de dispersão, quando 
tentamos explorar, criar e propor uma nova relação empírica 
entre duas variáveis quantitativas. Nesse exemplo, ao invés de 
aplicarmos a relação empírica de Abrams, usamos dados reais 
de fator fx de água/cimento e a resistência medida em 28 dias de 
uma amostra de concretos (desfecho). Ao inserirmos uma linha 
de tendência linear, estamos sugerindo que, na faixa de variação 
medida de fx (entre 0,2 e 1,0), a resistência à compressão do 
concreto se relaciona com fx por meio de uma equação de reta. 
FIGURA 9 – Diagrama de dispersão sem os marcadores e com linhas contínuas mostrando a 
relação de x e sua função f(x) = 2x3 – cos(x+1) – 3. Nesse caso o diagrama está mostrando uma 
relação teórica exata, tal como aquela encontrada nas disciplinas de Cálculo Diferencial.
Fonte: Elaborado pelo autor.
ESTATÍSTICA E PROBABILIDADES
unidade 2
035
Fonte: Elaborado pelo autor.
FIGURA 10 – Diagrama de dispersão com marcadores e linhas contínuas mostrando 
a relação empírica da lei de Abrams que relaciona a resistência à compressão 
de concretos, medida em megapascal (MPa), e o fator água/cimento (fx), 
determinado pela razão do peso de água pelo peso em cimento do concreto.
FIGURA 11 – Diagrama de dispersão somente com os marcadores e sem 
linhas contínuas mostrando uma possível relação linear entre resistência à 
compressão de concretos em 28 dias (MPa) e o fator água/cimento (fx).
Fonte: Elaborado pelo autor baseado nos dados em DAFICO, Dario de Araújo. Método Simples para Explicar a 
Resistência à Compressão do Concreto de Alto Desempenho. Disponível em: http://www2.ucg.br/nupenge/pdf/Dario.
pdf. Acesso em 14 maio 2015.
ESTATÍSTICA E PROBABILIDADES
unidade 2
036
A figura 12 mostra possíveis padrões de relacionamento entre uma variável 
explicativa (X) e o desfecho (Y), ambos quantitativos. Sempre que construir 
um diagrama de dispersão, você deve interpretar o gráfico gerado em 
um dos quatro padrões mostrados na figura 12. A) Correlação positiva: 
Em média, quando X aumenta, Y também aumenta, numa tendência em 
“linha reta”. Por exemplo, quanto maior a área de um imóvel, maior é o seu 
preço de venda. B) Correlação negativa: Em média, quando X aumenta, 
Y tende a diminuir. Por exemplo, quanto mais velho um imóvel, menor é 
o seu preço de venda. C) Associação curvilinear: Em média, quando X 
aumenta, Y também aumenta, mas não numa tendência em “linha reta”, e 
sim “em curva”. Isso pode ocorrer quando, por exemplo, a relação entre a 
variável resposta (Y) e a explicativa (X) for uma equação de segundo grau 
(parábola) ou cúbica, de grau três. D) Sem associação: Também é um 
padrão importante, pois indica que não há relação entre as duas variáveis 
associadas, que a variável explicativa, na verdade, não explica o desfecho! 
Por exemplo, frequentemente se observa que a idade do aluno não está 
associada à sua nota na maioria das disciplinas que ele cursa. 
FIGURA 12 – Padrões de relacionamentos entre variáveis avaliadas por meio de diagrama 
de dispersão: correlação positiva (A), correlação negativa (B), associação curvilinear (C) e 
ausência de associação (D).
Fonte: Elaborado pelo autor.
ESTATÍSTICA E PROBABILIDADES
unidade 2
037
11. Histograma: A ideia deste gráfico é categorizar uma variável 
quantitativa, dividindo-a em intervalos ou classes, contar 
quantos valores se encaixam em cada intervalo e construir 
um gráfico de colunas com o resultado. Ao se interpretar 
um histograma, deve-se tentar responder às seguintes 
questões: Qual é a forma da distribuição dos dados? Existe 
um ponto central bem definido? Como é a amplitude de 
variação dos dados? Existe apenas um pico isolado? A 
distribuição é simétrica? Os exemplos abaixo podem auxiliá-
lo na interpretação de um histograma. Procure descobrir 
com qual destes oito tipos o seu histograma se parece.
Exemplo 1 - Histograma simétrico: A frequência de dados é mais 
alta no centro e decresce gradualmente à esquerda e à direita de 
forma aproximadamente simétrica, em forma de sino. 
Fonte: Elaborado pelo autor
Exemplo 2 - Histograma fortemente assimétrico: A frequência dos 
dados decresce rapidamente num dos lados e muito lentamente 
no outro, provocando uma assimetria na distribuição dos valores. A 
distribuição dos salários numa empresa é um exemplo comum de 
histograma assimétrico: muitas pessoas ganham pouco e poucas 
pessoas ganham muito (a). A situação (b), apesar de mais rara, 
também pode acontecer. 
ESTATÍSTICA E PROBABILIDADES
unidade 2
038
Fonte: Elaborado pelo autor
Exemplo 3 - Histograma tipo despenhadeiro: O histograma termina 
abruptamente em um ou nos dois lados, dando a impressão de que 
faltam dados. Na verdade, essa possivelmente deve ser a explicação 
para histogramas com esse formato: os dados muito pequenos e/
ou muito grandes foram eliminados da amostra. 
ESTATÍSTICA E PROBABILIDADES
unidade 2
039
Fonte: Elaborado pelo autor
Fonte: Elaborado pelo autor
Exemplo 4 - Histograma com dois picos: Ocorrem picos na 
distribuição e a frequência é baixa entre os picos. Possivelmente, 
os dados se referem a uma mistura de valores de diferentes 
populações, devendo ser avaliados com cuidado. Se houve mistura 
dos dados, é melhor separá-los. 
Exemplo 5 - Histograma tipo platô: As classes de valores centrais 
apresentam aproximadamente a mesma frequência. Essa situação 
também sugere mistura de valores de diferentes populações. 
ESTATÍSTICA E PROBABILIDADES
unidade 2
040
Fonte: Elaborado pelo autor
Fonte: Elaborado pelo autor
Exemplo 6 – Histograma com uma pequena ilha isolada: Alguns 
valores isolados têm frequência elevada, formando uma espécie de 
ilha. Também pode ter ocorrido uma mistura de dados. 
Exemplo 7 – Histograma tipo serrote: As frequências de valores se 
alternam formando vários dentes. Pode indicar algum problema na 
obtenção (leitura) dos dados. 
ESTATÍSTICA E PROBABILIDADES
unidade 2
041
Fonte: Elaborado pelo autor
Fonte: Elaborado pelo autor
Vamos usar como exemplo de dados para a construção de um 
histograma notas de amostra de alunos em uma prova de Cálculo 
Diferencial (n=120):
FIGURA 13 – Dados brutos de notas de amostra de alunos em prova de 
Cálculo Diferencial. Centro Universitário de Belo Horizonte – UniBH, 2014/2.
0 0 0 1 5 5 6 9 13 17 18 21
0 0 0 1 5 5 6 10 13 17 18 21
0 0 0 1 5 5 6 11 14 17 20 22
0 0 0 2 5 5 9 11 14 17 20 22
0 0 0 2 5 5 9 12 14 17 20 24
0 0 0 3 5 5 9 12 14 17 20 24
0 0 0 3 5 5 9 13 15 17 20 25
0 0 0 5 5 6 9 13 15 17 20 25
0 0 0 5 5 6 9 13 17 18 21 25
0 0 1 5 5 6 9 13 17 18 21 25
Passo 1 - Determinar valores mínimo, máximo e amplitude (R):
mín = 0; máx = 25; R = máx – mín = 25 – 0 = 25
Passo 2 – Determinar quantas classes ou intervalos (k) serão 
usados para dividir os dados. O número de classes deve ser 
ESTATÍSTICA E PROBABILIDADES
unidade 2
042
algo entre 5 a 20 subintervalos. Regra empírica: k ≈ √n e 
5 ≤ k ≤ 20 . No exemplo, n ≈ 120; k ≈ √120 ≈ 10.
Passo 3 – Determinar o tamanho de cada subintervalo (h). h ≈ 
R
 . No 
exemplo, h ≈ 
R 
≈ 
25
. ≈ 2,5 Ou seja, no nosso exemplo, temos 120 
valores que variam de 0 a 25 e vamos dividi-los em 10 classes de 
tamanho 2,5.
Passo 4 - Contar a frequência de valores em cada classe. No 
exemplo, começando em zero (valor mínimo), teremos uma 
tabela de distribuição de frequências, base para construção do 
histograma, de 2,5 a 2,5 pontos cada subintervalo. Vamos verificar 
na base de dados quantos valores se encaixam em cada classe. 
Observe na figura 14 o símbolo --|, ele indica queo valor à direita 
faz parte do intervalo, mas o valor à sua esquerda não! Ou seja, o 
intervalo 2,5 --| 5,0 implica em valores acima de 2,5 e menores ou 
iguais a 5,0. Por exemplo, alunos que tiraram 5,0 são contabilizados 
somente no segundo intervalo (2,5 --| 5,0), assim como aqueles 
que tiraram 7,5 pontos entram somente na terceira classe (5,0 
--| 7,5). Veja também o símbolo |--|, ele só pode ser usado no 
primeiro subintervalo e possibilita que incluamos o valor 0,0 na 
primeira classe (0,0 |--| 2,5). Se não fizéssemos isso, não teríamos 
onde colocar a frequência de valores iguais a zero. Eventualmente 
você poderá se deparar com tabelas construídas com o símbolo 
“invertido”, |--, que indica valores maiores ou iguais ao número 
colocado à esquerda e menores que o valor colocado à direita. Por 
exemplo, 30 |-- 40 implica valores maiores ou iguais a 30 e menores 
que 40. Usei a notação --| que é o padrão usado pelo Excel na 
construção de histogramas (figura 14). 
Lembre-se de que o total, a soma da coluna “Frequência”, deve 
ser exatamente o tamanho da amostra (n). Além da coluna de 
frequência absoluta, podemos calcular a frequência relativa ou 
percentual de cada classe (em relação ao total de valores) e 
k
k 10
Lembre-se de que 
o total, a soma da 
coluna “Frequência”, 
deve ser exatamente 
o tamanho da 
amostra (n).
ESTATÍSTICA E PROBABILIDADES
unidade 2
043
a frequência acumulada ou percentual acumulado, útil para a 
construção de gráficos de Pareto (que será explicado mais à frente). 
FIGURA 14 – Tabela de distribuição de frequências das notas de amostra de alunos em 
prova de Cálculo Diferencial. Centro Universitário de Belo Horizonte – UniBH, 2014/2.
0,0 |--| 2,5 35 29% 29%
2,5 --| 5,0 22 18% 48%
5,0 --| 7,5 6 5% 53%
7,7 --| 10,0 9 8% 60%
10,0 --| 12,5 4 3% 63%
12,5 --| 15,0 12 10% 73%
15,0 --| 17,5 10 8% 82%
17,5 --| 20,0 10 8% 90%
20,0 --| 22,5 6 5% 95%
22,5 --| 25,0 6 5% 100%
Total 120 100%
 NOTA FREQUÊNCIA PERCENTUAL PERCENTUAL ACUMULADO
Fonte: Elaborado pelo autor
Fonte: Elaborado pelo autor
FIGURA 15 – Histograma com a distribuição das notas na prova de Cálculo 
Diferencial: os dados mostram um padrão de distribuição assimétrico, 
semelhante àquele apresentado no histograma do exemplo 2.
ESTATÍSTICA E PROBABILIDADES
unidade 2
044
 12. Gráfico de Pareto: Esta ferramenta é ótima para ajudar 
na definição de prioridades, quando precisamos fazer 
um plano de ação para melhoria de qualidade de um 
serviço ou produto. Por exemplo, se um determinado 
problema ou defeito pode ocorrer de diversas formas, 
como escolher os tipos de defeito prioritários para 
serem corrigidos? A ideia do “efeito Pareto” é que 80% 
dos problemas estão associados a 20% dos problemas. 
Nem sempre esse efeito ocorre, mas esse é o objetivo 
do gráfico de Pareto: verificar quais itens ou problemas 
ocorrem com maior frequência num determinado 
cenário. Por exemplo, numa amostra de 400 defeitos de 
fabricação de uma peça mecânica, foram observados 
16 tipos de defeito: rebarbas, diâmetro menor, diâmetro 
maior, sem usinagem, altura menor, trincas, altura maior, 
borda muito fina, enviesado, base maior que o topo, borda 
muito grossa, cor muito escura, estrutura pouco flexível, 
base menor que o topo, cor muito clara e estrutura frágil. 
Ao se construir um gráfico de Pareto com os dados 
(figura 16), observa-se que a maioria absoluta (66%) 
dos defeitos se refere somente a três tipos: rebarbas 
(32%), diâmetro menor (21%) e diâmetro maior (13%). Ou 
seja, ao fazer um plano de ação para corrigir possíveis 
defeitos de fabricação dessa peça, “ignore” 13 defeitos e 
priorize suas ações em apenas esses três. Fazendo isso, 
66% do problema estará corrigido!
 Gráfico de Pareto: 
Esta ferramenta é 
ótima para ajudar 
na definição de 
prioridades, quando 
precisamos fazer 
um plano de ação 
para melhoria de 
qualidade de um 
serviço ou produto. 
ESTATÍSTICA E PROBABILIDADES
unidade 2
045
FIGURA 16 – Gráfico de Pareto com a frequência de defeitos de fabricação 
de uma peça mecânica: 66% dos defeitos são somente de três categorias prioritárias 
para um plano de ação para melhorar a qualidade do processo de fabricação 
(rebarbas, diâmetro menor e diâmetro maior).
Fonte: Elaborado pelo autor
 13. Box-plot: Este gráfico, também conhecido como 
diagrama em caixa ou “caixa e bigode”, informa sobre 
a distribuição dos dados. Somente se aplica a variáveis 
quantitativas (figura 17), informando o menor valor 
(pequena linha horizontal inferior) e valor máximo 
(pequena linha horizontal superior). A distância entre 
o valor mínimo e a aresta inferior da caixa cinza é a 
amplitude em que ocorrem os 25% dos valores mais 
baixos. Este é conhecido como 1º quartil, sendo 
delimitado pelo percentil 25 dos dados. As duas caixas, 
cinza e vermelha, mostram onde estão 50% dos dados. 
A distância entre a aresta superior da caixa vermelha 
e a pequena linha horizontal superior, que equivale 
ao máximo dos dados, refere-se ao intervalo em que 
ocorrem 25% dos maiores valores da variável. A linha 
separando as duas caixas representa a mediana, que 
ESTATÍSTICA E PROBABILIDADES
unidade 2
046
expressa o valor do meio se todos os dados fossem 
colocados em ordem. Assim como os histogramas, o 
box-plot nos informa sobre a maneira de distribuição dos 
dados, tendo a vantagem de permitir a visualização de 
grupos de dados (figura 18). Nessa figura, é apresentado 
um resumo comparativo da taxa de aprovação de oito 
disciplinas de ciclo básico de cursos de Engenharia. 
FIGURA 17 – Exemplo de box-plot para uma variável quantitativa genérica: quanto maior o 
tamanho das duas caixas, vermelho e cinza, maior a variabilidade e dispersão dos dados.
Fonte: Elaborado pelo autor
ESTATÍSTICA E PROBABILIDADES
unidade 2
047
FIGURA 18 – Box-plot com as taxas de aprovação de oito disciplinas de ciclo básico de cursos 
de Engenharia: Desenho e Estatística se destacam das outras disciplinas, que têm taxas de 
aprovação bem menores e mais heterogêneas. Cálculo Integral é a disciplina com menor taxa de 
aprovação e maior variabilidade dos dados.
Fonte: Elaborado pelo autor
Síntese tabular 
de dados
Na análise exploratória de dados, em última instância, todos os 
resultados são apresentados ou na forma de figuras ou de tabelas. 
Assim como nos gráficos, invista no título da tabela e sempre 
coloque respostas claras para pelo menos quatro perguntas: O 
que? Quem? Quando? Onde? Sugerimos que a interpretação das 
informações na tabela também seja colocada no próprio título. Se 
necessário, coloque notas explicativas, usando siglas somente 
para coisas realmente conhecidas. A tabela 4 é um exemplo de 
formato de tabelas, apresentando modelo para síntese de variáveis 
categóricas de uma base de dados. 
ESTATÍSTICA E PROBABILIDADES
unidade 2
048
TABELA 4 – Análise exploratória de variáveis categóricas: a síntese de variáveis 
categóricas, sejam elas explicativas ou desfecho, resume-se a apresentar suas 
categorias, a frequência de valores em cada categoria e os respectivos percentuais.
Fonte: Elaborado pelo autor.
Conceito Aprovado 2287 49%
 Reprovado 2386 51% 
Local do ensino médio Instituição privada 1509 32%
 Instituição pública 3164 68% 
Sexo Feminino 1948 42%
 Masculino 2725 58% 
Turno Manhã 1153 25%
 Noite 3520 75%
VARIÁVEL CATEGORIA FREQUÊNCIA PERCENTUAL
Síntese numérica 
de dados
A síntese numérica de variáveis categóricas é muito simples, basta 
que você apresente suas categorias, a frequência de valores em 
cada categoria e os respectivos percentuais, tal como apresentadona tabela 3. Já a síntese de variáveis quantitativas é mais ampla e 
envolve resumir dois aspectos:
1. um valor típico ou característico para a variável;
2. uma medida do grau de variabilidade ou de dispersão 
dos dados. 
 1. V alor típico ou medida de posição: O objetivo é 
encontrar o valor característico, aquele que melhor 
represente os dados. Vamos discutir aqui as 
duas possibilidades mais aplicadas a problemas 
ESTATÍSTICA E PROBABILIDADES
unidade 2
049
de pequeno e médio porte na área de Ciências 
Exatas e Engenharia: a média ( X ) e a mediana 
( Md ). A média é obtida pelo resultado da soma 
de todos os valores, dividido pelo total de dados 
ou tamanho da amostra (n). Matematicamente, a 
média é obtida por:
Já a mediana, é na verdade uma medida de ordem, indicando o 
valor “do meio”, aquele que “divide os dados em duas metades”:
Passo 1 – Colocar os dados em ordem crescente.
Passo 2 – Encontrar o “valor do meio”, isto é:
se n, o tamanho da amostra, é ímpar, então Md é o 
valor central; 
se n é par, então Md é a média dos dois valores centrais.
Exemplo A (n=11), dados já ordenados: 
{3; 4; 4; 5; 9; 9; 9; 10; 10; 10; 10}
Para a mediana, como são 11 valores (n é ímpar) e a metade de 11 
é 5,5, então Md é o 6º valor, ou seja, o “valor do meio” (lembre-se 
de que os dados já estão ordenados):
 Md = 9
Exemplo B (n=18), dados já ordenados:
{17; 17; 20; 20; 20; 24; 26; 28; 30; 40; 50; 50; 50; 50; 50; 51; 51; 52}
A média é obtida pelo 
resultado da soma 
de todos os valores, 
dividido pelo total de 
dados ou tamanho 
da amostra (n). 
ESTATÍSTICA E PROBABILIDADES
unidade 2
050
Para a mediana, como são 18 valores (n é par) e a metade de 18 é 9, 
então Md é a média entre o 9º e o 10º valor, ou seja:
 Md = 
30
 
+
 
40
 = 352
Não se esqueça, para obter a mediana é necessário, antes de tudo, colocar 
os dados em ordem crescente. Não ordenar os dados é a principal fonte 
de erro no cálculo da mediana! 
Algumas pessoas se perguntam: “Quantas casas decimais devo 
apresentar no resultado?”. Quanto menos casas decimais você 
conseguir apresentar nos seus resultados, melhor para o entendimento 
da informação! Apresente seus resultados usando o mesmo número 
de casas decimais que os dados originais ou, no máximo, uma casa 
decimal além do original, como foi feito nos cálculos anteriores.
Outra questão é “Quando escolher entre média e mediana 
para melhor representar um conjunto de dados?” ou “Em que 
situações resumir uma variável quantitativa usando a média e 
quando a mediana é melhor para representar os dados?”. Para 
essa resposta, é preciso seguir uma regra prática:
• Se média e mediana forem semelhantes, então usar a 
média para representar os dados.
• Se média e mediana forem muito diferentes, então usar a 
mediana para representar os dados.
Se média e mediana 
forem semelhantes, 
então usar a média 
para representar os 
dados.
ESTATÍSTICA E PROBABILIDADES
unidade 2
051
Além de se basear nas regras acima, que exigem uma interpretação 
caso a caso do que seja “média e mediana muito diferentes”, você 
poderá construir histogramas e, pelo padrão do gráfico, escolher 
uma ou outra medida para representar os dados. Nos modelos de 
histograma colocados no tópico anterior, os exemplos 1 (simétrico), 
3 (despenhadeiro) e 5 (platô), a média é a melhor medida de posição. 
Já nos histogramas dos exemplos 2 (fortemente assimétrico) 
e 6 (ilha isolada), a mediana é a melhor medida de posição que 
caracteriza o conjunto de dados. 
2. Medida do grau de variabilidade ou de dispersão dos 
dados: O objetivo é quantificar o quanto os dados são 
heterogêneos, são imprevisíveis, em suma, quantificar o 
grau de variabilidade de uma variável quantitativa.
A princípio, podemos medir a variabilidade de um dado informando 
o seu valor mínimo (mín) e o valor máximo (máx), o que nos leva à 
sua amplitude (R): R = máx – mín. 
Entretanto, essa é uma forma muito “simplista”, pois envolve 
somente dois valores da variável, o mínimo e o máximo, ignorando 
todos os outros. Para uma medida mais adequada de variabilidade, 
uma forma é calcular a sua média ( X ) e, em seguida, calcular 
quanto os dados estão distantes da média, em média! Soa 
estranho, mas a ideia faz sentido. Por exemplo, seja uma amostra 
de n = 5 pessoas e seus respectivos números de filhos: 
Pessoa A B C D E
Número de filhos 0 1 1 2 3
Qual o número médio de filhos?
Isso mesmo, essas pessoas têm, em média, 1,4 filhos! Você deve 
estar se perguntado, “como assim... um e 0,4 filho? Não existe 
ESTATÍSTICA E PROBABILIDADES
unidade 2
052
0,4 filho!!” Não se preocupe, a média funciona como um modelo 
e, como tal, é uma aproximação da realidade. A média é o melhor 
valor representativo para esses dados e, caso seja necessário 
resumir toda a informação num único valor, ela deve ser usada 
para substituir o verdadeiro número de filhos de cada pessoa. Bom, 
voltando à variabilidade, como calcular o quanto os dados estão 
distantes da média, em média? Para cada indivíduo, devemos 
subtrair o valor observado pela média, calculando um “resíduo”:
-1,4 -0,4 -0,4 +0,6 +1,6
Pessoa A B C D E
Número de filhos 0 1 1 2 3
Resíduo 0-1,4 = 1-1,4 = 1-1,4 = 2-1,4 = 3-1,4 =
O resíduo mede a distância de cada valor em relação à média dos 
dados, ou seja, é uma medida de quanto os dados estão distantes 
da média. Para resumir os resíduos num único valor, o ideal é então 
calcular uma média dos resíduos, que refletiria o quanto os dados 
estão distantes da média, em média! Infelizmente, se fizermos essa 
média, ela sempre dará zero, pois os resíduos negativos anulam os 
positivos, dando uma soma dos resíduos igual a zero. Para resolver 
esse problema, ao invés de simplesmente calcular os resíduos, 
devemos calcular o resíduo elevado ao quadrado:
-1,4 -0,4 -0,4 +0,6 +1,6
1,96 0,16 0,16 0,36 2,56
Pessoa A B C D E
Número de filhos 0 1 1 2 3
Resíduo 0-1,4 = 1-1,4 = 1-1,4 = 2-1,4 = 3-1,4 =
Resíduo elevado (-1,4)2 = (-0,4)2 = (-1,4)2 = (+0,6)2 = (+1,6)2 =
ao quadrado
Se somarmos os resíduos elevados ao quadrado teremos a soma 
dos quadrados dos resíduos ( ∑ ( Xi -X )2 ), uma métrica que aparece 
em várias outras análises estatísticas. Quanto maior a soma dos 
n
i =1
ESTATÍSTICA E PROBABILIDADES
unidade 2
053
quadrados dos resíduos, maior a variabilidade dos dados! Para 
resumir essa métrica, calculamos a sua média, que é chamada de 
variância amostral ( s2 ):
Nessas fórmulas, Xi representa cada um dos dados individuais, X é 
a média e n o tamanho da amostra ou total de dados. Observe que, 
no denominador, dividimos a soma dos quadrados dos resíduos 
por (n - 1) e não por ( n ). Isso é feito porque nossos dados foram 
obtidos por meio de amostragem e não por censo. Ou seja, sempre 
que tivermos dados amostrais, que é a situação mais comum, 
calcularemos a variância amostral dividindo a soma dos quadrados 
dos resíduos por (n - 1). Se tivermos acesso à população toda, 
ou melhor, se fizermos um censo (o que é muito raro), então 
poderemos calcular a variância populacional (Ợ 
2
 ), dividindo a soma 
dos quadrados dos resíduos por (n):
É importante se lembrar dessa diferença, pois ela aparece nas 
calculadoras científicas e no Excel, que permite o cálculo tanto de s2 
quanto de Ợ 
2
. Na prática (e na dúvida), sempre calcule a variância 
amostral (s2). 
Uma outra métrica de variabilidade

Outros materiais