Buscar

Estatística e probabilidades

Prévia do material em texto

Bráulio Roberto Gonçalves Marinho Couto
Janaína Giovani Noronha de Oliveira
Octávio Alcântara Torres
Reinaldo Carvalho de Morais
Estatística e 
Probabilidades
Bráulio Roberto Gonçalves Marinho Couto
Janaína Giovani Noronha de Oliveira
Octávio Alcântara Torres
Reinaldo Carvalho de Morais
ESTATÍSTICA E PROBABILIDADES
Belo Horizonte
Junho de 2015
COPYRIGHT © 2015
GRUPO ĂNIMA EDUCAÇÃO
Todos os direitos reservados ao:
Grupo Ănima Educação
Todos os direitos reservados e protegidos pela Lei 9.610/98. Nenhuma parte deste livro, sem prévia autorização 
por escrito da detentora dos direitos, poderá ser reproduzida ou transmitida, sejam quais forem os meios 
empregados: eletrônicos, mecânicos, fotográficos, gravações ou quaisquer outros.
Edição
Grupo Ănima Educação
Vice Presidência
Arthur Sperandeo de Macedo
Coordenação de Produção
Gislene Garcia Nora de Oliveira
Ilustração e Capa
Alexandre de Souza Paz Monsserrate
Leonardo Antonio Aguiar
Equipe EaD
CONHEÇA 
O AUTOR
CONHEÇA 
A AUTORA
Bráulio Roberto Gonçalves Marinho Couto é 
doutor em Bioinformática, mestre em Ciência 
da Computação, especialista em Estatística, 
bacharel em Engenharia Química e técnico 
em Química. Atuante nas áreas de Estatística, 
Cálculo Numérico, Informática em Saúde, 
Epidemiologia Hospitalar e Bioinformática. 
Professor do Centro Universitário de Belo 
Horizonte (UniBH). 
Janaína Giovani Noronha de Oliveira 
é mestre em Estatística e graduada 
em Licenciatura em Matemática com 
Habilitação em Física. Possui experiência 
como docente na área de Matemática 
e Estatística do Ensino superior e 
médio. Experiência com orientação de 
Monografias.
CONHEÇA 
O AUTOR
CONHEÇA 
O AUTOR
Octávio Alcântara Torres é bacharel em 
Estatística e mestre em Demografia. Possui 
experiência nas áreas de probabilidade e 
estatística, regressão e correlação, análise 
estatística multivariada e controle estatístico 
de processo. Áreas de interesse: projeções 
populacionais, projeções de mão de obra 
qualificada, pesquisa de mercado, estatística 
aplicada.
Reinaldo Carvalho de Morais é mestre 
e bacharel em Administração Pública, 
graduado em Estatística e especialista 
em Gestão Financeira. Possui experiência 
em pesquisas sobre economia e finanças 
públicas mineiras, bem como docência nas 
disciplinas de estatística, de economia, 
de engenharia econômica, de matemática 
financeira e de administração da produção.
Egressos de cursos de Engenharia e 
Tecnologia são profissionais que resolvem 
problemas. E como isso ocorre? Pela 
aplicação eficiente do método científico. 
Pois bem, é disso que se trata essa 
disciplina: apresentar ferramentas 
estatísticas que possibilitarão a você 
transformar-se num especialista em 
qualquer área do conhecimento e, portanto, 
apto a resolver problemas. A disciplina é 
dividida em oito unidades cujo objetivo é 
introduzir o aluno na área da Estatística 
e Probabilidades, tornando-o capaz de 
planejar e de executar experimentos de 
pequeno e médio porte nas áreas de 
Ciências Exatas e de Engenharia. Além de 
fazer a análise exploratória dos dados e de 
realizar inferências, por meio da tomada de 
decisão na presença de incerteza.
A Unidade 1 apresenta definições 
fundamentais para a correta compreensão 
do processo de coleta e de análise de dados. 
Conceitos sobre população e amostra, 
censo e amostragem, e variáveis são 
discutidos nessa unidade. A Unidade 2 trata 
da análise exploratória de dados, quando 
são apresentadas técnicas de Estatística 
Descritiva. O objeto dessa unidade, 
bastante intuitiva, é trabalhar a síntese 
numérica, gráfica e tabular dos dados. 
A ideia é usar ferramentas como o Excel 
para construir tabelas e gráficos, como 
histograma, diagrama de dispersão, Pareto 
e calcular valores como média, mediana, 
desvio padrão, e coeficiente de variação. 
Na Unidade 3 são introduzidos conceitos 
básicos de probabilidades, cruciais para 
que se entenda o processo de tomada 
de decisão na presença de incerteza. A 
Unidade 4 é uma continuação da terceira 
unidade, são apresentados os modelos 
probabilísticos mais importantes para se 
modelar problemas de pequeno e médio 
porte na área de Engenharia e Tecnologia. 
A partir da Unidade 5 caminhamos para 
a área “nobre” da Estatística, que envolve 
as inferências, isto é, o processo de 
generalização de resultados parciais, 
observados em amostras, para toda a 
população envolvida num problema. Nessa 
unidade é discutida a forma de obter os 
intervalos de confiança, tanto para média 
quanto para proporção. Na Unidade 5 
discute-se, por exemplo, como o resultado 
de uma pesquisa eleitoral é calculado e o 
significado do intervalo definido pela soma 
e subtração de uma “margem de erro”. 
A Unidade 6 é voltada para o planejamento 
de experimentos, quando é apresentado, 
APRESENTAÇÃO 
DA DISCIPLINA
por exemplo, como calcular o tamanho 
de uma amostra. Em alguns livros este 
item é colocado na primeira unidade, o 
que tem certa lógica por tratar da coleta 
de dados, primeira etapa de qualquer 
análise estatística. Entretanto, como são 
necessários conceitos probabilísticos e de 
inferência para entender o planejamento 
de experimentos, optamos por colocar 
essa unidade logo após a discussão sobre 
intervalos de confiança. 
As Unidades 7 e 8 fecham a disciplina, 
apresentado as ferramentas mais úteis 
para que você finalmente se transforme 
num especialista em uma área qualquer e, 
portanto, realmente apto a resolver seus 
problemas. Na Unidade 7 são discutidos 
os métodos para fazer e interpretar testes 
de hipóteses, num contexto uni variado 
e, na Unidade 8, discute-se métodos de 
correlação e regressão, introduzindo a 
análise multivariada. 
Ao longo das oito unidades, procuraremos 
apresentar uma abordagem baseada 
em PPL – Aprendizagem Baseada em 
Problemas, além de usarmos como 
ferramentas computacionais o Microsoft® 
Excel e o software de domínio público, 
EpiInfo. 
Bom trabalho!
Bráulio, Janaína, Octávio e Reinaldo.
UNIDADE 1 003
Introdução à Estatística 004
Conceitos básicos 006
O papel das variáveis numa base de dados: identificação, 
auxiliares, variáveis explicativas e variável reposta (desfecho) 010
Tipos de variáves 013
Uso do excel como um sistema de gerenciamento de dados 
e dos formulários do google docs para coleta de informações 015
Revisão 017
UNIDADE 2 019
Análise exploratória de dados 020
Síntese gráfica de dados 021
Síntese tabulador de dados 038
Síntese numérica de dados 038
Revisão 048
UNIDADE 3 049
Introdução à teoria de probabilidades 050
Probabilidade clássica e probabilidade frequentista 053
Leis básicas de probabilidade 053
União e interseção de eventos 054
Tabelas de contigência 056
Eventos independentes 057
Teorema de Bayes 058
Revisão 061
UNIDADE 4 063
Modelos probabilísticos 064
Varieaveis aleatórias 065
Modelos probabilísticos 071
Distribuição binomial 071
Distribuição Poisson 072
Distribuição normal 072
Revisão 076
UNIDADE 5 077
Estimação de médias e proporções 078
Teorema central do limite 079
Estimação pontual e por intervalos de confiança para uma 
média populacional 082
Estimação pontual e por intervalos de confiança para uma 
proporção populacional 089
Uso do excel no cálculo de intervalos de confiança para 
média e proporção 091
Introdução ao programa Epiinfo 094
Revisão 095
UNIDADE 6 098
Planejamento de experimentos 099
Cálculo de tamanho de amostra baseado em intervalos 
de confiança para uma proporção 100 
Cálculo de tamanho de amostra baseado em intervalos 
de confiançapara uma média 103
Planejamento de experimentos 106
Revisão 113
UNIDADE 7 115
Testes de hipóteses 116
A construção e o significado de uma hipótese estatística 117
Testes para uma amostra 118
Testes para duas ou mais amostras 133
Revisão 137
UNIDADE 8 139
Análise de correlação e regressão 140
Análise de correlação 141
Regressão linear simples 149
Regressão linear múltipla 157
Revisão 160
 
REFERÊNCIAS 117
unidade 1
004
INTRODUÇÃO À 
ESTATÍSTICA
Podemos entender o método estatístico como um processo para obter, apresentar e analisar características ou valores numéricos, identificando padrões que possibilitam a tomada de decisão em situações de incerteza. Pode acreditar, se você aplicar o 
método estatístico para a análise e solução de problemas, muito rapidamente se tornará um 
especialista de qualquer área do conhecimento! Num mundo real, completamente cercado 
de incertezas, ser capaz de identificar padrões de comportamento de pessoas, projetos, 
produtos, serviços, etc pode transformá-lo num “mago”. 
Entretanto, antes de você transformar-se num “mago”, é necessário um entendimento 
adequado do método estatístico, que tem suas “armadilhas”. Costumo dizer que Estatística não 
é Matemática... é muito mais “difícil”. Na verdade, Estatística é uma das áreas da Matemática 
que, por sinal, é a Ciência cuja aplicação no mundo real possibilitou ter uma vida incrivelmente 
confortável. Bom, quando afirmo que “Estatística não é Matemática”, quero dizer que, na 
Matemática que você aprendeu no Ensino Fundamental e Médio, os problemas têm usualmente 
uma única forma de serem resolvidos e devem todos chegar ao mesmo resultado (uma única 
resposta correta). Na Estatística, os problemas têm várias formas de serem resolvidos, podem 
chegar a resultados diferentes e todos estão corretos! Isso ocorre porque a Estatística requer 
a habilidade de considerarmos as coisas dentro de uma perspectiva probabilística, o que vai 
completamente contra a conceituação usual dos problemas em simplesmente certo ou errado. 
Não buscaremos a “verdade absoluta”, mas padrões de comportamento que nos possibilitarão 
tomar decisões com alto grau de confiança. 
ESTATÍSTICA E PROBABILIDADES
unidade 1
005
Para melhor entendermos o que será discutido, o método estatístico será dividido em quatro 
grandes áreas:
1) amostragem e coleta de dados;
2) análise exploratória de dados (estatística descritiva);
3) teoria de probabilidades;
4) decisão na presença de incerteza (inferência). 
A ideia por trás dessa unidade é levar até você o conhecimento fundamental que lhe permitirá 
entender a coleta de dados. Estudaremos conceitos fundamentais de Estatística, questões 
simples, mas essenciais para que tenhamos sucesso nas outras etapas do método estatístico, 
que serão discutidas nas próximas unidades. Estes são os objetivos da Unidade 1:
a) apresentar conceitos básicos de Estatística e Probabilidades;
b) identificar as funções e os principais tipos de dados e de variáveis;
c) identificar e corrigir problemas de dados faltantes (missing); 
d) configurar o Excel como instrumento de coleta de dados;
e) entender o sistema de endereçamento de células do Excel. 
f) construir formulários de coleta de dados no Google Docs;
g) enviar formulários de coleta de dados por meio de mala direta. 
É crucial que você entenda os conceitos que serão discutidos nessa unidade. Sem o 
entendimento do que seja, por exemplo, uma variável, o seu tipo e a sua função na base de 
dados, não há como você ser feliz nas outras etapas do processo! 
ESTATÍSTICA E PROBABILIDADES
unidade 1
006
CONCEITOS 
BÁSICOS
Vamos supor que uma cozinheira esteja 
preparando dois litros de sopa. 
Como ela sabe se a sopa está temperada? 
Os dois litros de sopa formam a população 
e, se a cozinheira comer/provar toda a sopa, 
estará fazendo um censo, o que geraria um 
absurdo do tipo “É, a sopa estava ótima!”. 
A cozinheira sabe que em experimentos 
baseados em ensaios destrutivos, quando 
a própria análise destrói o dado coletado, o 
censo é um absurdo. Na verdade, ela sabe 
que censos, de modo geral, são inviáveis, 
muito caros e/ou muito demorados. Mais 
ainda, ela sabe que se usar uma pequena 
amostra cuidadosamente retirada, chamada 
amostra representativa, poderá tomar 
decisões sobre toda a população envolvida 
no problema com um alto grau de confiança. 
A cozinheira então retira uma pequena 
amostra, uma “pitada” da comida, prova-a 
e generaliza o resultado para toda a sopa. 
Isso é chamado de inferência: tomar 
decisões sobre toda uma população com 
base em informações parciais de uma 
amostra (veja a FIGURA 1). 
Entretanto, a cozinheira sabe que para fazer 
inferências válidas, deve tomar cuidado 
para não trabalhar com amostras viciadas. 
E o que seria isso? 
Se ela retirar uma amostra somente da 
parte de cima da sopa, muito provavelmente 
terá uma amostra viciada, isto é, sem 
representantes de todos os componentes 
da sopa como um todo que, neste caso, é a 
população amostrada. 
E como ela retira uma amostra 
representativa da sua população (“sopa”)? 
Como a cozinheira procede para obter uma 
amostra com “representantes” de cada 
estrato da sopa? 
Simples, ela mistura a sopa fazendo uma 
homogeneização e sorteia uma porção/
pitada que será usada no seu processo 
decisório. Fazendo uma amostragem 
aleatória, a cozinheira sabe que terá 
grande chance de trabalhar com amostras 
representativas. 
Podemos agora resumir esses conceitos.
População: 
a) consiste na totalidade das unidades de 
observação a partir dos quais ou sobre 
os quais deseja tomar uma decisão;
b) conjunto de elementos que formam o 
universo do nosso estudo e que são 
Você sabe o que é população? E 
amostra? Vejamos o exemplo a seguir.
ESTATÍSTICA E PROBABILIDADES
unidade 1
007
passíveis de serem observados;
c) conjunto de indivíduos sobre os quais 
recairão todas as generalizações das 
conclusões obtidas no estudo;
d) usualmente, as unidades de observações 
são pessoas, objetos ou eventos;
e) é o universo a ser amostrado;
f) do ponto de vista matemático, a população 
é definida como um conjunto de 
elementos que possuem pelo menos uma 
característica em comum (SILVA, 2001).
População finita: o número de unidades de 
observação pode ser contado e é limitado. 
Exemplos: 
a) alunos matriculados na disciplina 
Estatística e Probabilidades; 
b) todas as declarações de renda recebidas 
pela Receita Federal;
c) todas as pessoas que compram telefone 
celular num determinado ano;
d) um lote com N produtos. 
População infinita: a quantidade de 
unidades de observação é ilimitada, ou 
a sua composição é tal que as unidades 
da população não podem ser contadas. 
Exemplos:
a) conjunto de medidas de determinado 
comprimento;
b) gases, líquidos e alguns sólidos em 
que as suas unidades não podem ser 
identificadas e contadas. 
Amostra: conjunto de unidades 
selecionadas de uma população, ou seja, 
uma parte dos elementos da população.
Amostra representativa: é uma versão 
em miniatura da população, exatamente 
como ela é, somente menor. A amostra 
representativa segue o modelo populacional, 
tal que suas características importantes 
são distribuídas similarmente entre ambos 
os grupos.
Unidade amostral: é a menor parte distinta 
de uma população, identificável para fins de 
seleção e construção da amostra. 
Amostra aleatória: é aquela obtida por meio 
de um processo de sorteio ou aleatorização.
Amostra viciada: é aquela que representa 
apenas parte da população, não possuindo 
elementos de todos os estratos ou 
subconjuntosque formam a população 
como um todo.
Censo: exame de todas as unidades de 
observação de uma população. Como 
discutido no exemplo da cozinheira, se 
a pesquisa envolve ensaio destrutivo, o 
censo é inviável. Na verdade, somente se a 
ESTATÍSTICA E PROBABILIDADES
unidade 1
008
FIGURA 1 - População alvo, população amostrada e amostra
População alvo do estudo
Amostra
População 
amostrada
Inferência
Fonte: Elaborado pelo autor.
Inferir significa generalizar resultados de uma amostra para toda a população.
Por que usar amostras? Por que não incluir no estudo todos os indivíduos da população? 
A amostragem deve ser usada porque torna o processo eficiente e preciso. E ela 
é eficiente, uma vez que o recurso que poderia ser despendido na coleta de dados 
desnecessários de um grande número de indivíduos pode ser gasto em outra atividade, 
como na monitoração da qualidade da própria coleta dos dados. As amostras, por serem 
menores que a população, podem ser estudadas mais rapidamente que censos e são 
também mais baratas. Além disso, se o processo de amostragem gerar uma amostra 
representativa da população alvo do estudo, os resultados observados poderão ser 
generalizados, sem risco de chegar a uma conclusão diferente daquela que seria obtida 
se trabalhar com toda a população.
população alvo for pequena é razoável observá-la por inteiro, através do censo, pois mesmo 
quando viáveis, censos são caros e demorados. Outros exemplos de ensaios destrutivos, nos 
quais é impossível aplicar censo: pesquisa sobre a força de tração de um lote de barras de 
aço para construção; pesquisa sobre contaminação de soro fisiológico em um lote; testes de 
resistência e durabilidade de um lote de concreto; tempo de pega de um lote de cimento. 
Amostragem: processo pelo qual uma amostra de unidades da população é retirada e 
observada. É a parte mais importante do processo de pesquisa. O principal e fundamental 
objetivo de qualquer plano de amostragem é selecionar a amostra, de tal maneira que ela 
retrate fielmente a população pesquisada. 
ESTATÍSTICA E PROBABILIDADES
unidade 1
009
Vejamos agora alguns aspectos 
relevantes para o campo da amostragem. 
São eles:
• Questões da amostragem: Qual 
o tamanho da amostra? Como 
a amostra será obtida? Como 
garantir que a amostra obtida 
seja representante da população 
objeto do estudo? A questão mais 
importante não é o seu tamanho, 
mas como a amostra será obtida, 
pois a amostragem mal feita 
invalida qualquer pesquisa.
• Tamanho da amostra (n): está 
relacionado ao total de unidades 
amostradas, usadas no processo 
de inferência. Imagino que 
você esteja curioso em relação 
ao tamanho da amostra, mas, 
como citado anteriormente, 
esta não é de longe a questão 
mais importante. Por exemplo, 
o que você que teria mais 
credibilidade numa pesquisa 
sobre a aceitação (ou não) do 
aborto por parte da população 
brasileira: resultados de pesquisa 
realizada no domingo à noite por 
uma emissora de TV, envolvendo 
milhões de pessoas que, após 
assistirem a uma reportagem 
sobre o assunto, responderam 
à pesquisa; ou resultados de 
uma amostra de 2.500 pessoas 
selecionadas aleatoriamente no 
território brasileiro? 
No entanto, essa não é uma questão 
muito importante para obtermos o 
tamanho da amostra adequada para 
uma pesquisa, visto que é necessário 
estudarmos alguns conceitos 
probabilísticos, que serão apresentadas 
somente nas próximas unidades. 
IMPORTANTE
A maioria das pessoas, quando questionadas 
sobre qual o tamanho da amostra necessária 
para uma pesquisa, tem o raciocínio equivocado 
de que o tamanho da amostra (n) tem relação 
direta com o tamanho da população amostrada 
(N). Inevitavelmente, a maioria das pessoas 
afirma erroneamente que uma boa amostra deve 
conter pelo menos, digamos, 30% da população. 
O que a cozinheira diria disto? Para provar dois 
litros de sopa, quanto de amostra ela teria que 
avaliar? Isso mesmo, uma pitada. E para provar 
400 litros de sopa, ela beberia um prato inteiro? 
Não. Ela provará a mesma pitada, pois sabe que, o 
mais importante nesse processo inferencial não é 
o tamanho da amostra, mas provar uma amostra 
não viciada, representativa de toda a sopa. 
Voltando aos processos de amostragem, 
as amostras podem ser classificadas em 
probabilísticas e não probabilísticas:
ESTATÍSTICA E PROBABILIDADES
unidade 1
010
Amostra probabilística: 
- existe uma garantia, em termos de 
probabilidade, de que qualquer membro 
da população possa ser selecionado para 
amostra. 
Amostra não probabilística:
- os elementos da amostra não são 
escolhidos por meio de um sorteio. 
CARVALHO e COUTO (2003) apresentam 
as principais características de tipos de 
amostragem mais comuns, relacionados 
principalmente com pesquisas de survey. 
Outras amostras, por exemplo, amostragem 
de minério, de solo, de gases e de líquidos 
têm procedimentos próprios que buscam, 
em última instância, obter amostras que 
sejam representativas de cada população 
envolvida. Em suma, qualquer que seja o 
esquema de amostragem, probabilístico ou 
não, deve-se sempre garantir que a amostra 
reflita as características da população da 
qual foi retirada. 
LEMBRE
Conforme discutido anteriormente, algumas 
pessoas acreditam que uma amostra 
representativa é necessária coletar dados 
de um percentual mínimo da população, 
digamos, 30% do total de indivíduos. Isso é 
absolutamente falso e, o que é pior, mesmo 
que fossem analisados tal percentual de 
indivíduos da população, não é o tamanho 
que garante representatividade da 
amostra, mas a forma com ela é obtida. É 
a imparcialidade do processo de seleção 
dos seus elementos e a homogeneidade 
da distribuição das características da 
amostra e da população que garantem a 
representatividade da amostra.
O PAPEL DAS VARIÁVEIS 
NUMA BASE DE DADOS: 
IDENTIFICAÇÃO, 
AUXILIARES, 
VARIÁVEIS 
EXPLICATIVAS E 
VARIÁVEL REPOSTA 
(DESFECHO)
O primeiro passo de qualquer processo 
estatístico é a coleta de dados. Portanto, 
tudo o mais será alicerçado sobre o que 
for coletado. Sendo assim, essa fase deve 
ser cuidadosamente planejada, já que da 
qualidade dos dados coletados dependerá 
toda a análise e a tomada de decisão 
subsequente. 
Antes da coleta de um dado, é importante 
entender o conceito de variável que está 
por trás da informação que você procura. 
A variável contém a informação que você 
quer analisar, sob a forma de uma medição 
sobre determinadas características dos 
ESTATÍSTICA E PROBABILIDADES
unidade 1
011
indivíduos estudados e das unidades de 
observação. 
E, por que esse conceito é tão importante? 
Porque, no fim das contas, é a variável 
que é analisada e não a informação que 
ela contém. Por isso, é importante que 
você, antes de sair coletando informações, 
analise o seu questionário de coleta de 
dados, identifique cada variável envolvida 
e responda perguntas, tais como: O que 
exatamente a variável está medindo? Para 
que serve esta variável e, principalmente, 
é possível analisá-la? E com que método 
estatístico?
CONCEITO
Uma variável é a quantificação de uma 
característica de interesse da pesquisa (SOARES 
e SIQUEIRA, 2002). Refere-se ao fenômeno a ser 
pesquisado. É o campo de variação de cada tipo 
de dado a ser pesquisado. Observe que, como o 
próprio nome diz, uma variável deve variar, ou seja, 
se você está coletando dados sobre características 
de alunos da disciplina Cálculo Diferencial, 
podemos pensar em inúmeras variáveis para a 
unidade de observação“aluno”: idade, sexo, curso, 
local do ensino médio, tempo entre final do ensino 
médio e início da graduação, nota final, percentual 
de presença às aulas etc. Entretanto, o tipo de 
disciplina não é uma variável nesse caso, pois ela é 
constante (Cálculo Diferencial). 
O grau de variabilidade de uma variável é 
chave no método estatístico e será foco 
de discussões nas próximas unidades. 
Entretanto, neste momento, é crucial que 
você entenda dois aspectos básicos de 
qualquer variável: o seu tipo e a sua função, 
o papel que ela exerce na base de dados. 
ATENÇÃO
Toda análise que será feita na base de dados 
dependerá do seu entendimento sobre o tipo e a 
função de cada variável coletada! 
Vejamos os tipos de funções de cada 
variável: 
ESTATÍSTICA E PROBABILIDADES
unidade 1
012
QUADRO 1 - O papel de uma variável numa base de dados.
Fonte: Elaborado pelo autor.
Variáveis de 
identificação e auxiliares
Variáveis explicativas
Variável desfecho
Servem para o rastreamento dos indivíduos e das unidades 
amostrais, ou são usadas na definição de outras variáveis. Exemplos 
de variáveis de identificação: CPF, nome, número de matrícula, 
número da amostra etc.
Exemplos de variáveis auxiliares: datas, peso e altura. 
Variáveis de identificação e auxiliares não são analisadas, mas 
fazem parte da base de dados.
São aquelas que, por hipótese, podem influenciar, determinar ou 
afetar a variável resposta ou desfecho da pesquisa. São chamadas 
também de co-variáveis ou variáveis independentes. 
Para cada estudo existem variáveis explicativas próprias, definidas 
por hipóteses da própria pesquisa ou conforme revisão da literatura. 
Em processos químicos, quando se busca entender os fatores que 
afetam o rendimento de uma reação química, são exemplos de 
variáveis explicativas a temperatura, a pressão, o tipo de catalisador 
e a concentração de reagentes. Se alguém pesquisar sobre as 
razões de algumas pessoas serem maiores que outras, as alturas 
do pai e da mãe, a origem étnica, a idade e o sexo são exemplos de 
variáveis explicativas. 
É aquela que queremos explicar, em função de ser influenciada, 
afetada por outros fatores (variáveis explicativas). Também 
denominada de variável dependente ou variável resposta. Sempre 
defina um ou mais desfechos para o estudo, conforme os objetivos 
da sua pesquisa. Por exemplo, numa pesquisa cujo objetivo é 
explicar porque imóveis de uma mesma região têm preços tão 
variados, o preço de venda seria uma variável resposta. Fatores 
como área, número de quatros, número e tipo de vaga de garagem, 
quantidade de suítes, presença de salão de festas ou piscina são 
algumas das possíveis variáveis explicativas para esse problema. 
TIPOS CARACTERÍSTICAS
A função de cada variável na base de dados, assim como o seu tipo, definirá que tipo de análise 
será feita. Não subestime esses conceitos pois, sem eles, não há como entender os métodos 
de análise estatística que serão estuados nas próximas unidades. 
ESTATÍSTICA E PROBABILIDADES
unidade 1
013
TIPOS DE 
VARIÁVEIS
Se considerarmos a maioria absoluta das 
variáveis envolvidas em experimentos 
de pequeno e médio porte nas áreas de 
Ciências Exatas e Engenharia, teremos 
duas situações para o tipo da variável.
I) Variável qualitativa ou categórica: é 
aquela que expressa características ou 
atributos de classificação, distribuídos 
em categorias mutuamente 
exclusivas de objetos ou entidades. 
Categorias mutuamente exclusivas ou 
mutuamente excludentes não podem 
ser observadas simultaneamente 
num mesmo indivíduo. Por exemplo, 
grupo sanguíneo (A, B, AB, O) é uma 
variável categórica mutuamente 
exclusiva: um indivíduo tem somente 
um grupo sanguíneo, não podendo 
ser classificado em mais de uma 
categoria ao mesmo tempo. Variáveis 
qualitativas têm um nível baixo de 
informação, sendo obtidas por um 
critério de classificação. Por exemplo, 
sexo (masculino, feminino), estado civil 
(com companheiro, sem companheiro), 
cor de um produto (branco, verde, 
amarelo, azul), tipo de transmissão 
de um carro (manual, automática), 
conformidade de qualidade de um 
produto (aceito, não aceito), dia 
chuvoso (sim, não), resultado final de 
um aluno numa disciplina (aprovado, 
reprovado) etc. 
A análise de uma variável categórica 
é muito restrita e simples: conta-
se quantas unidades amostrais ou 
resultados observados em cada 
categoria da variável e calcula-se o 
percentual de ocorrência de cada classe 
ou categoria. 
II) Variável quantitativa: é aquela obtida 
por meio de um processo de medição 
ou contagem. Por exemplo: peso, 
altura, dosagem e concentrações 
de produtos químicos e outros 
insumos, temperatura, pressão, 
altitude, umidade, largura, diâmetro, 
comprimento, voltagem, corrente, 
quantidade de chuva (mm), número 
de falhas, número de ligações 
telefônicas, número de mensagens 
eletrônicas, número de faltas de um 
aluno numa disciplina, nota final na 
disciplina, área, preço, etc. 
A variável quantitativa possui o mais 
alto nível de informação, sendo objeto de 
inúmeras técnicas de análise. Para cada 
variável quantitativa podemos calcular 
seu valor médio, mediano, modal, mínimo, 
máximo, seu desvio padrão, coeficiente 
de variação, intervalos específicos de 
variação e outras técnicas analíticas que 
serão descritas na próxima unidade. 
ESTATÍSTICA E PROBABILIDADES
unidade 1
014
As variáveis quantitativas são chamadas 
também de numéricas, mas essa 
nomenclatura pode gerar confusão, 
pois o simples fato de alocar números 
aos resultados de uma variável não a 
torna quantitativa. Por exemplo, se os 
grupos sanguíneos fossem classificados 
em 1, 2, 3 e 4 (ao invés de A, B, AB e 
O), tal codificação não a tornaria uma 
variável quantitativa. Na verdade, para 
que uma variável seja quantitativa, 
deve ser possível aplicarmos operações 
aritméticas aos seus resultados. A 
capacidade de realizarmos, por exemplo, 
somas e subtrações “válidas” aos 
resultados de uma variável é um indicativo 
de que ela é quantitativa. Claro que a 
análise do seu processo de obtenção é 
mais importante: os resultados de uma 
variável quantitativa devem ser obtidos 
por medição ou contagem. Além disso, 
essas variáveis podem ser contínuas, 
quando representadas por números reais, 
ou discretas, quando representadas por 
números inteiros. 
Usualmente, se ela é obtida por 
medição, então é contínua. Caso seja 
obtida por meio de contagem, é uma 
variável discreta. Para efeitos práticos, 
não faremos distinção entre variáveis 
contínuas e discretas, o fundamental é 
entendê-las como quantitativas. 
Algumas variáveis originalmente de 
classificação. As notas obtidas por 
um aluno numa prova são tratadas 
como quantitativas, mesmo que não 
sejam obtidas por meio de um aparelho 
ou dosador. Nesse caso, a nota de 
uma prova é tratada como variável 
quantitativa porque considera-se válido 
aplicar operações aritméticas aos 
seus resultados. Entretanto, será que 
um aluno que obtém 80 pontos numa 
disciplina sabe o dobro que um aluno que 
obteve 40 pontos? Claro que não. Já uma 
pessoa de 100 Kg tem o dobro de peso 
de uma pessoa de 50 Kg. Outro exemplo, 
as temperaturas medidas em Graus 
Celsius são tratadas como variáveis 
quantitativas. Isso quer dizer que um dia 
com 40ºC tem o dobro de calor de um 
dia com 20ºC? Transforme os valores em 
Graus Celsius para Kelvin e compare o 
resultado.
Bom, os conceitos por trás dessa 
discussão envolve o nível de mensuração 
da variável (nominal, ordinal, intervalar 
e de razão) que será tratado aseguir. 
Para efeito prático, consideraremos 
somente duas categorias de variáveis: 
quantitativas versus categóricas. 
Conforme citado anteriormente, esses 
são os tipos de variável coletadas em 
problemas típicos de Ciências Exatas e 
de Engenharia. 
ESTATÍSTICA E PROBABILIDADES
unidade 1
015
USO DO EXCEL COMO 
UM SISTEMA DE 
GERENCIAMENTO DE 
DADOS E DOS 
FORMULÁRIOS 
DO GOOGLE DOCS 
PARA COLETA DE 
INFORMAÇÕES
Duas ferramentas essenciais para coleta 
de dados de experimentos de pequeno 
e médio porte na área de Ciências 
Exatas e Engenharia são o Excel, um dos 
componentes do pacote Office da Microsoft, 
e os Formulários do Google Docs <https://
docs.google.com/forms>. 
O Excel é uma planilha eletrônica com 
origens no Lotus 1-2-3 (GAZZARRRINI, 
2013). Ambas as ferramentas são 
extremamente práticas, de grande utilidade 
e serão discutidas por meio de vídeo aulas. 
Os formulários do Google Docs são ótimos 
para pesquisas envolvendo pessoas que 
têm endereço eletrônico (e-mails). Para 
usá-los você terá que obter uma lista com os 
nomes dos respondentes e os respectivos 
e-mails. Após construir o formulário de 
coleta de dados no Google Docs, você 
poderá enviá-lo usando o mecanismo de 
“mala direta”, da aba “correspondências” 
do Word, que também é parte do pacote 
Office da Microsoft. As respostas enviadas 
pelos respondentes são automaticamente 
armazenadas em planilha eletrônica, 
facilitando a coleta e a análise dos dados. 
É crucial que você domine o Excel como 
instrumento de coleta de dados e entenda 
perfeitamente o papel de cada variável a ser 
coletada. Identificar variáveis explicativas 
e desfecho (s), distinguir entre variável 
quantitativa e categórica é uma questão 
relativamente simples, mas fundamental 
para as discussões que serão feitas nas 
próximas unidades. 
APLICAÇÃO 
PRÁTICA
Considere o artigo “Utilização de efluente de 
frigorífico, tratado com macrófita aquática, 
no cultivo de tilápia do Nilo”, de autoria de 
Adilson Reidel e outros pesquisadores da 
Universidade Estadual do Oeste do Paraná 
(REIDEL et al.; 2005) disponível em: 
<http://www.agriambi.com.br/revista/
suplemento/index_arquivos/PDF/181.pdf>
Neste trabalho, os pesquisadores fizeram 
um experimento em que, resumidamente, 
foram colocadas amostras aleatórias de 
alevinos (“filhotes”) de tilápia em aquários 
com água potável (tratamento A) e em 
tanques com efluente de frigorífico após 
passar num sistema de filtro com aguapé 
ESTATÍSTICA E PROBABILIDADES
unidade 1
016
(tratamento B), avaliando-se comparativamente o desenvolvimento e a sobrevivência dos 
peixes. A pergunta principal da pesquisa era: “É possível cultivar tilápias em efluente de 
frigorífico tratado com aguapé?” 
Nas tabelas 1 e 2 do artigo, são apresentados alguns resultados e um conjunto de variáveis 
envolvidas na pesquisa. 
TABELA 1 – Valores médios dos parâmetros físico-químicos 
determinados durante o cultivo da tilápia do Nilo (O. niloticus)
Fonte: REIDEL et al., 2005.
TABELA 2 – Valores médios de desempenho e sobrevivência de alevinos 
de tilápia do Nilo, cultivados com água potável e efluente tratado
Fonte: REIDEL et al.; 2005.
Esse é um exemplo prático da aplicação de conceitos discutidos na Unidade 1 em experimentos 
de pequeno e médio porte na área de Ciências Exatas e de Engenharia. O experimento é baseado 
em amostragem e analisa o impacto de variáveis explicativas em desfechos diretamente ligados 
ao objetivo do projeto: sobrevivência dos peixes, peso e biomassa final no aquário. 
PARÂMETROS
VARIÁVEIS
TRATAMENTOS
Tratamento A Tratamento B Teste t-Student 
T calculado
A
média médiaO O
B
Temperatura média (ºC) 26,4 = 1,60 26,4 = 1,70
Oxigienio Dissolvido (mg L-1) 7,17 = 0,60 7,18 = 0,90
Condutividade Elétrica (uS cm-1) 227,48 = 36 1779,7 = 68
pH 8,44 = 0,12 7,40 = 0,35
Peso inicial (indivíduo) (g) 0,235 a 43,267 0,232 a 46,113 0
Biomassa inicial (aquário) (g) 1,172 a 2,426 1,160 a 1,901 0,001
Peso final (indivíduo) (g) 1,391 a 42,269 1,054 a 45,582 0,028
Biomassa final (aquário) 5,280 a 38,890 4,300 a 45,721 0,028
Sobrevivência (%) 75 a 80,467 80 a 25,819 0,08
Tratamentos: (A) controle (água potável + ração); (B) efluente tratado (efluente do sistema de 
filtro de aguapé + ração)
Médias seguidas da mesma letra, na linha, não diferem significadamente pelo teste t de Student ao nível 5% de significância
ESTATÍSTICA E PROBABILIDADES
unidade 1
017
Nesse trabalho são usadas três variáveis 
resposta, uma categórica (“O peixe 
sobreviveu?” “sim ou não”) e dois desfechos 
quantitativos (peso final e biomassa final, 
medidos em gramas). Dentre as variáveis 
explicativas envolvidas, a mais importante, 
que está diretamente ligada ao objetivo da 
pesquisa é o tipo de tratamento (A versus 
B), uma variável categórica dicotômica. 
Muitas pessoas têm dificuldade em 
identificar essa variável explicativa, apesar 
dela ser a mais importante na pesquisa. 
As outras variáveis explicativas são todas 
quantitativas e, como tal, foram obtidas 
por meio de um processo de medição, 
contagem ou dosagem: temperatura (ºC), 
oxigênio Dissolvido (mg L-1), condutividade 
Elétrica (μS cm-1), pH, peso inicial (g) e 
biomassa inicial (g). 
Nas tabelas apresentadas aparecem 
métricas (média, desvio padrão e valor de t 
de student) que são usadas na análise e na 
conclusão do projeto. Fique tranquilo, esses 
conceitos serão tratados nas próximas 
unidades! 
De qualquer forma, a conclusão da pesquisa 
para a pergunta “É possível cultivar tilápias 
em efluente de frigorífico tratado com 
aguapé?”, é: “Sim, é possível cultivar tilápias 
em efluente de frigorífico tratado com 
aguapé. Os dados não mostraram diferença 
significativa entre os dois tratamentos, 
tanto em relação ao desenvolvimento 
quanto à sobrevivência dos peixes”. 
O entendimento completo das razões 
para chegar a essa conclusão será obtido 
nas próximas unidades. Entretanto, neste 
momento, é fundamental que você já 
entenda conceitos referentes ao processo 
de amostragem/coleta de dados e, 
principalmente, que consiga diferenciar 
os tipos e as funções das variáveis numa 
pesquisa. 
REVISÃO
Vimos nessa unidade alguns dos principais 
tópicos introdutórios do campo da 
Estatística. Em resumo, estudamos sobre:
População, amostra, censo e amostragem: 
- Censo de toda a população não é viável, 
devido aos altos custos e/ou quando a 
pesquisa envolve ensaios destrutivos.
- Uma pequena, mas cuidadosamente 
escolhida amostra pode ser usada para 
representar a população.
- Os resultados observados numa amostra 
representativa poderão ser generalizados, 
sem risco de chegar a uma conclusão 
diferente daquela que seria obtida no caso 
de trabalhar com toda a população.
- A questão mais importante numa 
amostragem não é o tamanho da amostra, 
ESTATÍSTICA E PROBABILIDADES
unidade 1
018
mas como a amostra será obtida, pois o 
delineamento amostral mal feito invalida 
qualquer pesquisa.
Tipos de variáveis:
- Variável qualitativa ou categórica: é 
aquela que expressa características ou 
atributos de classificação, distribuídos 
em categorias mutuamente exclusivas de 
objetos ou entidades.
- Variável quantitativa: é aquela obtida 
por meio de um processo de medição ou 
contagem.
Função das variáveis:
- Variáveis de identificação e auxiliares: 
servem para o rastreamento dos 
indivíduos e das unidades amostrais 
ou são usadas na definição de outras 
variáveis.
- Variáveis explicativas: são aquelas 
que, por hipótese, podem influenciar,determinar ou afetar a variável resposta 
ou desfecho da pesquisa.
- Variável desfecho: é aquela que queremos 
explicar, em função de ser influenciada e/
ou afetada por outros fatores (variáveis 
explicativas). Também denominada de 
variável dependente ou variável resposta. 
Aconselha-se sempre definir um ou mais 
desfechos para o estudo, conforme os 
objetivos da sua pesquisa.
Ainda compreendemos que alguns sistemas 
computacionais são ferramentas essenciais 
para coleta de dados de experimentos de 
pequeno e médio porte na área de Ciências 
Exatas e da Engenharia. São eles: o Excel, 
um dos componentes do pacote Office da 
Microsoft, e os Formulários do Google Docs 
<https://docs.google.com/forms>.
PARA SABER 
MAIS
Para aprofundar sobre as questões discutidas 
nessa unidade, leia o Capítulo 1 do livro texto: 
LEVINE, David M. et al. Estatística: teoria 
e aplicações usando Microsoft Excel em 
português, 3º edição ou superior: “Introdução e 
Coleta de Dados”, assim como o suplemento do 
capítulo 1 “Introdução à Utilização do Microsoft 
Excel”. w
2UNIDADE
unidade 2
020
ANÁLISE EXPLORATÓRIA 
DE DADOS
Conforme citado na Unidade 1, se você usar técnicas de análise estatística, você poderá rapidamente se transformar num especialista em qualquer assunto, certo? Pois bem, como exemplo, que tal se tornar um especialista em reprovação em disciplinas básicas 
de cursos de Engenharia e Tecnologia? E você não precisará “repetir” nenhuma dessas disciplinas 
para ser um especialista em reprovação...! Esse é um problema bem conhecido, mas suas causas 
e fatores associados não! Uma hipótese é que durante o ensino fundamental e médio muitos 
alunos não conseguem adquirir habilidade em resolver problemas matemáticos. Essa deficiência 
então culmina nos cursos de Engenharia com altos índices de reprovação no ciclo básico. 
Disciplinas como Cálculo Diferencial, Geometria Analítica e Álgebra Linear (GAAL), Química Geral 
e Algoritmos (AEDS) podem ser verdadeiros “infernos” para alunos da área de Exatas. 
Considerando o problema geral “desempenho acadêmico em disciplinas de ciclo básico de 
cursos de Engenharia”, que tal analisar dados de amostra de alunos, buscando identificar 
as características e possíveis fatores associados aos desfechos “conceito” (aprovado ou 
reprovado), “nota histórico” (0 a 100 pontos) e “abandonou a disciplina?” (sim ou não)?
Para resolver o problema acima, qual a primeira providência? Muitos podem pensar: “Preciso 
estudar melhor o assunto, fazer uma revisão da literatura sobre o problema. Em seguida, 
preciso planejar e executar a coleta dos dados”. Essa primeira etapa já foi feita e faz parte de 
projeto de iniciação científica do Centro Universitário de Belo Horizonte – UniBH, cujo título da 
pesquisa é “Fatores associados ao desempenho acadêmico de alunos em disciplinas do ciclo 
básico de cursos de Engenharia”. A pesquisa foi aprovada pelo Comitê de Ética em Pesquisa 
(CEP) do UniBH com o nº 920.308, em 17/12/2014 e os dados estão disponíveis para download 
unidade 2
021
ESTATÍSTICA E PROBABILIDADES
no link: https://www.dropbox.com/sh/6bvsls6mi6kpqyv/AABy88F2iVFPyEc2ArIIZ2GNa?dl=0. 
Agora que você já tem acesso aos dados, qual o próximo passo para resolvermos o problema 
de reprovação e abandono em Cálculo, GAAL, Química Geral e AEDS? A primeira etapa de 
qualquer análise estatística, ou melhor, a fase preliminar da busca das informações agregadas 
a dados já coletados, é a análise exploratória dos mesmos. Como o próprio nome diz, a 
análise exploratória dos dados é o conjunto de ferramentas da Estatística Descritiva que têm 
como objetivo fazer uma síntese dos dados, organizando-os sob a forma de tabelas, gráficos 
e números. Portanto, para entendermos e resolvermos nosso problema de reprovação, 
precisamos estudar as ferramentas da Estatística Descritiva:
a) Síntese tabular: Resumo da análise por meio de tabelas;
b) Síntese numérica: Medidas de posição (média e mediana) e medidas de variabilidade (soma 
dos quadrados dos resíduos, variância, desvio padrão, coeficiente de variação);
c) Síntese gráfica: Gráficos de pizza, barra, coluna, linha, séries históricas, histograma, gráfico 
de Pareto, gráfico misto, de coluna e de linha, diagrama de dispersão e box-plot. 
O objetivo desta unidade é promover o conhecimento fundamental que lhe permitirá entender 
dados coletados, transformando dados brutos em informações úteis!
SÍNTESE 
GRÁFICA DE DADOS
Uma figura vale mais que mil palavras! Isso é verdade, entretanto um gráfico vale mais que mil 
palavras se e somente se ele for desenhado de forma clara, correta e concisa. Sempre desenhe 
gráficos a partir de seus dados, mas tente fazê-los de tal forma que a frase “basta olhar 
para entender” seja válida. Os gráficos mais úteis para análise de dados de experimentos de 
pequeno e médio porte na área de Ciências Exatas e Engenharia são: gráficos de pizza, barras, 
colunas, linha, séries históricas, histograma, gráfico de Pareto, gráfico misto, de coluna e de 
linha, diagrama de dispersão e box-plot (tabela 1). De todos esses, somente vejo sentido em 
construi-los “à mão” histogramas e diagramas de dispersão. Entretanto, na prática devemos 
construir gráficos usando ferramentas computacionais como o Excel. 
unidade 2
022
ESTATÍSTICA E PROBABILIDADES
TABELA 3 - Gráficos mais úteis para análise de dados de experimentos 
de pequeno e médio porte na área de Ciências Exatas e Engenharia.
Fonte: Elaborado pelo autor.
Pizza ou setor
Colunas (verticais)
Barras (horizontais)
Histograma
 
Gráficos de linha
 
Séries históricas
 
Gráfico de Pareto
Gráfico misto, de 
coluna e linhas
Diagrama de 
dispersão 
Box-plot
Uma
Uma
Uma
Uma
 
Duas
 
Duas
 
Uma
Duas
 
Duas
 
Uma ou mais
Categórica
Categórica
Categórica
Quantitativa, mas categorizada numa 
tabela de distribuição de frequências
Quantitativa no eixo vertical, e 
categórica no eixo horizontal
Quantitativa no eixo vertical, e 
o “tempo” no eixo horizontal
Categórica
Quantitativa no eixo vertical, e 
o “tempo” no eixo horizontal
Variável explicativa quantitativa no eixo horizontal, 
e desfecho quantitativo no eixo vertical
Quantitativa
TIPO DE GRÁFICO NÚMERO DE VARIÁVEIS 
ENVOLVIDAS
TIPO DE VARIÁVEL ANALISADA
Como fazer os gráficos? Siga regras e comentários abaixo e você terá sucesso ao desenhar 
gráficos:
 1. Um gráfico deve conter um título, entretanto este não deve ser colocado no próprio 
gráfico (como o Excel insiste em fazer...). Quando desenhamos um gráfico usando o 
Excel, por exemplo, este será exportado para algum documento do Word ou para o 
PowerPoint, ou para outros editores de texto e apresentadores de slides. O título do 
gráfico será então colocado no slide ou na descrição da figura no editor de textos, 
sendo desnecessário e errado colocá-lo no meio do próprio gráfico. Mesmo em 
casos excepcionais, quando o gráfico não é exportado para nenhum outro aplicativo, 
sendo impresso diretamente do Excel, o título não deve ser colocado no meio da 
figura. O título deve ser inserido no cabeçalho da planilha que contém o gráfico.
 2. Ao escrever um relatório, comece pelas figuras. É impressionante, mas as pessoas leem 
artigos científicos, relatórios técnicos, jornais e revistas de “fofoca” da mesma forma: 
começamos pelas figuras! Por isso, o título de gráficos e tabelas deve ser o mais claro 
unidade 2
023
ESTATÍSTICA E PROBABILIDADES
possível: toda informação necessária para o entendimento da figura deve estar no seu 
título. Essa é uma tendência das revistas científicas (Nature, Science, por exemplo) e 
tem um efeito colateral: o título da figura fica muitolongo. Isso não é exatamente uma 
regra, mas recomendação. Se você quer que seu relatório seja lido, invista nos títulos de 
figuras e tabelas e sempre coloque respostas claras para pelo menos quatro perguntas: 
O que? Quem? Quando? Onde? A interpretação das informações no gráfico também 
deve ser colocada como subtítulo da figura. Se necessário, coloque notas explicativas, 
usando siglas somente para coisas realmente conhecidas de quem lerá o seu texto (seu 
chefe ou o chefe do seu chefe...). Veja um exemplo de gráfico de pizza na figura abaixo.
A maioria absoluta (58%) dos 760 artigos publicados nos volumes 298 a 301 da NEJM utilizou 
somente técnicas de Estatística Descritiva na análise dos dados. Praticamente um quarto 
dos artigos usou teste t de student e 15% aplicou teste de qui-quadrado nas tabelas de 
contingência, ferramentas que serão discutidas na Unidade 7 deste livro. 
 
Fonte: BAILAR & MOSTELLER,1992.
FIGURA 2 – Principais ferramentas estatísticas encontradas em 
artigos publicados no New England Journal of Medicine (NEJM).
 3. Caso o gráfico tenha eixos (horizontal X e vertical Y), estes devem estar rotulados para 
entendimento. Os rótulos dos eixos devem conter as respectivas unidades de medida 
envolvidas (g, R$, kg, m/s, etc.). Esse é mais um ponto de erro do Excel! Além de não colocar 
os rótulos nos eixos, o Excel coloca o título no meio da figura e uma legenda que não tem a 
menor utilidade. Na verdade, as legendas somente devem ser colocadas se existirem mais de 
um grupo de dados na figura. Veja um exemplo correto de gráfico de barras na figura abaixo. 
unidade 2
024
ESTATÍSTICA E PROBABILIDADES
FIGURA 3 – Risco de reprovação em disciplinas de cursos de Engenharia 
e Tecnologia do Centro Universitário de Belo Horizonte – UniBH.
Análise de 21 disciplinas avaliadas em sete semestres (2011/1 a 2014/1), considerando amostra de 78.399 
alunos. Quatro disciplinas têm mais de 40% de seus alunos reprovados: Cálculo Diferencial, Geometria Analítica e 
Álgebra Linear, Cálculo de Várias Variáveis e Algoritmo e Estruturas de Dados. 
 
Fonte: Elaborado pelo autor.
 4. Não existe regra fixa para a escolha da escala do gráfico. Qualquer escala é boa 
desde que os valores no gráfico não fiquem muito espalhados nem muito juntos 
numa única região da figura.
 5. Sombreamento, efeitos 3D e pequenas figuras relacionadas com o tipo de dado 
usado no gráfico, colocados para dar vida à figura: na maioria das vezes esses 
efeitos são inúteis, podendo até mesmo distorcer o gráfico.
 6. A maioria dos gráficos apresenta o valor zero como ponto de início dos eixos, mas 
isso não é necessário se o ponto de início da escala é devidamente marcado na 
figura. Na verdade, as pessoas usualmente assumem que o valor zero está na base do 
gráfico. Para os gráficos de linha isso não é problemático, entretanto, quando se tratar 
de gráficos de colunas ou de barras, o valor zero deve obrigatoriamente estar na base 
da coluna. Caso isso não seja feito, ocorre uma distorção do gráfico levando a uma 
interpretação errada dos dados. Veja o exemplo abaixo. O primeiro gráfico, como não 
começa no valor zero, está errado, ele “ilude o leitor”: a auditoria foi um sucesso?! 
unidade 2
025
ESTATÍSTICA E PROBABILIDADES
FIGURA 4 – Exemplos de gráfico de colunas: o valor 
zero deve obrigatoriamente ser incluído na figura.
Fonte: Elaborado pelo autor.
 7. Mais de uma curva ou linha pode ser desenhada em um único gráfico com o objetivo 
de comparação. Entretanto, deve-se diferenciar claramente os dados de cada linha para 
que não haja erro de interpretação (use cores diferentes ou linhas pontilhadas ou mesmo 
símbolos). Linhas de grade, usualmente colocadas no gráfico para auxiliar a leitura das 
escalas, devem ser discretas (na cor cinza, por exemplo) ou serem eliminadas.
FIGURA 5- Exemplo de gráfico com legenda identificando diferentes dados.
Fonte: Elaborado pelo autor.
unidade 2
026
ESTATÍSTICA E PROBABILIDADES
 8. Os gráficos devem ser desenhados no formato de paisagem, com a altura tendo 
aproximadamente ¾ da sua largura. Caso isso não seja feito, poderá haver distorção 
da figura e da própria informação, que fica comprometida: o primeiro gráfico está 
correto, mas os outros estão na categoria “como mentir com estatística”...
FIGURA 6 – Formato dos gráficos: a figura deve ser desenhada em 
formato de paisagem, com a altura tendo aproximadamente 75% da largura.
Fonte: Elaborado pelo autor.
FIGURA 7 – Gráfico distorcido: desenhando a figura com a altura muito pequena, em relação 
à largura, a informação é falseada e se tem a sensação de estabilidade dos dados.
Fonte: Elaborado pelo autor.
unidade 2
027
ESTATÍSTICA E PROBABILIDADES
FIGURA 8 - Gráfico distorcido: desenhando 
a figura com a altura muito grande, 
em relação à largura, a informação é 
falseada e se tem a sensação de redução 
dos dados ao longo do tempo
Fonte: Elaborado pelo autor.
 9. Gráficos de pizza, “o queridinho”: 
Apesar de muito “engraçadinhos”, 
estes gráficos são muitos confusos. 
Evite o seu uso, substituindo por 
gráficos de barra ou de colunas. 
É aceitável construi-los somente 
quando são poucos setores bem 
definidos (até cinco pedaços). Evitar 
gráficos de pizza em 3D, com vários 
pedaços. Construi-los como na 
figura 2. 
 10. Diagrama de dispersão: Ferramenta 
que nos permite avaliar o efeito de 
uma variável explicativa quantitativa 
sobre um desfecho. Serve tanto para 
visualizarmos funções matemáticas 
teóricas (figura 9) quanto funções 
de relacionamentos empíricos já 
conhecidos (figura 10), mas a sua 
grande utilidade é quando tentamos 
estabelecer a associação entre 
duas variáveis quantitativas (figura 
11). A figura 9 é um diagrama de 
dispersão mostrando uma relação 
completamente teórica entre duas 
variáveis (x e y). Como é uma relação 
exata, somente é desenhada a linha 
que liga os pontos do gráfico. Na 
figura 10 é desenhada uma relação 
empírica, no caso a lei de Abrams, 
que relaciona a resistência do 
concreto à compressão (R) com o 
fator água/cimento (fx) da seguinte 
forma: R = α/βfx. Nessa figura, α e 
β foram definidos como 100 e 10 
respectivamente, de tal forma que 
a equação ficou R = 100/10fx, fx 
variando de 0 a 3. Já a figura 11 
mostra o uso “nobre” dos diagramas 
de dispersão, quando tentamos 
explorar, criar e propor uma nova 
relação empírica entre duas variáveis 
quantitativas. Nesse exemplo, 
ao invés de aplicarmos a relação 
empírica de Abrams, usamos dados 
reais de fator fx de água/cimento 
e a resistência medida em 28 dias 
de uma amostra de concretos 
(desfecho). Ao inserirmos uma 
linha de tendência linear, estamos 
unidade 2
028
ESTATÍSTICA E PROBABILIDADES
FIGURA 9 – Diagrama de dispersão sem os marcadores e com linhas contínuas mostrando a 
relação de x e sua função f(x) = 2x3 – cos(x+1) – 3. Nesse caso o diagrama está mostrando 
uma relação teórica exata, tal como aquela encontrada nas disciplinas de Cálculo Diferencial.
Fonte: Elaborado pelo autor.
Fonte: Elaborado pelo autor.
FIGURA 10 – Diagrama de dispersão com marcadores e linhas contínuas mostrando 
a relação empírica da lei de Abrams que relaciona a resistência à compressão 
de concretos, medida em megapascal (MPa), e o fator água/cimento (fx), 
determinado pela razão do peso de água pelo peso em cimento do concreto.
sugerindo que, na faixa de variação medida de fx (entre 0,2 e 1,0), a resistência à compressão 
do concreto se relaciona com fx por meio de uma equação de reta. 
unidade 2
029
ESTATÍSTICA E PROBABILIDADES
FIGURA 11 – Diagrama de dispersão somente com os marcadores e sem 
linhas contínuas mostrando umapossível relação linear entre resistência à 
compressão de concretos em 28 dias (MPa) e o fator água/cimento (fx).
Fonte: Elaborado pelo autor baseado nos dados em DAFICO, Dario de Araújo. Método Simples para Explicar a 
Resistência à Compressão do Concreto de Alto Desempenho. Disponível em: http://www2.ucg.br/nupenge/pdf/
Dario.pdf. Acesso em 14 maio 2015.
A figura 12 mostra possíveis padrões de relacionamento entre uma variável explicativa (X) 
e o desfecho (Y), ambos quantitativos. Sempre que construir um diagrama de dispersão, 
você deve interpretar o gráfico gerado em um dos quatro padrões mostrados na figura 12. A) 
Correlação positiva: Em média, quando X aumenta, Y também aumenta, numa tendência em 
“linha reta”. Por exemplo, quanto maior a área de um imóvel, maior é o seu preço de venda. B) 
Correlação negativa: Em média, quando X aumenta, Y tende a diminuir. Por exemplo, quanto 
mais velho um imóvel, menor é o seu preço de venda. C) Associação curvilinear: Em média, 
quando X aumenta, Y também aumenta, mas não numa tendência em “linha reta”, e sim 
“em curva”. Isso pode ocorrer quando, por exemplo, a relação entre a variável resposta (Y) 
e a explicativa (X) for uma equação de segundo grau (parábola) ou cúbica, de grau três. D) 
Sem associação: Também é um padrão importante, pois indica que não há relação entre as 
duas variáveis associadas, que a variável explicativa, na verdade, não explica o desfecho! Por 
exemplo, frequentemente se observa que a idade do aluno não está associada à sua nota na 
maioria das disciplinas que ele cursa. 
unidade 2
030
ESTATÍSTICA E PROBABILIDADES
FIGURA 12 – Padrões de relacionamentos entre variáveis avaliadas 
por meio de diagrama de dispersão: correlação positiva (A), correlação 
negativa (B), associação curvilinear (C) e ausência de associação (D).
Fonte: Elaborado pelo autor.
11. Histograma: A ideia deste gráfico é categorizar uma variável quantitativa, dividindo-a 
em intervalos ou classes, contar quantos valores se encaixam em cada intervalo e 
construir um gráfico de colunas com o resultado. Ao se interpretar um histograma, 
deve-se tentar responder às seguintes questões: Qual é a forma da distribuição dos 
dados? Existe um ponto central bem definido? Como é a amplitude de variação dos 
dados? Existe apenas um pico isolado? A distribuição é simétrica? Os exemplos abaixo 
podem auxiliá-lo na interpretação de um histograma. Procure descobrir com qual 
destes oito tipos o seu histograma se parece.
Exemplo 1 - Histograma simétrico: A frequência de dados é mais alta no centro e decresce 
gradualmente à esquerda e à direita de forma aproximadamente simétrica, em forma de sino. 
unidade 2
031
ESTATÍSTICA E PROBABILIDADES
Fonte: Elaborado pelo autor
Fonte: Elaborado pelo autor
Fonte: Elaborado pelo autor
Exemplo 2 - Histograma fortemente 
assimétrico: A frequência dos dados 
decresce rapidamente num dos lados e 
muito lentamente no outro, provocando uma 
assimetria na distribuição dos valores. A 
distribuição dos salários numa empresa é um 
exemplo comum de histograma assimétrico: 
muitas pessoas ganham pouco e poucas 
pessoas ganham muito (a). A situação (b), 
apesar de mais rara, também pode acontecer. 
Exemplo 3 - Histograma tipo despenhadeiro: 
O histograma termina abruptamente em 
um ou nos dois lados, dando a impressão 
de que faltam dados. Na verdade, essa 
possivelmente deve ser a explicação para 
histogramas com esse formato: os dados 
muito pequenos e/ou muito grandes foram 
eliminados da amostra. 
Exemplo 4 - Histograma com dois picos: 
Ocorrem picos na distribuição e a frequência 
é baixa entre os picos. Possivelmente, os 
dados se referem a uma mistura de valores 
de diferentes populações, devendo ser 
avaliados com cuidado. Se houve mistura 
dos dados, é melhor separá-los. 
Fonte: Elaborado pelo autor.
unidade 2
032
ESTATÍSTICA E PROBABILIDADES
Exemplo 5 - Histograma tipo platô: As 
classes de valores centrais apresentam 
aproximadamente a mesma frequência. 
Essa situação também sugere mistura de 
valores de diferentes populações. 
Fonte: Elaborado pelo autor.
Fonte: Elaborado pelo autor.
Fonte: Elaborado pelo autor.
Exemplo 6 – Histograma com uma pequena 
ilha isolada: Alguns valores isolados têm 
frequência elevada, formando uma espécie 
de ilha. Também pode ter ocorrido uma 
mistura de dados. 
Exemplo 7 – Histograma tipo serrote: 
As frequências de valores se alternam 
formando vários dentes. Pode indicar algum 
problema na obtenção (leitura) dos dados. 
Vamos usar como exemplo de dados para 
a construção de um histograma notas de 
amostra de alunos em uma prova de Cálculo 
Diferencial (n=120):
unidade 2
033
ESTATÍSTICA E PROBABILIDADES
FIGURA 13 – Dados brutos de notas de amostra de alunos em prova de 
Cálculo Diferencial. Centro Universitário de Belo Horizonte – UniBH, 2014/2.
Fonte: Elaborado pelo autor.
0 0 0 1 5 5 6 9 13 17 18 21
0 0 0 1 5 5 6 10 13 17 18 21
0 0 0 1 5 5 6 11 14 17 20 22
0 0 0 2 5 5 9 11 14 17 20 22
0 0 0 2 5 5 9 12 14 17 20 24
0 0 0 3 5 5 9 12 14 17 20 24
0 0 0 3 5 5 9 13 15 17 20 25
0 0 0 5 5 6 9 13 15 17 20 25
0 0 0 5 5 6 9 13 17 18 21 25
0 0 1 5 5 6 9 13 17 18 21 25
Passo 1 - Determinar valores mínimo, máximo e amplitude (R):
 mín = 0; máx = 25; R = máx – mín = 25 – 0 = 25
Passo 2 – Determinar quantas classes ou intervalos (k) serão usados para dividir os dados. O 
número de classes deve ser algo entre 5 a 20 subintervalos. Regra empírica: k ≈ √n e 
5 ≤ k ≤ 20 . No exemplo, n ≈ 120; k ≈ √120 ≈ 10.
Passo 3 – Determinar o tamanho de cada subintervalo (h). h ≈ 
R
 . No exemplo, h ≈ 
R 
≈ 
25
. ≈ 2,5 
Ou seja, no nosso exemplo, temos 120 valores que variam de 0 a 25 e vamos dividi-los em 10 
classes de tamanho 2,5.
Passo 4 - Contar a frequência de valores em cada classe. No exemplo, começando em zero 
(valor mínimo), teremos uma tabela de distribuição de frequências, base para construção do 
histograma, de 2,5 a 2,5 pontos cada subintervalo. Vamos verificar na base de dados quantos 
valores se encaixam em cada classe. 
Observe na figura 14 o símbolo --|, ele indica que o valor à direita faz parte do intervalo, 
mas o valor à sua esquerda não! Ou seja, o intervalo 2,5 --| 5,0 implica em valores acima 
de 2,5 e menores ou iguais a 5,0. Por exemplo, alunos que tiraram 5,0 são contabilizados 
somente no segundo intervalo (2,5 --| 5,0), assim como aqueles que tiraram 7,5 pontos 
k k 10
unidade 2
034
ESTATÍSTICA E PROBABILIDADES
entram somente na terceira classe (5,0 --| 7,5). Veja também o símbolo |--|, ele só pode 
ser usado no primeiro subintervalo e possibilita que incluamos o valor 0,0 na primeira 
classe (0,0 |--| 2,5). Se não fizéssemos isso, não teríamos onde colocar a frequência de 
valores iguais a zero. Eventualmente você poderá se deparar com tabelas construídas 
com o símbolo “invertido”, |--, que indica valores maiores ou iguais ao número colocado à 
esquerda e menores que o valor colocado à direita. Por exemplo, 30 |-- 40 implica valores 
maiores ou iguais a 30 e menores que 40. Usei a notação --| que é o padrão usado pelo 
Excel na construção de histogramas (figura 14). 
Lembre-se de que o total, a soma da coluna “Frequência”, deve ser exatamente o tamanho 
da amostra (n). Além da coluna de frequência absoluta, podemos calcular a frequência 
relativa ou percentual de cada classe (em relação ao total de valores) e a frequência 
acumulada ou percentual acumulado, útil para a construção de gráficos de Pareto (que 
será explicado mais à frente). 
FIGURA 14 – Tabela de distribuição de frequências das notas de amostra de alunos em 
prova de Cálculo Diferencial. Centro Universitáriode Belo Horizonte – UniBH, 2014/2.
Fonte: Elaborado pelo autor.
0,0 |--| 2,5 35 29% 29%
2,5 --| 5,0 22 18% 48%
5,0 --| 7,5 6 5% 53%
7,7 --| 10,0 9 8% 60%
10,0 --| 12,5 4 3% 63%
12,5 --| 15,0 12 10% 73%
15,0 --| 17,5 10 8% 82%
17,5 --| 20,0 10 8% 90%
20,0 --| 22,5 6 5% 95%
22,5 --| 25,0 6 5% 100%
Total 120 100%
Uma
Uma
Uma
Uma
 
Duas
 
Duas
 
Uma
Duas
 
Duas
 
Uma ou mais
 NOTA FREQUÊNCIA PERCENTUAL PERCENTUAL ACUMULADO
unidade 2
035
ESTATÍSTICA E PROBABILIDADES
FIGURA 15 – Histograma com a distribuição das notas na prova de Cálculo 
Diferencial: os dados mostram um padrão de distribuição assimétrico, 
semelhante àquele apresentado no histograma do exemplo 2.
 Fonte: Elaborado pelo autor.
 12. Gráfico de Pareto: Esta ferramenta é ótima para ajudar na definição de prioridades, 
quando precisamos fazer um plano de ação para melhoria de qualidade de um 
serviço ou produto. Por exemplo, se um determinado problema ou defeito pode 
ocorrer de diversas formas, como escolher os tipos de defeito prioritários para serem 
corrigidos? A ideia do “efeito Pareto” é que 80% dos problemas estão associados 
a 20% dos problemas. Nem sempre esse efeito ocorre, mas esse é o objetivo do 
gráfico de Pareto: verificar quais itens ou problemas ocorrem com maior frequência 
num determinado cenário. Por exemplo, numa amostra de 400 defeitos de fabricação 
de uma peça mecânica, foram observados 16 tipos de defeito: rebarbas, diâmetro 
menor, diâmetro maior, sem usinagem, altura menor, trincas, altura maior, borda 
muito fina, enviesado, base maior que o topo, borda muito grossa, cor muito escura, 
estrutura pouco flexível, base menor que o topo, cor muito clara e estrutura frágil. Ao 
se construir um gráfico de Pareto com os dados (figura 16), observa-se que a maioria 
absoluta (66%) dos defeitos se refere somente a três tipos: rebarbas (32%), diâmetro 
menor (21%) e diâmetro maior (13%). Ou seja, ao fazer um plano de ação para corrigir 
possíveis defeitos de fabricação dessa peça, “ignore” 13 defeitos e priorize suas 
ações em apenas esses três. Fazendo isso, 66% do problema estará corrigido!
unidade 2
036
ESTATÍSTICA E PROBABILIDADES
FIGURA 16 – Gráfico de Pareto com a frequência de defeitos de fabricação 
de uma peça mecânica: 66% dos defeitos são somente de três categorias prioritárias 
para um plano de ação para melhorar a qualidade do processo de fabricação 
(rebarbas, diâmetro menor e diâmetro maior).
Fonte: Elaborado pelo autor.
 13. Box-plot: Este gráfico, também conhecido como diagrama em caixa ou “caixa e 
bigode”, informa sobre a distribuição dos dados. Somente se aplica a variáveis 
quantitativas (figura 17), informando o menor valor (pequena linha horizontal 
inferior) e valor máximo (pequena linha horizontal superior). A distância entre o 
valor mínimo e a aresta inferior da caixa cinza é a amplitude em que ocorrem os 
25% dos valores mais baixos. Este é conhecido como 1º quartil, sendo delimitado 
pelo percentil 25 dos dados. As duas caixas, cinza e vermelha, mostram onde 
estão 50% dos dados. A distância entre a aresta superior da caixa vermelha e a 
pequena linha horizontal superior, que equivale ao máximo dos dados, refere-se ao 
intervalo em que ocorrem 25% dos maiores valores da variável. A linha separando 
as duas caixas representa a mediana, que expressa o valor do meio se todos os 
dados fossem colocados em ordem. Assim como os histogramas, o box-plot nos 
informa sobre a maneira de distribuição dos dados, tendo a vantagem de permitir 
a visualização de grupos de dados (figura 18). Nessa figura, é apresentado um 
resumo comparativo da taxa de aprovação de oito disciplinas de ciclo básico de 
cursos de Engenharia. 
unidade 2
037
ESTATÍSTICA E PROBABILIDADES
FIGURA 17 – Exemplo de box-plot para uma variável quantitativa genérica: quanto maior o 
tamanho das duas caixas, vermelho e cinza, maior a variabilidade e dispersão dos dados.
Fonte: Elaborado pelo autor.
Fonte: Elaborado pelo autor.
FIGURA 18 – Box-plot com as taxas de aprovação de oito disciplinas de ciclo básico de 
cursos de Engenharia: Desenho e Estatística se destacam das outras disciplinas, que têm 
taxas de aprovação bem menores e mais heterogêneas. Cálculo Integral é a disciplina com 
menor taxa de aprovação e maior variabilidade dos dados.
unidade 2
038
ESTATÍSTICA E PROBABILIDADES
SÍNTESE TABULAR 
DE DADOS
Na análise exploratória de dados, em última instância, todos os resultados são apresentados 
ou na forma de figuras ou de tabelas. Assim como nos gráficos, invista no título da tabela e 
sempre coloque respostas claras para pelo menos quatro perguntas: O que? Quem? Quando? 
Onde? Sugerimos que a interpretação das informações na tabela também seja colocada no 
próprio título. Se necessário, coloque notas explicativas, usando siglas somente para coisas 
realmente conhecidas. A tabela 4 é um exemplo de formato de tabelas, apresentando modelo 
para síntese de variáveis categóricas de uma base de dados. 
TABELA 4 – Análise exploratória de variáveis categóricas: a síntese de variáveis 
categóricas, sejam elas explicativas ou desfecho, resume-se a apresentar suas 
categorias, a frequência de valores em cada categoria e os respectivos percentuais.
Fonte: Elaborado pelo autor.
Conceito Aprovado 2287 49%
 Reprovado 2386 51% 
Local do ensino médio Instituição privada 1509 32%
 Instituição pública 3164 68% 
Sexo Feminino 1948 42%
 Masculino 2725 58% 
Turno Manhã 1153 25%
 Noite 3520 75%
VARIÁVEL CATEGORIA FREQUÊNCIA PERCENTUAL
SÍNTESE NUMÉRICA 
DE DADOS
A síntese numérica de variáveis categóricas é muito simples, basta que você apresente suas 
categorias, a frequência de valores em cada categoria e os respectivos percentuais, tal como 
apresentado na tabela 3. Já a síntese de variáveis quantitativas é mais ampla e envolve 
resumir dois aspectos:
unidade 2
039
ESTATÍSTICA E PROBABILIDADES
 1) um valor típico ou característico para a variável;
 2) uma medida do grau de variabilidade ou de dispersão dos dados. 
1. V alor típico ou medida de posição: O objetivo é encontrar o valor característico, aquele 
que melhor represente os dados. Vamos discutir aqui as duas possibilidades mais 
aplicadas a problemas de pequeno e médio porte na área de Ciências Exatas e 
Engenharia: a média ( X ) e a mediana ( Md ). A média é obtida pelo resultado da 
soma de todos os valores, dividido pelo total de dados ou tamanho da amostra (n). 
Matematicamente, a média é obtida por:
Já a mediana, é na verdade uma medida de ordem, indicando o valor “do meio”, aquele que 
“divide os dados em duas metades”:
Passo 1 – Colocar os dados em ordem crescente.
Passo 2 – Encontrar o “valor do meio”, isto é:
 se n, o tamanho da amostra, é ímpar, então Md é o valor central;
 se n é par, então Md é a média dos dois valores centrais.
Exemplo A (n=11), dados já ordenados:
{3; 4; 4; 5; 9; 9; 9; 10; 10; 10; 10}
Para a mediana, como são 11 valores (n é ímpar) e a metade de 11 é 5,5, então Md é o 6º 
valor, ou seja, o “valor do meio” (lembre-se de que os dados já estão ordenados):
 Md = 9
Exemplo B (n=18), dados já ordenados:
{17; 17; 20; 20; 20; 24; 26; 28; 30; 40; 50; 50; 50; 50; 50; 51; 51; 52}
X = ∑ Xi
n
i =1
n
unidade 2
040
ESTATÍSTICA E PROBABILIDADES
Para a mediana, como são 18 valores (n 
é par) e a metade de 18 é 9, então Md é a 
média entre o 9º e o 10º valor, ou seja:
 Md = 
30
 
+
 
40
 = 352
ATENÇÃO
Não se esqueça, para obter a mediana é 
necessário, antes de tudo, colocar os dados 
em ordem crescente. Não ordenar os dados é a 
principal fonte de erro no cálculo da mediana! 
Algumas pessoas seperguntam: “Quantas 
casas decimais devo apresentar no 
resultado?”. Quanto menos casas decimais 
você conseguir apresentar nos seus 
resultados, melhor para o entendimento 
da informação! Apresente seus resultados 
usando o mesmo número de casas decimais 
que os dados originais ou, no máximo, uma 
casa decimal além do original, como foi 
feito nos cálculos anteriores.
Outra questão é “Quando escolher entre 
média e mediana para melhor representar 
um conjunto de dados?” ou “Em que 
situações resumir uma variável quantitativa 
usando a média e quando a mediana é 
melhor para representar os dados?”. Para 
essa resposta, é preciso seguir uma regra 
prática:
• Se média e mediana forem 
semelhantes, então usar a média 
para representar os dados.
• Se média e mediana forem muito 
diferentes, então usar a mediana 
para representar os dados.
Além de se basear nas regras acima, que 
exigem uma interpretação caso a caso do 
que seja “média e mediana muito diferentes”, 
você poderá construir histogramas e, pelo 
padrão do gráfico, escolher uma ou outra 
medida para representar os dados. Nos 
modelos de histograma colocados no 
tópico anterior, os exemplos 1 (simétrico), 
3 (despenhadeiro) e 5 (platô), a média 
é a melhor medida de posição. Já nos 
histogramas dos exemplos 2 (fortemente 
assimétrico) e 6 (ilha isolada), a mediana é 
a melhor medida de posição que caracteriza 
o conjunto de dados. 
2. Medida do grau de variabilidade ou 
de dispersão dos dados: O objetivo 
é quantificar o quanto os dados são 
heterogêneos, são imprevisíveis, 
em suma, quantificar o grau de 
variabilidade de uma variável 
quantitativa.
unidade 2
041
ESTATÍSTICA E PROBABILIDADES
A princípio, podemos medir a variabilidade de um dado informando o seu valor mínimo (mín) e 
o valor máximo (máx), o que nos leva à sua amplitude (R): R = máx – mín. 
Entretanto, essa é uma forma muito “simplista”, pois envolve somente dois valores da variável, 
o mínimo e o máximo, ignorando todos os outros. Para uma medida mais adequada de 
variabilidade, uma forma é calcular a sua média ( X ) e, em seguida, calcular quanto os dados 
estão distantes da média, em média! Soa estranho, mas a ideia faz sentido. Por exemplo, seja 
uma amostra de n = 5 pessoas e seus respectivos números de filhos: 
Pessoa A B C D E
Número de filhos 0 1 1 2 3
Qual o número médio de filhos?
Isso mesmo, essas pessoas têm, em média, 1,4 filhos! Você deve estar se perguntado, “como 
assim... um e 0,4 filho? Não existe 0,4 filho!!” Não se preocupe, a média funciona como um 
modelo e, como tal, é uma aproximação da realidade. A média é o melhor valor representativo 
para esses dados e, caso seja necessário resumir toda a informação num único valor, ela 
deve ser usada para substituir o verdadeiro número de filhos de cada pessoa. Bom, voltando 
à variabilidade, como calcular o quanto os dados estão distantes da média, em média? Para 
cada indivíduo, devemos subtrair o valor observado pela média, calculando um “resíduo”:
-1,4 -0,4 -0,4 +0,6 +1,6
Pessoa A B C D E
Número de filhos 0 1 1 2 3
Resíduo 0-1,4 = 1-1,4 = 1-1,4 = 2-1,4 = 3-1,4 =
O resíduo mede a distância de cada valor em relação à média dos dados, ou seja, é uma 
medida de quanto os dados estão distantes da média. Para resumir os resíduos num único 
valor, o ideal é então calcular uma média dos resíduos, que refletiria o quanto os dados estão 
X =
 0 + 1 + 1 + 2 + 3
 = 
7 
 = 1,4.5 5
unidade 2
042
ESTATÍSTICA E PROBABILIDADES
distantes da média, em média! Infelizmente, se fizermos essa média, ela sempre dará zero, 
pois os resíduos negativos anulam os positivos, dando uma soma dos resíduos igual a zero. 
Para resolver esse problema, ao invés de simplesmente calcular os resíduos, devemos calcular 
o resíduo elevado ao quadrado:
-1,4 -0,4 -0,4 +0,6 +1,6
1,96 0,16 0,16 0,36 2,56
Pessoa A B C D E
Número de filhos 0 1 1 2 3
Resíduo 0-1,4 = 1-1,4 = 1-1,4 = 2-1,4 = 3-1,4 =
Resíduo elevado (-1,4)2 = (-0,4)2 = (-1,4)2 = (+0,6)2 = (+1,6)2 =
ao quadrado
Se somarmos os resíduos elevados ao quadrado teremos a soma dos quadrados dos resíduos 
( ∑ ( Xi -X )2 ), uma métrica que aparece em várias outras análises estatísticas. Quanto maior 
a soma dos quadrados dos resíduos, maior a variabilidade dos dados! Para resumir essa 
métrica, calculamos a sua média, que é chamada de variância amostral ( s2 ):
n
i =1
s2 = ∑ ( Xi -X )2
n
i =1
n - 1
Nessas fórmulas, Xi representa cada um dos dados individuais, X é a média e n o tamanho da 
amostra ou total de dados. Observe que, no denominador, dividimos a soma dos quadrados 
dos resíduos por (n - 1) e não por ( n ). Isso é feito porque nossos dados foram obtidos por 
meio de amostragem e não por censo. Ou seja, sempre que tivermos dados amostrais, que é 
a situação mais comum, calcularemos a variância amostral dividindo a soma dos quadrados 
dos resíduos por (n - 1). Se tivermos acesso à população toda, ou melhor, se fizermos um 
censo (o que é muito raro), então poderemos calcular a variância populacional (Ợ 
2
 ), dividindo 
a soma dos quadrados dos resíduos por (n):
n
Ợ 
2 = ∑ ( Xi -X )2
n
i =1
unidade 2
043
ESTATÍSTICA E PROBABILIDADES
É importante se lembrar dessa diferença, pois ela aparece nas calculadoras científicas e no 
Excel, que permite o cálculo tanto de s2 quanto de Ợ 
2
. Na prática (e na dúvida), sempre calcule 
a variância amostral (s2). 
Uma outra métrica de variabilidade é o desvio padrão amostral (s). Ele é a raiz quadrada da 
variância e tem uso mais difundido que sua “mãe” (s2), porque, ao tirarmos a raiz quadrada 
da variância, o resultado tem a mesma unidade de medida que a média e os dados originais. 
Assim, no exemplo anterior, do número de filhos da amostra de n=5 pessoas, a variância 
amostral é:
O desvio padrão amostral é:
É muito comum, ao divulgarmos uma síntese de uma variável quantitativa, apresentarmos a 
sua média, seguida do seu desvio padrão no formato ( X = s ). Ou seja, no exemplo anterior, 
essas pessoas têm 1,4 = 1,1 filhos. 
Cuidado, isso não significa que os dados variem somente dentro do intervalo X = s , de 1,4 – 
1,1 = 0,3 até 1,4 + 1,1 = 2,5 filhos! Essa é apenas uma forma usada para apresentar ambos os 
valores, de média ( X ) e desvio padrão (s). Na verdade, se os dados tiverem um histograma 
de forma simétrica, aproximadamente 95% dos dados ocorrerão dentro do intervalo definido 
pela média mais ou menos dois desvios padrões ( X = 2s ), e 99,7% dentro da média mais ou 
menos três desvios padrões ( X = 3s ). Se não tivermos como avaliar a forma de distribuição 
dos dados, ou seja, se não soubermos o padrão do histograma dos dados, pelo menos 89% 
dos dados cairão no intervalo X = 3s .
Supondo que você já consiga calcular o desvio padrão ( s ) de um conjunto de dados, como 
interpretar o seu resultado? É fato que, quanto maior o desvio padrão, maior a variabilidade 
unidade 2
044
ESTATÍSTICA E PROBABILIDADES
dos dados. Mas, o que é um desvio padrão grande? Essa resposta depende da magnitude da 
média ( X ), isto é, para sabermos se um desvio padrão é grande ou pequeno, vai depender do 
valor da média. Por exemplo, sejam os resultados das provas de um atleta, resumidos abaixo:
Tempo para correr 100 metros: X = 11,5 e s = 2,1 segundos;
Salto em altura: X = 2,2 e s = 0,8 e metros.
Em qual prova, salto em altura e tempo para 100 m, o atleta é mais heterogêneo, tem os

Continue navegando