Buscar

Probabilidade e Estatística Descritiva

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 13 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 13 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 13 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1 
 
DISCIPLINA: PROBABILIDADE E ESTATÍSTICA 2020/2 
PROFª ROSEANI PARENTE 
 
1. INTRODUÇÃO 
A origem da Estatística está relacionada com a coleta e construção de tabelas de dados para o governo. 
Há, por exemplo, registros de presos de guerra egípcios de 5000 A.C., do censo chinês de 2000 A.C. e 
descrição detalhada de coleta de dados em livros de Constantinopla de 310 A.C.. 
A situação evoluiu e a coleta de dados representa apenas um dos aspectos da Estatística. No século XIX, o 
desenvolvimento do cálculo de probabilidade e de outras metodologias matemáticas, tais como Método de Mínimos 
Quadrados (Legendre, 1805), Distribuição Normal (Gauss, 1809) e Teorema do Limite Central (Laplace, 1810), foram 
fundamentais para o desenvolvimento da Estatística. 
No século XX a Estatística evoluiu como uma área específica do conhecimento a partir do desenvolvimento da 
Inferência Estatística, metodologia que faz uso da Teoria das probabilidades e com ampla aplicação em ciências 
experimentais. 
A Estatística hoje consiste em uma metodologia científica para obtenção, organização e análise de dados 
oriundos das mais variadas áreas das ciências experimentais, cujo objetivo principal é auxiliar a tomada de decisões 
em situações de incerteza. 
Para Magalhães e Lima (2003), podemos entender a Estatística como um conjunto de técnicas que permite, 
de forma sistemática, organizar, descrever, analisar e interpretar dados experimentais, realizados em qualquer área 
do conhecimento, que permitem conclusões válidas que possibilitem a tomada de decisão. Os dados experimentais 
podem ser extraídos de estudos realizados em grupos de pessoas, animais, vegetais ou objetos inanimados. 
Na área da engenharia, segundo Walpole et all (2009), os métodos estatísticos são utilizados para analisar os 
dados de um processo produtivo para identificar as mudanças necessárias para melhoria da qualidade. A avaliação da 
qualidade é feita durante todo o processo produtivo de modo a permitir a correção de eventuais falhas no sistema 
assim que elas apareçam. 
As principais áreas da Estatística são: 
 Estatística Descritiva: consiste em resumir e organizar os dados coletados utilizando tabelas, gráficos e 
medidas numéricas, para, a partir dos dados resumidos, procurar alguma regularidade ou padrão nas observações. 
 Probabilidade: é a Teoria Matemática utilizada para se estudar a incerteza oriunda de fenômenos de 
caráter aleatório. 
 Estatística Indutiva ou Inferencial: é o estudo de técnicas que possibilitam a extrapolação a um grande 
conjunto de dados, das informações e conclusões obtidas a partir de subconjuntos de valores usualmente de 
dimensão muito menor. 
 
2. CONCEITOS BÁSICOS 
População é um conjunto de elementos (pessoas, animais, unidades produzidas, ...) de características comuns, 
pertencentes a um universo sobre o qual se deseja estabelecer conclusões ou exercer ações. Se, por exemplo, 
estivermos interessados em traçar o perfil dos alunos dos cursos de graduação em Engenharia da UEA, a população 
seriam todos os alunos regularmente matriculados nos cursos de engenharia. Quando não é possível estudar, 
exaustivamente, todos os elementos da população, estudam-se só alguns elementos. 
Amostra: podemos definir uma amostra como um subconjunto da população. Uma amostra é uma redução de uma 
população a dimensões menores sem a perda de suas características. 
Parâmetro: É qualquer medida numérica que descreve uma característica de uma população. 
Estatística: É qualquer medida numérica que descreve uma característica de uma amostra. 
Variável: é toda característica de interesse que é medida em cada elemento da amostra ou população. Como o 
nome diz, seus valores podem variar de elemento para elemento. As variáveis podem ser numéricas e não 
numéricas. As numéricas são denominadas de quantitativas e as variáveis não numéricas de qualitativas ou 
categóricas. 
a) Variáveis Qualitativas: São aquelas representadas por uma característica própria da variável, um atributo 
ou categoria. Se tais variáveis têm uma ordenação indicando intensidades crescentes de realização são 
classificadas como qualitativas ordinais. Caso contrário, quando não é possível estabelecer uma ordem 
entre suas categorias elas são classificadas como qualitativas nominais. Sendo assim, variáveis como Grau 
 
2 
 
de Instrução (fundamental, médio, superior e pós-graduação) e Classe social (Baixa, Média e Alta) são 
exemplos de qualitativas ordinais e variáveis como Turma (A e B), Sexo (Feminino ou Masculino) e 
Fumante (Sim ou Não) são exemplos de qualitativas nominais. 
b) Variáveis Quantitativas: São aquelas representadas por valores numéricos que expressam uma 
quantidade, tais como: número de alunos matriculados no semestre, idade do aluno e salário em Reais. 
São classificadas em Discretas e Contínuas. As variáveis quantitativas discretas são aquelas cujos valores 
resultam, em geral, de processos de contagens e, portanto, estão associadas ao conjunto dos números 
naturais. São exemplos: nº de filhos (0, 1, 2, ...) e nº de peças defeituosas num lote (0, 1, 2, ...). As 
variáveis quantitativas contínuas são aquelas que podem assumir qualquer valor e que, portanto, seus 
valores pertencem a um intervalo de números reais. De modo geral, são aquelas que resultam de 
processos de mensuração. São exemplos: altura em cm e peso em kg. 
Censo: é um levantamento completo sobre uma determinada população, ou seja, quando todos os seus elementos 
são analisados. 
Amostragem é o processo ou ato de selecionar os elementos de uma amostra. Há basicamente dois tipos de 
amostragem: probabilísticas e não probabilísticas. 
Amostragem não probabilística: tem como característica principal não fazer uso de formas aleatórias de 
seleção dos elementos que comporão a amostra. Os indivíduos são selecionados através de critérios subjetivos do 
pesquisador. Não permite a generalização das informações obtidas na amostra para a população de onde a mesma 
foi retirada em função do potencial viés de seleção. 
Amostragem probabilística: exige que cada elemento da população possua uma determinada probabilidade 
de ser selecionado para fazer parte da amostra. Para Costa Neto (2002), a utilização de amostragens probabilísticas 
é a melhor estratégia para garantir a representatividade da amostra, pois o acaso será o único responsável por 
possíveis diferenças entre população e amostra. Somente com base em amostragens probabilísticas é possível 
realizar inferências sobre a população a partir dos parâmetros estudados na amostra. 
A amostragem probabilística tem como principais características: 
 Poder especificar, para cada elemento da população, sua probabilidade de ser incluído na amostra; 
 Poder ser submetida a tratamento estatístico. 
 
3. REPRESENTAÇÃO TABULAR 
Uma tabela consiste em dispor os dados em linhas e colunas distribuídas de modo ordenado. A elaboração de 
tabelas segue as regras previstas pelo Conselho Nacional de Estatística (CNE), pela Associação Brasileira de Normas 
Técnicas (ABNT) e pelas Normas de apresentação Tabular do Instituto Brasileiro de Geografia e Estatística (IBGE). 
Na sequência mostraremos as principais orientações para a elaboração de uma tabela. Para maiores 
detalhes, aconselhamos a consulta às normas citadas. 
3.1 ELEMENTOS DE UMA TABELA: 
 
Título: O título deve responder as seguintes questões: 
- O que? (Assunto a ser representado (fato)); 
- Onde? (O lugar onde ocorreu o fenômeno (local)); 
- Quando? (A época em que se verificou o fenômeno (tempo)). 
Deve ter numeração sequencial no caso de haver mais de uma tabela no texto. 
Deve ser escrito sem abreviações, por extenso e de forma clara e concisa. 
Cabeçalho: parte da tabela na qual é designada a natureza do conteúdo de cada coluna. 
 
3 
 
Corpo: é o conjunto das informações que aparecem no sentido vertical e horizontal. 
Linhas: parte do corpo que contém uma sequência horizontal de informações. 
Coluna Indicadora: é a divisão em sentidovertical, onde aparece a designação da natureza do conteúdo da linha. 
Casa ou célula: são as divisões que aparecem no corpo da tabela. 
Rodapé: É o espaço aproveitado em seguida ao fecho da tabela, onde são colocadas as notas de natureza informativa 
(fonte, notas e chamadas). 
Fonte: refere-se à entidade que organizou ou forneceu os dados expostos. 
Notas e Chamadas: podem ser colocadas nas tabelas após a Fonte. São esclarecimentos contidos na tabela (nota - 
conceituação geral; chamada - esclarecer minúcias em relação a uma célula). 
É importante que nenhuma casela (interseção entre linha e coluna) fique em branco. 
 A tabela deve ser uniforme quanto ao número de casas decimais e conter os símbolos – ou 0 quando o valor 
numérico é nulo e ... quando não se dispõe do dado. 
 
3.2 TABELAS DE FREQUÊNCIAS 
Nas tabelas de distribuições de frequências os dados referentes ao fenômeno são apresentados através de 
gradações, onde é feita a correspondência entre categorias ou valores possíveis e as frequências respectivas. 
Notação: 
 fi = frequência absoluta (simples) do i-ésimo valor observado; 
 n = tamanho da amostra (número de unidades observadas); 
 f% = frequência percentual do i-ésimo valor observado  100








n
f i
f
% ; 
 Fi = frequência acumulada até o i-ésimo valor  


i
a
ai fF
1
 
Para construir a distribuição de frequências com os dados de uma variável qualitativa, basta contar a 
quantidade de resultados observados em cada categoria. Se a variável for qualitativa ordinal, a ordem das categorias 
deve ser observada. 
Exemplo 1: Considere uma pesquisa feita em novembro de 2016 na cidade de Manaus, Foram ouvidas 1.230 
pessoas que opinaram quais eram os problemas mais graves do estado no ano de 2016. Elabore uma tabela de 
frequência, indicando as frequências simples e percentuais colocando: título, cabeçalho, corpo e fonte. 
Solução: 
 Tabela 1 – Problemas mais graves na cidade de Manaus/AM em 2016. 
Problema Frequência 
Frequência 
Percentual 
Segurança/Violência 360 29,3 
Educação 160 13,0 
Saúde 152 12,4 
Saneamento 118 9,6 
Alimentação/Pobreza 73 5,9 
Transporte 63 5,1 
Outros 304 24,7 
Total 1.230 100,0 
 Fonte: Pesquisa realizada em novembro/2016. 
 
Quando os dados são contínuos, a melhor forma de apresentá-los é utilizando intervalos de valores 
denominados Intervalos de Classe. O intervalo de classe é o conjunto de observações contidas entre dois valores 
limite (limite inferior e limite superior). Exemplos de intervalos: 
 5 |--- 10: intervalo fechado no limite inferior e aberto no limite superior (contém o valor 5 mas não contém 
o valor 10). 
 5 --- 10: intervalo aberto nos limites inferior e superior (não contém os valores 5 e 10). 
 5 |---| 10: intervalo fechado nos limites inferior e superior (contém os valores 5 e 10). 
Os intervalos de classe devem ser mutuamente exclusivos (um indivíduo não pode ser classificado em dois 
 
4 
 
intervalos ao mesmo tempo) e exaustivos (nenhum indivíduo pode ficar sem classificação). 
A amplitude do intervalo é o tamanho do intervalo de classe. A amplitude do intervalo e o número de 
intervalos dependem basicamente do problema específico e da literatura existente sobre o assunto. 
Adotaremos como procedimento para a construção dos intervalos de classe o seguinte roteiro: 
a) Encontre o menor e o maior valor das observações e determine a amplitude total dos dados: 
 h = máximo – mínimo. 
b) Determine o número de intervalos. O número de intervalos não deve ser muito baixo nem muito alto. Um 
número de intervalos pequeno gera amplitudes de classes grandes o que pode causar distorções na 
visualização do histograma. Um número de intervalos grande gera amplitude de intervalo muito reduzida. 
Uma regra prática para a determinação do número de intervalos é a que diz que este deve variar entre 5 e 20 
(5 para um número muito reduzido de observações e 20 para um número muito elevado). Se n representa o 
número de observações na amostra, o número aproximado de intervalos (k) pode ser calculado pela raiz 
quadrada de n: k  n  arredondando o resultado para o primeiro inteiro; 
c) Calcular a amplitude dos intervalos: essa será obtida pela razão entre a amplitude total e o número de 
intervalos: 
k
h
H  
d) Construa as classes de forma a incluir todos os valores observados. 
Em todas as etapas da construção das classes deve prevalecer o bom senso. Se a primeira distribuição de 
frequências construída ficou muito resumida ou muito dispersa, aumente ou diminua o número de classes, 
diminuindo ou aumentando o tamanho delas. Não se recomenda trabalhar com intervalos de classe com amplitudes 
diferentes, exceto em casos excepcionais onde os valores extremos muito dispersos tenham de ser agrupados em 
uma única classe. 
 Exemplo 2: A empresa Ferro Cruz S/A produz cabos náuticos cujas cargas de ruptura em kg. Uma amostra de 30 
unidades do produto produzida em Dezembro/17 apresentou os seguintes valores: 
78 78 81 83 83 84 85 85 87 89 
90 91 91 93 93 94 94 95 95 96 
96 98 99 102 102 102 103 105 105 118 
 Construa a tabela de frequências com os dados agrupados em intervalos de classe. 
 
Tabela 2 - Distribuição das cargas de ruptura (kg) de cabos náuticos produzidos pela empresa Ferro Cruz S/A em 
Dezembro/17. 
Cargas de Ruptura 
(kg) 
Frequência 
Frequência 
Percentual 
73 |-- 81 2 6,7 
81 |-- 89 7 23,3 
89 |-- 97 12 40,0 
97 |-- 105 6 20,0 
105 |-- 113 2 6,7 
113 |-- 121 1 3,3 
Total 30 100,0 
Fonte: Dados fictícios. 
Na análise de variáveis quantitativas, em geral, são procuradas três informações principais: 
a) A faixa em que os valores ocorrem com maior frequência (faixa de valores típicos); 
b) Valores discrepantes, que podem ser resultado de erros de mensuração ou digitação, mas também podem 
corresponder a elementos que apresentam comportamento muito diferente dos demais; 
c) A forma da distribuição de modo a permitir a comparação com modelos probabilísticos, o que nos permite 
utilizar técnicas mais avançadas de análise. 
 
4 REPRESENTAÇÕES GRÁFICAS 
As representações gráficas fornecem, em geral, visualização mais sugestiva do que as tabelas. A escolha do 
gráfico mais apropriado ficará a critério do analista. Contudo, os seguintes elementos devem ser considerados, quando 
 
5 
 
da elaboração de um gráfico. 
 Simplicidade – o gráfico deve ser destituído de detalhes e traços desnecessários. 
 Clareza – o gráfico deve possibilitar uma correta interpretação dos valores representativos do fenômeno em 
estudo. 
 Veracidade – o gráfico deve expressar a verdade sobre o fenômeno em estudo. 
1) Para variáveis qualitativas: 
a) Gráfico de colunas/barras: é composto por duas linhas ou eixos, um vertical e outro horizontal. No 
eixo horizontal são construídas as colunas que representam cada categoria e a frequência (absoluta 
ou relativa) é colocada no eixo vertical. As colunas devem ter a mesma largura e a distância entre 
elas deve ser constante. No gráfico de barras, os eixos são invertidos. 
 
Gráfico 1 – Problemas mais graves na cidade de Manaus/AM em 2016. 
 
Fonte: Pesquisa realizada em novembro/2016 
 
Alternativamente, o eixo horizontal poderia representar a escala das frequências e o eixo vertical, as 
categorias. O resultado é chamado de Gráfico de Barras. 
 
Gráfico 2 – Problemas mais graves na cidade de Manaus/AM em 2016. 
 
Fonte: Pesquisa realizada em novembro/2016. 
 
b) Gráfico de Setores Circulares: Um gráfico muito comum para representar variáveis qualitativas é o 
chamado Gráfico de Setores Circulares (pizza) que é particularmente útil quando o nº de categorias 
 
6 
 
não é grande e as categorias não obedecem a alguma ordem específica. Consiste num círculo de raio 
arbitrário, representando o todo, dividido em setores, que correspondem às categorias da variável 
de maneira proporcional. A representação da área de cada setor é obtida por uma regra de três 
simples onde o círculo corresponde ao ângulo de 360°e é associado ao total de valores observados 
(tamanho da população ou da amostra), um ângulo X° que corresponde a um subconjunto do total. 
Os valores de X° devem somar 360°. 
 
Gráfico 3 – Problemas mais graves na cidade de Manaus/AM em 2016. 
 
Fonte: Pesquisa realizada em novembro/2016. 
 
2) Para variáveis quantitativas contínuas: 
A representação gráfica da distribuição de frequências de uma variável contínua pode ser feita através 
de dois gráficos: o histograma e o Polígono de Frequências. 
O histograma é um gráfico de barras verticais contíguas devido ao caráter contínuo dos valores da 
variável. As bases são proporcionais aos intervalos das classes e a área de cada retângulo é proporcional à respectiva 
frequência que pode ser tanto a absoluta simples como a percentual. 
O histograma para os dados da tabela acima ficará assim definido: 
Gráfico 4 – Distribuição das cargas de ruptura (kg) de cabos náuticos produzidos pela empresa Ferro Cruz S/A 
em Dezembro/17 
 
Fonte: Dados fictícios. 
O polígono de frequência é um gráfico de linha obtido quando são unidos, por uma poligonal, os pontos 
correspondentes às frequências das diversas classes, centrados nos respectivos pontos médios. 
 
7 
 
O ponto médio é calculado para cada intervalo pela média aritmética entre os dois extremos: 
2
LILS
PM i

 , onde LS = limite superior do intervalo e LI = limite inferior do intervalo. 
Para obter as interseções da poligonal com o eixo, cria-se em cada extremo uma classe com frequência nula 
antes do primeiro e depois do último intervalo. 
Gráfico 5 – Distribuição das cargas de ruptura (kg) de cabos náuticos produzidos pela empresa Ferro Cruz S/A 
em Dezembro/17. 
 
Fonte: Dados fictícios. 
5 MEDIDAS DE POSIÇÃO OU TENDÊNCIA CENTRAL 
A tendência central da distribuição de frequências de uma variável em um conjunto de dados é caracterizada 
pelo valor típico dessa variável. Essa é uma maneira de resumir a informação contida nos dados, pois escolheremos 
um valor para representar todos os outros. 
Veremos três medidas que podem ser utilizadas para descrever a tendência central de um conjunto de dados: 
a média, a mediana e a moda. Apresentaremos essas três medidas e discutiremos suas vantagens e desvantagens. 
 
5.1 MÉDIA ARITMÉTICA 
 Média Aritmética (Média) é a medida de tendência central mais conhecida e usada para o resumo de dados. 
Essa popularidade pode ser devida à facilidade de cálculo e à ideia simples que ela nos sugere. No caso de dados não 
agrupados, a média aritmética é definida pela soma de todos os valores do conjunto dividida pelo número deles. Para 
dados amostrais: 
n
xxx
n
x
X n
n
i
i 


 ...211 , onde, n = tamanho da amostra. 
Exemplo 3: Determine a média aritmética para o conjunto de valores abaixo: 
 3 2 1 5 4 
Solução: A média do conjunto de valores é igual a: 3
5
15
X . 
De sua própria definição podemos verificar que a média aritmética: 
a) É da mesma natureza da variável considerada; 
b) É um valor único para cada conjunto de valores; 
c) Não pode ser calculada quando os dados estiverem agrupados em intervalos onde o primeiro e o último deles 
tiverem seus extremos indefinidos; 
d) Sofre a influência de valores aberrantes presentes no conjunto. 
 
Propriedades da média aritmética: 
1) Multiplicando-se todos os valores de uma variável por uma constante, a média do conjunto fica 
multiplicada por essa constante; 
 
8 
 
2) Somando-se ou subtraindo-se uma constante a todos os valores de uma variável, a média do conjunto 
fica acrescida ou diminuída dessa constante. 
3) A soma de todos os desvios em relação à média é igual a zero. 
O Excel disponibiliza a função MÉDIA que determina o valor da média aritmética. A função retorna a média 
aritmética dos argumentos. 
Se os dados estão apresentados na forma de uma variável discreta numa tabela de frequências, utilizaremos 
a média aritmética ponderada, considerando as frequências simples fi como sendo as ponderações dos elementos xi 
correspondentes. A fórmula de cálculo da média é dada por: 
 
n
fx
X
k
i
ii
 1 , onde k é o número de observações 
distintas. 
Exemplo 4: A tabela abaixo resume a informação do número de irmãos dos alunos da Turma 4 de 
Probabilidade e Estatística da EST/UEA em 2019/1. Determinar a média da distribuição: 
Número de irmãos 
(xi) 
fi ii fx 
0 4 0 
1 8 8 
2 12 24 
3 9 27 
4 7 28 
Total 40 87 
Solução: A média da distribuição de frequências é dada por: 2,2
40
87
X irmãos. 
 
5.2 MEDIANA 
A mediana é o valor que divide um conjunto de dados ordenados em exatamente duas partes iguais. Se o 
total de elementos do conjunto (n) for um número ímpar, a mediana será o valor do conjunto que ocupar a posição 





 
2
1n . 
Se n for um número par, a mediana será definida pela média aritmética entre os valores do conjunto que 
ocuparem as duas posições centrais dadas por 





2
n e 1
2





 n . 
Tomando como exemplo o conjunto de notas dados por X = (2, 5, 5, 6, 7), a mediana será então definida 
como: n = 5 (ímpar), a posição central será dada por ª3
2
15





  posição. 
Logo, o valor da mediana será Md = 5 pontos. 
Se o conjunto fosse composto pelos valores (2, 5, 6, 6, 7, 8) então n = 6 (par) e as duas posições centrais 
seriam ª3
2
6





 posição e ª41
2
6





 posição. Logo, o valor da mediana será: Md = 6
2
66





  pontos. 
 No Excel , a função MED retorna o valor da mediana de um conjunto de valores. 
Quando os dados estão apresentados na forma de uma variável discreta, eles já estão naturalmente 
ordenados. Assim, basta verificar se o número de elementos da série é ímpar ou par. 
Tomando os dados do exemplo 4, como n = 40 é par, então os dois valores centrais ocupam as posições 
ª20
2
40





 e ª211
2
40





 . Pela frequência acumulada podemos localizar as posições: 
xi fi Fi 
0 4 4 
1 8 12 
2 12 24 
3 9 33 
4 7 40 
Total 40 -- 
Pela frequência acumulada, podemos verificar que os 20º e o 21º valores em ordem são ambos iguais a 2. 
 
9 
 
Portanto, o valor da mediana é: Md = 2 irmãos. Isso significa que 50% dos valores da série são menores ou 
iguais a 2 e 50% dos valores da série são maiores ou iguais a 2. 
 
5.3 Moda (Mo) 
A Moda é o valor (categoria ou intervalo) mais frequente, mais típico ou mais comum. 
Um mesmo conjunto pode ter mais do que um valor de moda ou mesmo nenhum valor de moda. 
Assim, no conjunto (2, 5, 5, 6, 7) o valor da nota de moda é igual a 5 (Mo = 5 pontos). Se o conjunto de 
valores somente possuir um valor de moda ele é denominado de Unimodal. 
Para o conjunto formado pelos valores (2, 5, 5, 6, 6, 7 ) teremos dois valores de moda que são Mo = 5 pontos 
e Mo = 6 pontos. Caso o conjunto de valores possua mais de um valor de moda ele é denominado de Bimodal. 
Se o conjunto de valores possuir mais de dois valores de moda, ele é dito Multimodal e, caso não tenha 
nenhum valor de moda de Amodal. 
Para dados apresentados na forma de uma variável discreta, a determinação da moda é bem simples, basta 
observar qual valor da tabela têm maior frequência absoluta. No caso do exemplo 2, o valor de é moda é igual a 
Mo=2. 
MODA, MEDIANA OU MÉDIA: COMO ESCOLHER? 
Devemos sempre apresentar os valores de todas as medidas de tendência central. Na sequência faremos uma 
comparação entre elas em situações em que a diferença entre seus valores poderá levar a conclusões diversas sobre 
os dados. 
MEDIANA VERSUS MÉDIA 
A média é uma medida-resumo muito mais usada na prática do que a mediana. Existem várias razões para 
essa popularidade da média, entre elas, a facilidade de tratamento estatístico e algumas propriedades interessantes 
que a média apresenta. 
No entanto, a média é uma medida muito influenciada pela presença de valores extremos em um conjunto 
de dados (valores muito grandes ou muito pequenos em relação aos demais). 
Como a média usa os valores de cada observaçãoem seu cálculo, esses valores extremos “puxam” o valor da 
média em direção a si, deslocando também a representação do centro, que já não será tão central como deveria ser. 
A mediana, por sua vez, não é tão influenciada por valores extremos, pois o que utilizamos para calculá-la é a 
ordem dos elementos e não diretamente seus valores. Assim, se um elemento do conjunto de dados tem o seu valor 
alterado (um erro, por exemplo), mas sua ordem continua a mesma, a mediana não sofre influência nenhuma. 
 De modo geral, o uso da mediana é indicado quando: 
 Os valores para a variável em estudo têm distribuição de frequências assimétrica (verificada através das 
ferramentas gráficas); 
 O conjunto de dados possui algumas poucas observações extremas (valores muito mais altos ou muito 
mais baixos que os outros); 
MODA VERSUS MÉDIA E MEDIANA 
A moda não é uma medida de tendência central muito utilizada, mas tem suas vantagens em relação à média 
e à mediana, especialmente quando estamos lidando com variáveis que possuem distribuição de frequências bimodais 
ou multimodais. 
6 MEDIDAS DE VARIABILIDADE (DISPERSÃO). 
As medidas de tendência central (média, mediana, moda) conseguem resumir em um único número, o valor 
que é “típico” no conjunto de dados. Mas, somente com essas medidas, não conseguimos descrever adequadamente 
o que ocorre em um conjunto de dados. 
Tomemos como exemplo os dois conjuntos de observações abaixo: 
A: 25 28 31 34 37 B: 17 23 30 39 46 
Ambos têm a mesma média, 31. No entanto, percebe-se intuitivamente que o conjunto B acusa dispersão 
muito maior do que o conjunto A. Torna-se então necessário estabelecer medidas que indiquem o grau de dispersão, 
ou variabilidade, em relação ao valor central. 
As medidas de dispersão são medidas que mostram o grau de dispersão ou de concentração em torno da 
média. As principais medidas de dispersão são: amplitude, variância, desvio padrão e coeficiente de variação. 
 
10 
 
 
6.1 AMPLITUDE. 
A amplitude de um conjunto de dados é a diferença entre o maior valor e o menor valor. Logo, a amplitude é 
definida por: MínimoMáximoAt  . 
 No caso do exemplo dado acima, teremos: 
Conjunto A: 122537 At 
Conjunto B: 291746 At 
 Logo, o conjunto B apresenta a maior dispersão. 
 Para os dados do exemplo 4, a amplitude é definida por: 404 At . 
 
6.2 VARIÂNCIA. 
Esta medida leva em conta todas as observações da amostra e mede a dispersão desses valores em torno da 
média. É dada pela soma dos quadrados dos desvios (SQD) em relação à média aritmética, dividida pelo número de 
graus de liberdade (G.L)*. Por definição é a média dos quadrados dos desvios para dados amostrais é dada por: 
 𝑠 =
∑ ( ) onde, n = tamanho da amostra e X é a média amostral do conjunto. 
(G.L)*: De uma maneira geral, o número de graus de liberdade associados a uma estatística é o número de elementos 
da amostra, n, menos o número de parâmetros já estimados. 
Tomando os dados do exemplo 3, lembrando que a média é igual a 3
5
15
X , temos: 
xi 


n
i
XXi
1
2)( 
3 (3 – 3)2 = 0 
2 (2 – 3)2 = 1 
1 (1 – 3)2 = 4 
5 (5 – 3)2 = 4 
4 (4 – 3)2 = 1 
Total 10 
O valor da variância é definido por: 52
15
102 ,

s . 
CONSIDERAÇÕES SOBRE A VARIÂNCIA: 
a) O sinal dos desvios é irrelevante, uma vez que na fórmula os desvios são elevados ao quadrado. 
b) A magnitude da diferença é que vai determinar maior ou menor peso para a variância. 
c) A variância de um único dado é indeterminada. Isso revela obviamente, de que nada podemos dizer da 
variação de dados sem repetição. 
d) Somando-se ou subtraindo-se uma mesma constante (k) a todas as observações de um conjunto de dados a 
variância não se altera. 
e) Multiplicando-se cada observação de um conjunto de dados por uma mesma constante (k≠0), a variância do 
conjunto original fica multiplicada pelo quadrado dessa constante. 
f) Dividindo-se cada observação de um conjunto de dados por uma mesma constante (k≠0), a variância do 
conjunto original ficará dividida pelo quadrado dessa constante. 
Como medida de dispersão a variância tem a desvantagem de apresentar unidade de medida igual ao 
quadrado da unidade dos dados observados, p.ex.; se os dados são medidos em metros (m), a variância é dada em 
metros ao quadrado (m)2. Para voltarmos à unidade de medida original, precisamos de outra medida de dispersão, o 
Desvio Padrão. 
Se houver repetições de elementos na série, definimos a variância como sendo uma média aritmética 
ponderada dos quadrados dos desvios dos elementos da série para a média da série. 
Tomando os dados do exemplo 4, onde a média aritmética é igual a 22
40
87
,X , temos: 
xi fi i
n
i
fXXi 
1
2)( 
0 4 (0 – 2,2)2 x 4 = 19,4 
1 8 (1 – 2,2)2 x 8 = 11,5 
 
11 
 
2 12 (2 – 2,2)2 x 12 = 0,5 
3 9 (3 – 2,2)2 x 9 = 5,8 
4 7 (4 – 2,2)2 x 7 = 22,7 
Total 40 59,9 
A variância será definida por 51
39
9592 ,
,
s . 
 
6.3 DESVIO PADRÃO 
É a raiz quadrada positiva do valor da variância, avalia a variação dos dados e nos permite discutir os 
resultados na mesma unidade de mensuração dos dados. O desvio padrão da população e da amostra é representado, 
respectivamente por: 
2ss  . 
 
6.4 COEFICIENTE DE VARIAÇÃO (ou de variabilidade) 
Frequentemente se tem o interesse em comparar variabilidades de diferentes conjuntos de valores. A 
comparação se torna difícil em situações em que as médias são muitos desiguais ou as unidades de medidas são 
diferentes. 
O Desvio Padrão é uma medida absoluta da dispersão e o Coeficiente de Variação é uma medida relativa de 
dispersão, pois expressa percentualmente o Desvio Padrão por unidade de média, ou seja, o CV representa o Desvio 
Padrão que seria obtido se a média fosse igual a 100. 
100100 
média
padrão desvio
X
s
CV 
Quanto menor o Coeficiente de Variação de um conjunto de dados, menor é a sua variabilidade. 
O Coeficiente de Variação expressa o quanto da escala de medida, representada pela média, é ocupada pelo 
desvio-padrão. 
O Coeficiente de Variação é uma medida adimensional, isto é, não depende da unidade de medida. Essa 
característica nos permite usá-lo para comparar a variabilidade de conjuntos de dados medidos em unidades 
diferentes, o que seria impossível usando o desvio-padrão. 
Para se entender como se interpreta o coeficiente de variação, imagine dois grupos de pessoas. 
No primeiro grupo, as pessoas têm idades: 3, 1 e 5 anos. 
E no segundo grupo as pessoas têm idades: 55, 57 e 53 anos. 
No primeiro grupo, a média de idade é de 3 anos e, no segundo grupo, a média de idade é de 55 anos. 
Nos dois grupos a dispersão dos dados é a mesma pois ambos têm desvio-padrão S = 2 anos. 
Agora veja os coeficientes de variação. 
No primeiro grupo, o coeficiente de variação é igual a %,643100
55
2
100  x
X
s
CV , e no segundo grupo, o 
coeficiente de variação é igual a %,6766100
3
2
100  x
X
s
CV . 
Um coeficiente de variação igual a 66,67% indica que a dispersão dos dados em relação à média é muito 
grande, ou seja, a dispersão relativa é alta. Já um coeficiente de variação de 3,64% indica que a dispersão dos dados 
em relação à média é pequena. 
7. SEPARATRIZES: QUARTIS, DECIS E PERCENTIS. 
Os quartis, decis e percentis, assim como a Mediana, também subdividem a distribuição de medidas de 
acordo com a proporção das frequências observadas. 
a) QUARTIL (Q): Os quartis dividem um conjunto de valores ordenados em ordem crescente em quatro partes 
iguais, isto é, 25% por parte. Há, portanto, em uma distribuição de frequências, três quartis. Sendo assim, 
Q1 separa os 25% inferiores dos 75% superiores dos valores ordenados. O segundo quartil (Q2) é igual à 
Mediana e o terceiro quartil (Q3) separa os 75% inferiores dos 25% superiores dos valores ordenados. 
Amplitude Interquartílica (AIQ): Corresponde à diferença entre o valor do Q3 e Q1. Corresponde aos 50% dos 
dados que ocupam a posição mais central da distribuição. É menos afetada pelos valoresextremos do que a amplitude 
e o desvio padrão, o que faz desta medida a melhor escolha quando a distribuição de frequência apresenta alto grau 
de assimetria: AIQ = Q3 – Q1. 
 
12 
 
b) DECIL (D): Os Decis dividem um conjunto de valores ordenados em ordem crescente em dez partes iguais. 
Há, portanto, 9 Decis que dividem os dados em 10 partes iguais com 10% deles em cada grupo. 
c) PERCENTIL (P): Os Percentis ou Centis dividem um conjunto de valores ordenados em ordem crescente em 
cem partes iguais. Há, portanto, 99 Percentis que dividem os dados em 100 partes iguais com 1% deles em 
cada grupo. 
 Os Quartis e Decis podem ser obtidos pela determinação dos Percentis correspondentes. 
 O 1º Quartil corresponde ao 25º Percentil, o 2º Quartil corresponde ao 50º Percentil, o 3º Quartil 
corresponde ao 75º Percentil, o 2º Decil corresponde ao 20º Percentil e assim por diante. 
Para a determinação da posição de cada percentil vamos adotar a expressão: 
 
Onde k = número do percentil considerado e n = número de elementos do conjunto. 
 
No Excel podemos utilizar a função PERCENTIL.INC que retorna o k-ésimo percentil de valores em um intervalo, 
onde k está no intervalo de 0 a 1, inclusive. Se tomarmos o K = 0,25 determinaremos o Percentil 25º que corresponde 
ao primeiro quartil. Podemos utilizar a função para determinar qualquer separatriz. 
8. ASSIMETRIA 
 A caracterização de um conjunto de observações pode ser feita em termos de um valor típico (medidas de 
tendência central) e do comportamento dos demais valores do conjunto ao redor dele (medidas de dispersão). 
Podemos ainda fornecer mais elementos de modo a completar o diagnóstico do conjunto como a verificação 
da forma de sua distribuição de frequências. 
As medidas de assimetria visam indicar o quanto assimétrica é a distribuição. Distribuições simétricas 
apresentam os mesmos valores para a média aritmética, a mediana e a moda, ou seja, as três medidas de posição 
mais importantes são coincidentes. 
A distribuição de frequências de uma variável pode ter várias formas, mas existem três formas básicas, 
representadas esquematicamente pelos histogramas da Figura 1. 
 
 
Figura 1 – Representação esquemática da forma da distribuição de frequências e as posições relativas das medidas de 
tendência central. 
 
Nesta figura, também está a posição de cada uma das medidas de tendência central apresentadas neste 
texto. Uma maneira simples de caracterizar a assimetria pode ser determinada pela diferença entre a média 
aritmética e a moda: 
 X - Mo = 0  assimetria nula ou distribuição simétrica 
 
13 
 
 X - Mo < 0  assimetria negativa ou à esquerda 
 X - Mo > 0  assimetria positiva ou à direita 
 
Exemplo 7: Considere as distribuições de frequências abaixo: 
Distribuição A Distribuição B Distribuição C 
Peso(kg) Frequência Peso(kg) Frequência Peso (kg) Frequência 
2 |-- 6 6 2 |-- 6 6 2 |-- 6 6 
6 |-- 10 12 6 |-- 10 12 6 |-- 10 30 
10 |-- 14 24 10 |-- 14 24 10 |-- 14 24 
14 |-- 18 12 14 |-- 18 30 14 |-- 18 12 
18 |-- 22 6 18 |-- 22 6 18 |-- 22 6 
Total 60 Total 78 Total 78 
 Compare as distribuições quanto ao tipo de assimetria. 
 
Solução: Calculando as médias, modas e medianas das distribuições, teremos: 
Distribuição A: X = 12 (kg); Md = 12 (kg); Mo = 12 (kg).  X - Mo = 0 temos distribuição simétrica; 
Distribuição B: X = 12,9 (kg); Md = 13,5 (kg); Mo = 14,8 (kg)  X - Mo < 0 temos distribuição assimétrica negativa; 
Distribuição C: X = 11,1 (kg); Md = 10,5 (kg); Mo = 9,2 (kg)  X - Mo > 0 temos distribuição assimétrica positiva; 
 
Uma medida da assimetria é definida pelo Coeficiente de Assimetria de Pearson dado pela expressão: 
 
Onde: X é a média aritmética, Mo é a moda e S = desvio padrão amostral. Se Sk < 0 então assimetria à 
esquerda ou negativa, se Sk > 0 então assimetria a direita ou positiva e se Sk = 0 então a distribuição é simétrica. 
 
 
 
BIBLIOGRAFIA DO TEXTO 
COSTA NETO, P. L. O. Estatística. São Paulo: Blucher, 2002. 
MAGALHÃES, M.N.; LIMA, A.C.P. Noções de probabilidade e estatística. Edusp, 2002. 
WALPOLE, R.E.; MYERS, R.H.; MYERS, S.L.; YE, K. Probabilidade e Estatística para engenharia e ciências. São Paulo: 
Editora Pearson Prentice Hall, 2009.

Outros materiais