Buscar

Probabilidade e Estatística- Introduçao e conceitos

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1
DISCIPLINA: PROBABILIDADE E ESTATÍSTICA 2017/2
PROFª ROSEANI PARENTE
1. INTRODUÇÃO
A origem da Estatística está relacionada com a coleta e construção de tabelas de dados para o governo.
Há, por exemplo, registros de presos de guerra egípcios de 5000 A.C., do censo chinês de 2000 A.C. e
descrição detalhada de coleta de dados em livros de Constantinopla de 310 A.C..
A situação evoluiu e a coleta de dados representa apenas um dos aspectos da Estatística. No século XIX, o
desenvolvimento do cálculo de probabilidade e de outras metodologias matemáticas, tais como Método de Mínimos
Quadrados (Legendre, 1805), Distribuição Normal (Gauss, 1809) e Teorema do Limite Central (Laplace, 1810), foram
fundamentais para o desenvolvimento da Estatística.
No século XX a Estatística evoluiu como uma área específica do conhecimento a partir do desenvolvimento da
Inferência Estatística, metodologia que faz uso da Teoria das probabilidades e com ampla aplicação em ciências
experimentais.
A Estatística hoje consiste em uma metodologia científica para obtenção, organização e análise de dados
oriundos das mais variadas áreas das ciências experimentais, cujo objetivo principal é auxiliar a tomada de decisões
em situações de incerteza.
Para Magalhães e Lima (2003), podemos entender a Estatística como um conjunto de técnicas que permite,
de forma sistemática, organizar, descrever, analisar e interpretar dados experimentais, realizados em qualquer área
do conhecimento, que permitem conclusões válidas que possibilitem a tomada de decisão. Os dados experimentais
podem ser extraídos de estudos realizados em grupos de pessoas, animais, vegetais ou objetos inanimados.
Na área da engenharia, segundo Walpole et al (2009), os métodos estatísticos são utilizados para analisar os
dados de um processo produtivo para identificar as mudanças necessárias para melhoria da qualidade. A avaliação da
qualidade é feita durante todo o processo produtivo de modo a permitir a correção de eventuais falhas no sistema
assim que elas apareçam.
As principais áreas da Estatística são:
 Estatística Descritiva: consiste em resumir e organizar os dados coletados utilizando tabelas, gráficos e
medidas numéricas, para, a partir dos dados resumidos, procurar alguma regularidade ou padrão nas observações.
 Probabilidade: é a Teoria Matemática utilizada para se estudar a incerteza oriunda de fenômenos de
caráter aleatório.
 Estatística Indutiva ou Inferencial: é o estudo de técnicas que possibilitam a extrapolação a um grande
conjunto de dados, das informações e conclusões obtidas a partir de subconjuntos de valores usualmente de
dimensão muito menor.
O conhecimento de estatística é importante para qualquer engenheiro. As técnicas estatísticas podem ser
uma ajuda poderosa no planejamento de novos produtos e sistemas. Podem ser usadas melhorando projetos
existentes e planejando, desenvolvendo e melhorando processos de produção.
Os métodos estatísticos nos ajudam a entender a variabilidade já que sucessivas observações de um sistema
não produzem exatamente o mesmo resultado.
Exemplo: Desempenho do consumo de gasolina de um carro. O desempenho não é o mesmo para cada
tanque de combustível. Depende de fatores como: mudanças nas condições do veículo; tipo da gasolina; condições
climáticas. São fatores potenciais de variabilidade.
2. CONCEITOS BÁSICOS
População é um conjunto de elementos (pessoas, animais, unidades produzidas, residências ou outros) de
características comuns, pertencentes a um universo sobre o qual se deseja estabelecer conclusões ou exercer ações.
Se, por exemplo, estivermos interessados em traçar o perfil dos alunos dos cursos de graduação em Engenharia da
UEA, a população seriam todos os alunos regularmente matriculados nos cursos de engenharia. Quando não é
possível estudar, exaustivamente, todos os elementos da população, estudam-se só alguns elementos.
Amostra: podemos definir uma amostra como um subconjunto da população. Uma amostra é uma redução de uma
população a dimensões menores sem a perda de suas características.
Parâmetro: É qualquer medida numérica que descreve uma característica de uma população.
2
Estatística: É qualquer medida numérica que descreve uma característica de uma amostra.
Variável: é toda característica de interesse que é medida em cada elemento da amostra ou população. Como o
nome diz, seus valores podem variar de elemento para elemento. As variáveis podem ser numéricas e não
numéricas. As numéricas são denominadas de quantitativas e as variáveis não numéricas de qualitativas ou
categóricas.
a) Variáveis Qualitativas: São aquelas representadas por uma característica própria da variável, um atributo
ou categoria. Se tais variáveis têm uma ordenação indicando intensidades crescentes de realização são
classificadas como qualitativas ordinais. Caso contrário, quando não é possível estabelecer uma ordem
entre suas categorias elas são classificadas como qualitativas nominais. Sendo assim, variáveis como Grau
de Instrução (fundamental, médio, superior e pós-graduação) e Classe social (Baixa, Média e Alta) são
exemplos de qualitativas ordinais e variáveis como Turma (A e B), Sexo (Feminino ou Masculino) e
Fumante (Sim ou Não) são exemplos de qualitativas nominais.
b) Variáveis Quantitativas: São aquelas representadas por valores numéricos que expressam uma
quantidade, tais como: número de alunos matriculados no semestre, idade do aluno e salário em Reais.
São classificadas em Discretas e Contínuas. As variáveis quantitativas discretas são aquelas cujos valores
resultam, em geral, de processos de contagens e, portanto, estão associadas ao conjunto dos números
naturais. São exemplos: nº de filhos (0, 1, 2, ...) e nº de peças defeituosas num lote (0, 1, 2, ...). As
variáveis quantitativas contínuas são aquelas que podem assumir qualquer valor e que, portanto, seus
valores pertencem a um intervalo de números reais. De modo geral, são aquelas que resultam de
processos de mensuração. São exemplos: altura em cm e peso em kg.
Censo: é um levantamento completo sobre uma determinada população, ou seja, quando todos os seus elementos
são analisados.
Amostragem é o processo ou ato de selecionar os elementos de uma amostra. Há basicamente dois tipos de
amostragem: probabilísticas e não probabilísticas.
Amostragem probabilística: exige que cada elemento da população possua uma determinada probabilidade
de ser selecionado para fazer parte da amostra. Para Costa Neto (2002), a utilização de amostragens probabilísticas
é a melhor estratégia para garantir a representatividade da amostra, pois o acaso será o único responsável por
possíveis diferenças entre população e amostra. Somente com base em amostragens probabilísticas é possível
realizar inferências sobre a população a partir dos parâmetros estudados na amostra.
A amostragem probabilística tem como principais características:
 Poder especificar, para cada elemento da população, sua probabilidade de ser incluído na amostra;
 Poder ser submetida a tratamento estatístico.
Amostragem não probabilística: tem como característica principal não fazer uso de formas aleatórias de
seleção dos elementos que comporão a amostra. Os indivíduos são selecionados através de critérios subjetivos do
pesquisador. Não permite a generalização das informações obtidas na amostra para a população de onde a mesma
foi retirada em função do potencial viés de seleção.
3. REPRESENTAÇÃO TABULAR
Uma tabela consiste em dispor os dados em linhas e colunas distribuídas de modo ordenado. A elaboração de
tabelas segue as regras previstas pelo Conselho Nacional de Estatística (CNE), pela Associação Brasileira de Normas
Técnicas (ABNT) e pelas Normas de apresentação Tabular do Instituto Brasileiro de Geografia e Estatística (IBGE).
Na sequência mostraremos as principais orientações para a elaboração de uma tabela. Para maiores
detalhes, aconselhamos a consulta às normas citadas.3.1 ELEMENTOS DE UMA TABELA:
3
Título: O título deve responder as seguintes questões:
- O que? (Assunto a ser representado (fato));
- Onde? (O lugar onde ocorreu o fenômeno (local));
- Quando? (A época em que se verificou o fenômeno (tempo)).
Deve ter numeração sequencial no caso de haver mais de uma tabela no texto.
Deve ser escrito sem abreviações, por extenso e de forma clara e concisa.
Cabeçalho: parte da tabela na qual é designada a natureza do conteúdo de cada coluna.
Corpo: é o conjunto das informações que aparecem no sentido vertical e horizontal.
Linhas: parte do corpo que contém uma sequência horizontal de informações.
Coluna Indicadora: é a divisão em sentido vertical, onde aparece a designação da natureza do conteúdo da linha.
Casa ou célula: são as divisões que aparecem no corpo da tabela.
Rodapé: É o espaço aproveitado em seguida ao fecho da tabela, onde são colocadas as notas de natureza informativa
(fonte, notas e chamadas).
Fonte: refere-se à entidade que organizou ou forneceu os dados expostos.
Notas e Chamadas: podem ser colocadas nas tabelas após a Fonte. São esclarecimentos contidos na tabela (nota -
conceituação geral; chamada - esclarecer minúcias em relação a uma célula).
É importante que nenhuma casela (interseção entre linha e coluna) fique em branco.
A tabela deve ser uniforme quanto ao número de casas decimais e conter os símbolos – ou 0 quando o valor
numérico é nulo e ... quando não se dispõe do dado.
3.2 TABELAS DE FREQUÊNCIAS
Nas tabelas de distribuições de frequências os dados referentes ao fenômeno são apresentados através de
gradações, onde é feita a correspondência entre categorias ou valores possíveis e as frequências respectivas.
Notação:
 fi = frequência absoluta (simples) do i-ésimo valor observado;
 n = tamanho da amostra (número de unidades observadas);
 f% = frequência percentual do i-ésimo valor observado f% = (fi/n)*100;
 Fi = frequência acumulada até o i-ésimo valor ∑
=
=
n
i
ii fF
1
.
Para construir a distribuição de frequências com os dados de uma variável qualitativa, basta contar a
quantidade de resultados observados em cada categoria. Se a variável for qualitativa ordinal, a ordem das categorias
deve ser observada.
Quando os dados são contínuos, a melhor forma de apresentá-los é utilizando intervalos de valores
denominados Intervalos de Classe. O intervalo de classe é o conjunto de observações contidas entre dois valores
limite (limite inferior e limite superior). Exemplos de intervalos:
• 5 |--- 10: intervalo fechado no limite inferior e aberto no limite superior (contém o valor 5 mas não contém
o valor 10).
• 5 --- 10: intervalo aberto nos limites inferior e superior (não contém os valores 5 e 10).
• 5 |---| 10: intervalo fechado nos limites inferior e superior (contém os valores 5 e 10).
Os intervalos de classe devem ser mutuamente exclusivos (um indivíduo não pode ser classificado em dois
intervalos ao mesmo tempo) e exaustivos (nenhum indivíduo pode ficar sem classificação).
A amplitude do intervalo é o tamanho do intervalo de classe. A amplitude do intervalo e o número de
intervalos dependem basicamente do problema específico e da literatura existente sobre o assunto.
Adotaremos como procedimento para a construção dos intervalos de classe o seguinte roteiro:
a) Encontre o menor e o maior valor das observações e determine a amplitude total dos dados:
h = máximo – mínimo.
b) Determine o número de intervalos. O número de intervalos não deve ser muito baixo nem muito alto. Um
número de intervalos pequeno gera amplitudes de classes grandes o que pode causar distorções na
visualização do histograma. Um número de intervalos grande gera amplitude de intervalo muito reduzida.
Uma regra prática para a determinação do número de intervalos é a que diz que este deve variar entre 5 e 20
4
(5 para um número muito reduzido de observações e 20 para um número muito elevado). Se n representa o
número de observações na amostra, o número aproximado de intervalos (k) pode ser calculado pela raiz
quadrada de n: k ≅ n  arredondando o resultado para o primeiro inteiro;
c) Calcular a amplitude dos intervalos: essa será obtida pela razão entre a amplitude total e o número de
intervalos:
k
hH =
d) Construa as classes de forma a incluir todos os valores observados.
Em todas as etapas da construção das classes deve prevalecer o bom senso. Se a primeira distribuição de
frequências construída ficou muito resumida ou muito dispersa, aumente ou diminua o número de classes,
diminuindo ou aumentando o tamanho delas. Não se recomenda trabalhar com intervalos de classe com amplitudes
diferentes, exceto em casos excepcionais onde os valores extremos muito dispersos tenham de ser agrupados em
uma única classe.
Exemplo 1: O conjunto de valores refere-se ao tempo de fabricação de um produto (em minutos):
40 38 27 25 38 37 29 39 34 43
27 29 37 44 43 30 28 28 29 39
Construa a tabela de frequências com os dados agrupados em intervalos de classe.
Solução: Determinando a amplitude dos dados, temos: h = 44 – 25 = 19 minutos. Considerando que o tamanho da
amostra é 20, o número aproximado de intervalos necessário é igual a 547,420 ≅==k .
A amplitude do intervalo é igual a: H = 19/5 = 3,8 ≅ 4. Utilizando o intervalo fechado à esquerda e aberto à direita,
a tabela fica:
Tempo de Produção
(min) Frequência
Frequência
Percentual
25 |-- 29 5 25
29 |-- 33 4 20
33 |-- 37 1 5
37 |-- 41 7 35
41 |-- 45 3 15
Total 20 100
Na análise de variáveis quantitativas, em geral, são procuradas três informações principais:
a) A faixa em que os valores ocorrem com maior frequência (faixa de valores típicos);
b) Valores discrepantes, que podem ser resultado de erros de mensuração ou digitação, mas também podem
corresponder a elementos que apresentam comportamento muito diferente dos demais;
c) A forma da distribuição de modo a permitir a comparação com modelos probabilísticos, o que nos permite
utilizar técnicas mais avançadas de análise.
No Excel para a construção da tabela de frequências com intervalos pode ser utilizada a função FREQUÊNCIA. A
função determina a FREQUÊNCIA com que os valores ocorrem em um intervalo de valores e, em seguida, retorna uma
matriz vertical de números. A sintaxe da função FREQUÊNCIA tem os seguintes argumentos:
- Matriz_dados (obrigatório): Uma matriz ou uma referência a um conjunto de valores cujas FREQUÊNCIAS você deseja
contar. Refere-se ao conjunto de valores da variável para a qual se deseja construir a tabela.
- Matriz_bin (obrigatório): Uma matriz ou referência a intervalos nos quais você deseja agrupar os valores contidos em
matriz_dados. Se matriz_bin não contiver valores, FREQUÊNCIA retornará o número de elementos em matriz_dados.
Aqui serão colocados os limites superiores dos intervalos. Como o Excel trabalha com o intervalo fechado à direita,
utilize um valor imediatamente inferior ao desejado. Depois de preencher conforme figura abaixo pressione
CTRL+SHIFT+ENTER para obter as frequências.
5
4. REPRESENTAÇÕES GRÁFICAS
As representações gráficas fornecem, em geral, visualização mais sugestiva do que as tabelas. A escolha do
gráfico mais apropriado ficará a critério do analista. Contudo, os seguintes elementos devem ser considerados, quando
da elaboração de um gráfico.
 Simplicidade – o gráfico deve ser destituído de detalhes e traços desnecessários.
 Clareza – o gráfico deve possibilitar uma correta interpretação dos valores representativos do fenômeno em
estudo.
 Veracidade – o gráfico deve expressar a verdade sobre o fenômeno em estudo.
1) Para variáveis qualitativas:
a) Gráfico de colunas/barras: é composto por duas linhas ou eixos, um vertical e outro horizontal. No
eixo horizontal são construídas as colunas que representam cada categoria e a frequência (absoluta
ou relativa) é colocada no eixo vertical. As colunas devem ter a mesma largura e adistância entre
elas deve ser constante. No gráfico de barras, os eixos são invertidos.
A tabela abaixo resume a intenção de carreiras a seguir após o término da graduação pela turma 6 de
Probabilidade e Estatística da EST/UEA em 2016/2:
Carreira que pretende seguir Frequência Porcentagem
Ser empresário(a) 6 20,0
Trabalhar numa universidade como
professor(a)/pesquisador(a) 7 23,3
Trabalhar em empresa privada 12 40,0
Trabalhar em empresa pública 5 16,7
Total 30 100,0
A representação gráfica desta tabela segue abaixo nas três possíveis versões gráficas.
Gráfico 1 – Carreiras pretendidas pelos alunos da Turma 6 de Probabilidade e Estatística da EST/UEA em
2016/2.
Fonte: Dados coletados em sala de aula.
6
Alternativamente, o eixo horizontal poderia representar a escala das frequências e o eixo vertical, as
categorias. O resultado é chamado de Gráfico de Barras.
Gráfico 2 – Carreiras pretendidas pelos alunos da Turma 6 de Probabilidade e Estatística da EST/UEA em
2016/2.
Fonte: Dados coletados em sala de aula.
b) Gráfico de Setores Circulares: Um gráfico muito comum para representar variáveis qualitativas é o
chamado Gráfico de Setores Circulares (pizza) que é particularmente útil quando o nº de categorias
não é grande e as categorias não obedecem a alguma ordem específica. Consiste num círculo de raio
arbitrário, representando o todo, dividido em setores, que correspondem às categorias da variável
de maneira proporcional. A representação da área de cada setor é obtida por uma regra de três
simples onde o círculo corresponde ao ângulo de 360° e é associado ao total de valores observados
(tamanho da população ou da amostra), um ângulo X° que corresponde a um subconjunto do total.
Os valores de X° devem somar 360°.
Gráfico 3 – Carreiras pretendidas pelos alunos da Turma 6 de Probabilidade e Estatística da EST/UEA em
2016/2.
Fonte: Dados coletados em sala de aula.
2) Para variáveis quantitativas contínuas:
A representação gráfica da distribuição de frequências de uma variável contínua pode ser feita através
de dois gráficos: o histograma e o Polígono de Frequências.
7
O histograma é um gráfico de barras verticais contíguas devido ao caráter contínuo dos valores da
variável. As bases são proporcionais aos intervalos das classes e a área de cada retângulo é proporcional à respectiva
frequência que pode ser tanto a absoluta simples como a percentual.
Tomaremos como exemplo a distribuição das alturas dos alunos da turma 05 de Probabilidade e
Estatística do semestre 2016/2:
Alturas (cm) Frequência Ponto Médio
149 |--- 157 3 153
157 |--- 165 2 161
165 |--- 173 9 169
173 |--- 181 13 177
181 |--- 189 1 185
189 |--- 197 1 193
Total 29 --
O histograma para os dados da tabela acima ficará assim definido:
Gráfico 4 – Distribuição das alturas (cm) dos alunos da Turma 5 de Probabilidade e Estatística da EST/UEA em
2016/2.
Fonte: Dados coletados em sala de aula.
O polígono de frequência é um gráfico de linha obtido quando são unidos, por uma poligonal, os pontos
correspondentes às frequências das diversas classes, centrados nos respectivos pontos médios.
O ponto médio é calculado para cada intervalo pela média aritmética entre os dois extremos:
2
LILSPM i
+
= , onde LS = limite superior do intervalo e LI = limite inferior do intervalo.
Para obter as interseções da poligonal com o eixo, cria-se em cada extremo uma classe com frequência nula
antes do primeiro e depois do último intervalo.
8
Gráfico 5 – Distribuição das alturas (cm) dos alunos da Turma 5 de Probabilidade e Estatística da EST/UEA em
2016/2.
Fonte: Dados coletados em sala de aula.
5. MEDIDAS DE POSIÇÃO OU TENDÊNCIA CENTRAL
A tendência central da distribuição de frequências de uma variável em um conjunto de dados é caracterizada
pelo valor típico dessa variável. Essa é uma maneira de resumir a informação contida nos dados, pois escolheremos
um valor para representar todos os outros.
Veremos três medidas que podem ser utilizadas para descrever a tendência central de um conjunto de dados:
a média, a mediana e a moda. Apresentaremos essas três medidas e discutiremos suas vantagens e desvantagens.
5.1 MÉDIA ARITMÉTICA
Média Aritmética (Média) é a medida de tendência central mais conhecida e usada para o resumo de dados.
Essa popularidade pode ser devida à facilidade de cálculo e à ideia simples que ela nos sugere. No caso de dados não
agrupados, a média aritmética é definida pela soma de todos os valores do conjunto dividida pelo número deles. Para
dados amostrais:
n
xxx
n
x
X n
n
i
i +++
==
∑
=
...211 , onde, n = tamanho da amostra.
Exemplo 2: Determine a média aritmética para o conjunto de valores abaixo:
3 2 1 5 4
Solução: A média do conjunto de valores é igual a: 3
5
15
==X .
De sua própria definição podemos verificar que a média aritmética:
a) É da mesma natureza da variável considerada;
b) É um valor único para cada conjunto de valores;
c) Não pode ser calculada quando os dados estiverem agrupados em intervalos onde o primeiro e o último deles
tiverem seus extremos indefinidos;
d) Sofre a influência de valores aberrantes presentes no conjunto.
Propriedades da média aritmética:
1) Multiplicando-se todos os valores de uma variável por uma constante, a média do conjunto fica
multiplicada por essa constante;
2) Somando-se ou subtraindo-se uma constante a todos os valores de uma variável, a média do conjunto
fica acrescida ou diminuída dessa constante.
3) A soma de todos os desvios em relação à média é igual a zero.
O Excel disponibiliza a função MÉDIA que determina o valor da média aritmética. A função retorna a média
aritmética dos argumentos.
9
Se os dados estão apresentados na forma de uma variável discreta numa tabela de frequências, utilizaremos
a média aritmética ponderada, considerando as frequências simples fi como sendo as ponderações dos elementos xi
correspondentes. A fórmula de cálculo da média é dada por:
( )
n
fx
X
k
i
ii∑
=
=
1 , onde k é o número de observações
distintas.
Exemplo 3: A tabela abaixo resume a informação do número de irmãos dos alunos da Turma 4 de
Probabilidade e Estatística da EST/UEA em 2016/2. Determinar a média da distribuição:
Número de irmãos
(xi) fi ii
fx
0 4 0
1 8 8
2 12 24
3 9 27
4 7 28
Total 40 87
Solução: A média da distribuição de frequências é dada por: 2,2
40
87
==X irmãos.
Para uma distribuição de frequências com dados agrupados em intervalos de classe, a média aritmética
ponderada será um valor aproximado definido por:
( )
n
fPM
X
k
i
ii∑
=
⋅
=
1 , onde:
k = número de intervalos de classe;
fi = frequência simples de cada intervalo de classe;
PM = ponto médio de cada intervalo de classe;
n = tamanho da amostra.
Exemplo 4: A tabela abaixo resume a informação do número de reprovações dos alunos da Turma 4 de
Probabilidade e Estatística da EST/UEA em 2016/2. Determinar a média da distribuição:
Intervalos fi PM ii fPM ⋅
0 |-- 2 4 1 4
2 |-- 4 7 3 21
4 |-- 6 13 5 65
6 |-- 8 10 7 70
8 |-- 10 6 9 54
Total 40 -- 214
Portanto, a média da distribuição de frequências é dada por: 4,5
40
214
==X reprovações.
5.2 MEDIANA
A mediana é o valor que divide um conjunto de dados ordenados em exatamente duas partes iguais. Se o
total de elementos do conjunto (n) for um número ímpar, a mediana será o valor do conjunto que ocupar a posição


 +
2
1n .
Se n for um número par, a mediana será definida pela média aritmética entre os valores do conjunto que
ocuparem as duas posições centrais dadas por 


2
n e 1
2
+

 n .
Tomando como exemplo o conjunto de notas dados por X = (2, 5, 5, 6, 7), a mediana será então definida
como: n = 5 (ímpar), a posição central será dada por ª3
2
15
=

 + posição.
10
Logo, o valor da medianaserá Md = 5 pontos.
Se o conjunto fosse composto pelos valores (2, 5, 6, 6, 7, 8) então n = 6 (par) e as duas posições centrais
seriam ª3
2
6
=

 posição e ª41
2
6
=+

 posição. Logo, o valor da mediana será: Md = 6
2
66
=

 + pontos.
No Excel , a função MED retorna o valor da mediana de um conjunto de valores.
Quando os dados estão apresentados na forma de uma variável discreta, eles já estão naturalmente
ordenados. Assim, basta verificar se o número de elementos da série é ímpar ou par.
Tomando os dados do exemplo 3, como n = 40 é par, então os dois valores centrais ocupam as posições
ª20
2
40
=

 e ª211
2
40
=+

 . Pela frequência acumulada podemos localizar as posições:
xi fi Fi
0 4 4
1 8 12
2 12 24
3 9 33
4 7 40
Total 40 --
Pela frequência acumulada, podemos verificar que os 20º e o 21º valores em ordem são ambos iguais a 2.
Portanto, o valor da mediana é: Md = 2 irmãos. Isso significa que 50% dos valores da série são menores ou
iguais a 2 e 50% dos valores da série são maiores ou iguais a 2.
Para uma distribuição de frequências com dados agrupados em intervalos de classe, o procedimento do
cálculo da mediana é o seguinte:
a) Calcula-se a ordem
2
n onde n é o tamanho da amostra;
b) Pela frequência acumulada (Fi), identifica-se a classe que contém a mediana;
c) Utiliza-se a expressão abaixo para determinar o valor da mediana:
h
F
Fn
LiMd
MD
acANT
×








−
+= 2 , onde:
Li = Limite inferior à classe mediana.
FacANT = Frequência acumulada até a classe anterior à classe mediana;
FMD = Frequência absoluta da classe mediana;
h = amplitude do intervalo de classe.
Tomando a distribuição da distribuição do exemplo 4 e determinando a posição º20
2
40
2
==
n , identificamos
a classe mediana: 4 |-- 6.
Intervalos fi Fi
0 |-- 2 4 5
2 |-- 4 7 11
4 |-- 6 13 24
6 |-- 8 10 34
8 |-- 10 6 40
Total 40 --
Aplicando a expressão dada para dados agrupados em intervalos para determinar o valor da Mediana,
teremos: 4,52
13
11204 =×

 −
+=Md reprovações.
5.3 Moda (Mo)
A Moda é o valor (categoria ou intervalo) mais frequente, mais típico ou mais comum.
Um mesmo conjunto pode ter mais do que um valor de moda ou mesmo nenhum valor de moda.
Assim, no conjunto (2, 5, 5, 6, 7) o valor da nota de moda é igual a 5 (Mo = 5 pontos). Se o conjunto de
11
valores somente possuir um valor de moda ele é denominado de Unimodal.
Para o conjunto formado pelos valores (2, 5, 5, 6, 6, 7 ) teremos dois valores de moda que são Mo = 5 pontos
e Mo = 6 pontos. Caso o conjunto de valores possua mais de um valor de moda ele é denominado de Bimodal.
Se o conjunto de valores possuir mais de dois valores de moda, ele é dito Multimodal e, caso não tenha
nenhum valor de moda de Amodal.
Para dados apresentados na forma de uma variável discreta, a determinação da moda é bem simples, basta
observar qual valor da tabela têm maior frequência absoluta. No caso do exemplo 3, o valor de é moda é igual a
Mo = 2.
Para uma distribuição de frequências com dados agrupados em intervalos de classe, a moda será um valor
aproximado definido por: hLMo i ×∆+∆
∆
+=
21
1 , onde:
Li = Limite inferior da classe modal (classe de maior frequência);
1∆ = Diferença entre a frequência absoluta da classe modal e da classe imediatamente anterior;
2∆ = Diferença entre a frequência absoluta da classe modal e da classe imediatamente posterior;
h = amplitude da classe modal.
Tomando os dados do exemplo 4, a classe modal é a 3ª classe, 4 |-- 6, pois apresenta a maior frequência
absoluta.
Aplicando a fórmula definida para cálculo do valor da moda, teremos:
3,53,142)1013()713(
)713(4 =+=×
−+−
−
+=Mo .
No Excel, as funções MODO.UNICO e MODO.MULT quer retornam com o valor de Moda de um conjunto. A
função MODO.UNICO retorna o valor que ocorre com mais frequência em uma matriz ou intervalo de dados. Já a
função MODO.MULT retorna uma matriz vertical dos valores que ocorrem com mais frequência, ou várias vezes, em
uma matriz ou intervalo de dados.
MODA, MEDIANA OU MÉDIA: COMO ESCOLHER?
Devemos sempre apresentar os valores de todas as medidas de tendência central. Na sequência faremos uma
comparação entre elas em situações onde a diferença entre seus valores poderá levar a conclusões diversas sobre os
dados.
MEDIANA VERSUS MÉDIA
A média é uma medida-resumo muito mais usada na prática do que a mediana. Existem várias razões para
essa popularidade da média, entre elas, a facilidade de tratamento estatístico e algumas propriedades interessantes
que a média apresenta.
No entanto, a média é uma medida muito influenciada pela presença de valores extremos em um conjunto
de dados (valores muito grandes ou muito pequenos em relação aos demais).
Como a média usa os valores de cada observação em seu cálculo, esses valores extremos “puxam” o valor da
média em direção a si, deslocando também a representação do centro, que já não será tão central como deveria ser.
A mediana, por sua vez, não é tão influenciada por valores extremos, pois o que utilizamos para calculá-la é a
ordem dos elementos e não diretamente seus valores. Assim, se um elemento do conjunto de dados tem o seu valor
alterado (um erro, por exemplo), mas sua ordem continua a mesma, a mediana não sofre influência nenhuma.
De modo geral, o uso da mediana é indicado quando:
• Os valores para a variável em estudo têm distribuição de frequências assimétrica (verificada através das
ferramentas gráficas);
• O conjunto de dados possui algumas poucas observações extremas (valores muito mais altos ou muito
mais baixos que os outros);
MODA VERSUS MÉDIA E MEDIANA
A moda não é uma medida de tendência central muito utilizada, mas tem suas vantagens em relação à média
e à mediana, especialmente quando estamos lidando com variáveis que possuem distribuição de frequências bimodais
ou multimodais.
12
6. MEDIDAS DE VARIABILIDADE (DISPERSÃO).
As medidas de tendência central (média, mediana, moda) conseguem resumir em um único número, o valor
que é “típico” no conjunto de dados. Mas, somente com essas medidas, não conseguimos descrever adequadamente
o que ocorre em um conjunto de dados.
Tomemos como exemplo os dois conjuntos de observações abaixo:
A: 25 28 31 34 37 B: 17 23 30 39 46
Ambos têm a mesma média, 31. No entanto, percebe-se intuitivamente que o conjunto B acusa dispersão
muito maior do que o conjunto A. Torna-se então necessário estabelecer medidas que indiquem o grau de dispersão,
ou variabilidade, em relação ao valor central.
As medidas de dispersão são medidas que mostram o grau de dispersão ou de concentração em torno da
média. As principais medidas de dispersão são: amplitude, variância, desvio padrão e coeficiente de variação.
6.1. AMPLITUDE.
A amplitude de um conjunto de dados é a diferença entre o maior valor e o menor valor. Logo, a amplitude é
definida por: MínimoMáximoAt −= .
No caso do exemplo dado acima, teremos:
Conjunto A: 122537 =−=At
Conjunto B: 291746 =−=At
Logo, o conjunto B apresenta a maior dispersão.
Para os dados do exemplo 3, a amplitude é definida por: 404 =−=At .
Para dados tabelas em classes, por desconhecer o maior e o menor valor da série, devemos fazer um cálculo
aproximado da amplitude. Consideraremos como maior valor da série o ponto médio da última classe e como menor
valor o ponto médio da primeira classe. A amplitude é a diferença entre estes valores.
Para os dados do exemplo 4, a amplitude é definida por: 819 =−=At .
6.2. VARIÂNCIA.
Esta medida leva em conta todas as observações da amostra e mede a dispersão desses valores em torno da
média. É dada pela soma dos quadrados dos desvios (SQD) em relação a media aritmética, dividida pelo número de
graus de liberdade (G.L)*. Por definição é a média dos quadrados dosdesvios para dados amostrais é dada por:
1
1
2)(
2
−
∑
=
−
=
n
n
i
XXi
s onde, n = tamanho da amostra e X é a média amostral do conjunto.
(G.L)*: De uma maneira geral, o número de graus de liberdade associados a uma estatística é o número de elementos
da amostra, n, menos o número de parâmetros já estimados.
Tomando os dados do exemplo 1, lembrando que a média é igual a 3
5
15
==X , temos:
xi ∑
=
−
n
i
XXi
1
2)(
3 (3 – 3)2 = 0
2 (2 – 3)2 = 1
1 (1 – 3)2 = 4
5 (5 – 3)2 = 4
4 (4 – 3)2 = 1
Total 10
O valor da variância é definido por: 5,2
15
102
=
−
=s .
CONSIDERAÇÕES SOBRE A VARIÂNCIA:
a) O sinal dos desvios é irrelevante, uma vez que na fórmula os desvios são elevados ao quadrado.
b) A magnitude da diferença é que vai determinar maior ou menor peso para a variância.
c) A variância de um único dado é indeterminada. Isso revela obviamente, de que nada podemos dizer da
variação de dados sem repetição.
13
d) Somando-se ou subtraindo-se uma mesma constante (k) a todas as observações de um conjunto de dados a
variância não se altera.
e) Multiplicando-se cada observação de um conjunto de dados por uma mesma constante (k≠0), a variância do
conjunto original fica multiplicada pelo quadrado dessa constante.
f) Dividindo-se cada observação de um conjunto de dados por uma mesma constante (k≠0), a variância do
conjunto original ficará dividida pelo quadrado dessa constante.
Como medida de dispersão a variância tem a desvantagem de apresentar unidade de medida igual ao
quadrado da unidade dos dados observados, p.ex.; se os dados são medidos em metros (m), a variância é dada em
metros ao quadrado (m)2. Para voltarmos à unidade de medida original, precisamos de outra medida de dispersão, o
Desvio Padrão.
Se houver repetições de elementos na série, definimos a variância como sendo uma média aritmética
ponderada dos quadrados dos desvios dos elementos da série para a média da série.
Tomando os dados do exemplo 3, onde a média aritmética é igual a 2,2
40
87
==X , temos:
xi fi i
n
i
fXXi ⋅−∑
=1
2)(
0 4 (0 – 2,2)2 x 4 = 19,4
1 8 (1 – 2,2)2 x 8 = 11,5
2 12 (2 – 2,2)2 x 12 = 0,5
3 9 (3 – 2,2)2 x 9 = 5,8
4 7 (4 – 2,2)2 x 7 = 22,7
Total 40 59,9
A variância será definida por 5,1
39
9,592
==s .
Para uma distribuição de frequências com dados agrupados em intervalos de classe, a variância será um valor
aproximado definido por:
( )
1
1
2
2
−
×−
=
∑
=
n
fXPM
S
k
i
ii
, onde:
PMi = ponto médio de cada intervalo de classe;
X = média aritmética;
fi = frequência absoluta;
n = tamanho da amostra;
k = número de intervalos de classe.
Tomando os dados do exemplo 5 cuja média determinada é igual a 4,5
40
214
==X , teremos:
Intervalos fi PM ( ) ii fXPM ⋅− 2
0 |-- 2 4 1 (1 – 5,4)2 x 4 = 77,4
2 |-- 4 7 3 (3 – 5,4)2 x 7 = 40,3
4 |-- 6 13 5 (5 – 5,4)2 x 13 = 2,1
6 |-- 8 10 7 (7 – 5,4)2 x 10 = 25,6
8 |-- 10 6 9 (9 – 5,4)2 x 6 = 77,8
Total 40 -- 223,2
A variância será definida por 7,5
39
2,2232
==s .
No Excel temos a função VAR.A que retorna a variância de uma amostra. Na função VAR.P temos o cálculo da
variância de dados populacionais.
6.3. DESVIO PADRÃO
É a raiz quadrada positiva do valor da variância, avalia a variação dos dados e nos permite discutir os
resultados na mesma unidade de mensuração dos dados. O desvio padrão da população e da amostra é representado,
14
respectivamente por: 2ss = . No Excel estão disponíveis as funções DESVPAD.A e DESVPAD.P que
determinam, respectivamente, o valor do desvio padrão de uma amostra e de uma população.
6.4 COEFICIENTE DE VARIAÇÃO (ou de variabilidade)
Frequentemente se tem o interesse em comparar variabilidades de diferentes conjuntos de valores. A
comparação se torna difícil em situações onde as médias são muitos desiguais ou as unidades de medidas são
diferentes.
O Desvio Padrão é uma medida absoluta da dispersão e o Coeficiente de Variação é uma medida relativa de
dispersão, pois expressa percentualmente o Desvio Padrão por unidade de média, ou seja, o CV representa o Desvio
Padrão que seria obtido se a média fosse igual a 100.
100
média
padrãodesvio100 ⋅=⋅=
X
sCV
Quanto menor o Coeficiente de Variação de um conjunto de dados, menor é a sua variabilidade.
O Coeficiente de Variação expressa o quanto da escala de medida, representada pela média, é ocupada pelo
desvio-padrão.
O Coeficiente de Variação é uma medida adimensional, isto é, não depende da unidade de medida. Essa
característica nos permite usá-lo para comparar a variabilidade de conjuntos de dados medidos em unidades
diferentes, o que seria impossível usando o desvio-padrão.
Para se entender como se interpreta o coeficiente de variação, imagine dois grupos de pessoas.
No primeiro grupo, as pessoas têm idades: 3, 1 e 5 anos. E no segundo grupo as pessoas têm idades: 55, 57 e
53 anos.
No primeiro grupo, a média de idade é de 3 anos e, no segundo grupo, a média de idade é de 55 anos.
Nos dois grupos a dispersão dos dados é a mesma pois ambos têm desvio-padrão S = 2 anos. Agora veja os
coeficientes de variação.
No primeiro grupo, o coeficiente de variação é igual a %64,3100
55
2100 ==⋅= x
X
sCV , e no segundo grupo,
o coeficiente de variação é igual a %67,66100
3
2100 ==⋅= x
X
sCV .
Um coeficiente de variação igual a 66,67% indica que a dispersão dos dados em relação à média é muito
grande, ou seja, a dispersão relativa é alta. Já um coeficiente de variação de 3,64% indica que a dispersão dos dados
em relação à média é pequena.
7. SEPARATRIZES: QUARTIS, DECIS E PERCENTIS.
Os quartis, decis e percentis, assim como a Mediana, também subdividem a distribuição de medidas de
acordo com a proporção das frequências observadas.
a) QUARTIL (Q): Os quartis dividem um conjunto de valores ordenados em ordem crescente em quatro partes
iguais, isto é, 25% por parte. Há, portanto, em uma distribuição de frequências, três quartis. Sendo assim,
Q1 separa os 25% inferiores dos 75% superiores dos valores ordenados. O segundo quartil (Q2) é igual à
Mediana e o terceiro quartil (Q3) separa os 75% inferiores dos 25% superiores dos valores ordenados.
Amplitude Interquartílica (AIQ): Corresponde à diferença entre o valor do Q3 e Q1. Corresponde aos 50% dos
dados que ocupam a posição mais central da distribuição. É menos afetada pelos valores extremos do que a amplitude
e o desvio padrão, o que faz desta medida a melhor escolha quando a distribuição de frequência apresenta alto grau
de assimetria: AIQ = Q3 – Q1.
b) DECIL (D): Os Decis dividem um conjunto de valores ordenados em ordem crescente em dez partes iguais.
Há, portanto, 9 Decis que dividem os dados em 10 partes iguais com 10% deles em cada grupo.
c) PERCENTIL (P): Os Percentis ou Centis dividem um conjunto de valores ordenados em ordem crescente em
cem partes iguais. Há, portanto, 99 Percentis que dividem os dados em 100 partes iguais com 1% deles em
cada grupo.
Os Quartis e Decis podem ser obtidos pela determinação dos Percentis correspondentes.
O 1º Quartil corresponde ao 25º Percentil, o 2º Quartil corresponde ao 50º Percentil, o 3º Quartil
15
corresponde ao 75º Percentil, o 2º Decil corresponde ao 20º Percentil e assim por diante.
Adotaremos o esquema proposto por Triola (1999) para determinação do Percentil de ordem k:
Não Sim
Exemplo 6: Considere o conjunto formado pelas idades de um grupo de 8 alunos: 20 21 18 26 18 23 29 e
31. Determine os valores dos Quartis.
Solução: O primeiro quartil corresponde ao 25º percentil, o segundo quartil corresponde ao 50º percentil e o
terceiro quartil corresponde ao 75º percentil. Então, como n = 8:
1º Quartil -> ( ) º2810025 =⋅=L . Como deu inteiro, então P25 será igual à média entre os valores que ocupam a
2ª e a 3ª posição em ordem a contar do menor. Nesse caso, Q1=P25=192
2018
=
+ anos.
2º Quartil -> ( ) º4810050 =⋅=L . Como deu inteiro, então P50 será igual à média entre os valores que ocupam a
4ª e a 5ª posição em ordem a contar do menor. Nesse caso, Q2=P50= 222
2321
=
+ anos.
3º Quartil -> ( ) º6810075 =⋅=L . Como deu inteiro, então P75 será igual à média entre os valores que ocupam a
6ª e a 7ª posição em ordem a contar do menor. Nesse caso, Q3=P75= 5,272
2926
=
+ anos.
No Excel podemos utilizar a função PERCENTIL.INC que retorna o k-ésimo percentil de valores em um intervalo,
onde k está no intervalo de 0 a 1, inclusive. Se tomarmos o K = 0,25 estaremos determinando o Percentil 25º que
corresponde ao primeiro quartil. Podemos utilizar a função para determinar qualquer separatriz.
8. ASSIMETRIA
A caracterização de um conjunto de observações pode ser feita em termos de um valor típico (medidas de
tendência central) e do comportamento dos demais valores do conjunto ao redor dele (medidas de dispersão).
Podemos ainda fornecer mais elementos de modo a completar o diagnóstico do conjunto como a verificação
da forma de sua distribuição de frequências.
As medidas de assimetria visam indicar o quanto assimétrica é a distribuição. Distribuições simétricas
apresentam os mesmos valores para a média aritmética, a mediana e a moda, ou seja, as três medidas de posição
mais importantes são coincidentes.
A distribuição de frequências de uma variável pode ter várias formas, mas existem três formas básicas,
representadas esquematicamente pelos histogramas da Figura 1.
Ordene os dados do menor
para o maior
Calcule L = (k/100)n
k= percentil desejado
n= número de valores
L é um número
inteiro?
Arredonde L para o maior
inteiro mais próximo. O
valor de Pk é o L-ésimo
valor a contar do menor
valor do conjunto.
O valor de Pk é a média
entre o L-ésimo e o (L+1)-
ésimo valores a contar do
menor.
16
Figura 1 – Representação esquemática da forma da distribuição de frequências e as posições relativas das medidas de
tendência central.
Nesta figura, também está a posição de cada uma das medidas de tendência central apresentadas neste
texto. Uma maneira simples de caracterizar a assimetria pode ser determinada pela diferença entre a média
aritmética e a moda:
 X - Mo = 0 assimetria nula ou distribuição simétrica
 X - Mo < 0 assimetria negativa ou à esquerda
 X - Mo > 0 assimetria positiva ou à direita
Exemplo 5: Considere as distribuições de frequências abaixo:
Distribuição A Distribuição B Distribuição C
Peso(kg) Frequência Peso(kg) Frequência Peso (kg) Frequência
2 |-- 6 6 2 |-- 6 6 2 |-- 6 6
6 |-- 10 12 6 |-- 10 12 6 |-- 10 30
10 |-- 14 24 10 |-- 14 24 10 |-- 14 24
14 |-- 18 12 14 |-- 18 30 14 |-- 18 12
18 |-- 22 6 18 |-- 22 6 18 |-- 22 6
Total 60 Total 78 Total 78
Compare as distribuições quanto ao tipo de assimetria.
Solução: Calculando as médias, modas e medianas das distribuições, teremos:
Distribuição A: X = 12 (kg); Md = 12 (kg); Mo = 12 (kg). X - Mo = 0 temos distribuição simétrica;
Distribuição B: X = 12,9 (kg); Md = 13,5 (kg); Mo = 14,8 (kg) X - Mo < 0 temos distribuição assimétrica negativa;
Distribuição C: X = 11,1 (kg); Md = 10,5 (kg); Mo = 9,2 (kg)  X - Mo > 0 temos distribuição assimétrica positiva;
BIBLIOGRAFIA DO TEXTO
BOLFARINE, H.; BUSSAB, W.O. Elementos de amostragem. São Paulo: Editora Edgard Blucher, 2012.
CORREA, S.M.B.B. Probabilidade e Estatística. Minas Gerais: PUC Minas Virtual, 2003.
COSTA NETO, P. L. O. Estatística. São Paulo: Blucher, 2002.
MAGALHÃES, M.N.; LIMA, A.C.P. Noções de probabilidade e estatística. Edusp, 2002.
TRIOLA, M.F. Introdução à Estatística. Rio de Janeiro: Editora LTC, 1999.
WALPOLE, R.E.; MYERS, R.H.; MYERS, S.L.; YE, K. Probabilidade e Estatística para engenharia e ciências. São Paulo:
Editora Pearson Prentice Hall, 2009.

Outros materiais