Buscar

Estatística para Psicologia

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 66 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 66 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 66 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Universidade Federal de Mato Grosso
Notas de Aula
Disciplina: Estatística aplicada à Psicologia
Curso: Psicologia
Professora: Eveliny Barroso
Sumário
1 Introdução 2
1.1 Fases do Trabalho Estatístico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Ramificações da Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Estatística Descritiva 4
2.1 Classificação de variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1.1 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Tipos de séries estatísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2.1 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3 Análise de Variáveis Qualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3.1 Distribuição de Frequências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3.2 Representação Gráfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.3 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.4 Análise de Variáveis Quantitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4.1 Distribuição de Frequências - Variável Discreta. . . . . . . . . . . . . . . . . . . . . . 15
2.4.2 Representação Gráfica - Variável Discreta . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.3 Distribuição de Frequências - Variável Contínua. . . . . . . . . . . . . . . . . . . . . 16
2.4.4 Representação Gráfica - Variável Contínua . . . . . . . . . . . . . . . . . . . . . . . 18
2.4.5 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.6 Somatório . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.5 Medidas de Posição ou Tendência Central . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.5.1 Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.5.2 Mediana (Md) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.5.3 Moda (Mo) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.5.4 Comparação entre Média, Mediana e Moda . . . . . . . . . . . . . . . . . . . . . . . 27
2.5.5 Simetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.5.6 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.6 Separatrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.6.1 Quartis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.6.2 Decis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.6.3 Percentis ou Centis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.6.4 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.7 Medidas de Dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.7.1 Amplitude Total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.7.2 Amplitude Interquartílica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.7.3 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.7.4 Coeficiente de Variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.7.5 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3 Probabilidade 41
3.1 Fenômeno Aleatório . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2 Espaço Amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3 Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4 Partição de um espaço amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.5 Definição de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.6 Algumas Propriedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.7 Probabilidade Condicional e Independência de Eventos . . . . . . . . . . . . . . . . . . . . . 45
3.8 Árvores de probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.9 Teorema da probabilidade total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.10 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.11 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4 Variáveis Aleatórias 51
4.1 Variável Aleatória Discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.2 Esperança matemática - Valor Médio de uma variável aleatória . . . . . . . . . . . . . . . . . 53
4.3 Algumas propriedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.4 Distribuição Uniforme Discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.5 Distribuição Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.6 Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5 Variável Aleatória Contínua 58
5.1 Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.2 Distribuição Normal Padronizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.3 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
1
1 Introdução
A Estatística é uma ciência cujo campo de aplicação estende-se a muitas áreas do conhecimento humano.
Entretanto, um equívoco comum que deparamos nos dias atuais é que, em função da facilidade que o advento
dos computadores nos proporciona, permitindo desenvolver cálculos avançados e aplicações de processos so-
fisticados com razoável eficiência e rapidez, muitos pesquisadores consideram-se aptos a fazerem análises e
inferências estatísticas sem um conhecimento mais aprofundado dos conceitos e teorias. Tal prática, em geral,
culmina em interpretações equivocadas e muitas vezes errôneas.
No desenvolvimento científico e em nosso próprio dia-a-dia, estamos sempre fazendo observações de
fenômenos, gerando dados. Quando as pessoas ouvem a palavra “estatística”, imaginam logo taxas de acidente,
índices de mortalidade, litros por quilômetro etc. Os agrônomos estão frequentemente analisando o efeito
de agrotóxicos na agricultura, os engenheiros analisam dados de propriedades de materiais e todos nós, ao
lermos jornais e revistas, estamos vendo resultados estatísticos provenientes do censo demográfico, de pesquisas
eleitorais etc.
Entende-se a Estatística como um conjunto de técnicas que permite, de forma sistemática, organizar,
descrever, analisar e interpretar dados oriundos de estudos ou experimentos, realizados em qualquer área do
conhecimento. Denomina-se por dados um (ou mais) conjunto de valores, numéricos ou não.
As variáveis são o foco principal da pesquisa em ciências. Uma variável é simplesmente algo que pode
variar, isto é, pode assumir valores ou categorias diferentes. Alguns exemplos de variáveis são gênero (sexo),
velocidade de digitação, número de sintomas registrados de uma doença, nível de ansiedade, número de gols
em uma partida de futebol, cores favoritas etc. Estes são exemplos de itens quese pode medir e registrar e que
variam de uma situação ou pessoa para outra.
As análises estatísticas dependem da forma como os dados são coletados e o planejamento estatístico
da pesquisa indica o esquema sob o qual os dados serão obtidos. Portanto, o planejamento da pesquisa e a
análise estatística dos dados estão intimamente ligados. Dessa forma, o pesquisador deve possuir um razoável
conhecimento de estatística para desenvolver suas pesquisas ou, então, consultar um estatístico para auxiliá-lo.
Esta consulta deve ser feita antes do início da pesquisa, ainda durante a fase de elaboração do projeto. 1
1.1 Fases do Trabalho Estatístico
O Trabalho Estatístico pode ser descrito pelas etapas a seguir:
• Definição do problema - Consiste na:
– formulação correta do problema;
– examinar outros levantamentos realizados no mesmo campo (revisão da literatura);
– saber exatamente o que se pretende pesquisar definindo o problema corretamente (variáveis, popu-
lação, hipóteses, etc.)
• Planejamento -Determinar o procedimento necessário para resolver o problema:
1ANDRANDE, Dalton; OGLIARI, Paulo. Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007.
2
– Como levantar informações;
– Tipos de levantamentos: Por Censo (completo); Por Amostragem (parcial).
– Cronograma, Custos, etc.
• Coleta de dados - Consiste na obtenção dos dados referentes ao trabalho que desejamos fazer;
– A coleta pode ser: Direta - diretamente da fonte ou Indireta - feita através de outras fontes.
– Os dados podem ser obtidos pela própria pessoa (primários) ou se baseia no registro de terceiros
(secundários).
• Apuração dos dados - Consiste em resumir os dados, através de uma contagem e agrupamento. É um
trabalho de coordenação e de tabulação.
• Apresentação dos dados - É a fase em que vamos mostrar os resultados obtidos na coleta e na organização.
Esta apresentação pode ser:
– Tabular (apresentação numérica)
– Gráfica (apresentação geométrica)
• Análise e interpretação dos dados - É a fase mais importante e também a mais delicada. Tirar conclusões
que auxiliam o pesquisador a resolver seu problema.
1.2 Ramificações da Estatística
1. Estatística Descritiva
Compreende a organização, o resumo e, em geral, a simplificação de informações que podem ser muito
complexas. A finalidade é tornar as coisas mais fáceis de entender, de relatar e de discutir. A mé-
dia industrial Dow-Jones, a taxa de desemprego, o custo de vida, o índice pluviométrico, tudo isto se
enquadra nessa categoria. A estatística descritiva vai resumir as informações através do uso de certas
medidas-síntese, que tornem possível a interpretação de resultados. No sentido mais amplo, suas funções
são:
• coleta de dados;
• organização e classificação destes dados;
• apresentação através de gráficos e tabelas;
• cálculo de coeficientes (estatísticos), que permitem descrever resumidamente os fenômenos.
2. Probabilidade
É útil para analisar situações que envolvem o acaso. Exemplo de situações que enquadram-se na categoria
do acaso: Jogos de dados e de cartas ou Lançamento de uma moeda para o ar. A maioria dos jogos
esportivos é influenciada pelo acaso até certo ponto.
3
3. Inferência
Diz respeito a análise e interpretação de dados amostrais. Ou seja, com base numa amostra faz-se infe-
rência para toda população. Um exemplo do uso da inferência no nosso dia-a-dia é que não precisamos
beber toda a sopa para saber se está ou não salgada. A idéia básica da amostragem é efetuar determi-
nada mensuração sobre uma parcela pequena, mas típica, de determinada “população” e utilizar essa
informação para fazer inferência sobre a população toda.
Firmas comerciais e entidades governamentais recorrem a amostragem por várias razões. O custo é
usualmente um fator relevante. Coligir dados e analisar resultados custa dinheiro e, em geral, quanto
maior o número de dados coligidos, maior o custo. A amostragem reduz a quantidade de dados a coligir
e analisar, diminuindo assim os custos. 2
Em estatística utilizaremos extensivamente os termos população e amostra. Assim, definiremos esses
termos no contexto da estatística:
• População: conjunto da totalidade dos elementos (valores, pessoas, medidas) a serem estudados. Con-
grega todas as observações que sejam relevantes para o estudo de uma ou mais características dos indiví-
duos. Podem ser tanto seres animados ou inanimados;
• Amostra: um subconjunto de elementos extraídos de uma população;
• Censo: é uma coleção de dados relativos a todos os elementos de uma população;
• Estatística: é a medida numérica que descreve uma característica da amostra;
• Parâmetro: é a medida numérica que descreve uma característica da população;
2 Estatística Descritiva
Os métodos estatísticos envolvem a análise e a interpretação de números, tais como renda anual, vendas
mensais, escores de testes, no de peças defeituosas etc. Tais números são designados por dados. Para interpretar
os dados corretamente, em geral é preciso primeiro organizar e sumarizar os números. 3
2.1 Classificação de variáveis
Os dados estatísticos se obtêm mediante um processo que envolve a observação ou outra mensuração de
itens tais como renda anual numa comunidade, escores de testes, quantidade de café por xícara servida por uma
máquina automática etc. Tais itens chamam-se variáveis, porque originam valores que tendem a exibir certo
grau de variabilidade quando se fazem mensurações sucessivas.
Antes da escolha da análise descritiva apropriada é necessária a classificação da variável de interesse,
pois a adequação da técnica está diretamente relacionada ao tipo de variável em questão.
De acordo com a estrutura numérica as variáveis podem ser classificadas em:
2TRIOLA, Mário. Introdução à Estatística. 7aed. Editora LTC. 1999
3BUSSAB, W.O.; MORETTIN, P.A. Estatística Básica. 4a ed., Atual Editora, S.P., 2010.
4
• Qualitativas - se os resultados das observações serão expressos através de categorias, que se distinguem
por alguma característica não-numérica. Ex: Sexo, Nível de escolaridade, Cor da pele, Estado civil, Tipo
sanguíneo.
• Quantitativas - se os resultados das observações serão expressos sempre através de números, que repre-
sentam contagens ou medidas. Ex: Idade, Altura, Peso, Número de nascidos vivos, População.
As variáveis qualitativas podem ser classificadas, por sua vez, em:
1. Nominal - caracteriza-se por dados que consistem apenas em nomes, rótulos ou categorias. Os dados não
podem ser dispostos segundo um esquema ordenado. Ex: Estado civil (casado, solteiro, viúvo etc.).
2. Ordinal - envolve dados que podem ser dispostos em alguma ordem, mas as diferenças entre os valores
dos dados não podem ser determinadas ou não tem sentido. Ex: Nível de escolaridade (fundamental,
médio, superior etc.).
Em relação às variáveis quantitativas, estas podem ser classificadas em:
1. Discreta - só pode assumir valores pertencentes a um conjunto finito ou enumerável. Ex: Número de
alunos presentes às aulas de determinado professor; número de mortos em um surto de determinada
doença. Geralmente, seus valores são resultados de um processo de contagem, razão pela qual seus
valores são expressos através de números inteiros não-negativos.
2. Contínua - pode assumir qualquer valor pertencente a um determinado intervalo do conjunto dos Reais.
Ex: Estatura e peso dos alunos do curso de estatística; temperatura máxima diária de Cuiabá. Pode-se
dizer que a variável contínua resulta normalmente de mensurações.
2.1.1 Exercícios
1. O que você entende por Estatística?
2. Quais as ramificações da Estatística? Defina e explique as funções de cada uma.
3. Por que motivo devemos saber como classificar as variáveis a serem estudadas?
4. De acordo com a estrutura numérica como podem ser classificadas as variáveis? Expliquecada uma.
5. Em um estudo estatístico a característica de interesse pode ser qualitativa (nominal ou ordinal) ou quan-
titativa (discreta ou contínua). Classifique as variáveis nos exemplos que se seguem:
a) população: moradores de certa cidade
variável: cor dos olhos (pretos, castanhos, azuis, verdes)
b) população: casais residentes em certa cidade
variável 1: número de filhos
variável 2: classe econômica
c) população: candidatos ao vestibular
variável 1: renda familiar
5
variável 2: sexo (masculino, feminino)
variável 3: número de pessoas na família
d) população: sabonetes de certa marca
variável: peso líquido
e) população: aparelhos produzidos por uma linha de montagem
variável: número de defeitos por unidade
f) No de inscrições no seguro social;
g) No de passageiros no ônibus da linha Rio - SP;
h) Escolaridade;
i) Peso médio dos recém - nascidos;
j) Cada cigarro Camel tem 16,13 mg de alcatrão;
2.2 Tipos de séries estatísticas
Série estatística é uma sucessão de dados estatísticos que medem a intensidade do fenômeno, segundo
suas características qualitativas ou quantitativas. As séries estatísticas serão classificadas de acordo com a
variação de três elementos: tempo, local e o fenômeno. 4 São elas:
• Série Histórica - É aquela em que o elemento que serve como base de classificação é a fração do tempo,
como o dia, o mês, o ano, o século, etc. Ex: Valores do PIB no Brasil no período de 1982 a 1986. cidade
de Salvador-Ba.
– Elemento variável: Época
– Elementos Fixos: Local e Fenômeno
Tabela 1: Valores do PIB no Brasil no período de 1982 a 1986.
Anos PIB
1982 779,94
1983 760,20
1984 803,53
1985 869,90
1986 941,26
Fonte: Morettin; Bussab-Estatística Básica.
• Série Geográfica - É aquela que apresenta como elemento variável somente o local (fator geográfico).
Ex: Casos de dengue nos municípios de Sinop, Rondonópolis e Cuiabá no ano de 2002.
– Elemento variável: Local
– Elementos Fixos: Época e Fenômeno
4CRESPO, A.A.; Estatística Fácil. Editora: Saraiva.
6
Tabela 2: Casos de dengue nos municípios de Sinop, Rondonópolis e Cuiabá no ano de 2002.
Municípios No de casos
Cuiabá 32
Rondonópolis 15
Sinop 9
Fonte: Dados fictícios.
• Série Específica - É aquela série que apresenta como elemento ou caráter variável o fenômeno (ou es-
pécie), permanecendo fixos a época e o local. Ex: Os alunos de uma Faculdade, em determinado ano,
classificados segundo o tipo sanguíneo.
– Elemento variável: Fenômeno
– Elementos Fixos: Local e Época
Tabela 3: Classificação de alunos de uma Faculdade, em determinado ano, segundo o tipo sanguíneo.
Tipo Sanguíneo Número de alunos
A 96
B 149
AB 132
O 92
Fonte: Dados fictícios.
• Série Mista - refere-se às séries que são combinações de outros tipos de séries já estudadas.
Alguns exemplos de séries mistas serão apresentadas a seguir:
1. Série Geográfica - Temporal:
Tabela 4: Taxa de atividade feminina urbana (em percentual) em três regiões do Brasil. 1981/90.
Região Ano
1981 1984 1986 1990
Norte 28,9 30,3 34,0 37,1
Nordeste 30,2 32,6 34,3 37,8
Sudeste 34,9 37,2 40,1 40,7
Fonte: Anuário Estatístico do Brasil - 1990
2. Série Geográfica - Especifica:
Tabela 5: Consumo em kg, de alguns tipos de alimentos “per capita” anual em algumas regiões metropolitanas
do Brasil - 1988.
Cidades Alimento
Hortaliças Carne Pescado
Belo Horizonte 44,5 21,6 1,3
Rio Janeiro 54,3 24,7 4,9
São Paulo 46,7 26,1 2,9
Fonte: Anuário Estatístico do Brasil - 1988
7
2.2.1 Exercícios
1. A séria Estatística é chamada de Histórica ou Temporal quando:
a) O elemento variável é o tempo. b) O elemento variável é o local. c) Não tem elemento variável.
2. Abaixo encontramos algumas tabelas. Calcule a porcentagem, faça um breve comentário sobre os resul-
tados e diga que tipo de série estatística cada tabela pertence:
Tabela 6: Matriculas no ensino superior segundo áreas de ensino - Brasil - 1975.
Áreas de ensino Matriculas %
Ciências Biológicas 32.109
Ciências Exatas e Tecnologicas 65.949
Ciências Agrárias 2.419
Ciências Humanas 148.842
Letras 9.883
Artes 7.464
Duas ou mais áreas 16.323
Total
Fonte: Serviço de estatística da educação e da cultura.
Tabela 7: Áreas dos oceanos (em milhões de km2).
Oceano Área %
Antártico 33,8
Ártico 23,2
Atlântico 199,4
Índico 137,2
Pacífico 342,7
Total
Fonte: Dados fictícios.
Tabela 8: Faturamento da companhia Beta 1990 - 1997.
Ano Vendas (em US$ 1.000,00) %
1990 2.181
1991 3.948
1992 5.642
1993 7.550
1994 10.009
1995 11.728
1996 18.873
1997 29.076
Total
Fonte: Departamento de Marketing da Companhia.
8
2.3 Análise de Variáveis Qualitativas
Quando se estuda uma variável, o maior interesse do pesquisador é conhecer o comportamento dessa
variável, analisando a ocorrência de suas possíveis realizações. Nesta seção veremos uma maneira de dispor
um conjunto de realizações, para se ter uma idéia global sobre elas, ou seja, de sua distribuição. Para dados
qualitativos a enumeração e tabulação é a forma mais simples de representá-los.
2.3.1 Distribuição de Frequências
Uma distribuição de frequência é a forma de representação tabular de dados que mostra a frequência (ou
o número) de observações em cada uma das diversas classes não sobrepostas.
Alguns aspectos importantes devem ser levados em consideração na construção de uma tabela: 5
1. Toda tabela deve ter um título completo, contendo três questões: o que está sendo estudado?, onde foi
feito o estudo? em que período (época) este estudo foi realizado? O título deve ser colocado na parte
superior da tabela.
2. Se a fonte de dados não é do próprio autor, ela deve ser indicada abaixo da tabela.
3. As notas e chamadas são utilizadas para fazer esclarecimentos de ordem geral e específica, respectiva-
mente. Ambas são numeradas (ou símbolos como o asterisco) e colocadas abaixo da tabela.
4. De preferência, usar o mesmo número de casas decimais para os algarismos.
5. As tabelas não devem ser fechadas lateralmente, mas linhas horizontais devem ser colocadas no início e
no final.
A seguir será discutido um exemplo, no qual se destaca a forma de representação dos dados qualitativos
mais comuns.
Exemplo: Em uma determinada pesquisa, tem-se interesse em verificar a opinião de estudantes à respeito
das salas de cinema da cidade. Uma amostra de 50 estudantes apresentou os seguintes resultados:
Tabela 9: Dados de uma amostra de 50 estudantes.
Regular a boa Muito Boa
Regular a boa Regular a boa
Regular a boa Muito Boa
Muito boa Regular a boa
...
...
Regular a boa Muito Boa
Regular a boa Muito Boa
Regular a boa Muito Boa
Fonte: Daniel Furtado - Estatística Básica
Para desenvolver a distribuição de frequência para estes dados, contamos o número de vezes que cada
resposta aparece no conjunto de dados. A resposta “Regular a boa” aparece 32 vezes e a “Muito boa” aparece
18 vezes.
5ANDRANDE, Dalton; OGLIARI, Paulo. Estatística para Ciências Agrárias e Biológicas, Editora UFSC. 2007.
9
Tabela 10: Distribuição de frequências da Opinião dos alunos a respeito das salas de cinema na cidade.
Opinião Regular a boa Muito boa
frequência(fi) 32 18
frequência relativa (fri) 0,64 0,36
frequência percentual(fri(%)) 64 36
Uma distribuição de frequência mostra o número (frequência) de observações em cada uma das classes
não sobrepostas. No entanto, é comum termos interesse na proporção, ou porcentagem, das observações em
cada classe que serve para fazermos comparações entre diferentes categorias independente do tamanho amostrado
em cada uma delas. Para a Tabela 10 temos:
fi : frequência absoluta ou simples da categoria i;
fri : frequência relativa de uma classe: é a proporção das observações que pertencem à classe, fri =
fi/n, onde n é o tamanho da amostra;
fri(%) : frequênciapercentual de uma classe é a frequência relativa multiplicada por 100.
Segundo Barbetta et al. (2004), as freqüências relativas em percentual são úteis ao se comparar tabelas
ou pesquisas diferentes. Por exemplo, quando amostras (ou populações) têm números de elementos diferen-
tes, a comparação através das freqüências absolutas pode resultar em afirmações errôneas enquanto que pelas
freqüências relativas em percentual não, pois os percentuais totais são os mesmos.
2.3.2 Representação Gráfica
Nesta seção serão apresentados os gráficos mais utilizados para a representação das variáveis qualitativas.
Um gráfico de barras é um dispositivo gráfico para retratar os dados qualitativos que foram sintetizados
em uma distribuição de frequência, em uma distribuição de frequência relativa ou em uma distribuição de
frequência percentual. Um gráfico de barras têm por finalidade comparar grandezas, por meio de retângulos
de igual largura, dispostos horizontalmente e com alturas proporcionais às grandezas. Devemos deixar uma
distância entre os retângulos. Para as variáveis qualitativas ordinais, devemos respeitar a ordem das categorias,
como mostrado na figura a seguir.
Figura 1: Opinião de estudantes à respeito das salas de cinema da cidade.
10
Para efetuar uma análise comparativa de várias distribuições, podemos construir um gráfico de barras
múltiplo. A figura a seguir é um exemplo de gráfico de barras múltiplo.
Figura 2: Distribuição das porcentagens da resistência a ferrugem de híbridos de milho para as regiões prefe-
renciais.
Quando os retângulos são colocados na posição vertical, temos os gráficos de colunas. A finalidade
desse tipo de gráfico é a mesma dos gráficos de barras, isto é servem para comparar grandezas.
Figura 3: Opinião de estudantes à respeito das salas de cinema da cidade.
Gráfico de colunas tridimencional:
11
Figura 4: Distribuição das porcentagens da resistência a ferrugem de híbridos de milho para as regiões prefe-
renciais.
O gráfico de pizza (ou setores) é um dispositivo gráfico comumente usado para apresentar as distribuições
de frequência relativa e de frequência percentual para dados qualitativos.
Figura 5: Opinião de estudantes à respeito das salas de cinema da cidade.
Para desenhar um gráfico de pizza primeiro desenha-se um círculo e então usa-se as frequências relativas
para subdividir o círculo em setores ou partes, que correspondem à frequência relativa para cada classe. Por
exemplo, como o círculo tem 360 graus e a categoria “Regular a boa” tem uma frequência relativa de 0,64, o
setor do gráfico rotulado de “Regular a boa” consiste em 0, 64× 360 = 230.4 graus.
Gráfico de linhas : Sua aplicação é mais indicada para representações de séries temporais sendo por
tal razão, conhecidos também como gráficos de séries cronológicas. Sua construção é feita colocando-se no
eixo vertical (y) a mensuração da variável em estudo e na abscissa (x), as unidades da variável numa ordem
crescente. Este tipo de gráfico permite representar séries longas, o que auxilia detectar suas flutuações tanto
quanto analisar tendências. Também podem ser representadas várias séries em um mesmo gráfico.
12
Figura 6: Número de matriculas no curso de engenharia civil da UEM no período de 1999 a 2005.
2.3.3 Exercícios
1. Construa uma tabela para descrever o seguinte gráfico:
Figura 7: Composição do rebanho bovino da fazenda capim branco, Araguari - MG - Brasil, 2005.
2. A equipe de nadadores de Cuiabá apresentou-se no Campeonato Brasileiro de Natação de 1987 com 20
nadadores do estilo borboleta, 30 de costa, 60 estilo craw e 50 estilo peito. Descreva esses dados em
uma tabela. Que tipos de gráficos podem melhor representar esses dados. Trace 2 gráficos entre todos
possíveis.
3. A seguir estão tipos de rochas:
SIENITO MONZONITO DIORITO Q-DIORITO
GABRO NORITO MONZONITO SIENITO
Q-DIORITO GABRO DIORITO NORITO
SIENITO Q-DIORITO MONZONITO DIORITO
DIORITO SIENITO SIENITO GABRO
GABRO DIORITO MONZONITO DIORITO
SIENITO DIORITO Q-DIORITO NORITO
GABRO MONZONITO DIORITO DIORITO
DIORITO NORITO DIORITO GABRO
NORITO Q-DIORITO MONZONITO SIENITO
13
a) Qual a classificação desses dados? (Qualitativo [O/N] ou Quantitativo [D/C])
b) Resuma esses dados através de uma distribuição de freqüência;
c) Construa um gráfico de pizza e um de barras para os dados;
d) Qual tipo de rocha aparece com maior freqüência?
4. Para adequar os produtos às preferências dos clientes, uma empresa fez uma pesquisa sobre os prove-
dores e a qualidade dos serviços prestados utilizando uma amostra de 20 clientes, obtendo as seguintes
variáveis:
Tabela 11: Variáveis observadas de 20 clientes de um provedor.
Amostra Sexo Qualidade Amostra Sexo Qualidade
1 feminino Boa 11 feminino Ruim
2 feminino Boa 12 feminino Ruim
3 feminino Boa 13 masculino Boa
4 feminino Boa 14 masculino Boa
5 feminino Boa 15 masculino Ótimo
6 feminino Ótimo 16 masculino Regular
7 feminino Ótimo 17 masculino Regular
8 feminino Regular 18 masculino Ruim
9 feminino Regular 19 masculino Ruim
10 feminino Ruim 20 masculino Ruim
a) Classifique as variáveis descritas na tabela;
b) Faça a representação tabular e gráfica adequada para cada variável. Interprete os resultados.
2.4 Análise de Variáveis Quantitativas
As distribuições de frequências constituem-se num caso particular das séries estatísticas, nas quais todos
os elementos são fixos. Agora os dados referentes ao fenômeno são apresentados através de gradações, onde é
feita a correspondência entre categorias ou valores possíveis e as frequências respectivas.
A definição de alguns conceitos será importante para o uso da linguagem apropriada ao elaborarmos e
analisarmos as distribuições de frequências. No total, são 9 conceitos a serem apresentados. A seguir defi-
niremos 5 primeiros, válidos para quaisquer distribuição de freqüências, e mais adiante apresentaremos os 4
últimos, específicos para dados agrupados em classes:
1. Dados Brutos - É o conjunto dos dados numéricos obtidos após a coleta dos dados.
Exemplo:
Variável de estudo: Idade dos alunos do curso de estatística da UFMT, no ano de 2010.
Classificação: Se for idade em anos completos, quantitativa discreta.
Dados Brutos:
24 - 23 - 22 - 28 - 35 - 21 - 23 - 33 - 34 - 24 - 21 - 25 - 36 - 26 - 22 -
30 - 32 - 25 -26 - 33 - 34 - 21 - 31 - 25 - 31 - 26 - 25 - 35 - 33 - 31
Como pode ser observado, os valores estão dispostos de forma desordenada. Em razão disso, pouca
14
informação se consegue obter inspecionando-se os dados anotados. Mesmo uma informação tão simples
como a de saber os valores mínimos e máximo requer um certo exame dos dados coletados.
2. Rol - É o arranjo dos dados brutos em uma determinada ordem crescente ou decrescente.
Ex: Utilizando os mesmos dados anteriores:
21 - 21 - 21 - 22 - 22 - 23 - 23 - 24 - 25 - 25 - 25 - 25 - 26 - 26 - 26 - 28 - 30 - 31 - 31 - 31 -32 - 33 - 33 -
33 - 34 - 34 - 34 - 35 - 35 - 36
Apresenta vantagens concretas em relação aos dados brutos. Ele torna possível visualizar, de forma bem
ampla, as variações dos dados, uma vez que os valores extremos são percebidos de imediato. Mas, a
análise com este tipo de disposição começa a se complicar quando o número de observações tende a
crescer.
3. Amplitude total (H) - É a diferença entre o maior e o menor valor observado da variável em estudo.
Ex: Utilizando os mesmos dados anteriores:
H = 36 - 21 = 15.
A amplitude total também é usada como uma medida de variabilidade dos dados, quanto maior a ampli-
tude maior a variabilidade do conjunto.
4. Frequência absoluta simples (fi) - É o número de vezes que o elemento aparece na amostra ou o número
de elementos pertencentes a uma classe.
5. Frequência Acumulada (Fi) - Índica o número de itens de dados observados até aquele dado valor (ou
classe). A frequênciaacumulada auxiliará no cálculo da mediana e de separatrizes, medidas de posição
(ou tendência central) que serão apresentadas na próxima seção.
Para condensarmos melhor os dados, é aconselhável a elaboração de distribuições de frequência. Uma
tabela com distribuição de frequência é uma tabela onde se procura fazer um arranjo dos valores e suas respec-
tivas frequências, onde a frequência de determinado valor será dado pelo número de observações ou repetições
de um valor ou de uma modalidade. As tabelas de frequências podem representar tanto valores individuais
como valores agrupados em classes.
2.4.1 Distribuição de Frequências - Variável Discreta.
É uma tabela onde os valores da variável aparecem individualmente. Esse tipo de distribuição é utilizada
geralmente para representar uma variável discreta, com pouca variedade de valores.
Exemplo: Utilizando os mesmos dados anteriores, a tabela a seguir representa a distribuição de frequên-
cias de dados não agrupados.
Tabela 12: Idade dos alunos do curso de estatística da UFMT, no ano de 2010.
Idade(Xi) 21 22 23 24 25 26 28 30 31 32 33 34 35 36 TOTAL(n)
fi 3 2 2 1 4 3 1 1 3 1 3 3 2 1 30
Fonte: Dados hipotéticos
Este tipo de tabela não é aconselhável quando se trabalha com variáveis que apresentam uma grande
quantidade de valores distintos, uma vez que a tabela poderá ficar muito extensa, dificultando, além de sua
15
elaboração, as análises e conclusões dos dados pesquisados. A soma das frequências absolutas simples é
sempre igual ao número total de valores observados, ou seja, n =
∑k
i=1 fi, onde k é o número de valores
observados. No exemplo acima temos 13 valores diferentes observados, consequentemente 13 f ′is.
2.4.2 Representação Gráfica - Variável Discreta
Figura 8: Idade dos alunos do curso de estatística da UFMT 2010.
2.4.3 Distribuição de Frequências - Variável Contínua.
Com o objetivo de resumir os dados originais em uma distribuição de frequências, utiliza-se os dados
agrupados ou em classe e não mais individual. Classe pode ser definida como sendo os subintervalos da Am-
plitude Total de uma variável (grupo de valores). Quando a variável objeto de estudo for contínua geralmente
será conveniente agrupar os valores observados em classes. OBS: Se, por outro lado, a variável for discreta e
o número de valores representativos dessa variável for muito grande, recomenda-se o agrupamento dos dados
em classes.
Para construção de tabelas de frequência para dados agrupados em classe os 4 conceitos listados a seguir,
complementam os 5 primeiros já apresentados:
1. Definição do número de classes (k) - É importante que a distribuição conte com um número adequado de
classes. Se esse número for escasso, os dados originais ficarão tão comprimidos que pouca informação
poderá ser extraida desta tabela. Se, por outro lado, forem utilizadas muitas classes, haverá algumas com
frequência nula ou muito pequena, apresentando uma distribuição irregular e prejudicial a interpretação
do fenômeno.
Para determinar o número de classes há diversos métodos. Milone (2004, p.36) apresenta os seguintes
critérios para a determinação do número de intervalos, denotado por k:
1. Raiz quadrada: k =
√
n;
2. Regra de Sturges: k = 1 + 3, 3 log n;
3. Regra de Milone: k = −1 + 2× lnn;
16
Neste curso será adotado o método a seguir:
k = 5, para 20 ≤ n ≤ 25 e k = √n, para n > 25;
Deve-se lembrar que sendo k o número de classes, o resultado obtido por cada um dos critérios deve ser
o número inteiro mais próximo ao obtido. Milone (2004) acrescenta ainda que, adotando o princípio de
que os agrupamentos devem ter no mínimo cinco e no máximo 20 classes, o critério da raiz é valido para
25 ≤ n ≤ 400, o do log para 16 ≤ n ≤ 572.237 e o do ln para 20 ≤ n ≤ 36.315.
Mesmo tendo outros critérios de determinação do número de classes, o que se deve ter em mente é que
a escolha dependerá sobretudo da natureza dos dados e da unidade de medida em que eles se encontram,
e não somente de regras muitas vezes arbitrárias e pouco flexíveis. Para facilitar a análise é conveniente
que se mantenham os intervalos de classe sempre constantes. A experiência do pesquisador também
conta muito na definição das classes.
2. Limites de Classe - Os limites de classe são seus valores extremos. O símbolo ` indica a inclusão do
limite inferior do intervalo naquela classe e símbolo a indica a inclusão do limite superior do intervalo
naquela classe. Neste curso adotaremos o símbolo ` na construção das classes, pois ele é o mais usual.
Para a construção das classes temos:
lI1: Limite inferior da 1a classe; Usualmente é o menor valor da amostra. No exemplo: 21.
ls1: Limite superior da 1a classe; ls1 = lI1 + h. No exemplo: 21 + 3 = 24.
lI2: Limite inferior da 2a classe; lI2 = ls1. No exemplo: 24.
ls2: Limite superior da 2a classe; ls2 = lI2 + h. No exemplo: 24 + 3 = 27.
Para a n-ésima classe:
lIn: Limite inferior da na classe; lIn = ls(n−1). Ou seja, será igual ao limite superior da classe imediata-
mente anterior.
lsn: Limite superior da na classe; lsn = lIn + h.
3. Amplitude do Intervalo de Classe (h) - A amplitude de um intervalo de classe corresponde ao compri-
mento desta classe. Numericamente, sua amplitude pode ser definida como a diferença existente entre os
limites superior (ou inferior) de duas classes consecutivas (h = lS − lI ).
h =
H
k
Ex: Utilizando os mesmos dados anteriores: h = 15/5 = 3
4. Pontos Médios ou Centrais da Classe (Pmi) - É a média aritmética simples entre o limite superior e o
inferior de uma mesma classe.
Ex: Utilizando os mesmos dados anteriores: Pm1 = (24+21)/2 = 22,5
Para obter os pontos médios das demais classes, basta acrescentar ao ponto médio da classe precedente a
amplitude do intervalo de classe. No exemplo anterior: Pm2 = h+ Pm1 = 3 + 22, 5 = 25, 5, e assim
sucessivamente.
Para o exemplo anterior:
17
Tabela 13: Idade dos alunos do curso de estatística da UFMT, no ano de 2010.
Idade Pmi fi fri fri(%) Fi
21 ` 24 22,5 7 0,23 23 7
24 ` 27 25,5 8 0,27 27 15
27 ` 30 28,5 1 0,03 3 16
30 ` 33 31,5 5 0,17 17 21
33 ` 36 34,5 9 0,30 30 30
TOTAL - 30 1 100 -
Na Tabela 13 temos que na 1a classe serão contados na amostra elementos a partir do 21 até o 23,99, na 2a
classe serão contados os elementos a partir do 24 até o 26,99 e assim por diante.
2.4.4 Representação Gráfica - Variável Contínua
A representação gráfica das distribuições de frequências para dados em classes é feita através do histo-
grama e/ou polígono de frequências.
1. Histograma - É um gráfico formado por um conjunto de retângulos justapostos, de forma que a área de
cada retângulo seja proporcional à frequência da classe que ele representa.
2. Polígonos de Frequência - Unindo por linhas retas os pontos médios das bases superiores dos retângulos
do histograma, obtém-se outra representação dos dados, denominada polígono de frequência
Figura 9: Histograma e Polígono de frequências referente as idades dos alunos do curso de estatística da UFMT
2010.
3. Apresentação Ramo-e-Folha - Apresenta a forma e ordem dos dados. Pode ser utilizado na organização
dos dados antes de dispor na tabela.
Exemplo: Um dos principais indicadores da poluição do ar nas grandes cidades é a concentração de
ozônio na atmosfera. O nível de concentração de ozônio na atmosfera foi medido em São Paulo durante o
inverno de 1998, e os resultados são apresentados a seguir:
18
Tabela 14: Concentração de ozonio na atmosfera em São Paulo, inverno de 1998.
6,6 4,4 5,7 4,5 3,7 3,5 1,4 6,6 6,0 4,2 4,4 5,3 5,6
9,4 7,6 6,2 3,3 5,9 6,8 2,5 5,4 4,4 5,4 4,7 3,5 4,0
3,8 4,7 3,1 6,8 9,4 2,4 3,0 5,6 4,7 6,5 3,0 4,1 3,4
3,4 5,8 7,6 1,4 3,7 6,8 1,7 5,3 4,7 7,4 6,0 6,7 10,9
2,0 3,7 5,7 5,8 3,1 5,5 1,1 5,1 5,6 5,5 1,4 3,9 6,6
5,8 1,6 2,5 8,1 6,6 6,2 7,5 6,2 6,0 5,8 2,8 6,1 4,1
A apresentaçãoramo-e-folha é apresentada a seguir:
1 1 4 4 4 6 7
2 0 4 5 5 8
3 0 0 1 1 3 4 4 5 5 7 7 7 8 9
4 0 1 1 2 4 4 4 5 7 7 7 7
5 1 3 3 4 4 5 5 6 6 6 7 7 8 8 8 8 9
6 0 0 0 1 2 2 2 5 6 6 6 6 7 8 8 8
7 4 5 6 6
8 1
9 4 4
10 9
2.4.5 Exercícios
1. Em um estudo sobre o potencial de germinação de sementes de algodão dividiu-se uma área em 48
parcelas com a mesma área, tipo de solo, iluminação, etc. Em cada uma destas parcelas foram plantadas
4 sementes e verificou-se o número de sementes que germinaram. Os dados obtidos são apresentados a
seguir:
2 0 0 4 3 0 0 1 0 0 1 1 0 0 0 1
2 1 1 1 1 1 1 0 0 0 3 0 0 0 0 0
0 0 2 0 0 1 1 2 0 2 0 0 0 0 0 0
a) Especifique a variável estudada, classificando-a. Justifique a sua resposta.
b) Represente tabularmente e graficamente os dados acima.
c) Qual a proporção de parcelas em que germinaram no máximo 2 sementes?
2. Os dados seguintes representam 20 observações relativas ao índice pluviométrico em determinados mu-
nicípios do Estado:
Tabela 15: Milímetros de Chuva
144 152 159 160 160 151 157 146 154 145
141 150 142 146 142 141 141 150 143 158
Para os conjuntos de dados da Tabela 15:
a) Construir a tabela de freqüências constituída pelas freqüências absolutas simples, as freqüências rela-
tivas, as freqüências acumuladas e os Pontos médios de classes;
b) Construir um histograma e um polígono de freqüências;
19
2.4.6 Somatório
Nas próximas seções serão vistos alguns coeficientes estatísticos que fazem uso do somatório. Um
somatório é um operador matemático que nos permite representar facilmente somas muito grandes ou até
infinitas. É representado com a letra grega sigma Σ, e é definido por:
n∑
i=1
xi
em que corresponde a soma dos termos "xi, em que o índice i varia de 1 a n.
Regras de somatório:
• Somatório de uma constante
Se k é uma constante, então
n∑
i=1
k = k + k + k + ...+ k = nk
• Somatório do produto de uma constante por uma variável
Se k é uma constante e xi uma variável
n∑
i=1
kxi = kx1 + kx2 + kx3 + ...+ kxn = k(x1 + x2 + x3 + ...+ xn) = k
n∑
i=1
xi
• Somatório de uma soma algébrica
O somatório de uma soma de variáveis é igual à soma dos somatórios de cada variável
n∑
i=1
(xi + yi) =
n∑
i=1
xi +
n∑
i=1
yi
Se a e b são constantes e xi uma variável
n∑
i=1
(a+ bxi) =
n∑
i=1
a+
n∑
i=1
bxi = na+ b
n∑
i=1
xi
Observações:
n∑
i=1
xiyi 6=
n∑
i=1
xi
n∑
i=1
yi
n∑
i=1
x2i 6=
(
n∑
i=1
xi
)2
Exemplos:
Seja X = {4, 7, 9, 12, 3}, obter:
5∑
i=1
xi = 35,
4∑
i=1
2xi = 64,
5∑
i=2
3xi = 93
20
Sabendo que
3∑
i=1
xi = 6,
3∑
i=1
x2i = 14, determinar
a)
3∑
i=1
(xi + 1) =
3∑
i=1
xi +
3∑
i=1
1 = 6 + 3 = 9
b)
3∑
i=1
(xi − 1)2 =
3∑
i=1
(
x2i − 2xi + 1
)
=
3∑
i=1
x2i − 2
3∑
i=1
xi +
3∑
i=1
1 = 14− 12 + 3 = 5.
2.5 Medidas de Posição ou Tendência Central
Foi visto até agora a sintetização dos dados sob a forma de tabelas, gráficos e distribuições de frequências.
Agora, vamos aprender o cálculo de medidas que possibilitem representar um conjunto de dados relativos à
observação de determinado fenômeno de forma resumida.
As medidas de tendência central ou posição são assim denominadas por indicarem um ponto em torno
do qual se concentram os dados. Este ponto tende a ser o centro da distribuição dos dados. Vale a pena chamar
a atenção que, para o cálculo dessas medidas, é necessário que a variável seja quantitativa. 6
As principais medidas de tendência central são: Média, Mediana e Moda.
2.5.1 Média
É a medida de tendência central mais comumente utilizada para descrever resumidamente uma distribui-
ção de frequência (centro de massa de um conjunto dados).
Notação:
X¯ é chamada média amostral e
µ é a média populacional.
Observações:
• A média é afetada por valores extremos;
• A média é bastante utilizada em distribuições simétricas;
• Não utilizável em variáveis categóricas;
• A média pode ser utlizada para variáveis discretas, inclusive com decimais.
(a) Média Aritmética Simples: É dada pelo quociente entre a soma dos valores observados e a frequência
total ( o número total de observações). Genericamente, podemos escrever:
X¯ =
n∑
i=1
xi
n
onde n é o tamanho da amostra observada e xi é o valor genérico da observação. No exemplo das idades,
seguindo o rol das observações, a média será dada por
∑n
i=1 xi = 21 + 21 + · · ·+ 36 = 845 e n = 30, logo a
6BUSSAB, W.O.; MORETTIN, P.A. Estatística Básica. 4a ed., Atual Editora, S.P., 2010.
21
média X¯ = 28, 17.
(b) Média para dados em distribuição de frequência:
X¯ =
∑n
i=1 xifi
n
No exemplo das idades, a média será dada por
∑n
i=1 xifi = 21× 3 + 22× 2 + · · ·+ 36× 1 = 845 e n = 30,
logo a média X¯ = 28, 17.
(c) Média para dados agrupados em classes:
X¯ =
∑n
i=1 Pmifi
n
No exemplo das idades, a média será dada por
∑n
i=1 Pmifi = 22, 5× 7+ 25, 5× 8+ · · ·+33, 5× 9 = 858 e
n = 30, logo a média X¯ = 28, 6. Como pode ser observado perde-se um pouco de precisão na média quando
estamos trabalhando com dados agrupados em classes. A desvantagem da média aritmética relaciona-se com a
existência de valores extremos (muito grandes ou muito pequenos), que podem distorcer o resultado final.
(d) Média aritmética ponderada:
Às vezes, associam-se os números X1, X2, · · · , Xk a certos fatores de ponderação ou pesos w1, w2, · · · , wk,
que dependem do significado ou importância atribuída aos números. 7 Nesse caso,
X¯ =
w1X1 + w2X2 + · · ·+ wkXk
w1 + w2 + · · ·+ wk =
∑
iwiXi∑
iwi
tem a denominação de média aritmética ponderada.
Exemplo: Se o exame final, em um curso, tem peso 3 e as provas correntes peso 1, e um estudante tem grau 85
naquele exame e 70 e 90 nas provas, seu grau médio é:
X¯ =
(1)(70) + (1)(90) + (3)(85)
1 + 1 + 3
=
415
5
= 83.
Dentre as principais propriedades da média podemos destacar as seguintes:
a) multiplicando-se todos os valores de uma variável por uma constante, a média do conjunto fica multiplicada
por essa constante;
b) somando-se ou subtraindo-se uma constante a todos os valores de uma variável, a média do conjunto fica
acrescida ou diminuída dessa constante.
Exercícios:
1. Sejam dados referentes a um levantamento onde observou-se o número de peças defeituosas em 25 má-
quinas de uma empresa.
a) Calcule a média para os dados brutos. Interprete o resultado;
b) Disponha os dados em uma tabela de frequências e calcule a média;
7SPIEGEL, Murray R. Estatística, 3a Edição. Editora Pearson. 1993.
22
Tabela 16: Número de peças defeituosas em 25 máquinas de uma empresa
3 5 7 1 3
6 5 5 5 3
8 5 2 6 2
4 4 4 3 5
6 2 2 4 5
c) Faça uma representação gráfica adequada para os dados. Analisando o gráfico qual o número de
peças defeituosas que foi predominante?
2. Utilizando os dados da Tabela 17 responda:
Tabela 17: Dados ordenados, relativos ao tempo em segundos para carga de um aplicativo num sistema com-
partilhado (30 observações).
6,94 7,27 7,46 7,97 8,03 8,37
8,56 8,66 8,88 8,95 9,30 9,33
9,55 9,76 9,80 9,82 9,98 9,99
10,14 10,19 10,42 10,44 10,66 10,88
10,88 11,16 11,80 11,88 12,25 12,34
a) Calcule a média para os dados brutos. Interprete o resultado;
b) Disponha os dados em uma tabela de frequências e calcule a média;
c) Faça uma representação gráfica adequada para os dados. Interprete.
2.5.2 Mediana (Md)
É definido como o valor que divide uma série ordenada de tal forma que pelo menos a metade dos itens
sejam iguais ou maiores do que ela, e que a outra metade dos itens sejam menores do que ela. Colocados em
ordem crescente, a mediana é o elemento que ocupa a posição central.
Como a mediana divide os dados ordenados ao meio, ela não é sensível a valores discrepantes. A depen-
der de como estejam os dados, deve-sediferenciar a forma como encontra-se a mediana.
Observações:
• Não é utilizável em variáveis categóricas;
• Pouco afetada por valores discrepantes;
• Bastante utilizada para distribuições assimétricas.
1. Determinação da Mediana de Valores não-tabulados.
Seja x(1), x(2), · · · , x(n) o rol das observações em ordem crescente. A mediana dessas observações será
dada por: 8
8BUSSAB, W.O.; MORETTIN, P.A. Estatística Básica. 4a ed., Atual Editora, S.P., 2010.
23
(a) n ímpar: Md = X(n+1
2
);
(b) n par: Md =
X(n2 )
+X(n2 +1)
2 ;
Exemplos:
(a) n ímpar:X = {1, 3, 6, 7, 9}. Md = X( 5+1
2
) = X(3), logo a mediana será dada pelo 3
o elemento,
Md = 6. Interpretação da Mediana: Metade das observações vão até 6 e a outra metade é maior
(ou igual) que 6.
(b) n par:X = {1, 3, 6, 7, 9, 12}. Md =
X
( 62 )
+X
( 62+1)
2 , logo a mediana será dada pela média entre o 3
o
elemento e o 4o elemento,Md = X(3)+X(4)2 =
6+7
2 = 6, 5. Interpretação da Mediana: Metade das
observações vão até 6,5 e a outra metade é maior (ou igual) que 6,5.
2. Determinação da Mediana de Valores Tabulados não-Agrupados em Classes.
Da mesma forma como foi calculado anteriormente, encontra-se mediana usando as expressões (a) ou
(b), para n ímpar ou par. Em seguida, acrescenta-se à tabela de frequência uma coluna com as frequências
acumuladas (Fi). Com o uso destas frequências (Fi) encontra-se a posição da mediana e em seguida o
elemento mediano. Voltando ao exemplo das idades:
Tabela 18: Idade dos alunos do curso de estatística da UFMT, no ano de 2010.
Idade(xi) 21 22 23 24 25 26 28 30 31 32 33 34 35 36 Total
fi 3 2 2 1 4 3 1 1 3 1 3 3 2 1 30
Fi 3 5 7 8 12 15 16 17 20 21 24 27 29 30
Solução: Como n = 30 (par), o elemento mediano será dada por: Xmd =
X
( 302 )
+X
( 302 +1)
2 . Assim, a
mediana será dada pela média aritmética entre o 15o e o 16o elemento,Md = X(15)+X(16)2 . Se olharmos
as frequências acumuladas (Fi) na Tabela 18 veremos que o 15o elemento se encontra na 6a coluna e o
16o elemento na 7a coluna e as idades correspondentes a cada coluna são: Md = (26 + 28)/2 = 27.
Interpretação: 50% dos alunos do curso de estatística de 2010 tem idade igual ou superior a 27 anos.
3. Determinação da Mediana de Valores Tabulados Agrupados em Classes.
Para dados agrupados, a mediana, pode ser obtida por interpolação. Primeiramente encontramos a classe
mediana, onde n/2 nos fornece a posição do elemento mediano, não se fazendo distinção entre número
par ou ímpar de observações. Uma vez determinada a classe mediana, a mediana será calculada através
da seguinte expressão:
Md = l + h
( n
2 − Fant
fmd
)
onde,
l = limite inferior da classe mediana;
h = amplitude do intervalo da classe mediana;
n
2 = posição do elemento mediano;
Fant = frequência acumulada até a classe anterior à classe mediana;
24
fmd = frequência absoluta simples da classe mediana.
Exemplo 1:Voltando ao exemplo das idades, considere os dados da Tabela 13, a posição do elemento
mediano será o 15a (n/2). A mediana será dada por:
Md = 24 + 3
(
15− 7
8
)
= 27.
Interpretação: 50% dos alunos do curso de estatística de 2010 tinham idade superior a 27 anos.
Exemplo 2: Encontre a mediana utilizando os dados da tabela a seguir:
Pesos(kg) Frequência
59 ` 63 3
63 ` 67 5
67 ` 71 9
71 ` 75 12
75 ` 79 11
TOTAL 40
Solução 1: Somando-se as três primeiras frequências têm-se 3 + 5 + 9 = 17. Logo, para obtermos o 20o
peso (n/2) desejado, são necessários mais 3 dos 12 casos existentes na 4a classe. Como o 4o intervalo de classe
é dado por 71 ` 75, a mediana situa-se a 3/12 da distância entre 71 e 75 e é:
Md = 71 +
3
12
(75− 71) = 72.
Solução 2: Utilizando o histograma também podemos encontrar a mediana:
Em cada coluna do histograma temos as frequências das respectivas classes, mais uma vez, somando-se
as três primeiras frequências têm-se 3 + 5 + 9 = 17. Logo, para obtermos o 20o peso (n/2) desejado, são
necessários mais 3 dos 12 casos existentes na 4a classe. Assim a mediana será dada por:
Md− 71
3
=
75− 71
12
Md− 71 = 3(75− 71)
12
25
Md = 1 + 71 = 72.
2.5.3 Moda (Mo)
Amoda é outra medida de tendência central, sendo, no entanto a menos usada. Sua vantagem é que pode
ser usada para variáveis qualitativas. Genericamente, pode-se definir a moda como o valor mais frequente da
distribuição.
Observações:
• Um conjunto de dados pode apresentar mais de uma moda;
• A moda pode ser calculada para variáveis qualitativas e quantitativas;
• Um conjunto de dados sem moda é chamado Amodal.
1. Determinação da Moda de Valores Não-Tabulados.
Considerando um conjunto ordenado de valores, a moda será o valor predominante, o valor mais fre-
quente desse conjunto. Embora seu significado seja o mais simples possível, nem sempre a moda existe
(distribuição amodal) e nem sempre é única. Se apresentar apenas uma moda diremos que é unimodal;
se possuir duas modas diremos que é bimodal; se tiver várias modas (mais que duas) diremos que é mul-
timodal. Exemplos:
X = {1, 2, 4, 7, 9}: conjunto Amodal;
X = {1, 2, 2, 4, 7, 9}: conjunto Unimodal, moda = 2;
X = {1, 2, 2, 4, 4, 7, 9}: conjunto Bimodal; moda = 2 e 4;
2. Determinação da Moda para Valores Tabulados.
No caso de dados tabelados não agrupados em classe, a determinação da moda é imediata, bastando
para isso, consultar a tabela, localizando o valor que apresenta a maior frequência. Analisando a Tabela
18, observa-se que a idade que possui o maior fi é a idade 25, com fi = 4. Ou seja, a idade mais
frequente entre os estudantes do curso de estatística de 2010 é 25 anos ou a idade mais observada entre
os estudantes foi 25 anos.
Para variáveis qualitativas, a moda será a categoria que mais apareceu.
Tabela 19: Distribuição de frequências da Opinião dos alunos a respeito das salas de cinema na cidade.
Opinião Regular a boa Muito boa
frequência(fi) 32 18
Observando os resultados da Tabela 19, conclui-se que a categoria que foi observada com maior frequência
foi a Regular a boa, logo essa será a moda. Interpretação: A maioria dos estudantes considera que as salas de
cinema da cidade está classificada como “Regular a boa”.
26
Para dados agrupados a moda se localiza na classe de maior freqüência (classe modal) e é obtida por
meio da expressão (Moda de Czuber): 9
Mo = l +
(
∆1
∆1 +∆2
)
h
• l é o limite inferior da classe modal;
• h é a amplitude da classe modal;
• ∆1 é a diferença da freqüência da classe modal e a freqüência da classe imediatamente anterior;
• ∆2 é a diferença da freqüência da classe modal e a freqüência da classe imediatamente posterior.
No exemplo das idades, utilizando a Tabela 12 temos:
Mo = 33 + 3
(
9− 5
(9− 5) + (9− 0)
)
Mo ∼= 33 + 0, 92 ∼= 34.
Interpretação: A idade mais frequente entre os alunos do curso de estatística 2010 é 34 anos.
2.5.4 Comparação entre Média, Mediana e Moda
• Média
– Definição: Soma de todos os valores dividido pelo total de elementos do conjunto.
– Vantagens: Centro de massa da distribuição; Possui propriedades matemáticas atraentes.
– Limitações: É influenciada por valores extremos.
– Quando usar:
1. Deseja-se obter a medida de posição que possui a maior estabilidade;
2. Houver necessidade de um tratamento algébrico posterior.
• Mediana
– Definição: Valor que divide o conjunto em duas partes iguais.
– Vantagens: Menos sensível a valores extremos que a média.
– Limitações: Difícil de determinar para grande quantidade de dados.
– Quando usar:
1. Deseja-se obter o ponto que divide o conjunto em partes iguais;
2. Há valores extremos que afetam de maneira acentuada a média;
• Moda
9SPIEGEL, Murray R. Estatística, 3a Edição. Editora Pearson. 1993.
27
– Definição: Valor mais freqüente.
– Vantagens: Valor “típico”;Maior quantidade de valores concentrados neste ponto.
– Limitações: Pode não haver moda para certos conjuntos de dados.
– Quando usar:
1. Deseja-se obter uma medida rápida e aproximada da posição;
2. A medida de posição deve ser o valor mais típico da distribuição.
2.5.5 Simetria
A determinação das medidas de posição permite discutir sobre a simetria da distribuição dos dados.
• Distribuição simétrica - X = Md = Mo
• Distribuição assimétrica - ocorrem diferenças entre os valores da média, mediana e moda. A assimetria
pode ser:
– à direita - X > Md > Mo
– à esquerda - X < Md < Mo
2.5.6 Exercícios
1. Para os exercícios (1) e (2) da seção 2.4.5 calcule:
a) As medidas de posição para os dados brutos, interprete os resultados obtidos;
b) As medidas de posição para os dados tabulados. Houve diferença nos resultados? Justifique.
c) Verifique se as distribuições dos dados são simétricas ou assimétricas (à direita ou à esquerda).
2. Para os dados da Tabela 13 calcule:
a) As medidas de posição para os dados brutos, interprete os resultados obtidos;
b) As medidas de posição para os dados tabulados. Houve diferença nos resultados? Justifique.
c) Verifique se as distribuições dos dados são simétricas ou assimétricas (à direita ou à esquerda).
2.6 Separatrizes
São as medidas que separam o rol ou a distribuição de frequências em partes iguais. Vimos que a mediana
divide a distribuição em duas partes iguais quanto ao número de elementos de cada parte. Agora vamos estudar
outras medidas que dividem a distribuição em partes iguais, que serão as chamadas separatrizes. São elas: 10
28
2.6.1 Quartis
Os quartis dividem um conjunto de dados em quatro partes iguais. Assim:
Q1: 1o quartil. Deixa 25% dos elementos antes do seu valor;
Q2: 2o quartil. Deixa 50% dos elementos antes do seu valor. Coincide com a mediana;
Q3: 3o quartil. Deixa 75% dos elementos antes do seu valor. (Consequentemente, 25% dos elementos
acima do seu valor.)
Genericamente, para determinar a ordem ou posição do quartil a ser calculado, usaremos a seguinte
expressão:
EQi =
i(n+ 1)
4
onde:
i = número do quartil a ser calculado;
n = número de observações;
(a) Determinação dos quartis para dados não tabulados:
1) Fazer o rol das observações;
2) Encontrar a posição do elemento quartílico usando: EQi =
i(n+1)
4 ;
3) O quartil “i” (Qi) será o valor na amostra que corresponde aquela posição encontrada em EQi, caso
EQi seja um número não inteiro, deve-se fazer a média aritmética entre os valores anterior e posterior a
ele. Exemplo:
X = {11, 12, 12, 14, 14, 17, 19}, vamos calcular o quartil 1 desse conjunto:
EQ1 =
1×(7+1)
4 = 2
o, Logo o quartil 1 será o 2o elemento que será dado por: Q1 = 12. Interpretação:
25% das observações vai até 12 ou 75% das observações são superiores a 12.
(b) Para dados em distribuição de frequências simples, encontra-se o EQi e em seguida encontra na
frequência acumulada (Fi) a posição do elemento e o valor (xi) correspondente. No exemplo das idades
temos:
EQ1 =
1×(30+1)
4 = 7, 75
o, Q1 = 23+242 = 23, 5. Interpretação: 25% dos estudantes tem idade até
23,5 anos.
10BUSSAB, W.O.; MORETTIN, P.A. Estatística Básica. 4a ed., Atual Editora, S.P., 2010.
29
(c) Para dados agrupados em classes, encontraremos os quartis de maneira semelhante à usada para o cál-
culo da mediana:
Qi = l + h
(
EQi − Fant
fqi
)
onde,
l = limite inferior da classe que contem o quartil desejado;
h = amplitude do intervalo de classe;
EQi = elemento quartílico;
Fant = frequência acumulada da classe anterior à classe quartílica;
fqi = frequência absoluta simples da classe quartílica.
No exemplo das idades EQ1 = 1×314 = 7, 75
o, como os dados estão em classe, olha-se o Fi mais
próximo de EQi, olhando a Tabela 13, temos que a 2a classe será a classe quartílica, logo:
Q1 = 24 + 3
(
7, 75− 7
8
)
∼= 24, 3.
Interpretação: 25% dos estudantes tem até 24,3 anos. Note que oQ1 encontrado aqui é diferente do quar-
til achado em (b) para os mesmos dados, essa diferença se justifica pois nos dados em classes perdemos
um pouco na precisão.
2.6.2 Decis
Os decis dividem um conjunto de dados em dez partes iguais. Assim:
• D1 (1o Decil): 10% da observações estão abaixo dele ou 90% acima.
• D2 (2o Decil): 20% da observações vai até o 2o decil ou 80% das observações estão acima dele.
• D9 (9o Decil): 90% da observações estão abaixo dele ou 10% acima. E assim por diante.
De maneira geral, para calcular os decis, recorreremos à expressão que define a ordem em que o decil se
encontra:
EDi =
i(n+ 1)
10
30
(a) Determinação dos decis para dados não tabulados:
1) Fazer o rol das observações;
2) Encontrar a posição do elemento decílico usando: EDi =
i(n+1)
10 ;
3) O decil “i” (Di) será o valor na amostra que corresponde aquela posição encontrada em EDi, caso
EDi seja um número não inteiro, deve-se fazer a média aritmética entre os valores anterior e posterior a
ele. Exemplo:
X = {11, 12, 12, 14, 14, 17, 19}, vamos calcular o 2o Decil desse conjunto:
ED2 =
2×(7+1)
10 = 1, 6
o, Logo o Decil 2 está entre o 1o e o 2o elemento (1o antecede 1,6o e 2o é posterior
a ele.) que será dado por: D2 = 11+122 = 11, 5. Interpretação: 20% das observações vai até 11,5 ou 80%
das observações são superiores a 11,5.
(b) Para dados em distribuição de frequências simples, encontra-se o EDi e em seguida encontra na
frequência acumulada (Fi) a posição do elemento e o valor (xi) correspondente. No exemplo das idades
temos:
ED2 =
2×(30+1)
10 = 6, 2
o elemento, D2 = 23. Interpretação: 20% dos estudantes tem idade até 23
anos.
(c) Para dados agrupados em classes, encontraremos os Decis de maneira semelhante à usada para o cálculo
da mediana:
Di = l + h
(
EDi − Fant
fdi
)
onde,
l = limite inferior da classe que contem o Decil desejado;
h = amplitude do intervalo de classe;
EDi = elemento Decílico;
Fant = frequência acumulada da classe anterior à classe Decílica;
fdi = frequência absoluta simples da classe Decílica.
No exemplo das idades ED2 = 2×3110 = 6, 2
o, como os dados estão em classe, olha-se o Fi mais próximo
de EDi, olhando a Tabela 13, temos que a 1a classe será a classe decílica, logo:
D2 = 21 + 3
(
6, 2− 0
7
)
= 23, 7.
Interpretação: 20% dos estudantes tem até 23,7 anos. Note que oD2 encontrado aqui é diferente do Decil
achado em (b) para os mesmos dados, essa diferença se justifica pois nos dados em classes perdemos um
pouco na precisão.
2.6.3 Percentis ou Centis
São as medidas que dividem a amostra em 100 partes iguais. Assim:
31
O elemento que definirá a ordem do percentil será encontrado pelo emprego da expressão:
EPi =
i(n+ 1)
100
onde:
i = número identificador do percentil;
n = número total de observações;
(a) Determinação dos Percentis para dados não tabulados:
1) Fazer o rol das observações;
2) Encontrar a posição do elemento Percentílico usando: EPi =
i(n+1)
100 ;
3) O Percentil “i” (Pi) será o valor na amostra que corresponde aquela posição encontrada em EPi, caso
EPi seja um número não inteiro, deve-se fazer a média aritmética entre os valores anterior e posterior a
ele. Exemplo:
X = {11, 12, 12, 14, 14, 17, 19}, vamos calcular o 90o Percentil desse conjunto:
EP90 =
90×(7+1)
100 = 7, 2
o, Logo o Percentil 90 será o 7o elemento que será dado por: P90 = 19.
Interpretação: 90% das observações vai até 19 ou 10% das observações são superiores a 19.
(b) Para dados em distribuição de frequências simples, encontra-se o EPi e em seguida encontra na
frequência acumulada (Fi) a posição do elemento e o valor (xi) correspondente. No exemplo das idades
temos:
EP90 =
90×(30+1)
100 = 27, 9
o elemento, P90 = 34. Interpretação: 90% dos estudantes tem idade até 34
anos.(c) Para dados agrupados em classes, encontraremos os Percentis de maneira semelhante à usada para o
cálculo da mediana:
Pi = l + h
(
EPi − Fant
fpi
)
onde,
l = limite inferior da classe que contem o Percentil desejado;
h = amplitude do intervalo de classe;
32
EPi = elemento Percentílico;
Fant = frequência acumulada da classe anterior à classe Percentílica;
fpi = frequência absoluta simples da classe Percentílica.
No exemplo das idades EP90 = 90×31100 = 27, 9
o, como os dados estão em classe, olha-se o Fi mais
próximo de EPi, olhando a Tabela 13, temos que a última classe será a classe do 90o percentil, logo:
P90 = 33 + 3
(
27, 9− 21
9
)
= 35, 3.
Interpretação: 90% dos estudantes tem até 35,3 anos. Note que o P90 encontrado aqui é diferente do
Percentil achado em (b) para os mesmos dados, essa diferença se justifica pois nos dados em classes
perdemos um pouco na precisão.
2.6.4 Exercícios
1. Para os exercícios (1) e (2) da seção 2.4.5 calcule Q1, Q3 e P95. Interprete os resultados.
2. Para os dados da Tabela 13 calcule Q1 e D8. Interprete os resultados.
3. Considere os seguintes dados sobre a distribuição de valores de metabolismo basal (cal/dia) em 36 ado-
lescentes:
910 1280 1220 1120 1040 1070 980 1310 1240 1140 1110 1020
1190 1090 1010 1380 1270 1280 1210 1110 1040 1460 1420 1270
960 1300 1240 1130 1070 1080 1000 1360 1260 1180 1200 1100
Para o conjunto de dados acima responda:
a) Construa a tabela de freqüências constituída pelas freqüências absolutas simples, as freqüências rela-
tivas, as freqüências acumuladas e os Pontos médios de classes;
b) Construir um histograma e um polígono de freqüências;
c) Calcule a média, a moda e a mediana para os dados brutos e a seguir para os dados agrupados, compare
os resultados e comente. Interprete cada medida obtida;
d) Calcule Q1, Q3, P68 e D8. Interprete os resultados.
2.7 Medidas de Dispersão
Uma breve reflexão sobre as medidas de tendência central permite-nos concluir que elas não são sufici-
entes para caracterizar totalmente uma sequência numérica. Se observarmos as sequências:
X : 10, 1, 18, 20, 35, 3, 7, 15, 11, 10.
Y : 12, 13, 13, 14, 12, 14, 12, 14, 13, 13.
Z : 13, 13, 13, 13, 13, 13, 13, 13, 13, 13.
concluiremos que todas possuem a mesma média 13. No entanto são sequências completamente distintas do
ponto de vista de variabilidade dos dados. Na sequência Z não há variabilidade dos dados. Na sequência Y ,
33
a média 13 representa bem a série, mas existem elementos da série levemente diferenciados da média 13. Na
sequência X os elementos estão bem diferenciados da média 13. As medidas de dispersão serão usadas para
avaliar a representatividade da média. 11
2.7.1 Amplitude Total
A amplitude total de um conjunto de dados é a diferença entre o maior e o menor valor observado. A
medida de dispersão não leva em consideração os valores intermediários perdendo a informação de como os
dados estão distribuídos e/ou concentrados.
H = Xmax −Xmin
Exemplo: A amplitude total da idade dos alunos do curso de Estatística 2010 é:
H = 36− 21 = 15 anos,
isto é, as idades dos alunos diferem em torno de 15 anos.
2.7.2 Amplitude Interquartílica
A amplitude interquartílica é a diferença entre o terceiro e o primeiro quartil. Esta medida é mais estável
que a amplitude total por não considerar os valores mais extremos. Esta medida abrange 50% dos dados e é útil
para detectar valores discrepantes.
dq = Q3 −Q1
Exemplo: A amplitude interquartílica da idade dos alunos do curso de Estatística da UFMT é:
dq = 33, 5− 24, 2 = 9, 3 anos
A amplitude entre o terceiro e primeiro quartil, que envolve 50% (centrais) dos alunos, é de 9,3 anos.
2.7.3 Variância
É a medida de dispersão mais usada e mais importante. Mede a concentração dos dados em torno da
média. É dado pela soma dos quadrados dos desvios dividido pelo número total de observações. A notação S2
é usada para representar a variância amostral.
1. Variância amostral (S2) para dados não tabulados
S2 =
n∑
i=1
(
Xi − X¯
)2
n− 1 , (1)
11BUSSAB, W.O.; MORETTIN, P.A. Estatística Básica. 4a ed., Atual Editora, S.P., 2010.
34
desenvolvendo o quadrado do parentêses obtem-se:
S2 =
1
n− 1
{
n∑
i=1
X2i − nX¯2
}
. (2)
Exemplo: Calcular a variância do conjunto A = {10, 12, 13, 20, 25, 34, 45}, X¯= 22,71.
Tabela 20: Cálculo da variância.
Xi di = (Xi − X¯) d2i = (Xi − X¯)2
10 -12,71 161,54
12 -10,71 114,70
13 -9,71 94,28
20 -2,71 7,34
25 2,29 5,24
34 11,29 127,46
45 22,29 496,84
Total 0,03 1007,4
Na Tabela 20 di é chamadado de desvio, a soma do desvio é nula. A soma dos desvios ao quadrado
dividido por n− 1 resulta na variância e a raíz quadrada da variância é o desvio-padrão.
Logo, S =
√
1007, 4/6 ∼= 13 e S2 = 167, 9.
2. Desvio-Padrão (S): É a raíz quadrada da variância. Deixa a medida de variabilidade na mesma unidade
de medida dos dados, diferente da variância. Exemplo: Se calculamos a variância das alturas de um
conjunto de 10 crianças, essa variância terá como unidade de medida cm2 e o desvio padrão cm, mesma
unidade de medida das observações coletadas.
3. Variância de dados tabulados em distribuição de frequências: Quando os valores vierem dispostos em
uma tabela de frequências, o cálculo da variância se fará através da seguinte fórmula:
S2 =
k∑
i=1
(
Xi − X¯
)2
fi
n− 1 (3)
Se os dados forem agrupados em classe Xi é substituído por Pmi.
S2 =
k∑
i=1
(
Pmi − X¯
)2
fi
n− 1 (4)
ou desenvolvendo o quadrado do parênteses obtém-se:
S2 =
1
n− 1
{
n∑
i=1
X2i fi − nX¯2
}
. (5)
35
Se os dados forem agrupados em classe Xi é substituído por Pmi.
S2 =
1
n− 1
{
n∑
i=1
Pm2i fi − nX¯2
}
. (6)
Exemplo: Os dados a seguir referem-se as vendas de determinada empresa e produtividade de seus
vendedores.
Vendas(x 1000 - R$)(xi) No de vendedores(fi) xifi x2i fi
70 1 70 702 × 1
120 12 1440 1202 × 12
170 27 4590 1702 × 27
220 31 6820 2202 × 31
270 10 2700 2702 × 10
Total 81 15620 3187400
A média para os dados apresentados na tabela acima será dada por:
X¯ =
∑
xifi
n
=
15620
81
∼= 192, 84.
Logo as vendas médias dessa empresa foi de ∼= 192, 84 (x 1000 - R$).
A variância será dada por:
S2 ∼= 1
81− 1 ×
{
3187400− 81(192, 84)2} ∼= 2.190, 39
O desvio padrão será dada por:
S =
√
2.190, 39 ∼= 46, 8
Apresentando uma variabilidade razoavelmente alta.
Para dados agrupados em classes usaremos o exemplo das idades citado anteriormente.
Idade Pmi fi Pmifi Pm2i fi
21 ` 24 22,5 7 157,5 22, 52 × 7
24 ` 27 25,5 8 204 25, 52 × 8
27 ` 30 28,5 1 28,5 28, 52 × 1
30 ` 33 31,5 5 157,5 31, 52 × 5
33 ` 36 34,5 9 310,5 34, 52 × 9
TOTAL - 30 858 25231,5
A média para os dados apresentados na tabela acima será dada por:
X¯ =
∑
Pmifi
n
=
858
30
∼= 28, 6.
A idade média dos alunos é de 28,6 anos.
36
A variância será dada por:
S2 ∼= 1
30− 1 ×
{
25231, 5− 30(28, 6)2} ∼= 23, 1
O desvio padrão será dada por:
S =
√
23, 1 ∼= 4, 8
Apresentando uma variabilidade moderada.
Interpretação do desvio-padrão (análoga à da variância):
• Devemos ter em mente que o desvio-padrão mede a variação entre valores. Assim:
• Se os valores estiverem próximos uns dos outros, então o desvio-padrão será pequeno, e consequente-
mente os dados serão homogêneos.
• Se os valores estiverem distantes uns dos outros, então o desvio-padrão será grande, e consequentemente
os dados serão heterogêneos.
• A desvantagem do uso da variância perante o uso do desvio-padrão é que a unidade de medida utilizada
é igual ao quadrado da unidade de medida dos dados. No entanto, por conta da maior facilidade do
trato algébrico com funções quadráticas, a variância será a medida de dispersão mais utilizada quando
tratarmos da inferênciaestatística.
2.7.4 Coeficiente de Variação
Trata-se de uma medida relativa de dispersão, útil para comparação em termos relativos do grau de
concentração em torno da média de séries distintas.
É dada por:
CV =
S
X¯
× 100 (7)
Como o CV é uma medida que exprime a variabilidade relativa à média, é usualmente expresso em porcenta-
gem.
Exemplo: Tomemos os resultados das medidas das estaturas e dos pesos de um mesmo grupo de indiví-
duos:
X¯ s
Estaturas 175 cm 5,0 cm
Pesos 68 kg 2,0 kg
Temos:
CVE =
5
175
× 100 = 2, 85%
CVP =
2
68
× 100 = 2, 94%
Logo, nesse grupo de indivíduos, os pesos apresentam maior grau de dispersão que as estaturas.
37
O Coeficiente de variação pode ser usado em um conjunto de dados para determinar a homogeneidade
dos mesmos. O grau de homogeneidade geralmente é determinado pelo próprio pesquisador e depende de que
tipo de estudo está sendo feito. Nesse curso usaremos um grau de até 20% para os dados serem considerados
homogêneos.
2.7.5 Exercícios
Tabela 21: Informações sobre sexo, idade (anos), altura (metro e centímetro), peso (kg), estado civil, número
de irmãos, transporte, procedência, relação do trabalho com o curso de Estatística e meio de informação dos
alunos da disciplina Inferência Estatística do curso de Estatística da UEM - 21/03/2005.
No Sexo Id Altura Peso Est.Civil Noir. Transp. Procedência Trabalho Inform
1 F 20 1,60 58 Solteiro 1 Próprio Maringá Não Rel. TV
2 F 26 1,65 59 Solteiro 2 Coletivo Fora do Pr Não trab. Revista
3 F 18 1,64 55 Solteiro 2 Próprio Maringá Não trab. TV
4 F 25 1,73 60 Solteiro 2 Coletivo Outro no Pr Não Rel. TV
5 M 35 1,76 83 Casado 6 Coletivo Outro no Pr Não Rel. TV
6 F 20 1,62 58 Solteiro 2 Coletivo Outro no Pr Não Rel. Rádio
7 F 29 1,72 70 Solteiro 3 Coletivo Maringá Não trab. TV
8 M 23 1,71 62 Separado 2 Próprio Outro no Pr Não Rel. Internet
9 F 20 1,63 63 Solteiro 2 Próprio Maringá Não trab. TV
10 M 20 1,79 75 Solteiro 2 Próprio Fora do Pr Não trab. Internet
11 M 20 1,82 66 Solteiro 1 Próprio Fora do Pr Não trab. TV
12 F 30 1,68 46 Solteiro 3 Próprio Outro no Pr Parc.Rel. TV
13 F 18 1,69 64 Solteiro 1 Próprio Maringá Parc.Rel. TV
14 M 37 1,82 80 Casado 2 Próprio Maringá Não Rel. TV
15 M 25 1,83 62 Solteiro 1 Próprio Outro no Pr Não Rel. TV
16 F 20 1,63 68 Solteiro 2 Coletivo Maringá Não trab. TV
17 M 21 1,71 80 Solteiro 2 Coletivo Maringá Não Rel. Internet
18 M 25 1,80 82 Casado 1 Próprio Outro no Pr Não Rel. Internet
19 F 24 1,62 55 Solteiro 2 Próprio Maringá Não trab. Jornal
20 M 19 1,74 58 Solteiro 2 Próprio Maringá Com.Rel. TV
21 F 21 1,55 65 Solteiro 1 Próprio Maringá Não trab. TV
22 M 22 1,73 62 Solteiro 0 Próprio Maringá Não trab. Jornal
1. Com base na Tabela (21) responda:
a) Classifique as variáveis descritas na tabela;
b) Faça um resumo estatístico para as variáveis qualitativas (distribuição de freqüência e gráficos de pizza
e barras);
c) Faça um resumo estatístico para as variáveis quantitativas: Salário e Idade (distribuição de freqüência
e Histograma);
d) Calcule as medidas de Posição e Dispersão; Interprete os resultados.
e) Calcule Q1, Q3 e P95;
2. Calcule para cada uma das distribuições abaixo as seguintes medidas:
a) de tendência central: média aritmética, mediana e moda. (Interprete os resultados)
b) de dispersão: amplitude total, desvio-padrão e variância. (Interprete os resultados)
38
i) Pesos de recém-nascidos (em kg): 2.7; 3.9; 4.1; 4.3; 5.4
ii) Taxas sanguíneas de uréia (mg/dl): 27; 31; 32; 34; 46; 61
iii)
Tabela 22: Idade de pacientes renais (em anos).
Idade 26 28 30 32 37 Total
fi 3 10 12 5 19 49
iv)
Tabela 23: Número de atendimentos em serviço médico por funcionários de uma empresa.
No de Atendimentos 0 1 2 3 4 Total
fi 24 21 3 51 1 100
v)
Tabela 24: Altura de 140 alunos (em cm).
Estaturas 145`150 150`155 155`160 160`165 165`170 170`175 175`180 180`185
No de alunos 2 10 27 38 27 21 8 7
c) Calcule o primeiro quartil, o quadragésimo centil e o nono decil para o conjunto de dados. (Interprete
os resultados)
3. Os dados para este exemplo provêm de uma jazida de carvão, localizada em Sapopema-PR, na qual
foram obtidos valores para as variáveis espessura da camada de carvão, teor de cinzas, teor de enxofre e
rendimento para a obtenção de um produto lavrado com 20% de cinzas. Como descrito por Cava (1985)
e Landim et al. (1988), esse depósito situa-se a cerca de 20km a noroeste da Figueira, no nordeste do
Estado do Paraná, em sedimentos da parte superior do Membro Triunfo da Formação Rio Bonito.
a) Resuma os dados da variável Teor de Cinzas em uma tabela de distribuição de freqüências;
b) Construa um histograma e um polígono de freqüência para essa variável;
c) Calcule as medidas de tendência central e dispersão para a variável: Teor de Cinzas;
39
Espessura Cinzas Enxofre Rendimento a 20%
0,8 38,6 15,2 0,81
0,72 22,6 6,1 0,83
0,69 39 7,9 0,67
0,8 37,1 10,1 0,99
0,73 40,8 4,9 0,81
1,19 34,1 7,21 1,32
0,94 25 5,79 1,32
0,96 29,3 7,92 1,12
1,05 33 7,03 1,19
1,32 29,7 7,32 1,37
1,02 33,7 8,1 0,91
1,2 2 6,13 7,4 1,64
1,1 25,41 8,6 1,49
1,18 22,8 6 1,4
1,3 19,1 8,1 2,13
1,55 35,1 7,93 1,75
1,57 16,9 6,31 1,9
1,3 20,5 6,27 1,89
1,18 39,1 5,74 1,32
1,4 38,6 8,68 1,43
1,3 27,5 7,75 1,55
1,5 25,4 6,87 2,03
1,4 24,3 6,9 1,59
1,85 57,4 5,6 1,15
1,2 22 7,46 1,77
1,23 27 5,99 1,57
1,3 32,1 8,07 1,46
1,62 36,8 5,24 1,77
2,09 19,5 5,34 1,21
1,6 47,8 5,93 1,44
1,4 43,1 5,6 1,18
1,41 36,6 8,17 1,48
1,38 39,6 5,12 1,3
1,04 31,1 6,39 1,28
1,31 64,8 5,71 1,09
1,28 43,24 5,4 1,33
0,55 27,2 9,01 0,82
40
3 Probabilidade
Na parte inicial do curso vimos como caracterizar uma massa de dados, com o objetivo de organizar e
resumir informações. Agora será apresentada a teoria matemática que dá a base teórica para o desenvolvimento
de técnicas estatísticas a serem apresentadas no restante do curso.
Encontramos na natureza dois tipos de fenômenos: determinísticos e aleatórios. Os fenômenos determi-
nísticos são aqueles em que os resultados são sempre os mesmos, qualquer que seja o número de ocorrências
verificadas. Como exemplo, há o fato de os quadrados de inteiros ímpares serem ímpares, de a água ferver
a 100◦C, de a solução de água e sal completarem circuitos elétricos (a solução é condutora de eletricidade),
de chapas de ferro ao ar livre enferrujarem (pela combinação do ferro com o oxigênio) etc. Nos fenômenos
aleatórios, os resultados não serão previsíveis, mesmo que haja um grande número de repetições do mesmo
fenômeno. 12
3.1 Fenômeno Aleatório
No nosso dia-a-dia, em maior ou menor grau, nos deparamos com o acaso. Por exemplo, da afirmação
“é provável que meu time ganhe a partida hoje” pode resultar:
• que, apesar do favoretismo, ele perca;
• que, como pensamos, ele ganhe;
• que empate.
Como vimos, o resultado final depende do acaso. Fenômenos como esse são chamados fenômenos aleatórios
ou experimentos aleatórios.
Definição: Experimentos ou fenômenos aleatórios são aqueles que, mesmo repetidos várias vezes sob
condições semelhantes, apresentam resultados imprevisíveis. 13
Podemos considerar os experimentos aleatórios como fenômenos produzidos pelo homem.
• Lançamento de uma moeda honesta;
• Lançamento de um dado;
• Lançamento de duas moedas;
• Retirada de uma carta de um baralho completo, de 52 cartas;
• Determinação da vida útil de um componente eletrônico.
A análise desses experimentos revela que:
a) Cada experimento poderá ser repetido indefinidamente sob as mesmas condições;
b) De início não sabemos o valor do experimento mas podemos descrever todos os resultados possíveis;
12Milone, G., Estatística Geral e Aplicada. Ed. Cengage Learning.
13Morettin, L.G., Estatística Básica - Probabilidade e Inferência. Ed. Pearson.
41
c) Quando o experimento for repetido um grande número de

Outros materiais