Apostila Estatística Descritiva

•

PUC-RS

André Pantoja

27.11.2013

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 32 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 32 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 32 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística Descritiva

1.928 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL 
Faculdade de Matemática – Departamento de Estatística 
CONTROLE ESTATÍSTICO DA QUALIDADE 
 
Prof. Hélio Radke Bittencourt Disponível no Moodle Email: heliorb@pucrs.br 
 
 
 
 
 
 
 
 
 
 
 
 
 
Estatística Descritiva 
 
Notas de aula 
 
 
 
 
 
 
 
 
 
 
 
 
Agosto de 2010 
 
 2 
 
Cap. 1. CONCEITOS BÁSICOS 
 
 
A Estatística pode ser definida como o conjunto de ferramentas para coleta, 
organização, análise e interpretação de dados experimentais. O objeto de 
estudo em Estatística é um conjunto de dados que pode constituir uma 
população ou uma amostra. 
 
 
População é um conjunto finito ou infinito de elementos. 
 
Amostra é um subconjunto da população. Geralmente buscamos amostras 
representativas. Uma amostra representativa é aquela que mantém as 
características da população. 
 
Questões: 
 
1) Um aluno escolhido aleatoriamente na sala de aula constitui uma amostra da 
turma? 
 
2) Qual o número aproximado de eleitores no Rio Grande do Sul? Qual o 
tamanho amostral das pesquisas eleitorais realizadas pelos institutos? 
 
3) Como se chama a investigação de toda a população? Por que, por exemplo, 
o IBGE não realiza _______________ anualmente? 
 
 
1.1 Tipos de Variáveis e Escalas de Mensuração 
 
Já vimos que a Estatística trabalha com conjunto de dados formado por 
elementos. Nós não trabalharemos diretamente com os elementos que formam 
o conjunto de dados, mas sim com suas características. Variáveis são 
características dos elementos que formam o conjunto de dados. 
 
Vamos imaginar um carro e listar variáveis associadas a ele: 
 
 
 
 
 3 
 
As variáveis podem ser classificadas em qualitativas ou quantitativas: as 
variáveis qualitativas expressam uma classificação em categorias e, por isso, 
também são chamadas de categóricas. As variáveis quantitativas expressam 
quantidades numéricas e se dividem em discretas e contínuas. As variáveis 
discretas assumem apenas determinados valores num dado conjunto 
enumerável, enquanto as variáveis contínuas podem assumir, ao menos 
teoricamente, qualquer valor num dado intervalo numérico. 
 
 
 
Figura – Esquema dos tipos de variáveis: 
 
 
 
 
 
 
 
 
 
 
 
 
 
Na prática todas as variáveis são discretas, devido à limitação dos instrumentos 
de mensuração. 
 
 
Escalas de Mensuração 
 
As variáveis ainda podem ser classificadas de acordo com o nível ou escala de 
mensuração: Nominal, Ordinal ou Intervalar/Razão. 
 
O nível nominal de mensuração é caracterizado por números que apenas 
diferenciam ou rotulam as categorias. 
 
Exemplos: 
 
 
 
O nível ordinal de mensuração envolve números que, além de diferenciar, 
hierarquizam as categorias. 
 
Exemplos: 
 
 
 4 
 
O nível intervalar ou de razão apresenta números que expressam 
diretamente uma quantidade. Podemos tranqüilamente realizar operações 
matemáticas com variáveis deste tipo. 
 
Exemplos: 
 
 
 
Figura – Resumo dos tipos de variáveis e escalas de mensuração 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 5 
1.4 Estatística Descritiva e Inferencial 
 
A estatística é um conjunto de ferramentas utilizadas para a coleta, tabulação, 
análise e interpretação de um conjunto de dados experimentais. A Estatística 
pode ser dividida em duas grandes áreas: Descritiva e Inferencial. 
 
A estatística descritiva é aquela que costumamos encontrar com maior 
freqüência em jornais, revistas, relatórios, etc. Essa parte da estatística utiliza 
números para descrever fatos. Seu foco é a representação gráfica e o resumo e 
organização de um conjunto de dados, com a finalidade de simplificar 
informações. Nessa categoria se enquadram as médias salariais, taxas de 
inflação, índice de desemprego, etc. 
 
A estatística inferencial consiste na obtenção de resultados que possam ser 
projetados para toda população a partir de uma amostra da mesma. Ela 
fundamenta-se na teoria da amostragem e no cálculo de Probabilidades. Essa é 
a área mais importante da Estatística. 
 
 
Figura - Esquema geral de um curso de Estatística 
 
 
 
 
Para concluir este capítulo façamos uma associação do esquema acima com as 
disciplinas associadas a ele no curso de Engenharia de Produção: 
 
Nível Disciplinas 
I Estatística Descritiva 
IV Probabilidade 
V Estatística Inferencial 
VI Estatística Avançada 
VII Projeto de Experimentos 
VIII Controle de Qualidade 
 
 
 Descritiva 
 
Estatística 
 
 
 
 Inferencial 
 
 
 
 Probabilidade Amostragem 
 
 6 
Cap. 2 RESUMO DE INFORMAÇÃO & 
ANÁLISE EXPLORATÓRIA DE DADOS 
 
 
Apenas para lembrar: na estatística descritiva nos preocupamos em 
apresentar a informação de conjuntos de dados de forma resumida, mas, ao 
mesmo tempo, útil para o pesquisador. 
 
2.1 Tabelas de freqüência 
 
Tabelas de freqüência são encontradas em jornais informativos (Zero Hora, 
Correio do Povo, etc.), relatórios técnicos, monografias, dissertações, teses e 
revistas científicas. As tabelas de freqüência simples apresentam de forma 
concisa o número de ocorrências (absoluta e relativa) dos valores de uma 
variável 
 
Uma tabela de freqüência genérica tem a seguinte configuração: 
 
 
Tabela 1 – Tabela de freqüências genérica 
i xi fi fri Fi Fri 
1 x1 f1 fr1 F1 Fr1 
2 x2 f2 fr2 F2 Fr2 
M M M M M M 
k xk fk frk Fk Frk 
 Σ n 100,0% - - 
 
 
A notação utilizada é a seguinte: 
 
 
X é uma variável qualquer 
x é um particular valor da variável X 
i é um índice útil para enunciar as expressões matemáticas 
k é o número de linhas da tabela 
 
 
 
 
 7 
Os componentes da tabela de freqüências são: 
 
Freqüência absoluta (fi): número de ocorrências do valor xi. 
 
Freqüência relativa (fri): percentual de ocorrências do valor xi 
 
Freqüência absoluta acumulada (Fi): número de ocorrências até o valor xi. 
 
Freqüência relativa acumulada (Fri): percentual de ocorrências até o valor 
xi 
 
 
 
Como calcular as freqüências: 
 
 
 
 
 
 
 
 
 
 
 
 
 
Exemplo 1 – Número de pessoas que mora em nosso domicílio 
 
Este exemplo será construído com dados coletados na sala de aula. 
 
 
Exemplo 2 – Tempo nominal de deslocamento SUA CASA – PUCRS às 
segundas-feiras 
 
A variável tempo é vital para o Engenheiro de Produção. Neste exemplo 
veremos que o tratamento dado a esse tipo de variável deve ser 
obrigatoriamente diferente. 
 8 
 
2.2 Medidas de Tendência Central 
 
São valores que trazem informação sobre a região em torno da qual os dados 
estão posicionados. As medidas de tendência central mais utilizadas são: Média, 
Mediana e Moda. 
 
Para apresentar as medidas de tendência central vamos utilizar o seguinte 
exemplo. 
 
 
2.2.1 – Média Aritmética (µµµµ , X ) 
 
A média aritmética é definida como a soma de todas observações da variável 
X, dividida pelo número de elementos do conjunto de dados. Freqüentemente a 
média aritmética é o valor que melhor representa um conjunto de dados. 
 
Quando os dados não estão organizados na forma de uma tabela de 
freqüências e, portanto, estão na forma isolada, as expressões genéricas para 
encontrar a média são: 
 
 População Amostra 
 
N
x
N
i
i∑
=
=
1µ 
n
x
X
n
i
i∑
=
=
1 
 
 
Quando os dados estão organizados na forma de uma tabela de freqüências 
deve-se ponderar os diferentes valores xi pelas respectivas freqüências fi. 
Procedendo desta forma o cálculo da média aritmética torna-se mais simples e 
rápido. 
 
 População Amostra 
 
N
fx
k
i
ii∑
=
×
=
1µ 
n
fx
X
ki
ii∑
=
×
=
1 
 
 
Exemplo 3 – Número de pessoas que mora em nosso domicílio 
 
Calcular a média aritmética para o exemplo do número de pessoas que mora no 
domicílio. 
 
 
 
 9 
 
2.2.2 – Mediana (Md) 
 
A mediana é o valor que divide o conjunto de dados ordenado em duas partes 
com igual número de observações. Para calcular a mediana iremos utilizar uma 
nova notação. Seja ][]2[]1[ ,,, nxxx K um conjunto de dados ordenado (ordem 
crescente), onde o valor entre colchetes representa a posição no conjunto 
ordenado. 
 
Deduzindo a posição mediana: 
 
 n ímpar n par 
n Fila Md n Fila Md 
3 
 
 
 4 
5 
 
 
 6 
7 
 
 
 8 
 
 
As expressões genéricas para encontrar a mediana são: 
 
 
 n ímpar n par 
 
 
 
 
 
 
 
 
Quando os dados estão organizados na forma de uma tabela de freqüências 
pode-se encontrar a posição mediana na coluna acumulada Fi. 
 
Exemplo 4 – Número de pessoas que mora em nosso domicílio 
 
Encontrar a Md para o exemplo do número de pessoas que mora no domicílio. 
 
 
 
 
 
 
 10 
 
2.2.3 – Moda (Mo) 
 
A moda é definida como o valor mais freqüente de um conjunto de dados. É 
possível que o conjunto seja bimodal (duas modas) ou até mesmo 
multimodal (três os mais modas). 
 
 
{ } ii fxMo maior com = 
 
 
 
Exemplo 5 – Número de pessoas que mora em nosso domicílio 
 
Encontrar a Mo para o exemplo do número de pessoas que mora no domicílio. 
 
 
 
Considerações sobre as MTC 
 
1. A média é a MTC mais influenciada por valores extremos, entretanto é a 
medida mais “rica”, porque considera todos valores do conjunto de dados. 
 
2. A mediana não é afetada por valores extremos. 
 
3. A moda é a MTC mais “pobre”, porque considera apenas os valores mais 
freqüentes. 
 
4. Existem outros tipos de média que não são tão afetadas por valores 
extremos, entretanto não toleram, por exemplo, o valor zero. 
 
Média harmônica Média geométrica 
 
∑
=
=
n
i i
h
x
n
X
1
1
 n nG xxxX ×××= K21 
 
Pode-se estabelecer a seguinte relação entre as médias: 
 
XXX Gh ≤≤ 
 
 
 
 
 
 
 
 11 
 
 
2.3 Separatrizes 
 
São valores que separam o conjunto de dados ordenado em partes com igual 
número de observações. 
 
A Mediana é, portanto, uma separatriz porque divide o conjunto de dados em 
duas partes iguais. 
 
 
Min |------------------------|------------------------| Máx 
 Md 
 
 
Os Quartis (Qi) dividem o conjunto de dados em 4 partes iguais. 
 
Min |------------------------|------------------------| Máx 
 
 
 
Os Percentis (Pi) dividem o conjunto de dados em 100 partes iguais. 
 
Min |------------------------|------------------------| Máx 
 
 
 
Exemplo 6 – Boletim de Desempenho do Provão do MEC 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Exemplo 7 - Separatrizes para o tempo de deslocamento 
 
Encontrar alguns valores de quartis e percentis para os dados de tempo de 
deslocamento dos alunos de nossa turma.
 12 
2.4 Medidas de Variabilidade 
 
São medidas que complementam as MTC trazendo informação sobre a 
dispersão existente no conjunto de dados. Para introduzi-las vamos recorrer a 
um exemplo onde temos três diferentes empresas e a variável X investigada é o 
salário. Todas empresas têm seis funcionários. 
 
Tabela – Distribuição salarial em três empresas 
 Empresa A Empresa B Empresa C 
 1000 1000 1000 
 1000 800 200 
 1000 1000 300 
 1000 1200 1000 
 1000 1300 2100 
 1000 700 1400 
Média ( X ) 
Moda (Mo) 
Mediana (Md) 
 
 
 
 
 
 
 
Questões 
 
1 – O que aconteceu com as MTC na tabela acima? 
 
 
2 – As três empresas são iguais em relação a distribuição salarial? 
 
 
3 – O que diferencia uma empresa da outra? 
 
 
 
A partir de agora aprenderemos a calcular medidas capazes de 
quantificar a variabilidade existente num conjunto de dados 
 
 
 
 13 
2.4.1 – Amplitude (R, do termo Range) 
 
É a diferença entre o maior e o menor valor de um conjunto de dados. 
 
{ } { }ii xmínxmáxR −= 
 
 
2.4.2 – Variância (σσσσ2 , s 2) 
 
A variância é uma medida da variação em torno da média. Por definição, 
variância é a média dos quadrados dos desvios em torno da média. 
 
População Amostra 
( )
N
x
N
i
i∑
=
−
=
1
2
2
µ
σ 
( )
1
1
2
2
−
−
=
∑
=
n
Xx
s
n
i
i
 
 
A variância, ao contrário da Amplitude, considera todos elementos do conjunto 
de dados no seu cálculo. Quanto maior for a variação dos valores do conjunto 
de dados, maior será a variância. 
 
Quando os dados estão organizados na forma de uma tabela de freqüências, 
deve-se ponderar os quadrados dos desvios pela freqüência. Esse procedimento 
facilita o cálculo. 
 
População Amostra 
( )
N
fx i
k
i
i ×−
=
∑
=1
2
2
µ
σ 
( )
1
1
2
2
−
×−
=
∑
=
n
fXx
s
k
i
ii
 
 
 
2.4.3 – Desvio-padrão (σσσσ, s) 
 
O desvio-padrão é a raiz quadrada positiva da variância. Essa medida corrige o 
problema de unidade que surge na variância. O desvio-padrão também é 
uma medida da variação em torno da média. 
 
 
População Amostra 
2σσ = 2ss = 
 
 
 
O desvio-padrão expressa a variação média do conjunto de dados em torno da 
média, para mais ou para menos. 
 
 
 14 
2.4.4 – Coeficiente de Variação (CV) 
 
O CV é a razão entre o desvio-padrão e a média de um conjunto de dados. Ele 
expressa a variação relativa (%) presente no conjunto de dados em relação à 
média. 
 
 
 População Amostra 
%100×=
µ
σ
CV %100×=
X
s
CV 
 
 
Quanto maior o CV, mais heterogêneos serão os dados. 
 
 
Considerações sobre as Medidas de Variabilidade (MV) 
 
1. A Amplitude á a MV mais “pobre”, porque considera apenas os dois valores 
extremos do conjunto de dados. 
 
2. A Variância não é interpretada na prática devido ao problema da unidade, 
que está ao quadrado. 
 
3. O Desvio-padrão é a MV mais conhecida, sendo amplamente utilizada. 
 
4. Dentre as MV estudadas, sugere-se que o CV seja utilizado para comparação 
da variabilidade entre diferentes conjuntos de dados. Por não ter unidade, o CV 
pode ser utilizado até mesmo para comparar a variabilidade entre variáveis 
expressas em diferentes unidades. 
 
 
Exemplo 8 – Diferenciando as empresas 
 
Encontrar as medidas de variabilidade para diferenciar as três empresas. 
 
 
 15 
Exemplo 9 – Hotelaria nas cidades americanas preferidas para 
Congressos 
 
Considere os seguintes dados da rede hoteleira das principais cidades-sede de 
eventos (congressos, simpósios e conferências) dos Estados Unidos. 
 
Cidade Número 
de quartos 
Número 
de hotéis 
Razão: número de 
quartos por hotel 
Las Vegas 93719 231 406 
Orlando 84982 311 273 
Los Angeles 78597 617 127 
Chicago 68793 378 182 
New York City 61512 230 267 
Atlanta 58445 370 158 
San Francisco 41350 294 141 
Fonte: McClave (2001, p. 64). 
Obs.: Os dados são de 1995 e aproximados. 
 
Encontrar as Medidas de Tendência Central e de Variabilidade para a Razão: 
número de quartos por hotel. 
 
 
 
 
Trabalho 1 
 
Escolher três países latino-americanos e acompanhar as cotações de suas moedas num 
período de 30 dias (atual). Para encontrar as cotações na Internet: 
http://br.invertia.com/ clicarem “Mercados → Câmbio”, escolher a moeda e clicar 
em “Cotações”. 
Atenção: Não escolher moedas que apresentam variabilidade nula como o Bolívar da 
Venezuela. 
 
a) Encontrar todas medidas descritivas estudadas para as moedas dos 3 países. 
b) Interpretar os resultados de UM país, dizendo qual país tem a moeda mais instável. 
c) Graficar a evolução temporal das moedas no período. 
 
 
 
 
 
 16 
2.5 – Assimetria e Curtose 
 
Em Estatística, a assimetria (skewness) é uma medida do grau de assimetria 
verificado num conjunto de dados. Por definição, a assimetria é calculada a 
partir do momento de ordem 3 centrado na média, conforme segue: 
( )
3
3
1
σ
n
Xx
As
n
i
i∑
=
−
= 
 
Para dados simétricos, As=0. Nesse caso, também, os dados deverão 
apresentar a média e a mediana idênticas e é justamente a diferença entre 
estas duas medidas que resulta no coeficiente de Assimetria de Pearson (Asp). 
 
s
MeX
Asp
)(3 −
= 
No caso de |As| > 1, temos forte assimetria. 
Exemplo: 
Exemplo 1 - Exemplo 2 - 
i xi fi fri Fri i xi fi fri Fri 
1 4 5 10% 10% 1 4 11 22% 22% 
2 5 7 14% 24% 2 5 9 18% 40% 
3 6 8 16% 40% 3 6 8 16% 56% 
4 7 10 20% 60% 4 7 7 14% 70% 
5 8 8 16% 76% 5 8 6 12% 82% 
6 9 7 14% 90% 6 9 5 10% 92% 
7 10 5 10% 100% 7 10 4 8% 100% 
 50 100% 50 100% 
4 5 6 7 8 9 10 4 5 6 7 8 9 10
 17 
A curtose (kurtosis) é uma medida do grau de achatamento de uma 
distribuição em relação a uma distribuição padrão, denominada curva normal. A 
seguinte nomenclatura e utilizada: 
 
Leptocúrtica: distribuição mais concentrada que a curva normal, ou seja, mais aguda em sua 
parte superior. 
 
Platicúrtica: distribuição mais espalhada do que a curva normal, ou seja, mais achatada em 
sua parte superior. 
 
Mesocúrtica: é o nome dado quando a curtose se assemelha a da distribuição normal. 
 
 
A curtose é calculada a partir do momento de ordem 4 centrado na média, 
conforme segue: 
( )
3
4
4
1
−
−
=
∑
=
σ
n
Xx
C
n
i
i
 
Para C=0 temos uma curva mesocúrtica. Um outro coeficiente de curtose pode 
ser calculado a partir dos percentis: 
 
)(2 1090
13
PP
QQ
C p
−
−
= 
 
Cp = 0,263 ⇒ curva mesocúrtica 
 
Cp < 0,263 ⇒ curva leptocúrtica 
 
Cp > 0,263 ⇒ curva platicúrtica 
 
Vejamos os exemplos com os dados que o professor trouxe. 
 18 
 
 As=0,003 C=0,023 As=2,718 C=12,65 As=-0,018 C=-1,14
 19 
2.6 Propriedades das MTC e MV 
 
 
Considere Y = X+a e Z=aX, onde a é uma constante 
 
%100
22
×
+
==
=
=
=
+=
+=
+=
aX
s
Y
s
CV
ss
ss
RR
aMdMd
aMoMo
aXY
xY
Y
XY
XY
Xy
XY
XY
 
XZ
Xz
XZ
XZ
XZ
XZ
CVCV
ass
sas
aRR
aMdMd
aMoMo
XaZ
=
=
=
=
=
=
=
222
 
 
 
Exemplo – Salário dos funcionários 
 
600 
800 
900 
1000 
1700 
 
 
 20 
2.7 Análise gráfica 
 
O tipo de gráfico adequado para cada variável depende do tipo de variável. Segue uma relação 
de exemplos de variáveis e tipos de gráficos adequados. 
 
Variável Qualitativa Nominal (com poucas categorias) 
 
GRÁFICO DE SETORES 
 
Figura – Marca mais lembrada no quesito “Empresa Aérea”. 
 
Varig
39%
Vasp
13%
Gol
12%
TAM
36%
 
Fonte: Dados de lembrança fictícios. O gráfico foi construído de acordo com a participação no mercado em 2002. 
 
 
 
Variável Qualitativa Nominal (com muitas categorias): 
 
GRÁFICO DE BARRAS 
 
Figura – As 10 empresas gaúchas mais lembradas 
1,8%
1,8%
2,1%
3,3%
3,3%
3,3%
3,8%
4,1%
6,3%
8,7%
0,0% 5,0% 10,0%
Grendene
Renner
Sup.Nacional 
Coca-Cola
GM
Marcopolo
Tramontina
Azaléia
RBS
Gerdau
 
Fonte: Top of Mind – Revista Amanhã – 2002 
Obs.: As outras empresas citadas somam 63,3%, entretanto individualmente não ultrapassam 1,7%. 
 
 
 21 
 
 
Variável Qualitativa Ordinal: 
 
GRÁFICO DE BARRAS 
 
Figura – Avaliação do atendimento em um restaurante 
2%
5%
8%
15%
25%
45%
0% 10% 20% 30% 40% 50%
Péssimo
Ruim
Regular
Bom
Muito Bom
Ótimo
%
A
v
a
li
a
ç
ã
o
 
Fonte: Dados fictícios. 
Base: 100 observações. 
 
 
 
Variável Quantitativa Discreta 
 
GRÁFICO DE COLUNAS 
 
Figura – Distribuição da turma por idade 
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
18 19 20 21 22 23 24 25 26 27 28 29 30
F
re
q
ü
ê
n
ci
a
 
R
e
la
tiv
a
 (
%
)
Idade (anos completos)
 
 
Fonte: Dados coletados na turma de Estatística para ADM – Empreendorismo e Sucessão. 
Base: 28 alunos 
 
 
 
 22 
 
Variável Quantitativa Contínua 
 
HISTOGRAMA 
 
Figura – Distribuição de uma turma por altura 
 
Altura (cm)
200,0190,0180,0170,0160,0150,0
F
re
q
ü
ê
n
ci
a
10
8
6
4
2
0
 
 
Fonte: Alunos de uma turma de Estatística I. Gráfico construído no software SPSS. 
Base: 20 observações 
 
 
 
Gráficos especiais: Ramo-e-folha, Boxplot e Pareto 
Variável Quantitativa Discreta (ou, eventualmente, contínua) 
RAMO-E-FOLHA / Stem and Leaf 
É uma espécie de histograma mais informativo. Através do ramo-e-folha é possível reconstruir 
as informações originais. É um gráfico mais acadêmico do que o histograma. 
Exemplo – Expectativa de vida em países 
 
Average female life expectancy Stem-and-Leaf Plot 
 Stem & Leaf 
 5 . 245577888 
 6 . 3456777778889 
 7 . 00000123344445555555556666677777788888888999999 
 8 . 000000111111122 
 
 Stem width: 10 
 Each leaf: 1 case(s) 
 
 23 
Variável Quantitativa Discreta ou Contínua 
Box-plot 
É um gráfico que apresenta os resultados dos percentis na forma de uma caixa cujo tamanho é 
um indicativo da variabilidade presente no conjunto de dados. Geralmente, os “bigodes” 
indicam a Mediana + 1,5 da amplitude interquartílica (IQR). 
Exemplo – Expectativa de vida em países, separadamente por região 
 
Fonte: SPSS Database 1995. 
 
Variável Qualitativa Nominal 
Gráfico de Pareto 
É um gráfico que permitie separar as poucas respostas que representam muito das 
muitas respostas que representam pouco. Pode-se usar este gráfico em diferentes 
aplicações. A seguir um exemplo do mercado de aviação brasileiro atual 
90,4% 94,1%
96,5% 98,1% 99,4% 99,6% 99,8% 99,9% 99,9% 100,0%100,0%100,0%100,0%
49,7%
0
500000
1000000
1500000
2000000
2500000
3000000
3500000
T
A
M
G
O
L/
V
ar
ig
W
eb
je
t
O
ce
an
A
ir 
A
zu
l
T
R
IP
 L
in
ha
s 
A
ér
ea
s
P
as
sa
re
do
 
P
an
ta
na
l 
T
ot
al
 
A
ir 
M
in
as
N
H
T
 
M
et
a 
T
ea
m
 
A
ba
et
é 
0,0%
20,0%
40,0%
60,0%
80,0%
100,0%
 
Fonte: Aviação Brasil. Infraero, Fev2009 
 
 24 
2.8 Escore Z e desigualdade de Chebyshev 
 
O escore Z pode ser entendido como uma mudança de variável sobre os dados 
originais, consistindo na subtração de cada observação xi pela média dividida pelo 
desvio-padrão. 
 
 
σ
µ−
=
X
Z em populações ou 
s
XX
Z
−
= em amostras 
 
 
O escore Z indica quantos desvios acima ou abaixo da média determinada observação 
está. 
 
Exemplo – Prova de Estatística 
Aluno i Nota 
na prova (xi) 
Escore Z 
(zi) 
1 4 
2 5 
3 6 
4 7 
5 8 
6 9 
7 10 
X 7,00 
s 2,16 
 
Exemplo – Altura dos alunos 
Aluno i 
Altura 
(xi) 
Escore Z 
(zi) 
1 183 
2 1743 176 
4 173 
5 194 
6 173 
7 176 
8 182 
9 179 
10 170 
média 178,00 
desvio ≅ 7,00 
 
 
 
A desigualdade de Chebyshev diz que, independentemente da distribuição dos dados, 
a probabilidade de encontrar um valor que se distancie, em módulo, de k desvio-
padrão da média é inversamente proporcional ao quadrado da constante k. 
 
De maneira mais simples, a proporção de dados com escore Z entre –z e z será no 
mínimo igual a 1-1/z2. Atenção: z > 1. 
 
 25 
Exemplo – Desigualdade de Chebyshev 
Para escore Z =2: 
1-1/4 = 0,75 ou 75%. 
Pelo menos 75% dos dados estarão dentro de + 2 desvios-padrão da média. 
A desigualdade de Chebyshev permite conhecer uma estimativa da proporção de dados 
que se afastam de k desvios da média conhecendo apenas a média e o desvio. 
 
Exemplo – Vestibular 
Pela desiguldade de Chebyshev, qual o percentual de alunos que deverá se afastar de 
2,5 desvios da média? Essa regra funcionou na prova de Matemática UFRGS 2009? 
 
 
 26 
 
3 – Análise Bidimensional 
 
Muitas vezes a análise de dados por meio de variáveis isoladas não permite atingirmos objetivos 
sobre a inter-relação entre elas. Neste capítulo trataremos do tema análise bivariada tanto 
para variáveis qualitativas como quantitativas. 
 
3.1 Tabelas de freqüência cruzada 
 
São representações tabulares da freqüência de ocorrência de duas variáveis simultaneamente. 
São também chamadas de tabelas de contingência. Uma tabela cruzada tem l linhas e c 
colunas. 
 
Exemplo – Fornecedores e Conformidade 
 
 Conformidade 
Fornecedor Conforme Não-conforme Total 
A 
 
12 120 
B 
 
 140 
C 
 
 120 150 
Total 
 
77 
 
a) Complete a tabela e encontre os percentuais por fornecedor. 
 
b) Como medir o grau de associação entre estas duas variáveis? 
 
 
3.2 Medidas de associação para variáveis qualitativas baseadas no valor do qui-
quadrado: 
 
Para exemplificar o cálculo do qui-quadrado vamos utilizar a tabela acima. A estatística Qui-
quadrado baseia-se na diferença entre os valores observados e esperados em cada célula da 
tabela cruzada. Os valores esperados são calculados sob a hipótese de independência. 
 
 
( )
∑
−
=
.
..
2
2
Esp
EspObsχ 
 
Graus de liberdade da tabela cruzada: (l-1)(c-1). 
 
Coeficiente φ= 
n
2χ
 
 
O coeficiente φ é a medida de associação mais simples. O valor de φ varia de 0 (ausência de 
associação) até 1 (associação completa), mas deve ser usado apenas para tabelas 2X2. Quando 
temos uma tabela maior é usual o coeficiente de contingência C: 
 
Coeficiente C= 
2
2
χ
χ
+n
 
 27 
Como C não atinge o máximo (1) no caso de tabelas assimétricas, Cramer sugeriu o coeficiente 
V: 
 
V de Cramer = 
)1;1(
2
−−× clmínn
χ
 
 
 
Vamos preencher a tabela abaixo com os dados da turma e verificar se há relação entre 
lateralidade e o fato de ser destro ou canhoto. 
 
 
Exemplo – Regular and Goofy / Destro ou Canhoto 
 
 R and G 
Lateralidade Regular Goofy Total 
 
Destro 
 
 
 
Sinistro 
 
 
 
Total 
 
 
 
3.2.1 Medida de concordância de Kappa 
 
O coeficiente Kappa proposto por Cohen (1960) é uma medida 
internacionalmente utilizada para verificar o grau de concordância entre duas 
medidas organizadas na forma de uma tabela cruzada quadrada. O valor UM 
indica concordância perfeita, enquanto o valor zero indica concordância nula. 
Embora não seja comum, é possível que o Kappa seja negativo. 
 
 
e
eo
p
pp
k
−
−
=
1
, onde 
po = concordância observada 
 pe = concordância esperada (casual) 
 
A tabela a seguir aprensenta o critério de classificação proposto por Landis & 
Koch (1977, p.165): 
 
Kappa Statistic Strength of Agreement 
<0.00 Poor 
0.00 0.20 Slight 
0.21 0.40 Fair 
0.41 0.60 Moderate 
0.61 0.80 Substantial 
0.81 1.00 Almost Perfect 
 28 
Exemplo: Calcular o coeficiente de Kappa entre as classificações dos fardos de 
fumo de acordo com o produtor rural e a indústria fumageira que compra os 
fardos. O preço varia de acordo com a classe! 
 
 Classificação da fumageira 
Classificação do 
produtor rural 
A B C Total 
A 
 
 
80 50 10 
B 
 
 
10 80 40 
C 
 
 
0 10 30 
Total 
 
 
Bibliografia específica: 
 
Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological 
Measurement, 20, pp. 37 46. 
 
Landis, J.R., & Koch, G.G. (1977). The measurement of observer agreement for categorical 
data. Biometrics, 33, pp. 159 174. 
 
 
3.3. Covariância e Correlação 
 
Agora passaremos a trabalhar com duas variáveis quantitativas (X,Y) e procuraremos estudar o 
relacionamento existente entre elas. 
 
3.3.1 Covariância (sXY ou σσσσXY) 
O real entendimento dos coeficientes de correlação é impossível sem o entendimento da covariância. 
Vamos nos recordar da fórmula da variância (estimador s2): 
 
( ) ( )( )
11
11
2
2
−
−−
==
−
−
=
∑∑
==
n
XxXx
s
n
Xx
s
i
n
i
i
XX
n
i
i
 e, logo, 
( )( )
1
1
−
−−
=
∑
=
n
YyXx
s
i
n
i
i
XY 
 
 
Façamos um exemplo para melhor ilustração: 
 
 29 
Tabela – Amostra de n=5 pares (X,Y) de tempo de uso e viscosidade 
i Tempo de uso 
(xi) 
Viscosidade 
(yi) 
1 2 8 
2 4 7 
3 6 5 
4 8 3 
5 10 2 
Soma 30 25 
Média 6 5 
Desvio 3,162 2,550 
 
 
 
Gráfico de dispersão entre X e Y: 
0
1
2
3
4
5
6
7
8
9
10
0 2 4 6 8 10 12
X = tempo de uso 
Y
 =
 v
is
co
si
d
a
d
e
 
 
 
Exercício – Esboçar graficamente 
 
Covariância positiva Covariância negativa Covariância nula 
 
 
 
 
 
 
 
 
 
IMPORTANTE: O sinal da covariância define o tipo de relacionamento (direto ou +, inverso ou -). 
 
 
 
 30 
3.3.2 – Coeficiente de Correlação de Pearson (r, R ou ρρρρ) 
 
O coeficiente de correlação de Pearson é uma medida no intervalo [-1;+1] que indica o grau de 
relacionamento linear entre duas variáveis quantitativas X e Y. Valores –1 indicam associação inversa 
perfeita, enquanto que o valor +1 indica associação direta perfeita. O valor zero indica ausência de 
correlação e sinaliza independência entre as variáveis. 
 
 
YX
XY
XY
ss
s
r = , logo temos que 11 ≤≤− XYr 
 
 
Exemplo – Encontrar o coeficiente de correlação de Pearson entre X e Y no exemplo anterior. 
 
 
 
Exercício: 
 
Encontrar a correlação entre a capacidade e o preço de HD’s. 
 
i X=Capacidade 
(Gb) 
Y=Preço 
(R$) 
1 160 R$ 140,00 
2 200 R$ 160,00 
3 240 R$ 170,00 
4 300 R$ 210,00 
5 400 R$ 240,00 
6 500 R$ 280,00 
Média 300 R$ 200,00 
Desvios 129,00 R$ 53,29 
 
 
 
 
 
 
 31 
LISTA DE EXERCÍCIOS – ESTATÍSTICA DESCRITIVA (até item 2.7) 
 
Questões numéricas 
1 – O proprietário de uma empresa deseja saber sua nova máquina atende as especificações. A 
máquina deve encher latas de pêssego com 250g de pêssegos com um desvio-padrão que não 
ultrapasse em 5% esse valor. Foi retirada uma amostra supostamente representativa da 
população de 9 latas. 
 
Peso líquido drenado das latas (em gramas) 
248, 252, 249, 251, 250, 253, 250, 250, 247 
 
a) Calcule as medidas de tendência central. 
b) Interprete a média e a mediana. 
c) Calcule as medidas de variabilidade. 
d) Interprete a amplitude, o desvio-padrão e o coeficiente de variação. 
e) A máquina está atendendo as especificações? 
f) Qual seu palpite para o coeficiente de Assimetria? 
 
 
2 – No processo de produção de fumo, o grau de umidade dos fardos de fumo é uma variável 
muito importante que pode até mesmo ocasionara recusa de um pedido desde que esteja fora 
das especificações previstas no contrato. Suponha que a empresa Souza Cruz possua um 
aparelho que meça o grau de umidade dos fardos numa escala de 0 a 100%. A empresa Souza 
Cruz firma um contrato onde está definido que o teor de umidade médio dos fardos deve ser de 
8% com uma variabilidade média máxima de 20% em torno desse valor. 
 
Para avaliar se a sua produção está atendendo ao contrato, a Souza Cruz escolhe 
aleatoriamente 16 fardos e anota os graus de umidade dos mesmos: 
8 ; 8 ; 6 ; 9 ; 8 ; 7 ; 8 ; 9 ; 8 ; 9 ; 8 ; 8 ; 8 ; 7 ; 8 ; 9 
 
a) Organize os dados numa tabela de freqüência completa (considere a variável X = grau de 
umidade como sendo discreta). 
b) Encontre as medidas de tendência central. 
c) Interprete as medidas de tendência central. 
d) Calcule as medidas de variabilidade. 
e) Interprete a amplitude, o desvio-padrão e o coeficiente de variação. 
f) Quais medidas calculadas em b) e d) permite avaliarmos se o contrato está sendo 
respeitado? 
 
 32 
3 – Existe um clássico processo de produção para o produto ABC e um engenheiro de produção 
cria um novo processo com o objetivo de diminuir o tempo de fabricação. Foram anotados os 
tempos de 100 produtos ABC em cada um dos dois processos. 
 
Resultados dos tempos de produção do produto ABC (em minutos) 
CLÁSSICO NOVO PROCESSO 
i xi fi fri Fri i xi fi fri Fri 
1 1 0 1 1 9 
2 2 0 2 2 10 
3 3 2 3 3 10 
4 4 3 4 4 8 
5 5 5 5 5 11 
6 6 18 6 6 10 
7 7 19 7 7 11 
8 8 21 8 8 10 
9 9 28 9 9 10 
10 10 4 10 10 11 
- ∑ 100 - ∑ 100 
 
a) Interprete algumas freqüências para os dois diferentes processos 
b) Calcule e interprete as medidas de tendência central e as medidas de variabilidade para os 
dois processos. 
c) Compare os resultados. Vale a pena mudar o processo de fabricação? 
 
 
Questões teóricas (tão importantes quanto as numéricas) 
 
1) Qual é o objeto concreto de estudo em estatística? 
2) O que são variáveis? 
3) Por que, na prática, não existem variáveis contínuas? 
4) Dê um exemplo para cada uma das escalas de mensuração. Seja criativo, não repita os 
mencionados em aula. 
 
5) É licito realizar operações matemáticas (por exemplo, a média) com os valores de variáveis 
nominais ou ordinais? Explique 
 
6) Diferenciar estatística descritiva e inferencial. 
7) Qual a medida de tendência central mais afetada por valores extremos em um conjunto de 
dados de grande variabilidade? 
 
8) Por que a amplitude é uma medida mais ‘pobre’ que o desvio padrão, do ponto de vista da 
quantidade de informação envolvida nos cálculos. 
 
9) Por que não interpretamos a variância, mas sim o desvio-padrão? 
 
10) Qual a diferença entre o desvio-padrão e o coeficiente de variação.