Estatística Descritiva (Resuminho)

•

UFMT

Andrew Curvo Gauna

08/09/2017

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 6 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 6 páginas

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística Descritiva

1.932 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1 
 
 
ESTATÍSTICA DESCRITIVA 
 
1. TABELAS DE FREQUÊNCIAS 
 
Problema 1: Em uma classe obteve-se os seguintes valores de idade para 20 alunos: 
 
 23 20 21 24 20 
 20 21 22 21 20 
 22 21 22 23 20 
 23 23 24 26 20 
 
Como podemos explorar este conjunto de dados a fim de extrair informações sobre a ocorrência dos 
diferentes valores da variável idade? 
 
 
Uma das maneiras de responder a questão acima é fazendo uso das chamadas tabelas de distribuição de 
frequências. 
 
Considere um conjunto de dados de tamanho n formado por k diferentes valores de uma variável 
qualitativa ou quantitativa. Para cada diferente valor, podemos calcular: 
 
a) Frequência absoluta: número de vezes que o valor ocorre dentro do conjunto de dados. 
 
 Notação: ni. 
 
 Obs.: a soma de todas as frequências absolutas deve ser igual a n. 
 
 
b) Frequência relativa (ou proporção): é a proporção de vezes que cada valor é observado em relação a n. 
 
 Notação: fi , sendo fi = ni / n . 
 
 Obs.: a soma de todas as frequências relativas deve ser igual a 1. 
 
 
c) Frequência percentual: é a frequência relativa expressa em porcentagem. 
 
 Notação: 100fi. 
 
 Obs.: a soma de todas as frequências percentuais deve ser igual a 100. 
 
 
d) Frequência absoluta acumulada até um dado valor: é a soma das frequências absolutas de todos os valores 
menores ou iguais ao valor considerado. 
 
 Notação: Ni. 
 
 
e) Frequência relativa acumulada até um dado valor: é a soma das frequências relativas de todos os valores 
menores ou iguais ao valor considerado. 
 
 Notação: Fi. 
 
 
Obs.: As frequências acumuladas não são calculadas para variáveis qualitativas nominais. 
2 
 
2. TABELAS DE FREQUÊNCIAS EM CLASSES 
 
Considere o seguinte problema: 
Problema 1: Construa uma tabela de distribuição de frequências para o conjunto de dados abaixo. 
 Dados: número de minutos gastos por uma amostra de 50 assinantes da internet durante sua conexão 
mais recente (dados já ordenados). 
 7 7 11 17 17 18 19 20 21 22 
23 28 29 29 30 30 31 31 33 34 
36 37 39 39 39 40 41 41 42 44 
44 46 50 51 53 54 54 56 56 56 
59 62 67 69 72 73 77 78 80 88 
 
 Observe que neste caso, se construirmos a tabela como anteriormente, esta não seria eficiente para resumir 
os dados. Veremos a seguir, como agrupar os dados em classes (intervalos de valores da variável) e definir 
frequências para cada uma das classes. 
 As tabelas de frequências em classes são apropriadas para variáveis quantitativas discretas ou contínuas 
que apresentem um grande número de observações (em geral para 
n 30
), principalmente quando há um número 
elevado de observações distintas. Nestas tabelas, as frequências são obtidas de forma análoga à anterior, com a 
diferença que agora o interesse é no número de ocorrências dentro de cada classe definida. 
 
Passos para construção das classes: 
1) Ordenar os dados em ordem crescente 
2) Escolher a quantidade de classes (k). Não há uma regra fixa para a determinação de k; em geral, depende 
dos objetivos do pesquisador; normalmente, toma-se de 5 a 15 classes, todas com a mesma amplitude. 
Quando não há uma predeterminação de k, alguns métodos usados para obtê-lo são: 
 
101 3 322 ( )k , log n
k n
 

 (obs.: arredondar o resultado para inteiro) 
 
3) Escolher a amplitude de cada classe (h). No caso de escolher amplitudes iguais para todas as classes, 
tomar: 
A
h
k

, 
 sendo A a amplitude total dada por:
máx. min.A x x 
 
4) Definir cada classe na forma 
 LI |—— LS: conjunto de todos os valores maiores ou iguais a LI e menores do que LS. 
(LI: limite inferior, LS: limite superior). 
Os limites são definidos de acordo com a amplitude escolhida no passo anterior sendo que, toma-se o 
primeiro limite inferior como 
min.x
 ou um valor menor que seja conveniente. Cada observação deve 
pertencer a somente uma classe. 
 
 
Exemplo 1: Construa uma tabela de distribuição de frequências para o conjunto de dados abaixo. 
 Dados: peso de 50 elementos (dados já ordenados). 
 
44,0 47,0 47,0 47,4 48,0 49,0 49,0 49,2 50,0 50,0 
51,6 52,0 52,0 52,5 54,0 54,5 54,5 55,0 55,0 55,0 
55,0 56,0 57,0 57,8 58,0 58,0 58,0 58,0 58,5 59,0 
60,0 60,0 60,0 60,5 63,0 63,5 66,0 68,5 70,0 71,0 
72,8 73,0 73,0 75,0 80,9 84,0 85,2 86,0 87,0 95,0 
 
 
 
 
 
 
 
3 
 
3. GRÁFICOS 
3.1 Histograma: gráfico usado para variáveis quantitativas, com valores agrupados em classes. É formado por 
retângulos contíguos, sendo cada retângulo com base na faixa de variação da classe e altura proporcional à 
frequência da classe. Pode-se usar como altura as frequências ni, fi ou 100 fi , ou ainda, o quociente de fi pela 
amplitude da classe (chamado densidade de frequência). Neste último caso, a área total dos retângulos é igual a 1. 
 
3.2 Polígono de Frequência: - gráfico também usado para variáveis com valores agrupados em classes. É 
formado por segmentos de reta que unem sequencialmente os pontos dados pelos valores médios de cada classe e 
a respectiva frequência. Estende-se o gráfico à esquerda e à direita considerando-se os pontos médios de uma 
classe imediatamente anterior à primeira classe e imediatamente posterior à última classe. 
 
3.3 Gráfico de Barras: Construído colocando os valores da variável no eixo das abscissas e as frequências 
absolutas (ou relativas ou percentuais) no eixo das ordenadas e desenhando barras de largura fixa acima de cada 
valor da variável, com altura igual à correspondente frequência. Gráfico ideal para variáveis qualitativas ou 
quantitativas discretas. Obs.: há autores que chamam este gráfico como Gráfico de Colunas e o gráfico em que se 
colocam as barras no sentido horizontal (no eixo das abscissas) de Gráfico de Barras. 
 
3.4 Gráfico de Setores (ou de Pizza): Construído dividindo-se um círculo em setores circulares correspondentes 
às frequências relativas ou percentuais de cada valor. O ângulo de cada setor é obtido multiplicando-se a 
frequência relativa por 360º. Gráfico ideal para variáveis qualitativas. 
 
3.5 Diagrama de dispersão para duas variáveis: 
Considere um conjunto de dados formado por n pares de observações, onde cada elemento do par se refere a uma 
variável. Um diagrama de dispersão é construído representando os pares de observações no plano cartesiano. É 
ideal para auxiliar a verificar possíveis tendências de associação entre as variáveis. 
 
3.6 Gráfico de série temporal: Considere uma série temporal, ou seja, um conjunto de observações ordenadas no 
tempo. Um gráfico da série temporal é construído da seguinte forma: colocar no eixo das abscissas o tempo e no 
eixo das ordenadas os valores observados, marcando-se os pares com pontos; unir os pontos sequencialmente 
através de linhas retas. 
Exemplo: Gráfico de série temporal - Dados: número de assinantes de telefones celulares, em milhões, e o valor médio da 
conta mensal local dos assinantes do serviço, em dólares, de 1987 até 1999. 
 
Ano Assinantes Conta média 
1987 1,2 96,83 
1988 2,1 98,02 
1989 3,5 89,30 
1990 5,3 80,90 
1991 7,6 72,74 
1992 11,0 68,68 
1993 16,0 61,48 
1994 24,1 56,21 
1995 33,8 51,00 
1996 44,0 47,70 
1997 55,3 42,78 
1998 69,2 39,43 
1999 86,0 41,24 
 
99989796959493929190898887
100
90
80
70
60
50
40
Ano
Co
nt
am
éd
ia
 
 
Exemplo : Gráfico de série temporal 
 Dados: umidade relativa do ar ao meio-dia (%) em São Paulo, de 1º de janeiro a 30 de abril de 1991 (120 dados). 
12010080604020
100
90
80
70
60
50
dias
um
ida
de
 
4 
 
4. MEDIDAS DESCRITIVAS DOS DADOS 
4.1. Introdução: 
 Apresentamos aqui algumas medidas usadas para resumir informações contidas em um conjunto de dados. 
As chamadas medidas de posição fornecem valores a respeito da centralidade dos dados. Já as medidas de 
dispersão representam a variabilidade dos dados. As medidas que veremos aqui, são em geral apropriadas para 
dados representando observações de variáveis quantitativas. 
 Denotaremos a variável em estudo por X e os valores observados da variável por x1, x2, ..., xn, sendo n o 
número de observações. 
 
4.2. Medidas de Posição 
 Média: é a soma de todos os valores observados dividida pelo número total de observações. 
 Notação: 
x
 (leia-se x barra). 
n
i
n1 2 i 1
 
 
x
x +x + ... + x
n n
x  

 
 
 Mediana: é o valor que ocupa a posição central dos dados ordenados. Notação: Md. 
 
 Denotando os valores de X em ordem crescente por: 
(1) (2) (n)x , x , ... , x
, temos que: 
 Se n é impar, então 
 n 12
Md x 
 
 Se n é par, então    n n 12 2
 x + x
Md
2


 
 
Obs.: A média 
x
 pode ser muito influenciada por valores discrepantes, o que não ocorre com a mediana. 
 Dados: 1; 2; 5; 6; 7 

 
x
= 4,2 e Md = 5 
 Dados: 1; 2; 5; 6; 15 

 
x
= 5,8 e Md = 5 
 
 
 Moda: é o valor (ou atributo) mais frequente no conjunto de dados. Notação: Mo. 
 
 (Obs.: Em um conjunto de dados pode haver mais de uma moda.) 
 
 
 
4.3. Medidas de Dispersão 
 Considere os três conjuntos de dados abaixo: 
 Dados A: 3; 4; 5; 6; 7 

 
x
= 5 , Md = 5 
 Dados B: 1; 3; 5; 7; 9 

 
x
= 5 , Md = 5 
 Dados C: 5; 5; 5; 5; 5 

 
x
= 5 , Md = 5 
 
Observamos que além de uma medida de posição, é importante obtermos uma medida para representar a 
variabilidade dos dados dentro de cada conjunto. Veremos a seguir, algumas medidas que medem a dispersão dos 
dados em torno de sua média. 
 
 
 Variância: é a soma dos quadrados dos desvios de cada observação em relação à média dividida por n-1. 
Notação: s
2
. 
     
 
n
2
2 2 2 i
1 2 n2 i 1
x x
x x x x ... x x
s
n 1 n 1


     
 
 

 
 
5 
 
 Fórmula alternativa: 
 
n
22
i
2 i 1
x n x
s
n 1





 
 
 
 
 Desvio-padrão: é a raiz quadrada positiva da variância. Notação: s. 
 
n
22
i
2 i 1
x n x
s s 
n 1


 


 
 
 (Obs.: o desvio-padrão fornece uma medida na mesma unidade dos dados originais) 
 
 Coeficiente de Variação: é o quociente entre o desvio-padrão e a média. É geralmente apresentada em forma 
de porcentagem. Notação: CV. 
 s 
CV 100% 
x
 
 
 
 Obs.: o CV é uma medida de variabilidade relativa à média; ela elimina o efeito da magnitude dos dados, sendo 
útil na comparação de dois ou mais conjuntos de dados. 
 Exemplo: A partir dos dados da avaliação física de uma amostra de n = 35 jovens, obteve-se as seguintes 
medidas: 
 Média 
x
 
Desvio-padrão 
s 
Coef. de var. 
CV 
Altura 1,77 m 0,09 m 5,08% 
Peso 68,82 kg 10,26 kg 14,91% 
 
Neste caso, a medida adequada para comparar qual das duas variáveis (diâmetro e altura) apresenta a menor e 
qual apresenta a maior variabilidade é o coeficiente de variação. 
 
 
 
 
Exercício: Um pesquisador social fez entrevistas pessoais com 20 indivíduos de baixa renda, a fim de determinar 
suas concepções de tamanho ideal de família. Perguntou-se a cada um: “Suponha que você tenha decidido o 
tamanho exato que sua família deveria ter. Incluindo todas as crianças e adultos, quantas pessoas gostaria de ter 
em sua família ideal?” As respostas obtidas foram as seguintes (valores já ordenados): 
1 2 2 2 3 3 3 3 4 4 5 6 6 7 7 7 7 8 8 9 
 
 (a) Para este conjunto de dados, calcule as medidas de tendência central: média, mediana e moda. 
 (b) Para este conjunto de dados, calcule as medidas de dispersão: variância, desvio padrão e coeficiente de 
variação. 
 
6 
 
4.4. Medidas para Dados Agrupados 
 A obtenção de algumas medidas podem ser realizadas também a partir das frequências das observações. 
 
 Média de dados agrupados: 
 Para um conjunto de dados com n observações, composto por m elementos distintos 
1 2 mx , x , ..., x
, com 
respectivas frequências 
1 2 mn , n , ..., n
, a média pode ser obtida de forma alternativa fazendo 
m
k k
k 1
n . x
n
 
x 

 
 
 Mediana de dados agrupados: 
 Uma forma alternativa de obter a mediana no caso em que temos um conjunto de dados formado por m 
elementos distintos 
1 2 mx , x , ..., x
, com respectivas frequências 
1 2 mn , n , ..., n
, é observar para qual valor a 
frequência relativa acumulada é igual a 0,5. 
 
 Variância e Desvio-padrão de dados agrupados: 
 Se temos um conjunto de dados com n observações, composto por m elementos distintos 
1 2 mx , x , ..., x
, 
com respectivas frequências 
1 2 mn , n , ..., n
, podemos obter a variância fazendo 
 
 
m 2
2
k k
2 k 1
 n x n x
n 1
s 




 
 
e, consequentemente, o desvio-padrão é dado por 2s s . 
 
 Coeficiente de variação de dados agrupados: 
 Obtidos o desvio-padrão s e a média 
x
 dos dados agrupados, calculamos o coeficiente de variação por: 
 s 
CV 100% 
x
 
 
 
Exemplo: Os dados abaixo se referem a 30 valores observados da variável tempo (em dias), em um certo 
experimento: 
 15 17 16 15 17 14 17 16 16 17 
 15 18 14 17 15 14 15 16 17 18 
 18 17 15 16 14 18 18 16 15 14 
 
 Tabela de frequências: 
Tempo ni fi Fi 
14 5 0,1667 0,1667 
15 7 0,2333 0,4000 
16 6 0,2000 0,6000 
17 7 0,2333 0,8333 
18 5 0,1667 1 
Total 30 1 
 
 Obtenha a média, a mediana, a variância, o desvio-padrão e o coeficiente de variação. 
 
 obs.: A partir da tabela de frequências de classes, é possível obter resultados aproximados de medidas como a média e a 
variância de um conjunto de dados, usando como representante de cada classe o seu ponto médio. Assim, se temos K 
classes e se 
ix
 e 
in
, i=1,...,K, são, respectivamente, os pontos médios e as frequências de cada classe, calculamos a média 
e a variância por: 
 
2
2 2
i
1 1
1 1
 . ; S . x - n . 
1
K K
i i i
i i
x n x n x
n n 
   
    
   
 