Buscar

Estatística - Classificação gráficos e medidas de localização

Prévia do material em texto

Estatística Básica
CRC 7314
Prof. Nei K. Leite / João B. T. Jr.
nei.leite@ufsc.br
26-09-2013
O que vocês aprenderam até agora:
- Como distinguir entre uma população e uma amostra;
- Como distinguir entre um parâmetros e uma estatística;
- Como distinguir entre uma estatística descritiva e uma estatística
inferencial;
- Como distinguir entre dados qualitativos e quantitativos;
- Como classificar dados com relação aos quatro níveis de medida:
nominal, ordinal, discreto e contínuo;
- Como os dados são coletados;
- Como delinear um experimento;
- Como criar uma amostra utilizando amostragem aleatória,
estratificada ou sistemática
O que vocês aprenderam até agora:
- Como construir uma tabela de distribuição de frequências incluindo
número de classes, amplitude, frequências absoluta, acumulada e
relativa;
- Como construir um histograma de frequência;
Polígono de frequência
- Utilize os mesmos eixos x e y do histograma;
- Insira o ponto médio (de cada classe) no eixo x e a respectiva frequência
absoluta (y) com este par ordenado sendo representado por um ponto;
- Como o gráfico começa e termina em um eixo horizontal, prolongue o
lado esquerdo em uma classe extra, antes do primeiro ponto médio e o
lado direito, uma classe depois do último ponto médio.
F
r
e
q
u
ê
n
c
i
a
Preço (em dolares)
Preço de navegadores GPS
Ponto médio
Ogiva
- Construa uma distribuição de frequências que inclua frequência acumulada;
- Especifique os eixos horizontais (limite superior da classe) e verticais
(frequências acumuladas);
- Insira os pontos que correspondem a cada um dos valores dos pares
ordenados;
- Conecte os pontos (no sentido esquerda→ direita)
- O gráfico deve começar do limite inferior da primeira classe (onde a
frequência acumulada é 0) e terminar no limite superior da última classe (= n)
F
r
e
q
u
ê
n
c
i
a
A
c
u
m
u
l
a
d
a
Preço (em dolares)
Preço de navegadores GPS
Diagrama de Ramo e Folhas
- Forma alternativa de representar dados quantitativos;
- Constituem exemplo de Análise Exploratória de Dados (AED);
- Nestes, cada número é separado em um ramo (com o dígito mais à
esquerda) e a folha (com o dígito mais à direita);
- Vantagens:
- Permite ver a distribuição dos dados e ainda reter toda a informação
da lista original
- Representa uma maneira rápida e fácil de ordenar os dados
- Os dados a seguir representam o número de mensagens de texto (sms)
trocadas na última semana por um usuário de telefone celular, aluno da 3°
Fase do curso de Ciências Rurais:
155 159 144 129 105 145 126 116 130 114 122 112 112 142
126 118 118 108 122 121 109 140 126 119 113 117 118 109
109 119 139 139 122 78 133 126 123 145 121 134 124 119
132 133 124 129 112 126 148 147
Chave 15│ 5 = 155
Desordenado Ordenado
Interpretação:
Pela representação visual, conclui-se que mais de 50% dos
usuários de telefone celular enviam entre 110 e 130
mensagens de texto (sms).
Vamos praticar?
Um estudo geoquímico realizado utilizando amostras compostas de sedimentos de
corrente com granulometria de 100-150 mesh e profundidade de 40cm,
provenientes de riachos correndo sobre granulitos, revelou os seguintes resultados
em ppm de Cr:
9 4
10 6 0
11 5 4 1 8
12 5 9 6 0
13 7 0 7 6 5
14 1 3 0 7
15 2 4 8 8
16 5 6 6
17 4 0
18 2 4
Desordenado
9 4
10 0 6
11 1 4 5 8
12 0 5 6 9
13 0 5 6 7 7
14 0 1 3 7
15 2 4 8 8
16 5 6 6
17 0 4
18 2 4
Ordenado
13|7 = 13,7
Gráficos Qualitativos
Setores (ou Pizza)
- Consistem de circulos que são divididos em setores que
representam diferentes categorias.
- A área de cada setor é proporcional a frequência de cada
categoria
- Para encontrar o ângulo central, multiplique a frequência
relativa por 360°;
- Fornecem uma forma
conveniente de apresentar dados qualitativos graficamente, como
percentuais de um todo.
2.04.12.0
2.0
83.7
6.1
MT
PR
RJ
RS
SC
SP
Gráficos Qualitativos
Gráfico de Pareto
- São gráficos de barras verticais nos quais a altura de cada barra
representa a frequência absoluta ou relativa;
- As barras são posicionadas de forma decrescente, com a barra
mais alta posicionada à esquerda;
- Tal disposição ajuda a acentuar os dados importantes, sendo
frequentemente usados na área de negócios.
Gráficos para dados pareados
Gráfico de dispersão
- Ronald Fisher apresentou uma famosa série de dados conhecida como
as Íris de Fisher;
- Esta série descreve várias características físicas, como comprimento das
pétalas, e largura das pétalas (dadas em mm), para três espécies de íris;
- No gráfico de dispersão (scatterplot) abaixo, observa-se que o
comprimento das pétalas forma a primeira série de dados, e a largura, a
segunda. Conforme o comprimento aumenta, o que ocorre com a
largura??
Gráficos para séries temporais
Gráfico de linha
- Série temporal refere-se a uma série de dados compostas de dados
quantitativos coletados em intervalos regulares durante um determinado
período de tempo;
- Como exemplo podemos citar a quantidade de chuva precipitada durante
um ano medida diariamente;
- Gráficos de linha ou coluna
são as representações gráficas
normalmente utilizadas para
representar séries temporais.
O que vocês aprenderam na última aula:
- Polígono de frequência;
- Ogiva;
- Diagrama de ramos e folhas;
- Gráficos qualitativos;
- Setores / Pizza;
- Pareto;
- Dispersão (dados pareados);
- Séries temporais
- EXERCÍCIOS!
MEDIDAS DE LOCALIZAÇÃO
DEFINIÇÕES
Medida Definição
Quão
comum?
Existência
Leva em
conta todos
os dados?
Afetada
por valores
extremos?
Vantagens e 
disvantagens
Média
Valor médio
mais comum
Sempre
existe
Sim Sim
Funciona bem
com muitos
métodos
estatísticos
Mediana
Valor do 
meio
Usada
comumente
Sempre
existe
Não Não
Boa escolha
se há valores
extremos
Moda
Mais
frequente
Usada
raramente
Pode não
existir,
pode
existir
mais de 
uma
Não Não
Apropriada
para dados 
nominais
x
X
n
=
∑
Comparação entre média, mediana e moda
Manequins ≠ Realidade
Manequins Mulheres em geral
Altura 6 pés (1,82 m) 5 pés e 4 pol (1,62 m)
Cintura 23 in (58,42 cm) 29 in (73,66 cm)
Quadris 34 in (86,36 cm) 40 in (101,60 cm)
Tamanho de roupa 6 (40) 11 (44-46)
Torna-se evidente que, quando comparamos médias,
manequins e mulheres reais são muito diferentes!
MEDIDAS DE TENDÊNCIA CENTRAL
Assumindo que as n observações de uma dada
amostra são definidas por x
1
, x
2
, …, x
n
, a média
aritmética da amostra é calculada utilizando a
equação:
1 2 1
n
i
n i
X
x x xX
n n
=
+ + +
= =
∑
…
1 2 1
n
i
N i
X
x x x
N N
µ =+ + += =
∑
…
Amostra
População
Exemplo: Água disponível na profundidade 0-20 cm de um 
Argissolo Vermelho-Amarelo em um povoamento de Castanha 
do Brasil (valores em mm/hora):
x
1
= 12,6; x
2
= 12,9; x
3
= 13,4; x
4
= 12,3; x
5
= 13,6; x
6
= 13,5; x
7
= 12,6; x
8
= 13,1
1 12,6 12,9 13,1 104 13,0
8 8
n
i
i
X
X
n
=
+ + +
= = = =
∑
…
Pos.
12,3 1
12,6 2
12,6 3
12,9 4
13,1 5
13,4 6
13,5 7
13,6 8
A mediana (Md) é a média dos valores que ocupam as
posições 4 e 5 após os dados estarem ordenados, ou seja:
A moda (Mo) é 12,6 pois é o valor que ocorre com maior
frequência na distribuição
12,9 13,1 13,0
2
Md += =
Organização dos dados
em ordem crescente
n+1
2
Batatas-semente
Classificados em 4 tipos de tamanhos (diâmetros):
• I – (50 a 60] (> 50 mm até 60 mm inclusive) 
• II – (40 a 50] (>40 mm até 50 mm inclusive) 
• III – (28 a 40] (> 28 mm até 40 mm inclusive) 
• IV – [23 a 28] (de 23 mm até 28 mm inclusive) 
São comercializadas em caixas de 30 kg, com preço em unidades monetárias (u.m.)
Um agricultor produziu 500 cx / 1 ha, assim distribuídas:
� 100 cx do tipo I → preço: 1.500 u.m./cx;
� 180 cx do tipo II → preço: 3.500 u.m./cx;
� 140 cx do tipo III → preço: 3.000 u.m./cx;
� 80 cx do tipo IV → preço: 1.600 u.m./cx.
Qual o preço médio, por caixa, obtido pelo
agricultor?
= preço da caixa de batata-semente
é o preço da caixa do tipo I, e assim por diante
é o número de caixas produzidas por cada tipo, i = 1, 2, 3, 4 
= 2.656 u.m./cx
x1
n1
Variável X 
Resolução:
Muitas vezes, determinados valores de um dado
conjunto são mais importantes que os demais, ou seja,
têm pesos diferentes
MÉDIA PONDERADA
Nutriente Valor calórico (kcal/g)
Carboidrato 4
Proteína 4
Lipídio 9
Quantidade de calorias presentes nos principais nutrientes encontrados nos alimentos
Qual o valor calórico (VC), em kcal/g, de uma barra de
cereais que contenha 17g de carboidrato, 1,5 g de proteína e
1,5 g de lipídio?
MÉDIA PONDERADA
“Encontre a média ponderada de uma variável X,
multiplicando cada valor pelo seu peso
correspondente e dividindo a soma dos produtos
pela soma dos pesos”
1 1 2 2
1 2
. . ... .
...
xn n
n
ww x w x w xX
w w w w
+ + +
= =
+ + +
∑
∑
Onde w1, w2, …, wn são os pesos e x1, x2,…, xn são os valores
= quantidade de nutrientes de uma barra de cereais
Pesos = valor calórico dos nutrientes
Variável X 
Resolução:
5,147 kcal/g
17 x 4 + 1,5 x 4 + 1,5 x 9 87,5
4 4 9 17
VC = = =
+ +
= Notas dos diferentes instrumentos de avaliação
Pesos = importância relativa de cada avaliação
Variável X 
Resolução:
Avaliação Nota Peso Nota x Peso
1° Prova 86 0,50 43,0
2° Prova 96 0,15 14,4
Seminário 82 0,20 16,4
Lab Informática 98 0,10 9,8
Trabalhos 100 0,05 5,0
Σw = 1 Σ(x.w) = 88,6
MEDIDAS DE VARIABILIDADE (OU DISPERSÃO)
Se X
1
, X
2
, …, X
n
é uma amostra com n
observações, a variância é expressa por:
2
2 1
( )
1
n
i
i
X X
s
n
=
−
=
−
∑
O desvio-padrão, é calculado através da raiz
quadrada positiva da variância:
2
2 ( )X
N
µ
σ
−
=
∑
2
2 ( )X
N
µ
σ σ
−
= =
∑
2
2 ( )
1
X X
s s
n
−
= =
−
∑
Procedimento para cálculo da variância e desvio-padrão
i xi (xi - )
1 12,6 12,6 - 13,0 = -0,4
2 12,9 12,9 - 13,0 = -0,1
3 13,4 13,4 -13,0 = 0,4
4 12,3 12,3 - 13,0 = -0,7
5 13,6 13,6 -13,0 = 0,6
6 13,5 13,5 - 13,0 = 0,5
7 12,6 12,6 - 13,0 = -0,4
8 13,1 13,1 - 13,0 = 0,1
8
2
2 1
( )
1,60 0,2286
8 1 7
i
i
X X
s =
−
= = =
−
∑
X
0,2286 0,4781s = =
O desvio padrão indica a dispersão dos dados dentro da
amostra, isto é, o quanto os dados em geral diferem da
média. Quanto menor o desvio padrão, mais parecidos são os
valores da série estatística.
Interpretação do desvio-padrão
Para comparar a variação do desvio padrão com a média,
usa-se a razão entre o desvio padrão e a média, chamado de
coeficiente de variação (CV), que muitas vezes é multiplicado
por 100 para dar o resultado em porcentagem:
.100sCV
X
=
0,4781
.100 3,7%
13,0
CV = =
Resultado indica baixa
variabilidade entre os
dados!
Regra empírica da amplitude
“Baseia-se no princípio de que para a maioria dos conjuntos
de dados, a grande maioria (≈ 95%) dos valores amostrais se
localizam a 2 DP da média”
Para estimar o valor de um desvio padrão (s): � ≈
�������	
4
Para interpretar um valor conhecido de desvio padrão (s):
Valor máximo “usual” = (média – 2 x DP)
Valor mínimo “usual” = (média + 2 x DP)
Pesquisa Nacional de Saúde sugere taxas de pulsação (bpm)
com média de 76,0 e desvio padrão de 12,5. Use a REA para
determinar as taxas de pulsação máxima e mínima “usuais”
Regra empírica para dados com uma distribuição 
na forma de sino (68-95-99,7)

Continue navegando