Buscar

Aula 3

Prévia do material em texto

Medidas numéricas descritivas
Sandro Bruno do Nascimento Lopes
Universidade Federal do Rio Grande do Norte
4 de março de 2015
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 1 / 86
Sumário
1 Introdução
2 Tipos de medidas
3 Medidas de tendência central
Média
Mediana
Moda
Qual utilizar?
4 Medidas de variação
Amplitude
Amplitude interquartil
Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
Variância
Desvio-padrão
5 Medidas de formato
6 Box-plot
7 Medidas numéricas descritivas para a população
8 Localização de valores extremos
Localização de valores extremos com a amplitude interquartil
Localização de valores extremos com o escore-Z
9 Medidas numéricas para duas variáveis
Covariância amostral
Coeficiente de correlação
Correlação versus causalidade
10 Considerações éticas
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 2 / 86
Sumario
1 Introdução
2 Tipos de medidas
3 Medidas de tendência central
Média
Mediana
Moda
Qual utilizar?
4 Medidas de variação
Amplitude
Amplitude interquartil
Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
Variância
Desvio-padrão
5 Medidas de formato
6 Box-plot
7 Medidas numéricas descritivas para a população
8 Localização de valores extremos
Localização de valores extremos com a amplitude interquartil
Localização de valores extremos com o escore-Z
9 Medidas numéricas para duas variáveis
Covariância amostral
Coeficiente de correlação
Correlação versus causalidade
10 Considerações éticas
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 3 / 86
Introdução
Alguns modelos de gráficos, como histogramas e diagramas de ramo-e-folha,
permitem ter uma noção visual da distribuição dos valores de acordos com
grupos determinados a priori;
O objetivo é descrever tais informações de forma numérica.
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 4 / 86
Introdução
Para o cálculo das medidas numéricas, será utilizado como exemplo uma pesquisa
realizada a 15 pessoas de uma determinada cidade, escolhidas aleatoriamente,
sobre o tempo de viagem de casa para o trabalho em minutos. Os dados obtidos
foram: 30, 20, 10, 40, 25, 20, 10, 60, 15, 40, 5, 30, 12, 10, 10.
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 5 / 86
Introdução
Em rol: 5, 10, 10, 10, 10, 12, 15, 20, 20, 25, 30, 30, 40, 40, 60;
Em diagrama de ramo-e-folha:
0 | 5
1 | 0 0 0 0 2 5
2 | 0 0 5
3 | 0 0
4 | 0 0
5 |
6 | 0
Algumas conclusões que podem ser extraídas dos dois gráficos:
Menor valor: 5 minutos;
Maior valor: 60 minutos;
Valor com maior número de ocorrências: 10 (4 vezes);
Ramo com maior ocorrência: 1
Distribuição assimétrica.
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 6 / 86
Sumario
1 Introdução
2 Tipos de medidas
3 Medidas de tendência central
Média
Mediana
Moda
Qual utilizar?
4 Medidas de variação
Amplitude
Amplitude interquartil
Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
Variância
Desvio-padrão
5 Medidas de formato
6 Box-plot
7 Medidas numéricas descritivas para a população
8 Localização de valores extremos
Localização de valores extremos com a amplitude interquartil
Localização de valores extremos com o escore-Z
9 Medidas numéricas para duas variáveis
Covariância amostral
Coeficiente de correlação
Correlação versus causalidade
10 Considerações éticas
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 7 / 86
Tipos de medidas
A tendência central corresponde à extensão na qual todos os valores de
dados se agrupam em torno de um valor central típico;
A variação corresponde ao montante de dispersão, ou espalhamento, de
valores em relação a um valor central;
O formato corresponde ao padrão da distribuição de valores do valor mais
baixo para o mais alto.
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 8 / 86
Sumario
1 Introdução
2 Tipos de medidas
3 Medidas de tendência central
Média
Mediana
Moda
Qual utilizar?
4 Medidas de variação
Amplitude
Amplitude interquartil
Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
Variância
Desvio-padrão
5 Medidas de formato
6 Box-plot
7 Medidas numéricas descritivas para a população
8 Localização de valores extremos
Localização de valores extremos com a amplitude interquartil
Localização de valores extremos com o escore-Z
9 Medidas numéricas para duas variáveis
Covariância amostral
Coeficiente de correlação
Correlação versus causalidade
10 Considerações éticas
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 9 / 86
Medias de tendência central
Tendência central: valores no centro da distribuição, em torno dos quais os
dados se agrupam;
Medidas tipicamente usadas:
Média aritmética (média);
Mediana;
Moda.
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 10 / 86
Sumario
1 Introdução
2 Tipos de medidas
3 Medidas de tendência central
Média
Mediana
Moda
Qual utilizar?
4 Medidas de variação
Amplitude
Amplitude interquartil
Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
Variância
Desvio-padrão
5 Medidas de formato
6 Box-plot
7 Medidas numéricas descritivas para a população
8 Localização de valores extremos
Localização de valores extremos com a amplitude interquartil
Localização de valores extremos com o escore-Z
9 Medidas numéricas para duas variáveis
Covariância amostral
Coeficiente de correlação
Correlação versus causalidade
10 Considerações éticas
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 11 / 86
Média
A média aritmética (média) é a mais comum das medidas de tendência
central;
Matematicamente, é a soma dos valores dividido pelo número de valores:
Definição
Para uma amostra de tamanho n, dada por {X1,X2, · · · ,Xn}, a média X é dada
por:
X =
∑n
i=1 Xi
n =
X1 + X2 + · · ·+ Xn
n
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 12 / 86
Média
Fisicamente, a média pode ser vista como o ponto de “equilíbrio“ em um
conjunto de dados (gangorra), onde todos os valores desempenham um papel
igual (mesma massa);
É afetada por valores atípicos, também chamados de valores extremos ou
outliers.
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 13 / 86
Média
Propriedades:
A soma dos desvios em relação a média é nula: o desvio mede a distância
entre o valor e a média, possui valor negativo considerando valores abaixo da
média e valores positivos considerando valores acima da média.
n∑
i=1
(Xi − X ) = 0
A média é o valor que minimiza a soma do quadrado dos desvios: seja o valor
c, denominado como “centro“ dos dados, tal que a “distância“ medida pela
soma dos quadrados dos desvios dos outros valores em relação a c seja a
menor possível. Este valor c sempre será a média.
X = argmin
c
n∑
i=1
(Xi − c)2
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 14 / 86
Média
Para o exemplo dado, a média X é dada por:
X = 5+ 10+ 10+ 10+ 10+ 12+ 15+ 20+ 20+ 25+ 30+ 30+ 40+ 40+ 6015
=
337
5 ≈ 22, 5minutos
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 15 / 86
Sumario
1 Introdução
2 Tipos de medidas
3 Medidas de tendência central
Média
Mediana
Moda
Qual utilizar?
4 Medidas de variação
Amplitude
Amplitude interquartil
Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
Variância
Desvio-padrão
5 Medidas de formato
6 Box-plot
7 Medidas numéricas descritivas para a população
8 Localização de valores extremos
Localização de valores extremos com a amplitude interquartil
Localização de valores extremos com o escore-Z
9 Medidas numéricas para duas variáveis
Covariânciaamostral
Coeficiente de correlação
Correlação versus causalidade
10 Considerações éticas
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 16 / 86
Mediana
Em um rol (lista dos dados em ordem crescente), a mediana é o número
correspondente ao meio da lista, de forma que 50% dos valores estão acima e
50% estão abaixo dele;
A mediana de um conjunto de dados ordenados é localizada na posição
n + 1
2 :
Se o número de valores é ímpar, então n + 12 é um valor inteiro. Então, a
mediana é o valor correspondente a este índice (o número do meio da lista);
Se o número de valores é par, então n + 12 é um valor não-inteiro. Então,
convenciona-se que mediana é a média dos dois valores do meio.
Não é afetada por valores atípicos (extremos):
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 17 / 86
Mediana
Propriedade:
A mediana é o valor que minimiza a soma do valor das distâncias (valor
absoluto dos desvios): seja c o centro dos dados, tais que a distância dos
outros valores em relação a c seja a menor possível. Este valor c sempre será
a mediana.
mediana = argmin
c
n∑
i=1
|Xi − c|
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 18 / 86
Mediana
Para o exemplo dado, a posição da mediana no rol é:
n + 1
2 =
15+ 1
2 =
16
2 = 8
A mediana está na 8◦ posição, correspondendo ao elemento 20. Logo, a mediana
é 20 minutos.
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 19 / 86
Sumario
1 Introdução
2 Tipos de medidas
3 Medidas de tendência central
Média
Mediana
Moda
Qual utilizar?
4 Medidas de variação
Amplitude
Amplitude interquartil
Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
Variância
Desvio-padrão
5 Medidas de formato
6 Box-plot
7 Medidas numéricas descritivas para a população
8 Localização de valores extremos
Localização de valores extremos com a amplitude interquartil
Localização de valores extremos com o escore-Z
9 Medidas numéricas para duas variáveis
Covariância amostral
Coeficiente de correlação
Correlação versus causalidade
10 Considerações éticas
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 20 / 86
Moda
A moda é o valor que ocorre com maior frequência;
Usada tanto para dados numéricos quanto para dados categóricos (cuidado:
afetada pela escolha de classes de agrupamento);
Pode não haver moda e pode haver várias modas em um conjunto de dados;
Não é afetada por valores extremos:
No problema dado, a moda é 10 minutos, já que aparece mais vezes (4 vezes).
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 21 / 86
Sumario
1 Introdução
2 Tipos de medidas
3 Medidas de tendência central
Média
Mediana
Moda
Qual utilizar?
4 Medidas de variação
Amplitude
Amplitude interquartil
Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
Variância
Desvio-padrão
5 Medidas de formato
6 Box-plot
7 Medidas numéricas descritivas para a população
8 Localização de valores extremos
Localização de valores extremos com a amplitude interquartil
Localização de valores extremos com o escore-Z
9 Medidas numéricas para duas variáveis
Covariância amostral
Coeficiente de correlação
Correlação versus causalidade
10 Considerações éticas
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 22 / 86
Qual utilizar?
A média geralmente é usada, a menos que existam valores extremos e com
distribuição muito assimétricas;
Nesse caso, a mediana é a mais usada, uma vez que não é sensível a valores
extremos. Por exemplo, o preço mediano de casas pode ser registrado para
uma região por ser menos sensível a valores extremos;
O conceito de moda pode ser aplicado a dados categóricos ou numéricos
não-ordenados, ao contrário da média e da mediana.
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 23 / 86
Sumario
1 Introdução
2 Tipos de medidas
3 Medidas de tendência central
Média
Mediana
Moda
Qual utilizar?
4 Medidas de variação
Amplitude
Amplitude interquartil
Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
Variância
Desvio-padrão
5 Medidas de formato
6 Box-plot
7 Medidas numéricas descritivas para a população
8 Localização de valores extremos
Localização de valores extremos com a amplitude interquartil
Localização de valores extremos com o escore-Z
9 Medidas numéricas para duas variáveis
Covariância amostral
Coeficiente de correlação
Correlação versus causalidade
10 Considerações éticas
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 24 / 86
Medidas de variação
Medidas de variação medem a dispersão de valores em um conjunto de dados,
ou seja, o grau de afastamento dos dados em torno de um valor central;
Indicam se um conjunto de dados é homogêneo (mais concentrado em torno
do valor central) ou heterogêneo (mais disperso em torno do valor central);
Medidas (absolutas) tipicamente utilizadas:
Amplitude;
Amplitude interquartil;
Variância;
Desvio-padrão.
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 25 / 86
Sumario
1 Introdução
2 Tipos de medidas
3 Medidas de tendência central
Média
Mediana
Moda
Qual utilizar?
4 Medidas de variação
Amplitude
Amplitude interquartil
Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
Variância
Desvio-padrão
5 Medidas de formato
6 Box-plot
7 Medidas numéricas descritivas para a população
8 Localização de valores extremos
Localização de valores extremos com a amplitude interquartil
Localização de valores extremos com o escore-Z
9 Medidas numéricas para duas variáveis
Covariância amostral
Coeficiente de correlação
Correlação versus causalidade
10 Considerações éticas
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 26 / 86
Amplitude
Medida de variação mais simples;
Definida como a diferença entre o maior e o menor dos valores dos dados:
Amplitude = Maior valor − Menor valor
Não leva em consideração o formato da distribuição dos dados:
É sensível a valores extremos:
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 27 / 86
Amplitude
Para o exemplo dado, a amplitude é dada por:
amplitude = 60− 5 = 55 minutos
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 28 / 86
Sumario
1 Introdução
2 Tipos de medidas
3 Medidas de tendência central
Média
Mediana
Moda
Qual utilizar?
4 Medidas de variação
Amplitude
Amplitude interquartil
Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
Variância
Desvio-padrão
5 Medidas de formato
6 Box-plot
7 Medidas numéricas descritivas para a população
8 Localização de valores extremos
Localização de valores extremos com a amplitude interquartil
Localização de valores extremos com o escore-Z
9 Medidas numéricas para duas variáveis
Covariância amostral
Coeficiente de correlação
Correlação versus causalidade
10 Considerações éticas
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 29 / 86
Sumario
1 Introdução
2 Tipos de medidas
3 Medidas de tendência central
Média
Mediana
Moda
Qual utilizar?
4 Medidas de variação
Amplitude
Amplitude interquartil
Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
Variância
Desvio-padrão
5 Medidas de formato
6 Box-plot
7 Medidas numéricas descritivas para a população
8 Localização de valores extremos
Localização de valores extremos com a amplitude interquartil
Localização de valores extremos com o escore-Z
9 Medidas numéricas para duas variáveis
Covariância amostral
Coeficiente de correlação
Correlação versus causalidade
10 Considerações éticas
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 30 / 86
Medidas separatrizes
Medidas separatrizes sãovalores que dividem o rol em partes iguais;
Medidas separatrizes tipicamente usadas:
Quartis (4 partes);
Decis (10 partes);
Centis (100 partes);
A nomenclatura geral é quantil ou pertencil.
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 31 / 86
Sumario
1 Introdução
2 Tipos de medidas
3 Medidas de tendência central
Média
Mediana
Moda
Qual utilizar?
4 Medidas de variação
Amplitude
Amplitude interquartil
Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
Variância
Desvio-padrão
5 Medidas de formato
6 Box-plot
7 Medidas numéricas descritivas para a população
8 Localização de valores extremos
Localização de valores extremos com a amplitude interquartil
Localização de valores extremos com o escore-Z
9 Medidas numéricas para duas variáveis
Covariância amostral
Coeficiente de correlação
Correlação versus causalidade
10 Considerações éticas
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 32 / 86
Quartis
Quartis dividem os dados ordenados em 4 segmentos com o mesmo número
de valores por segmento:
O primeiro quartil, Q1, é o valor para o qual 25% das observações são
menores e 75% são maiores do que ele;
Q2 é o mesmo que a mediana (50% são menores, 50% são maiores);
Apenas 25% dos valores são maiores do que o terceiro quartil, Q3.
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 33 / 86
Quartis
Determinado os quartis:
Em um rol de de n dados, os índices para os quartis são definidos como:
Primeiro quartil: valor na posição n + 14 ;
Segundo quartil: valor na posição n + 12 ;
Terceiro quartil: valor na posição 3(n + 1)4 .
Se a posição de um quartil é um número inteiro, então o quartil corresponde
ao valor ordenado nesta posição;
Se a posição é uma fração com 0, 5 (2, 5, 3, 5, etc), então o quartil é igual a
média dos valores correspondendo as posições adjacentes (2 e 3, 3 e 4, etc);
Se a posição não é um número inteiro e nem uma fração com 0, 5, então
arredonda-se a posição para o inteiro mais próximo e determina-se o valor
correspondente.
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 34 / 86
Quartis
Para o exemplo dado, as posições dos quartis são:
Primeiro quartil: n + 14 =
15+ 1
4 =
16
4 = 4;
Segundo quartil: n + 12 =
15+ 1
2 =
16
2 = 8;
Terceiro quartil: 3(n + 1)4 =
3(15+ 1)
4 =
3(16)
4 = 3 ∗ 4 = 12.
Logo, o primeiro, segundo e terceiro quartis são 10, 20 e 30 minutos,
respectivamente.
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 35 / 86
Sumario
1 Introdução
2 Tipos de medidas
3 Medidas de tendência central
Média
Mediana
Moda
Qual utilizar?
4 Medidas de variação
Amplitude
Amplitude interquartil
Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
Variância
Desvio-padrão
5 Medidas de formato
6 Box-plot
7 Medidas numéricas descritivas para a população
8 Localização de valores extremos
Localização de valores extremos com a amplitude interquartil
Localização de valores extremos com o escore-Z
9 Medidas numéricas para duas variáveis
Covariância amostral
Coeficiente de correlação
Correlação versus causalidade
10 Considerações éticas
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 36 / 86
Amplitude interquartil
A amplitude interquartil (AIQ) é a diferença entre o terceiro e o primeiro
quartil:
Amplitude interquartil = Q3 − Q1
Elimina alguns dos maiores e menores valores e calcula a amplitude apenas
com os valores restantes;
Não é sensível a valores atípicos.
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 37 / 86
Amplitude interquartil
No exemplo dado, sabe-se que o primeiro quartil é 10 minutos, e o terceiro quartil
é 30 minutos. Logo, a amplitude interquartil é dada por:
amplitude interquartil = 30− 10 = 20 minutos
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 38 / 86
Sumario
1 Introdução
2 Tipos de medidas
3 Medidas de tendência central
Média
Mediana
Moda
Qual utilizar?
4 Medidas de variação
Amplitude
Amplitude interquartil
Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
Variância
Desvio-padrão
5 Medidas de formato
6 Box-plot
7 Medidas numéricas descritivas para a população
8 Localização de valores extremos
Localização de valores extremos com a amplitude interquartil
Localização de valores extremos com o escore-Z
9 Medidas numéricas para duas variáveis
Covariância amostral
Coeficiente de correlação
Correlação versus causalidade
10 Considerações éticas
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 39 / 86
Variância
A variância (e o desvio-padrão) medem o quanto as observações se afastam
da média;
A variância é a média (aproximada, por n − 1 graus de liberdade) do
quadrado dos desvios dos valores em relação a média:
S2 =
∑n
i=1
(
Xi − X
)2
n − 1
Onde X é a média amostral.
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 40 / 86
Variância
Propriedades:
A variância de uma constante k é nula;
V (k) = 0
A variância da soma ou diferença de uma constante k com uma variável é
igual a variância da variável;
V (k + X ) = V (k − X ) = V (X )
A variância do produto de uma constante por uma variável é igual ao produto
do quadrado da constante pela variância da variável.
V (kX ) = k2 ∗ V (X )
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 41 / 86
Variância
No exemplo dado, a variância é dada como: 5, 10, 10, 10, 10, 12, 15, 20, 20, 25,
30, 30, 40, 40, 60
Valor médio: 22, 5 minutos;
Quadrado das diferenças:
(5− 22, 5)2 = (−17, 5)2 = 306, 25;
(10− 22, 5)2 = (−12, 5)2 = 156, 25;
(12− 22, 5)2 = (−10, 5)2 = 110, 25;
(15− 22, 5)2 = (−7, 5)2 = 56, 25;
(20− 22, 5)2 = (−2, 5)2 = 6, 25;
(25− 22, 5)2 = (2, 5)2 = 6, 25;
(30− 22, 5)2 = (7, 5)2 = 56, 25;
(40− 22, 5)2 = (17, 5)2 = 306, 25;
(60− 22, 5)2 = (37, 5)2 = 1406, 25;
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 42 / 86
Variância
Soma dos quadrados:
306, 25+ 156, 25+ 156, 25+ 156, 25+ 156, 25+ 110, 25+ 56, 25+ 6, 25
+ 6, 25+ 6, 25+ 56, 25+ 56, 25+ 306, 25+ 306, 25+ 1406, 25 = 3247, 75
Divisão por n − 1:
S2 = 3247, 7515− 1 =
3247, 75
14 ≈ 231, 9821
Logo a variância é de 231, 9821 minutos2
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 43 / 86
Sumario
1 Introdução
2 Tipos de medidas
3 Medidas de tendência central
Média
Mediana
Moda
Qual utilizar?
4 Medidas de variação
Amplitude
Amplitude interquartil
Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
Variância
Desvio-padrão
5 Medidas de formato
6 Box-plot
7 Medidas numéricas descritivas para a população
8 Localização de valores extremos
Localização de valores extremos com a amplitude interquartil
Localização de valores extremos com o escore-Z
9 Medidas numéricas para duas variáveis
Covariância amostral
Coeficiente de correlação
Correlação versus causalidade
10 Considerações éticas
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 44 / 86
Desvio-padrão
Medida de variação mais utilizada: “desvio médio dos dados em relação a
média“.
Raiz quadrada da variância;
Tem a mesma unidade que os dados originais.
S =
√
S2 =
√∑n
i=1
(
Xi − X
)2
n − 1
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 45 / 86
Desvio-padrão
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 46 / 86
Desvio-padrão
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 47 / 86
Desvio-padrão
Passos para computar o desvio-padrão amostral:
Computar a diferença entre cada valor e a média;
Elevar cada uma das diferenças ao quadrado;
Somar os quadrados das diferenças;Dividir o total por n − 1 para obter a variância amostral;
Tirar a raiz quadrada da variância amostral.
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 48 / 86
Desvio-padrão
Para o exemplo dado, o desvio-padrão pode ser calculado como a raiz quadrada
da variância. Logo:
S =
√
S2 =
√
231, 9821 ≈ 15, 2310
Logo, o desvio-padrão é de 15, 2310 minutos.
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 49 / 86
Sumario
1 Introdução
2 Tipos de medidas
3 Medidas de tendência central
Média
Mediana
Moda
Qual utilizar?
4 Medidas de variação
Amplitude
Amplitude interquartil
Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
Variância
Desvio-padrão
5 Medidas de formato
6 Box-plot
7 Medidas numéricas descritivas para a população
8 Localização de valores extremos
Localização de valores extremos com a amplitude interquartil
Localização de valores extremos com o escore-Z
9 Medidas numéricas para duas variáveis
Covariância amostral
Coeficiente de correlação
Correlação versus causalidade
10 Considerações éticas
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 50 / 86
Medidas de formato
Medidas de formato tentam captar, em um número, características da
distribuição dos dados como assimetria e “achatamento“;
As medidas mais usadas são assimetria e curtose (não serão vistas neste
curso):
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 51 / 86
Medidas de formato
Para dados com uma única moda, a relação entre moda, mediana e média
nos fornecem uma ideia sobre a simetria de uma distribuição:
A assimetria segue a direção da cauda longa da distribuição.
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 52 / 86
Sumario
1 Introdução
2 Tipos de medidas
3 Medidas de tendência central
Média
Mediana
Moda
Qual utilizar?
4 Medidas de variação
Amplitude
Amplitude interquartil
Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
Variância
Desvio-padrão
5 Medidas de formato
6 Box-plot
7 Medidas numéricas descritivas para a população
8 Localização de valores extremos
Localização de valores extremos com a amplitude interquartil
Localização de valores extremos com o escore-Z
9 Medidas numéricas para duas variáveis
Covariância amostral
Coeficiente de correlação
Correlação versus causalidade
10 Considerações éticas
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 53 / 86
Box-plot
Um box-plot é um gráfico montado a partir de cinco valores significativos em
uma coleção de dados:
Valor mínimo (Xminimo);
Primeiro Quartil (Q1);
Mediana ou segundo quartil (Q2);
Terceiro Quartil (Q3);
Valor máximo (Xmaximo).
Formato de um box-plot:
O quadro e a linha central estão localizados no meio dos pontos extremos se
os dados forem simétricos em torno da média;
Um gráfico box-plot pode ser apresentado tanto na vertical quanto na
horizontal.
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 54 / 86
Box-plot
Quando os dados tem uma única moda, o box-plot nos dá uma ideia da
direção da assimetria nos dados (sem precisar olhar a distribuição):
Os valores mínimo e máximo do box-plot podem ser substituídos por outros
valores:
1◦ e 99◦ percentis;
2◦ e 98◦ percentis;
Um desvio padrão abaixo e acima da média;
O menor dado dentro de 1, 5*AIQ (amplitude interquartil) de Q1 e o maior
dado dentro de 1, 5*AIQ de Q3.
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 55 / 86
Sumario
1 Introdução
2 Tipos de medidas
3 Medidas de tendência central
Média
Mediana
Moda
Qual utilizar?
4 Medidas de variação
Amplitude
Amplitude interquartil
Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
Variância
Desvio-padrão
5 Medidas de formato
6 Box-plot
7 Medidas numéricas descritivas para a população
8 Localização de valores extremos
Localização de valores extremos com a amplitude interquartil
Localização de valores extremos com o escore-Z
9 Medidas numéricas para duas variáveis
Covariância amostral
Coeficiente de correlação
Correlação versus causalidade
10 Considerações éticas
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 56 / 86
Medidas numéricas descritivas para a população
As estatísticas descritivas discutidas descrevem uma amostra e não a
população;
Medidas descritivas para a população são chamadas de parâmetros e
geralmente denotadas por letras gregas;
Os mais importantes parâmetros de uma população são a média
populacional, a variância populacional e desvio-padrão populacional.
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 57 / 86
Medidas numéricas descritivas para a população
A média populacional é a soma dos valores Xi na população dividida pelo
tamanho N da população:
µ =
∑n
i=1 Xi
N =
X1 + X2 + · · ·+ XN
N
A variância populacional é a média do quadrado dos desvios dos valores em
relação a média populacional µ :
σ2 =
∑n
i=1 (Xi − µ)2
N
O desvio-padrão populacional é a medida de variação populacional mais
usada, tendo a mesma unidade que os dados originais, e equivale a raiz
quadrada da variância:
σ =
√
σ2 =
√∑n
i=1 (Xi − µ)2
N
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 58 / 86
Medidas numéricas descritivas para a população
Estatísticas amostrais versus parâmetros populacionais:
Medida Parâmetro populacional Estatística amostral
média µ X
variância σ2 S2
desvio-padrão σ S
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 59 / 86
Sumario
1 Introdução
2 Tipos de medidas
3 Medidas de tendência central
Média
Mediana
Moda
Qual utilizar?
4 Medidas de variação
Amplitude
Amplitude interquartil
Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
Variância
Desvio-padrão
5 Medidas de formato
6 Box-plot
7 Medidas numéricas descritivas para a população
8 Localização de valores extremos
Localização de valores extremos com a amplitude interquartil
Localização de valores extremos com o escore-Z
9 Medidas numéricas para duas variáveis
Covariância amostral
Coeficiente de correlação
Correlação versus causalidade
10 Considerações éticas
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 60 / 86
Localização de valores extremos
Duas alternativas diferentes são usadas para localizar valores atípicos
(extremos) dependendo das medidas usadas para variação:
Usando amplitude interquartil;
Usando o desvio-padrão (escore-Z).
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 61 / 86
Sumario
1 Introdução
2 Tipos de medidas
3 Medidas de tendência central
Média
Mediana
Moda
Qual utilizar?
4 Medidas de variação
Amplitude
Amplitude interquartil
Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
Variância
Desvio-padrão
5 Medidas de formato
6 Box-plot
7 Medidas numéricas descritivas para a população
8 Localização de valores extremos
Localização de valores extremos com a amplitude interquartil
Localização de valores extremos com o escore-Z
9 Medidas numéricas para duas variáveis
Covariância amostral
Coeficiente de correlação
Correlação versus causalidade
10 Considerações éticas
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 62 / 86
Localização de valores extremos com a amplitude
interquartil
A amplitude Interquartil compreende 50% dos dados;
Uma regra para localizar valores extremos é identificar dados que são:
Menores ou iguais do que Q1 − 1, 5 ∗ AIQ;
Maiores ou iguais do que Q3 + 1.5 ∗ AIQ;
Dados nestas condições são considerados valores extremos.
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 63 / 86
Localização de valores extremos com a amplitudeinterquartil
Para o exemplo dado, os limites são:
Q1 − 1, 5 ∗ AIQ = 10− 1, 5 ∗ 20 = 10− 30 = −20
Q3 + 1.5 ∗ AIQ = 30+ 1, 5 ∗ 20 = 30+ 30 = 60
Como 60 é um valor maio ou igual ao limite superior do teste, então ele é um
valor extremo.
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 64 / 86
Sumario
1 Introdução
2 Tipos de medidas
3 Medidas de tendência central
Média
Mediana
Moda
Qual utilizar?
4 Medidas de variação
Amplitude
Amplitude interquartil
Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
Variância
Desvio-padrão
5 Medidas de formato
6 Box-plot
7 Medidas numéricas descritivas para a população
8 Localização de valores extremos
Localização de valores extremos com a amplitude interquartil
Localização de valores extremos com o escore-Z
9 Medidas numéricas para duas variáveis
Covariância amostral
Coeficiente de correlação
Correlação versus causalidade
10 Considerações éticas
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 65 / 86
Localização de valores extremos com o escore-Z
O escore-Z, Zi , de um valor é a “distância“ que este valor está da média
medida em unidades de desvio-padrão;
Para computar o escore-Z de um dado, basta diminuir a média e divida pelo
desvio-padrão:
Zi =
Xi − X
S
Quanto maior o valor absoluto do escore-Z, mais longe o valor está da média;
Um valor Xi é considerado extremo se e somente se Zi ≤ −3 ou Zi ≥ 3.
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 66 / 86
Localização de valores extremos com o escore-Z
Para o exemplo dado, as condições do menor e valor valor dos dado é:
Z1 =
5− 22, 5
15, 2310 =
−17, 5
15, 2310 ≈ −1, 1490
Z2 =
60− 22, 5
15, 2310 =
37, 5
15, 2310 ≈ 2, 4621
Como Z1 > −3 e Z2 < 3, então não há valores extremos na lista.
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 67 / 86
Sumario
1 Introdução
2 Tipos de medidas
3 Medidas de tendência central
Média
Mediana
Moda
Qual utilizar?
4 Medidas de variação
Amplitude
Amplitude interquartil
Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
Variância
Desvio-padrão
5 Medidas de formato
6 Box-plot
7 Medidas numéricas descritivas para a população
8 Localização de valores extremos
Localização de valores extremos com a amplitude interquartil
Localização de valores extremos com o escore-Z
9 Medidas numéricas para duas variáveis
Covariância amostral
Coeficiente de correlação
Correlação versus causalidade
10 Considerações éticas
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 68 / 86
Medidas numéricas para duas variáveis
As medidas numéricas vistas até agora descrição informações de apenas uma
variável;
Geralmente lida-se diversas variáveis que se relacionam entre si.
Nestes casos, busca-se definir medidas para a força da relação entre as
variáveis envolvidas;
No caso de dados bivariados, as medidas mais utilizadas são:
Covariância amostral;
Coeficiente de correlação.
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 69 / 86
Medidas numéricas para duas variáveis
Para as definições de covariância e coeficiente de correlação, será utilizado o
seguinte exemplo:
Supõe-se que o conteúdo de hidrogênio (X) seja um fator importante na
porosidade (Y) de fundições de liga de alumínio. Uma amostra das duas variáveis
foi obtida e os dados estão dispostos abaixo:
X 0,18 0,20 0,21 0,22 0,30
Y 0,46 0,70 0,41 0,44 0,72
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 70 / 86
Sumario
1 Introdução
2 Tipos de medidas
3 Medidas de tendência central
Média
Mediana
Moda
Qual utilizar?
4 Medidas de variação
Amplitude
Amplitude interquartil
Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
Variância
Desvio-padrão
5 Medidas de formato
6 Box-plot
7 Medidas numéricas descritivas para a população
8 Localização de valores extremos
Localização de valores extremos com a amplitude interquartil
Localização de valores extremos com o escore-Z
9 Medidas numéricas para duas variáveis
Covariância amostral
Coeficiente de correlação
Correlação versus causalidade
10 Considerações éticas
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 71 / 86
Covariância amostral
A covariância amostral mede a força da relação linear entre duas variáveis;
Mede se as duas variáveis se movem juntas;
Fórmula da covariância entre duas variáveis X e Y :
Cov(X ,Y ) =
∑n
i=1(Xi − X ) ∗ (Yi − Y )
n − 1
Interpretação da covariância entre duas variáveis:
Positiva: X e Y tendem a se mover na mesma direção. (Xi ’s grandes
observados ao mesmo tempo que Yi ’s grandes ou Xi ’s pequenos observados ao
mesmo tempo que Yi ’s pequenos);
Negativa: X e Y tendem a se mover em direções opostas. (Xi ’s grandes
observados ao mesmo tempo que Yi ’s pequenos ou Xi ’s pequenos observados
ao mesmo tempo que Yi ’s grandes);
Nula: X e Y são linearmente independentes.
A covariância varia de acordo com dimensões utilizadas, para as mesmas
variáveis.
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 72 / 86
Covariância amostral
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 73 / 86
Covariância amostral
No exemplo dado, a covariância amostral pode ser resumida nas seguintes etapas:
Cálculo da média de X:
X = 0, 18+ 0, 20+ 0, 21+ 0, 22+ 0, 305 =
1, 11
5 = 0, 222
Cálculo da média de Y:
Y = 0, 46+ 0, 70+ 0, 41+ 0, 44+ 0, 725 =
2, 73
5 = 0, 546
Cálculo do produto das diferenças das médias entre as duas variáveis:
(0, 18− 0, 222) ∗ (0, 46− 0, 546) = 0, 003612;
(0, 20− 0, 222) ∗ (0, 70− 0, 546) = −0, 003388;
(0, 21− 0, 222) ∗ (0, 41− 0, 546) = 0, 001632;
(0, 22− 0, 222) ∗ (0, 44− 0, 546) = 0, 000212;
(0, 30− 0, 222) ∗ (0, 72− 0, 546) = 0, 013572.
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 74 / 86
Covariância amostral
Soma dos valores obtidos:
0, 003612− 0, 003388+ 0, 001632+ 0, 000212+ 0, 013572 = 0, 01564
Divisão por n − 1:
Cov(X ,Y ) = 0, 015645− 1 =
0, 01564
4 = 0, 00391
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 75 / 86
Sumario
1 Introdução
2 Tipos de medidas
3 Medidas de tendência central
Média
Mediana
Moda
Qual utilizar?
4 Medidas de variação
Amplitude
Amplitude interquartil
Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
Variância
Desvio-padrão
5 Medidas de formato
6 Box-plot
7 Medidas numéricas descritivas para a população
8 Localização de valores extremos
Localização de valores extremos com a amplitude interquartil
Localização de valores extremos com o escore-Z
9 Medidas numéricas para duas variáveis
Covariância amostral
Coeficiente de correlação
Correlação versus causalidade
10 Considerações éticas
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 76 / 86
Coeficiente de correlação
O coeficiente de correlação mede a força relativa da relação linear entre duas
variáveis;
Cálculo do coeficiente de correlação amostral entre duas variáveis X e Y :
r =
∑n
i=1(Xi − X ) ∗ (Yi − Y )√∑n
i=1
(
Xi − X
)2√∑n
i=1
(
Yi − Y
)2 = Cov(X ,Y )SXSY
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 77 / 86
Coeficiente de correlação
Propriedades:
O coeficiente de correlação é adimensional;
O coeficiente de correlação varia entre -1 e 1;
Quanto mais próximo de -1 mais forte é a relação linear negativa entre as
variáveis;
Quanto mais próximo de 1, mais forte é a relação linear positiva entre as
variáveis;
Quanto mais próximo de 0, mais fraca é a relação linear entre as variáveis.
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 78 / 86
Coeficiente de correlação
Sandro Bruno (UFRN) Medidas numéricas descritivas4 de março de 2015 79 / 86
Coeficiente de correlação
No exemplo dado, o coeficiente de correlação pode ser obtido a partir das
seguintes etapas:
Cálculo da covariância entre X e Y: Cov(X ,Y ) = 0, 01564;
Cálculo do desvio-padrão de X:
Cálculo do quadrado das diferenças:
(0, 18− 0, 222)2 = 0, 001764;
(0, 20− 0, 222)2 = 0, 000484;
(0, 21− 0, 222)2 = 0, 000144;
(0, 22− 0, 222)2 = 0, 000004;
(0, 30− 0, 222)2 = 0, 006084
Soma dos quadrado das diferenças
0, 001764+ 0, 000484+ 0, 000144+ 0, 000004+ 0, 006084 = 0, 00848
Divisão por n − 1: 0, 08485− 1 =
0, 0848
4 = 0, 00212
Raiz quadrada da variância: SX =
√
0, 00212 ≈ 0, 04604
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 80 / 86
Coeficiente de correlação
Cálculo do desvio-padrão de Y:
Cálculo do quadrado das diferenças:
(0, 46− 0, 546)2 = 0, 007396;
(0, 70− 0, 546)2 = 0, 023716;
(0, 41− 0, 546)2 = 0, 018496;
(0, 44− 0, 546)2 = 0, 011236;
(0, 72− 0, 546)2 = 0, 030276.
Soma dos quadrado das diferenças
0, 007396+ 0, 023716+ 0, 018496+ 0, 011236+ 0, 030276 = 0, 09112
Divisão por n − 1: 0, 091125− 1 =
0, 09112
4 = 0, 02278
Raiz quadrada da variância: SX =
√
0, 02278 ≈ 0, 15093
Cálculo do coeficiente de correlação:
r = 0, 003910, 04604 ∗ 0, 15093 ≈ 0, 56269
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 81 / 86
Sumario
1 Introdução
2 Tipos de medidas
3 Medidas de tendência central
Média
Mediana
Moda
Qual utilizar?
4 Medidas de variação
Amplitude
Amplitude interquartil
Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
Variância
Desvio-padrão
5 Medidas de formato
6 Box-plot
7 Medidas numéricas descritivas para a população
8 Localização de valores extremos
Localização de valores extremos com a amplitude interquartil
Localização de valores extremos com o escore-Z
9 Medidas numéricas para duas variáveis
Covariância amostral
Coeficiente de correlação
Correlação versus causalidade
10 Considerações éticas
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 82 / 86
Correlação versus causalidade
Na causalidade, uma variável apenas acontece por causa da outra;
Quando há correlação positiva observamos que duas variáveis costumam
andar juntas. Pode ser que Y cause X , ou que X cause Y ou que exista
outra variável (omitida) Z que cause as duas coisas...
Exemplos de correlação e não causalidade:
Com o passar do tempo, observamos primeiro o cantar do galo e uns minutos
depois o nascer do Sol - mas isso não quer dizer que é o cantar do galo que
causa o nascer do Sol;
Pessoas que dormem de sapato acordam com dor de cabeça. Dormir de sapato
causa dor de cabeça?
Pessoas que dormem tarde tem salário mais elevados. Vou dormir mais tarde
hoje para ver se acordo amanhã com o salário mais alto...
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 83 / 86
Correlação versus causalidade
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 84 / 86
Sumario
1 Introdução
2 Tipos de medidas
3 Medidas de tendência central
Média
Mediana
Moda
Qual utilizar?
4 Medidas de variação
Amplitude
Amplitude interquartil
Medidas separatrizes
Quartis
Amplitude interquartil (AIQ)
Variância
Desvio-padrão
5 Medidas de formato
6 Box-plot
7 Medidas numéricas descritivas para a população
8 Localização de valores extremos
Localização de valores extremos com a amplitude interquartil
Localização de valores extremos com o escore-Z
9 Medidas numéricas para duas variáveis
Covariância amostral
Coeficiente de correlação
Correlação versus causalidade
10 Considerações éticas
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 85 / 86
Considerações éticas
A análise de dados é objetiva: uma análise de dados sempre deve apresentar
as medidas descritivas que melhor atendem as hipóteses a respeito do
conjunto de dados;
A Interpretação dos dados é subjetiva: a interpretação deve ser honesta,
neutra e clara;
As medidas descritivas numéricas devem documentar tanto os resultados
bons quanto os resultados ruins;
Não deve-se usar medidas descritivas inadequadas para distorcer os fatos;
Ficar atento para omissões ao ler estatísticas descritivas, pois elas podem
esconder fatos que não estão de acordo com o ponto de vista do autor.
Sandro Bruno (UFRN) Medidas numéricas descritivas 4 de março de 2015 86 / 86
	Introdução
	Tipos de medidas
	Medidas de tendência central
	Média
	Mediana
	Moda
	Qual utilizar?
	Medidas de variação
	Amplitude
	Amplitude interquartil
	Variância
	Desvio-padrão
	Medidas de formato
	Box-plot
	Medidas numéricas descritivas para a população
	Localização de valores extremos
	Localização de valores extremos com a amplitude interquartil
	Localização de valores extremos com o escore-Z
	Medidas numéricas para duas variáveis
	Covariância amostral
	Coeficiente de correlação
	Considerações éticas

Continue navegando