Buscar

Aula 1 - Revisão Estatística

Prévia do material em texto

Aula 1 (11/05)
 Revisão de Estatística
Levine. Cap 3. 
Estatística para Administração 2020.1
Prof. Marcelo Bila
1
Cap 3-2
Objetivos
Nesta parte, aprenderemos:
a descrever as propriedades de tendência central, variação e formato em dados numéricos
a calcular medidas resumo para a população
a construir e interpretar um gráfico Box- plot
a descrever a covariância e coeficiente de correlação
2
Cap 3-3
Propriedades dos dados -Definições
A tendência central corresponde à extensão na qual todos os valores de dados se agrupam em torno de um valor central típico.
A variação corresponde ao montante de dispersão, ou spread (espalhamento), de valores em relação a um valor central.
O formato corresponde ao padrão da distribuição de valores do valor mais baixo para o mais alto.
3
Cap 3-4
Medidas de Tendência Central
A tendência central corresponde à extensão na qual todos os valores de dados se agrupam em torno de um valor central típico.
Medidas tipicamente usadas:
Média aritmética
Mediana
Moda
4
Cap 3-5
Média
A média aritmética (média) é a mais comum das medidas de tendência central.
Para uma amostra de tamanho n:
Tamanho da amostra
Valores observados
5
Cap 3-6
Exemplo: Média
A tabela abaixo lista o tempo de viagem de casa para o trabalho de 15 pessoas em minutos: 
O tempo médio de viagem das pessoas é:
	x1	x2	x3	x4	x5	x6	x7	x8	x9	x10	x11	x12	x13	x14	x15
	30	20	10	40	25	20	10	60	15	40	5	30	12	10	10
6
Cap 3-7
Média
Média = soma dos valores dividido pelo número de valores
Afetada por valores atípicos também chamados de valores extremos ou outliers.
0 1 2 3 4 5 6 7 8 9 10
Média = 3
 0 1 2 3 4 5 6 7 8 9 10
Média = 4
7
Cap 3-8
Média:o ponto de equilíbrio
A média é « Ponto de equilíbrio » em um conjunto de dados (gangorra),
	onde todos os valores desempenham um papel igual (mesma massa).
 0 1 2 3 4 5 6 7 8 9 10
Média = 4
8
Cap 3-9
Média:o ponto de equilíbrio
Propriedade: A soma dos desvios em relação a média é nula.
Desvio de Xi em relação a média
!
9
Cap 3-10
Mediana
Em um rol, a mediana é o “número” do meio, (50% acima, 50% abaixo)
 
 
Não é afetada por valores atípicos (extremos)
0 1 2 3 4 5 6 7 8 9 10
Mediana = 4
 0 1 2 3 4 5 6 7 8 9 10
Mediana = 4
10
Cap 3-11
Localizando a Mediana
A mediana de um conjunto de dados ordenado é localizada no 	 valor. 
Se o número de valores é ímpar, a mediana é o número do meio.
Se o número de valores é par, a mediana é a média dos dois valores do meio.
Note que NÃO é o valor da mediana, apenas a posição da mediana nos dados ordenados.
11
Em um rol, a mediana é o “número” do meio, (50% acima, 50% abaixo)
 
 
Cap 3-12
A Mediana
 0 1 2 3 4 5 6 7 8 9 10
Mediana = 4.5
 0 1 2 3 4 5 6 7 8 9 10
Mediana = 4
Exemplo com 5 dados (número ímpar).
Posição da mediana = (5+1)/2=3.
 
 
Exemplo com 6 dados (número par).
Posição da mediana = (6+1)/2=3.5, entre 4 e 5.
 
 
12
Cap 3-13
Exercício: Mediana
Exercício: Determine o tempo mediano de viagem de casa para o trabalho para as pessoas da cidade.
	x1	x2	x3	x4	x5	x6	x7	x8	x9	x10	x11	x12	x13	x14	x15
	30	20	10	40	25	20	10	60	15	40	5	30	12	10	10
13
Cap 3-14
Média x Mediana
Vimos que a média é afetada por valores extremos, enquanto a mediana é robusta a valores extremos.
14
Cap 3-15
Medidas de Tendência Central: a moda
Valor que ocorre com maior frequência
Não é afetada por valores extremos
Usada tanto para dados numéricos quanto para dados categóricos (cuidado: afetada pela escolha de classes de agrupamento)
Pode não haver moda e pode haver várias modas
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 
Moda = 9
0 1 2 3 4 5 6
Sem Moda
15
Cap 3-16
Medidas de Tendência Central: Exemplo
Preços das casas: 
 $2,000,000
 500,000
 300,000
 100,000
 100,000
Soma 3,000,000
Média: ($3,000,000/5) 
			 = $600,000
Mediana: valor do meio dos dados ordenados
 = $300,000
Moda: valor mais frequente
 = $100,000
16
Cap 3-17
Exemplo
Uma pesquisa em uma certa cidade perguntou a 15 pessoas, escolhidas aleatoriamente, o tempo de viagem de casa para o trabalho em minutos:
	30 20 10 40 25 20 10 60 15 40 5 30 12 10 10
Em rol:
	5 10 10 10 10 12 15 20 20 25 30 30 40 40 60
17
Cap 3-18
Medidas de Tendência Central: Qual medida escolher?
A média geralmente é usada, a menos que existam valores extremos e com distribuição muito assimétricas.
Nesse caso, a mediana é a mais usada, uma vez que não é sensível a valores extremos. Por exemplo, o preço mediano de casas pode ser registrado para uma região por ser menos sensível a outliers.
18
Cap 3-19
Medidas de Tendência Central: Resumo
Tendência Central
Média Aritmética
Mediana
Moda
Valor do meio em um rol
Valor observado com mais frequência
19
Cap 3-20
Medidas de Variação
Medidas de variação medem a dispersão de valores em um conjunto de dados, i. e., o grau de afastamento dos dados em torno de um valor central.
Medidas absolutas (Amplitude, Amplitude interquartil, Variância e Desvio-padrão)
Indicam se um conjunto de dados é homogêneo ou heterogêneo.
20
Cap 3-21
Amplitude
Medida de variação mais simples
Diferença entre o maior e o menor dos valores:
Amplitude = Xmaior – Xmenor
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 
Amplitude = 13 - 1 = 12
Exemplo:
21
Cap 3-22
Desvantagens da Amplitude
Ignora a forma na qual os dados são distribuídos
sensível a outliers
7 8 9 10 11 12
Amplitude = 12 - 7 = 5
7 8 9 10 11 12
Amplitude = 12 - 7 = 5
	1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5
	1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120
Amplitude = 5 - 1 = 4
Amplitude = 120 - 1 = 119
22
Cap 3-23
Exemplo
Uma pesquisa em uma certa cidade perguntou a 15 pessoas, escolhidas aleatoriamente, o tempo de viagem de casa para o trabalho em minutos:
	30 20 10 40 25 20 10 60 15 40 5 30 12 10 10
Em ordem crescente: 
	5 10 10 10 10 12 15 20 20 25 30 30 40 40 60
A amplitude é: 60 – 5 = 55 min
Afetada pelo valor atípico… 
Como podemos ter uma ideia da variação que não seja sensível a valores atípicos?
23
Cap 3-24
Medidas Separatrizes
Medidas separatrizes são valores de posição que dividem o rol em partes iguais.
Medidas separatrizes tipicamente usadas:
Quartis (4 partes)
Decis (10 partes)
Centis (100 partes)
Geral: quantil ou pertencil
24
Cap 3-25
Exercício: Quartis
Exercício: Você tem uma corda de um metro e deseja separá-la em 4 pedaços de 25 cm.
Você deve cortar a corda em quantos pontos?
Quais são estes pontos?
25
Cap 3-26
Quartis
Quartis dividem os dados ordenados em 4 segmentos com o mesmo número de valores por segmento.
	25%	25%	25%	25%
Q1
Q2
Q3
 O primeiro quartil, Q1, é o valor para o qual 25% das observações são menoros e 75% são maiores.
 Q2 é o mesmo que a mediana (50% são menores, 50% são maiores)
 Apenas 25% dos valores são maiores do que o terceiro quartil, Q3.
26
Cap 3-27
Localizando Quartis
Encontre os quartis ao determinar o valor correspondente a posição apropriada nos dados ordenados, onde
 Posição do primeiro quartil:	Q1 = (n+1)/4° valor ordenado
 Posição do segundo quartil:	Q2 = (n+1)/2° valor ordenado
 Posiçãodo terceiro quartil:	Q3 = 3(n+1)/4° valor ordenado
		 em que n é o número observado de valores
27
Cap 3-28
Localizando Quartis
Regra 1: se o resultado é um número inteiro, então o quartil corresponde ao valor ordenado nesta posição.
Regra 2: se o resultado é uma fração com 0.5 (2.5, 3.5, etc), então o quartil é igual a média dos valores correspondendo as posições adjacentes (2 e 3, 3 e 4, etc).
Regra 3: se o resultado não é inteiro, nem uma fração com 0.5, então arredonda-se a posiçao para o inteiro mais próximo e determina-se o valor correspondente.
28
Cap 3-29
Localizando o Primeiro Quartil
Exemplo: Encontre o primeiro quartil 
Amostra ordenada de dados: 11 12 13 16 16 17 18 21 22 
 Primeiro, note que n = 9.
 Q1 esta na posição (9+1)/4 = 2.5 dos dados ordenados, então é o valor médio entre os 2° e 3° valores ordenados,
			 Q1 = 12.5
 Q1 e Q3 são medidas de locação não centrais
 Q2 = mediana, é uma medida de tendência central
29
Cap 3-30
Exercício: Quartis
Uma pesquisa em uma certa cidade perguntou a 15 pessoas, escolhidas aleatoriamente, o tempo de viagem de casa para o trabalho em minutos:
	30 20 10 40 25 20 10 60 15 40 5 30 12 10 10
Em rol:
	5 10 10 10 10 12 15 20 20 25 30 30 40 40 60
Quais são os quartis da distribuição do tempo de viagem??
30
Cap 3-31
Medidas de Variação: Amplitude Interquartil
Uma boa medida de dispersão dos dados, que não é sensível a valores atípicos é a Amplitude Interquartil (AIQ).
A Amplitude Interquartil elimina alguns dos maiores e menores valores e calcula a amplitude apenas com os valores restantes.
Amplitude Interquartil= 3° quartil – 1° quartil
				 = Q3 – Q1
31
Cap 3-32
Exercício: Quartis
Uma pesquisa em uma certa cidade perguntou a 15 pessoas, escolhidas aleatoriamente, o tempo de viagem de casa para o trabalho em minutos:
	30 20 10 40 25 20 10 60 15 40 5 30 12 10 10
Em rol:
	5 10 10 10 10 12 15 20 20 25 30 30 40 40 60
Qual é a Amplitude Interquartil do tempo de viagem?
32
Cap 3-33
Resumo de Cinco Números
Um Resumo de Cinco números consiste de:
mínimo (Xmenor)
Primeiro Quartil (Q1)
Mediana (Q2)
Terceiro Quartil (Q3)
máximo (Xmaior)
33
Cap 3-34
Box-Plot (diagrama de caixa)
O Box-Plot é uma apresentação gráfica dos resumo de 5 números.
25% 25% 25% 25%
 mínimo 1° Quartil Mediana 3° Quartil máximo
34
Cap 3-35
Box-Plot
Min Q1 Mediana Q3 Max
O quadro e a linha central estão localizados no meio dos pontos extremos se os dados forem simétricos em torno da média.
Um gráfico Box-Plot pode ser apresentado tanto na vertical quanto na horizontal.
35
Cap 3-36
Box-Plot
Assim. à Dir
Assim. à Esq
Simétrica
Q1
Q2
Q3
Q1
Q2
Q3
Q1
Q2
Q3
OBS: Notem que estes dados tem um único pico.
36
Cap 3-37
Análise Exploratória de Dados: Box-Plot
Formas alternativas para o « bigode » do box-plot:
Mínimo e máximo
2° e 98° percentis.
1° e 99° percentis.
Um desvio padrão abaixo e acima da média.
O menor dado dentro de 1.5 AIQ (Amplitude interquartil) de Q1 e o maior dado dentro de 1.5 AIQ de Q3.
37
Cap 3-38
Variância e Desvio-padrão
O resumo dos 5 números não é a descrição numérica mais comum de uma distribuição de dados.
As medidas mais usadas para descrever os dados são:
Média (tendência central)
Variância ou desvio-padrão (variação)!!
			Medem o quanto as observações se afastam 			da média…
38
Cap 3-39
Medidas de Variação: Variância
A variância é a média (aproximadamente*) do quadrado dos desvios dos valores em relação a média.
Variância Amostral:
* (n-1: graus de liberdade)
Em que 
 = média aritmética
n = tamanho da amostra
Xi = iesimo valor da variável X
39
Cap 3-40
Medidas de Variação: Desvio-padrão
Medida de variação mais utilizada
Mostra variações em relação a média
Raiz quadrada da variância
Tem a mesma unidade que os dados originais
	Desvio-padrão amostral:
40
Cap 3-41
Medidas de Variação: Desvio-padrão
Passos para computar o desvio-padrão amostral
Compute a diferença entre cada valor e a média.
Eleve esta diferença ao quadrado.
Some os quadrados das diferenças.
Divida o total por n-1 para obter a variância amostral.
Tire a raiz quadrada da vairância amostral para obter o desvio padrão amostral.
41
Cap 3-42
Medidas de Variação: Desvio-padrão
Dados 
Amostrais (Xi) : 10 12 14 15 17 18 18 24
 n = 8 Média = X = 16
Uma medida de afastamento “médio” dos dados em relação à média.
42
Cap 3-43
Medidas de Variação: Comparando Desvios-padrão
Média = 15.5
 S = 3.338 
11 12 13 14 15 16 17 18 19 20 21
11 12 13 14 15 16 17 18 19 20 21
Dados B
Dados A
Média = 15.5
 S = 0.926
11 12 13 14 15 16 17 18 19 20 21
Média = 15.5
 S = 4.570
Dados C
43
Cap 3-44
Medidas de Variação: Comparando Desvios-padrão
Desvio-padrão pequeno
Desvio-padrão grande
44
Cap 3-45
Formato de uma Distribuição
Medidas de formato descrevem como os dados se distribuem; 
Compreensão mais completa da distribuição de frequências
Média = Mediana = Mo
 
Média < Mediana < Mo
 Mo < Mediana < Média
Assimétrica à direita
Assimétrica à esquerda
Simétrica
45
Cap 3-46
Medidas Numéricas Descritivas para a População
As estatísticas descritivas discutidas descrevem uma amostra e não a população.
Medidas descritivas para a população são chamadas de parâmetros e geralmente denotadas por letras gregas.
Parâmetros de população importantes são a média populacional, a variância populacional e desvio-padrão populacional.
46
Cap 3-47
Média Populacional
A média populacional é a soma dos valores na população dividida pelo tamanho da população, N.
μ = média populacional
N = tamanho da população
Xi = iésimo valor da variável X
Em que
47
Cap 3-48
Variância Populacional
A variância populacional é a média do quadrado dos desvios dos valores em relação a média populacional.
μ = média populacional
N = tamanho da população
Xi = iésimo valor da variável X
Em que
48
Cap 3-49
Desvio-Padrão Populacional
O desvio-padrão populacional é a medida de variação populacional mais usada.
A raiz da variância.
Ele tem a mesma unidade que os dados originais.
μ = média populacional
N = tamanho da população
Xi = iésimo valor da variável X
Em que
49
Cap 3-50
Estatísticas Amostrais Versus Parâmetros Populacionais
	Medida	Parâmetro Populacional	estatística Amostral
	Média		
	Variância		
	Desvio - Padrão		
50
Cap 3-51
Exercício: Desvio-padrão
A taxa metabólica de uma pessoa é a taxa segundo a qual o corpo consume energia. Veja abaixo a taxa metabólica (calorias/dia) de 7 homens que participaram de uma dieta.
	1792 1666 1362 1614 1460 1867 1439
Determine a taxa metabólica média.
Determine o desvio-padrão.
51
Cap 3-52
Localizando Valores Extremos
Duas alternativas diferentes são usadas para localizar valores atípicos (extremos) dependendo das medidas usadas para variação usadas:
Forma 1: Usando Amplitude Interquartil
Forma 2: Usando o Desvio-padrão (Escore-Z)
É a forma mais usada.	
52
Cap 3-53
Localizando Valores Extremos
Escore-Z
O Escore-Z de um valor é o número de desvios-padrão que o valor está da média.
Para computar o escore-Z de um dado, diminua a média e divida pelo desvio-padrão.
Quanto maior o valor absoluto do escore-Z, mais longe o valor está da média.
Um valor éconsiderado extremo se o seu escore-Z é menor do que -3 ou maior do que +3.
53
Cap 3-54
Localizando Valores Extremos
Escore-Z
Em que X representa o valor do dado observado
		 X é a média amostral
		 S é o desvio-padrão amostral
54
Cap 3-55
Localizando Valores Extremos
Escore-Z
Suponha que a nota média do ENEM seja de 490 e desvio-padrão de 100.
Calcule o Escore-Z de um aluno com nota 620.
 Um escore de 620 equivale a 1.3 desvios-padrão acima da média e portanto não seria considerado um valor extremo.
55
Cap 3-56
Medidas numéricas para 2 variáveis
Até agora trabalhamos com medidas para a descrição de apenas uma variável.
Geralmente temos diversas variáveis que se relacionam entre si…
Veremos agora medidas para a força da relação entre 2 variáveis!!
56
Cap 3-57
Covariância Amostral
A covariância amostral mede a força da relação linear entre duas variáveis.
Covariância amostral:
A covariância somente reflete a força da relação entre as variáveis…
Não representa um efeito de causalidade!
57
Cap 3-58
Covariância Amostral
Covariância entre duas variáveis:
cov(X,Y) > 0 : X e Y tendem a se mover na mesma direção.
 cov(X,Y) < 0: X e Y tendem a se mover em direções opostas
cov(X,Y) = 0 : X e Y são linearmente independentes.
58
Cap 3-59
Coeficiente de Correlação
O coeficiente de correlação mede a força relativa da relação linear entre duas variáveis.
Coeficiente de correlação amostral:
59
Cap 3-60
Coeficiente de Correlação: Propriedades
Adimensional
Varia entre -1 e 1
Quanto mais próximo de -1 mais forte é a relação linear negativa entre as variavies
Quanto mais próximo de 1, mais forte é a relação linear positiva entre as variáveis.
Quanto mais próximo de 0, mais fraca é a relação linear entre as variáveis.
60
Cap 3-61
Coeficiente de Correlação
Y
X
Y
X
Y
X
r = -1
r = -.6
r = 0
Y
X
r = +1
X
Y
X
r = +.3
61
Cap 3-62
Coeficiente de Correlação: Exemplo
r = .733
Claramente existe uma relação linear positiva entre a nota na 1a prova e a nota na 2a prova.
Alunos que tiraram notas boas na 1a prova tendem a tirar notas boas na 2a prova.
62
Cap 3-63
Armadilhas em Medidas Descritivas
A análise de dados é objetiva
Uma análise de dados sempre deve apresentar as medidas descritivas que melhor atendem as hipóteses a respeito do conjunto de dados.
A Interpretação dos dados é subjetiva
A interpretação deve ser honesta, neutra e clara.
63
Cap 3-64
Considerações Éticas
Medidas Descritivas Numéricas:
Devem documentar tanto os resultados bons quanto os resultados ruins.
Não deve-se usar medidas descritivas inadequadas para distorcer os fatos.
Ficar atento para omissões ao ler estatísticas descritivas, pois elas podem esconder fatos que não estão de acordo com o ponto de vista do autor.
64
Cap 3-65
Resumo
Medidas de tendência central
Média, mediana, moda e média geométrica.
Medidas separatrizes
Medidas de variação
Amplitude, Amplitude Interquartil, variância, desvio-padrão e coeficiente de variação
Formatos de distribuição
Momentos, Distribuições simétricas, assimétricas e diagramas Box-Plot.
Armadilhas da estatística.
Nesta parte, vimos:
65
Questões Recapitulativas
Quais são as propriedades dos dados?
O que significa a propriedade de tendência central?
Quais são as diferenças entre a média aritmética, a mediana e a moda, e quais são as vantagens e desvantagens de cada uma delas?
Como você interpreta o primeiro quartil, a mediana e o terceiro quartil?
O que significa a propriedade de variação?
Quais são as diferenças entre as diversas medidas de variação e quais as vantagens de cada uma delas?
O que significa a medida de escore Z?
Cap 3-66
66
Exercício
Em muitos processos de fabricação, existe um termo chamado « work in progress ». Em uma gráfica, o wip representa o tempo necessário para que as folhas em uma prensa sejam dobradas, agrupadas, costuradas, alceadas e encadernadas. Os dados abaixo representam amostras de 7 livros, em cada uma das linhas de produção, e o tempo de processamento (em dias) para essas tarefas:
Linha de produção A: 5.62, 5.29, 16.25, 10.92, 11.46, 21.62, 8.45
Linha de produção B: 9.54, 11.46, 16.62, 12.62, 25.75, 15.41, 14.29
Para cada uma das linhas de produção:
a) Calcule a média, a mediana, o primeiro quartil e o terceiro quartil.
b) Calcule a amplitude, a variância, o desvio-padrão e o coeficiente de variação.
c) Construa Box-plots paralelos para cada uma das linhas de produção. 
Cap 3-67
67
n
X
X
X
n
X
X
n
2
1
n
1
i
i
+
+
+
=
=
å
=
L
min
5
.
22
15
337
15
10
20
30
1
=
=
+
+
+
=
=
å
=
L
n
x
x
n
i
i
3
5
15
5
5
4
3
2
1
=
=
+
+
+
+
4
5
20
5
10
4
3
2
1
=
=
+
+
+
+
0
4)
-
10
(
4)
-
4
(
4)
-
3
(
4)
-
2
(
4)
-
(1
=
+
+
+
+
(
)
0
1
1
1
1
=
-
=
-
=
-
å
å
å
å
=
=
=
=
n
i
i
n
i
n
i
i
n
i
i
X
n
X
X
X
X
X
2
1
+
n
n
X
X
n
i
i
å
=
=
1
X
1
-
n
)
X
(X
S
n
1
i
2
i
2
å
=
-
=
1
-
n
)
X
(X
S
n
1
i
2
i
å
=
-
=
4.2426
7
126
1
8
16)
(24
16)
(14
16)
(12
16)
(10
1
n
)
X
(24
)
X
(14
)
X
(12
)
X
(10
S
2
2
2
2
2
2
2
2
=
=
-
-
+
+
-
+
-
+
-
=
-
-
+
+
-
+
-
+
-
=
L
L
N
X
X
X
N
X
N
N
i
i
+
+
+
=
=
å
=
L
2
1
1
m
N
X
N
å
=
-
=
1
i
2
i
2
μ)
(
σ
N
X
N
å
=
-
=
1
i
2
i
μ)
(
σ
X
2
S
S
m
2
s
s
S
X
X
Z
-
=
3
.
1
100
130
100
490
620
=
=
-
=
-
=
S
X
X
Z
1
n
)
Y
Y
)(
X
X
(
)
Y
,
X
(
cov
n
1
i
i
i
-
-
-
=
å
=
Y
X
n
1
i
2
i
n
1
i
2
i
n
1
i
i
i
S
S
)
Y
,
X
(
cov
)
Y
Y
(
)
X
X
(
)
Y
Y
)(
X
X
(
r
=
-
-
-
-
=
å
å
å
=
=
=
707580859095100707580859095100
Nota na 2a ProvaNota na 1a Prova
Grafico de Dispersão das Notas nas Provas
Chart1
	78
	92
	86
	83
	95
	85
	91
	76
	88
	79
Test #2 Score
Nota na 1a Prova
Nota na 2a Prova
82
88
91
90
92
85
89
81
96
77
Sheet4
		Nota na 1a Prova	Nota na 2a Prova
	Nota na 1a Prova	1
	Test #2 Score	0.7332437047	1
Graph1
	78
	92
	86
	83
	95
	85
	91
	76
	88
	79
Test #2 Score
Nota na 1a Prova
Nota na 2a Prova
Grafico de Dispersão das Notas nas Provas
82
88
91
90
92
85
89
81
96
77
Sheet1
	Test #1 Score	Test #2 Score
	78	82
	92	88
	86	91
	83	90
	95	92
	85	85
	91	89
	76	81
	88	96
	79	77
Sheet2
	
Sheet3

Continue navegando