Buscar

Análise Exploratória de Dados

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

Instituto de Ciências Matemáticas e de Computação - Universidade de São Paulo
SME0123 - Estatística
Professor: Francisco A. Rodrigues
Primeira Lista de exercícios: Análise exploratória de dados
1 - Considere os dados da tabela 1 (download no site da disciplina). Construa a distribuição de frequências das
variáveis:
a) Estado civil b) Região de procedência c) Número de filhos d) Idade.
2 - Considere os dados da tabela 1 (download no site da disciplina). Construa o histograma ou gráficos de setores das
variáveis:
a) Estado civil b) Região de procedência c) Número de filhos d) Idade.
3 - Construa a função de distribuição acumulada para as variáveis Idade e Salário na tabela 1 (download no site da
disciplina).
4 - Dispomos de uma relação de 200 alugueis de imóveis urbanos e uma relação de 100 alugueis rurais.
Classe de aluguéis (codificados) Zona Urbana Zona Rural
[2,3) 10 30
[3,5) 40 50
[5,7) 80 15
[7,10) 50 5
[10,15) 20 0
Total 200 100
a) Construa o histograma das duas distribuições.
b) Com base no histograma, discuta e compare as distribuições.
5 - Quer se estudar o número de erros de impressão de um livro. Para isso escolheu-se uma amostra de 50 páginas,
encontrando-se o número de erros por página da tabela abaixo.
Erros Frequência
0 25
1 20
2 3
3 1
4 1
(a) Qual o número médio de erros por página? (R: 0.66)
(b) E o número mediano? (R:0,5)
(c) Qual é o desvio padrão? (R: 0.8393)
(d) Se o livro tem 500 páginas, qual o número total de erros esperados no livro? (R: 330)
6 - As taxas de juros recebidas por 10 ações durante um certo período foram (medidas em porcentagens) 2,59; 2,64;
2,60; 2,62; 2,57; 2,61; 2,50; 2,63; 2,64. Calcule a média, a mediana, o desvio padrão, os quartis Q1 e Q3. (R: x = 2,6,
md = 2,6, σ = 0,04)
7 - Considere os dados da tabela 1 (download no site da disciplina). Construa o histograma da variável Salário e
determine a media, Q1, Q3 e a distância interquantil.
8 - Mostre que:
a) ∑ni=1(xi− x) = 0 b) ∑ni=1(xi− x)2 = ∑ni=1 x2i −nx2
c) ∑ki=1 ni(xi− x)2 = ∑ki=1 nix2i −nx2 d) ∑ki=1 fi(xi− x)2 = ∑ki=1 fix2i − x2
9 - Os dados abaixo representam as vendas semanais, em classe de salários mínimos, de vendas de gêneros alimentí-
cios:
1
Vendas Semanais Número de Vendedores
30 |- 35 2
35` 40 10
40` 45 18
45` 50 50
50` 55 70
55` 60 30
60` 65 18
65` 70 2
Total 200
a) Faça o histograma das observações.
b) Calcule a média da amostra. (R: 51,2)
c) Calcule o desvio padrão da amostra. (R: 6,62)
d) Qual porcentagem das observações estão compreendidas entre x−2σx e x+2σx? (R: 94%)
e) Calcule a mediana (R: 52,5).
10 - O número de divórcios na cidade X , de acordo com a duração do casamento está representado na tabela abaixo.
a) Qual a duração média dos casamentos? E a mediana?
Anos de Casamento N. divórcios
0 ` 6 2800
6 ` 12 1400
12 ` 18 600
18 ` 24 150
24 ` 30 50
b) Encontre a variância e o desvio padrão dos casamentos.
c) Construa o histograma da distribuição.
d) Encontre o intervalo interquantil.
11 - O Departamento Pessoal de uma certa firma fez um levantamento dos salários dos 120 funcionários do setor
administrativo, obtendo os resultados (em salários mínimos) da tabela abaixo a) Esboce o histograma correspondente.
Faixa salaria Frequência relativa
0 ` 2 0,25
2 ` 4 0,40
4 ` 6 0,20
6 ` 10 0,15
b) Calcule a média, a variância e o desvio padrão.
c) Calcule o primeiro quartil e a mediana.
d) Se for concedido um aumento de 100% para todos os 120 funcionários, haverá alteração na média? E na variância?
Justifique a sua resposta.
e) Se for concedido um abono de dois salários mínimos para todos os 120 funcionários, haverá alteração na média? E na
variância? Justifique a sua resposta.
12 - O que acontece com a mediana, média e o desvio padrão de uma série de dados quando:
a) cada observação é multiplicada por 2?
b) soma-se 10 a cada observação?
c) subtrai-se a média geral x de cada observação?
d) de cada observação subtrai-se x e divide-se pelo desvio padrão σ?
13 - A idade média dos candidatos a um determinado curso de aperfeiçoamento sempre foi baixa, da ordem de 22
anos. Como esse curso foi planejado para atender a todos as idades, decidiu-se fazer uma campanha de divulgação. Para
se verificar se a campanha foi ou não eficiente, fez-se um levantamento da idade dos candidatos à última promoção e os
resultados estão na tabela a seguir: a) Baseando-se nesses resultados, você diria que a companha produziu algum efeito
2
Idade Frequência Porcentagem
18 ` 20 18 36
20 ` 22 12 24
22 ` 26 10 20
26 ` 30 8 16
30 ` 36 2 4
(isto é, aumentou a idade média)? (R:não, x= 22,5)
b) Um outro pesquisador decidiu usar a seguinte regra: se a diferença x−22 fosse maior que o valor 2σ/√(n), então a
campanha teria surtido efeito. Qual a conclusão dele, baseada nos dados?(R:Não)
c) Faça um histogram da distribuição.
14 - Considere os dados da tabela 1 (download no site da disciplina). Verifique se há associação entre as variáveis
através do coeficiente de contingência (C) e coeficiente de contingência modificado (C˜).
a) Grau de instrução e região de procedência.
a) Grau de instrução e estado civil.
15 - A companhia A de dedetização afirma que seu processo tem um efeito mais prolongado que das concorrentes.
Você acha que existe evidência a favor dessa armação? Considere os dados da tabela a seguir. (R: Não há evidencias.)
Companhia Menos de 4 meses De 4 a 8 meses Mais de 8 meses
A 64 120 16
B 104 175 21
C 27 48 5
16 - Considere os dados da tabela 1 (download no site da disciplina). Construa o box plots da variável Salário segundo
a Região de Procedência. Faça o mesmo com a variável Salário e Grau de Instrução. Os salários são mais influenciados
pela região ou grau de instrução? Justifique sua resposta.
17 - Abaixo estão os dados referentes à porcentagem da população economicamente ativa empregada no setor primário
e o respectivo índice de analfabetismo para algumas regiões metropolitanas brasileiras.
Regiões Metropolitanas Setor Primário (Y) Índice de Analfabetismo (X)
São Paulo 2,0 17,5
Rio de Janeiro 2,5 18,5
Belém 2,9 19,5
Belo Horizonte 3,3 22,2
Salvador 4,1 26,5
Porto Alegre 4,3 16,6
Recife 7,0 36,6
Fortaleza 13,0 38,4
a) Faça um diagrama de dispersão.
b) Você acha que existe uma dependência linear entre as duas variáveis?
c) Calcule o coeficiente de correlação de Pearson. (R:0,86)
d) Existe alguma região com comportamento diferente das demais? Se existe, elimine o valor correspondente e recalcule
o coeficiente de correlação. (R: Porto Alegre e Fortaleza apresentam comportamento diferente das demais.)
18 - Considere os dados da tabela 1 (download no site da disciplina). Calcule o coeficiente de associação (R2) entre
as variáveis grau de instrução e salário (R:0,415) e região de procedência e salário (R:0,013).
19 - Considere os dados da tabela 1 (download no site da disciplina). Calcule o coeficiente e associação entre as
variáveis estado civil e idade.
3
20 - O departamento de vendas de certa companhia foi formado há um ano com a admissão de 15 vendedores. Nessa
época, foram observados para cada um dos vendedores os valores de três variáveis: T : resultado em um teste apropriado
para vendedores, E: anos de experiência em vendas, G: conceito do gerente de vendas, quanto ao currículo do candidato.
O direto da companhia resolveu agora ampliar o quadro de vendedores e pede a sua colaboração para responder a algumas
perguntas. Para isso, ele lhe dá informações adicionais sobre as duas variáveis: V : volume mensal de vendas em s.m.; Z:
zona da capital para o qual o vendedor foi designado. O quadro foi o seguinte:
T : Teste E: Experiência G : Conceito V : Vendas Z: Zona
8 5 Bom 54 Norte
9 2 Bom 50 Sul
7 2 Mau 48 Sul
8 1 Mau 32 Oeste
6 4 Bom 30 Sul
8 4 Bom 30 Oeste
5 3 Bom 29 Norte
5 3 Bom 27 Norte
6 1 Mau 24 Oeste
7 3 Mau 24 Oeste
4 4 Bom 24 Sul
7 2 Mau 23 Norte
3 3
Mau 21 Sul
5 1 Mau 21 Oeste
3 2 Bom 16 Norte
Mais especificamente, o diretor pede que as seguintes tarefas sejam realizadas:
a) Histograma das vendas em classes de amplitude 10, tendo por limite inferior da primeira classe o valor 15.
b) Média e variância das vendas. (R: v= 30,2 e σ2 = 130,6)
c) Suponha que um vendedor seja considerado excepcional se sua venda está acima de dois desvios-padrões da média. Há
vendedores excepcionais entre os 15 iniciais? (R: há um vendedor)
d) O diretor de vendas anunciou que transferirá para outra praça todos os vendedores cujas vendas foram inferior ao
primeiro quartil da distribuição. Qual o mínimo de vendas para não ser transferido? (R: q1 = 23,5)
e) Os vendedores argumentam com o diretor que esse critério não é justo, pois há zonas de venda privilegiadas. A quem
você daria razão? Justifique a sua resposta.(R: Há diferenças entre as zonas. Construa um box plots das variáveis zonas e
vendas.)
f) Qual das três variáveis iniciais é mais importante para julgar o futuro candidato ao emprego? Justifique. (R: ρT,V = 0,71,
ρE,V = 0,26)
g) Qual é o grau de associação entre o conceito do gerente e a zona a que o vendedor foi designado? Você tem alguma
explicação para esse resultado?
h) Qual é o grau de associação entre o conceito do gerente e o resultado no teste? E entre zona e vendas?
4

Teste o Premium para desbloquear

Aproveite todos os benefícios por 3 dias sem pagar! 😉
Já tem cadastro?

Outros materiais