Buscar

Análise Exploratória dos Dados

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 34 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 34 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 34 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Aula 1 
 
25/02/2014 
Prof. Gabriel Pivaro 
Decom/FEEC - Unicamp 
Ementa: Estatística descritiva. Probabilidade. Distribuições: Binomial, Poisson e Normal. 
Amostragem Estimação. Testes de hipótese. Intervalos de confiança. Regressão. 
Correlação. 
Objetivos da Disciplina: Introduzir os conceitos e técnicas fundamentais emanados na 
Estatística básica, favorecendo o desenvolvimento dos alunos em probabilidade e inferência. 
 
Metodologia de Ensino: A disciplina será desenvolvida com base em aulas expositivas e 
trabalho em grupo na resolução dos exercícios. 
2 
Bibliografia Básica: 
Bussab, W. O., Morettin, P. A, Estatística Básica, 5 ª ed., 2004. 
 
Bibliografia Indicada: 
Triola, M. Introdução a Estatística, LTC, Rio de Janeiro, 7 ª ed., 1999. 
Farber & Larson, Estatística Aplicada, Pearson, São Paulo, 2ª ed., 2004. 
Spiegel, M. R., Curso de Estatística, Makron Books. 
Vieira e outros., Estatística: Introdução Ilustrada, Atlas. 
Fonseca, J.S., Curso de Estatística, Atlas. 
Morettini, L.G. Estatística Básica, Inferência, Makron Books. 
 
Critérios de Avaliação: A avaliação será realizada por meio de duas provas (P1 e P2, valendo 
10 pontos cada). A média final será calculada através da média aritmética entre P1, P2. 
 
Freqüência: A freqüência mínima permitida na disciplina é de 75%. 
Arquivos disponíveis em: TelEduc 
3 
 
ž Análise Exploratória dos Dados 
ž Probabilidades 
ž Inferência Estatística 
4 
ž Resumo de Dados 
ž Medidas-Resumo 
ž Análise Bidimensional 
5 
ž Probabilidades 
ž Variáveis Aleatórias Discretas 
ž Variáveis Aleatórias Contínuas 
ž Variáveis Aleatórias Multidimensionais 
6 
ž Introdução à Inferência Estatística 
ž Estimação 
ž Testes de Hipóteses 
ž Regressão Linear Simples 
7 
ž  Problema: Pesquisador/Engenheiro/Estudante em alguma 
fase do seu trabalho se depara com o problema de analisar 
e entender um conjunto de dados. 
ž  Objetivo: Trabalhar os dados para transformá-los em 
informações, para compará-los com outros resultados, ou 
ainda para julgar sua adequação a teoria. 
ž  Resumindo: essência da Ciência é a observação, objetivo é a 
inferência. 
ž  Inferência estatística: parte da metodologia da Ciência, 
objetivo a coleta, redução, análise e modelagem dos dados, 
e inferência para uma população. 
9 
ž  Redução, análise e interpretação dos dados 
ž  Obter dos dados a maior quantidade possível de 
informação, que indique modelos plausíveis a serem 
utilizados numa fase posterior, a análise confirmatória dos 
dados (ou inferência). 
ž  Modelos: busca-se alguma forma de regularidade ou 
padrão ou, ainda, modelo, presente nas observações. Ex: 
modelo linear. 
ž  Softwares estatísticos: Excel, Minitab, R, Mathematica, 
Matlab, etc. 
10 
•  Buscar padrões e relações 
•  Confirmar (ou não) certas expectativas que se tinha sobre 
os dados 
•  Descobrir novos fenômenos 
•  Confirmar (ou não) suposições feitas sobre os 
procedimentos estatísticos usados 
•  Apresentar resultados de modo mais rápido e fácil 
Domicílios Brasileiros (%) com Telefone Fixo e 
Celular 
12 
13 
14 
15 
Serviços de manicure sobe 12% nos últimos 
treze meses em SP 
16 
Estatísticas de Celulares no Brasil 
Fonte: Anatel 
17 
Pesquisa 
mostra que 
94% dos 
moradores 
de favela são 
felizes 
18 
19 
20 
Cap. 2 Resumo dos Dados 
ž  Para cada elemento investigado numa pesquisa, tem-se associado um (ou mais de um) 
resultado correspondendo à realização de uma característica(s). 
ž  Característica (variável) estado civil: solteiro, casado, separado, viúvo. 
ž  X representa a variável estado civil. 
Variável Representação 
Estado civil X 
Grau de instrução Y 
Número de filhos Z 
Salário S 
Idade U 
Região de procedência V 
ž  X possui como possíveis 
realizações uma qualidade 
(atributo) do indivíduo 
pesquisado. 
ž  Z: 0, 1, 2, .... Possíveis 
re a l i z a ç õ e s n ú m e ro s 
r e s u l t a n t e s d e u m a 
contagem ou mensuração, 
i.e., quantidades. 
22 
N°	
   Estado civil	
   Grau de instrução	
   N° de filhos	
   Salário (x sal. mín)	
   Anos	
   Meses	
   Região de procedência	
  
1	
   solteiro	
   ens. fundamental	
   0	
   4	
   26	
   3	
   interior	
  
2	
   casado	
   ens. fundamental	
   1	
   4,56	
   32	
   10	
   capital	
  
3	
   casado	
   ens. fundamental	
   2	
   5,25	
   36	
   5	
   capital	
  
4	
   solteiro	
   ens. médio	
   0	
   5,73	
   20	
   10	
   outra	
  
5	
   solteiro	
   ens. fundamental	
   0	
   6,26	
   40	
   7	
   outra	
  
6	
   casado	
   ens. fundamental	
   0	
   6,66	
   28	
   0	
   interior	
  
7	
   solteiro	
   ens. fundamental	
   0	
   6,86	
   41	
   0	
   interior	
  
8	
   solteiro	
   ens. fundamental	
   0	
   7,39	
   43	
   4	
   capital	
  
9	
   casado	
   ens. médio	
   1	
   7,59	
   34	
   10	
   capital	
  
10	
   solteiro	
   ens. médio	
   0	
   7,44	
   23	
   6	
   outra	
  
11	
   casado	
   ens. médio	
   2	
   8,12	
   33	
   6	
   interior	
  
12	
   solteiro	
   ens. fundamental	
   0	
   8,46	
   27	
   11	
   capital	
  
13	
   solteiro	
   ens. médio	
   0	
   8,74	
   37	
   5	
   outra	
  
14	
   casado	
   ens. fundamental	
   3	
   8,95	
   44	
   2	
   outra	
  
15	
   casado	
   ens. médio	
   0	
   9,13	
   30	
   5	
   interior	
  
16	
   solteiro	
   ens. médio	
   0	
   9,35	
   38	
   8	
   outra	
  
17	
   casado	
   ens. médio	
   1	
   9,77	
   31	
   7	
   capital	
  
Tabela 2.1 
23 
ž  Y: ens. fundamental, ens. médio, ens. superior. 
ž  V: Sul, Centro-Oeste, Nordeste, Sudeste, Norte. 
Variável 
Qualitativa 
Quantitativa 
Nominal 
Ordinal 
Discreta 
Contínua 
X, V 
Y 
Z, U 
ž  Para cada tipo de variável. existem técnicas apropriadas para 
resumir as informações. 
ž  Pode-se atribuir valores numéricos às variáveis qualitativas. 
S 
24 
ž  Conhecer o comportamento da variável, analisando a ocorrência de suas 
possíveis realizações. 
ž  Apresentar um conjunto de realizações, para se ter ideia global sobre 
elas, ou seja, de sua distribuição. 
Grau de 
Instrução 
Frequência 
ni 
Proporção 
fi 
Porcentagem 
100fi 
 
Fundamental 12 0,3333 33,33 
Médio 18 0,5000 50,00 
Superior 6 0,1667 16,67 
Total 36 1,000 100,00 
Tabela 2.2 
ž  Distribuição de frequências da variável grau de instrução. 
ž  Outras medidas: proporção, porcentagem. 
ni freq. absoluta 
fi=ni/n freq. relativa 
25 
ž  Proporções (fi) são muito úteis quando se quer comparar resultados de duas 
pesquisas distintas. 
ž  Frequências absolutas muitas vezes não podem ser diretamente comparadas, 
porém, as frequências relativas podem ser diretamente comparadas. 
Grau de 
Instrução 
Frequência 
ni 
Proporção 
fi 
Porcentagem 
100fi 
 
Fundamental 650 0,325 32,50 
Médio 1020 0,51 51,00 
Superior 330 0,165 16,50 
Total 2000 1,000 100,00 
Tabela 2.3 
ni freq. absoluta 
fi=ni/n freq. relativa 
26 
ž  Tabelas de frequências para variáveis contínuas necessita de certo cuidado. 
ž  Para o caso da variável salário, como não existem observações iguais, a solução para 
agrupar os dados foi criar faixas de salário. 
ž  Perda de informação. 
Classe de 
salários 
Frequência 
ni 
Proporção 
fi 
Porcentagem 
100fi 
 
4 - 8 10 0,2778 27,78 
8 - 12 12 0,3333 33,33 
12 - 16 8 0,2222 22,22 
16 - 20 5 0,1389 13,89 
20 - 24 1 0,0278 2,78 
Total 36 1,00 100 
Tabela 2.4 
Mais classes: menor agrupamento;Menos classes: perda de informação 27 
ž  Representação gráfica da distribuição de uma variável tem a vantagem 
de, rápida e concisamente, informar sobre sua variabilidade. 
ž  Gráficos para variáveis qualitativas: barras e de composição em setores. 
0 
5 
10 
15 
20 
Fundamental Médio Superior 
F
re
q
u
ên
ci
a 
33% 
50% 
17% 
Fundamental Médio Superior 
Variável Y: grau de instrução 
Gráfico em barras consiste em construir retângulos ou barras, em que uma 
das dimensões é proporcional à magnitude a ser representada (ni ou fi). 28 
ž  A gama de possibilidades para gráficos de variáveis quantitativas é 
maior. 
ž  Entretanto, os gráficos de barras e de setores ainda podem ser utilizados 
para representar as variáveis quantitativas. 
Variável Z: número de filhos 
Gráfico em barras consiste em construir retângulos ou barras, em que uma 
das dimensões é proporcional à magnitude a ser representada (ni ou fi). 
Número de 
Filhos	
  
Frequência 
ni	
  
Porcentagem 
100fi	
  
0	
   4	
   20	
  
1	
   5	
   25	
  
2	
   7	
   35	
  
3	
   3	
   15	
  
4	
   0	
   0	
  
5	
   1	
   5	
  
Total	
   20	
   100	
  
0 
1 
2 
3 
4 
5 
6 
7 
8 
0 1 2 3 4 5 
F
re
q
u
ên
ci
a 
Número de filhos 
29 
ž  Além dos gráficos usados para variáveis qualitativas, mostrados 
anteriormente, podemos considerar um gráfico chamado gráfico 
de dispersão unidimensional. 
Variável Z: número de filhos 
30 
0 
1 
2 
3 
4 
5 
6 
7 
8 
0 1 2 3 4 5 6 7 
F
re
q
u
ên
ci
a 
Número de filhos 
Variações deste gráfico podem apresentar pontos ao longo da reta acompanhados do 
frequência absoluta, ou os valores repetidos podem ser empilhados um em cima do 
outro. 
0 
20% 
1 
25% 2 
35% 
3 
15% 
4 
0% 
5 
5% 
ž  Para variáveis quantitativas contínuas, necessita-se de alguma adaptação 
nos dados. 
Variável S: salário 
31 
Para fazer uma representação similar as anteriores, usamos o artifício de aproximar a 
variável contínua por uma variável discreta. 
 
Suponha que todos os salários em uma determinada classe são iguais ao ponto médio 
desta classe. Assim, por exemplo, os 10 salários da primeira classe serão iguais a 6,00. 
Classe de 
salários 
Frequência 
ni 
Proporção 
fi 
Porcentagem 
100fi 
 
4 - 8 10 0,2778 27,78 
8 - 12 12 0,3333 33,33 
12 - 16 8 0,2222 22,22 
16 - 20 5 0,1389 13,89 
20 - 24 1 0,0278 2,78 
Total 36 1,00 100 
Tabela 2.4 
Classe 
de 
salários 
Ponto 
médio 
si 
Frequência 
ni 
Proporção 
fi 
Porcen-
tagem 
100fi 
 
4 - 8 6,00 10 0,2778 27,78 
8 - 12 10,00 12 0,3333 33,33 
12 - 16 14,00 8 0,2222 22,22 
16 - 20 18,00 5 0,1389 13,89 
20 - 24 22,00 1 0,0278 2,78 
Total - 36 1,00 100 
Tabela 2.6 
ž  Com a tabela assim construída podemos representar os pares (si, ni) ou 
(si, fi), por um gráfico em barras, setores ou dispersão unidimensional. 
Variável S: salário 
32 
O artifício usado acima para representar uma variável contínua faz com que se perca 
muita das informações nelas contidas. Uma alternativa a ser usada nestes casos é o 
gráfico conhecido como histograma. 
0 
2 
4 
6 
8 
10 
12 
14 
6 10 14 18 22 
F
re
q
u
ên
ci
a 
Salário 
0 
0,05 
0,1 
0,15 
0,2 
0,25 
0,3 
0,35 
0 5 10 15 20 25 
P
ro
p
or
çã
o 
Salário 
ž  O histograma é um gráfico de barras contíguas, com as bases proporcionais aos intervalos das 
classes e a área de cada retângulo proporcional à respectiva frequência. 
ž  Indiquemos a amplitude do i-ésimo intervalo por Δi. Para que a área do retângulo respectivo 
seja proporcional a fi, a sua altura deve ser proporcional a fi/Δi (ou a ni/Δi), que é chamada 
densidade de frequência da i-ésima classe. 
ž  Quanto mais dados tivermos em cada classe, mais alto deve ser o retângulo. 
Variável S: salário 
33 
Com essa convenção, a área total do 
histograma será igual a 1. 
 
Quando os intervalos das classes 
forem todos iguais a Δ, a densidade 
de frequência da i-ésima classe passa 
a ser fi/Δi (ou a ni/Δi). 
28% 
33% 
22% 
14% 
3% 
0 
0,01 
0,02 
0,03 
0,04 
0,05 
0,06 
0,07 
0,08 
0,09 
4 - 8 8 - 12 12 - 16 16 - 20 20 - 24 
Densidade de 
frequência 
Salário 
ž  Tanto o histograma como os gráficos em 
barras dão uma ideia da forma da 
d i s t r i b u i ç ã o d a v a r i á v e l s o b 
consideração. 
ž  Um procedimento alternativo para 
resumir um conjunto de valores, com o 
objetivo de se obter uma ideia da forma 
de sua distribuição, é o ramo-e-folhas. 
ž  Uma vantagem deste diagrama sobre o 
histograma é que não perdemos (ou 
perdemos pouca) informação sobre os 
dados em si. 
ž  A ideia básica é dividir cada observação 
em duas partes: a primeira (o ramo) é 
colocada à esquerda de uma linha 
vertical, a segunda (a folha) é colocada à 
direita. 
34 
4	
   0	
   56	
  
5	
   25	
   73	
  
6	
   26	
   66	
   86	
  
7	
   39	
   44	
   59	
  
8	
   12	
   46	
   74	
   95	
  
9	
   13	
   35	
   77	
   80	
  
10	
   53	
   76	
  
11	
   6	
   59	
  
12	
   0	
   79	
  
13	
   23	
   60	
   85	
  
14	
   69	
   71	
  
15	
   99	
  
16	
   22	
   61	
  
17	
   26	
  
18	
   75	
  
19	
   40	
  
20	
  
21	
  
22	
  
23

Outros materiais