Buscar

1 1 - Probabilidade e Estatística - Estatística Descritiva

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 89 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 89 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 89 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

UNIVERSIDADE FEDERAL DE ALAGOAS
Instituto de Computação
PROBABILIDADE E ESTATÍSTICA
Estatística Descritiva 
TURMA: CIÊNCIA DA COMPUTAÇÃO / ENG. DA COMPUTAÇÃO
SEMESTRE – 2021.1
1
ESTATÍSTICA DESCRITIVA
Análise exploratória de dados
2
ESTATÍSTICA DESCRITIVA
Uma análise descritiva de dados começa identificando as características de uma
população ou amostra através de suas variáveis.
Tipos de Variáveis:
(CATEGÓRICAS) (NÚMERICAS) 
3
ESTATÍSTICA DESCRITIVA
Definir Dados - Tipos de Variáveis:
Variáveis numéricas ou Variáveis quantitativas apresentam valores que
representam quantidades.
Variáveis numéricas podem ser:
 Variáveis discretas apresentam valores numéricos que surgem a partir de um
processo de contagem.
 Variáveis contínuas produzem respostas numéricas que surgem a partir de um
processo de medição.
4
ESTATÍSTICA DESCRITIVA
Definir Dados - Tipos de Variáveis:
 Variáveis categóricas ou Variáveis qualitativas apresentam valores que podem ser
posicionados em categorias.
Variáveis qualitativas podem ser:
 Variáveis nominais: não existe ordenação dentre as categorias. Exemplos: sexo, cor
dos olhos, fumante/não fumante, doente/sadio.
 Variáveis ordinais: existe uma ordenação entre as categorias. Exemplos:
escolaridade (1°, 2°, 3° graus), estágio da doença (inicial, intermediário, terminal),
mês de observação (janeiro, fevereiro,..., dezembro).
5
ESTATÍSTICA DESCRITIVA
Dados tabulares:
 Cada linha da tabela corresponde a um caso (observações, instâncias, ou exemplos).
 Cada coluna corresponde a uma variável (atributo ou característica).
 A tabela de dados coletados é chamada de amostra.
6
ESTATÍSTICA DESCRITIVA
Dados tabulares – Tipos de Variáveis:
 Numérica discreta ou contínua.
 Uma variável numérica: faz sentido somar, subtrair ou tomar médias destes valores.
 Exemplos: num char, line_breaks, ratioti e %obs.
 num char e line_breaks são variáveis discretas: assumem apenas alguns valores com saltos entre eles
(inteiros, neste caso).
 ratioti e %obs são contínuas: em princípio pode ser qualquer valor num intervalo real.
7
ESTATÍSTICA DESCRITIVA
Dados tabulares – Tipos de Variáveis:
 Variáveis categóricas nominal ou ordinal.
 Categórica Ordinal: valor é um rótulo para uma categoria dentre k possíveis e as categorias
podem ser ordenadas. number, por exemplo. Existe uma ordem natural nos valores possíveis:
none < small < big.
 Categórica Nominal: apenas rótulos para categorias, sem uma ordenação. Por exemplo: spam e
format.
8
ESTATÍSTICA DESCRITIVA
Definir Dados - Tipos de Variáveis:
(nominal)
Numérico 
(discreto)
Numérico 
(contínuo)
Categórico 
(nominal)
9
ESTATÍSTICA DESCRITIVA
10
ESTATÍSTICA DESCRITIVA
11
VISUALIZAÇÃO DE DADOS
ESTATÍSTICA DESCRITIVA
12
Séries Estatísticas
 Série é uma sucessão de números referidos a qualquer variável.
A palavra série é usada normalmente para designar um conjunto de dados dispostos de acordo
com um caráter variável, residindo a qualidade serial na disposição desses valores.
 Tabela é um quadro que resume um conjunto de observações.
 As tabelas servem para apresentar séries estatísticas. Conforme varie um dos
elementos da série, podemos classificá-la em:
• Cronológicas - Tempo (fator temporal ou cronológico) – época do fenômeno analisado;
• Geográficas - Local (fator espacial ou geográfico) – local onde o fenômeno acontece;
• Específicas - Fenômeno (espécie do fato ou fator especificativo) – o que é descrito.
VISUALIZAÇÃO DE DADOS
13
Série Cronológica
VISUALIZAÇÃO DE DADOS
14
Série Geográfica
VISUALIZAÇÃO DE DADOS
15
Série Específica - Também chamada de série categórica ou série por categoria,
VISUALIZAÇÃO DE DADOS
16
Séries Estatísticas
Tabelas Compostas (ou de dupla entrada)
 As tabelas apresentadas anteriormente são tabelas estatísticas simples,
onde apenas uma série está representada.
 É comum, haver necessidade de apresentar, em uma única tabela, mais do
que uma série.
 Quando as séries aparecem conjugadas, tem-se uma tabela de dupla
entrada.
 Em uma tabela desse tipo são criadas duas ordens de classificação: uma
horizontal (linha) e uma vertical (coluna).
VISUALIZAÇÃO DE DADOS
17
Séries Estatísticas
Tabelas Compostas - Série específico-temporal
VISUALIZAÇÃO DE DADOS
18
Séries Estatísticas
Tabelas Compostas - Série geográfico-temporal
VISUALIZAÇÃO DE DADOS
19
Séries Estatísticas
A Tabela Abaixo constitui uma Série Estatística ?
VISUALIZAÇÃO DE DADOS
20
Séries Estatísticas
 Nem sempre uma tabela representa uma série estatística. Por vezes, os 
dados reunidos não revelam uniformidade, sendo meramente um 
aglomerado de informações gerais sobre determinado assunto, as quais, 
embora úteis, não apresentam a consistência necessária para se configurar 
uma série estatística.
 A Tabela exibida apresenta resumos de dados, mas não representa uma 
série estatística.
VISUALIZAÇÃO DE DADOS
21
Como apresentar os dados da melhor forma???
VISUALIZAÇÃO DE DADOS
22
Gráficos!!!
VISUALIZAÇÃO DE DADOS
23
Gráficos
 A representação gráfica das séries estatísticas tem por finalidade 
representar os resultados obtidos, permitindo que se chegue a 
conclusões sobre a evolução do fenômeno ou sobre como se 
relacionam os valores da série. 
 A escolha do gráfico mais apropriado ficará a critério do analista. 
Contudo, os elementos simplicidade, clareza e veracidade devem 
ser considerados, quando da elaboração de um gráfico.
VISUALIZAÇÃO DE DADOS
24
Gráficos
• Simplicidade – o gráfico deve ser destituído de detalhes de importância
secundária, assim como de traços desnecessários que possam levar o
observador a uma análise morosa ou sujeita a erros.
• Clareza – o gráfico deve possibilitar uma correta interpretação dos valores
representativos do fenômeno em estudo.
• Veracidade – o gráfico deve expressar a verdade sobre o fenômeno em
estudo.
VISUALIZAÇÃO DE DADOS
25
Gráficos – Diretrizes para a Construção
 O título do gráfico deve ser o mais claro e completo possível. Quando
necessário, deve-se acrescentar subtítulos;
 A orientação geral dos gráficos deve ser da esquerda para a direita;
 As quantidades devem ser representadas por grandezas lineares;
 Só devem ser incluídas no desenho as coordenadas indispensáveis para guiar
o olhar do leitor ao longo da leitura;
 Os títulos e marcações do gráfico devem ser dispostos de maneira que sejam
facilmente lidos.
VISUALIZAÇÃO DE DADOS
26
Gráficos – Leitura e interpretação de um gráfico:
 Declarar qual o fenômeno ou fenômenos representados, a região considerada, o 
período de tempo, a fonte dos dados, etc;
 Examinar o tipo de gráfico escolhido, verificar se é o mais adequado; 
 Analisar cada fenômeno separadamente, fazendo notar os pontos mais em evidência, o 
máximo e o mínimo, assim como as mudanças mais bruscas;
 Investigar se há uma “tendência geral” crescente ou decrescente ou, então, se o fato 
exposto é estacionário;
 Procurar descobrir a existência de possíveis ciclos periódicos, qual o período 
aproximado, etc. 
VISUALIZAÇÃO DE DADOS
27
Gráficos – Gráfico de Linhas
VISUALIZAÇÃO DE DADOS
28
Gráficos – Gráfico de Colunas
VISUALIZAÇÃO DE DADOS
29
Gráficos – Gráfico em Barras
VISUALIZAÇÃO DE DADOS
30
Gráficos – Gráfico em Setores ou “Pizza”
 Muito usado para apresentação de dados Qualitativos.
VISUALIZAÇÃO DE DADOS
31
Gráficos – Gráfico de Radar, Gráfico de Teia, Gráfico de Aranha, Gráfico de
Estrela, Polígono Irregular, Gráfico Polar, ou Diagrama Kiviat.
VISUALIZAÇÃO DE DADOS
32
Gráficos – Gráfico de Radar, Gráfico de Teia, Gráfico de Aranha, Gráfico de
Estrela, Polígono Irregular, Gráfico Polar, ou Diagrama Kiviat.
VISUALIZAÇÃO DE DADOS
 É um método gráfico de apresentar 
dados multivariáveis na forma de 
um gráfico bidimensional de três ou 
mais variáveis quantitativas 
representadas em eixos que partem 
do mesmo ponto.
33
Histograma (Distribuição de Frequências)
VISUALIZAÇÃO DE DADOS
 É um gráficode frequência que ilustra como uma determinada amostra ou população de dados está distribuída.
34
Outros Gráficos conhecidos: 
 Diagrama de Pareto
O princípio de Pareto (Vilfredo Pareto)
também conhecido como regra do 80/20, lei
dos poucos vitais ou princípio de escassez do
fator, afirma que, para muitos eventos,
aproximadamente 80% dos efeitos vêm de 20%
das causas.
VISUALIZAÇÃO DE DADOS
35
Outros Gráficos conhecidos:
Diagrama de Dispersão ou gráfico de
dispersão é uma ferramenta que indica a
existência, ou não, de relações entre variáveis
de um processo e sua intensidade.
Usado em Correlações e Regressão Linear.
VISUALIZAÇÃO DE DADOS
36
Outros Gráficos conhecidos:
Séries Temporais
VISUALIZAÇÃO DE DADOS
37
Outros Gráficos conhecidos: Boxplot ou Gráfico de Caixa
O boxplot fornece uma análise visual da posição, dispersão, simetria, caudas e valores discrepantes (outliers) do conjunto de dados.
A distribuição é simétrica, quando a linha da mediana está no centro do retângulo. Linha da mediana está próxima ao primeiro quartil, os
dados são assimétricos positivos; Linha da mediana está próxima ao terceiro quartil, os dados são assimétricos negativos.
Os outliers indicam possíveis valores discrepantes.
 Limite Inferior = Primeiro Quartil – 1,5 * (Terceiro Quartil – Primeiro Quartil)
 Limite Superior = Terceiro Quartil + 1,5 * (Terceiro Quartil – Primeiro Quartil)
VISUALIZAÇÃO DE DADOS
38
Outros Gráficos conhecidos: Bagplot
VISUALIZAÇÃO DE DADOS
 Um bagplot é uma generalização bivariada do 
boxplot bem conhecido.
 Um bagplot é um método em estatísticas 
robustas para visualizar dados estatísticos 
bidimensionais. O bagplot permite visualizar a 
localização, dispersão, assimetria e outliers do 
conjunto de dados.
 O bagplot consiste em três polígonos 
aninhados, chamados “bag”, “fence” e “loop”. O 
bagplot é algumas vezes definido como a versão 
multidimensional (bivariada) do box plot.
39
Outros Gráficos conhecidos: HeatMap
 O heatmap é um gráfico muito útil para identificar padrões, principalmente quando
temos muitas variáveis no gráfico.
 Normalmente precisa de uma variável de resposta e duas outras variáveis para compor
os eixos x e y.
 Não há restrição quanto ao tipo de variável, qualquer uma delas podem ser quantitativa
ou qualitativa. Talvez esse seja o trunfo do heatmap, essa flexibilidade quanto a natureza
das variáveis nos permite substituir gráficos mais tradicionais quando eles não dão conta
do recado.
VISUALIZAÇÃO DE DADOS
Sugestão: utilizar o pacote do R Heatmap3 40
Outros Gráficos conhecidos: HeatMap
VISUALIZAÇÃO DE DADOS
Sugestão: utilizar o pacote do R Heatmap3
https://italocegatta.github.io/os-graficos-que-explicam-nossos-dados-heatmap/
41
DISTRIBUIÇÃO EM FREQUÊNCIA
ESTATÍSTICA DESCRITIVA
42
 Nem sempre é possível compreender o significado contido numa
amostragem por simples inspeção visual dos dados numéricos coletados.
Uma forma eficiente de visualização de dados para determinados estudos é
através das distribuições de frequências e dos histogramas.
DISTRIBUIÇÃO EM FREQUÊNCIA
8,5 7,5 9,0 7,5 5,5 9,5 10,0 8,5
6,0 6,0 6,5 4,5 10,0 6,5 9,0 6,5
Notas da Disciplina Estatistica - Ano 2012
10,0 10,0 9,5 9,0 9,0 8,5 8,5 7,5
7,5 6,5 6,5 6,5 6,0 6,0 5,5 4,5
Notas da Disciplina Estatistica - Ano 2012
Dados Bruto Rol de Dados
43
Elementos da Distribuição em Frequência:
 Após a realização de uma pesquisa em que os dados foram coletados, é
necessário organiza-los e classifica-los. Isso poderá ser feito utilizando uma
tabela de distribuição de frequência.
 Os dados são colocados em classes preestabelecidas, registrando a frequência
de ocorrência.
DISTRIBUIÇÃO EM FREQUÊNCIA
44
 Valores pontuais:
DISTRIBUIÇÃO EM FREQUÊNCIA
10,0 10,0 9,5 9,0 9,0 8,5 8,5 7,5
7,5 6,5 6,5 6,5 6,0 6,0 5,5 4,5
Notas da Disciplina Estatistica - Ano 2012
𝑿𝒊 (𝑓𝑎𝒊) (𝑓r𝒊) (𝑓𝑎c𝒊) (𝑓r𝑎c𝒊) 
10,0 2 12,50% 2 12,50%
9,5 1 6,25% 3 18,75%
9,0 2 12,50% 5 31,25%
8,5 2 12,50% 7 43,75%
7,5 2 12,50% 9 56,25%
6,5 3 18,75% 12 75,00%
6,0 2 12,50% 14 87,50%
5,5 1 6,25% 15 93,75%
4,5 1 6,25% 16 100,00%
16 100%
Exemplo 1: Notas da disciplina Estatística - Ano 2012
Fonte: Departamento de Ciência da computação da UFAL (2012).
 Frequência absoluta (𝑓𝑎 ) - corresponde ao numero de observações que temos em 
uma determinada classe ou em um determinado atributo de uma variável qualitativa. 
 Frequência relativa (𝑓r ) - corresponde à proporção do número de observações em 
uma determinada classe em relação ao total de observações que temos.
 Frequência Acumulada ((𝑓𝑎c ) , (𝑓r𝑎c )) - corresponde à soma da frequência daquela 
classe às frequências de todas as classes abaixo dela.
 As frequências podem ser expressa em termos porcentuais. Para isto, basta multiplicar 
a frequência relativa obtida por 100.
45
 Valores pontuais:
DISTRIBUIÇÃO EM FREQUÊNCIA
Exemplo 2: Estado civil de compradores de uma determinada loja de departamento.
Fonte: Departamento da loja. 
solteiro separado casado casado viúvo separado casado separado
casado viúvo separado solteiro separado casado viúvo casado
casado separado separado casado viúvo separado casado separado
casado viúvo solteiro casado solteiro casado viúvo solteiro
viúvo solteiro separado casado separado solteiro solteiro casado
solteiro separado solteiro separado casado casado casado casado
Classe Estado civil (X)i Frequência (fa)i (fr)i (fac)i (frac)i
1 Casado 18 37,50% 18 37,50%
2 Separado 13 27,08% 31 64,58%
3 Solteiro 10 20,83% 41 85,42%
4 Viúvo 7 14,58% 48 100,00%
48 100,00%
46
 Valores pontuais:
DISTRIBUIÇÃO EM FREQUÊNCIA
Exemplo 2: Estado civil de compradores 
de uma determinada loja de departamento.
Classe Estado civil (X)i Frequência (fa)i (fr)i (fac)i (frac)i
1 Casado 18 37,50% 18 37,50%
2 Separado 13 27,08% 31 64,58%
3 Solteiro 10 20,83% 41 85,42%
4 Viúvo 7 14,58% 48 100,00%
48 100,00%
47
 Valores Agrupados:
DISTRIBUIÇÃO EM FREQUÊNCIA
Exemplo 3. Produção diária de uma fábrica de bicicletas.
Menor Valor 230
Maior Valor 369
Amplitude 139
Num.Classes 6,8678991
Amp. Classe 20,2390858
48
Elementos da Distribuição em Frequência:
 A amplitude (A) do conjunto de valores observados é igual (Maior valor – Menor valor).
 Classe ou classe de Frequência (K): é cada um dos grupos de valores (ou categorias) em
que se subdivide os dados observados.
 Limite de classe: são os valores que definem a classe. São conhecidos como limite
superior e inferior de classe.
 Amplitude do intervalo de classe: é o comprimento da classe, ou seja, a diferença entre os
seus limites superior e inferior.
 Ponto médio de classe: é o valor que representa a classe para efeito de cálculo de certas
medidas. É obtido através da média aritmética entre os limites superior e inferior de
classe.
DISTRIBUIÇÃO EM FREQUÊNCIA
49
Elementos da Distribuição em Frequência:
 As classes são um artifício para condensar o número de elementos diferentes de uma
amostra.
 Principais pré-requisitos definição da quantidade e dos intervalos de classes:
a) As classes devem abranger todas as observações;
b) O extremo superior de uma classe é o extremo inferior da classe subsequente;
c) Cada valor observado deve enquadrar-se em apenas uma classe;
d) As unidades das classes devem ser as mesmas dos dados;
e) k ≤ 25, de um modo geral, sendo k o número de classes;
DISTRIBUIÇÃO EM FREQUÊNCIA
50
 Elementos da Distribuição em Frequência:
f) Cálculo do número de classes:
Fórmula de Sturges: K = 1 + 3,3 log n
O pesquisador, a seu critério, poderá modificar o número de classes. Quando o resultado não for
exato deve-se arredondar.
g) Determinar a amplitude de cada classe. = /
h) Determinar os limites superior e inferior. Simbologia:
├ ─ ─, intervalo fechado à esquerda e aberto à direita;
─ ─ ─ | intervalo fechado à direita e aberto à esquerda.
i) Construir a tabela de frequência.
DISTRIBUIÇÃO EM FREQUÊNCIA
Ou K =
Onde: n é o número de informações dapopulação.
51
Gráficos Representativos da Distribuição em Frequência:
DISTRIBUIÇÃO EM FREQUÊNCIA
52
 Gráficos Representativos da Distribuição em Frequência:
DISTRIBUIÇÃO EM FREQUÊNCIA
53
 Gráficos Representativos da Distribuição em Frequência:
 Polígono de Frequência - É um gráfico de análise no qual as frequências das classes são
localizadas sobre perpendiculares levantadas nos pontos médios das classes.
DISTRIBUIÇÃO EM FREQUÊNCIA
54
 Gráficos Representativos da Distribuição em Frequência:
DISTRIBUIÇÃO EM FREQUÊNCIA
55
DISTRIBUIÇÃO EM FREQUÊNCIA
Exemplo 3. Produção diária de uma fábrica de bicicletas - Usando R
56
DISTRIBUIÇÃO EM FREQUÊNCIA
Exemplo 3. Produção diária de uma fábrica de bicicletas - Usando R
57
 Gráficos Representativos da Distribuição em Frequência:
DISTRIBUIÇÃO EM FREQUÊNCIA
Exemplo 3. Produção diária de uma fábrica de bicicletas. Usando Excel.
230 230 244 245 248 249 250 255 257 260 264 271 278 280 280
280 281 284 289 292 292 293 294 294 296 299 299 299 302 305
308 309 309 310 311 312 314 315 316 318 318 320 321 324 326
333 335 335 337 337 339 341 342 342 342 348 356 360 365 369
Blocos Bloco Freqüência % cumulativo
230 230 2 3,33%
250 250 5 11,67%
270 270 4 18,33%
290 290 8 31,67%
310 310 15 56,67%
330 330 11 75,00%
350 350 11 93,33%
370 370 4 100,00%
Mais 60 100,00%
Valores da produção 
0,00%
20,00%
40,00%
60,00%
80,00%
100,00%
0
5
10
15
230 250 270 290 310 330 350 370 Mais
Fr
eq
üê
nc
ia
Bloco
Histograma
Freqüência % cumulativo
58
GRÁFICOS NO SOFTWARE R 
ESTATÍSTICA DESCRITIVA
59
Entrada de Dados (tabelas) no R
VISUALIZAÇÃO DE DADOS
> tabela20a <- read.table(file = "C:/CCEstatistica/Tabela20alunos.csv",
header = TRUE, sep = ";", dec = ",“ )
> tabela20a
60
Histograma (Distribuição de Frequências)
VISUALIZAÇÃO DE DADOS
61
Histograma (Distribuição de Frequências)
VISUALIZAÇÃO DE DADOS
62
Gráfico de Barras no R
VISUALIZAÇÃO DE DADOS
63
Gráfico de Barras no R
VISUALIZAÇÃO DE DADOS
64
Outros Gráficos conhecidos: Boxplot ou Gráfico de Caixa
VISUALIZAÇÃO DE DADOS
65
Outros Gráficos conhecidos: Boxplot ou Gráfico de Caixa
VISUALIZAÇÃO DE DADOS
66
Outros Gráficos conhecidos: Boxplot ou Gráfico de Caixa
VISUALIZAÇÃO DE DADOS
 Com o boxplot comparativo podemos concluir, por exemplo, que o peso corporal dos gatos do sexo masculino 
apresentam maior variabilidade que o peso corporal dos gatos do sexo feminino.
67
ANÁLISE DE DADOS NO 
SOFTWARE R 
ESTATÍSTICA DESCRITIVA
68
ANÁLISE EXPLORATÓRIA DE DADOS
Dados extraídos do livro “Estatística Básica” de W. O. 
Bussab e P. A. Morettin traz no segundo capítulo um 
conjunto de dados hipotético de atributos de 36 
funcionários da companhia Mil S/A. Os dados estão 
reproduzidos na tabela ao lado. 
Classificar das variáveis desse conjunto de dados:
Variável Classificação
Funcionários Quantitativa discreta
Estado Civil Qualitativa nominal
Instrução Qualitativa ordinal
Filhos Quantitativa discreta
Salário Quantitativa contínua
Anos Quantitativa contínua
Meses Quantitativa contínua
Região Qualitativa nominal
Funcionários Estado Civil Instrução Filhos Salário Anos Meses Região 
1 solteiro ensino fundamental 4.00 26 3 interior
2 casado ensino fundamental 1 4.56 32 10 capital
3 casado ensino fundamental 2 5.25 36 5 capital
4 solteiro ensino médio 5.73 20 10 outra
5 solteiro ensino fundamental 6.26 40 7 outra
6 casado ensino fundamental 0 6.66 28 0 interior
7 solteiro ensino fundamental 6.86 41 0 interior
8 solteiro ensino fundamental 7.39 43 4 capital
9 casado ensino médio 1 7.59 34 10 capital
10 solteiro ensino médio 7.44 23 6 outra
11 casado ensino médio 2 8.12 33 6 interior
12 solteiro ensino fundamental 8.46 27 11 capital
13 solteiro ensino médio 8.74 37 5 outra
14 casado ensino fundamental 3 8.95 44 2 outra
15 casado ensino médio 0 9.13 30 5 interior
16 solteiro ensino médio 9.35 38 8 outra
17 casado ensino médio 1 9.77 31 7 capital
18 casado ensino fundamental 2 9.80 39 7 outra
19 solteiro superior 10.53 25 8 interior
20 solteiro ensino médio 10.76 37 4 interior
21 casado ensino médio 1 11.06 30 9 outra
22 solteiro ensino médio 11.59 34 2 capital
23 solteiro ensino fundamental 12.00 41 0 outra
24 casado superior 0 12.79 26 1 outra
25 casado ensino médio 2 13.23 32 5 interior
26 casado ensino médio 2 13.60 35 0 outra
27 solteiro ensino fundamental 13.85 46 7 outra
28 casado ensino médio 0 14.69 29 8 interior
29 casado ensino médio 5 14.71 40 6 interior
30 casado ensino médio 2 15.99 35 10 capital
31 solteiro superior 16.22 31 5 outra
32 casado ensino médio 1 16.61 36 4 interior
33 casado superior 3 17.26 43 7 capital
34 solteiro superior 18.75 33 7 capital
35 casado ensino médio 2 19.40 48 11 capital
36 casado superior 3 23.30 42 2 interior
http://leg.ufpr.br/~fernandomayer/aulas/ce083-2016-2/05_Analise_exploratoria.html69
Os atributos 36 funcionários da companhia Mil S/A são 
lidos de uma planilha Excel, de nome TabelaLivro.csv e 
lidos para o data.frame milsa no software R, através 
dos comandos abaixo. 
http://leg.ufpr.br/~fernandomayer/aulas/ce083-2016-2/05_Analise_exploratoria.html
70
ANÁLISE UNIVARIADA
Analisar cada variável individualmente:
 Classificar a variável quanto a seu tipo: qualitativa (nominal ou ordinal)
ou quantitativa (discreta ou contínua).
 Obter tabelas, gráficos e/ou medidas que resumam a variável.
 A partir destes resultados pode-se montar um resumo geral dos dados.
ANÁLISE EXPLORATÓRIA DE DADOS
http://leg.ufpr.br/~fernandomayer/aulas/ce083-2016-2/05_Analise_exploratoria.html71
ANÁLISE UNIVARIADA
a) Variável Qualitativa Nominal
A variável Estado civil é uma qualitativa nominal.
Desta forma podemos obter:
1. uma tabela de frequências (absolutas e/ou relativas),
2. um gráfico de setores,
3. a “moda”, o valor que ocorre com maior frequência.
ANÁLISE EXPLORATÓRIA DE DADOS
72
ANÁLISE UNIVARIADA
a) Variável Qualitativa Nominal
ANÁLISE EXPLORATÓRIA DE DADOS
73
ANÁLISE UNIVARIADA
a) Variável Qualitativa Nominal
ANÁLISE EXPLORATÓRIA DE DADOS
74
ANÁLISE UNIVARIADA
b) Variável Qualitativa Ordinal
ANÁLISE EXPLORATÓRIA DE DADOS
75
ANÁLISE UNIVARIADA
b) Variável Qualitativa Ordinal
ANÁLISE EXPLORATÓRIA DE DADOS
76
ANÁLISE UNIVARIADA
c) Variável Quantitativa Discreta
ANÁLISE EXPLORATÓRIA DE DADOS
77
ANÁLISE UNIVARIADA
c) Variável Quantitativa Discreta
ANÁLISE EXPLORATÓRIA DE DADOS
78
ANÁLISE UNIVARIADA
d) Variável Quantitativa Contínua
Para se fazer uma tabela de frequências de uma VA contínua, é preciso primeiro
agrupar os dados em classes.
Verificar inicialmente os valores máximo e mínimo dos dados, depois usamos o
critério de Sturges para definir o número de classes.
Usar a função cut() para agrupar os dados em classes para obter as frequências
absolutas e relativas.
ANÁLISE EXPLORATÓRIA DE DADOS
79
ANÁLISE UNIVARIADA 
Variável Quantitativa 
Contínua
80
ANÁLISE UNIVARIADA 
Variável Quantitativa 
Contínua
81
ANÁLISE BIVARIADA
Na análise bivariada procura-se identificar relações entre duas variáveis. Estas relações podem
ser resumidas por gráficos, tabelas e/ou medidas estatísticas. O tipo de resumo vai depender
dos tipos das variáveis envolvidas. Vamos considerar três possibilidades:
 Qualitativa vs qualitativa
 Qualitativa vs quantitativa
 Quantitativa vs quantitativa
As análise mostradas a seguir não esgotam as possibilidades de análises envolvendo duas
variáveis e devem ser vistas apenas como uma sugestão inicial.
Relações entre duas variáveis devem ser examinadas com cautela pois podem ser mascaradas
por uma ou mais variáveis adicionais não considerada na análise.
ANÁLISE EXPLORATÓRIA DE DADOS
http://leg.ufpr.br/~fernandomayer/aulas/ce083-2016-2/05_Analise_exploratoria.html82
ANÁLISE BIVARIADA
a) Qualitativa vs qualitativa
 Considerar as variáveis Estado.civil (estado civil), e Instrucao (grau de instrução).
 A tabela envolvendo duas variáveis é chamada tabela de cruzamentoou tabela de
contingência, e pode ser apresentada de várias formas.
 A forma mais adequada de apresentação vai depender dos objetivos da análise e da
interpretação desejada para os dados. Inicialmente obtemos a tabela de
frequências absolutas para o cruzamento das duas variáveis, usando a função
table(). A tabela estendida incluindo os totais marginais pode ser obtida com a
função addmargins().
ANÁLISE EXPLORATÓRIA DE DADOS
83
ANÁLISE BIVARIADA
a) Qualitativa vs qualitativa
ANÁLISE EXPLORATÓRIA DE DADOS
84
ANÁLISE EXPLORATÓRIA DE DADOS
ANÁLISE BIVARIADA - a) Qualitativa vs qualitativa
85
ANÁLISE BIVARIADA
b) Qualitativa vs Quantitativa
 Considerar as variáveis Instrução e Salario.
Para se obter uma tabela de frequências é necessário agrupar a variável quantitativa
em classes. No exemplo a seguir vamos agrupar a variável salário em 4 classes definidas
pelos quartis usando a função cut(). Lembre-se que as classes são definidas por
intervalos abertos à esquerda, então usamos o argumento include.lowest = TRUE para
garantir que todos os dados, inclusive o menor (mínimo) seja incluído na primeira
classe. Após agrupar esta variável, obtemos a(s) tabela(s) de cruzamento como
mostrado no caso anterior
ANÁLISE EXPLORATÓRIA DE DADOS
86
ANÁLISE BIVARIADA
b) Qualitativa vs Quantitativa
ANÁLISE EXPLORATÓRIA DE DADOS
87
ANÁLISE BIVARIADA
c) Quantitativa vs Quantitativa
ANÁLISE EXPLORATÓRIA DE DADOS
http://leg.ufpr.br/~fernandomayer/aulas/ce083-2016-2/05_Analise_exploratoria.html88
Obrigado, até a próxima aula.. 
89

Outros materiais

Outros materiais