A maior rede de estudos do Brasil

Grátis
249 pág.
INTRODUÇÃO A CIÊNCIA DE DADOS - IME - APOSTILA

Pré-visualização | Página 1 de 50

50 100 150 200 250
0
2
0
4
0
6
0
8
0
1
0
0
x
y
Introdução à
Ciência de Dados
Fundamentos e Aplicações
Versão parcial preliminar
agosto 2019
Pedro A. Morettin
Julio M. Singer
Departamento de Estat́ıstica
Universidade de São Paulo
Rua do Matão, 1010
São Paulo, SP 05508-090
Brasil
Conteúdo
1 Estat́ıstica, Ciência de Dados e Megadados 1
1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Aprendizado com Estat́ıstica . . . . . . . . . . . . . . . . . . 3
1.3 Aprendizado automático . . . . . . . . . . . . . . . . . . . . . 4
1.4 Redes neuronais . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5 Este livro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.6 Conjuntos de dados . . . . . . . . . . . . . . . . . . . . . . . . 9
1.7 Notas do Caṕıtulo . . . . . . . . . . . . . . . . . . . . . . . . 10
PARTE I: ANÁLISE EXPLORATÓRIA DE DADOS 13
2 Preparação dos dados 15
2.1 Considerações preliminares . . . . . . . . . . . . . . . . . . . 15
2.2 Planilhas de Dados . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3 Construção de tabelas . . . . . . . . . . . . . . . . . . . . . . 22
2.4 Construção de gráficos . . . . . . . . . . . . . . . . . . . . . . 24
2.5 Notas de caṕıtulo . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.6 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3 Análise de dados de uma variável 33
3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2 Distribuições de frequências . . . . . . . . . . . . . . . . . . . 34
3.2.1 Variáveis qualitativas . . . . . . . . . . . . . . . . . . 34
3.2.2 Variáveis quantitativas . . . . . . . . . . . . . . . . . . 36
3.3 Medidas resumo . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.3.1 Medidas de posição . . . . . . . . . . . . . . . . . . . . 44
3.3.2 Medidas de dispersão . . . . . . . . . . . . . . . . . . 46
3.3.3 Medidas de assimetria . . . . . . . . . . . . . . . . . . 49
3.4 Boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.5 Modelos probabiĺısticos . . . . . . . . . . . . . . . . . . . . . 54
3.6 Dados amostrais . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.7 Gráficos QQ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.8 Transformação de variáveis . . . . . . . . . . . . . . . . . . . 62
iii
iv Conteúdo
3.9 Desvio padrão e Erro padrão . . . . . . . . . . . . . . . . . . 65
3.10 Intervalo de confiança . . . . . . . . . . . . . . . . . . . . . . 65
3.11 Notas de caṕıtulo . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.12 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4 Análise de dados de duas variáveis 79
4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.2 Duas variáveis qualitativas . . . . . . . . . . . . . . . . . . . . 80
4.3 Duas variáveis quantitativas . . . . . . . . . . . . . . . . . . . 92
4.4 Uma variável qualitativa e outra quantitativa . . . . . . . . . 101
4.5 Notas de caṕıtulo . . . . . . . . . . . . . . . . . . . . . . . . . 106
4.6 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
5 Análise de dados de várias variáveis 121
5.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
5.2 Gráficos para três variáveis . . . . . . . . . . . . . . . . . . . 122
5.3 Gráficos para quatro ou mais variáveis . . . . . . . . . . . . . 132
5.4 Medidas resumo multivariadas . . . . . . . . . . . . . . . . . 133
5.5 Notas de caṕıtulo . . . . . . . . . . . . . . . . . . . . . . . . . 135
5.6 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
6 Análise de Regressão 147
6.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
6.2 Regressão Linear Simples . . . . . . . . . . . . . . . . . . . . 149
6.3 Regressão Linear Múltipla . . . . . . . . . . . . . . . . . . . . 169
6.4 Regressão para dados longitudinais . . . . . . . . . . . . . . . 178
6.5 Regressão Loǵıstica . . . . . . . . . . . . . . . . . . . . . . . . 181
6.6 Notas de caṕıtulo . . . . . . . . . . . . . . . . . . . . . . . . . 187
6.7 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
7 Análise de Sobrevivência 205
7.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
7.2 Estimação da função de sobrevivência . . . . . . . . . . . . . 210
7.3 Comparação de curvas de sobrevivência . . . . . . . . . . . . 214
7.4 Regressão para dados de sobrevivência . . . . . . . . . . . . . 214
7.5 Notas de Caṕıtulo . . . . . . . . . . . . . . . . . . . . . . . . 215
7.6 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
PARTE II: APRENDIZADO SUPERVISIONADO 221
8 Classificação por meio de técnicas clássicas 223
8.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
8.2 Classificação por regressão loǵıstica . . . . . . . . . . . . . . . 224
8.3 Função discriminante linear de Fisher . . . . . . . . . . . . . 229
8.4 Classificador bayesiano e vizinho mais próximo . . . . . . . . 232
8.5 Notas de caṕıtulo . . . . . . . . . . . . . . . . . . . . . . . . . 233
8.6 Exerćıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
Caṕıtulo 1
Estat́ıstica, Ciência de Dados
e Megadados
1.1 Introdução
Atualmente, os termos Data Science (Ciência de Dados) e Big Data (Me-
gadados)1 são utilizados em profusão, como se fossem conceitos novos, dis-
tintos daqueles com que os estat́ısticos lidam há cerca de dois séculos. Na
década de 1980, numa palestra na Universidade de Michigan, EUA, C.F.
Jeff Wu já sugeria que se adotassem os rótulos Statistical Data Science, ou
simplesmente, Data Science, em lugar de Statistics, para dar maior visibi-
lidade ao trabalho dos estat́ısticos. Talvez seja Tukey (1962, 1977), sob a
denominação Exploratory Data Analysis (Análise Exploratória de Dados),
o primeiro a dar importância ao que hoje se chama Ciência de Dados, suge-
rindo que se desse mais ênfase ao uso de tabelas, gráficos e outros dispositivos
para uma análise preliminar de dados, antes que se passasse a uma análise
confirmatória, que seria a inferência estat́ıstica. Outros autores, como
Chambers (1993), Breiman (2001) e Cleveland (1985, 1993, 2001), também
enfatizaram a preparação, apresentação e descrição dos dados como ativida-
des preparatórias para inferência ou modelagem.
Basta uma procura simples na Internet para identificar novos centros
de Ciências de Dados (CD) em várias universidades ao redor do mundo,
com programas de mestrado, doutorado e mesmo graduação. O interessante
é que muitos desses programas estão alojados em escolas de Engenharia,
Bioestat́ıstica, Ciência da Computação, Administração, Economia etc., e
não em departamentos de Estat́ıstica. Paradoxalmente, há estat́ısticos que
acham que Estat́ıstica é a parte menos importante de CD! Certamente isso
é um eqúıvoco. Como ressalta Donoho (2017), se uma das principais ca-
racteŕısticas de CD é analisar grandes conjuntos de dados (Megadados), há
mais de 200 anos os estat́ısticos têm se preocupado com a análise de vastos
1Para esclarecimento do significado dos termos cunhados em inglês, optamos pela
tradução oriunda do Glossário Inglês-Português de Estat́ıstica produzido pela As-
sociação Brasileira de Estat́ıstica e Sociedade Portuguesa de Estat́ıstica, dispońıvel em
http://glossario.spestatistica.pt/.
1
2 1.1 INTRODUÇÃO
conjuntos de dados provenientes de censos, coleta de informações meteo-
rológicas, observação de séries de ı́ndices financeiros etc., que têm essa ca-
racteŕıstica. Outro eqúıvoco consiste em imaginar que a Estat́ıstica Clássica
(frequentista, bayesiana etc.) trata somente de pequenos volumes de dados,
conhecidos como Small Data. Essa interpretação errônea vem do fato de que
muitos livros didáticos apresentam conjuntos de dados,