Baixe o app para aproveitar ainda mais
Prévia do material em texto
NOTAS DE AULA VINÍCIUS SILVA OSTERNE RIBEIRO ESTATÍSTICA EM TODOS OS NÍVEIS 2 ACERVO PESSOAL E PROFISSIONAL ESTATÍSTICA EM TODOS OS NÍVEIS VINÍCIUS SILVA OSTERNE RIBEIRO vinicius@osterne.com | www.osterne.com vinicius@osterne.com www.osterne.com 2 Sumário I Material preliminar 21 1 Elementos de análise combinatória . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 1.1 Considerações iniciais 23 1.2 Considerações iniciais 2 23 1.3 Considerações iniciais 3 23 2 Teoria (ingênua) dos conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.1 Considerações iniciais 25 2.2 Considerações iniciais 2 25 2.3 Considerações iniciais 3 25 3 Análise Exploratória de Dados (AED) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.1 Análise descritiva e análise inferencial 27 II Probabilidade 29 4 Conceitos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 4.1 Experimentos aleatórios 31 4.2 Espaço amostral, evento e sigma-álgebra 31 4.3 Definições de probabilidade: frequentista, subjetiva e axiomática 32 4.4 Propriedades da probabilidade 33 4.5 Probabilidade condicional 33 4.5.1 Regra do produto de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 4.5.2 Teorema da probabilidade total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 4.5.3 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4.5.4 Independência de eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.6 Lema de Borel-Cantelli 37 3 4 5 Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 5.1 Conceito de variável aleatória 39 5.2 Variáveis aleatórias discretas, contínuas e mistas 40 5.3 Função de probabilidade e função densidade de probabilidade 41 5.4 Função de distribuição acumulada e função de sobrevivência 42 5.5 Histograma 42 5.6 Distribuições de probabilidade mais comuns 45 5.6.1 Distribuição Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 5.6.2 Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 5.6.3 Distribuição Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 5.6.4 Distribuição Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 5.6.5 Distribuição Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 5.6.6 Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 5.6.7 Distribuição Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 5.6.8 Distribuição Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 5.6.9 Distribuição Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 5.6.10 Distribuição Lognormal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 5.6.11 Distribuição qui-quadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 5.6.12 Distribuição t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 5.6.13 Distribuição F de Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 6 Variáveis Aleatórias Multidimensionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 6.1 Introdução 53 6.2 Função de distribuição conjunta 53 6.2.1 Função de distribuição conjunta para o caso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 6.2.2 Função de distribuição conjunta para o caso contínuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 6.3 Função de distribuição marginal 54 6.3.1 Função de distribuição marginal para o caso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 6.3.2 Função de distribuição marginal para o caso contínuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 6.4 Distribuição condicional 55 6.5 Independência entre variáveis 55 6.6 Exemplos de distribuições multidimensionais 55 6.6.1 Distribuição multinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 6.6.2 Distribuição normal multivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 6.7 Funções de variáveis aleatórias 56 6.7.1 Transformação integral de probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 6.7.2 Inversa de generalizada de F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 5 6.7.3 Densidade da soma e da diferença de variáveis aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 6.7.4 Relações entre distribuições de probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 6.7.5 Densidade do produto e do quociente de variáveis aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 7 Momentos de variáveis aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 7.1 Definições e conceitos iniciais 57 7.2 Esperança e suas propriedades 58 7.3 Variância e suas propriedades 59 7.4 Coeficiente de assimetria 60 7.5 Coeficiente de curtose 60 7.6 Covariância 60 7.7 Coeficiente de correlação 60 8 Funções auxiliares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 8.1 Introdução 61 8.2 Esperança condicional 61 8.3 Variância condicional 61 8.4 Covariância condicional 61 8.5 Função geradora de momentos 61 8.6 Função característica 61 8.7 t.b.d 62 8.8 Esperança Condicional 62 8.9 Variância condicional 62 8.10 Covariância condicional 62 8.11 Função Geradora de Momentos 62 8.12 Função Característica 63 9 Convergência de Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 9.1 Introdução 65 9.2 Convergência quase certa 65 9.3 Convergência em probabilidade 65 9.4 Convergência em média r 65 9.5 Convergência em distribuição 65 9.6 Lei dos grandes números 65 6 9.7 Teorema central do limite 65 9.8 t.b.d. 65 9.9 Modos de convergência 65 9.10 Lei dos Grandes Números 65 9.11 Teorema Central do Limite 66 9.12 Teorema Central do Limite 66 III Inferência 67 10 Começando o estudo da Inferência Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 10.1 Análise descritiva e análise inferencial 69 10.2 Pontos a serem discutidos sobre a análise inferencial 69 10.3 Motivação para o estudo da análise inferencial 70 11 Conceitos básicos em Inferência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 11.1 Consideraçõesiniciais 72 11.2 População e amostra 73 11.3 Métodos de amostragem 74 11.4 Parâmetro e espaço paramétrico 78 11.5 Estatísticas e estimadores 79 11.6 Estatísticas e suas particularidades 80 11.6.1 Estatística suficiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 11.6.2 Estatística suficiente a partir da família exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 11.6.3 Estatísticas equivalentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 11.6.4 Estatística completa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 11.7 Estimadores e suas particularidades 89 11.7.1 Estimador não viciado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 11.7.2 Estimador eficiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 11.7.3 Estimadores obtidos via estatística suficiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 11.7.4 Estimador ótimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 11.7.5 Estimador consistente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 12 Distribuição amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 12.1 Considerações iniciais 99 12.2 Distribuição amostral da média (com variância conhecida) 99 7 12.3 Distribuição amostral da média (com variância desconhecida) 100 12.4 Distribuição amostral da proporção 100 12.5 Distribuição amostral da variância (com média conhecida) 101 12.6 Distribuição amostral da variância (com média desconhecida) 101 12.7 Distribuição amostral da diferença de duas médias (com variância conhecidas) 101 12.8 Distribuição amostral da diferença de duas médias (com variâncias desconhecidas) 101 12.9 Distribuição amostral da diferença de proporções 102 12.10 Distribuição amostral da razão de duas variâncias (com médias conhecidas) 103 12.11 Distribuição amostral da razão de duas variâncias (com médias desconhecidas) 103 12.12 Considerações finais 104 13 Estimação pontual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 13.1 Considerações iniciais 105 13.2 Métodos de estimação 105 13.2.1 Método dos momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 13.2.2 Método da máxima verossimilhança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 13.2.3 Método da máxima verossimilhança perfilada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 13.2.4 Método da máxima verossimilhança restrita ou residual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 13.2.5 Método da quase verossimilhança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 13.2.6 Estimação bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 13.2.7 Estimação com base na estatística U . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 13.3 Métodos numéricos de estimação 112 13.3.1 Método Steepstest descent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 13.3.2 Método Newton-Rhapson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 13.3.3 Método Fisher scoring . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 13.3.4 Método Davidson-Fletcher-Powell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 13.3.5 Método Nelder-Mead . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 13.3.6 Método Gradiente conjugado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 13.3.7 Método Simulated annealing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 13.3.8 Algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 13.4 Métodos para avaliação de estimadores pontuais 116 13.4.1 Erro Quadrático Médio (EQM) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 13.4.2 Melhores estimadores não viesados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 13.4.3 Suficiência e não viés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 13.4.4 Otimalidade da função de perda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 13.5 Bootstrap e Jackknife 118 13.6 Considerações finais 118 8 14 Estimação intervalar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 14.1 Considerações iniciais 119 14.2 Motivação para uso de um intervalo de confiança 119 14.3 Definição de intervalo de confiança 119 14.4 Métodos para construção de intervalos de confiança 120 14.4.1 Quantidade pivotal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 14.4.2 Intervalos bayesianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 14.4.3 Intervalo de confiança bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 14.4.4 Pivotagem da FDA (t.b.d) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 14.4.5 Inversão da estatística do teste (t.b.d) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 14.5 Os intervalos de confiança mais comuns (usando a quantidade pivotal) 121 14.5.1 Intervalo de confiança para a média (com variância conhecida) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 14.5.2 Intervalo de confiança para a média (com variância desconhecida) . . . . . . . . . . . . . . . . . . . . . . . . . . 123 14.5.3 Intervalo de confiança para a proporção . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 14.5.4 Intervalo de confiança para a variância com média conhecida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 14.5.5 Intervalo de confiança para a variância com média desconhecida . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 14.5.6 Intervalo de confiança para diferença de médias (com variâncias conhecidas) . . . . . . . . . . . . . . . . . . 127 14.5.7 Intervalo de confiança para diferença de médias (com variâncias desconhecidas e iguais) . . . . . . . . . . 128 14.5.8 Intervalo de confiança para diferença de médias (com variâncias desconhecidas e diferentes) . . . . . . . 129 14.5.9 Intervalo de confiança para a diferença de proporções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 14.5.10 Intervalo de confiançapara razão de duas variâncias (com médias conhecidas) . . . . . . . . . . . . . . . . . 130 14.5.11 Intervalo de confiança para razão de duas variâncias (com médias desconhecidas) . . . . . . . . . . . . . . . 131 14.6 Métodos para avaliação de estimadores intervalares 132 14.7 Cálculo do tamanho da amostra 132 15 Teste de Hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 15.1 Motivação para o uso dos teste de hipóteses 137 15.2 Os principais conceitos para testes de hipóteses 141 15.3 Aplicação dos conceitos 147 15.4 Métodos para construção de teste de hipóteses 161 15.5 Passo a passo para construir um teste de hipóteses 162 15.6 Os testes de hipóteses mais comuns 163 15.6.1 Teste de hipóteses para a média (com variância conhecida) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 15.6.2 Teste de hipóteses para a média (com variância desconhecida) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 15.6.3 Teste de hipóteses para a proporção . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 15.6.4 Teste de hipóteses para a variância (com média conhecida) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 15.6.5 Teste de hipóteses para a variância (com média desconhecida) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 9 15.6.6 Teste de hipóteses para diferença de duas médias (com variâncias conhecidas) . . . . . . . . . . . . . . . . . 180 15.6.7 Teste de hipóteses para a diferença de duas médias (variâncias desconhecidas e iguais) . . . . . . . . . . . 183 15.6.8 Teste de hipóteses para a diferença de duas médias (variâncias desconhecidas e diferentes) . . . . . . . . 186 15.6.9 Teste de hipóteses para diferença entre duas proporções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 15.6.10 Teste de hipóteses para razão entre duas variâncias (com médias conhecidas) . . . . . . . . . . . . . . . . . . 192 15.6.11 Teste de hipóteses para razão entre duas variâncias (com médias desconhecidas) . . . . . . . . . . . . . . . 195 15.7 Métodos para avaliação de teste de hipóteses 198 15.8 Outros teste de hipóteses 199 15.8.1 Teste de normalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200 15.8.2 Testes qui-quadrado: aderência, homogeneidade e indepedência . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 16 Estatística não paramétrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 16.1 Introdução 209 16.2 Métodos de estimação para densidades de probalidade 209 16.2.1 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 16.2.2 Método de Kernel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212 16.3 Teste de hipóteses 212 16.3.1 Teste dos Sinais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212 16.3.2 Teste de Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 16.3.3 Teste de indepêndencia (χ2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216 16.3.4 Teste de Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216 16.3.5 Teste Exato de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216 16.3.6 Teste de Mann-Whitney-Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216 16.3.7 Teste de Siegel-Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216 16.3.8 Teste de Kolmogorov-Sminorv . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216 17 Técnicas de amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217 17.1 Conceitos Iniciais 217 IV Modelos de Regressão 219 18 Análise de variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225 18.1 Introdução 225 18.2 Modelo para uma população 225 18.3 Modelo para duas populações 226 18.4 Modelo para mais de duas populações 226 18.5 Teste de igualdade de médias 227 10 18.6 Comparação de médias 227 19 Modelo de regressão linear simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229 19.1 Introdução 229 19.2 Pressupostos do modelo 230 19.3 Estimação dos parâmetros 231 19.4 Análise de variância 233 19.5 Teste de hipóteses 239 19.6 Intervalos de confiança 240 19.7 Técnicas de diagnóstico 242 19.8 Outros modelos lineares simples 243 19.9 Aplicações 247 19.9.1 Aplicação 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247 19.9.2 Aplicação 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250 20 Modelo de regressão linear múltiplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255 20.1 Introdução 255 20.2 Estimação dos parâmetros 256 20.3 Análise de Variância 259 20.4 Teste de hipóteses 261 20.5 Intervalo de confiança 262 20.6 Técnicas de diagnóstico 264 20.7 Outros modelos 266 20.8 Aplicações 269 20.8.1 Aplicação 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269 20.8.2 Aplicação 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273 21 Modelo de regressão linear multivariado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277 21.1 Introdução 277 21.2 Estimação dos parâmetros 279 21.3 Testes de hipóteses 279 21.4 Técnicas de diagnóstico 279 21.5 Aplicações 280 21.5.1 Aplicação 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280 21.5.2 Aplicação 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285 11 22 Modelos Lineares Generalizados (MLGs) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287 22.1 Introdução 287 22.2 Família exponencial 287 22.3 Apresentação da estrutura 288 22.4 Função de ligação 288 22.5 Estimação dos parâmetros 290 22.6 Função desvio 293 22.7 Teste de hipóteses 293 22.7.1 Teste da razão de verossimilhanças . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293 22.7.2 Teste F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294 22.7.3 Teste de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294 22.7.4 Estatística deviance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295 22.8 Técnicas de diagnóstico 295 22.8.1 Análise de resíduos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296 22.8.2 Técnicas gráficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . 296 22.8.3 Análise de influência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297 22.9 Estrutura dos MLGs em seus casos particulares 297 22.9.1 Resposta com distribuição normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297 22.9.2 Resposta com distribuição Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297 22.9.3 Resposta com distribuição binomial negativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297 22.9.4 Resposta com distribuição gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297 22.9.5 Resposta com distribuição normal inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297 22.9.6 Resposta com distribuição binomial (tabelas de contigência) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297 22.9.7 Resposta com distribuição binomial (regressão logística) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297 22.10 Aplicações 300 22.10.1 Aplicação 1 (modelo de regressão gama) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300 22.10.2 Aplicação 2 (modelo de regressão normal inversa) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300 22.10.3 Aplicação 3 (modelo de regressão usando tabelas de contigência) . . . . . . . . . . . . . . . . . . . . . . . . . . . 300 22.10.4 Aplicação 4 (modelo de regressão logístico) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300 22.10.5 Aplicação 5 (modelo de regressão logístico) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303 22.10.6 Aplicação 6 (modelo de regressão logístico) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304 22.10.7 Aplicação 7 (modelo de regressão poisson e binomial negativo) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306 22.10.8 Aplicação 8 (modelo de regressão poisson e binomial negativo) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312 22.10.9 Aplicação 9 (modelo de regressão poisson e binomial negativo) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316 23 Modelos de regressão baseados na quase verossimilhança . . . . . . . . . . . . . . 319 23.1 Introdução 319 23.2 Apresentação da estrutura 319 12 23.3 Estimação dos parãmetros 321 23.4 Teste de hipóteses 322 23.5 Estrutura da QL em seus casos particualares 322 23.5.1 Resposta com distribuição normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322 23.5.2 Resposta com distribuição Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322 23.5.3 Resposta com distribuição binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322 23.6 Aplicações 322 23.6.1 Aplicação 1 (modelo quase normal) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322 23.6.2 Aplicação 2 (modelo quase Poisson) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322 23.6.3 Aplicação 3 (modelo quase binomial) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326 23.7 Extensões 326 23.7.1 Modelo de quase verossimilhança para medidas repetidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326 24 Modelos de regressão não lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327 24.1 Introdução 327 24.2 Regressão Potência 327 25 Modelos de regressão não paramétricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329 25.1 Introdução 329 25.2 Modelo de regressão pelo método de Kernel 330 25.3 Modelo de regressão por splines 331 25.4 Modelo de regressão por polinômio local 331 25.5 Outros modelos de regressão não paramétricos 331 26 Modelos de regressão especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333 26.1 Modelos de regressão beta 333 26.2 Modelo de regressão beta retangular 337 26.3 Modelos de regressão Birbaum-Saunders 342 V Tópicos especiais em Estatística 351 27 Estatística computacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353 27.1 Conceitos Iniciais 353 27.2 Geração de números aleatórios 355 27.2.1 Método da transformada inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355 27.2.2 Método da amostragem por corte ("slice sampling") . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355 13 27.2.3 Método da rejeição adaptativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355 27.3 Álgebra linear computacional 355 27.3.1 Decomposições de matrizes: Cholesky, QR, SVD (decomposição do valor singular) . . . . . . . . . . . . . . 355 27.3.2 Solução de sistemas de equações lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355 27.4 Integração numérica 355 27.4.1 Aproximação de Laplace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355 27.4.2 Integração por quadratura e quadratura adaptativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355 27.4.3 Integração por amostragem por importância ("importance sampling") . . . . . . . . . . . . . . . . . . . . . . . . 355 27.4.4 Integração por Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355 27.5 Otimização de funções não-lineares 355 27.5.1 Algoritmos de Newton-Raphson e Escore de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355 27.5.2 Algoritmo de Nelder-Mead . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355 27.5.3 Algoritmo BFGS (Broyden–Fletcher–Goldfarb–Shanno) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355 27.6 Algoritmo EM 355 27.7 Métodos de reamostragem 355 27.7.1 Jacknife . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355 27.7.2 Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355 27.8 Métodos de simulação de Monte Carlo via Cadeias de Markov (MCMC) 355 27.8.1 Amostrador de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355 27.8.2 Metropolis-Hastings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355 27.8.3 Amostragem por importância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355 27.8.4 Rejeição adaptativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355 28 Estatística multivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357 28.1 Conceitos Iniciais 357 28.2 Distribuição normal multivariada 357 28.3 Análise de variância multivariada 357 28.4 Análise de componentes principais 357 28.5 Análise fatorial 357 28.6 Análise de correspondência 357 28.7 Análise de correlações canônicas 357 28.8 Análise discriminante357 29 Planejamento de Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359 29.1 Conceitos iniciais 359 29.2 Delineamento Inteiramente Casualizado 360 14 29.3 Blocos Completos Inteiramente Casualizados (BIC) 360 29.4 Fatorial 361 29.5 Quadrado latino (t.b.d) 361 29.6 Superfície de resposta 361 30 Análise de dados longitudinais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369 30.1 Conceitos Iniciais 369 30.2 Análise descritiva para dados longitudinais 369 30.2.1 Gráfico de dispersão multivariados (Draftman’s plot) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369 30.2.2 Matriz de covariâncias/correlações amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369 30.2.3 Gráfico de perfis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370 30.2.4 Variograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370 30.3 Redução de dados multivariados para univariados 370 30.4 Modelos lineares multivariados para análise de dados longitudinais 371 30.4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371 30.4.2 Apresentação da estrutura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371 30.4.3 Estimação dos parâmetros (pontual e intervalar) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371 30.4.4 Diagnóstico do modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371 30.5 Modelos lineares mistos para análise de dados longitudinais 371 30.5.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371 30.5.2 Apresentação da estrutura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371 30.5.3 Estimação dos parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373 30.5.4 Teste de hipoteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373 30.5.5 Diagnóstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373 30.5.6 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373 30.6 Modelos lineares generalizados mistos para análise de dados longitudinais 374 30.6.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374 30.7 Equações de Estimação Generalizadas para análise de dados longitudinais 374 30.7.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374 30.7.2 Apresentação da estrutura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375 30.7.3 Estimação dos parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376 30.7.4 Intervalo de confiança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377 30.7.5 Teste de hipoteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377 30.7.6 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377 31 Análise de sobrevivência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379 31.1 Introdução 379 31.2 Análise descritiva em análise de sobrevivência 381 15 31.3 Análise inferencial em análise de sobrevivência 383 31.4 Modelos de regressão em análise de sobrevivência 383 31.5 Aplicação 386 32 Séries temporais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 441 32.1 Introdução 441 33 Teoria de Resposta ao Item . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443 33.1 Introdução 443 33.2 Apresentação da estrutura 444 33.3 Estimação dos parâmetros 448 33.4 Aplicação 449 34 Teoria das decisões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455 34.1 Introdução 455 34.2 Princípio Minimax 455 34.3 Princípio de Bayes 455 35 Estatística Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 457 35.1 Conceitos Iniciais 457 35.1.1 Dedução versus Inferência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 458 35.1.2 Probabilidade versus Inferência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 458 35.1.3 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459 35.2 Componentes de uma análise Bayesiana 459 35.2.1 Verossimilhança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459 35.2.2 Distribuição à priori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459 35.2.3 Distribuição à posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460 35.2.4 Função de Perda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460 35.2.5 Formulação de inferência como problema de decisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460 35.3 Função de perda 460 35.4 Propriedades de um estimador Bayesiano 463 35.5 Priori conjugada 468 35.5.1 Modelo Poisson-Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469 35.5.2 Modelo Binomial Negativa-Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 470 35.6 Componentes de uma análise Bayesiana 471 35.6.1 Triplet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 471 16 35.6.2 Sumário estatístico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 471 35.6.3 Gráficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 471 35.6.4 Inferências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472 35.7 Teste de hipóteses 473 35.8 Priori não-informativa 475 35.8.1 Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475 35.8.2 Priori de Jeffrey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 476 36 Estatística computacional . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 479 36.1 Conceitos Iniciais 479 37 Funções de Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 481 37.1 Conceitos iniciais 481 37.2 Função de estimação regular e informação de Godambe 482 37.3 Função de estimação ótima e função de estimação linear 484 38 Processos estocásticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487 38.1 Processos especiais 487 38.1.1 Processo de ramificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487 38.1.2 Probabilidade de extinção da população . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 489 38.2 Passeio aleatório 496 38.3 Ruína do jogador 498 38.4 Passeio aleatório em grafos 501 38.5 Movimento Browniano 503 38.5.1 Caracterização do Movimento Browniano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504 38.5.2 Existência e Continuidade do Movimento Browniano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505 38.5.3 Autosemelhança no Movimento Browniano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 506 38.5.4 Variações do Movimento Browniano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 506 38.5.5 Aplicações e simulações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 509 39 Teoria da Informação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513 VI Tópicos especiais em Machine Learning 515 40 Conceitos iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 517 40.1 Componentes de um problema de classificação 517 17 40.2 Dissimilaridade e similaridade 517 40.3 Métrica e distância 518 40.3.1 Distância Quarteirão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 518 40.3.2 Distância Euclidiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 518 40.3.3 Distância de Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 518 40.3.4 Distância de Minkowski de Ordem m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519 40.3.5 Distância Quadrática (ou de Mahalanobis) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519 40.3.6 Distância de Hamming . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519 40.3.7 Distância de Hamming . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519 40.3.8 Distância de Jaccard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519 40.3.9 Índice de Haversine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519 40.3.10 Índice de Soresen-Dice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519 40.4 Normalização dos dados 519 41 Preparação dos dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 521 41.1 Escala 521 41.2 Centralização 521 41.3 Padronização 521 41.4 Normalização 521 41.5 Transformação de Box-Cox 521 41.6 Transformação de Yeo-Johnson 522 41.7 Análise de Componentes Principais 522 41.8 Análise de Componentes Independentes 523 41.9 Discriminante de Fisher 523 42 Métricas de avaliação para modelos de classificação . . . . . . . . . . . . . . . . . . . . 527 42.1 Para o caso supervisionado 527 42.1.1 Acurácia, precisão, sensibilidade e F1-score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 527 42.2 Para o caso não supervisionado 528 42.2.1 Índice de Dunn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 528 42.2.2 Índice de Davies-Bouldin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 528 42.2.3 Índice de Calinski-Harabasz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 528 43 Modelos de classificação supervisionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 529 43.1 Vizinho mais próximo 529 43.2 Centróide mais próximo 529 18 43.3 K-Nearest Neighbours (Vizinhos mais próximos - KNN) 529 43.4 Logistic regression (Regressão logística) 530 43.5 Decision tree (Árvore de decisão) 530 43.6 Random forest (Floresta aleatória) 530 43.7 Support Vector Machine (Máquina de vetores de suporte) 531 43.8 Stochastic Gradient Descent (Gradiente Estocástico Descendente) 532 43.9 Adaboost 532 43.10 Gradient boosting 532 43.11 XGBoost 532 43.12 Classificadores baseados na regra de Bayes 532 43.13 Classificador linear de mínimos quadrados 533 43.14 Perceptron 534 43.15 Redes neurais (Neural Network) 534 44 Modelos de classificação não supervisionados . . . . . . . . . . . . . . . . . . . . . . . . . . . 535 44.1 Introdução 535 44.2 Algoritmo k-means 535 44.3 Métodos Hierárquicos 539 44.4 Métodos Baseados em Densidade 539 44.5 Métodos Baseados em Grade 539 44.6 Métodos Baseados em Modelos 539 44.7 Métodos Baseados em Redes Neurais 539 44.8 Métodos Baseados em Lógica Fuzzy 539 44.9 Métodos Baseados em Kernel 539 44.10 Métodos Baseados em Grafos 539 44.11 Métodos Baseados em Computação Evolucionária 539 .1 Desigualdades de Markov, Chebychev e Jensen 540 .1.1 Desigualdade de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 540 .1.2 Desigualdade de Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 540 .1.3 Desigualdade de Jensen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 541 .1.4 Desigualdade de Holder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543 .1.5 Desigualdade de Holder para somatórios finitos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543 .1.6 Desigualdade de Minkowski . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543 19 A Funções de variáveis aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545 A.1 Introdução 545 A.2 Caso discreto - Transformação direta 545 A.3 Caso contínuo - Função de distribuição 546 A.3.1 Quando a função é inversivel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 547 A.3.2 Quando a função não é inversivel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 547 A.4 Caso contínuo - Jacobiano 547 A.5 Caso contínuo - Uso das fgm, fgp e função característica 548 B Desigualdade de Bonferroni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 549 B.1 Exemplo 549 C Função Gama e Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 551 C.1 Função Gama 551 C.2 Função Beta 551 20 ParteI Material preliminar 21 Aula 1 Elementos de análise combinatória 1.1 Considerações iniciais 1.2 Considerações iniciais 2 1.3 Considerações iniciais 3 23 24 Aula 2 Teoria (ingênua) dos conjuntos 2.1 Considerações iniciais 2.2 Considerações iniciais 2 2.3 Considerações iniciais 3 25 26 Aula 3 Análise Exploratória de Dados (AED) 3.1 Análise descritiva e análise inferencial A Estatística é uma ciência que lida com a coleta, observação e análise de dados, por meio de uma abordagem quantitativa. Essa abordagem é subdividida em: 27 28 Parte II Probabilidade 29 Aula 4 Conceitos básicos É importante comerçar nossos estudos com a explanação de que tudo que se estuda em Estatística tem, como base fundamental, a teoria da Probabilidade. É a partir dessa teoria com base nela que podemos, por exemplo, modelar populações, experimentos, acontecimentos ou realizar previsões com dados e informações que apresentam comportamento não determinístico (estocástico ou aleatório). Na subseções a seguir apresentamos os conceitos sobre experimentos aleatórios, espaço amostral, eventos, sigma-álgebra, definições de probabilidade, propriedades da probabilidade, probabilidade condicional (regra do produto de probabilidades, teorema da probabilidade total, eorema de Bayes e ndependência de eventos) e lema de Borel-Cantelli. 4.1 Experimentos aleatórios Experimentos aleatórios são experimento que, ao serem repetidos nas mesmas condições, não produzem o mesmo resultado. Por outro lado, experimentos que, ao serem repetidos nas mesmas condições, produzem o mesmo resultado são chamado de experimentos determinísticos. 4.2 Espaço amostral, evento e sigma-álgebra Falar sobre espaço amostral. Definicão 4.2.1. Eventos probabilísticos. Qualquer subconjunto do espaço amostral S que constitui um campo de Borel F . Definicão 4.2.2. Eventos mutuamente exclusivos. Quando a ocorrência de um impossibilita a ocorrência do outro. Exemplo 4.2.1. Exemplo: Dado A = {par} B = {impar} 〉 A ·B = ∅ (eventos mutuamente exclusivos) 31 32 É importante definir a sigma-álgebra associado ao espaço amostral (às vezes citados nos livros como σ-álgebra). Definicão 4.2.3. Uma família de subconjuntos de Ω é chamada de σ-álgebra (ou campo de Borel), denotado por B, se satisfazer as três seguintes propriedades: a. ∅ ∈ B b. Se A ∈ B, então Ac ∈ B c. Se A1, A2, ... ∈ B, então ∪∞i=1Ai ∈ B Uma σ-álgebra é, portanto, o conjunto de todos os subconjuntos do espaço amostral (Ω), incluindo o próprio espaço amostral. Assim, se Ω tem n elementos, então existem 2n conjuntos em σ-álgebra. Atente-se que isso ocorre quando temos um conjunto contável. Quando Ω não for contável, será difícil descrever a σ-álgebra, entretanto ela é escolhida para conter qualquer conjunto que seja de interesse. O leitor pode se perguntar: ’Mas qual o motivo de estudar a sigma-álgebra’, ao invés de todos os subcon- juntos?’. Pois bem, existem algumas explicações: - O espaço amostral pode conter um grau de detalhamento superior ao que estamos interessados no mo- mento; - Queremos associar cada evento A com uma probabilidade numérica, P(A), porém nosso conhecimento sobre P pode não se estender para todos os subconjuntos de Σ. 4.3 Definições de probabilidade: frequentista, subjetiva e axiomá- tica A definição frequentista de probabilidade refere-se ao fato que se repetirmos um experimento aleatório n vezes e anotarmos o número de vezes a qual um resultado de seu interesse (um evento A, por exemplo) ocorreu, então a frequência relativa de A nas n repetições do experimento é dada por: fn,A = n(A) n . (4.1) Essa frequência relativa fn,A, definida na classe dos subconjuntos do espaço amostral, satisfaz as seguintes condições: i. 0 ≤ fn,A ≤ 1 ii. fn,Ω = 1 iii. Se A e B forem eventos mutualmente excludentes, então: fn,A∪B = fn,A + fn,B 33 Em alguns livros (Introductory Statistics, Wonnacott e Wonnacott, 1980) admitem que uma frequência relativa de um evento tenderá para um valor limite dado por: P(A) = lim n→∞ n(A) n (4.2) Logicamente, é possível que a frequência fn,A se comporte de maneira não esperada, isto é, podemos jogar um dado um grande número de vezes e o lado do número cinco, por exemplo, persiste em aparecer, tornando a probabilidade para o lado cinco igual tendendo a um. É necessário qualificar, portanto, afirmando que o limite ocorre com grande probabilidade, mas não com certeza lógica. Então, se utilizarmos o limite anteriormente como definição para probabilidade, estaríamos utilizando o conceito de probabilidade para definir probabilidade, formando um ciclo vicioso. Com o objetivo de romper este ciclo, devemos apelar para o enfoque axiomático. A definição subjetiva de probabilidade refere-se a uma tentativa para lidarmos com eventos históricos únicos, que não podem ser repetidos, carecendo, assim, de interpretação frequencial. Em sentido não rigoroso, a probabilidade subjetiva pode ser interpretada com a chance que uma pessoa atribuiria a aposta em um evento. A definição axiomática de probabilidade é apresentada abaixo. Definicão 4.3.1. Probabilidade (Definição Axiomática) é qualquer função real definida na classe F tal que 1. P(A) ≥ 0 2. P(S) = 1 3. Se A ·B = ∅ ⇒ P(A+B) = P(A) + P(B) (eventos mutuamente exclusivos) Assim, P(·) : F → R 4.4 Propriedades da probabilidade 4.5 Probabilidade condicional No início do estudo da Probabilidade, são apresentados conceitos os quais não existem restrições para o espaço amostral, ou seja, ele é sempre o mesmo e o cálculo das probabilidades, consequentemente, é incondi- cional. Entretanto, em muitos casos, é necessária que uma atualização desse espaço amostral seja feita, pelo fato de algum elemento ter sido retirado dele, ocosionando, portanto, sua redução. É a partir dessa ideia que surge o que chamamos de probabilidade condicional, cuja definição formal é apresentada a seguir. 34 Definicão 4.5.1. Se A e B são eventos em Ω (espaço amostral) e P(B) > 0, então a probabilidade condicional de A dado B, denotada por P(A|B), é dada por P(A|B) = P(A ∩B) P(B) . Atente-se para o fato de que podemos dizer que P(A|B) é uma probabilidade, pois: • P(A|B) = P(AB)P(B) ≥ 0; • P(S|B) = 1; • Para A · C = ∅ ⇒ P [(A+ C)|B] = P(A|B) + P(C|B). Note que agora temos uma redução do espaço amostral para B, ou seja, o que antes considerávamos Ω, agora será restrito à B. Portanto, para o cálculo das probabilidade, vamos considerar P(B|B) = 1. Para ilustrar essa definição, considere uma urna com duas bolas azuis e duas bolas brancas. Suponha que desejamos retirar duas bolas, uma após a outra. Podemos nos perguntar quais os possíveis casos (espaço amostral) para esse experimento. Se adotarmos a notação Ai: a i-ésima bola retirada é de cor azul e Bi a i-ésima bola retirada é de cor branca (para i = 1, 2), então o espaço amostral desse experimento pode ser descrito da seguinte forma: Ω = {A1A2, B1B2, A1B2, B1A2}. Entretanto, podemos limitar esse espaço amostral condicionando o evento. Considere que seja de interesse calcular a probabilidade de a segunda bola retirada ser de cor branca, dado que a primeira também foi de cor branca. Perceba que, agora, o espaço amostral do nosso interesse não inclui mais os eventos em que a primeira bola retirada foi a de cor azul, e sim somente aqueles em que a primeira bola retirada foi de cor branca, ou seja, ouve uma redução do espaço amostral. Como o exemplo é simples, podemos calcular a probabilidade sem muitos cálculos. Se temos somente uma possibilidade de interesse (a primeira ser branca e a segunda também ser branca: B1B2) entre duas possíveis (a primeira ser branca e segunda também ser branca ou ser azul: B1B2 ou B1A2), então a probabilidade de interesse é 1/2. Usando a definição anteriormente apresentada para probabilidades condicionais, podemos resolver esse pro- blema calculando P(B2|B1), ou seja: P(B2|B1) = P(B1 ∩B2) P(B1) = 1/41/2 = 1 2 . 4.5.1 Regra do produto de probabilidades O desenvolvimento apresentado anteriormente paradois eventos pode ser generalizada com objetivo de denotar a probabilidade da interseção de n eventos por meio das probabilidades condicionais sucessivas. Veja a definição a seguir. 35 Definicão 4.5.2. (Regra do produto de probabilidades) Para os eventos A1, A2, ..., An em (Ω,F ,P), com P (∩ni=1Ai) > 0, a regra do produto de probabilidades é dada por: P(A1B2...An) = P(A1)P(A2|A1)P(A3|A1A2)...P(An|A1A2An−1). 4.5.2 Teorema da probabilidade total O teorema da probabilidade total é útil para obtermos resposta ao seguinte questionamento: "Dado um evento A, qual é a probabilidade de A ocorrer quando se conhece as probabilidades de um conjunto de outros eventos (disjuntos) cuja reunião é o espaço amostral?". Nas explanações a seguir, vamos apresentar esse teorema, algumas outras propriedades importantes e um exemplo para ilustrar a utilização dos conceitos. Teorema 4.5.1. (Teorema da Probabilidade Total) Considere B1, B2, ..., Bn uma partição do espaço amostral Ω (são eventos mutualmente excludentes e sua reunião forma Ω). Considere também A um evento e P uma probabilidade definida nos eventos de Ω, então: P(A) = n∑ k=1 P(A|Bk)P(Bk). (4.3) Para um melhor entendimento do teorema, podemos explanar o problema por meio da explicação baseado na Figura 4.1 a seguir. Figura 4.1: Espaço amostral (retângulo) e suas partições. Observe que os eventos B1, B2, ..., Bn formam uma partição do espaço amostral (representado pelo re- tângulo) e que o evento de interesse, evento A, também pertence a esse espaço e pode ser escrito como A = (A ∩B1) ∪ (A ∩Bn) ∪ ... ∪ (A ∩Bn). Em termos de probabilidade, temos: P(A) = P(A ∩B1) ∪ P(A ∩B2) ∪ ... ∪ P(A ∩Bn) = n∑ k=1 P(A ∩Bk) = n∑ k=1 P(A|Bk) · P(Bk). 36 Vale ressaltar que os termos da expressão apresentada em (4.5.1), definidos na classe dos eventos do espaço amostral, satisfazem as seguintes propriedades: P1. Para todo evento B, P(B|A) ≥ 0; P2. Se B1, B2, ..., Bn são eventos mutualmente exclusivos, então: P ( n⋃ k=1 Bk|A ) = n∑ k=1 P(Bk|A); P3. Se Ω denota o espaço amostral, então P(Ω|Ω) = 1. Exemplo 4.5.1. Considere três urnas, U1, U2 e U3, tais que P(U1) = 2/6, P(U2) = 3/6 e P(U3) = 1/6, com as seguintes informações sobre os seus conteúdos: • U1: contém 3 bolas azuis e 5 bolas vermelhas; • U2: contém 4 bolas azuis e 2 bolas vermelhas; • U3: contém 1 bola azul e 3 bolas vermelhas. Com base nessas informações, se temos o interesse em encontar a probabilidade de se retirar uma bola azul (sem ter a informação de qual urna vamos usar), podemos usar o teorema da probabilidade total. P(azul) = 3∑ k=1 P(azul | Uk) · P(Uk), para k = 1, 2, 3 = P(azul | U1) · P(U1) + P(azul | U2) · P(U2) + P(azul | U3) · P(U3) = 38 · 2 6 + 4 6 · 3 6 + 1 4 · 1 6 = 15 . 4.5.3 Teorema de Bayes Definicão 4.5.3. (Teorema de Bayes) Considere uma partição A1, A2, ..., An do espaço amostra Ω (note que a partição é finita) e B um evento de Ω, então para i = 1, 2, ..., n, temos: P(Ai|B) = P(B|Ai)P(Ai)∑n k=1 P(B|Ak)P(Ak) . (4.4) A probabilidade dada em (4.4) é conhecida na literatura como probabilidade a posteriori. Além disso, a partir da mesma expressão, temos que: n∑ k=1 P(Ai|B) = 1. 37 4.5.4 Independência de eventos Definicão 4.5.4. (Independência de dois eventos) Sejam A e B dois eventos e suponha que P(A) ≥ 0. O evento B é dito ser independente do evento A se: P(B|A) = P(B). (4.5) Então, sendo P(B|A) diferente de P(B), dizemos que B depende estatisticamente de A, ou é dependente estatisticamente de A. A dependência estatística é o caso usual, pois é muito mais fácil duas probabilidades serem tanto diferentes do que serem extremamente iguais. Em outras palavras, a definição anterior aplica, para eventos independentes, o tipo mais simples de regra da multiplicação. Além disso, dado que temos eventos independentes, então podemos concluir que: 1. P(A|B) = P(A); 2. P(AB) = P(A) · P(B); 3. P(AB) = P(A) · P(B) e P(AB) = P(A) · P(B). Ou seja, se A e B são independentes, A e B são independentes e A e B também o são. De uma maneira mais geral, temos: Definicão 4.5.5. (Independência de mais de dois eventos) Sejam A1, A2, . . . , An eventos. Eles serão independentes se: P(Ai1Ai2 . . . Aik) = P(Ai1)P(Ai2) · · ·P(Aik) (4.6) 4.6 Lema de Borel-Cantelli O lema de Borel–Cantelli (nome em referência a Émile Borel e Francesco Paolo Cantelli) é um teorema sobre sequências de eventos, sendo associado, em geral, a um resultado na teoria da medida. Fazendo-se (En) ser uma sequência de eventos em algum espaço de probabilidade, o lema de Borel–Cantelli estabelece que se a soma das probabilidade de En é finita ∞∑ n=1 P(En) <∞, (4.7) então a probabilidade que infinitamente muitos deles ocorram é 0, que é, P ( lim sup n→∞ En ) = 0. (4.8) Aqui, "lim sup"denota limite superior da sequência de eventos, e cada evento é um conjunto de resultados. Isto é, lim sup En é o conjunto de resultados que ocorrem infinitamente muitas vezes dentro da sequência de eventos infinita (En). Explicitamente, lim sup n→∞ En = ∞⋂ n=1 ∞⋃ k=n Ek. (4.9) 38 O teorema entretanto afirma que se a soma das probabilidades dos eventos En é finita, então o conjunto de todos os resultados que são "repetidos"infinitamente (muitas vezes) devem ocorrer com probabilidade zero. Note-se que nenhuma suposição de independência é requerida. Aula 5 Variáveis Aleatórias Entender o que são variáveis aleatórias é um passo fundamental no estudo da Estatística, pois elas repre- sentam as características de interesse em uma população. Para exemplificar, considere que você está sentado na calçada da sua rua contando o número de carros que passam por dia. Se, nesse caso, definirmos por X o número de carros que passam por dia nessa rua, podemos dizer que X é uma variável aleatória. Essa variável aleatória pode ser discreta ou contínua e tem diversas funções importantes associadas a ela, tais como a função de distribuição acumulada, funçôes de probabilidade e densidade e momentos. Ao longo desse capítulo vamos abordar todos esse pontos com detalhes. Porém, antes de avançar, vamos apresentar a definição formal de variável aleatória. 5.1 Conceito de variável aleatória Dado um fenômeno aleatório qualquer, com certo espaço de probabilidade, desejamos estudar a estrutura probabilística de quantidades associadas a esse fenômeno. Definicão 5.1.1. (Variável aleatória) Seja (Ω,F ,P) um espaço de probabilidade. Uma variável alea- tória X é qualquer função X : Ω→ R, tal que: X−1(I) = {ω ∈ Ω : X(ω) ∈ I} ∈ F , ∀I ⊂ R. (5.1) Traduzindo a definição matemática acima, X é uma variável aleatória se sua imagem inversa para intervalos I ⊂ R pertencem a σ-álgebra F . Veja essa representação na Figura 5.1 a seguir. 39 40 Figura 5.1: Ilustração de uma função de uma variável aleatória. De maneira menos informal, se considerarmos um experimento e um espaço amostral Ω associado a esse experimento e considerarmos que X é uma função associa cada elemento de Ω a um número real X(Ω), então X é uma variável aleatória. 5.2 Variáveis aleatórias discretas, contínuas e mistas As variáveis aleatórias podem ser classificadas em variáveis aleatórias discretas, contínuas e mistas. Essa caracterização prévia da variável é muito importante no processo de modelagem de dados, pois, como veremos mais adiante, existem modelos para cada tipo de variável, sendo ela discreta, contínua ou mista. Para exemplificar, suponha que em uma lanchonente sejam vendidos 300 pastéis por dia. Assim, se definirmos a variável aleatória X, tal que X é o número de pastéis vendidos em um dia, então X é classificada como uma variável aleatória do tipo discreta. Definicão 5.2.1. (Variável aleatória discreta) Uma variável aleatória é do tipo discreta se assume somente um número enumerável de valores. Como sabemos que os valores possíveis para X são 0, 1, 2, ..., 300 e tais valores não são igualmente prováveis de ocorrer, então X é classificada como uma variável aletória do tipo discreta. Por outro lado, se nessa mesma lanchonote definirmos como X o tempode trabalho diário dos funcionários, então X é classificada como uma variável aleatória do tipo contínua. Definicão 5.2.2. (Variável aleatória contínua) Uma variável aleatória é do tipo contínua se ela assume qualquer valor numérico em um determinado intervalo ou série de intervalos. Isto é, uma variável aleatória contínua é uma variável para a qual um conjunto A é um conjunto infinito não enumerável. Um exemplo de uma variável aleatória mista pode ser um experimento em que uma moeda é lançada e uma roleta é girada se o resultado do lançamento da moeda for cara. Se o resultado do lançamento da moeda for cara, X é igual ao valor da roleta. Se o resultado do lançamento da moeda for coroa, X é igual a -1. Há a probabilidade meio de essa variável aleatória ter o valor -1, e meio de ficar no intervalo [0, 360). 41 Definicão 5.2.3. (Variável aleatória mista) Uma variável aleatória é do tipo mista se ela assume tanto valores discretos quanto valores em um determinado intervalo. Essas variáveis aleatórias são conhecidas como variáveis aleatórias mistas. 5.3 Função de probabilidade e função densidade de probabilidade Conforme alertamos anteriormente, caracterizar uma variável aleatóra em discreta, contínua ou mista é uma passo muito importante para a modelagem estatística. Isso ocorre, pois as respectivas funções de probabilidade recebem nomes diferentes dependendo da sua caracterização. Se uma varável é do tipo discreta, então ela pode ser modelada pela sua respectiva função de probabilidade. Por outro lado, se uma varável é do tipo contínua, então ela pode ser modelada pela sua respectiva função densidade de probabilidade. Definicão 5.3.1. (Função de probabilidade) A função de probabilidade de uma variável aleatória discreta é uma função que atribue probabilidade a cada um dos possíveis valores assumidos pela variável. Assim, considerando X uma variável com valores x1, ..., xn, temos que P(X = xi) = P({ω ∈ Ω : X(Ω) = xi}), i = 1, ..., n. (5.2) A função de probabilidade de X, no espaço de probabilidade (Ω,F ,P), deve obedecer às seguintes propriddes: • 0 ≤ P(X = xi) ≤ 1, ∀i = 1, 2, ...; • ∑i P(X = xi) = 1, com a soma percorrendo todos os possíveis valores. Exemplo 5.3.1. (Magalhães, 2006) Obtenha o valor da constante c, de modo que a função p(x) = c(x− 2)2, x = 3, 4, 5, 6, seja uma função de probabilidade de alguma variável aleatória discreta. Com a apresentação da função de probabilidade para a variável aleatória discreta, agora vamos apresentar a a função densidade de probabilidade para a variável aleatória contínua. Definicão 5.3.2. (Função densidade de probabilidade) Uma variável aleatória X em (Ω,F ,P), com função de dsitribuição F, será classificada como contínua, se existir uma função não negativa f tal que: F (x) = ∫ x −∞ f(ω)dω, ∀x ∈ R, (5.3) com f sendo a função densidade de probabilidade da variável aleatória X. Assim como a função de probabilidade, a função densidade de probabilidade de X, no espaço de probabilidade (Ω,F ,P), deve obedecer às seguintes propriedades: • f(x) ≥ 0, ∀x ∈ R; • ∫∞−∞ f(w)dw = 1. 42 Exemplo 5.3.2. Obtenha o valor da constante c, de modo que a função f(x) = ce−cx I[0,∞)(x) seja uma função densidade de probabilidade de alguma variável aleatória contínua. 5.4 Função de distribuição acumulada e função de sobrevivência Definicão 5.4.1. (Função de distribuição acumulada) Seja (Ω,F ,P) um espaço de probabilidade, a função de distribuição acumulada de uma variável aleatória X é definida por: FX(x) = P (X ≤ x), ∀x ∈ R. (5.4) A função de distribuição acumulada de X, no espaço de probabilidade (Ω,F ,P), deve obedecer às seguintes propriedades: • limx→−∞ FX(x) = 0 e limx→∞ FX(x) = 1. • FX(x) é uma função não decrescente de x. • FX(x) é uma função contínua à direita, isto é, para cada número x0, limx→−x0 FX(x) = FX(x0). Exemplo 5.4.1. Obtenha a função de distribuição acumulada da função densidade de probabilidade dada por f(x) = 2e−2x I[0,∞)(x). Definicão 5.4.2. (Função de sobrevivência) Seja (Ω,F ,P) um espaço de probabilidade. A função de sobrevivência de uma variável aleatória X é definida por: SX(x) = P (X > x), ∀x ∈ R. (5.5) Exemplo 5.4.2. Obtenha a função de sobrevivência da função densidade de probabilidade dada por f(x) = 2e−2x I[0,∞)(x). 5.5 Histograma O histograma é uma forma simples e rápida de avaliarmos o comportamento da variável em estudo e, assim, realizar associações com distribuições de probabildades conhecidas. O que, às vezes, não percebemos é que ao construir um histograma, estamos trabalhando com processo de estimação, dado que esse gráfico consiste em uma estimativa não paramétrica de uma função densidade. Nesse sentido, ao utilizar um software para gerar esse gráfico, não sabemos como funciona esse processo de construção. Nesta seção, vamos detalhar esse processo. Podemos resumir a ideia geral da construção desse gráfico em três simples passos, conforme descrevemos abaixo: 43 Passo 1: Dividir o intervalo dos dados em h classes; Passo 2: Alocar cada observação em sua respectiva classe; Passo 3: Calcular a proporção da amostra contida em cada classe e dividir pelo produto entre a largura da classe e o tamanho da amostra. Essa proporção, calculada no último passo, é representada pelas alturas das barras no histograma, que consiste na estimativa não paramétrica da função densidade de probabilidade. De um modo mais geral, podemos definir o histograma como uma função f̂ , representada da seguinte forma: f̂λ(x) = 1 nh n∑ i=1 I(x− γi, h/2), (5.6) sendo n o tamanho amostral, h a largura da classe, γi o ponto central da classe da observação xi e I(·) a função indicadora do intervalo [−h/2, h/2]. Antes de contuarmos essa explicação, precisamos abrir um parânteses para apresentar uma confusão muito comum que ocorre em algumas análises que usam histograma. Para isso, observe os histogramas da Figura 16.1 construídos para uma amostra de 10 valores da variável aleatória X, tais que X ∼ N (0, 1), gerada no software R de acordo com os comandos dados a seguir. > x = rnorm(10,0,1) > round(x,1) [1] 0.5 0.9 -0.8 -0.2 -2.0 -1.7 1.5 -0.4 -0.6 0.7 (A) Valores de X F re qu ên ci a −2.0 −1.0 0.0 1.0 0. 0 1. 0 2. 0 3. 0 (B) Valores de X D en si da de −2.0 −1.0 0.0 1.0 0. 0 0. 2 0. 4 0. 6 Figura 5.2: Histograma de frequância e de densidade, respectivamente, construído para uma amostra de 10 valores da variável aleatória X, tal que X ∼ N (0, 1). Na Figura 16.1 (A), temos o histograma de frequências, que considera somente a proporção em relação ao tamanho da classe, representada por h na expressão f̂λ(x). Esse não é o histograma que nos fornece a 44 estimativa da densidade. Já na Figura 16.1 (B), temos os histograma de interesse. Ele considera a proporção em relação ao tamanho da classe e em relação ao tamanho da amostra, representada por h e n, respectivamente, na expressão de f̂λ(x). Com esse problema de confundimento apresentado e entendido, vamos voltar ao estudo do histograma como função de estimação. Observe que o formato de histograma depende do número de classes que serão utilizadas na sua estimação. Vamos avaliar, portanto, dois histogramas construídos sobre o mesmo conjunto de dados X (com n = 100), tais que X ∼ N (0, 1), mas com número de classes diferentes (h = 5 e h = 20, respectivamente), com a inclusão da curva da densidade conhecida em cada histograma. (A) Valores de X D en si da de −3 −2 −1 0 1 2 3 0. 0 0. 2 0. 4 (B) Valores de X D en si da de −2 −1 0 1 2 3 0. 0 0. 2 0. 4 Figura 5.3: Histogramas construídos sobre o mesmo conjunto de dados X (com n = 100), tais queX ∼ N (0, 1), mas com número de classes diferentes (h = 5 e h = 20, respectivamente). Note que na Figura 16.2 (A), temos um número menor de classes e, portanto, um comportamento sobresu- avizado da curva. Já na Figura 16.2 (B), temos um número maior de classes e, portanto, um comportamento subsuavizado da curva. Dessa forma, podemos observar importância do parâmetro h na estimação da curva de probabilidade,dado que para diferentes valores desse parâmetro, temos diferentes formatos de histogramas. A essa parâmetro damos o nome de parâmetro de suavização. Em regressão não paramétrica, esse parâmetro é muito utilizado em diversas abordagens e a compreensão do seu papel no contexto de histogramas é fundamental para o estudo desse tipo de regressão. Note como ficou mais simples, agora, entendermos o papel da ferramenta mais importante em regressão não paramétrica (o chamado suavizador), conforme alertamos no início desse capítulo. 45 5.6 Distribuições de probabilidade mais comuns 5.6.1 Distribuição Bernoulli Definicão 5.6.1. (Distribuição Bernoulli) Dizemos que uma variável aleatória segue uma distribuição de Bernoulli de parâmetro p, X ∼ Bernoulli(p), se ela asssume apenas os valores 0 ou 1. Sua função de probabilidade é dada por P(X = 0) = p e P(X = 1) = 1− p. Exemplo 5.6.1. Considere uma caixa com R bolas, sendo a amarelas e b = R− a brancas. Considerando que as bolas na caixa são idênticas e apresentam igual probabilidade de serem sorteadas, foram retiradas algumas delas (com reposição) e o objetivo do estudo é avaliar o resultado da primeira extração, sendo o evento de interesse definido pela variável aleatória X : a primeira bola extraída é amarela. Dessa forma, temos que: X = 1, a bola é amarela0, a bola é branca. Facilmente, podemos encontrar a probabilidade da primeira extração ser uma bola de cor amarela, que é dada por: P (X = 1) = a R . E, também, a probabilidade da primeira extração ser uma bola de cor branca, que é dada por: P (X = 0) = R− a R . 5.6.2 Distribuição Binomial Definicão 5.6.2. (Distribuição Binomial) Dizemos que uma variável aleatória segue uma distribuição de Binomial de parâmetros n e p, X ∼ Binomial(n, p), quando ela representa o número de sucessos obtidos com a realização de n ensaios Bernoulli independentes. Sua função de probabilidade é dada por P(X = x) = ( n x ) px(1− p)n−x, x = 0, 1, ..., n. (5.7) Exemplo 5.6.2. A probabilidade de um certo componente elétrico estar em condições operacionais satisfatórias é de 0,85. Em uma amostra de cinco componentes, calcula a probabilidade de se encontrar zero itens defeituosos. Solução à cargo do leitor. 46 5.6.3 Distribuição Poisson Definicão 5.6.3. (Distribuição Poisson) Dizemos que uma variável aleatória segue uma distribuição de Poisson de parâmetro λ, X ∼ Poisson(λ), se sua função de probabilidade é dada por P(X = x) = e −λλk k! , k = 0, 1, . . . . (5.8) Exemplo 5.6.3. O número de telefonemas que chegam à uma unidade de atendimento é modelado por um modelo de poisson com taxa de 2 ligações por minuto. Para uma minuto qualquer, calcule a probabilidade de ocorrer pelo menos uma ligação. Solução à cargo do leitor. 5.6.4 Distribuição Uniforme Definicão 5.6.4. (Distribuição Uniforme) Dizemos que uma variável aleatória segue uma distribuição uniforme no intervalo [a, b], X ∼ U [a, b], se sua função densidade de probabilidade é dada por: f(x) = 1 b− a , a ≤ x ≤ b, (5.9) com a e b parâmetros reais, sendo a < b. Vale ressaltar que a distribuição uniforme também é conhecida como distribuição retangular. Além disso, Se a = 0 e b = 1 temos a chamada distribuição uniforme padrão. A distribuição uniforme no intervalo [0,1] é usada para simulação de amostras aleatórias de uma determinada variável aleatória contínua X. Ela é usada como modelo probabilístico em situações nas quais temos certeza que intervalos reais de mesmo comprimento tenham a mesma chance de ocorrer, isto é, P (x∈[a, b]) = P (x∈[c, d]), desde que b− a = d− c. 5.6.5 Distribuição Exponencial A distribuição exponencial tem grande atuação na modelagem de problemas que descrevem tempos de vida, seja de indivíduos, produtos ou objetos. Funciona de modo análogo ao uso da distribuição geométrica no caso discreto. Definicão 5.6.5. (Distribuição Exponencial) Dizemos que uma variável aleatória segue uma distri- buição exponencial de parâmetro λ, X ∼ exp(λ), se sua função densidade de probabilidade é dada por: f(x) = λe−λx, I(0,∞)(x). (5.10) Uma das mais importantes leis de falhas é aquela cuja duração até falhar é descrita pela distribuição exponencial. Podemos caracterizá-la de muitas maneiras, mas, provavelmente, a maneira mais simples é supor 47 que a taxa de falhas é constante, isto é: λ(t) = f(t) S(t) = λ (5.11) Definicão 5.6.6. Seja T, a duração até falhar, uma variável aleatória contínua, que tome todos os valores não negativos. Então. T terá uma distribuição exponencial se, e somente se, tiver uma taxa de falhas constante. A propriedade que afirma que a distribuição exponencial não tem memória funciona no seguinte sentido: suponha que X represente o tempo de vida de algum componente. Suponha também que o componente tenha sobrevivido a ’a’ unidades de tempo de operação. Assim a probabilidade que o componente sobreviva a mais ’b’ unidades de tempo operação será a mesma que o componente tenha sobrevivido anteriormente a ’b’ unidades de tempo de operação. Simplesmente, a informação adicional é esquecida. Abaixo temos a prova dessa propriedade. P (x > a+ b|x > a) = P (x > b) (5.12) Prova: P (x > a+ b|x > a) = P (x > a+ b∩x > a) x > a = P (x > a+ b) x > a = S(a+ b) S(a) = e −λ(a+b) e−λa = e −λae−λb e−λa = e−λb = P (x > b) Suponha que a falha em um equipamento tenha ocorrido devido à algum fator aleatório. Seja Xt a variável que representa o número de tais perturbações ocorridas em um determinado intervalo de tempo t, com Xt > 0, então podemos admitir que tal situação se trata de um Processo de Poisson. Quer dizer, para qualquer t fixado a variável aleatória Xt tem distribuição de Poisson com parâmetro αt. Sendo T a duração até falhar, então T > t ocorre se, e somente se, não ocorrer perturbação entre [0,t]. Issoacontecerá se, e somente se, Xt = 0. Por isso F (t) = 1− P (Xt = 0) = 1− e−αt Encontramos, portanto, que a "causa"da taxa de falhas acima envolve uma lei de falhas exponencial. Comentário: Podemos generalizar o caso acima se desejarmos que a pertubarção ocorra com determinada probabilidade. Agora, T > t se, e somente se, durante [0,t] nenhuma perturbação ocorra, ou uma perturbação ocorra e não resulte em falha, ou duas perturbações ocorram e não resultem em falha, e assim por diante, de modo que possamos contar o número de pertubações e que tenhamos a probalidade disso acontecer, temos F (t) = 1− [ e−αt + (αt)e−αtp+ (αt)2 e −αt 2! p 2 + ... ] = 1− e−α(1−p)t Note que quando o valor do parãmetro b é igual a 1, a distribuição Weibull se reduz a distribuição exponencial de parâmetro a. 48 5.6.6 Distribuição Normal Definicão 5.6.7. (Distribuição Normal) Dizemos que uma variável aleatória segue uma distribuição Normal (ou gaussiana) de parâmetros µ e σ2, X ∼ N (µ, σ2), se sua função densidade de probabilidade é dada por: f(x) = 1√ 2πσ2 exp (x− µ)2 2σ2 I(−∞,∞)(x). (5.13) Exemplo 5.6.4. A concentração (em ppm, partícula por milhão) de um poluente em água liberada por uma fábrica tem distribuição N (8; 1, 5). Qual a probabilidade de que num dado dia a concentração do poluente exceda o limite regulatório de 9 ppm? Solução à cargo do leitor. 5.6.7 Distribuição Weibull Definicão 5.6.8. (Distribuição Weibull) Dizemos que uma variável aleatória contínua x tem distri- buição Weibull de parâmetros a e b, X ∼ Weibull(a, b), se sua função densidade de probabilidade é da forma: f(x) = abxb−1e−axb (5.14) A distribuição exponencial é um caso particular da distribuição Weibull. Isso ocorre quando a função densidade de probabilidade apresentada tem o parámetro b = 1. Nesse caso, a densidade se reduz à distribuição exponencial de parâmetro a. A distribuição Weibull vem sendo frequentemente usada em estudos biomédicos e industriais (análise de sobrevivência e confiabilidade, respectivamente). Devido ao seu parâmetro de forma, tal distribuição tem grande popularidade em aplicações. 5.6.8 Distribuição Gama Definicão 5.6.9. (Distribuição Gama) Dizemos que uma variável aleatória segue uma distribuição Gama de
Compartilhar