Baixe o app para aproveitar ainda mais
Prévia do material em texto
MBA em Ciência de Dados ICMC/USP - São Carlos Estatística para Iniciantes Aula 05 – Teoria Francisco Louzada Neto ICMC/USP louzada@icmc.usp.br REGRESSÃO LINEAR SIMPLES 1 ESTRUTURAS DESCRITIVAS 2 SEGMENTAÇÃO DE DADOS 3 COMPARAÇÕES ESTATÍSTICAS 4 ESTIMAÇÃO 5 REGRESSÃO LINEAR SIMPLES Resumo do Tópico Contexto Coeficiente de Correlação Linear de Pearson Correlação e Causalidade Coeficiente de Determinação Nova Contextualização O Melhor Ajuste Linear A Perspectiva Estatística Estimativa dos Coeficientes Diagnóstico do Modelo Exposição do Modelo Ajustado Resumo do Tópico Resumo do Tópico As su nt o Ab or da do Neste tópico apresentaremos A Perspectiva Estatística sobre uma técnica muito utilizada na matemática e na computação, uma técnica que busca estudar a relação linear entre duas variáveis. Veremos que, com um modelo construído e bem ajustado, além de fazer- mos predições de novas observações, estatisticamente validamos a forma e quantificamos a força da associação entre duas variáveis. Ob je tiv os Ao final deste tópico, o aluno será capaz de desenvolver um modelo para entender a relação linear entre as duas variáveis, avaliar as suposições do modelo ajustado e fazer predições com o modelo ajustado. 3/79 Contextualizando Quando uma única característica é aferida em cada unidade amostral, utilizamos técnicas de análise univariada, para descrever, modelar e en- tender o comportamento probabilístico dessa característica; Se mais do que uma característica é aferida, precisamos fazer uso de ferramentas de análise multivariada; Neste momento, vamos voltar nossa atenção ao estudo de dados bi- variados, isto é, dados em que cada observação corresponde a um par ordenado (X, Y); Vamos estudar situações em que existe o interesse de estudar a associ- ação entre duas variáveis aleatórias, X e Y. 4/79 Contextualizando Aqui, estudaremos algumas ferramentas de análise, com o intuito de identificar essa associação e, em algumas vezes, quantificá-la; A presença ou ausência dessa associação pode ser investigada sob dois pontos de vista: Quantificando a força dessa relação: correlação; Explicitando a forma dessa relação: regressão. 5/79 Apresentação e Registro O registro pode ser feito em uma tabela de duas colunas, como: Unidade Observacional X Y 1 x1 y1 2 x2 y2 ... ... ... n − 1 xn−1 yn−1 n xn yn ou ainda, Unidade Observacional Variável 1 2 · · · n − 1 n X x1 x2 · · · xn−1 xn Y y1 y2 · · · yn−1 yn 6/79 Apresentação e Registro Alguns exemplos poderiam ser: Em um estudo experimental, podemos ter o registro da altura (X) e peso (Y), medidos em indivíduos amostrados; Em uma pesquisa eleitoral, pode-se registrar a preferência política (X) e a religião (Y), dos indivíduos amostrados; Em uma cultura de células tratadas com concentrações distintas de uma droga, podemos registrar: a taxa de crescimento (X) e a concentração da droga (Y), em cada repetição experimental. 7/79 Apresentação e Registro Quando lidamos com duas variáveis quantitativas, um bom ponto de partida para avaliarmos a existência de uma associação entre elas é o gráfico de dispersão. NOTA Já estudamos a construção de um gráfico como esse, agora vamos enten- der outras questões que podem ser extraídas dele. 8/79 Exemplo: Gráfico de Dispersão Imagine que cada aluno da turma forneceu duas informações: X: número de horas estudadas na semana durante o semestre; Y: média geral ao fim do semestre. REGISTROS X Y X Y X Y 18 5.9 14 5.4 17 5.9 16 6.7 17 7.2 16 7.6 22 7.4 14 6.3 14 5.9 27 9.0 19 7.2 29 8.9 15 6.2 20 5.8 30 9.3 28 8.9 10 4.7 30 9.6 18 7.1 28 8.5 23 8.2 19 6.0 25 7.5 26 3.5 22 8.4 18 6.3 22 7.8 30 9.8 19 6.1 REPRESENTAÇÃO GRÁFICA 4 6 8 10 10 15 20 25 30 Número médio de horas semanais em estudo M éd ia g er al n o se m es tr e 9/79 Interpretação Os 29 registros são plotados como pontos no eixo coordenado. Cada ponto representa o número de horas semanais de estudo e a média geral no semestre de um aluno específico. É razoável entendermos que o número de horas de estudo está, de al- guma forma, associado à média geral no semestre. Analisamos o gráfico de dispersão em busca de um padrão no “caminho percorrido” pelos pontos. A identificação de um padrão nos diz que existe uma “descrição mate- mática” que associa as duas variáveis. Essa associação pode ser quantificada com uma medida denominada correlação. 10/79 Interpretação No gráfico desse exemplo existe um padrão visual evidente. Os pontos (pelo menos a maioria deles) parecem estar “espalhados” de maneira aleatória em um “corredor” que começa na parte inferior es- querda do eixo coordenado e segue para a parte superior direita. 4 6 8 10 10 15 20 25 30 Número médio de horas semanais em estudo M éd ia g er al n o se m es tr e 11/79 Interpretação A esse tipo de comportamento, podemos dar vários nomes como: Associação positiva; Correlação positiva; Associação direta. Na prática, poderíamos dizer que a média geral no semestre é positiva- mente correlacionada ao número de horas semanais de estudo. 12/79 Observação Existe um registro bastante discrepante dos demais. De algum modo, ele não é representado pelo comportamento que descrevemos. Embora tenha estudado por muitas horas durante a semana, esse es- forço não se refletiu na média geral, como esperávamos. (26; 3,5) 4 6 8 10 10 15 20 25 30 Número médio de horas semanais em estudo M éd ia g er al n o se m es tr e Essa ocorrência pode ter muitas causas. Poderia ser um exagero que acabou ultrapassando os li- mites desse aluno, um erro de coleta, dentre outras possibili- dades. Seria necessário investigar me- lhor. 13/79 Interpretação No caso dos demais registros, podemos traçar mentalmente uma reta imaginária que acompanha o comportamento geral dos pontos. Isto é, imaginamos que o “caminho percorrido” pelos pontos pode ser descrito matematicamente por uma equação da reta. 4 6 8 10 10 15 20 25 30 Número médio de horas semanais em estudo M éd ia g er al n o se m es tr e 14/79 Relação entre Quantitativa vs. Quantitativa Quando buscamos descrever a relação entre duas variáveis representa- das em um gráfico de dispersão comumente damos uma atenção espe- cial a aspectos como: 1. forma: linear ou não linear; 2. direção: cresce, decresce, oscila, etc.; 3. força: forte, moderada ou fraca; 4. observações que fogem do padrão imaginado. 15/79 Exemplo: Força e Direção Relação inexistente (i) Relação inexistente (ii) Relação inexistente (iii) Relação linear, negativa, fraca Relação linear, negativa, moderada Relação linear, negativa, forte Relação linear, positiva, fraca Relação linear, positiva, moderada Relação linear, positiva, forte 16/79 Interpretação Note que a força da associação está intimamente relacionada com a dispersão observada nos registros. Entretanto, especialmente no caso de uma relação linear, a direção em que a ela se expressa também nos diz muito sobre a força. O primeiro gráfico da terceira linha, ilustra uma nuvem dispersa de pon- tos em que não somos capazes de identificar qualquer padrão que rela- cione as variáveis que deram origem aos gráficos. Os dois últimos gráficos esboçam as situações extremas em que a incli- nação da reta imaginária é nula (no caso horizontal), ou infinita (no caso vertical), em ambas as situações, também não é possível identificar um padrão. 17/79 Exemplo: Forma, Força e Direção Relação não−linear, fraca Relação não−linear, moderada Relação não−linear, forte Relação não−linear, negativa, fraca Relação não−linear, negativa, moderada Relação não−linear, negativa, forte Relação não−linear, positiva, fraca Relação não−linear, positiva, moderada Relação não−linear, positiva, forte 18/79 Interpretação Quando tratamos da característica forma há uma gama enorme de pos- sibilidades. Nesse caso, estendemos a ideia do nosso “corredor” imagi- nário para qualquer outro formato além do guiado por uma reta. Existe também a possibilidadede uma combinação entre os efeitos de forma e direção. Particularmente, entendemos o conceito de direção em termos do “comportamento global” observado. Note as duas linhas inferiores dos gráficos. Nelas percebemos compor- tamentos não-lineares que, em geral, decrescem (na linha central) ou crescem (na linha inferior). 19/79 Coeficiente de Correlação Linear de Pearson Até o momento, fizemos apenas especulações visuais sobre a força, forma e direção da associação entre duas variáveis, X e Y. Entretanto, em casos cuja forma é descrita por uma equação da reta, isto é, a função matemática que descreve o comportamento de Y é linear em X, podemos quantificar a força da associação. Uma ferramenta precisa para medir a correlação entre duas variáveis, é o Coeficiente de Correlação Linear de Pearson. Esse coeficiente é utili- zado para quantificar a força da relação entre duas variáveis. 20/79 Coeficiente de Correlação Linear de Pearson Para as variáveis X e Y, o coeficiente é denotado por rxy. rxy é uma quantidade que varia no intervalo [−1, 1], isto é −1 ≤ rxy ≤ 1. Calcula-se utilizando a seguinte expressão: rxy = 1 n − 1 n∑ i=1 ( xi − x̄ sx )( yi − ȳ sy ) , em que • n é o número de registros coletados; • sx é o desvio-padrão dos valores x; • sy é o desvio-padrão dos valores y; • x̄ é a média dos valores x; • ȳ é a média dos valores y. 21/79 Observação O uso do coeficiente rxy tem limitações importantes. Uma vez que rxy mede a força de uma relação linear, não é apropriado calcular rxy para dados com associações não-lineares. É importante saber que valores discrepantes podem distorcer o valor de rxy. Como consequência, se uma amostra de duas variáveis linearmente associadas contém um outlier, então rxy não será uma medida confiável da força dessa relação. Em resumo, o cálculo de rxy é aplicável a conjuntos de dados bivariados, com associação sabidamente linear e que não têm outliers. 22/79 Observação A força da assocociação está relacionada com a proximidade dos extre- mos do intervalo [−1, 1]. −1 0 1 Forte Fraca CORRELAÇÃO NEGATIVA ForteFraca CORRELAÇÃO POSITIVA Tendo isso em mente, é uma boa prática esboçar um gráfico de dispersão para verificar essas ressalvas antes de calcular rxy. Fazer uso de um gráfico de dispersão também é útil porque nos permite especular qual pode ser o valor de rxy antes de calculá-lo. 23/79 Exemplo As rendas anuais, em milhares de reais (Y) de 21 profissionais foram re- gistradas, assim como o tempo, em anos, dedicado aos estudos (X). Os dados são mostrados no tabela a seguir. X Y X Y 6 22.6 7 26.5 11 62.3 5 16.7 3 7.9 9 39.9 2 17.7 9 30.8 7 51.6 3 19.1 5 21.5 8 32.0 4 19.3 4 2.2 10 38.6 10 47.4 9 38.6 12 49.4 7 35.9 14 68.0 6 43.3 Construa um gráfico de disper- são para os dados. Comente sobre a correlação en- tre as rendas anuais e a escolari- dade dos profissionais e estime o valor de rxy, use-o para comen- tar sobre essa associação. 24/79 Exemplo 0 20 40 60 5 10 Tempo (em anos) dedicados aos estudos R en da a nu al ( em m ilh ar es d e re ai s) Os dados mostram o que pa- rece ser uma associação li- near, de força moderada. 25/79 Exemplo Precisamos calcular as médias e desvios-padrões amostrais para X e Y. x̄ = 6 + 11 + · · ·+ 12 + 1421 ≈ 7,1905 sx = √ (6 − 7,1905)2 + · · ·+ (14 − 7,1905)2 20 ≈ 3,2034 ȳ = 22,6 + 62,3 + · · ·+ 49,4 + 68,021 ≈ 26,8381 sy = √ (6 − 7,1905)2 + · · ·+ (14 − 7,1905)2 20 ≈ 14,2846 26/79 Exemplo Agora, dado que x̄ = 7,1905, sx = 3,2034, ȳ = 26,8381 e sy = 14,2846, podemos calcular o coeficiente rxy. rxy = 1 n − 1 n∑ i=1 ( xi − x̄ sx )( yi − ȳ sy ) = 1 20 [( 6 − 7,1905 3,2034 )( 22,6 − 26,8381 14,2846 ) + · · ·+ ( 14 − 7,1905 3,2034 )( 68,0 − 26,8381 14,2846 )] ≈ 0,8154 27/79 Exemplo O coeficiente de correlação linear de Pearson é dado por rxy = 0,8154, o que indica a existência de uma forte associação linear entre a renda e escolaridade. Dizemos que, quanto maior for a escolaridade, esperamos que a renda anual do profissional também seja maior. 28/79 Correlação e Causalidade No exemplo anterior, obtivemos rxy = 0,8154. Embora tenhamos o “di- reito” de dizer que existe um forte associação entre a renda anual e a escolaridade, não podemos afirmar que a escolaridade faz com que a renda de um profissional seja alta (relação de causa-efeito). A escolaridade pode ajudar a ter uma renda maior, mas muitos outros fatores entram em jogo; por exemplo, disciplina, boa oratória, pensa- mento empreendedor e assim por diante. Desse modo, a identificação de um alto grau de correlação entre duas variáveis fornece questionamentos e sinaliza a necessidade de uma in- vestigação mais detalhada, como um procedimento experimental, que nos retorna respostas. 29/79 Interpretação A correlação não nos dá qualquer base para afirmar que uma variável causa ou não valores particulares em outra variável. 30/79 Coeficiente de Determinação O coeficiente de determinação, denotado por r2xy é calculado ao tomar- mos o quadrado do Coeficiente de Correlação Linear de Pearson, rxy. O valor do coeficiente de determinação varia no intervalo [0, 1]; Isto é, 0 ≤ r2xy ≤ 1. 1. O coeficiente de determinação é útil pois ele nos diz a proporção de variação em uma variável que pode ser explicada pela variação na outra. 2. O coeficiente de determinação fornece uma medida de quão bem a regra linear que associa duas variáveis prevê o valor de Y quando temos acesso somente ao valor de X. 31/79 Exemplo Considere o exemplo da associação entre a renda anual e a escolaridade dos profissionais. Sabendo que o coeficiente de correlação é aproxima- damente igual a 0,8154, que informação adicional o coeficiente de deter- minação nos traz? Temos que r2xy = (rxy)2 ≈ (0,8154)2 ≈ 0,6649 = 66,49%. Isso nos dá um indicativo de que em torno de 66,49% da variabilidade da renda anual pode ser explicada com auxílio da variação observada na escolaridade. Podemos afirmar que a escolaridade é um fator importante para prever- mos a renda anual do profissional. 32/79 Observação Notem que não falamos nada sobre os métodos que hipotetizam sobre a forma da associação. Os Modelos de Regressão se saem muito bem nesse quesito! 33/79 Nova Contextualização A Regressão Linear Simples é um método estatístico que estuda e su- mariza relações entre duas variáveis contínuas (quantitativas): Uma das variáveis, denotada por x, é dita ser a variável preditora, explicativa, ou ainda, variável independente. A outra variável, denotada por y, é conhecida como variável res- posta, ou variável dependente. NOTA – O termo “simples” nos diz que o estudo é realizado sobre apenas uma variável preditora. Na situação em que mais do que uma variável preditora é estudada, utilizamos o termo “múltipla”. 34/79 Nova Contextualização Existem dois tipos de relação, que podem ser apresentadas por duas variáveis: determinística e estatística. Nossos estudos se concentrarão nesta última. Relação Determinística A equação que relaciona as duas variáveis descreve exatamente o com- portamento de uma com a variação da outra. EXEMPLOS A relação entre graus Celcius (x) e Fahrenheit (y): y = 95 x + 32 A relação entre o raio (x) e a circunferência (y): y = 2πx 35/79 Nova Contextualização Existem dois tipos de relação, que podem ser apresentadas por duas variáveis: determinística e estatística. Nossos estudos se concentrarão nesta última. Relação Estatística A relação entre as variáveis não é perfeita. A equação que relaciona as duas variáveis não relaciona valores de x a valores exatos de y. EXEMPLOS Altura e peso: Quando a altura aumenta, esperamos que o peso também aumente, mas não sabemos exatamente quanto; Percentual de álcool no sangue e o consumo de álcool: Quando consumimos álcool esperamos que seu percentual no sangue tam- bém aumente, mas não sabemos exatamente quanto. 36/79 Ex. ( Seguros ): Gráfico de Dispersão Considere 10 registros do par de variáveis (x, y), em que: Valordo seguro do automóvel em reais (y); e Valor do automóvel em milhares de reais (x). (62, 2032); (64, 1936); (67, 2272); (68, 2512); (69, 2592); (72, 2496); (72, 2704); (73, 2640); (72, 2896); (76, 3328) Observe o gráfico de dispersão para essas duas variáveis. 37/79 Ex. ( Seguros ): Gráfico de Dispersão 2000 2500 3000 64 68 72 76 Valor do veículo em milhares de reais (x) V al or a nu al d o se gu ro e m r ea is ( y) 38/79 Observação Poderíamos nos antecipar, afirmando que quanto maior for o valor do veículo, maior será o valor do seguro? O gráfico de dispersão embasa essa suposição! O gráfico exibe uma tendência, é fato, e ele também exibe uma disper- são, o que nos dá a percepção de que o valor do seguro não será de- terminado exatamente pelo valor do veículo. Lembrem-se, estamos li- dando com uma relação estatística e não determinística! É razoável pensarmos que o aumento no valor do seguro é diretamente proporcional ao aumento do valor do veículo? Se isso for verdade, essa relação poderia ser bem descrita pela equação da reta y = β0 + β1x. 39/79 O melhor ajuste linear Qual dessas retas você acredita ser uma boa representação para a relação que vemos? y = − 3431.66 + 86.08 x y = − 3431.66 + 84.93 x 2000 2500 3000 64 68 72 76 Valor do veículo em milhares de reais (x) V al or a nu al d o se gu ro e m r ea is ( y) 40/79 O melhor ajuste linear Como somos capazes de identificar a reta que melhor se ajusta aos dados que temos? Para isso, vamos precisar definir algumas notações importantes! Notações usuais • yi denota a resposta observada no i-ésimo registro; • xi denota o preditor observado no i-ésimo registro; • ŷi denota a resposta predita, ou valor esperado, para o i-ésimo registro. Nesse contexto, a reta ajustada seria denotada por ŷi = β0 + β1xi, com i = 1, . . . ,n. 41/79 Ex. ( Seguros ): Retas Propostas Vamos avaliar as retas propostas anteriormente e, com propósito ilus- trativo, note o quinto registro que observamos (x5, y5) = (69, 2592). ŷ = − 3431.66 + 86.08 x ŷ = − 3431.66 + 84.93 x 2000 2500 3000 64 68 72 76 Valor do veículo em milhares de reais (x) V al or a nu al d o se gu ro e m r ea is ( y) 42/79 Ex. ( Seguros ): Retas Propostas Se utilizássemos ambas as retas para “prever” o valor de y5, obteríamos como resultados: ŷ5 ≈ 2508,2 e ŷ5 ≈ 2428,8. ŷ = − 3431.66 + 86.08 x ŷ = − 3431.66 + 84.93 x 2000 2500 3000 64 68 72 76 Valor do veículo em milhares de reais (x) V al or a nu al d o se gu ro e m r ea is ( y) 43/79 Ex. ( Seguros ): Retas Propostas Obviamente, as predições não foram perfeitas, existe um erro de predi- ção associado a elas. De fato, erramos 83,8 e 163,2, de acordo com a reta utilizada e para esse ponto, especificamente. 83.8163.2 ŷ = − 3431.66 + 86.08 x ŷ = − 3431.66 + 84.93 x 2000 2500 3000 64 68 72 76 Valor do veículo em milhares de reais (x) V al or a nu al d o se gu ro e m r ea is ( y) 44/79 Observação Note que, se fixarmos uma das retas, o erro de predição depende de cada registro observado. Se o valor anual do seguro de um carro que vale R$ 69000,00 fosse des- conhecido por nós, poderíamos utilizar uma das equações para predizer esse valor. Nesse caso, o tamanho do erro de predição dependeria da reta escolhida. Erro de Predição Definimos como erro de predição, a diferença entre o que observamos e o que esperávamos observar, com base em nossa predição. εi = yi − ŷi. 45/79 Observação Com esse contexto em mente, podemos vislumbrar um critério apropri- ado para a escolha da melhor equação, isto é, o melhor ajuste linear. O Melhor Ajuste Linear Dizemos que a reta que se ajusta melhor aos dados é aquela em que os “n” erros de predição (um para cada registro observado), são tão peque- nos quanto possamos ter. Muito bem, o critério está idealizado, precisamos organizar essas ideias matematicamente! 46/79 O melhor ajuste linear Uma maneira de pensar em todos os erros de predição simultanea- mente, é pensar na soma de todos eles (particularmente, o quadrado deles), isto é Q = n∑ i=1 ε2i = n∑ i=1 (yi − ŷi)2 = n∑ i=1 (yi − β0 − β1xi)2. Se a equação que desejamos ajustar tem a forma ŷi = β0 + β1xi, preci- samos encontrar os valores de β0 e β1 que tornam mínima a função Q. Esse procedimento é conhecido como Critério de Mínimos Quadrados. 47/79 Observação Note que, se não tomarmos o quadrado dos erros de predição, ao so- marmos erros positivos e negativos, invariavelmente a soma resultaria em zero. Além disso, a ideia de tomar o quadrado entre “observado” e “esperado” é bem conhecida por nós, a própria variância é calculada desse modo, e tem muitos pontos positivos nisso! Agora que nos familiarizamos com o critério dos Mínimos Quadrados, vamos retornar às nossas retas propostas. 48/79 Ex. ( Seguros ): Escolha entre as Retas À luz do que foi dito anteriormente, qual dessas retas seria a melhor escolha? y = − 3431.66 + 86.08 x y = − 3431.66 + 84.93 x 2000 2500 3000 64 68 72 76 Valor do veículo em milhares de reais (x) V al or a nu al d o se gu ro e m r ea is ( y) 49/79 Ex. ( Seguros ): Escolha entre as Retas Vamos sistematizar nossa escolha: x y ŷ εi ε2 ŷ εi ε2 62 2032 1905.6 126.4 15979.6 1834.3 197.7 39089.4 64 1936 2077.8 -141.8 20095.6 2004.2 -68.2 4645.7 67 2272 2336.0 -64.0 4097.7 2259.0 13.0 169.0 68 2512 2422.1 89.9 8082.4 2343.9 168.1 28258.3 69 2592 2508.2 83.8 7025.3 2428.8 163.2 26623.6 72 2496 2766.4 -270.4 73136.1 2683.6 -187.6 35207.6 72 2704 2766.4 -62.4 3898.4 2683.6 20.4 414.7 73 2640 2852.5 -212.5 45165.4 2768.6 -128.6 16530.6 72 2896 2766.4 129.6 16786.6 2683.6 212.4 45098.1 76 3328 3110.8 217.2 47186.4 3023.4 304.6 92796.0 SOMA 241453.5 288834.0 50/79 Observação Tendo como base o critério dos mínimos quadrados, podemos concluir que a equação que melhor se ajusta aos dados é ŷ = −3431.66 + 86.08x ? Como vimos, a soma do quadrado dos erros para a reta vermelha doi igual a 241453.5, enquanto para a reta verde foi 288834.0. Mas o que podemos dizer sobre qualquer outra reta, que sequer foi con- siderada? 51/79 O melhor ajuste linear A proposta, então, é avaliar dentre todas as infinitas retas possíveis, aquela que minimiza a soma de erros ao quadrado! Para nos poupar de contas, alguém já fez esse trabalho por nós, e obteve expressões fechadas para os dois parâmetros que indexam uma equa- ção da reta, o intercepto e a inclinação (ou coeficiente angular). 52/79 O melhor ajuste linear Considerando a função Q, definida anteriormente Q = n∑ i=1 (yi − β0 − β1xi)2, Estimadores dos coeficientes Os valores (β̂0, β̂1) que minimizam Q, dentre todos os possíveis valores (β0, β1) são expressos por β̂1 = ∑n i=1(xi − x)(yi − y)∑n i=1(xi − x)2 e β̂0 = y − β1x. 53/79 Observação Em muitos momentos, dizemos que a equação resultante, ŷi = β0 +β1xi, é conhecida como reta de regressão de mínimos quadrados. Notem que, para estabelecer esse critério, não fizemos qualquer supo- sição sobre nossos dados, além daquela que diz que o relacionamento entre y e x pode ser expresso na forma de uma reta. Em um contexto prático, não nos preocupamos com as fórmulas que determinam β̂0 e β̂1. Eles serão calculados computacionalmente. 54/79 Ex. ( Seguros ): Estimativas dos coeficientes Uma saída usual dos softwares apresenta como resultado, pelo menos, duas informações: a estimativa pontual dos coeficientes e o respectivo erro-padrão (no estrito sentido que temos estudado, falaremos sobre isso adiante). Estimativa Erro-padrão Intercepto -3431.66 929.67 Inclinação 85.9347 13.353 Com esses resultados, podemos fazer algumas inferências bem interes- santes! 55/79 Que informações extraímos desse modelo? Muito embora nós tenhamos visto como os coeficientes da regressão podem ser estimados, ainda não conversamos sobre o que podemos aprender com eles! Uma das coisas que eles nos possibilitam, e que já falamos brevemente, é a realizaçãode predições de respostas futuras. Esse talvez seja o uso mais comum e vem de maneira direta: O valor anual médio do seguro de carros que valem R$ 69000,00, é dado por: ŷ ≈ −3431.66 + 85.93 × 69 ≈ 2497.83. O valor anual médio do seguro de carros que valem R$ 60000,00, é dado por: ŷ ≈ −3431.66 + 85.93 × 60 ≈ 1724.42. Entretanto, vamos introduzir um pouco da Perspectiva Estatística, com isso conseguiremos extrair ainda mais informações! 56/79 A Perspectiva Estatística µY | x = E(Y | x) = − 3431.663 + 85.935 x Yi = − 3431.663 + 85.935 x + εi 2000 2500 3000 64 68 72 76 Valor do veículo em milhares de reais (x) V al or a nu al d o se gu ro e m r ea is ( y) 57/79 A Perspectiva Estatística Do ponto de vista estatístico, nós entendemos que a reta de regressão estimada representa o valor médio da resposta aleatória Y, condicio- nada a um nível específico da variável preditora X, isto é, X = x. Nesse sentido, entendemos Y como uma variável aleatória e modelamos o seu valor esperado quando condicionado a um valor de X. Isto é µY|x = E(Y|x) = β0 + β1x, e, Yi = β0 + β1x + εi, com i = 1, . . . ,n. Vamos entender isso com mais atenção! 58/79 A Perspectiva Estatística Vamos focar em um grupo muito específico de veículos, uma subpopu- lação, particularmente daqueles que valem R$ 72000,00. Certamente podem existir muitos valores de seguros associados a esse mesmo valor de veículo. Mas o que o nosso modelo nos diria sobre isso. Vamos ver graficamente! 59/79 A Perspectiva Estatística 60/79 Observação Note que, nesse exemplo em particular, observamos medidas de erros distintas, para um mesmo nível da variável preditora. Reflita sobre o que chamamos de erro de predição (εi), esperamos que eles se concentrem em torno de zero, eventualmente “errando para cima” (e, portanto superestimando o valor do seguro) e outras vezes “errando para baixo” (o que acaba por subestimar o valor do seguro). A verdade, é que nós esperamos que eles variem de maneira aleatória em torno do zero e dentro de uma faixa que possamos conhecer. 61/79 A Perspectiva Estatística 62/79 A Perspectiva Estatística Esse entendimento é decorrente de algumas suposições bem específicas para esse modelo. Com essas suposições, nós introduzimos um padrão de aleatoriedade no modelo. Suposições do modelo de regressão linear simples A relação descrita entre x e y é linear nos coeficientes β0 e β1; Os erros de predição εi são independentes entre si; Os erros de predição εi, em cada valor da variável preditora xi, são normalmente distribuidos; Os erros de predição εi, em cada valor da variável preditora xi, apre- sentam a mesma variância (denotada por σ2). 63/79 Observação A introdução desse padrão de aleatoriedade tem consequência direta sobre a capacidade do modelo, e traz uma percepção muito interessante sobre como interpretamos os coeficientes β0 e β1. Algumas consequências diretas da suposição ε ∼ Normal(0, σ2), são: A variável resposta Y, condicionada aos valores de x, também deve ter distribuição normal, particularmente Y ∼ Normal(β0 + β1x; σ2); Os estimadores (β̂0, β̂1) de (β0, β1), têm distribuição normal. 64/79 Observação Essas questões nos permitem fazer inferência diretamente sobre a res- posta e também sobre o efeito quantificado da variável preditora. Tenham em mente que: β1 (a inclinação da reta de regressão) quantifica quão rápido o valor médio da variável resposta cresce ou decresce; β̂1 (o estimador de β1) carrega a noção de incerteza decorrente do processo aleatório; Utilizamos β̂1 para avaliar se a associação de x e Y é estatistica- mente significativa. Fazemos isso com base no erro-padrão obtido no processo de estimação! 65/79 Ex. ( Seguros ): Estimativa dos coeficientes A saída dos softwares também costumam apresentar outros resultados muito interessantes, particularmente, retornam os intervalos de confi- ança já calculados para os coeficientes estimados Vamos visualizar as saidas para o nosso exemplo: Intervalo de Confiança (95%) Estimativa Erro-padrão Estatística t Pr(> |t|) Limite Inferior Limite Superior Intercepto -3431.66 929.67 -3.69 0.006 -5575.49 -1287.84 Inclinação 85.93 13.35 6.44 <1e-3 55.14 116.73 Para o propósito deste curso, nossa atenção se voltará somente às colu- nas: Estimativa, Erro-Padrão e Intervalo de Confiança. Vocês entende- rão detalhes das demais saídas (inclusive outras não reportadas aqui) em outros cursos não introdutórios. 66/79 Interpretação Uma vez que o intervalo de confiança para β1 (a inclinação) contém va- lores estritamente positivos, [55.14, 116.73], entendemos que o valor do automóvel e o valor do seguro são diretamente associados. Nesse contexto, podemos inferir que o valor do preço do seguro, au- menta em torno de R$ 85.93 para cada aumento de R$ 1000.00 no valor do automóvel, variando entre R$ 55.14 e R$ 116.73 com 95% de confianca. 67/79 Observação Antes de interpretarmos o modelo ajustado, devemos nos atentar com algumas questões importantes. Lembrem-se que, ao fazermos a supo- sição de que ε ∼ Normal(0, σ2), uma série de implicações ocorreram. Para que possamos fazer uso das vantagens advindas dessa suposição, isto é, interpretar a reta de regressão sob A Perspectiva Estatística, pre- cisamos avaliar se as suposições que fizemos se verificam. Nesse sentido, utilizamos uma série de ferramentas que, em conjunto, nos dão indicativos sobre a qualidade e validade do nosso modelo, quando confrontado com as suposições feitas antes do ajuste. 68/79 Diagnóstico do Modelo Abordaremos nesse curso algumas ferramentas gráficas para a avalia- ção do modelo, mas é muito importante ressaltar que, utilizar apenas elas não é uma estratégia interessante. Em cursos posteriores, vocês terão contato com algumas ferramentas numéricas com embasamento estatístico para discriminar o comporta- mento esperado de um comportamento inadequado. 69/79 Diagnóstico: Resíduos vs. Obs., Estimativa e Preditora Nesses gráficos de dispersão, nós especulamos sobre o comportamento dos resíduos de modo geral, de acordo com o índice de observação, de acordo com os valores da variável resposta e de acordo com os valores da variável preditora. Esperamos observar resíduos aleatórios em torno de zero, variando em uma faixa fixa (cuja amplitude depende da estimativa de σ2, a variância dos erros) independente do índice, dos valores da variável resposta ou dos valores da preditora. Não esperamos ver qualquer tipo de padrão nesses gráficos. 70/79 Ex. ( Seguros ): Resíduos vs. Obs., Estimativa e Preditora 71/79 Interpretação Os três gráficos apresentam comportamentos aleatórios em torno do zero e concentram-se na área central, nos intervalos [−σ̂, σ̂] e [−2σ̂, 2σ̂]. Não há padrão perceptível em nenhum deles. Com isso, temos indicativos de que os resíduos são independentes e que apresentam variância constante. 72/79 Diagnóstico: Gráfico Quantil-Quantil Esse é um gráfico que compara a distribuição Normal teórica com as estimativas que fizemos do erro aleatório do modelo, os resíduos. Para isso, plotamos no eixo horizontal os quantis teóricos da distribui- ção normal e no eixo vertical os quantis observados (os resíduos orde- nados). Estabelecemos uma reta de referência e, como resultado, esperamos que os resíduos se concentrem em torno dela. Desvios muito expressi- vos nos dão indícios de não-normalidade. Essa ferramenta também traz várias outras informações interessantes, mas não serão abordadas nesse curso. 73/79 Ex. ( Seguros ): Gráfico Quantil-Quantil −200 −100 0 100 200 300 −1 0 1 Quantis Teóricos Q ua nt is A m os tr ai s 74/79 Interpretação Podemos ver que os pontos variam em torno da reta de referência, o que fornece um indicativo da normalidade dos resíduos. 75/79 Exposição do Modelo Ajustado Uma vez que o modelo apresente bons indicativos de sua qualidade, podemos, expor e interpretar a relação entre as variáveis x e Y. Nesse contexto, considerando o nosso exemplo, dizemos queo com- portamento médio do valor anual do seguro em reais pode ser expresso como uma função do valor do veículo em milhares de reais, e essa fun- ção é dada por Ŷ = −3431.66 + 85.94 x, para qualquer valor de x em [62, 76]. Dados os nossos resultados, dizemos também que a associação entre as duas variáveis é linear, direta e estatisticamente significativa. 76/79 Exposição do Modelo Ajustado 2000 2500 3000 64 68 72 76 Valor do veículo em milhares de reais (x) V al or a nu al d o se gu ro e m r ea is ( y) 77/79 Resumo do Tópico REGRESSÃO LINEAR SIMPLES ▶ Relações entre variáveis Forma Direção Força. ▶ Coeficiente de Correlação Linear de Pearson ▶ Correlação e Causalidade ▶ Coeficiente de Determinação ▶ Tipos de Relações entre variáveis Determinística Estatística. ▶ O Melhor Ajuste Linear ▶ A Perspectiva Estatística Suposições do Modelo Diagnóstico do Modelo Interpretação e Exposição do Modelo. 78/79 Obrigado! Espero que tenham aproveitado! 1 ESTRUTURAS DESCRITIVAS 2 SEGMENTAÇÃO DE DADOS 3 COMPARAÇÕES ESTATÍSTICAS 4 ESTIMAÇÃO 5 REGRESSÃO LINEAR SIMPLES ESTRUTURAS DESCRITIVAS SEGMENTAÇÃO DE DADOS COMPARAÇÕES ESTATÍSTICAS ESTIMAÇÃO REGRESSÃO LINEAR SIMPLES Resumo do Tópico Contexto Coeficiente de Correlação Linear de Pearson Nova Contextualização O Melhor Ajuste Linear A Perspectiva Estatística Resumo do Tópico Obrigado! Espero que tenham aproveitado! 2.StepRight: 2.StepLeft: anm2: 2.2: 2.1: 2.0: 1.StepRight: 1.StepLeft: anm1: 1.8: 1.7: 1.6: 1.5: 1.4: 1.3: 1.2: 1.1: 1.0: 0.StepRight: 0.StepLeft: anm0: 0.3: 0.2: 0.1: 0.0:
Compartilhar