Baixe o app para aproveitar ainda mais
Prévia do material em texto
Matemática, Probabilidade e Estatística banco do brasil Regressão, Tenências, Extrapolações e Interpolações Livro Eletrônico JOSIMAR PADILHA Professor do Gran Cursos Online. Ministra aulas presenciais, telepresenciais e online de Matemá- tica Básica, Raciocínio Lógico, Matemática Finan- ceira e Estatística para processos seletivos em concursos públicos estaduais e federais. Além disso, é professor de Matemática e Raciocínio Lógico em várias faculdades do Distrito Federal. É servidor público há mais de 20 anos. Autor de diversas obras e palestrante. 3 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha SUMÁRIO Estatística – Correlação e Regressão Linear Simples ........................................4 Correlação Linear Simples ............................................................................4 Regressão Linear Simples ..........................................................................24 Questões de Concurso ...............................................................................30 Gabarito ..................................................................................................35 Gabarito comentado .................................................................................36 4 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha ESTATÍSTICA – CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES Neste módulo, serão apresentados métodos para resolução de questões de con- cursos públicos relacionados a problemas envolvendo o conteúdo de estatística, relacionados abaixo: 1. REGRESSÃO, TENDÊNCIAS, EXTRAPOLAÇÕES E INTERPOLAÇÕES; TABE- LAS DE DISTRIBUIÇÃO EMPÍRICA DE VARIÁVEIS E HISTOGRAMAS. Propõe-se a desenvolver, gradualmente, o raciocínio criativo, com aplicação de conceitos e propriedades, promovendo maior independência na busca de soluções de problemas, aprendendo a interpretar tais questões por meio da prática e aplica- ção de métodos que facilitarão na conclusão das questões. De uma maneira clara, simples e bem objetiva iremos aprender como a banca examinadora exige o assunto indicado nesta aula. O conteúdo deste módulo é de suma importância, pois trata assuntos cobrados nas provas de concursos públicos pela banca CESGRANRIO. Correlação Linear Simples Para começarmos, temos que o coeficiente de correlação de Pearson não tem esse nome por acaso. É comum atribuir exclusivamente a Karl Pearson o desen- volvimento dessa estatística, no entanto, como bem lembrou Stanton (2001), a origem desse coeficiente remonta o trabalho conjunto de Karl Pearson e Francis Galton (Stanton, 2001: 1). Garson (2009) afirma que correlação “é uma medida de associação bivariada (força) do grau de relacionamento entre duas variáveis”. Para Moore (2007), “a correlação mensura a direção e o grau da relação linear entre 5 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha duas variáveis quantitativas” (Moore, 2007: 100/101). Em uma frase: o coeficiente de correlação de Pearson (r) é uma medida de associação linear entre variáveis. Sua fórmula é a seguinte: Dois conceitos são chaves para entendê-la: “associação” e “linearidade”. Afinal, o que significa dizer que duas variáveis estão associadas? Em termos estatísticos, duas variáveis se associam quando elas guardam semelhanças na distribuição dos seus escores. Mais precisamente, elas podem se associar a partir da distribuição das frequências ou pelo compartilhamento de variância. No caso da correlação de Pearson (r), vale esse último parâmetro, ou seja, ele é uma medida da variância compartilhada entre duas variáveis. Por outro lado, o modelo linear supõe que o aumento ou decremento de uma unidade na variável X gera o mesmo impacto em Y. Em termos gráficos, por relação linear entende-se que a melhor forma de ilus- trar o padrão de relacionamento entre duas variáveis é através de uma linha reta. Portanto, a correlação de Pearson (r) exige um compartilhamento de variância e que essa variação seja distribuída linearmente (Revista Política Hoje, Vol. 18, n. 1, 2009). Em pesquisas e até mesmo no dia a dia, frequentemente, procura-se verificar se existe relação entre duas ou mais grandezas, que serão denominadas em nosso estudo como variáveis, isto é, saber se as alterações sofridas por uma das variáveis são acompanhadas, influenciadas por alterações nas outras. Vejamos, por exemplo, peso versus idade, consumo versus renda, altura versus peso, etc. 6 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha O termo correlação significa relação em dois sentidos (co + relação) e é usado em estatística para designar a intensidade de força que mantém unidos (relacio- nados) dois conjuntos de valores. Quanto à verificação da existência e do grau de relação entre as variáveis, será de responsabilidade do estudo da correlação linear por intermédio de um coeficiente, que veremos mais à frente, denominado coefi- ciente de Pearson. Uma vez caracterizada esta relação, procura-se descrevê-la sob forma matemá- tica, através de uma função do 1º grau. A estimação dos parâmetros dessa função matemática é o objeto da regressão. Os pares de valores das duas variáveis poderão ser colocados num diagrama carte- siano chamado “diagrama de dispersão”. A vantagem de construir um diagrama de dispersão está em que, muitas vezes sua simples observação já nos dá uma ideia bastante boa de como as duas variáveis se relacionam. Em teoria da probabilidade e estatística, correlação, também chamada de co- eficiente de correlação, indica a força e a direção do relacionamento linear entre duas variáveis aleatórias. No uso estatístico geral, correlação ou correlação se re- fere à medida da relação entre duas variáveis, embora correlação não implique CAUSALIDADE. Neste sentido geral, existem vários coeficientes medindo o grau de correlação, adaptados à natureza dos dados. Vários coeficientes são utilizados para situações diferentes. O mais conhecido é o coeficiente de correlação de Pearson, o qual é obtido dividindo a covariância de duas variáveis pelo produto de seus desvios padrão. Variável: características ou itens de interesse de cada elemento de uma popu- lação ou amostra, podendo ser chamada de parâmetro. 7 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha Duas variáveis estão relacionadas se a mudança de uma provoca a mudança na outra. Exemplos: velocidade x consumo combustível índice de criminalidade x grau de escolaridade idade x condicionamento físico. Correlação Correlação entre duas variáveis: 1. quando uma delas está, de alguma forma, relacionada com a outra; 2. quando a alteração no valor de uma variável (dita independente) provoca alte- rações no valor da outra variável (dita dependente). Diagramas de Dispersão Um diagrama de dispersão mostra a relação entre duas variáveis quantitativas, medidas sobre os mesmos indivíduos. Os valores de uma variável aparecem no eixo horizontal, e os da outra, no eixo vertical. Comumente, coloca-se no eixo x um parâmetro. Cada indivíduo aparece como o ponto do gráfico definido pelos valores de ambas as variáveis para aquele indivíduo. Exemplo de correlação entre as variáveis: peso e altura Vamos construir um diagrama de dispersão por meio da tabela abaixo, com as vari- áveis peso e altura, em que o peso será nossa variável independente (eixo x) e a altura, nossa variável dependente (eixo y). 8 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha Diagrama de dispersão Podemos observar que cada ponto no diagrama representa um elemento (pessoa), consequênciada relação entre as duas grandezas, temos um exemplo em destaque que é a pessoa que pesa 70 Kg e possui altura de 1,90 m. Eixo das ABCISSAS: x (variável independente): variável que é alterada por uma modificação no processo. Eixo das ORDENADAS: y (variável dependente): variável que pode mudar de acordo com a mudança da variável em ‘x’. Peso (Kg) Altura (m) 80 1,80 85 1,83 50 1,65 70 1,90 55 1,60 77 1,80 85 1,78 93 1,86 65 1,70 60 1,65 9 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha Análise – fatores a serem considerados: • DIREÇÃO: − crescente; − decrescente. • FORMA: − linear; − não linear; – aglomerados. Algumas situações em que se podem apresentar os diagramas de dispersão: 10 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha 11 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha 12 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha Análise quanto aos valores obtidos: a) correlação perfeita negativa (rxy = -1): quando os pontos estiverem perfeita- mente alinhados, mas em sentido contrário, a correlação é denominada perfeita negativa. b) Correlação negativa (-1 < rxy < 0): a correlação é considerada negativa quando valores crescentes da variável X estiverem associados a valores decrescentes da variável Y, ou valores decrescentes de X associados a valores crescentes de Y. c) Correlação nula (rxy = 0): quando não houver relação entre as variáveis X e Y, ou seja, quando os valores de X e Y ocorrerem independentemente, não existe correlação entre elas. d) Correlação positiva (0 < rxy < 1): será considerada positiva se os valores cres- centes de X estiverem associados a valores crescentes de Y. e) Correlação perfeita positiva (rxy = 1): a correlação linear perfeita positiva cor- responde ao caso anterior, só que os pontos (X, Y) estão perfeitamente alinhados. OOss:� � a) correlação não é o mesmo que causa e efeito. Duas variáveis podem estar altamente correlacionadas e, no entanto, não haver relação de causa e efeito entre elas. � b) Se duas variáveis estiverem amarradas por uma relação de causa e efeito, elas estarão, obrigatoriamente, correlacionadas. � c) O estudo de correlação pressupõe que as variáveis X e Y tenham uma distribuição normal. � d) A palavra simples que compõe o nome correlação linear simples indica que estão envolvidas no cálculo somente duas variáveis. 13 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha � e) O coeficiente de correlação linear de Pearson mede a correlação em esta- tística paramétrica. � f) O fato de o coeficiente de correlação ser próximo de zero não significa que não exista relação entre duas variáveis, apenas significa que as duas não têm relação linear. Pode ser que as variáveis se relacionem de outras maneiras. Pode ser uma relação quadrática, exponencial, etc. � g) O fato de o coeficiente de correlação ser muito próximo de 1 (ou -1) não significa que as duas variáveis tenham uma relação de causa e con- sequência. Fórmulas – coeficiente de correlação linear: Exemplo – aplicação Vamos resolver a questão (exemplo) que foi apresentada anteriormente (peso versos altura), ou seja, vamos encontrar o coeficiente de correlação linear de Pear- son para que possamos fazer uma comparação com o diagrama de dispersão apre- sentado anteriormente, ok? 14 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha Para que possamos aplicar a fórmula abaixo, iremos construir algumas colunas para calcularmos os somatórios das variáveis, bem como o somatório dos seus quadrados, certo? Peso (Kg) Altura (m) 80 1,80 85 1,83 50 1,65 70 1,90 55 1,60 77 1,80 85 1,78 93 1,86 65 1,70 60 1,65 Peso (Kg) X Altura (m) Y X2 Y2 X.Y 80 1,80 6400 3,24 144 85 1,83 7225 3,3489 155,55 50 1,65 2500 2,7225 82,5 70 1,90 4900 3,61 133 55 1,60 3025 2,56 88 77 1,80 5929 3,24 138,6 85 1,78 7225 3,1684 151,3 93 1,86 8649 3,4596 172,98 65 1,70 4225 2,89 110,5 60 1,65 3600 2,7225 99 ∑x = 720 ∑y = 17,57 ∑x2 = 53678 ∑y2 = 30,9619 ∑xy = 1275,43 n = 10 15 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha O coeficiente de correlação de Pearson entre as duas variáveis peso e altura se mostrou positivo. Para que possamos interpretar melhor o valor, vamos construir uma tabela simples: Se o intervalo do coeficiente de correlação então a interpretação de r |r| = 1 Relação perfeita 0,6 ≤ |r| ≤ 1 Relação boa 0,3 ≤ |r| ≤ 0,6 Relação fraca |r| ≤ 0,3 Relação não existe praticamente |r| = 0 Relação nula 16 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha Vejamos agora algumas questões de concursos públicos envolvendo a parte te- órica para que possamos entender melhor ainda os conceitos, vejamos: 1s (CESGRANRIO). Considere as asserções a seguir. O Coeficiente de Correlação Linear de Pearson é necessariamente um número no intervalo (−1,1). PORQUE O Coeficiente de Correlação Linear de Pearson só pode ser calculado para variáveis quantitativas. Analisando-se as asserções, conclui-se que a) As duas asserções são verdadeiras, e a segunda é uma justificativa correta da primeira. O) As duas asserções são verdadeiras, e a segunda não é uma justificativa correta da primeira. c) A primeira asserção é verdadeira, e a segunda é falsa. d) A primeira asserção é falsa, e a segunda é verdadeira. e) A primeira e a segunda asserções são falsas. Letra Os Como vimos anteriormente, o coeficiente de correlação de Pearson assume valores entre -1 e 1, desta forma a primeira asserção está correta. A segunda frase tam- bém está correta, uma vez que o coeficiente de correlação depende de cálculo de somatório, o que só é permitido se as variáveis forem quantitativas. 17 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha Sendo as duas frases verdadeiras e sabendo que o coeficiente depende de valores quantitativos, uma frase não justifica a outra, pois existem diversas grandezas que só podem ser calculadas para variáveis quantitativas, mas que assumem valores fora do intervalo entre -1 e 1. Um exemplo é a variância, que só pode ser calculada para variáveis quantitativas, porém o seu valor pode assumir qualquer valor maior ou igual a zero. 2s (CESGRANRIO) Considere as afirmações a seguir a respeito do Coeficiente de Correlação (r) de Pearson entre duas variáveis. I – Se r = 1, as observações estão todas sobre uma linha reta no diagrama de dispersão. II – Se r > 0, a variável independente aumenta quando a variável dependente aumenta. III – Se r < 0, a variável independente decresce quando a variável dependente decresce. IV – Se r = 0, não existe relação entre as duas variáveis. São corretas APENAS as afirmações a) I e II O) I e III c) II e III d) II e IV e) III e IV 18 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha Letra as Vamos analisar cada item separadamente: Is Certo. Se r = 1, a relação linear é perfeita, em que as variáveis têm relação dire- ta (quando uma aumenta, a outra aumenta; quando uma diminui, a outra diminui). IIs Certo. Se r > 0, a relação entre as variáveis é direta (quando uma aumenta, a outra aumenta; quando uma diminui, a outra diminui). IIIs Errado. Se r < 0, a relação é inversa (quando uma aumenta, a outra diminui). IVs Errados Se r = 0, temos um indicador muito forte que nãohá relação linear, porém é importante observar que pode haver outro tipo de relação (exponencial, logarítmica, etc.). 3s (CESGRANRIO) Analise as afirmativas a seguir, a respeito do coeficiente de cor- relação linear de Pearson entre duas variáveis positivas X e Y: I – É positivo; II – Não se altera quando adicionamos uma constante positiva aos valores de X; III – não se altera quando multiplicamos por uma constante positiva os valores de X. Está (ao) correta (s) a (s) afirmativa (s): a) II somente. O) I e II somente. c) I e III somente. d) II e III somente. e) I, II e III. 19 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha Letra ds Vamos analisar cada item: Is Errado, pois o sinal do coeficiente de correlação depende da relação (associa- ção) existente entre as variáveis, podendo ser direta ou inversa. Para ser positivo, a relação tem que ser direta, pois, se for uma relação inversa, o sinal será negativo. IIs Certo, pois as somas e subtrações não alteram o coeficiente de correlação. É importante guardar essa propriedade. IIIs Certo, pois, se multiplicarmos X por uma constante positiva P, e não alterar- mos Y (o que equivale a multiplicar por 1), então as duas constantes envolvidas (P e 1) têm o mesmo sinal. O coeficiente de correlação não se altera. Já comentamos este detalhe anteriormente, ok? 4s (CESPE-UNB/PETROBRAS) Julgue o item que segue: O coeficiente de correla- ção de Pearson é usado para medir o grau de linearidade (associação) entre duas variáveis (eventos), podendo assumir qualquer valor entre +1 e –1. Os valores de coeficientes iguais a +1 e -1 indicam, respectivamente, relação linear perfeita e ausência total de relação linear entre as variáveis. Errado. O coeficiente de correlação linear de Pearson igual a -1 indica também uma relação linear perfeita negativa, pois a reta que representa a função entre as duas variáveis é decrescente. Teremos a ausência total de relação linear quando o coeficiente de correlação assume o valor zero. 20 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha 5s (CESPE-UNB/PREFEITURA DE RIO BRANCO) A análise de regressão linear simples e a análise de correlação são técnicas frequentemente usadas na in- terpretação de pares de dados. Com relação a essas técnicas, julgue o item a seguir. O coeficiente de correlação mede o grau de associação entre duas variáveis. Certo. O coeficiente de correlação linear de Person mede o grau de relação linear entre duas variáveis, que a banca CESPE denomina de grau de associação. 6s (CESPE/TCU) Uma agência de desenvolvimento urbano divulgou os dados apre- sentados na tabela a seguir, acerca dos números de imóveis ofertados (X) e vendi- dos (Y) em determinado município, nos anos de 2005 a 2007. Considerando as informações do texto, julgue o item subsequente. O coeficiente de correlação linear entre X e Y é inferior a 0,8. 21 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha Errado. Para resolvermos esta questão, iremos utilizar a seguinte fórmula, uma vez que os valores são grandes: Construímos a tabela abaixo para que possamos encontrar de maneira mais orga- nizada os valores necessários para substituir na fórmula: Sabemos que, nos concursos, o tempo é um dos nossos grandes adversários, por isso quero chamar a atenção para algumas questões que exigem muitos cálculos, pois a banca muitas vezes exige do candidato a interpretação ao serviço braçal, isto é, muitas contas. Esta questão é um exemplo real, pois observe que os valores de X e Y estão exatamente ao longo de uma reta. Para cada variação de 250 na variá- vel X, temos uma variação de 300 na variável Y. Isso deixa claro que os três pares ordenados apresentados na tabela pertencem à mesma reta. 22 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha Vamos apresentar o diagrama de dispersão para que você possa entender melhor ainda. 7s (CESGRANRIO) Se as variáveis Y e X1 forem transformadas, respectivamente, para Y1 = -2Y + 0,5 e X1’ = - X1+ 0,5, o coeficiente de correlação entre Y1 e X1’ a) 0,382 23 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha O) 0,059 c) -0,059 d) -0,118 e) -0,382 Letra cs No diagrama de dispersão acima, podemos verificar que o coeficiente de correlação entre Y e X1 é de −0,059. A questão, a partir das variáveis Y e X1, constrói outras, pelas operações de multiplicação e soma. É importante guardar que as operações de adição não interferem no coeficiente de correlação, porém as multiplicações po- dem interferir no sinal do coeficiente de correlação. Como as multiplicações foram feitas por − 2 e −1, ou seja, as duas constantes têm o mesmo sinal, o coeficiente de correlação permanece igual ao da situação inicial. Para que possamos entender melhor, é só imaginarmos alguns valores no eixo X: {1,2,3,4,5} e outros valores no eixo Y: {10, 20, 30, 40, 50}, os pontos no diagrama de dispersão estarão dispostos de acordo com o nível de relação entre eles, caso os valores de x sejam multiplicados pela constante K e os de X sejam também mul- tiplicados por P, os pontos estarão em lugares distintos no diagrama, porém entre eles a disposição será a mesma, possuindo a mesma relação, isto é, o mesmo co- eficiente de correlação linear de Pearson. 24 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha Regressão Linear Simples Como já visto em correlação linear, se existe relação entre as variáveis e qual a intensidade dessa relação, agora iremos avançar mais um pouco, pois a associação entre duas variáveis quantitativas x e y nos faz levantar uma hipótese a respeito de uma provável relação de causa e efeito. Isto é, desejamos saber se y “depende” de x. Neste caso, y é chamado de variável dependente ou variável resposta e x é cha- mado de variável independente ou explanatória. Agora em regressão mais comu- mente utilizada, a regressão linear, temos a hipótese de que o valor de y depende do valor de x e expressamos matematicamente esta relação por meio de uma função, assumindo que a associação entre x e y é linear, ou seja, descrita adequadamente por uma reta. Quando temos uma variável resposta y e uma variável explanatória x, a regressão é dita simples. A regressão é usada basicamente com duas finalidades: 1. previsão (prever o valor de y a partir do valor de x); 2. estimar o quanto x influencia ou modifica y. O nosso objetivo nessa aula é que, considerando que X e Y tenham uma relação linear forte. Ou seja, a relação entre ambas é praticamente uma reta, a pergunta é: que reta seria essa? Qual seria equação que permite construir a reta que melhor descreve a relação linear entre X e Y? É isso que iremos aprender neste momento, o que significa estudar regressão linear. Como encontrar a reta de regressão linear? Vamos, primeiramente, considerar as variáveis X (independente) e Y (depen- dente). Um modelo de regressão linear que relaciona as variáveis é dado por: Yi = a + βXi + εi 25 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha No modelo apresentado, α e β são constantes (coeficientes) e ε é uma variável aleatória de média zero, sendo assim não se preocupe como o valor de ε. Um método para encontrar a melhor reta de regressão é chamado de métodos de mínimos quadrados. A função de primeiro grau que pretendemos encontrar é da forma: Yi = a + bXi ^ Em que a é uma estimativa de α, b é uma estimativa de β e Ŷ é uma estimativa de Y. A diferença entre Y e sua estimativa chamamos dedesvio. O desvio é dado por: e = Y – Y^ É importante saber que, pelo método de mínimos quadrados, tentamos ob- ter uma reta, de tal modo que a soma dos quadrados dos valores de ε (desvio) seja mínima, dessa forma não fique preocupado(a) com o valor de ε na função. OK? Agora sim, para encontrarmos os valores de a e b (estimadores de α e β), obti- dos a partir da consideração de que a soma dos quadrados dos desvios seja míni- ma, temos as seguintes fórmulas: 26 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha Após encontrarmos os valores de a e b, é só substituir a fórmula para definirmos a função da regressão linear simples. Vamos realizar um exemplo dos alunos de uma turma para verificar a função que associa as notas em matemática (variável independente) às notas de estatística (variável dependente). Partindo do pressuposto de que há uma correlação linear de Pearson quanto às notas adquiridas nas duas disciplinas (variáveis), podemos definir a seguinte equação linear: Yi = a + bXi ^ Precisamos encontrar os valores dos coeficientes a (coeficiente linear) e b (coe- ficiente angular), e para isso construiremos algumas colunas para que possamos definir os valores que serão substituídos na fórmula: Alunos Nota de matemática (X) Nota de Estatística (Y) André 2 6 Beto 6 7 Carlos 8 7 Daniel 10 8 Médias 6,5 7 27 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha A partir da tabela, iremos aplicar as fórmulas abaixo para encontrarmos os coefi- cientes a e b: Após encontrarmos os valores dos coeficientes, basta substituirmos na expressão: Yi = a + bXi ^ Ŷ= 5,51 + 0,23X A partir da equação que representa reta de regressão, podemos verificar sua vera- cidade, em que iremos substituir os valores da variável independente (X) e encon- traremos o valor da variável dependente (Y), não esquecendo que estamos par- tindo do pressuposto de que a reta apresenta o menor valor possível no somatório do quadrado dos desvios, em que os desvios correspondem à diferença entre os valores observados X e Y. Tabela com valores estimados para variável Y: 28 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha Aluno A: X= 2 Ŷ= 5,51 + 0,23X Ŷ = 5,51 + 0,23X = 5,51 + 0,23(2) = 5,51 + 0,46 = 5,97 Aluno B: X = 6 Ŷ= 5,51 + 0,23X Ŷ= 5,51 + 0,23X = 5,51 + 0,23(6) =5,51 + 1,38 = 6,89 Aluno C: X = 8 Ŷ= 5,51 + 0,23X Ŷ= 5,51 + 0,23X= 5,51 + 0,23(8) =5,51 + 1,84 = 7,35 Aluno D: X = 10 Ŷ= 5,51 + 0,23X = 5,51 + 0,23(10) = 5,51 + 2,3 = 7,81 Com os valores de estimação, construiremos o diagrama de dispersão juntamente com a reta de regressão estimada (valores estimados de Ŷ). 29 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha OOss:� algumas questões de concursos trazem informações que serão necessárias transformações, quanto aos somatórios, dessa forma, teremos: � � 30 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha QUESTÕES DE CONCURSO 1s (CESPE/ANALISTA JUDICIÁRIO – ESTATÍSTICA/TJ-RO/2012) Com respeito ao modelo de regressão linear simples, assinale a opção correta. a) O parâmetro de inclinação da reta é igual à tangente do ângulo formado entre a reta e o eixo Oy. O) A inclinação da reta é proporcional à correlação entre a variável resposta e a variável preditora. c) Se o modelo linear estiver bem ajustado, a correlação entre o resíduo do modelo e a variável resposta deve estar próxima de -1. d) Se o intercepto do modelo for nulo, a variável resposta assume o valor zero quando a variável preditora for igual ao inverso da inclinação da reta. e) O parâmetro de inclinação da reta é igual ao cosseno do ângulo formado entre a reta e o eixo Ox. 2s (CESGRANRIO). Na estimativa de uma regressão linear, o problema da hetero- cedasticidade ocorre quando a) os dados são transversais. O) há autorrelação dos resíduos. c) há correlação positiva entre as variáveis independentes. d) a variância dos erros não é constante. e) as variáveis independentes são negativas. 31 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha 3s (FCC/BACEN) Uma empresa, com finalidade de determinar a relação entre gas- tos anuais com propaganda (X), em R$ 1.000,00 e o lucro bruto anual (Y), em R$ 1.000,00, optou por utilizar o modelo linear simples Yi Xi i =α + β + ε, em que Yi é o valor do lucro bruto auferido no ano i e i ε o erro aleatório com as respectivas hipóteses consideradas para a regressão linear simples (α e β são parâmetros des- conhecidos). Considerou, para o estudo, as seguintes informações referentes às observações nos últimos 10 anos da empresa: Utilizando a equação da reta obtida pelo método dos mínimos quadrados, tem-se que, caso haja um gasto anual com propaganda de 80 mil reais, a previsão do lucro bruto anual, em mil reais, será de: a) 84 O) 102,5 c) 121 d) 128,4 e) 158 32 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha 4s (CESGRANRIO) Considere os dados amostrais de um estudo da relação entre o número de anos que os candidatos a empregos em um determinado banco comer- cial estudaram inglês na faculdade e as notas obtidas em um teste de proficiência nessa língua. Com base nessas informações, a reta de mínimos quadrados que melhor explica a relação entre o número de anos de estudo e a nota do teste de inglês é igual a: a) y = 1,33 + 3,56x O) y = 2,25 + 1,32x c) y = 6,97 + 3,56x d) y = 35,32 + 10,9x e) y = 254,56 + 13,3x 33 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha 5s (FCC) Em uma determinada empresa é realizado um estudo sobre a relação entre os gastos com publicidade, em R$ 1.000,00, e o acréscimo no faturamento anual, em R$ 1.000,00. Foi escolhido para análise o modelo linear simples Yi = α + βXi + εi, sendo que Yi é o acréscimo no faturamento do ano i, Xi representa os gastos com publicidade no ano i e εi é o erro aleatório com as respectivas hipóteses consideradas para a regressão linear simples (α e β são parâmetros desconhecidos). Para obtenção das estimativas de α e β utilizou-se o método dos mínimos quadrados com base nas informações dos últimos 10 anos da em- presa, ou seja: Utilizando a equação da reta obtida pelo método dos mínimos quadrados, tem-se que se a empresa almejar um acréscimo no faturamento, em um determinado ano, de R$ 25.000,00 deverá apresentar, neste período, um total em gastos com publi- cidade de a) R$ 20.000,00. O) R$ 18.000,00. c) R$ 17.000,00. d) R$ 16.000,00. e) R$ 15.000,00. 34 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha 6s (ESAF) Com o objetivo de estimar-se o modelo Y = α + β X, foi retirada uma amostra com cinco pares de observações (X, Y), obtendo-se os seguintes resulta- dos: Desse modo, a) Y = – 2 – 2X O) Y = 2 – 2X c) Y = 2X d) Y = 2 + 2X e) Y = – 2 + 2X 35 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha GABARITO 1s b 2s d 3s b 4s b 5s e 6s d 36 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha GABARITO COMENTADO 1s (CESPE/ANALISTA JUDICIÁRIO – ESTATÍSTICA/TJ-RO/2012) Com respeito ao modelo de regressão linear simples, assinale a opção correta. a) O parâmetro de inclinação da reta é igual à tangente do ângulo formado entre a reta e o eixo Oy. O) A inclinação da reta é proporcional à correlaçãoentre a variável resposta e a variável preditora. c) Se o modelo linear estiver bem ajustado, a correlação entre o resíduo do modelo e a variável resposta deve estar próxima de -1. d) Se o intercepto do modelo for nulo, a variável resposta assume o valor zero quando a variável preditora for igual ao inverso da inclinação da reta. e) O parâmetro de inclinação da reta é igual ao cosseno do ângulo formado entre a reta e o eixo Ox. Letra Os A inclinação da reta está em função da correlação linear das variáveis X e Y, que será expressa pela equação de regressão linear. a) Errada. A inclinação da reta é dada pela tangente do ângulo formado entre a reta e o eixo X (abcissa) e não Y (ordenada). c) Erradas Imagine o diagrama de dispersão com os pontos distribuídos, porém todos dispersos, logo a inclinação é próxima de zero. Porém, se os pontos tiverem uma tendência ascendente, logo essa reta, ao se ajustar, terá uma inclinação po- sitiva. Se os pontos tiverem uma inclinação descendente, teremos uma inclinação negativa. 37 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha d) Errada. Esta é uma equação da regressão: Y = a + bX. O enunciado fala que alfa (coeficiente linear) é zero, sendo assim teremos Y = bX, sendo b o coeficiente angular. Assim, como X é o inverso da inclinação, teremos um simplificando o outro, isto é, Y = 1. e) Errados A inclinação da reta é dada pela tangente do ângulo e não pelo cosseno. 2s (CESGRANRIO). Na estimativa de uma regressão linear, o problema da hetero- cedasticidade ocorre quando a) os dados são transversais. b) há autorrelação dos resíduos. c) há correlação positiva entre as variáveis independentes. d) a variância dos erros não é constante. e) as variáveis independentes são negativas. Letra ds No modelo de regressão linear, temos algumas considerações importantes que se- rão de suma importância para resolvermos as questões conceituais: Consideração 1, temos que o erro (variável aleatória ε) tem média zero. Para melhor compreensão, imaginamos a situação em que a variável erro não tem média zero. Significa que já se espera que, em média, se cometa um erro diferente de zero. Já 38 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha se sabe que a regressão pode ser positiva ou negativa. Ou seja, o modelo não está muito adequado. É melhor reformular o modelo, ou seja, não tem como garantir que os valores se comportem de maneira linear, não há uma correlação linear. Consideração 2, a segunda consideração nos diz que a variância do erro é constan- te. Este fato é denominado homocedasticia. Consideração 3, a terceira condição nos diz que os erros cometidos não são corre- lacionados. A questão pode ser respondida pela segunda consideração. 3s (FCC/BACEN) Uma empresa, com finalidade de determinar a relação entre gas- tos anuais com propaganda (X), em R$ 1.000,00 e o lucro bruto anual (Y), em R$ 1.000,00, optou por utilizar o modelo linear simples Yi Xi i =α + β + ε, em que Yi é o valor do lucro bruto auferido no ano i e i ε o erro aleatório com as respectivas hipóteses consideradas para a regressão linear simples (α e β são parâmetros des- conhecidos). Considerou, para o estudo, as seguintes informações referentes às observações nos últimos 10 anos da empresa: Utilizando a equação da reta obtida pelo método dos mínimos quadrados, tem-se que, caso haja um gasto anual com propaganda de 80 mil reais, a previsão do lucro bruto anual, em mil reais, será de: a) 84 O) 102,5 39 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha c) 121 d) 128,4 e) 158 Letra Os Nesta questão teremos que utilizar algumas transformações do somatório citadas anteriormente: Primeiramente, vamos encontrar a equação da regressão linear e posteriormente verificar e estimativa para uma propaganda de 80 mil reais. É importante ressaltar que o erro aleatório está em conformidade com as hipóteses consideradas em re- gressão linear (vistas anteriormente), sendo assim teremos que aplicar as fórmulas para calcular os valores de a e b. Calculando o coeficiente angular (b), aplicando a transformação descrita acima: 40 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha Calculando agora o coeficiente linear (a): Representando a equação de regressão: Caso haja um gasto anual com propaganda de 80 mil reais, a previsão do lucro bruto anual, teremos X = 80 e a estimativa de gasto será: 4s (CESGRANRIO) Considere os dados amostrais de um estudo da relação entre o número de anos que os candidatos a empregos em um determinado banco comer- cial estudaram inglês na faculdade e as notas obtidas em um teste de proficiência nessa língua. 41 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha Com base nessas informações, a reta de mínimos quadrados que melhor explica a relação entre o número de anos de estudo e a nota do teste de inglês é igual a: a) y = 1,33 + 3,56x O) y = 2,25 + 1,32x c) y = 6,97 + 3,56x d) y = 35,32 + 10,9x e) y = 254,56 + 13,3x Letra Os Esta questão vai exigir do candidato esperteza, pois é loucura realizar todas essas contas, verificando se a variável x (número de anos) irá estimar a variável y (nota do teste). O que fazer? Em primeiro lugar, vamos excluir algumas alternativas e podemos observar que, para qualquer valor de x entre 2 e 5, y não supera 10. Des- ta forma, já podemos excluir as letras c, d e e, que preveem valores altos para y (muito superiores a 10), mesmo quando x é igual a 2. 42 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha Quanto à letra e, se tivéssemos x igual a 1, y será aproximadamente igual a 270, algo totalmente absurdo de acordo com a tabela fornecida. Sendo assim, ficamos entre as letras a e b. Para decidirmos qual será a resposta, sugiro considerarmos os valores extremos de x. Quando x é igual a 2, as retas das letras a e b possuem os seguintes valores para y: letra a: 8,45 e letra b: 4,89, logo o valor da letra b é muito mais próximo dos valores que y realmente assume, quando x é igual a 2. Por esta análise, já podemos marcar letra b. 5s (FCC) Em uma determinada empresa é realizado um estudo sobre a relação entre os gastos com publicidade, em R$ 1.000,00, e o acréscimo no faturamento anual, em R$ 1.000,00. Foi escolhido para análise o modelo linear simples Yi = α + βXi + εi, sendo que Yi é o acréscimo no faturamento do ano i, Xi representa os gastos com publicidade no ano i e εi é o erro aleatório com as respectivas hipóteses consideradas para a regressão linear simples (α e β são parâmetros desconheci- dos). Para obtenção das estimativas de α e β utilizou-se o método dos mínimos quadrados com base nas informações dos últimos 10 anos da empresa, ou seja: Utilizando a equação da reta obtida pelo método dos mínimos quadrados, tem-se que se a empresa almejar um acréscimo no faturamento, em um determinado ano, de R$ 25.000,00 deverá apresentar, neste período, um total em gastos com publicidade de a) R$ 20.000,00. 43 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha O) R$ 18.000,00. c) R$ 17.000,00. d) R$ 16.000,00. e) R$ 15.000,00. Letra es Agora que já temos a equação de regressão, com um faturamento (estimativa) de R$25.000,00, teremos um gasto no valor de: 44 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha 6. (ESAF) Com o objetivo de estimar-se o modelo Y = α + β X, foi retirada uma amostra com cinco paresde observações (X, Y), obtendo-se os seguintes resulta- dos: Desse modo, a) Y = – 2 – 2X b) Y = 2 – 2X c) Y = 2X d) Y = 2 + 2X e) Y = – 2 + 2X Letra ds 45 de 45 MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA Regressão, Tenências, Extrapolações e Interpolações Prof. Josimar Padilha
Compartilhar