Baixe o app para aproveitar ainda mais
Prévia do material em texto
Professor: Rodolfo Schmit Turma: Carreira Policiais Data: 15/05/2021 ESTATÍSTICA MUDE SUA VIDA! 1 ANÁLISE DE REGRESSÃO LINEAR INTRODUÇÃO A análise de regressão linear estuda a relação entre duas variáveis. Quando duas variáveis X e Y não são independentes, existe alguma contribuição na variação de X que modifica a variável Y, isto é, as alterações sofridas em X são acompanhadas por alterações sofridas em Y. Para quantificar e compreender esse efeito é necessário um estudo sobre a relação entre essas variáveis. Parar estudar o efeito entre as variáveis X e Y quaisquer, algumas medidas descritivas são essenciais, como a covariância Cov(X, Y) e o coeficiente de correlação (r). Além dessas medidas, pode ser ajustado uma regressão linear (uma reta) que tenta explicar o comportamento entre duas variáveis X e Y, a partir de um modelo de equação de 1º grau. Exemplos de dependência de variáveis: HORAS DE TRABALHO X REMUNERAÇÃO TRÁFICOS DE DROGAS X REGISTRO DE HOMICÍDIOS NÍVEL DE ESCOLARIDADE X ÍNDICE DE VIOLÊNCIA CORRUPÇÃO DO PODER PÚBLICO X CREDIBILIDADE NA POLÍTICA COVARIÂNCIA - COV(X, Y) A covariância é uma medida descritiva que apresenta a dispersão conjunta de duas variáveis analisadas. Com essa informação, podemos saber se existe uma dependência entre as variáveis (X,Y), além de conhecer a direção que essas variáveis se dispersam (na mesma direção ou em direção opostas). Vamos conhecer a construção matemática dessa medida descritiva a partir de exemplo. OBJETO DE ESTUDO: Uma investigação analisa o tempo de decomposição de um corpo de delito (em minutos), e o respectivo peso (em kg) decomposto. Essa decomposição é analisada após o corpo ser exposto a um reagente. Foram analisados quatro fragmentos desse corpo. Variável X: Tempo de decomposição, em minutos; Variável Y: Peso do corpo de delito decomposto, em kg; As observações agora são compostas pelo um par coordenado de dados. Nesse exemplo, podemos afirmar que a observação (2;5) corresponde que o corpo de delito que levou 2 minutos para decomposição com peso de 5 kg. Veja que temos duas características analisadas para o mesmo elemento (o objeto, o corpo de delito). Portanto, temos mais do que uma característica alinhada sobre um mesmo contexto. Nesse sentido, precisamos compreender como essas duas características se dispersam; se existe uma relação de dependência entre elas; e qual a direção da variação associada dessas duas características (mesma direção ou direção oposta). Para isso, vamos observar os desvios em relação à média que cada variável apresenta. Para analisar os desvios precisamos obter inicialmente a média de X e Y: �̅� = 𝟐 + 𝟑 + 𝟔 + 𝟗 𝟒 = 𝟐𝟎 𝟒 = 𝟓 𝒎𝒊𝒏𝒖𝒕𝒐𝒔 �̅� = 𝟓 + 𝟕 + 𝟖 + 𝟏𝟔 𝟒 = 𝟑𝟔 𝟒 = 𝟗 𝒌𝒈 Em seguida, vamos observar os desvios em relação a média de cada variável: X Y Desvio de X (𝑿𝒊 − �̅�) Desvio de Y (𝒀𝒊 − �̅�) 2 5 -3 -4 3 7 -2 -2 6 8 1 -1 9 16 4 7 �̅� = 𝟓 �̅� = 𝟗 - - Na construção acima, temos os desvios de X e Y, contudo, precisamos quantificar essa variação conjuntamente em apenas um valor. Para esse propósito, é aplicado o produto do desvio de X em relação a sua média junto ao desvio de Y em relação a sua média. Com isso, obtemos os desvios associados de cada par de observação! 𝑫𝒆𝒔𝒗𝒊𝒐 𝒂𝒔𝒔𝒐𝒄𝒊𝒂𝒅𝒐𝑿,𝒀 = (𝑿𝒊 − �̅�) × (𝒀𝒊 − �̅�) https://www.alfaconcursos.com.br/ Professor: Rodolfo Schmit Turma: Carreira Policiais Data: 15/05/2021 ESTATÍSTICA MUDE SUA VIDA! 2 Vamos analisar os desvios associados de cada par coordenado: X Y Desvio de X (𝑿𝒊 − �̅�) Desvio de Y (𝒀𝒊 − �̅�) Desvio Associado (𝑿𝒊 − �̅�). (𝒀𝒊 − �̅�) 2 5 -3 -4 12 3 7 -2 -2 4 6 8 1 -1 -1 9 16 4 7 28 �̅� = 𝟓 �̅� = 𝟗 - - 𝜮 = 𝟒𝟑 Por fim, soma-se o desvio associado de cada par (X,Y) obtendo um quantitativo total de dispersão conjunta. No exemplo, obtemos um desvio associado de 43 min.kg. Agora resta dividir esse valor pelo número de pares de observações (𝑛𝑋,𝑌 = 4) para obter uma variação conjunta média. 𝑪𝒐𝒗(𝑿, 𝒀) = 𝟒𝟑 𝟒 = 𝟏𝟎, 𝟕𝟓 𝒎𝒊𝒏. 𝒌𝒈 Desse modo, calcula-se a covariância Cov(X,Y) pela seguinte expressão: 𝑪𝒐𝒗(𝑿, 𝒀) = ∑(𝑿𝒊 − �̅�)(𝒀𝒊 − �̅�) 𝒏(𝑿,𝒀) Em que: 𝐶𝑜𝑣(𝑋, 𝑌): Covariância entre a variável X e Y; (𝑋𝑖 − �̅�): Desvios das observações de X em relação a sua média (�̅�); (𝑌𝑖 − �̅�): Desvios das observações de Y em relação a sua média (�̅�); ∑(𝑋𝑖 − �̅�)(𝑌𝑖 − �̅�): Somatório das multiplicações dos desvios de X e Y; 𝑛(𝑋,𝑌): Número de pares associados de observações X e Y. Por essa fórmula, conseguimos identificar que a covariância é uma medida que quantifica a variação conjunta de duas variáveis. Veja: Esse é o cálculo da covariância para um conjunto de dados coletados. Mas, assim como a variância pode ser calculada por um método alternativo, a covariância também possui outro método de cálculo bem útil. Com essa dedução, é obtido a seguinte expressão: 𝑪𝒐𝒗(𝑿, 𝒀) = ∑ 𝑿𝒊𝒀𝒊 𝒏 − �̅� �̅� Em outras definições, obtém-se a seguinte analogia “covariância é a média do produto XY menos o produto da média de X e Y.” Em variáveis aleatórias, podemos definir também que covariância é: Esperança do produto XY menos o produto da esperança de X e Y. Tendo a seguinte definição: 𝑪𝒐𝒗(𝑿, 𝒀) = 𝑬(𝑿𝒀) − 𝑬(𝑿) × 𝑬(𝒀) Esse cálculo somente pode ser aplicado se os dados forem populacionais. A covariância tem variação na fórmula, conforme a origem dos dados: da população ou da amostra. https://www.alfaconcursos.com.br/ Professor: Rodolfo Schmit Turma: Carreira Policiais Data: 15/05/2021 ESTATÍSTICA MUDE SUA VIDA! 3 A diferença consiste em dividir por n-1, assim como, na amostra. INTERPRETAÇÃO DA COVARIÂNCIA Quando houver uma relação linear de dependência entre as variáveis X e Y a covariância apresentará um valor diferente de zero. Observe que, diferente da variância que sempre é um valor positivo, a covariância pode ser negativa. A covariância é uma maneira de verificar se duas variáveis estão associadas, pois ela quantifica se variam conjuntamente. Ou seja, ela quantifica se as mudanças em uma variável correspondem a mudanças similares na outra variável. Quando uma variável se desvia da sua média, espera-se que a outra variável associada desvie da sua média de maneira similar (ou de maneira diretamente oposta). Ao observar que a variância é o produto dos desvios de X e Y em relação suas respectivas médias, temos as seguintes possibilidades: Se ambos os desvios são positivos ou negativos, isso resultará em um valor positivo do produto dos desvios, consequentemente, os desvios ocorrem na mesma direção; Se um desvio é positivo e o outro negativo, isso resultará em um valor negativo do produto dos desvios, consequentemente, os desvios ocorrem em direções opostas; Com isso, podemos chegar as seguintes interpretações: Outra informação importante sobre a covariância é que ela depende das unidades de medida para fazer qualquer interpretação. Uma vez que ela é a média dos desvios associados de X e Y, a unidade de medida da covariância corresponde ao produto da unidade de medida de cada variável. Assim, se a variável X é medida em centímetros (cm) e a variável Y é medida em horas (h), a covariância será medida em centímetros vezes horas (cm.h). Esse conhecimento é interessante, pois com isso sabemos que não podemos inferir se um par de variáveis apresenta uma covariância maior ou menor que outro par de variáveis com unidades de medida diferentes. CORRELAÇÃO LINEAR - 𝒓(𝑿,𝒀) O coeficiente de correlação linear (𝑟) é uma medida que descreve o grau de associação linear entre duas variáveis em estudo. A partir desse coeficiente, podemos detectar se existe uma associação entre variáveis e quantificar qual é a magnitudedessa associação. Assim, por meio da correlação linear podemos obter se há uma força (fenômeno) unindo as duas variáveis e como uma se comporta em relação à outra. Em outras definições, o termo correlação significa relação em dois sentidos (co + relação), e é usado na Estatística para designar a força que mantém unidos dois conjuntos de valores (duas variáveis). A verificação da existência dessa força e do grau de associação entre as variáveis são as informações essenciais obtidas pela correlação. O cálculo da correlação linear entre uma variável X e Y é efetuado da seguinte forma: 𝒓(𝑿,𝒀) = 𝑪𝒐𝒗(𝑿, 𝒀) 𝒔𝑿 × 𝒔𝒀 Em que: 𝑟(𝑋,𝑌): Coeficiente de correlação linear amostral entre X e Y; 𝐶𝑜𝑣(𝑋, 𝑌): Covariância amostral entre a variável X e Y; 𝑠𝑋: Desvio padrão amostral da variável X; 𝑠𝑌: Desvio padrão amostral da variável Y. A correlação linear é obtida pelo pela divisão da covariância de (X, Y) com o produto dos desvios de X e Y. Essa metodologia de cálculo define especificamente o coeficiente de correlação linear de Pearson (𝑟), é de longe a metodologia mais cobrada em prova! A covariância é uma informação sobre a associação linear entre duas variáveis, no entanto, ela depende da unidade de medida e suas inferências são limitadas. Para superar esse problema, a covariância precisa ser convertida em um conjunto padrão de unidades (padronização). Assim, ao dividir a covariância pelo desvio padrão de X e Y, as unidades de medida se cortam e temos uma covariância padronizada, isto é, uma medida adimensional que pode fazer comparações sobre a associação de variáveis de qualquer outro fenômeno. Este é o coeficiente de correlação linear, uma informação mais independente https://www.alfaconcursos.com.br/ Professor: Rodolfo Schmit Turma: Carreira Policiais Data: 15/05/2021 ESTATÍSTICA MUDE SUA VIDA! 4 que a covariância para estudar a relação entre variáveis. O resultado do cálculo do coeficiente de correlação sempre estará compreendido entre -1 até +1. Então nunca se terá valores maior do que +1 ou menor do que -1. O resultado de correlação linear igual a zero indica que não há uma correlação linear entre as variáveis (cuidado! Dizer que não há correlação linear, não exclui o fato de existir correlações de outra natureza, como quadrática, cúbica, exponencial etc.). À medida que o resultado da correlação linear vai se afastando do zero, em direção aos extremos (-1 ou +1), aumenta-se a intensidade da força que une essas duas variáveis! Quando o resultado da fórmula é igual a – 1 ou a +1, então se diz que a correlação é máxima. Ou seja, é máxima a força que une as duas variáveis. Dessa maneira, correlação linear igual a +1 é dita correlação perfeita positiva, enquanto correlação linear igual a – 1 denomina-se correlação perfeita negativa. Vamos calcular o coeficiente de correlação, a partir do exemplo já trabalhado: OBJETO DE ESTUDO: Uma investigação analisa o tempo de decomposição de um corpo de delito (em minutos), e o respectivo peso (em kg) decomposto. Essa decomposição é analisada após o corpo ser exposto a um reagente. Foram analisados quatro fragmentos desse corpo. Variável X: Tempo de decomposição, em minutos; Variável Y: Peso do corpo de delito decomposto, em kg; Com o conhecimento da estatística descritiva, os desvios padrões de X e Y podem ser calculados. Os resultados ao efetuar esses cálculos seriam: 𝒔𝑿 =2,74 min 𝒔𝒀 =4,18 kg O valor da covariância é: 𝑪𝒐𝒗(𝑿, 𝒀) = 𝟏𝟎, 𝟕𝟓 𝒎𝒊𝒏. 𝒌𝒈 Assim, o coeficiente de correlação linear será igual a: 𝒓(𝑿,𝒀) = 𝑪𝒐𝒗(𝑿, 𝒀) 𝒔𝑿 × 𝒔𝒀 𝒓(𝑿,𝒀) = 𝟏𝟎, 𝟕𝟓 𝒎𝒊𝒏. 𝒌𝒈 𝟐, 𝟕𝟒 𝐦𝐢𝐧 × 𝟒, 𝟏𝟖 𝐤𝐠 𝒓(𝑿,𝒀) = 𝟏𝟎, 𝟕𝟓 𝒎𝒊𝒏. 𝒌𝒈 𝟐, 𝟕𝟒 𝐦𝐢𝐧 × 𝟒, 𝟏𝟖 𝐤𝐠 𝒓(𝑿,𝒀) = 𝟏𝟎, 𝟕𝟓 𝟐, 𝟕𝟒 × 𝟒, 𝟏𝟖 ≅ 𝟎, 𝟗𝟒 GRÁFICO DE DISPERSÃO (CORRELAÇÃO) Uma forma eficiente de averiguar a possibilidade de correlação entre duas variáveis é por meio do gráfico de dispersão ou de correlação. Vamos analisar um outro exemplo: OBJETO DE ESTUDO: Uma investigação policial tem o objetivo de estudar a correlação entre tráfico de armas ilegais, em mil kg de armas apreendidas, com o tráfico de drogas (X), em mil kg de drogas apreendidas (Y), na capital de São Paulo. Para esse estudo, foram coletados dados de cinco regiões da capital. https://www.alfaconcursos.com.br/ Professor: Rodolfo Schmit Turma: Carreira Policiais Data: 15/05/2021 ESTATÍSTICA MUDE SUA VIDA! 5 Segue as informações: Tráfico de Armas (X) 5 7 9 8 12 Tráfico de Drogas (Y) 1 3 4 5 8 Ao trabalhar com conjunto de dados pareados, é interessante identificar que cada amostra consiste em um par de informações das variáveis analisadas, vamos representar o tamanho dessa amostra por 𝑛(𝑥,𝑦). Assim, outra forma de apresentação de dados é: 𝒏(𝑿,𝒀) = {(𝟓, 𝟏); (𝟕, 𝟑); (𝟗, 𝟒); (𝟖, 𝟓); (𝟏𝟐, 𝟖)} Unindo todos os pares associados por um ponto em um plano cartesiano, temos o gráfico de dispersão com a seguinte forma: Ao observar o gráfico de dispersão, é possível identificar uma tendência de correlação, de modo que o aumento do tráfico de armas contribui para aumentar o tráfico de drogas. Pelo menos é o que se espera pela análise gráfica. Além disso, veja que a ideia de correlação linear evidencia a possibilidade de traçar uma reta sobre comportamento. É fácil perceber que é impossível unir os pontos em uma reta perfeita, todavia estes pontos estão dispostos em torno de uma reta, que não necessariamente passa por todos os pontos. Entenda: Portanto, é possível forma uma reta entre os pontos, no sentido crescente. Isso evidencia uma correlação linear positiva, porém não perfeita pois a reta não passa perfeitamente por todos os pontos. Assim, temos uma força parcial positiva entre as duas variáveis de modo que se comportam para mesma direção, obtendo um coeficiente de correlação linear positivo (0 < 𝑟 < 1). Vamos trabalhar esse mesmo raciocínio com outro exemplo. OBJETO DE ESTUDO: Um grupo de médicos analisa a correlação do tempo necessário para o efeito do medicamento no paciente (X), em minutos, em relação à dosagem aplicada do medicamento (Y), em mg/kg. Seguem os dados coletados: Tempo de Efeito (X) 30 24 15 18 8 Dose do Medicamento (Y) 3 4 6 7 9 Temos os seguintes pares de informação: 𝒏(𝑿,𝒀) = {(𝟑𝟎, 𝟑); (𝟐𝟒, 𝟒); (𝟏𝟓, 𝟔); (𝟏𝟖, 𝟕); (𝟖, 𝟗)} O gráfico de dispersão para esse estudo evidencia a seguinte informação: Agora nesse estudo, é possível verificar uma tendência inversa no comportamento entre duas variáveis. Ou seja, com aumento da dosagem do medicamente o tempo para o efeito no paciente é reduzido. Da mesma forma que no exemplo anterior, é possível traçar uma reta não perfeito entre os pontos: https://www.alfaconcursos.com.br/ Professor: Rodolfo Schmit Turma: Carreira Policiais Data: 15/05/2021 ESTATÍSTICA MUDE SUA VIDA! 6 Nesse estudo, é possível forma uma reta entre os pontos, no sentido decrescente. Isso evidencia uma correlação linear negativa, porém não perfeita pois a reta não passa exatamente por todos os pontos. Assim, temos uma força parcial negativa entre as duas variáveis de modo que se comportam para direções oposta, obtendo um coeficiente de correlação linear negativo (−1 < 𝑟 < 0). Outra possibilidade, ao avaliar a associação entre duas variáveis, é não encontrar uma correlação linear entre eles de modo que elas possam ocorrer independentemente ou apresentaram outro tipo de correlação. Nessa situação, pode ser ter a seguinte gráfica: Nessa situação, não é possível afirmar que existe uma correlação linear entre as variáveis de modo que os pontos se associam aleatoriamente sem haver uma força que contribui para influenciar os valores das variáveis. Nessa hipótese, teremos uma correlação linearnula (𝑟 = 0). Com isso, obtém-se todas formas de interpretação do coeficiente de correlação é as possíveis formas de detectar o fenômeno de associação entre variáveis com o valor obtido. Em síntese a tudo abordado, tem-se: REGRESSÃO LINEAR No estudo da correlação entre duas variáveis, foi verificado a existência de uma dependência (força) entre elas e como se comportavam em relação as suas variações. Uma vez caracterizado este efeito de correlação, procura-se descrever o comportamento de duas variáveis associadas, por meio de uma função matemática (uma equação de 1º grau). A estimação dos parâmetros dessa função matemática é o principal objetivo da regressão linear. Assim, aquela reta (tendência de comportamento linear) visualizada sob o gráfico de dispersão deve ser analisada e representada a partir de uma equação matemática. Em outras definições, quando dois fenômenos do mundo real possuem uma interação de modo que um interfere no outro, a análise de regressão tenta expressar matematicamente essa interação. A forma como isso pode ser estudado é obtendo dados sobre as características que representam o fenômeno (as variáveis), e a partir desses dados tentar aplicar um modelo estatístico. No caso específico da regressão linear, tenta-se representar essa interação por meio de função linear (uma modelagem estatística de função de 1º grau). Em síntese, a regressão linear tenta regredir o máximo de informações possíveis de um comportamento complexo que ocorre no mundo real em um simples modelo matemático. Por conseguinte, a forma para representar a relação entre duas variáveis X e Y por meio de uma regressão linear é dada pelo seguinte modelo estatístico: 𝒀𝒊 = 𝒂 + 𝒃𝑿𝒊 + 𝜺𝒊 Em que: 𝑌𝑖: Variável dependente que será explicada a partir do modelo de regressão linear; 𝑋𝑖: Variável Independente que explicará o comportamento de Y; 𝑎: Estimativa do parâmetro da constante de regressão; https://www.alfaconcursos.com.br/ Professor: Rodolfo Schmit Turma: Carreira Policiais Data: 15/05/2021 ESTATÍSTICA MUDE SUA VIDA! 7 𝑏: Estimativa do parâmetro do coeficiente de regressão. 𝜀𝑖:Erros da regressão (variável), desvios da reta estimada em relação ao comportamento observado; VARIÁVEL INDEPENDENTE (X) VERSUS VARIÁVEL DEPENDENTE (Y) Para estudar eficientemente a relação de duas variáveis, é necessário ter controle sobre os valores de uma variável. Essa variável é convenientemente a variável X, ao qual é denominada como a variável independente, pode também ser denominada de variável explicativa, regressora, preditora ou explanatória. A variável independente é a variável cuja variação é usada para explicar as variações da variável dependente. O importante é entender que a variável independente deve predizer o valor da variável Y, ou seja, Y é afetado por X. Para isso, é interessante que X seja uma variável em que os dados sejam de fácil obtenção pelo homem. Assim, temos que a variável X não depende de Y para ser quantificada, porém X deve conseguir satisfatoriamente explicar (predizer) as variações de Y. Se os valores de X são controlados para obter uma predição de Y com eficiência, então X é uma variável não aleatória. Em contraponto, a variável Y é a variável dependente, pois se tenta explicar sua variação a partir dos valores de X, ou seja, Y varia em função de X – baseado nessa ideia de função, podemos representar Y por f(X). A variável pode também ser denominada por variável resposta, explicada ou predita. Assim, Y é a variável cuja variação será explicada pela outra variável, a independente. As variações dos valores de Y ocorrem aleatoriamente, no entanto, por meio da análise de regressão linear, espera-se explicar esse comportamento aleatório. Então, para que a análise de regressão funcione corretamente, a primeira pressuposição é obter uma variável X independente que possa explicar, em maior parte, o comportamento de outra variável Y. Na correlação linear, trabalha-se apenas os dados de duas variáveis quaisquer e quantifica-se o grau de associação entre elas. Na regressão linear, precisamos ter uma relação de causa e efeito clara, para fazer um estudo eficiente sobre a forma da relação entre as variáveis. Desse modo, é preciso que uma delas seja independente e tenha seus valores controlados pelo homem. Isso precisa ser planejado previamente na coleta de dados, caso contrário uma pressuposição básica da análise de regressão não será atendida, e não teremos um modelo de regressão linear confiável. Vamos ver alguns exemplos práticos de variáveis independente e dependente: A quantidade de uma substância específica no corpo de um cadáver que permite estimar o tempo após a morte da vítima; Variável Independente (X): quantidade da substância presente no cadáver (mg/kg); Variável Dependente (Y): tempo após a morte da vítima (horas); O número de vagas em um concurso que permite modelar uma estimativa da quantidade de inscritos; Variável Independente (X): número de vagas em um concurso; Variável Dependente (Y): número de inscritos em um concurso; A partir do valor investido em marketing na empresa, estimar a as vendas obtidas; Variável Independente (X): investimento em marketing (R$); Variável Dependente (Y): vendas da empresa (R$); Mensuração das dobras cutâneas do corpo humano para estimar o índice de gordura; Variável Independente (X): comprimento das dobras cutâneas (cm); Variável Dependente (Y): índice de gordura corporal (%); Mensurar a temperatura superficial de uma estrada para estimar a dilatação da pavimentação; Variável Independente (X): temperatura superficial da estrada (ºC); Variável Dependente (Y): dilatação da pavimentação (cm); https://www.alfaconcursos.com.br/ Professor: Rodolfo Schmit Turma: Carreira Policiais Data: 15/05/2021 ESTATÍSTICA MUDE SUA VIDA! 8 CONSTANTE DE REGRESSÃO - INTERCEPTO (A) A constante de regressão é um parâmetro da regressão (representada por 𝑎) que consiste no valor da variável dependente Y sem a interferência (ou ocorrência) da variável preditora X. Em outras palavras, é a observação da variável Y, quando X for igual a zero. Na equação de uma reta, 𝑎 também denominado de intercepto ou coeficiente de linear. Pode ser visualizada constante de regressão como o ponto da reta que intercepta o eixo Y. Veja: O ponto representado na reta de regressão simboliza o valor correspondente ao par de informação em que X é nulo e Y apresenta um valor 𝑎 (uma constante de regressão). Desse modo, essa seria a informação isolada de Y caso não houvesse a interferência de X. Vamos aplicar esse conceito sobre uma reta de regressão ajustada que representa a relação entre taxa de analfabetismo (X), em %, com valor de mercadorias ilegais apreendidas (Y), em mil R$. Imagine, hipoteticamente, que o estudo sobre essas variáveis apresentou o seguinte modelo de regressão linear: Nesse modelo, podemos inferir que, em regiões onde não há analfabetismo (taxa de 0%), ainda se encontra a ocorrência de contrabando ilegal de mercadorias em que se espera apreender um valor de R$ 1,5 mil. Isso evidencia que mesmo sem a contribuição da taxa de analfabetismo ainda existe o contrabando, isto é, Y existe mesmo sem ocorrer X. A constante de regressão apresenta a mesma unidade de medida da variável Y, nesse exemplo, 𝑎 = 𝑅$ 1,5 𝑚𝑖𝑙. COEFICIENTE DE REGRESSÃO (b) O coeficiente de regressão, representado pela letra 𝑏, é a informação mais importante de um modelo de regressão linear, pois é a partir desse coeficiente que temos a contribuição da variável X em relação a variável Y. O parâmetro 𝑏 na equação de uma reta representa a inclinação da reta ou também denominado coeficiente angular. Em outras definições, 𝑏 representa quantas unidades de Y (variável dependente) são afetadas com ocorrênciade mais uma unidade de X. Vamos abordar esse conceito sobre o mesmo exemplo da relação de taxa de analfabetismo com contrabando de mercadorias: Nessa reta, foram identificados dois pontos: o primeiro indica que com 10% de taxa de analfabetismo, estima-se um contrabando de R$ 35,5 mil; o segundo indica que com 11% na taxa de analfabetismo, estima-se um contrabando de R$ 38,9 mil. Na variação desses pontos, pode ser observado que um acréscimo de 1% da variável X (taxa de analfabetismo) contribui na acréscimo do contrabando da região em R$ 3,4 mil, exatamente o valor de 𝑏. Portanto, o coeficiente de regressão de 3,4, nesse exemplo, representa que, a cada 1% da taxa de analfabetismo, há uma contribuição no contrabando de mercadorias de R$ 3,4 mil. Na equação de uma reta, o coeficiente de regressão é a inclinação da reta, ou seja, é a tangente do ângulo formado pela reta com o eixo X. Pode também ser calculado pela variação de dois pontos de Y divido pela variação dos dois pontos de X respectivo. Entenda: https://www.alfaconcursos.com.br/ Professor: Rodolfo Schmit Turma: Carreira Policiais Data: 15/05/2021 ESTATÍSTICA MUDE SUA VIDA! 9 Desse modo, conforme os dois pontos apresentados pelo exemplo (10; 35,5) e (11;38,9), teríamos o seguinte cálculo para 𝑏: 𝒃 = 𝟑𝟖, 𝟗 − 𝟑𝟓, 𝟓 𝟏𝟏 − 𝟏𝟎 = 𝟑, 𝟒 𝟏 = 𝟑, 𝟒 𝒎𝒊𝒍 𝑹$ / % A unidade de medida de 𝑏 sempre será a unidade de medida Y sobre a unidade de medida de X. Com essa unidade, define-se 𝑏 = 3,4 como um acréscimo de R$ 3,4 mil na ocorrência de contrabando para cada um 1% da taxa de analfabetismo. Ao compreender esse conceito, podemos entender a influência que o parâmetro 𝑏 causa na regressão linear. O sinal de 𝑏 determina se a reta é crescente (+𝑏) ou descrente (−𝑏), ou seja, um valor de 𝒃 positivo indica que X contribui para aumenta Y, enquanto 𝒃 negativo indica que X contribui para reduzir Y. Caso o valor de 𝑏 for nulo, não existe uma regressão linear, apenas uma constante, isto é, X não afeta o valor de Y. Entenda: Além do sinal, o valor em módulo de 𝑏 evidencia a inclinação da reta, isto é, valores 𝑏 mais distantes de zero inclinam a reta de regressão para o eixo-- vertical (eixo Y), enquanto valores de 𝑏 mais próximos de zero inclinam a reta de regressão para o eixo horizontal (eixo X). ERROS DA REGRESSÃO (𝜺𝒊) Ao representar a relação de duas variáveis a partir de um modelo de regressão, é natural que não seja possível captar toda a variação de Y em função X no modelo de regressão linear. Assim, existirá uma variação de Y em função de X que não será explicada pelo modelo de regressão linear, essa variação denomina-se de erros da regressão (ou resíduos), representado por 𝜀𝑖 . No gráfico da regressão linear, esses erros são representados pelos pontos que não passam pela reta, isto é, os erros da regressão consistem nos desvios entre o ponto em relação a reta. Entenda: O modelo de regressão linear, dado por �̂�𝒊 = 𝒂 + 𝒃𝑿𝒊, tenta predizer um valor Y a partir de um valor de X conhecido. Assim, ao obter um valor de Y a partir de X, utilizando o modelo de regressão, temos um valor estimado �̂�. Esse valor corresponde exatamente ao valor traçado pela reta. Contudo, é comum que o valor Y observado (representado pelo ponto) não seja exatamente aquele �̂� estimado pela reta. Nesse sentido, temos que os erros da regressão é representado por: 𝜺𝒊 = 𝒀𝒊 − �̂�𝒊 Portanto, os erros 𝜀𝑖 ilustrados no gráfico são explicados pela diferença (vertical) entre o valor observado 𝑌𝑖 (referente ao ponto) e o valor estimado �̂�𝑖 (valor exato traçado pela reta). https://www.alfaconcursos.com.br/ Professor: Rodolfo Schmit Turma: Carreira Policiais Data: 15/05/2021 ESTATÍSTICA MUDE SUA VIDA! 10 PRESSUPOSIÇÕES DA REGRESSÃO LINEAR Diante de todo exposto, foi estudado os componentes que integram o modelo de uma regressão linear. Em síntese a tudo abordado, podemos definir que um modelo de regressão linear apresenta as seguintes informações: Para que esse modelo de regressão seja alcançado eficientemente, as seguintes pressuposições devem ser atendidas: A relação entre X e Y é linear (os acréscimos/decréscimo em X produzem acréscimos/decréscimo proporcionais em Y e a razão de crescimento é constante); Os valores de X são fixados arbitrariamente (X não é uma variável aleatória); Y é uma variável aleatória que depende, entre outras coisas, dos valores de X; O erro aleatório é uma variável aleatória com distribuição normal, com média zero e variância 𝜎𝑒 2. [ 𝜀𝑖~ N (0, 𝜎𝑒 2)]. 𝜀𝑖 representa a variação de Y que não é explicada pela variável independente X; Os erros são considerados independentes. ESTIMATIVA DO 𝒃 Para obtenção do coeficiente de regressão linear (𝑏) a partir de uma amostra de pares ordenados, é necessário aplicar a seguinte fórmula: 𝒃 = 𝑪𝒐𝒗(𝑿, 𝒀) 𝒔𝑿 𝟐 Portanto, o coeficiente de regressão linear pode ser obtido pela divisão entre a covariância (X,Y) com a variância de X. O que define se o sinal de 𝑏 e faz com que a reta de regressão seja crescente ou decrescente é a covariância (assim como na correlação), já que ela quantifica a variação associada e direção dessas variações. Conforme o primeiro exemplo abordado, veja o cálculo: OBJETO DE ESTUDO: Uma investigação analisa o tempo de decomposição de um corpo de delito (em minutos), e o respectivo peso (em kg) decomposto. Essa decomposição é analisada após o corpo ser exposto a um reagente. Foram analisados quatro fragmentos desse corpo. Variável X: Tempo de decomposição, em minutos; Variável Y: Peso do corpo de delito decomposto, em kg; Com o conhecimento da estatística descritiva, os desvios padrões de X e Y podem ser calculados. Os resultados ao efetuar esses cálculos seriam: 𝒔𝑿 𝟐 = (𝟐, 𝟕𝟒 𝒎𝒊𝒏)𝟐 = 𝟕, 𝟓 𝒎𝒊𝒏𝟐 𝑪𝒐𝒗(𝑿, 𝒀) = 𝟏𝟎, 𝟕𝟓 𝒎𝒊𝒏. 𝒌𝒈 Assim, o valor coeficiente de regressão b será: 𝒃 = 𝑪𝒐𝒗(𝑿, 𝒀) 𝒔𝑿 𝟐 𝒃 = 𝟏𝟎, 𝟕𝟓 𝒎𝒊𝒏. 𝒌𝒈 𝟕, 𝟓 𝒎𝒊𝒏𝟐 𝒃 = 𝟏𝟎, 𝟕𝟓𝒌𝒈 𝟕, 𝟓 𝒎𝒊𝒏 = 𝟏, 𝟒𝟑 𝒌𝒈 𝒎𝒊𝒏 Portanto, observa-se que, a cada um minuto de exposição, a substância decompõe 1,43 kg do corpo de https://www.alfaconcursos.com.br/ Professor: Rodolfo Schmit Turma: Carreira Policiais Data: 15/05/2021 ESTATÍSTICA MUDE SUA VIDA! 11 delito. Em outras palavras, temos a contribuição de X na variação de Y. ESTIMATIVA DO 𝒂 A constante de regressão 𝑎 pode ser calculada a partir da seguinte expressão: 𝒂 = �̅� − 𝒃�̅� Para obter 𝑎 por meio dessa fórmula, é preciso já ter estimado o valor de 𝑏. Essa fórmula pode ser explicada facilmente pelo assunto na abordado em transformação de variáveis. Veja que a equação da reta nada mais é que uma transformação da variável X em Y. Nessa ideia, sabemos que a média sofre efeito de multiplicação/divisão e soma/subtração, portanto, o valor médio de X seria multiplicado/divido por 𝑏 e somado/subtraído por 𝑎 para obter o valor médio de Y. Como não sabemos o valor de 𝑎, basta isolar: �̅� = 𝒂 + 𝒃�̅� → 𝒂 = �̅� − 𝒃�̅� Conforme o exemplo construído, temos a seguinte constante de regressão: �̅� = 𝟐 + 𝟑 + 𝟔 + 𝟗 𝟒 = 𝟐𝟎 𝟒 = 𝟓 𝒎𝒊𝒏𝒖𝒕𝒐𝒔 �̅� = 𝟓 + 𝟕 + 𝟖 + 𝟏𝟔 𝟒 = 𝟑𝟔 𝟒 = 𝟗 𝒌𝒈 𝒃 = 𝟏, 𝟒𝟑 𝒌𝒈 𝒎𝒊𝒏 𝒂 = 𝟗 − 𝟏, 𝟒𝟑 × 𝟓 𝒂 = 𝟏, 𝟖𝟓 𝒌𝒈 Portanto, no instante 0, a substância seria capaz de decompor 1,85 kg. ESTIMATIVA DE �̂� PELA RETA DE REGRESSÃO Após estimar os parâmetros 𝑎 e 𝑏, obtém-se a seguinte reta de regressão linear: Por meio dessa equação de primeiro grau, podemos estimar o peso que será decomposto pela substância (�̂�) após um determinado tempo de exposição. Por exemplo, qual o peso que será decomposto do corpo de delito após 4 minutos (X=4) de decomposição? Para isso basta aplicara equação da reta: RELAÇÃO ENTRE B X R Ao conhecer as fórmulas que definem o coeficiente de regressão linear (𝑏) e o coeficiente de regressão (𝑟), podemos encontrar uma relação importante entre essas duas medidas. Ao analisar as fórmulas de 𝑏 e 𝑟 em função de X e Y, obtém-se a seguinte relação: 𝒃 = 𝑪𝒐𝒗(𝑿, 𝒀) 𝒔𝑿 𝟐 𝐫 = 𝐂𝐨𝐯(𝐗, 𝐘) 𝐬𝐗 × 𝐬𝐘 𝒃 = 𝑪𝒐𝒗(𝑿, 𝒀) 𝒔𝑿 × 𝒔𝑿 𝐫 = 𝐂𝐨𝐯(𝐗, 𝐘) 𝐬𝐗 × 𝐬𝐘 𝒃 × 𝒔𝑿 = 𝑪𝒐𝒗(𝑿, 𝒀) 𝒔𝑿 𝐫 × 𝐬𝐘 = 𝐂𝐨𝐯(𝐗, 𝐘) 𝐬𝐗 𝒃 × 𝒔𝑿 = 𝐫 × 𝐬𝐘 https://www.alfaconcursos.com.br/ Professor: Rodolfo Schmit Turma: Carreira Policiais Data: 15/05/2021 ESTATÍSTICA MUDE SUA VIDA! 12 ANÁLISE DE VARIÂNCIA DA REGRESSÃO O modelo básico da regressão linear expressa a relação de X e Y por meio de uma equação da reta. Em adição, o teste de hipótese do coeficiente de regressão verifica a existência significativa dessa relação linear entre X e Y. Além desses procedimentos, é necessário utilizar a análise de variância para obter o quanto a reta de regressão explica os valores observados de Y utilizados para o ajuste. Portanto, a análise de variância tem o objetivo de quantificar a dispersão da regressão linear, analisando o quanto o modelo linear explica o comportamento de Y e o quanto não pode ser explicado. Sobretudo, ao efetuarmos uma análise de regressão, parte da variação de Y é explicada em função da variação de X (por meio da reta de regressão �̂�𝑖 = 𝑎 + 𝑏𝑋𝑖); a outra parte da variação é causada por fatores aleatórios não explicados pelo modelo (𝜀𝑖). Desse modo, toda a dispersão (ou variabilidade) de uma regressão linear (variação total da regressão) pode ser expressa pelos seguintes componentes: Esse é a essência da análise de variância da regressão: quantificar os componentes causadores da variação de Y e evidenciar a capacidade do modelo de regressão linear em explicar a variação de Y. COMPONENTES DA VARIÂNCIA DA REGRESSÃO O primeiro passo para compreender a análise de variância da regressão é particionar e estudar os dois componentes da variação total de Y. É necessário entender o que cada componente representa sobre os valores da variável dependente Y e como eles podem ser quantificados e representados matematicamente. A variabilidade de qualquer variável Y é mensurada a partir dos desvios em relação à sua média (𝑌𝑖 − �̅�), esses são os desvios que quantificam a variação total de Y. No entanto, na regressão linear, cada desvio em relação à média é composto: pelo desvio da observação Y em relação ao valor estimado pela regressão (𝑌𝑖 − �̂�𝑖), que consiste no erro de regressão; e pelos os desvios do valor estimado em relação a média (�̂�𝑖 − �̅�), que consiste na dispersão captada (explicada) pela regressão linear. Com isso, temos que cada desvio (a unidade de dispersão de uma variável), na regressão linear, é denotado por: 𝑫𝒆𝒔𝒗𝒊𝒐 𝑻𝒐𝒕𝒂𝒍 𝒅𝒆 𝒀𝒊 = 𝑫𝒆𝒔𝒗𝒊𝒐 Explicado pela Regressão + Desvio do Erro de Regressão Assim, cada observação de Y apresenta um desvio em relação à sua média, sendo composto por uma parte explicada pela regressão e outra devido fatores aleatórios (não explicados). Matematicamente, um desvio de Y pode ser representado por: Em que: 𝑌𝑖: são os valores observados da variável Y, que fazem o par com os valores X; �̂�𝑖: são os valores da variável Y estimados pela reta de regressão; �̅�: é a média da variável Y. Ao observar a construção de uma regressão linear, podemos identificar, graficamente, o desvio da variável Y e seus partição em componentes – explicado e não explicado pela regressão –, entenda: O primeiro gráfico ilustra a dispersão dos pontos (valores observados de Y) em relação a sua centralidade (média �̅�). Nesse gráfico, podemos observar o desvio de um ponto especificamente em relação a média, formando o desvio total. Ao construir uma regressão linear entre X e Y, no segundo gráfico, observa-se que esse desvio total é particionado por um desvio explicado pela regressão e um desvio devido ao erro da regressão (causa aleatórias não explicada). Portanto, observando um ponto específico podemos ter a seguinte representação de um desvio: https://www.alfaconcursos.com.br/ Professor: Rodolfo Schmit Turma: Carreira Policiais Data: 15/05/2021 ESTATÍSTICA MUDE SUA VIDA! 13 Até o momento, estamos analisando a composição de apenas um desvio de uma observação. Contudo, sabe-se que a regressão é composta por vários pontos e cada um possui seu respectivo desvio. Assim, para representar toda a variabilidade da variável Y submetida a regressão linear, é necessário ter os somatórios e todos os desvios. Porém, ao se falar de desvios em relação à média, sabe-se que seu somatório é zero, e, para evitar esse problema, cada desvio é elevado ao quadrado. Desse modo, tem-se o somatório dos desvios ao quadrado, ou também denominado de variação, ou então de soma dos quadrados: O termo ∑(𝒀𝒊 − �̅�) 𝟐 é denominado de Soma dos Quadrados Totais (SQT) ou Variação Total, quantifica a variabilidade total da variável Y em torno da sua média; O termo ∑(�̂�𝒊 − �̅�) 2 é denominado de Soma dos Quadrados Explicados pela Regressão (SQE), ou Variação Explicada, quantifica a variabilidade de Y estimado pela regressão em torno da média, isto é, representa a parte do SQT explicada pela regressão de Y em função de X; O termo ∑(𝒀𝒊 − �̂�𝒊) 2 é denominado de Soma dos Quadrados dos Resíduos (SQR), ou Variação Não Explicada, quantifica a variabilidade de 𝑌 observado com o �̂� estimado pela reta de regressão, isto é, o que não explicado pela regressão de Y em função de X. Assim, outra notação que pode ser usada para representar os componentes da variabilidade de Y é: 𝑺𝑸𝑻 = 𝑺𝑸𝑬 + 𝑺𝑸𝑹 Após obter os valores dos desvios ao quadrado, podemos determinar a variância de cada componente. Para isso, basta dividir cada soma dos quadrados (ou variação) pelo seu respectivo grau de liberdade. Assim, temos que a soma dos quadrados dividida pelos respectivos graus de liberdade gera a variância, que também é denominado de Quadrado Médio (QM). Portanto: 𝑺𝑸𝑻 corresponde a variação total de Y, desse modo, seus graus de liberdade correspondem a 𝒏 − 𝟏 e com isso obtém- se a variância de Y (𝑠𝑌 2), ou o quadrado médio total: 𝑸𝑴𝑻 = 𝑺𝑸𝑻 𝒏 − 𝟏 = ∑(𝒀𝒊 − �̅�) 𝟐 𝒏 − 𝟏 𝑺𝑸𝑬 corresponde a variação explicada pela regressão linear, desse modo, o grau de liberdade corresponde a 1, pois temos apenas um coeficiente de regressão 𝑏 (uma variável independente X) explicando a variação de Y (em regressões múltiplas, os graus de liberdade correspondem ao número de variáveis independentes). Com isso, obtém a variância explicada ou quadrado médio explicado pela regressão: 𝑸𝑴𝑬 = 𝑺𝑸𝑬 𝟏 = ∑(�̂�𝒊 − �̅�) 2 𝟏 𝑺𝑸𝑹 corresponde a variação não explicada pela regressão linear, desse modo, os graus de liberdade correspondem ao resto para completar o total, ou seja, se o total de graus de liberdade é 𝑛 − 1, e 1 grau de liberdade corresponde ao componente explicado, o resíduo terá 𝒏 − 𝟐 graus de liberdade. Com isso, obtém a variância não explicada ou quadrado médio dos resíduos: 𝑸𝑴𝑬 = 𝑺𝑸𝑹 𝒏 − 𝟐 = ∑(𝒀𝒊 − �̂�𝒊) 𝟐 𝒏 − 𝟐 Por fim, podemos representar todos os componentes da variância de uma regressão linear simples a partir de uma tabela: Causas de Variação Graus de Liberdade Soma dos Quadrados (ou Variação) Quadrado Médio (ou Variância) Explicada (Regressão) 1 SQE 𝑸𝑴𝑬 = 𝑺𝑸𝑬 𝟏 Resíduo (Erro) 𝒏 − 𝟐 SQR 𝑸𝑴𝑬 = 𝑺𝑸𝑹 𝒏 − 𝟐 Total 𝒏 − 𝟏 SQT 𝑸𝑴𝑬 = 𝑺𝑸𝑻 𝒏 − 𝟏 COEFICIENTE DE DETERMINAÇÃO (𝒓𝟐) https://www.alfaconcursos.com.br/ Professor: Rodolfo Schmit Turma: Carreira Policiais Data: 15/05/2021 ESTATÍSTICA MUDE SUA VIDA!14 Conhecendo os componentes da variância da regressão, podemos definir um novo coeficiente muito aplicado na análise de regressão. O r2 é denominado de coeficiente de determinação (ou explicação), pois consiste na proporção da variação total de Y que é explicada pela regressão linear (pela variação da variável independente X), em outras palavras, esse coeficiente determina o poder explicativo de um modelo de regressão linear. O poder explicativo da regressão tem por objetivo avaliar a “qualidade” do ajuste da reta de regressão aos pontos (X, Y). Baseado nesse conceito, podemos obter o coeficiente de determinação a partir da seguinte proporção: 𝐫𝟐 = 𝑽𝒂𝒓𝒊𝒂çã𝒐 𝑬𝒙𝒑𝒍𝒊𝒄𝒂𝒅𝒂 𝒑𝒆𝒍𝒂 𝑹𝒆𝒈𝒓𝒆𝒔𝒔ã𝒐 𝑽𝒂𝒓𝒊𝒂çã𝒐 𝑻𝒐𝒕𝒂𝒍 𝐫𝟐 = 𝑺𝑸𝑬 𝑺𝑸𝑻 Com esse cálculo, obtém a proporção (ou porcentagem) do quanto o modelo de regressão linear explica o comportamento variável de Y. Sobretudo, como a variação explicada se trata de um componente do total, o valor de r2 sempre irá oscilar entre 0 até 1 (0 a 100%). Se r2 é próximo de 1, isso significa que a variação explicada responde por uma grande percentagem da variação total, isto é, o modelo de regressão linear explica eficientemente a variação de Y. Por outro lado, valores de r2 próximos de zero indicam que há muito variação de Y não explicada pelo modelo de regressão, isto é, muitas variações devido a fatores aleatórios. Em síntese, o ajustamento da reta de regressão aos pontos observados é mais eficiente quanto mais perto de 1 estiver o valor do coeficiente de determinação r2. Se 𝑟2 = 0,81, por exemplo, indica que aproximadamente 81% da variação em Y está relacionada com a variação de X e é explicada eficientemente pelo modelo linear. Em contraponto, 19% da variação em Y não é explicada em função de X. Esse coeficiente, não por acaso, é representado por 𝑟2, pois trata-se do coeficiente de correlação 𝒓 elevado ao quadrado. Ou seja, quanto maior a correlação linear (força de associação) entre uma variável (X,Y), maior é eficiência de explicar Y em função de X por um modelo de regressão linear. 𝒓𝟐 = (𝒓)𝟐 𝑪𝒐𝒆𝒇𝒊𝒄𝒊𝒆𝒏𝒕𝒆 𝒅𝒆 𝑫𝒆𝒕𝒆𝒓𝒎𝒊𝒏𝒂çã𝒐 = (𝑪𝒐𝒆𝒇𝒊𝒄𝒊𝒆𝒏𝒕𝒆 𝒅𝒆 𝑪𝒐𝒓𝒓𝒆𝒍𝒂çã𝒐)𝟐 É muito comum questões de Estatística cobrarem sobre coeficiente de correlação, a partir da análise de variância da regressão. Para obter o resultado, basta encontrar a proporção que representa o coeficiente de determinação e extrair a raiz quadrada. O contrário também é comum, ou seja, em questões de correlação perguntar o valor de r2. Essa igualdade resolve facilmente esses tipos de questões. Veja que não conseguimos definir o sinal da correlação, para isso é preciso observar a relação entre as variáveis. Vejamos o que ocorre com a Soma dos Quadrados em duas situações particulares: Correlação Perfeita (𝑟 = 1 ou 𝑟 =– 1): Nessa situação, a reta ajustada passa exatamente sobre todos os pontos observados. Assim, todos os erros são iguais a zero, e a regressão linear explica toda a variação de Y. Logo: SQR = 0 SQT = SQE Coeficiente de Determinação (r2) = 100% Correlação Nula (𝒓 = 𝟎): Nesse caso, a reta de regressão é paralela ao eixo X (coeficiente angular “𝑏” igual a zero). A reta de regressão não consegue explicar as variações de Y e praticamente não passa por nenhum ponto, logo: SQE = 0 SQT = SQR https://www.alfaconcursos.com.br/ Professor: Rodolfo Schmit Turma: Carreira Policiais Data: 15/05/2021 ESTATÍSTICA MUDE SUA VIDA! 15 Coeficiente de Determinação (r2) = 0 EXERCÍCIOS COVARIÂNCIA E CORRELAÇÃO LINEAR 1. (CESPE – IPHAN – Analista – 2018) O diagrama de dispersão é adequado para se descrever o comportamento conjunto de duas variáveis quantitativas. Cada ponto do gráfico representa um par de valores observados. Certo ( ) Errado ( ) (CESPE – DEPEN – Agente de Execução Penal – Área 4 – 2015) Dado que a participação dos presidiários em cursos de qualificação profissional é um aspecto importante para a reintegração do egresso do sistema prisional à sociedade, foram realizados levantamentos estatísticos, nos anos de 2001 a 2009, a respeito do valor da educação e do trabalho em ambientes prisionais. Cada um desses levantamentos, cujos resultados são apresentados no gráfico, produziu uma estimativa anual do percentual P de indivíduos que participaram de um curso de qualificação profissional de curta duração, mas que não receberam o diploma por motivos diversos. Em 2001, 69,4% dos presidiários que participaram de um curso de qualificação profissional não receberam o diploma. No ano seguinte, 2002, esse percentual foi reduzido para 61,5%, caindo, em 2009, para 30,9%. 2. O gráfico apresentado — em que é mostrada a dispersão entre os percentuais anuais P e os anos — sugere que a variável ano e P sejam dependentes. Certo ( ) Errado ( ) variável 2003 2004 2005 2006 2007 Exportação X 40 46 50 52 54 Importação Y 20 21 22 24 27 total X + Y 60 67 72 76 81 (CESPE – ANTAQ – Técnico em Regulação – 2009) Considerando a tabela acima, que apresenta a movimentação anual de cargas no porto de Santos de 2003 a 2007, em milhões de toneladas/ ano e associa as quantidades de carga movimentadas para exportação e importação às variáveis X e Y, respectivamente, julgue o item subsequente. 3. As séries estatísticas apresentadas na tabela formam três séries temporais. Certo ( ) Errado ( ) 4. Historicamente, de 2003 a 2007, a quantidade exportada X foi, pelo menos, duas vezes maior que a quantidade importada Y. Certo ( ) Errado ( ) 5. A quantidade de carga movimentada para exportação em 2007 foi, pelo menos, 35% maior que a quantidade de carga movimentada para exportação em 2003. Certo ( ) Errado ( ) https://www.alfaconcursos.com.br/ Professor: Rodolfo Schmit Turma: Carreira Policiais Data: 15/05/2021 ESTATÍSTICA MUDE SUA VIDA! 16 6. A variância da soma X+Y é igual à soma das variâncias de X e de Y. Certo ( ) Errado ( ) 7. A correlação linear entre X e Y é positiva. Certo ( ) Errado ( ) (CESPE – TCU – Auditor Federal de Controle Externo – 2008) Uma agência de desenvolvimento urbano divulgou os dados apresentados na tabela a seguir, acerca dos números de imóveis ofertados (X) e vendidos (Y) em determinado município, nos anos de 2005 a 2007. 8. O coeficiente de correlação linear entre X e Y é inferior a 0,8. Certo ( ) Errado ( ) (CESPE – BACEN – Analista – 2000) Um auditor está interessado em estudar a relação entre consumo de gasolina − y, em litros − e distância percorrida em uma cidade − x, em quilômetros − para certo modelo· de carro. Para isso, ele obteve uma amostra de n = 25 carros e registrou a distância percorrida e o consumo de gasolina correspondente, em certo período de tempo. Considere o modelo de regressão yi=α+bxi+ui, para i=1,2...,25, em que os erros ui são independentes e normalmente distribuídos, com média 0 e desvio- padrão σu, e os 25 pares de valores apresentados no gráfico abaixo. 9. O coeficiente de correlação de Pearson entre os valores de x e de y é igual a 1. Certo ( ) Errado ( ) 10. (CESPE – TCE/PR – Analista de Controle – 2016) Se satisfação no trabalho e saúde no trabalho forem indicadores com variâncias populacionais iguais a 8 e 2, respectivamente, e se a covariância populacional entre esses indicadores for igual a 3, então a correlação populacional entre satisfação no trabalho e saúde no trabalho será igual a: a) 0,8125 b) 1 c) 0,1875 d) 0,3 e) 0,75 https://www.alfaconcursos.com.br/ Professor: Rodolfo Schmit Turma: Carreira Policiais Data: 15/05/2021 ESTATÍSTICA MUDE SUA VIDA! 17 (CESPE – STF – Analista Judiciário – 2013) Pedro e João são os oficiais de justiça no plantãodo fórum de determinado município. Em uma diligência distribuída a Pedro, X é a variável aleatória que representa o sucesso (X = 1) ou fracasso (X = 0) no cumprimento desse mandado. Analogamente, Y é a variável aleatória que representa o sucesso (Y = 1) ou fracasso (Y = 0) de uma diligência do oficial João. Com base nessa situação hipotética e considerando a soma S = X + Y, e que P(X = 1) = P(Y = 1) = 0,6 e E(XY) = 0,5, julgue o item que se segue, acerca das variáveis aleatórias X, Y e S. 11. A correlação linear entre as variáveis X e Y é superior a 0,6. Certo ( ) Errado ( ) 12. A variável aleatória S segue uma distribuição binomial com parâmetros n = 2 e p = 0,6. Certo ( ) Errado ( ) 13. (CESPE – ANP – Especialista em Regulação – 2013) A correlação nula entre duas variáveis indica que há independência entre essas variáveis. Certo ( ) Errado ( ) 14. (CESPE – MS – Estatístico – 2010) Se o coeficiente de correlação linear entre as variáveis é igual a zero, então não existe nenhuma relação entre as variáveis X e Y. Certo ( ) Errado ( ) (CESPE – ANAC – Especialista em Regulação – 2009) Considere duas variáveis aleatórias, V e Z, em que V possui distribuição binomial com n = 1 e p = 0,2, enquanto Z possui distribuição binomial com n = 1 e p = 0,8. Considerando que a covariância entre V e Z é igual a 0,04, julgue o item que se segue. 15. O coeficiente de correlação entre V e Z é superior a 0,20. Certo ( ) Errado ( ) 16. As variáveis V e Z são independentes. Certo ( ) Errado ( ) 17. (CESPE – Polícia Federal – Papiloscopista – 2012) Considere que a covariância e a correlação linear entre as variáveis X e Y sejam, respectivamente, iguais a 5 e 0,8. Suponha também que a variância de X seja igual a quatro vezes a variância de Y. Nesse caso, é correto afirmar que a variância de X é igual a 2. Certo ( ) Errado ( ) MODELO DE REGRESSÃO LINEAR (CESPE – Polícia Federal – Estatístico – 2004) Entre janeiro e novembro de 2003, foi realizado um estudo para avaliar o número mensal de ocorrências, por 1.000 habitantes, registradas em delegacias de determinada região. Para esse estudo, foi considerado o modelo de regressão linear simples na forma Y=a+βX+ϵ, em que X é uma variável que representa os meses e assume valores discretos 0, 1, 2, ..., 10, e Y representa o número de ocorrências por 1.000 habitantes registradas no respectivo mês X. Parte do objetivo desse estudo é estimar os coeficientes a e β. O erro aleatório é representado por ϵ. https://www.alfaconcursos.com.br/ Professor: Rodolfo Schmit Turma: Carreira Policiais Data: 15/05/2021 ESTATÍSTICA MUDE SUA VIDA! 18 As tabelas abaixo apresentam parte dos resultados do ajuste e da análise de variância. 18. A média de Y é superior a 50,5. Certo ( ) Errado ( ) 19. Caso se mantivesse a tendência dos meses de janeiro a novembro, a estimativa do número de ocorrências por 1.000 habitantes para dezembro de 2003 seria de 50,6 ocorrências por 1.000 habitantes. Certo ( ) Errado ( ) 20. No modelo apresentado, X é uma variável aleatória discreta. Certo ( ) Errado ( ) (CESPE – Polícia Federal - Escrivão - 2018) O intervalo de tempo entre a morte de uma vítima até que ela seja encontrada (y em horas) denomina-se intervalo post mortem. Um grupo de pesquisadores mostrou que esse tempo se relaciona com a concentração molar de potássio encontrada na vítima (x, em mmol/dm3). Esses pesquisadores consideraram um modelo de regressão linear simples na forma y = ax + b + ε, em que a representa o coeficiente angular, b denomina-se intercepto, e ε denota um erro aleatório que segue distribuição normal com média zero e desvio padrão igual a 4. As estimativas dos coeficientes a e b, obtidas pelo método dos mínimos quadrados ordinários foram, respectivamente, iguais a 2,5 e 10. O tamanho da amostra para a obtenção desses resultados foi n = 101. A média amostral e o desvio padrão amostral da variável x foram, respectivamente, iguais a 9 mmol/dm3 e 1,6 mmol/dm3 e o desvio padrão da variável y foi igual a 5 horas. 21. A média amostral da variável resposta y foi superior a 30 horas. Certo ( ) Errado ( ) 22. De acordo com o modelo ajustado, caso a concentração molar de potássio encontrada em uma vítima seja igual a 2 mmol/dm3, o valor predito correspondente do intervalo post mortem será igual a 15 horas. Certo ( ) Errado ( ) (CESPE – TCE/PA – Auditor de Controle Externo – 2016) Uma regressão linear simples é expressa por Y = a + b×X + e, em que o termo e corresponde ao erro aleatório da regressão e os parâmetros a e b são desconhecidos e devem ser estimados a partir de uma amostra disponível. Assumindo que a variável X é não correlacionada com o erro e, julgue o item subsecutivo, nos quais os resíduos das amostras consideradas são IID, com distribuição normal, média zero e variância constante. 23. Para uma amostra de tamanho n = 25, em que a covariância amostral para o par de variáveis X e Y seja Cov(X, Y) = 20,0, a variância amostral para a variável Y seja Var(Y) = 4,0 e a variância amostral para a variável X seja Var(X) = 5,0, a estimativa via estimador de mínimos https://www.alfaconcursos.com.br/ Professor: Rodolfo Schmit Turma: Carreira Policiais Data: 15/05/2021 ESTATÍSTICA MUDE SUA VIDA! 19 quadrados ordinários para o coeficiente b é igual a 5,0. Certo ( ) Errado ( ) 24. Considere que as estimativas via método de mínimos quadrados ordinários para o parâmetro a seja igual a 2,5 e, para o parâmetro b, seja igual a 3,5. Nessa situação, assumindo que X = 4,0, o valor predito para Y será igual a 16,5, se for utilizada a reta de regressão estimada. Certo ( ) Errado ( ) 25. A variável Y é denominada variável explicativa, e a variável X é denominada variável dependente. Certo ( ) Errado ( ) amostra (i) 1 2 3 4 preço (Pi) 5 5 6 8 demanda (Di) 10 12 8 8 (CESPE – ANATEL – Especialista em Regulação – 2014) Considerando a tabela acima, em que são evidenciados os resultados de levantamento feito para o estudo da relação preço demanda em um serviço de comunicação de dados, e o modelo de regressão linear simples na forma Di = αPi + εi, em que εi representa um erro aleatório com média nula e variância residual V, e α é o coeficiente do modelo, julgue o item subsequente. 26. O coeficiente α representa a correlação linear de Pearson entre as variáveis preço e demanda. Certo ( ) Errado ( ) (CESPE – TCE/ES – Auditor – 2012) Um modelo de regressão linear simples descreve a relação entre o preço unitário (representado por X), em reais, de determinado produto e a quantidade de unidades vendidas (representada por Y). A reta de regressão ajustada pelo método de mínimos quadrados ordinários é Y = 25 - 0,1X. 27. De acordo com o modelo, se o preço de venda corresponder a R$ 50,00 a unidade, pode-se prever a venda de 20 unidades desse produto. Certo ( ) Errado ( ) 28. Considere que, no modelo apresentado, o preço unitário do produto, representado pela variável Z, seja cotado em dólares e que um dólar valha R$ 2,00. Nesse caso, segundo o mesmo método de mínimos quadrados, a reta de regressão estimada será Y = 25 - 0,2Z. ( ) Certo ( ) Errado estimativa erro padrão p-valor intercepto 400 40 < 0,001 coeficiente angular 1 0,2 < 0,001 29. (CESPE – TRT – Analista Judiciário – 2013) Um modelo de regressão linear simples foi ajustado pelo método de mínimos quadrados ordinários como parte de um laudo de avaliação imobiliária. Nesse modelo, cujos resultados se encontram na tabela acima, a variável resposta — y — representa o valor do imóvel, em R$ mil, e a variávelregressora — x — é a área construída do imóvel (em m2). Considerando que o tamanho da amostra para essa modelagem tenha sido superior a 500 e que os erros aleatórios pertinentes sejam normais, julgue o item a seguir. O modelo ajustado foi y = x + 400, o que sugere que cada metro quadrado eleva, em média, R$ 1 mil no valor do imóvel. ( ) Certo ( ) Errado https://www.alfaconcursos.com.br/ Professor: Rodolfo Schmit Turma: Carreira Policiais Data: 15/05/2021 ESTATÍSTICA MUDE SUA VIDA! 20 ANÁLISE DE VARIÂNCIA E COEFICENTE DE DETERMINAÇÃO 30. (CESPE – TJ/SE – Analista Judiciário – 2014) Em um modelo de regressão linear simples, o coeficiente de determinação cresce à medida que a correlação entre a variável resposta e a variável regressora aumenta. Certo ( ) Errado ( ) 31. (CESPE – TJ/SE – Analista Judiciário – 2014) Se um modelo de regressão linear simples tivesse coeficiente de determinação igual a 0,75, então, nesse modelo, a soma de quadrados do resíduo seria menor que a metade da soma de quadrados totais. Certo ( ) Errado ( ) 32. (CESPE – TJ/SE – Analista Judiciário – 2014) Em um modelo de regressão linear, se a variável explicativa e a variável resposta não se correlacionam, o coeficiente de determinação seria próximo de 0. Além disso, se o coeficiente de determinação fosse próximo de 0, as variáveis explicativa e resposta seriam independentes. Certo ( ) Errado ( ) (CESPE – EBSERH – Analista Administrativo – 2018) Determinado estudo considerou um modelo de regressão linear simples na forma yi = β0 + β1xi + εi , em que yi representa o número de leitos por habitante existente no município i; xi representa um indicador de qualidade de vida referente a esse mesmo município i, para i = 1, ..., n. A componente εi representa um erro aleatório com média 0 e variância σ2. A tabela a seguir mostra a tabela ANOVA resultante do ajuste desse modelo pelo método dos mínimos quadrados ordinários. 33. A correlação linear entre o número de leitos hospitalares por habitante (y) e o indicador de qualidade de vida (x) foi igual a 0,9. Certo ( ) Errado ( ) 34. O referido estudo contemplou um conjunto de dados obtidos de n = 11 municípios. Certo ( ) Errado ( ) 35. O desvio padrão amostral do número de leitos por habitante foi superior a 10 leitos por habitante. Certo ( ) Errado ( ) 36. A estimativa de σ² foi igual a 10. Certo ( ) Errado ( ) https://www.alfaconcursos.com.br/ Professor: Rodolfo Schmit Turma: Carreira Policiais Data: 15/05/2021 ESTATÍSTICA MUDE SUA VIDA! 21 (CESPE – EBC – Analista – 2011) Os gráficos acima mostram a relação entre o PIB per capita de 100 municípios (x) e as vendas mensais (y) dos jornais A, B e C nos municípios correspondentes. Cada gráfico apresenta uma reta de regressão linear simples ajustada pelo método de mínimos quadrados ordinários e seu coeficiente de explicação (R2). Com base nessas informações, julgue os itens que se seguem. 37. Com base no valor do coeficiente de correlação entre o volume de vendas do jornal C e a renda per capita do município, é correto considerar que ambas são praticamente variáveis independentes. Certo ( ) Errado ( ) (CESPE – Polícia Federal - Escrivão - 2018) O intervalo de tempo entre a morte de uma vítima até que ela seja encontrada (y em horas) denomina-se intervalo post mortem. Um grupo de pesquisadores mostrou que esse tempo se relaciona com a concentração molar de potássio encontrada na vítima (x, em mmol/dm3). Esses pesquisadores consideraram um modelo de regressão linear simples na forma y = ax + b + ε, em que a representa o coeficiente angular, b denomina-se intercepto, e ε denota um erro aleatório que segue distribuição normal com média zero e desvio padrão igual a 4. As estimativas dos coeficientes a e b, obtidas pelo método dos mínimos quadrados ordinários foram, respectivamente, iguais a 2,5 e 10. O tamanho da amostra para a obtenção desses resultados foi n = 101. A média amostral e o desvio padrão amostral da variável x foram, respectivamente, iguais a 9 mmol/dm3 e 1,6 mmol/dm3 e o desvio padrão da variável y foi igual a 5 horas. 38. O coeficiente de explicação do modelo (R2) foi superior a 0,70. Certo ( ) Errado ( ) (CESPE – TELEBRAS – Especialista em Gestão de Telecomunicações – 2015) Um estudo a respeito do índice de cancelamento de assinaturas (Y) de uma operadora de telefonia celular no período de 2010 a 2014 produziu um ajuste na forma �̂�𝑡 = �̂� + �̂�(𝑡 − 2012), em que t = 2010, 2011, 2012, 2013, 2014; �̂�𝑡 é a estimativa desse índice no ano t correspondente; e �̂� e �̂� representam as estimativas de mínimos quadrados ordinários dos coeficientes da reta ajustada. A tabela a seguir apresenta a análise de variância (ANOVA) do ajuste. Considerando que �̂� = 30, julgue o item subsequente relativo ao referido ajuste. https://www.alfaconcursos.com.br/ Professor: Rodolfo Schmit Turma: Carreira Policiais Data: 15/05/2021 ESTATÍSTICA MUDE SUA VIDA! 22 39. O coeficiente de determinação do modelo (R2) é superior a 0,90. Certo ( ) Errado ( ) 40. A correlação linear de Pearson entre a variável resposta e a variável regressora foi superior a - 0,75 e inferior a 0,75. Certo ( ) Errado ( ) 41. A estimativa da variância do erro aleatório em torno da tendência ajustada é superior a 27. Certo ( ) Errado ( ) 42. No período de 2010 a 2014, o desvio padrão amostral do índice de cancelamento de assinaturas (Y) foi igual a 10. Certo ( ) Errado ( ) (CESPE – Polícia Federal - Agente - 2018) Um pesquisador estudou a relação entre a taxa de criminalidade (Y) e a taxa de desocupação da população economicamente ativa (X) em determinada região do país. Esse pesquisador aplicou um modelo de regressão linear simples na forma Y = bX + a + ε, em que b representa o coeficiente angular, a é o intercepto do modelo e ε denota o erro aleatório com média zero e variância σ2. A tabela a seguir representa a análise de variância (ANOVA) proporcionada por esse modelo. Fonte de variação Graus de liberdade Soma dos Quadrados modelo 1 225 erro 899 175 total 900 400 A respeito dessa situação hipotética, julgue o item, sabendo que b > 0 e que o desvio padrão amostral da variável X é igual a 2. 43. A correlação linear de Pearson entre a variável resposta Y e a variável regressora X é igual a 0,75. Certo ( ) Errado ( ) 44. A estimativa do coeficiente angular b, pelo método de mínimos quadrados ordinários, é igual a 0,25. Certo ( ) Errado ( ) 45. A estimativa da variância σ2 é superior a 0,5. Certo ( ) Errado ( ) https://www.alfaconcursos.com.br/ Professor: Rodolfo Schmit Turma: Carreira Policiais Data: 15/05/2021 ESTATÍSTICA MUDE SUA VIDA! 23 Fonte de variação Graus de liberdade Soma dos Quadrados Média dos quadrados Razão F Regressão 1 2061,49 2061,49 433,4 Erro 78 371,01 4,75 Total 79 2432,5 (CESPE – ALECE – Analista Legislativo – 2011) Um analista deseja avaliar se o tempo — Y —, em dias, que um processo judicial leva para ser concluído está relacionado com a quantidade — X — de juízes disponíveis no tribunal em que tal processo foi julgado. O quadro acima apresenta a tabela de análise de variância (ANOVA) correspondente a essa avaliação por regressão linear simples, em que Y é a variável resposta e X é a variável regressora, com base no método de mínimos quadrados ordinários. Considerando essas informações e os conceitos de análise de regressão linear e inferência estatística, julgue o item. 46. Suponha que o modelo ajustado tenha aproximadamentea forma Y = -2X + B, em que B é uma estimativa do intercepto. Nessa situação, estima-se que cada juiz acrescentado ao tribunal representa uma redução de dois dias, em média, no tempo para a conclusão de um processo nesse tribunal. Certo ( ) Errado ( ) 47. Para a modelagem foram consideradas 79 observações. Certo ( ) Errado ( ) https://www.alfaconcursos.com.br/ Professor: Rodolfo Schmit Turma: Carreira Policiais Data: 15/05/2021 ESTATÍSTICA MUDE SUA VIDA! 24 GABARITO COVARIÂNCIA E CORRELAÇÃO LINEAR 1. Certo 2. Certo 3. Certo 4. Certo 5. Certo 6. Errado 7. Certo 8. Errado 9. Errado 10. E 11. Errado 12. Errado 13. Errado 14. Errado 15. Certo 16. Errado 17. Errado MODELO DE REGRESSÃO LINEAR 18. Errado 19. Errado 20. Errado 21. Certo 22. Certo 23. Errado 24. Certo 25. Errado 26. Errado 27. Certo 28. Certo 29. Certo ANÁLISE DE VARIÂNCIA E COEFICIENTE DE DETERMINAÇÃO 30. Certo 31. Certo 32. Errado 33. Errado 34. Errado 35. Errado 36. Certo 37. Errado 38. Errado 39. Errado 40. Errado 41. Errado 42. Certo 43. Certo 44. Certo 45. Errado 46. Certo 47. Errado https://www.alfaconcursos.com.br/
Compartilhar