Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIVERSIDADE FEDERAL DE OURO PRETO INSTITUTO DE CIÊNCIAS EXATAS E APLICADAS DEPARTAMENTO DE CIÊNCIAS EXATAS E APLICADAS CORRELAÇÃO E REGRESSÃO Daniele Cristina Gonçalves Correlação - Existe uma correlação entre duas variáveis quando uma delas está, de alguma forma, relacionada com a outra. - O gráfico de dispersão é utilizado para examinar possíveis- O gráfico de dispersão é utilizado para examinar possíveis relações entre duas variáveis numéricas. Para cada observação, uma variável é inserida no eixo horizontal (x) e a outra variável no eixo vertical (y). Exemplo 1: Examinar a relação entre o custo de um hambúrguer em uma lanchonete e o custo de dois ingressos de cinema em 10 cidades do mundo. ������ ���� ��� �� ��������� ������ ������ �� ���� ������ ���� ����� ������ ���� ����� ��������� ���� ����� ������ ���� ����� !�"�#� �� ����� ��� $���"��"� ��� � ��� %��&�� �� ����� '&(��&� ��� ����� �����&� ���� ����� )������*������ �� � � Gráfico de Dispersão para o Custo de um Hambúrguer em uma Lanchonete e o Custo de Dois Ingressos de Cinema Covariância - A covariância mede a força de uma relação linear entre duas variáveis numéricas. Covariância da AmostraCovariância da Amostra Covariância - A covariância possui uma importante deficiência como medida da relação linear entre duas variáveis numéricas. Uma vez que a covariância pode assumir qualquer valor, não é possível determinar a força relativa da relação. - Para melhor determinar a força relativa da relação, calcula-se o coeficiente de correlação. Exemplo 2: No exemplo 1, foi examinada a relação entre o custo de um hambúrguer em uma lanchonete e o custo de dois ingressos de cinema em 10 cidades do mundo. Calcule a covariância da amostra. ������ ���� ��� �� ��������� ������ ������ �� ���� ������ ���� ����� ������ ���� ����� ��������� ���� ����� ������ ���� ����� !�"�#� �� ����� ��� $���"��"� ��� � ��� %��&�� �� ����� '&(��&� ��� ����� �����&� ���� ����� )������*������ �� � � Alguns Tipos de Associação entre Variáveis Coeficiente de Correlação - O coeficiente de correlação mede a força relativa de uma relação linear entre duas variáveis numéricas. Coeficiente de Correlação da Amostra Interpretando o Coeficiente de Correlação - O coeficiente de correlação sempre será um valor entre - Quanto mais próximo de -1, maior a correlação negativa;- Quanto mais próximo de -1, maior a correlação negativa; - Quanto mais próximo de 1, maior a correlação positiva; - Quanto mais próximo de 0, menor a correlação linear. Interpretando o Coeficiente de Correlação - Temos uma correlação linear perfeita se todos os pontos representados em um gráfico de dispersão puderem ser ligados por uma linha reta. - Se o coeficiente de correlação r for igual a -1, temos uma correlação negativa perfeita; - Se o coeficiente de correlação r for igual a 1, temos uma correlação negativapositiva perfeita. Interpretando o Coeficiente de Correlação Exemplo 3: No exemplo 1, foi examinada a relação entre o custo de um hambúrguer em uma lanchonete e o custo de dois ingressos de cinema em 10 cidades do mundo. Calcule o coeficiente de correlação da amostra. ������ ���� ��� �� ��������� ������ ������ �� ���� ������ ���� ����� ������ ���� ����� ��������� ���� ����� ������ ���� ����� !�"�#� �� ����� ��� $���"��"� ��� � ��� %��&�� �� ����� '&(��&� ��� ����� �����&� ���� ����� )������*������ �� � � Exemplo 4: Considere a tabela abaixo, que apresenta altura e peso de ursos siberianos. ���� �� ����������� ��������� ��� � �� �� ���� �� ���� ��� a) Calcule a covariância e o coeficiente de correlação. b) Existe relação entre o peso e a altura dos ursos siberianos? ���� �� � �� ��� ���� �� � �� � ��� � Tipos de Modelos de Regressão A natureza da relação entre duas variáveis pode assumir inúmeras formas abrangendo desde funções matemáticas simples até funções matemáticas extremamente complicadas. A seleção do modelo matemático apropriado depende da distribuição dos valores de X e de Y no gráfico de dispersão. Tipos de Modelos de Regressão Relação linear positiva Nenhuma relação entre X e Y Relação curvilínea em formato de U Relação linear negativa Modelo de Regressão Linear Simples Yi = �0 + �1Xi + �i �0 – intercepto de Y para a população � – inclinação da população�1 – inclinação da população �i – erro aleatório em Y para a observação i Yi – variável dependente (algumas vezes conhecida como a variável de resposta) para a observação i Xi – variável independente (algumas vezes conhecida como a variável explanatória) para a observação i Método dos Mínimos Quadrados O método consiste em minimizar a soma das diferenças, elevadas ao quadrado, entre os valores verdadeiros (Yi) e os valores previstos ( ), utilizando-se a equação da regressão linear simples. Equação da Regressão Linear Simples: A Linha de Previsão – valor previsto de Y para a observação i Xi – valor de X para a observação i b0 – intercepto da amostra Y b1 – inclinação da amostra Exemplo 5: Um professor de estatística deseja utilizar o número de horas que um aluno estuda para uma prova final de Estatística (X) pra prever a nota da prova final (Y). Foi ajustado um modelo de regressão com base nos dados coletados de uma classe durante o semestre anterior, com os seguintes resultados: Qual é a interpretação para o intercepto de Y, b0, e para a inclinação b1? Fórmula de Cálculo para a Inclinação b1 em que Fórmula de Cálculo para o Intercepto de Y, b0 em que Exemplo 6: Para analisar a relação entre o tamanho de uma loja, medido em milhares de pés quadrados e suas vendas anuais, em milhões de dólares, foi selecionada uma amostra de 14 lojas ���� � �� ������������� ���� � �� ������������� � ��� �� � ��� ��� � ��� � �� ��� ��� ��� �� ��� �� ��� ��� �� ��� �� � ��� �� �� ��� ���� � �� �� �� ��� ��� � ��� ��� � ��� ���� � �� �� �� �� ��� Gráfico de Dispersão Para a Relação Entre o Tamanho da Loja e as Vendas Anuais a) Determine o modelo de regressão linear simples para esses dados. b) Utilize a linha de previsão para prever a média aritmética dasb) Utilize a linha de previsão para prever a média aritmética das vendas anuais para uma loja com 4000 pés quadrados. Previsão na Análise da Regressão: Interpolação versus Extrapolação Ao utilizar o modelo de regressão para fins de previsão, é necessário considerar somente o intervalo relevante que inclui todos os valores, desde o menor até o maior X utilizado no desenvolvimento dodesde o menor até o maior X utilizado no desenvolvimento do modelo de regressão. Por conseguinte, ao prever Y para um determinado valor X, é possível interpolar dentro desse intervalo relevante de X, mas não deve-se extrapolar além do intervalo dos valores de X. Medidas de Variação Ao utilizar o método dos mínimos quadrados para determinar os coeficientes de regressão para um conjunto de dados, é necessário calcular três importantes medidas de variação: Soma Total dos Quadrados (STQ) – é a medida da variação dosSoma Total dos Quadrados (STQ) – é a medida da variação dos valores de Yi em torno de sua média aritmética Soma dos Quadrados de Regressão (SQReg) ou variação explicada – é decorrente da relação entre X e Y. Soma dos Quadrados dos Resíduos (erros) (SQR) ou variação não explicada – é decorrente de outros fatores que não sejam a relação entre X e Y. Medidas de Variação Medidas de Variação na Regressão A soma total dos quadrados é igual à soma dos quadrados da regressãoacrescida da soma dos quadrados dos resíduos. STQ = SQReg + SQR Soma Total dos Quadrados (STQ) A soma total dos quadrados (STQ) é igual à soma das diferenças ao quadrado entre cada valor observado de Y e , a média aritmética do valor de Y. STQ = Soma total dos quadrados Soma dos Quadrados da Regressão (SQReg) A soma total dos da regressão (SQReg) é igual à soma das diferenças ao quadrado entre o valor previsto Y e , a média aritmética do valor de Y. SQReg = Variação explicada ou regressão dos quadrados Soma dos Quadrados dos Resíduos ou erros (SQR) A soma dos quadrados dos resíduos ou erros (SQR) é igual à soma das diferenças ao quadrado entre o valor observado de Y e o valor previsto de Y, a média aritmética do valor de Y. SQR = Variação não-explicada ou soma dos quadrados dos resíduos (erros) O Coeficiente de Determinação As medidas SQReg, SQR e STQ, por si só, oferecem poucas informações. Nesse caso, utiliza-se o coeficiente de determinação, que é igual à soma dos quadrados da regressão (variação explicada) dividida pela soma total dos quadrados (variação total) O coeficiente de determinação mede a proporção da variação em Y que é explicada pela variável independente X no modelo de regressão. Fórmula de Cálculo para STQ Fórmula de Cálculo para SQReg Fórmula de Cálculo para SQR Exemplo 7: Para analisar a relação entre o tamanho de uma loja, medido em milhares de pés quadrados e suas vendas anuais, em milhões de dólares, foi selecionada uma amostra de 14 lojas ���� � �� ������������� ���� � �� ������������� � ��� �� � ��� ��� � ��� � �� ��� ��� ��� �� ��� �� Calcular o coeficiente de determinação e interpretar seu resultado. ��� ��� �� ��� �� � ��� �� �� ��� ���� � �� �� �� ��� ��� � ��� ��� � ��� ���� � �� �� �� �� ��� Isso significa que 90,42% da variação nas vendas pode ser explicada pela variabilidade no tamanho da loja, medida com base na área em pés quadrados. Esse grande valor r2 indica uma forte relação linearpés quadrados. Esse grande valor r2 indica uma forte relação linear positiva entre duas variáveis, uma vez que o modelo de regressão reduziu em 90,42% a variabilidade na previsão de vendas anuais. Somente 9,58% da variabilidade da amostra, em termos de vendas anuais, é decorrente de outros fatores que não são considerados pelo modelo de regressão linear. Erro-Padrão na Estimativa (SYX) Embora o método dos mínimos quadrados resulte na linha que ajusta os dados com a quantidade mínima de erro, a menos que todos osos dados com a quantidade mínima de erro, a menos que todos os pontos de dados observados se posicionem em uma linha reta, a linha de previsão não se configura como um mecanismo perfeito de previsão. Erro-Padrão na Estimativa (SYX) O erro-padrão da estimativa mede a variabilidade dos valores reais de Y a partir dos valores previstos de Y, do mesmo modo que o desvio-padrão, estudado anteriormente. - Valor real de Y para um determinado Xi - Valor previsto de Y para um determinado Xi SQR – soma dos quadrados dos resíduos Interpretação: - O erro-padrão representa um indicador da variação e torno da linha ajustada da regressão. - É medido na mesma unidade usada pela variável dependente Y. -O erro-padrão da estimativa mede a variabilidade em torno da linha de previsão. Exemplo 8: Calcule o erro-padrão no exemplo 7 e interprete o resultado. SYX = 0,9664 A diferença típica entre as vendas anuais reais de uma loja e as vendas anuais previstas utilizando a equação de regressão é de aproximadamente 0,9664 milhão de dólares, ou seja, 966.400 dólares.
Compartilhar