Buscar

8 Correlação e Regressão

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 41 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 41 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 41 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

UNIVERSIDADE FEDERAL DE OURO PRETO
INSTITUTO DE CIÊNCIAS EXATAS E APLICADAS
DEPARTAMENTO DE CIÊNCIAS EXATAS E APLICADAS
CORRELAÇÃO E REGRESSÃO
Daniele Cristina Gonçalves
Correlação
- Existe uma correlação entre duas variáveis quando uma delas
está, de alguma forma, relacionada com a outra.
- O gráfico de dispersão é utilizado para examinar possíveis- O gráfico de dispersão é utilizado para examinar possíveis
relações entre duas variáveis numéricas. Para cada observação,
uma variável é inserida no eixo horizontal (x) e a outra variável
no eixo vertical (y).
Exemplo 1: Examinar a relação entre o custo de um
hambúrguer em uma lanchonete e o custo de dois ingressos de
cinema em 10 cidades do mundo.
������ ����	
���
 
��
���������
������
������ ��		 
����
������ ���� �����
������ ���� �����
��������� ���� �����
������ ���� �����
 !�"�#� ��		 �����
��� $���"��"� ���	 �	���
%��&�� ��
	 �����
'&(��&� 
��� �����
�����&� ���� �����
)������*������ ��		 	�	�
Gráfico de Dispersão para o Custo de um Hambúrguer em uma 
Lanchonete e o Custo de Dois Ingressos de Cinema
Covariância
- A covariância mede a força de uma relação linear entre duas
variáveis numéricas.
Covariância da AmostraCovariância da Amostra
Covariância
- A covariância possui uma importante deficiência como
medida da relação linear entre duas variáveis numéricas. Uma
vez que a covariância pode assumir qualquer valor, não é
possível determinar a força relativa da relação.
- Para melhor determinar a força relativa da relação, calcula-se
o coeficiente de correlação.
Exemplo 2: No exemplo 1, foi examinada a relação entre o custo de
um hambúrguer em uma lanchonete e o custo de dois ingressos de
cinema em 10 cidades do mundo. Calcule a covariância da amostra.
������ ����	
���
 
��
���������
������
������ ��		 
����
������ ���� �����
������ ���� �����
��������� ���� �����
������ ���� �����
 !�"�#� ��		 �����
��� $���"��"� ���	 �	���
%��&�� ��
	 �����
'&(��&� 
��� �����
�����&� ���� �����
)������*������ ��		 	�	�
Alguns Tipos de Associação entre Variáveis
Coeficiente de Correlação
- O coeficiente de correlação mede a força relativa de uma
relação linear entre duas variáveis numéricas.
Coeficiente de Correlação da Amostra
Interpretando o Coeficiente de Correlação
- O coeficiente de correlação sempre será um valor entre
- Quanto mais próximo de -1, maior a correlação negativa;- Quanto mais próximo de -1, maior a correlação negativa;
- Quanto mais próximo de 1, maior a correlação positiva;
- Quanto mais próximo de 0, menor a correlação linear.
Interpretando o Coeficiente de Correlação
- Temos uma correlação linear perfeita se todos os pontos
representados em um gráfico de dispersão puderem ser ligados
por uma linha reta.
- Se o coeficiente de correlação r for igual a -1, temos uma
correlação negativa perfeita;
- Se o coeficiente de correlação r for igual a 1, temos uma
correlação negativapositiva perfeita.
Interpretando o Coeficiente de Correlação
Exemplo 3: No exemplo 1, foi examinada a relação entre o custo de
um hambúrguer em uma lanchonete e o custo de dois ingressos de
cinema em 10 cidades do mundo. Calcule o coeficiente de correlação
da amostra.
������ ����	
���
 
��
���������
������
������ ��		 
����
������ ���� �����
������ ���� �����
��������� ���� �����
������ ���� �����
 !�"�#� ��		 �����
��� $���"��"� ���	 �	���
%��&�� ��
	 �����
'&(��&� 
��� �����
�����&� ���� �����
)������*������ ��		 	�	�
Exemplo 4: Considere a tabela abaixo, que apresenta altura e peso
de ursos siberianos.
����
��
�����������
���������
���
�
�� ��
���� 
��
���� ���
a) Calcule a covariância e o coeficiente de correlação.
b) Existe relação entre o peso e a altura dos ursos siberianos?
���� 
��
�
�� ���
���� 
��
�
�� 
�
��� 
�
Tipos de Modelos de Regressão
A natureza da relação entre duas variáveis pode assumir
inúmeras formas abrangendo desde funções matemáticas
simples até funções matemáticas extremamente complicadas.
A seleção do modelo matemático apropriado depende da
distribuição dos valores de X e de Y no gráfico de dispersão.
Tipos de Modelos de Regressão
Relação linear positiva Nenhuma relação entre X e Y
Relação curvilínea em formato de U Relação linear negativa
Modelo de Regressão Linear Simples
Yi = �0 + �1Xi + �i 
�0 – intercepto de Y para a população
� – inclinação da população�1 – inclinação da população
�i – erro aleatório em Y para a observação i
Yi – variável dependente (algumas vezes conhecida como a
variável de resposta) para a observação i
Xi – variável independente (algumas vezes conhecida como a
variável explanatória) para a observação i
Método dos Mínimos Quadrados
O método consiste em minimizar a soma das diferenças, elevadas ao
quadrado, entre os valores verdadeiros (Yi) e os valores
previstos ( ), utilizando-se a equação da regressão linear simples.
Equação da Regressão Linear Simples: A Linha de Previsão
– valor previsto de Y para a observação i
Xi – valor de X para a observação i
b0 – intercepto da amostra Y
b1 – inclinação da amostra
Exemplo 5: Um professor de estatística deseja utilizar o número de
horas que um aluno estuda para uma prova final de Estatística (X)
pra prever a nota da prova final (Y). Foi ajustado um modelo de
regressão com base nos dados coletados de uma classe durante o
semestre anterior, com os seguintes resultados:
Qual é a interpretação para o intercepto de Y, b0, e para a inclinação
b1?
Fórmula de Cálculo para a Inclinação b1
em que
Fórmula de Cálculo para o Intercepto de Y, b0
em que
Exemplo 6: Para analisar a relação entre o tamanho de uma loja,
medido em milhares de pés quadrados e suas vendas anuais, em
milhões de dólares, foi selecionada uma amostra de 14 lojas
���� �
�� ������������� ���� �
�� �������������
� ��� 
�� � ��� ���
� ��� 
�	 	 
�� ���
 ��� ��� �� ��� ��	
 ��� ��� �� ��� ��	
� ��� 	�� �� ��� ����
� ��
 
�� �� ��� ���
� ��� ��� �
 ��� ����
� ��
 
�� �� 
�� ���
Gráfico de Dispersão Para a Relação Entre o 
Tamanho da Loja e as Vendas Anuais
a) Determine o modelo de regressão linear simples para esses dados.
b) Utilize a linha de previsão para prever a média aritmética dasb) Utilize a linha de previsão para prever a média aritmética das
vendas anuais para uma loja com 4000 pés quadrados.
Previsão na Análise da Regressão:
Interpolação versus Extrapolação
Ao utilizar o modelo de regressão para fins de previsão, é necessário
considerar somente o intervalo relevante que inclui todos os valores,
desde o menor até o maior X utilizado no desenvolvimento dodesde o menor até o maior X utilizado no desenvolvimento do
modelo de regressão. Por conseguinte, ao prever Y para um
determinado valor X, é possível interpolar dentro desse intervalo
relevante de X, mas não deve-se extrapolar além do intervalo dos
valores de X.
Medidas de Variação
Ao utilizar o método dos mínimos quadrados para determinar os
coeficientes de regressão para um conjunto de dados, é necessário
calcular três importantes medidas de variação:
Soma Total dos Quadrados (STQ) – é a medida da variação dosSoma Total dos Quadrados (STQ) – é a medida da variação dos
valores de Yi em torno de sua média aritmética
Soma dos Quadrados de Regressão (SQReg) ou variação
explicada – é decorrente da relação entre X e Y.
Soma dos Quadrados dos Resíduos (erros) (SQR) ou variação não
explicada – é decorrente de outros fatores que não sejam a relação
entre X e Y.
Medidas de Variação
Medidas de Variação na Regressão
A soma total dos quadrados é igual à soma dos quadrados da
regressãoacrescida da soma dos quadrados dos resíduos.
STQ = SQReg + SQR
Soma Total dos Quadrados (STQ)
A soma total dos quadrados (STQ) é igual à soma das diferenças ao
quadrado entre cada valor observado de Y e , a média aritmética do
valor de Y.
STQ = Soma total dos quadrados
Soma dos Quadrados da Regressão (SQReg)
A soma total dos da regressão (SQReg) é igual à soma das
diferenças ao quadrado entre o valor previsto Y e , a média
aritmética do valor de Y.
SQReg = Variação explicada ou regressão dos quadrados
Soma dos Quadrados dos Resíduos ou erros (SQR)
A soma dos quadrados dos resíduos ou erros (SQR) é igual à soma das
diferenças ao quadrado entre o valor observado de Y e o valor previsto
de Y, a média aritmética do valor de Y.
SQR = Variação não-explicada ou soma dos quadrados dos resíduos (erros)
O Coeficiente de Determinação
As medidas SQReg, SQR e STQ, por si só, oferecem poucas
informações. Nesse caso, utiliza-se o coeficiente de determinação,
que é igual à soma dos quadrados da regressão (variação explicada)
dividida pela soma total dos quadrados (variação total)
O coeficiente de determinação mede a proporção da variação em Y
que é explicada pela variável independente X no modelo de
regressão.
Fórmula de Cálculo para STQ
Fórmula de Cálculo para SQReg
Fórmula de Cálculo para SQR
Exemplo 7: Para analisar a relação entre o tamanho de uma loja,
medido em milhares de pés quadrados e suas vendas anuais, em
milhões de dólares, foi selecionada uma amostra de 14 lojas
���� �
�� ������������� ���� �
�� �������������
� ��� 
�� � ��� ���
� ��� 
�	 	 
�� ���
 ��� ��� �� ��� ��	
Calcular o coeficiente de determinação e interpretar seu resultado.
 ��� ��� �� ��� ��	
� ��� 	�� �� ��� ����
� ��
 
�� �� ��� ���
� ��� ��� �
 ��� ����
� ��
 
�� �� 
�� ���
Isso significa que 90,42% da variação nas vendas pode ser explicada
pela variabilidade no tamanho da loja, medida com base na área em
pés quadrados. Esse grande valor r2 indica uma forte relação linearpés quadrados. Esse grande valor r2 indica uma forte relação linear
positiva entre duas variáveis, uma vez que o modelo de regressão
reduziu em 90,42% a variabilidade na previsão de vendas anuais.
Somente 9,58% da variabilidade da amostra, em termos de vendas
anuais, é decorrente de outros fatores que não são considerados pelo
modelo de regressão linear.
Erro-Padrão na Estimativa (SYX)
Embora o método dos mínimos quadrados resulte na linha que ajusta
os dados com a quantidade mínima de erro, a menos que todos osos dados com a quantidade mínima de erro, a menos que todos os
pontos de dados observados se posicionem em uma linha reta, a
linha de previsão não se configura como um mecanismo perfeito de
previsão.
Erro-Padrão na Estimativa (SYX)
O erro-padrão da estimativa mede a variabilidade dos valores reais
de Y a partir dos valores previstos de Y, do mesmo modo que o
desvio-padrão, estudado anteriormente.
- Valor real de Y para um determinado Xi
- Valor previsto de Y para um determinado Xi
SQR – soma dos quadrados dos resíduos
Interpretação:
- O erro-padrão representa um indicador da variação e torno da linha
ajustada da regressão.
- É medido na mesma unidade usada pela variável dependente Y.
-O erro-padrão da estimativa mede a variabilidade em torno da linha
de previsão.
Exemplo 8: Calcule o erro-padrão no exemplo 7 e interprete o
resultado.
SYX = 0,9664
A diferença típica entre as vendas anuais reais de uma loja e as
vendas anuais previstas utilizando a equação de regressão é de
aproximadamente 0,9664 milhão de dólares, ou seja, 966.400
dólares.

Outros materiais