Buscar

AULA 19 - Introdução Correlação e Regressão

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 37 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 37 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 37 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Universidade Federal do Rio Grande do Norte 
Centro de Tecnologia - CT 
Departamento de Engenharia de Produção 
ESTATÍSTICA PARA ENGENHARIA 
DE PRODUÇÃO
Prof. Luciano Queiroz
Natal/RN 31/03/14
Sumário
Dados bivariados
Introdução
Nem todos os dados de uma amostra podem ser
representados graficamente com uma variável. Para
representar graficamente e descrever numericamente
dados amostrais que envolviam duas variáveis
emparelhadas, é necessário utilizar dados bivariados,
que são os valores de duas variáveis diferentes obtidas
de um mesmo elemento da população.
Correlação Linear
O principal objetivo da correlação linear é medir a
intensidade de uma relação linear entre duas
variáveis.
O termo correlação significa relação em dois sentidos
(co + relação), e é usado em estatística para designar
a força que mantém unidos dois conjuntos de valores. A
verificação da existência e do grau de relação entre as
variáveis é o objeto de estudo da correlação.
Correlação Linear
Os pares de valores das duas variáveis poderão ser
colocados num diagrama cartesiano chamado
“diagrama de dispersão”. A vantagem de construir um
diagrama de dispersão está em que, muitas vezes sua
simples observação já nos dá uma idéia bastante boa
de como as duas variáveis se relacionam.
Correlação Linear
 Os diagramas de dispersões são os gráficos que demonstram as diferentes
relações entre as variáveis de entrada ou independentes, x, e variáveis de saída,
y.
 Se quando x aumenta não ocorre nenhuma mudança definida nos valores de y,
dizemos que não há correlação ou nenhuma relação entre x e y.
 Se quando x aumenta ocorre mudança nos valores de y, dizemos que uma há
correlação.
 A correlação é positiva quando y tende a crescer e negativa quando y tende a
diminuir.
 Se os pares ordenados (x,y) tendem a seguir uma linha reta, há uma correlação
linear.
 A precisão da mudança em y quando x aumenta determina a intensidade da
correlação linear.
Correlação Linear
Correlação Linear
 Correlação não é o mesmo que causa e efeito. Duas variáveis
podem estar altamente correlacionadas e, no entanto, não
haver relação de causa e efeito entre elas.
 Se duas variáveis estiverem amarradas por uma relação de
causa e efeito elas estarão, obrigatoriamente, correlacionadas.
 O estudo de correlação pressupõe que as variáveis X e Y tenham
uma distribuição normal.
 A palavra simples que compõe o nome correlação linear
simples, indica que estão envolvidas no cálculo somente duas
variáveis.
Correlação Linear
 Exemplo: Em uma relação de causa-efeito direta, o
aumento (ou a diminuição) em uma variável provoca
um aumente (ou diminuição) em outra.
 Suponha que exista uma forte correlação positiva entre
peso e altura na sala. Um aumento no peso acarretaria
um aumento na altura?
Muitas outras variáveis estão envolvidas, como sexo,
idade e tipo corporal. Essas outras variáveis são
denominadas variáveis de confusão.
Correlação Linear
Conceito:
VARIÁVEL DE CONFUSÃO: Variáveis que não estão
incluídas em um estudo, mas que afeta as variáveis do
estudo e faz parecer que essas variáveis estão
correlacionadas.
Coeficiente de Correlação Linear
O coeficiente de correlação linear, r, é a medida
numérica da intensidade da relação linear entre duas
variáveis.
O coeficiente reflete a consistência do efeito que a
mudança em uma variável tem sobre a outra.
O coeficiente é sempre um valor entre -1 e +1. Um valor
igual a +1 significa uma correlação positiva perfeita, e -1
uma correlação negativa perfeita.
Coeficiente de Correlação Linear
Coeficiente de Correlação Linear
O valor de r é definido pela fórmula:
 sx e sy representam o desvio padrão das varia ́veis x e y.
Coeficiente de Correlação Linear
 Para calcular r, utilizamos uma fórmula alternativa que e ́
equivalente a ̀ fórmula apresentada. Como cálculos
preliminares, vamos calcular separadamente três somas
de quadrados e, em seguida, substituí-las na fórmula a
seguir para obter r.
Coeficiente de Correlação Linear
Onde:
Coeficiente de Correlação Linear
 Exemplo: Gabriel abriu uma academia na cidade de
Natal e quer saber mais sobre o condicionamento físico
dos seus alunos da academia. Para tanto, foi feita uma
amostra com 10 alunos aleatoriamente e analisou-se o
número de flexões e abdominais. Determine o valor do
coeficiente de correlação linear entre o número de
flexões e abdominais.
Coeficiente de Correlação Linear
Coeficiente de Determinação – R²
 Indica a proporção de variação da variável independente que
é explicada pela variável dependente, ou seja, é uma
ferramenta que avalia a qualidade do ajuste.
 Quanto mais próximo da unidade o R² estiver, melhor a
qualidade do ajuste. O seu valor fornece a proporção da
variável Y explicada pela variável X através da função ajustada.
 Exemplo: R² = (0,84)² = 0,7056 = 70,56 %.
 É a proporção que Y é explicada por X; ou seja; 70,56% da
variação do número de abdominais é explicado pelo número de
flexões.
Regressão Linear
 Embora o coeficiente de correlação meça a
intensidade de uma relação linear, ele não informa a
relação matemática entre as duas variáveis.
Uma vez caracterizada esta relação, procura-se
descrevê-la sob forma matemática, através de uma
função. A estimação dos parâmetros dessa função
matemática é o objeto da regressão.
Regressão Linear
 Vamos voltar ao exemplo da academia do Gabriel.
 Vimos que a correlação para flexões/abdominais era 0,84.
Porém este coeficiente encontrado não ajuda a prever o
número de abdominais que uma pessoa pode fazer com
base na informação que ela pode fazer 28 flexões.
 A análise de regressão determina a equação da linha que
melhor descreve a relação entre as duas variáveis. Um dos
usos dessa equação é de fazer previsões. Geralmente, não
é possível prever o valor exato de y e, normalmente, fica-se
satisfeito se as previsões forem razoavelmente próximas.
Linha de melhor ajuste
 Se um modelo de linha reta parece apropriado, a linha reta
de melhor ajuste é determinada utilizando-se o método dos
mínimos quadrados.
 Suponha que 𝑦 = b0 + b1x é a equação de uma linha reta,
em que 𝑦 (leia-se “y-circunflexo”) representa o valor previsto
de y que corresponde a um valor específico de x.
 O critério dos mínimos quadrados requer que determinemos
as constantes b0 e b1, de forma que Ʃ(y – 𝑦)² seja a menor
possível.
Linha de melhor ajuste
 A Figura 3.7 mostra a distância entre um valor observado de y e um
valor previsto de 𝑦. O comprimento dessa distância representa o valor
(y – 𝑦) (mostrado como um segmento de linha vermelho na Figura).
Observe que (y – 𝑦) é positivo quando o ponto (x, y) esta ́ acima da
linha, e negativo quando (x, y) esta ́ abaixo dela.
Linha de melhor ajuste
 A Figura 3.8 mostra um diagrama de dispersão com o que aparenta
ser a linha de melhor ajuste, juntamente com dez valores (y – 𝑦)
individuais. (Os valores positivos sa ̃o mostrados em vermelho e os
negativos, em verde.) A soma dos quadrados dessas diferenças e ́
minimizada (reduzida o máximo possível) se a linha for realmente a
linha de melhor ajuste.
Linha de melhor ajuste
 A equação da linha de melhor ajuste e ́ determinada por sua
inclinação (b1) e seu intercepto-y (b0). O valor das constantes –
inclinação e intercepto-y – que satisfaz o critério dos mínimos
quadrados é determinado utilizando-se as fórmulas apresentadas
abaixo:
Linha de melhor ajuste
 Agora vamos considerar novamente os dados de condicionamento
físico dos alunos de Gabriel e a questão de prever o número de
abdominais realizadas por um aluno com base em seu número de
flexões. Queremos determinara linha de melhor ajuste, 𝑦 = b0 + b1x.
Linha de melhor ajuste
Linha de melhor ajuste
 Agora que conhecemos a equação da linha de melhor ajuste, vamos traçar a linha
no diagrama de dispersão de forma que possamos visualizar a relação entre a linha
e os dados. Precisamos de dois pontos para traçar a linha no diagrama. Selecione
dois valores convenientes x, um próximo a cada extremo do domínio(x=10 e x=60
são boas escolhas para essa ilustração) e determine os valores de y
correspondentes.
Linha de melhor ajuste
 A inclinação, b1, representa a mudança prevista em y por
aumento unitário em x. Em nosso exemplo, em que b1 =
0,66, se um aluno consegue fazer dez flexões adicionais (x),
prevemos que ele seria capaz de fazer aproximadamente 7
(0,66 × 10) abdominais adicionais (y).
 O intercepto-y é o valor de y em que a linha de melhor
ajuste intercepta o eixo y. (Quando a escala vertical esta ́
localizada acima de x = 0, o intercepto-y é facilmente
visualizado no diagrama de dispersão, indicado por um +
verde na Figura 3.10.)
Linha de melhor ajuste
 Primeiro, entretanto, ao interpretar b0, é necessário considerar se
x = 0 é um valor de x realista antes de concluir que se pode
prever 𝑦 = b0, se x = 0.
 Provavelmente, é incorreto prever que, ainda que um aluno não
tenha realizado nenhuma flexão, ele fará aproximadamente 15
abdominais. Ao prever o valor de y com base em um valor de x,
certifique-se de que o valor de x está dentro do domínio dos
valores observados.
 A linha de melhor ajuste sempre passará pelo centroide, o ponto
( 𝑥, 𝑦).
Exemplo
 Em uma amostra aleatória de oito estudantes universitárias,
foi perguntado a cada uma qual a sua altura (a medida
mais próxima) e seu peso (com aproximação de 5 libras).
 Determine o coeficiente de correlação
 Determine uma equação para prever o peso de uma
universitária com base em sua altura (equação da linha de
melhor ajuste).
Exemplo
Exemplo
 Para traçar a linha de melhor ajuste no diagrama de
dispersão, é necessário localizar dois pontos. Substitua dois
valores de x – por exemplo, 60 e 70 – na equação, para que
a linha de melhor ajuste obtenha dois valores
correspondentes para 𝑦:
Exercícios
 1 - Como você interpretaria a conclusão apresentada por um estudo
de correlação que fornecesse um coeficiente de correlação linear
igual a 21,34?
 2 – Telefones celulares e IPods são itens de necessidade para a
geração atual. O uso de um indica o uso do outro? Sete alunos da
turma que possuíam telefone celular e Ipod foram selecionados
aleatoriamente, resultando nos dados a seguir:
 Determine r
Exercícios
 3 – Desenhe um diagrama de dispersão para esses dados:
 Seria justificável utilizar técnicas de regressão linear sobre
esses dados para determiner a linha de melhor ajuste?
Explique.
Exercícios
 4 - Foi realizado um estudo para investigar a relação entre o
custo, y (em dezenas de milhares de dólares), por unidade
de equipamentos fabricados e do numero de unidades
produzidas por ciclo, x. A equação resultante para a linha
de melhor ajuste foi 𝑦 = 7,31 – 0,01x, com x sendo observado
para valores entre 10 e 200. Se um ciclo de produção foi
programado para produzir 50 unidades, qual seria o custo
por unidade que você iria prever?
Resposta
 1 - Impossível. O coeficiente de correlação deve ser um
valor numérico entre -1 e +1. Deve ter ocorrido um erro de
cálculo.
 2 -
Resposta
 3 –
 4 -

Outros materiais