Buscar

Unidade 4

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 17 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 17 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 17 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

- -1
PROBABILIDADE E ESTATÍSTICA
UNIDADE 4 - REGRESSÃO LINEAR E 
CORRELAÇÃO
Joelma Iamac Nomura
- -2
Introdução
Em muitos estudos, é desejável prever o comportamento de uma variável em decorrência de outras, como, por
exemplo, para prever as vendas futuras de um automóvel em função de seu preço, as despesas médicas de uma
família em relação à renda familiar, ou o consumo per de um alimento em função de seu valor nutritivo.capita
O ideal seria conhecer o valor exato de uma variável em relação à outra, contudo, só é possível fazer uma
previsão de média ou valores esperados. A questão de achar o valor médio de uma variável em relação ao(s)
valor(es) conhecido(s) de outras variáveis envolve um problema de regressão. É possível descrever o padrão dos
dados tabelados a partir de uma curva (uma reta, uma parábola etc.).
O objetivo de grande parte dos cálculos é investigar as variáveis que estão relacionadas deterministicamente a
partir das varáveis e . Nesse sentido, é possível afirmar que o conhecimento do valor da variável implica nox y x
conhecimento exato do valor da variável . Em algumas situações, é possível verificar que existem relações entrey
as variáveis, porém não de maneira determinística. É o que acontece quando = idade de uma criança e =x y
tamanho do vocabulário dessa criança.
Nesse caso, temos que a variável não pode ser determinada unicamente com base no valor conhecido de ey x
que duas crianças de mesma idade ( ) podem ter tamanhos bem diferentes de vocabulários ( ), contudo, existex y
uma tendência de se conhecer o tamanho do vocabulário de acordo com o a idade da criança. Esse contexto nos
revela uma situação não determinística.
Outros exemplos são: o preço do aluguel de uma van escolar em relação à distância da casa do aluno até a escola,
ou o preço de determinada verdura em relação à estação do ano.
Assim, vamos adentrar ao mundo da análise de regressão, isto é, a parte da Estatística que tem como objetivo a
investigação da relação entre duas ou mais variáveis relacionadas de maneira não determinística. Ao final desta
unidade, você conseguirá responder às questões: há uma relação direta de causa e efeito entre as variáveis? É
possível que a relação entre as variáveis seja causada por um terceiro? É possível que a relação entre as variáveis
seja uma coincidência?
Vamos começar? Bons estudos!
4.1 Modelo de Regressão Linear Simples
A relação matemática determinística entre duas variáveis é dada pela relação linear , sendo o
coeficiente angular e o intercepto. Em uma situação não determinística, como no exemplo que estabelece a
relação entre as variáveis : idade da criança e tamanho do vocabulário da criança, é a variável fixa, chamadax y: x
de variável independente, preditora ou exploratória. Já a variável é aleatória e recebe a denominação dey
variável dependente ou variável resposta.
Dessa maneira, se tivermos , podemos ter, por exemplo, . As observações geralmente relacionam
inúmeros conjuntos de variáveis independentes com variáveis dependentes , levando à formação de pares (x y n
 que são representados a partir de um gráfico de dispersão. Esse será o próximo assunto
a ser discutido.
4.1.1 Correlação Linear e Gráficos de Dispersão
A correlação entre duas variáveis visa determinar se há algum relacionamento entre elas. Como exemplo,
citamos quando um inspetor de segurança quer saber se existe uma relação entre o número de horas de
treinamento para um funcionário e o número de acidentes com esse funcionário. Larson e Farber (2006, p. 395)
atribuem a seguinte definição para correlação: “é uma relação entre duas variáveis: os dados podem ser
- -3
atribuem a seguinte definição para correlação: “é uma relação entre duas variáveis: os dados podem ser
representados por pares ordenado em que é a variável independente (ou exploratória) e é a variávelx y
dependente (ou resposta)”.
A seguir, você verá problemas ilustrados por diferentes diagramas de dispersão.
a) Um gerente de conduziu um estudo para determinar se há relação entre dinheiro gasto commarketing
propaganda e o número de venda de determinado produto. Parece haver uma correlação linear positiva.
Tabela 1 - Gastos com propaganda Vendas da empresa.versus
Fonte: LARSON; FARBER, 2010, p. 396.
Veja agora o gráfico de correlação que representa os dados da tabela acima. Perceba que a tendência é de y
aumentar à medida que aumenta, ou seja, valores maiores em estão associados a valores maiores em .x y x
VOCÊ SABIA?
A regressão linear também é aplicada na avaliação da demanda de um produto ou serviço, a
partir da análise de eventos futuros usados para fim de planejamento. Algumas variáveis
envolvidas são: mudanças de negócios da concorrência tecnológica, preocupações ambientais
ou disponibilidade de matéria-prima no mercado. Todos esses fatores tornam difícil organizar
e gerar previsões exatas, no entanto, tais previsões são extremamente necessárias para a
programação de recursos existentes ou necessários em uma aquisição futura de recursos,
sejam eles produtos ou pessoas. Assim, a partir da análise de regressão linear e correlação,
torna-se possível obter informações sobre demandas futuras desses produtos ou serviços de
maneira a estimar com antecedência os recursos produtivos a tempo, na quantidade exata e na
qualidade adequada. Tendo em mãos todas essas informações, uma empresa poderá ajustar
seu planejamento de recursos de maneira a atender seu cliente e reduzir custos relacionados a
desperdícios de materiais, ou ainda, melhor alocar as pessoas nos processos envolvidos.
- -4
Figura 1 - Correlação Linear Positiva: relação positiva ou crescente.
Fonte: LARSON; FARBER, 2010, p. 396.
b) Um sociólogo conduziu uma pesquisa para saber se há relação entre o nível de renda e a porcentagem doada
para a caridade.
Tabela 2 - Nível de renda Porcentagem de doações.versus
Fonte: LARSON; FARBER, 2010, p. 396.
Como resultado, mostrado pelo gráfico de dispersão, a relação entre ambas as variáveis foi uma correlação linear
negativa.
- -5
Figura 2 - Correlação Linear Negativa: relação negativa ou decrescente.
Fonte: LARSON; FARBER, 2010, p. 396.
Portanto, de acordo com o gráfico, conforme aumenta, tende a decrescer.x y
c) Um estudante de enfermagem conduz uma pesquisa para identificar se há uma relação entre a variável : pesox
do indivíduo (em libras) e o consumo diário de água (em onças).
Tabela 3 - Peso Água consumida.versus
Fonte: LARSON; FARBER, 2010, p. 396.
O gráfico a seguir mostra que pouco pode ser explicado a respeito da variação dos dados apresentados na tabela.
Ele é formado por pontos dispersos, sem relação, em que o modelo de regressão linear simples não consegue
explicar a variação de em relação a .y x
- -6
Figura 3 - Não há correlação linear entre as variáveis.
Fonte: LARSON; FARBER, 2010, p. 396.
O gráfico de dispersão, ou diagrama de dispersão, é um gráfico cartesiano em que cada par ( é um ponto de
um sistema de coordenadas bidimensional. Assim, temos a variável no eixo vertical e a variável no eixoy x
horizontal e seus pares ordenados respectivos que formam uma nuvem de pontos. Tal nuvem de pontos pode ser
descrita por uma linha reta quando há uma correlação linear entre as variáveis, uma linha curva quando há uma
correlação curvilínea ou mesmo por pontos dispersos que caracterizam uma não correlação linear.
Em determinadas situações, é possível ter valores de idênticos para valores de diferentes, o que mostra que x y y
não é determinado unicamente por , mas também por outros fatores.x
Conforme aponta Devore (2018), há evidências de que os valores de possam ser encontrados a partir dosy
VOCÊ QUER LER?
O artigo “A aplicação do método de regressão linear simples na demanda de produtos
sazonais: um estudo de caso” (MEDEIROS; BIANCHI, 2009) tem como objetivo realizar um
estudo de previsão de demanda para os produtos que possuem maior rotatividade em venda
em uma empresa do ramo comercial e prestação de serviços. Para a leitura, acesse:
https://www.ime.usp.br/~salles/fatec/estatistica/trabalho/A%20aplica%C3%A7%C3%A3o%20do%20m%C3%A9todo%20da%20regress%C3%A3o%20linear%20simples%20na%
.20demanda%20de%20produtossazonais:%20um%20estudo%20de%20caso.pdf
https://www.ime.usp.br/~salles/fatec/estatistica/trabalho/A%20aplica%C3%A7%C3%A3o%20do%20m%C3%A9todo%20da%20regress%C3%A3o%20linear%20simples%20na%20demanda%20de%20produtossazonais:%20um%20estudo%20de%20caso.pdf
https://www.ime.usp.br/~salles/fatec/estatistica/trabalho/A%20aplica%C3%A7%C3%A3o%20do%20m%C3%A9todo%20da%20regress%C3%A3o%20linear%20simples%20na%20demanda%20de%20produtossazonais:%20um%20estudo%20de%20caso.pdf
https://www.ime.usp.br/~salles/fatec/estatistica/trabalho/A%20aplica%C3%A7%C3%A3o%20do%20m%C3%A9todo%20da%20regress%C3%A3o%20linear%20simples%20na%20demanda%20de%20produtossazonais:%20um%20estudo%20de%20caso.pdf
- -7
Conforme aponta Devore (2018), há evidências de que os valores de possam ser encontrados a partir dosy
valores de , caracterizando uma relação linear considerável, porém não perfeita entre as variáveis. Essa relaçãox
é descrita a partir de uma reta de regressão que também pode ser denominada de reta de melhor ajuste ou reta
de mínimos quadrados.
4.1.2 Reta de Regressão
Para poder avaliar melhor a relação estabelecida entre as variáveis, é interessante obter a equação da reta que se
ajusta aos dados amostrais de observações. Ela é dada pela seguinte expressão:n
, sendo o coeficiente angular e o intercepto.
Por se tratar de um valor estimado, vamos adotar . A substituição de e ocorre pela aproximação
ao que já conhecemos da equação da reta dada por: .
Assim, temos:
Sendo:
: valor predito de (a ser estimado);y
x: valor da variável para determinado elemento da amostra;x
y: valor da variável para determinado elemento da amostra;y 
n: número total de observações (tamanho da amostra);
b: intersecção do eixo (intercepto);y
a: coeficiente de inclinação da reta (coeficiente angular)
Os parâmetros e podem ser calculados por meio das seguintes fórmulas:a b
 e 
Assim, em nossa análise, vamos considerar que estamos investigando apenas relações lineares, sendo que o
principal objetivo deste tema é utilizar dados amostrais emparelhados para estimar a equação de regressão.
- -8
Exemplo: uma pesquisa pretende verificar se há correlação significativa entre o peso total do lixo descartado,
por dia, em uma empresa, com o peso do papel contido nesse lixo.
Solução:
Observe os dados do problema reunidos na tabela abaixo.
CASO
“O termo análise de regressão foi usado pela primeira vez por Francis Galton no final do século
XIX no seu trabalho sobre a relação entre a altura do pai e a altura do filho do filho. Apósx y
coletar um número de pares , Galton usou o princípio dos mínimos quadrados para
poder obter a equação da reta de regressão estimada com o objetivo de usá-la para prever a
altura do filho a partir da altura do pai. Ao usar a reta derivada, Galton descobriu que, se a
altura do pai estivesse acima da média, a altura do filho também apresentaria a probabilidade
de estar acima da média, mas não tanto quanto a do pai. De modo semelhante, a altura do filho,
cujo pai tinha altura abaixo da média, também apresentava a probabilidade de estar abaixo da
média, mas não tanto quanto a do pai. Portanto, a altura prevista de um filho sofreu um
“retrocesso” em direção à média; pelo fato de regressão significar volta ou retorno, Galton
adotou a terminologia reta de regressão” (DEVORE, 2018, p. 472).
Veja o gráfico que mostra a média da altura dos filhos contra altura composta dos pais,
baseada no estudo de Galton (MORETTIN; BUSSAB, 2010, p. 487).
Para essa relação, Galton encontrou a equação de regressão . Assim, com
coeficiente angular igual a 0,516, a reta tende para aquela paralela ao eixo passando pelax
média . Se as características entre pais e filhos permanecessem as mesmas de geração
em geração, o coeficiente angular seria próximo a 1.
- -9
Tabela 4 - Peso Total Peso do Papel.versus
Fonte: Elaborada pela autora, 2019.
De acordo com a tabela, temos que , , , , e 
. Substituindo tais valores nas fórmulas: e , encontramos os
parâmetros.
Assim:
E
Com base nos parâmetros a e b calculados, é possível afirmar que a reta de regressão é dada pela equação
. Para traçar essa reta basta estabelecer dois pontos:
Para x = 0, temos que e para , temos que .
- -10
Figura 4 - Gráfico de Dispersão e Reta de Regressão Linear.
Fonte: Elaborada pela autora, 2019.
Prevendo valores de usando a equação da reta de regressão lineary
Quando estamos diante de uma equação de regressão linear, torna-se possível prever valores da variável ay
partir de valores da variável . Assim, sendo a equação para os dados sobre gastos com propaganda ( : emx x
milhares de reais) e vendas da empresa ( : em milhares de reais) dada por: e tomandoy
valores para a variável conseguimos prever as vendas esperadas da empresa. Assim, temos que para:x
A interpretação dos resultados mostra que quando os gastos com propaganda somam R$ 1500,00, as vendas da
empresa se aproximam de R$ 180155,00; quando os gastos somam R$ 1800,00, as vendas da empresa se
aproximam de R$ 195373,00; e quando os gastos somam R$ 2500,00, as vendas da empresa se aproximam de R$
230884,00. Dessa maneira, identificamos que há uma correlação linear positiva entre ambas as variáveis.
A partir das equações da reta de regressão, também é possível observar qual o melhor gráfico que a representa.
Se , temos uma reta decrescente, pois o parâmetro é negativo e igual a -1,04. Já o parâmetro =a b
50,3 determina o intercepto com o eixo . Assim, temos a seguinte representação: se , temosy
uma reta crescente, pois o parâmetro é positivo e igual a 1,662, sendo o intercepto com o eixo igual a 83,34.a y
Muito bem! A seguir, vamos apresentar a medida que estabelece o grau de força e a direção que duas variáveis se
relacionam: o coeficiente de correção de Pearson.
4.2 Coeficiente de Correlação de Pearson
Para que tal análise não fique limitada ao gráfico de dispersão, que poderá torná-la subjetiva, e para se medir o
tipo e a força dessa correlação linear, foi criado o coeficiente de correlação de Pearson ou coeficiente de
correlação produto-momento de Pearson. A origem desse termo remonta o trabalho conjunto de Karl Pearson e
Francis Dalton sendo uma medida de associação bivariada (força) do grau de relacionamento entre duas
variáveis. De acordo com Figueiredo Filho e Silva Júnior (2009), seu conceito está relacionado aos termos
associação e linearidade. No caso da correlação de Pearson, o coeficiente é uma medida da variância
compartilhada entre duas variáveis.
- -11
4.2.1 Conceito
Larson e Farber (2006, p. 398) trazem que “o coeficiente de correlação é uma medida da força e direção de uma
relação linear entre duas variáveis”. Já para Freund (2006), o coeficiente de correlação corresponde a uma
medida de intensidade da relação entre duas variáveis, e estamos diante de uma análise de variância. Para
explicar seu conceito, vamos partir da análise da figura abaixo.
Figura 5 - Representação de .
Fonte: FREUND, 2006, p. 432.
A figura apresentada mostra que estamos diante de uma análise de variância. Como veremos logo a seguir, o
desvio do valor observado de em relação à média de todos os , ou seja, , pode ser escrito como a somay
de duas parcelas que são .
Para Freund (2006), a primeira parcela da equação corresponde ao desvio de (o valor da reta correspondente
ao valor observado de ) a partir da média de todos os ou seja, . Já a outra parcela corresponde ao desviox y,
do valor observado de a partir do valor correspondente na reta . Essa mesma equação é elevada aoy
quadrado:
Sendo que a quantidade à esquerda mede a variação total dos e é denominada de soma de quadrados total e ay
VOCÊ O CONHECE?
Karl Pearson (1857-1936), estatístico britânico, caracterizou-se por sua versatilidade
intelectual e independência, estudando assuntos como a teoria da evolução, biologia,
epidemiologia, medicina, história social e antropometria, que corresponde ao registro das
particularidades físicasdo indivíduo. Em 1911, ele criou o primeiro departamento
universitário de Estatística em todo o mundo, na . À Pearson se deveUniversity College London
a expressão do desvio-padrão, do histograma e a representação da população pela letra sigma
minúscula.
- -12
Sendo que a quantidade à esquerda mede a variação total dos e é denominada de soma de quadrados total e ay
quantidade à direita mede a parcela da variação total dos ´s que pode ser atribuída à relação entre as duasy
variáveis e e é denominada de soma dos quadrados de regressão.x y
4.2.2 Propriedades
Figueiredo Filho e Silva Júnior (2009) elencam as propriedades a serem satisfeitas do coeficiente de correlação
linear de Pearson. Clique nos itens para conhecê-los.
a)
O coeficiente de correlação de Pearson não diferencia entre variáveis independentes e
variáveis dependentes, ou seja, o valor da correlação entre e é o mesmo que entre e ;x y y x
b)
O valor da correlação não muda ao se alterar a unidade de mensuração das variáveis, ou
seja, se estivermos relacionando variáveis nas unidades quilos e litros, o coeficiente de
correlação é o mesmo para a relação entre variáveis nas unidades toneladas e mililitros.
c)
O coeficiente tem um caráter adimensional, sendo desprovido de unidade física que o
define.
d)
A correlação exige que as variáveis sejam quantitativas (contínuas ou discretas), ou seja,
não é possível utilizar a correlação de Pearson para dados categóricos, como, por exemplo,
sexo ou nível de escolaridade.
e)
Os valores observados precisam estar normalmente distribuídos. Isso é importante,
principalmente, para amostras em que n<40. De acordo com o Teorema do Limite Central,
quando o número de observações aumenta, a distribuição das médias amostrais se
aproxima da curva normal.
f)
O coeficiente de correlação é fortemente afetado pela presença de que podemoutliers
comprometer as estimativas dos pesquisadores.
4.2.3 Fórmula do coeficiente de Pearson
Para Larson e Farber (2006, p. 398), “o coeficiente de correlação é uma medida da força e direção de uma relação
linear entre duas variáveis” e está associado às medidas de variabilidade de sucessivas observações. De acordo
com Morettin e Bussab (2010, p. 457), “o desvio de uma observação em relação à média pode ser decomposto
como o desvio da observação em relação ao valor ajustado pela regressão mais o desvio do valor ajustado em
relação à média”. Foi o que tratamos no subtópico anterior. Assim, com base nos conceitos expostos, é possível
afirmar que na correlação linear de Pearson, o coeficiente permite que se faça a análise da força ou existência da
correlação entre duas variáveis:
Sendo:
r = resultado do coeficiente de correlação linear de Pearson;
n = número de observações ou pares de dados;
x = valores assumidos pela variável ;X
y = valores assumidos pela variável .Y
Com valores dentro do intervalo , o valor do coeficiente determina o tipo de correlação existente entre as
- -13
Com valores dentro do intervalo , o valor do coeficiente determina o tipo de correlação existente entre as
variáveis envolvidas no estudo, identificando uma correlação linear positiva, correlação linear perfeita positiva,
correlação linear negativa, correlação linear perfeita negativa ou uma correlação linear nula. Se ambas as
variáveis têm correlação linear positiva, então se aproxima de 1. Se não há correlação linear ou se a correlaçãor
linear é fraca, então está próximo a 0 e se a correlação linear negativa é forte, então se aproxima de -1.r r
Uma observação importante é que se está próximo a zero, significa que não há uma correlação linear, porémr
não estamos afirmando que não haja uma relação qualquer entre e .x y
O fato de duas variáveis serem fortemente correlacionadas não significa que há uma relação de causa e efeito
entre elas. Essa situação exige que o pesquisador considere outras possibilidades, como, por exemplo, a relação
entre as variáveis pode ser causada por uma terceira variável ou uma combinação de diversas outras variáveis.
Exemplo: são apresentadas, a seguir, as notas que 12 estudantes obtiveram nos exames finais de Economia e
Antropologia.
Solução: para que possamos encontrar o coeficiente de correlação, é interessante abrir novas colunas na tabela
anterior de maneira a encontrar os elementos faltantes.
Tabela 5 - Notas finais de estudantes: Economia Antropologia.versus
Fonte: Adaptado de FREUD, 2006, p. 435.
Assim, de acordo com os cálculos da tabela e substituindo em:
Temos:
De acordo com os cálculos, temos que o coeficiente de correlação linear é, aproximadamente, igual a 0,9351, o
- -14
De acordo com os cálculos, temos que o coeficiente de correlação linear é, aproximadamente, igual a 0,9351, o
que nos indica forte correlação linear positiva entre as variáveis e .x y
Como apresentado, não haverá dúvidas quando for igual a . Porém, o que pode ser interpretador 
quando for igual a 0,80 ou for igual a 0,40? Estaria correto dizer que a correlação de 0,80 é duas vezes maisr r
forte que a correlação de 0,40? A resposta para essa pergunta é: não. O coeficiente de correlação mostra a
porcentagem da variação de em relação a . É o que veremos a seguir!y x
4.3 Coeficiente de determinação
O conceito de coeficiente de determinação está relacionado ao conceito do coeficiente de correlação linear
exposto anteriormente. No entanto, de acordo com as ideias de Freund (2006), há várias ciladas na interpretação
do coeficiente de correlação. Para o autor, devemos lembrar que mede apenas a intensidade de relaçõesr
lineares, não se aplicando a relações não lineares, como, por exemplo, as curvilíneas. Além disso, devemos ter em
mente que uma correlação forte não implica, necessariamente, em uma relação de causa e efeito.
4.3.1 Conceito
Para Freund (2006, p. 437), “de modo geral, a definição de nos diz que é a porcentagem da variação totalr
dos que é explicada ou causada por sua relação com ”. Contudo, deve-se prestar atenção quando estivery´s x
diante de um e outro . Para o autor, é errôneo dizer que a correlação de 0,80 é duas vezes mais
forte que a correlação de 0,40. Para , temos que , o que nos leva a entender que 64%
da variação dos são explicadas pela relação com , e quando , apenas da variaçãoy´s x
dos são explicadas a partir da variação de .y´s x
De maneira semelhante, Devore (2018, p. 471) explica que “o coeficiente de determinação pode ser interpretado
como a proporção da variação de observado que pode ser explicada pelo modelo de regressão linear simplesy
(atribuída a uma relação linear aproximada)”.
4.3.2 Fórmula do coeficiente de determinação e interpretação dos resultados
Como já sabemos calcular o coeficiente de correlação de Pearson, o coeficiente de determinação corresponde ao
coeficiente de correlação ao quadrado. Assim, temos que , ou seja, o coeficiente de determinação é a relação
entre a variação explicada e a variação total. Isto é: .
Se tivermos o coeficiente de correlação igual a 0,90, o coeficiente de determinação é dado por .
Mas como podemos interpretar esse resultado?
Para Larson e Farber (2006), se , significa dizer que 81% da variação de podem ser explicados pelay
VOCÊ QUER VER?
Neste vídeo (2016), você poderá aprofundar o conhecimento adquirido na unidade. Ele
apresenta os conceitos trabalhados, como gráficos de dispersão, correlação linear, cálculo do
coeficiente de correlação de Pearson, a equação da reta de regressão linear e outros exemplos
que você poderá praticar. Assista em:
.https://www.youtube.com/watch?v=v6kI-9s2Qhk
https://www.youtube.com/watch?v=v6kI-9s2Qhk
- -15
Para Larson e Farber (2006), se , significa dizer que 81% da variação de podem ser explicados pelay
relação e 19% restante dessa variação não pode ser explicada, podendo ser resultante de outros fatores ou ax
erro de amostra.
Para um valor de alto, afirmamos que o modelo de regressão linear pode explicar a relação estabelecida entre
as variáveis. Já para um pequeno, a melhor decisão a ser adotada é procurar um modelo alternativo, como,por
exemplo, um modelo não linear que possa explicar de melhor maneira tal relação.
Exemplo: um estudo mostra a tabela que relaciona as horas gastas em estudo e a pontuação, em determinado
teste, de 13 estudantes de um curso de graduação em Engenharia de Produção. Faça uma análise completa:
calcule o coeficiente de correlação linear, o coeficiente de determinação e faça suas interpretações.
Tabela 6 - Horas gastas em estudo Pontuação em teste.versus
Fonte: Elaborada pela autora, 2019.
Veja, a seguir, o diagrama de dispersão e a reta de regressão linear.
- -16
Figura 6 - Representações das Horas gastas em estudo Pontuação em teste.versus
Fonte: Elaborada pela autora, 2019.
Vamos ao cálculo do coeficiente de correlação linear. De acordo com os cálculos fornecidos pela tabela, temos as 
seguintes informações:
Tais valores são substituídos na fórmula do coeficiente de correlação linear:
E agora o cálculo do coeficiente de determinação:
Obtivemos um coeficiente de correlação linear igual a 0,8327, o que evidencia que há uma forte correlação linear
entre as variáveis, porém não perfeita. Quando calculamos o coeficiente de determinação, obtivemos , o
que significa dizer que 69,34% da variação de podem ser explicados pela relação com e, o restante, dey x
30,66% desta variação, não pode ser explicado, podendo ser resultante de outros fatores ou erro de amostra.
Caro estudante, para que você possa se apropriar cada vez mais dos conhecimentos adquiridos nesta unidade,
disponibilizamos uma lista de exercícios. Realize as atividades e, na sequência, confira as respostas.
Lembre-se: a prática é um dos caminhos mais assertivos para se ter domínio sobre os conceitos aprendidos.
Bons estudos!
Clique aqui para acessar os exercícios.
Clique aqui para acessar as resoluções.
Síntese
Nesta unidade, nosso objetivo foi apresentar métodos estatísticos que consigam prever ou mensurar a relação
estabelecida entre duas variáveis e . Como exemplo, podemos citar experimentos que busquem evidenciar ax y
relação entre determinado medicamento e as reações adversas ou a idade do animal e produção de leite. Em
ambas as situações, estão presentes duas variáveis: e . A variável recebe a denominação de variávelx y x
https://laureatebrasil.blackboard.com/bbcswebdav/institution/laureate/conteudos/ENG_PROEST_19/unidade_4/ebook/ENG_PROEST_19_E_4_exercicios.pdf
https://laureatebrasil.blackboard.com/bbcswebdav/institution/laureate/conteudos/ENG_PROEST_19/unidade_4/ebook/ENG_PROEST_19_E_4_gabarito.pdf
- -17
ambas as situações, estão presentes duas variáveis: e . A variável recebe a denominação de variávelx y x
independente e de variável dependente ou variável resposta e podem estar associadas entre si. Esse tipo dey
associação entre duas variáveis constitui o problema da correlação, tema que leva a mensurar e interpretar a
quão forte ou fraca é a relação que se estabelece entre essas variáveis, a partir do coeficiente de correlação de
Pearson, que mostra porcentagem da variação de em relação a .y x
Nesta unidade, você teve a oportunidade de:
• construir um diagrama de dispersão;
• encontrar o coeficiente de correlação de Pearson;
• encontrar a equação da reta de regressão linear;
• prever valores de usando a equação da reta de regressão linear;y
• encontrar e interpretar o coeficiente de determinação.
Bibliografia
DEVORE, J. L. . Tradução: Solange Aparecida Visconte.Probabilidade e estatística para engenharia e ciências
Revisão Técnica: Magda Carvalho Pires. São Paulo: Cengage, 2018.
ESTÁTISTICA – Aula 25 – Correlação e Regressão. 2016. 1 vídeo (25 min 9 s). Publicado no canal UNIVESP.
Disponível em: . Acesso em: 3 ago. 2019.https://www.youtube.com/watch?v=v6kI-9s2Qhk
FIGUEIREDO FILHO, D.B., SILVA JUNIOR, J. A. Desvendando os mistérios do coeficiente de corelação de Pearson
(r). , v. 18, n. 1, p. 115-146, 2009. Disponível em: Revista Política Hoje https://periodicos.ufpe.br/revistas
. Acesso em: 3 ago. 2019./politicahoje/article/viewFile/3852/3156
FREUND, J. E. : economia, administração e contabilidade. Tradução: Claus Ivo Doering. 11.Estatística aplicada
ed. Porto Alegre: Bookman, 2006.
LARSON, R.; FARBER, B. . Tradução: Luciane Ferreira Pauleti Vianna. 4. ed. São Paulo:Estatística Descritiva
Pearson Prentice Hall, 2010.
MEDEIROS, F.S.B e BIANCHI, R. C. A aplicação do método de regressão linear simples na demanda de produtos
sazonais: um estudo de caso. . Série: Ciências Sociais Aplicadas. Santa Maria, v. 5, n.1, p.Disciplinarum Scientia
35-53, 2009. Disponível em:
https://www.ime.usp.br/~salles/fatec/estatistica/trabalho/A%20aplica%C3%A7%C3%A3o%20do%20m%
C3%A9todo%20da%20regress%C3%A3o%20linear%20simples%20na%20demanda%20de%
20produtossazonais:%20um%20estudo%20de%20caso.pdf. Acesso em: 8 jul. 2019.
MORETTIN, P. A., BUSSAB, W. O. 6. ed. São Paulo: Saraiva, 2010.Estatística Básica.
TRIOLA, M. F. . 12. ed. Rio de Janeiro: LTC, 2017.Introdução à Estatística
•
•
•
•
•
https://www.youtube.com/watch?v=v6kI-9s2Qhk
https://periodicos.ufpe.br/revistas/politicahoje/article/viewFile/3852/3156
https://periodicos.ufpe.br/revistas/politicahoje/article/viewFile/3852/3156
https://www.ime.usp.br/~salles/fatec/estatistica/trabalho/A%20aplica%C3%A7%C3%A3o%20do%20m%C3%A9todo%20da%20regress%C3%A3o%20linear%20simples%20na%20demanda%20de%20produtossazonais:%20um%20estudo%20de%20caso.pdf
https://www.ime.usp.br/~salles/fatec/estatistica/trabalho/A%20aplica%C3%A7%C3%A3o%20do%20m%C3%A9todo%20da%20regress%C3%A3o%20linear%20simples%20na%20demanda%20de%20produtossazonais:%20um%20estudo%20de%20caso.pdf
https://www.ime.usp.br/~salles/fatec/estatistica/trabalho/A%20aplica%C3%A7%C3%A3o%20do%20m%C3%A9todo%20da%20regress%C3%A3o%20linear%20simples%20na%20demanda%20de%20produtossazonais:%20um%20estudo%20de%20caso.pdf
	Introdução
	4.1 Modelo de Regressão Linear Simples
	4.1.1 Correlação Linear e Gráficos de Dispersão
	4.1.2 Reta de Regressão
	4.2 Coeficiente de Correlação de Pearson
	4.2.1 Conceito
	4.2.2 Propriedades
	4.2.3 Fórmula do coeficiente de Pearson
	4.3 Coeficiente de determinação
	4.3.1 Conceito
	Síntese
	Bibliografia

Outros materiais