Análise de dados 9

•

CEDERJ

Marco A.

20/03/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 16 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Análise de Dados

7.711 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Disciplina: Análise de dados
Aula 9: Análise de regressão
Apresentação
Há diversas situações em que podemos observar que duas variáveis têm certa associação. Por exemplo, quando
observamos um grupo de pessoas quanto às suas alturas e seus pesos (ou massas), geralmente quanto mais alto o
indivíduo, maior seu peso. Outra situação clássica ocorre quando estudamos a variação da quantidade vendida de um
produto em relação ao seu preço. Um aumento no preço tende a acarretar uma diminuição da quantidade vendida, da
mesma forma que um decréscimo no preço tende a incrementar as vendas.
Um estudo sobre situações como essas nos permite avaliar o grau de associação entre duas variáveis, além de oferecer uma
forma de medir uma variável através de outra ou fazer previsões de valores de uma variável a partir de valores atribuídos a
outra variável a ela associada. Veja o caso da relação entre preço e volume de vendas. É possível prever a quantidade
vendida a partir de um preço estabelecido.
Nesta aula, veremos como identi�car possíveis relacionamentos entre duas variáveis quantitativas, particularmente em
relações que ocorrem de forma linear. Essa veri�cação será feita de forma grá�ca, por meio dos diagramas de dispersão, e
de forma algébrica, por meio do cálculo do coe�ciente de correlação de Pearson. Também será abordado um teste de
hipótese para avaliar a existência de correlação signi�cativa entre duas variáveis. Constatada a existência de correlação
linear entre duas variáveis, veremos como obter uma equação que as relaciona. Este último processo é denominado
Regressão.
Objetivos
Avaliar a correlação linear entre duas variáveis utilizando diagramas de dispersão e/ou o coe�ciente de correlação;
Usar teste de hipótese para determinar a existência ou não de correlação linear signi�cativa entre variáveis;
Aplicar e utilizar a reta de regressão linear.
Correlação e diagrama de dispersão
Há diversas situações com as quais podemos nos deparar, em nosso cotidiano, em que duas variáveis têm comportamentos que
possuem certa associação. Por exemplo, ao observamos a massa corporal e a estatura de cada uma das pessoas de um grupo,
não é difícil perceber que, quanto mais alta a pessoa, maior é sua massa, em geral. Ou quanto menor sua estatura, menor sua
massa.
Mesmo que o aumento da estatura não signi�que obrigatoriamente um aumento da massa, pois há outros fatores que também
podem provocar alterações em seu valor, sabemos que há uma associação entre tais variáveis. É que parte da variação da massa
pode ser atribuída à variação da estatura, mas costumamos dizer que há fatores aleatórios que também são responsáveis pela
variação da primeira.
Outra situação em que percebemos de forma clara a associação entre duas variáveis diz respeito à variação da demanda de um
produto quando há alteração de seu preço. Geralmente, quando há um aumento no preço de um produto, sua quantidade
demandada (procurada) tende a diminuir. Ou, se há diminuição do preço, a tendência é que a demanda aumente. Ressalte-se que
a demanda não é totalmente determinada pelo preço (há produtos, por exemplo, cujo preço não é o principal fator determinante
da demanda), pois há uma parte de sua variação que é resultado do acaso (variação aleatória) ou de outros fatores associados.
Esse tipo de associação entre variáveis é denominado correlação .
Veremos duas formas de avaliar a correlação entre duas variáveis. A primeira delas consiste em construir grá�cos denominados
diagramas de dispersão. A outra é através do cálculo de uma medida denominada coe�ciente de correlação de Pearson. Vamos
começar pela forma grá�ca.
1
Exemplo 1
Uma empresa produz certo tipo de insumo para indústrias metalúrgicas sob encomenda (tudo o que é produzido é
comercializado). Em uma auditoria, foi realizado um levantamento, entre outros, de duas variáveis relativas a esse insumo: preço
unitário e quantidade vendida. Os valores obtidos são apresentados na Tabela 1.
Tabela 1 – Preços unitários e quantidades vendidas de um insumo
Preço (R$) Quantidade Vendida (milhares de unidades)
4,30 6,5
4,00 6,8
4,10 6,4
4,40 6,1
4,70 5,9
4,80 5,4
4,90 5,8
Para cada par de observações, obtemos um ponto do diagrama de dispersão como mostrado na Figura 1.
Figura 1 – Diagrama de dispersão preço unitário × quantidade vendida
http://estacio.webaula.com.br/cursos/go0022/aula9.html
Observe que os pontos estão próximos de um alinhamento e isso é um indicativo de que há uma forte correlação entre as
variáveis representadas. Além disso, também é possível perceber que, à medida que os valores de preço aumentam, as
quantidades vendidas diminuem (isso já era perceptível na Tabela 1).
2
Exemplo 2
http://estacio.webaula.com.br/cursos/go0022/aula9.html
Neste exemplo, você vai conhecer mais alguns tipos de diagramas.
Os diagramas apresentados na Figura 2 apresentam pontos com comportamentos diferentes. Nos três primeiros, foram inseridas
linhas que mostram as tendências dos pontos para auxiliar na nossa análise.
Figura 2 – Diagramas de dispersão e os tipos de correlação
O diagrama A apresenta pontos que seguem tendência linear com comportamento crescente. Nesse caso, dizemos que há
correlação linear e que ela é positiva, ou seja, as variações ocorrem no mesmo sentido. No caso do diagrama B, assim como
ocorreu no Exemplo 2, a correlação também é linear e as variações ocorrem em sentidos opostos. Dizemos, então, que a
correlação é negativa.
O diagrama C apresenta variáveis correlacionadas, porém, com outro formato. Dizemos, nesse caso, que ela é não linear. Mais
especi�camente, trata-se de uma correlação polinomial de grau 2 (ou quadrática). Há correlações logarítmicas, exponenciais,
polinomiais, entre outras. Aqui, trataremos somente da correlação linear (ou polinomial de grau 1) que, além de mais simples, é a
mais aplicada nas situações práticas.
O diagrama D apresenta um conjunto de pontos em que não é possível perceber nenhum tipo de tendência. Dizemos, portanto,
que não há correlação entre as variáveis ou que a correlação é nula.
(A) Correlação linear positiva (B) Correlação linear negativa
(C) Correlação não linear (D) Correlação nula
Construção de diagramas de dispersão utilizando o programa Excel
A construção de diagramas de dispersão no Excel é muito simples. Veja o procedimento a seguir, considerarando os dados
apresentados no Exemplo 1. Comece digitando os dados apresentados na Tabela 1. Utilize, por exemplo, o intervalo que vai da
célula até a , como mostrado na Figura 3. Em seguida, selecione todo o intervalo considerado e clique, no menu, em
“Inserir”. Dentre as opções que irão surgir, escolha “Inserir diagrama de dispersão” e o subtipo “Dispersão”.
A Figura 3 mostra, com destaque, o caminho que deve ser seguido.
Figura 3 – Procedimento para construção do diagrama de dispersão no Excel
O resultado obtido é mostrado na Figura 1 (do Exemplo 1).
A1 B8
Coe�ciente de correlação de Pearson
Os diagramas de dispersão são bastante úteis, como vimos na análise das correlações entre variáveis. No entanto, para que
tenhamos uma maior precisão na determinação do grau de correlação linear entre duas variáveis, utilizamos o coe�ciente de
correlação de Pearson.
Vale ressaltar que esse coe�ciente, que é o mais utilizado no estudo de correlação, é
destinado à determinação do grau de correlação linear entre duas variáveis quantitativas.
Ele não deve ser utilizado nas situações em que a correlação é não linear (quadrática, por
exemplo) e não tenha como aplicá-lo a dados não quantitativos.
O coe�ciente de correlação de Pearson , denotado por , mede o grau de associação linear entre valores de duas variáveis
quantitativas e . Dados os pares ordenados de valores dessas duas variáveis, de�nimos como:
3 r
X Y (x, y) r
r =
n(Σxy)−(Σx)(Σy)
n(Σ )−x2 (Σx)2
− −−−−−−−−−−−
√ n(Σ )−y2 (Σy)2
− −−−−−−−−−−−
√
http://estacio.webaula.com.br/cursos/go0022/aula9.html
Em que é a quantidade de pares ordenados .n (x, y)
Exemplo 3
Utilizando os valores referentes ao levantamentoapresentado no Exemplo 1 (Tabela 1), podemos construir a seguinte tabela
(Tabela 2) com os somatórios necessários ao cálculo do coe�ciente de correlação de Pearson. Vamos denotar por a variável
preço unitário e por a variável quantidade vendida.
Tabela 2 – Dados para o cálculo do coe�ciente de correlação de Pearson ( )
Preço ( ) Quantidade vendida ( )
2,30 4,3 9,89 5,29 18,49
2,00 5,8 11,60 4,00 33,64
1,70 5,7 9,69 2,89 32,49
1,40 6,1 8,54 1,96 37,21
1,50 6,6 9,90 2,25 43,56
1,20 6,6 7,92 1,44 43,56
0,90 7,6 6,84 0,81 57,76
Como há sete pares de observações , consideramos . Substituindo os valores na fórmula do coe�ciente de
correlação de Pearson, temos:
Como já havíamos concluído anteriormente, a correlação entre essas duas variáveis é negativa. Mas, observe que o valor obtido é
muito próximo de “–1”. Isso indica uma correlação muito forte.
O coe�ciente 𝒓 assume valores que podem variar de –1 a +1. E quanto mais próximo ele é das extremidades desse intervalo,
maior é o grau de correlação entre as variáveis envolvidas. Lembre-se que a presença do sinal negativo (“–”) no valor desse
coe�ciente não signi�ca que a correlação seja mais fraca do que quando o sinal é positivo (“+”). Ele indica apenas que os valores
apresentados variam em sentidos opostos.
Uma forma de compararmos dois ou mais coe�cientes de correlação é utilizando seus módulos. No caso do coe�ciente que
acabamos de obter, seu módulo é dado por:
X
Y
r
X Y X ⋅ Y X2 Y 2
ΣX = 11, 00 ΣY = 42, 70 ΣXY = 64, 38 Σ = 18, 64X2 Σ = 266, 71Y 2
(x, y) n = 7
r = =
n(Σxy)−(Σx)(Σy)
n(Σ )−x2 (Σx)2
− −−−−−−−−−−−
√ n(Σ )−y2 (Σy)2
− −−−−−−−−−−−
√
= ≅−0, 936
7⋅(64,38)−(11,00)(42,70)
7⋅(18,64)−(11,00)2
− −−−−−−−−−−−−−−
√ 7⋅(266,71)−(42,70)2
− −−−−−−−−−−−−−−−
√
Dessa forma, podemos dizer que quanto mais próximo o valor for de +1, maior (mais forte) é a correlação que ele representa.
|r| = |−0, 936| = 0, 936
|r|
Cálculo do coe�ciente de correlação de Pearson
O coe�ciente de correlação de Pearson pode ser facilmente calculado se utilizando o Excel. Após digitar os valores das duas
variáveis em uma planilha do Excel, como mostrado na Figura 3 para os dados que acabamos de utilizar, digite em qualquer célula
vazia: =PEARSON (A2:A8;B2,B8) e aperte “Enter”.
O resultado do coe�ciente surgirá automaticamente na célula. O intervalo é o que contém os valores da variável e o
intervalo contém os valores da variável . Se for feita qualquer alteração de algum valor, o coe�ciente é recalculado
pelo Excel.
A2 : A8 X
B2 : B8 Y
Saiba mais
Assista a um vídeo <https://youtu.be/Dvm2Kl_TLqM> que ilustra o uso do Excel para a realização de processos de correlação
linear.
Teste de hipótese para o coe�ciente de correlação de Pearson
Na aula 8, você viu como realizar alguns testes de hipóteses para a média de uma ou mais populacionais com base em uma ou
mais amostras. Os fundamentos utilizados nos testes de hipóteses (também vistos na aula 6) também podem ser aplicados ao
coe�ciente de correlação de Pearson. Quando calculamos esse coe�ciente com base em uma amostra (e é isso o que ocorre na
prática), ele pode apresentar variações aleatórias que são de caráter amostral e não necessariamente representar o grau de
correlação entre as variáveis estudadas. Isso quer dizer, por exemplo, que você pode obter (para uma amostra de valores
emparelhados) um coe�ciente relativamente alto para o coe�ciente, mas, na verdade, não há correlação signi�cativa entre as
variáveis envolvidas. Nesse caso, o aumento do coe�ciente é atribuído à variação amostral.
Para começar, vamos denotar por (lê-se “rô”) o coe�ciente de correlação de Pearson para uma dada população de dados
emparelhados. O coe�ciente representa o coe�ciente homônimo, mas para uma amostra desses dados.
As hipóteses que serão testadas são:
ρ
r
: ρ = 0H0
: ρ ≠ 0H1
A hipótese , denominada hipótese nula, é a que desejamos testar e indica a ausência de correlação linear entre as variáveis
envolvidas no teste. Se ela não for aceita, estaremos concluindo pela ocorrência da hipótese alternativa , isto é, pela
existência de correlação linear signi�cativa entre as variáveis.
H0
H1/mn>
https://youtu.be/Dvm2Kl_TLqM
Quanto maior for o módulo de , maior a chance de rejeitar . Mas, qual é o valor limite que nos permite concluir pela
aceitação ou rejeição da hipótese nula? A Tabela 3 fornece valores, denominados valores críticos, que nos auxiliam nesse tipo de
decisão para os níveis de signi�cância e .
Tabela 3 – Valores críticos para o coe�ciente de correlação de Pearson ( )
r (|r|) H0
α = 0, 05 α = 0, 01
r
4 0,950 0,990
5 0,878 0,959
6 0,811 0,917
7 0,754 0,875
8 0,707 0,834
9 0,666 0,798
10 0,632 0,765
11 0,602 0,735
12 0,576 0,708
13 0,553 0,684
14 0,532 0,661
15 0,514 0,641
16 0,497 0,623
17 0,482 0,606
18 0,468 0,590
19 0,456 0,575
20 0,444 0,561
25 0,396 0,505
30 0,361 0,463
35 0,335 0,430
40 0,312 0,402
45 0,294 0,378
50 0,279 0,361
60 0,254 0,330
70 0,236 0,305
80 0,220 0,286
90 0,207 0,269
100 0,196 0,256
n α = 0, 05 α = 0, 01
Fonte: TRIOLA (2015).
A hipótese nula será aceita se , em que é o valor crítico da
Tabela 3 associado a . Caso contrário (se ), rejeitamos 
(concluímos pela ocorrência de ).
H0 |r| < vc vc
n |r| ≥ vc H0
H1
Exemplo 4
Vamos testar as hipóteses.
Tabela 2 – Dados para o cálculo do coe�ciente de correlação de Pearson ( )
Para o coe�ciente de correlação (amostral) obtido no Exemplo 3, com nível de signi�cância .
O valor do coe�ciente de correlação (amostral) obtido foi .
Consultando a Tabela 3, concluímos que, para e , o valor crítico é .
Como , concluímos pela rejeição de . Logo, podemos considerar que há correlação
signi�cativa entre as variáveis envolvidas.
r
: ρ = 0H0
: ρ ≠ 0H1
α = 0, 01
r = −0, 936
n = 7 α = 0, 01 = 0, 875vc
|r| =|−0, 936| =0, 936 ≥ = 0, 875vc H0
Regressão linear: equação da reta ajustada
No estudo de regressão, vimos como avaliar se duas variáveis emparelhadas estão ou não signi�cativamente correlacionadas. E
isso, por si só, já é de extrema utilidade prática nas mais diversas áreas do conhecimento. Mas, se constatamos o quanto duas
variáveis estão associadas quantitativamente, por que não determinar “como” essa associação ocorre?
Um estudo que quase sempre é realizado após a aplicação de processos de correlação linear é o que chamamos de regressão
linear .
No caso apresentado no Exemplo 1, veremos que será possível prever, de forma aproximada, ou estimar a quantidade que será
vendida a partir de um valor atribuído ao preço.
Costumamos representar algebricamente essa reta na forma:
4
http://estacio.webaula.com.br/cursos/go0022/aula9.html
= + xŷ b0 b1
Em que:
 é o valor predito ou variável resposta (variável dependente);
 é a variável preditora ou variável explanatória (variável
independente);
 é o intercepto;
 é o coe�ciente de inclinação.
ŷ
x
b0
b1
Os coe�cientes e são constantes reais, com , e são dados por:b0 b1 ≠ 0b1
e
=b1
n(Σxy)−(Σx)(Σy)
n(Σ )−(Σ )x2 y2
= −b0 ȳ b1 x̄
Em que:
 é a média dos valores ;
 é a média dos valores .
ȳ y
x̄ x
A obtenção da equação da reta é um processo que, normalmente, é indicado pelas expressões “ajuste de reta” ou “ajuste da reta
de regressão”.
Exemplo 5
Vamos ajustar a reta (obter a equação) para o conjunto de pontos apresentado no Exemplo 1 referente ao levantamento de
preços e quantidades vendidas de um determinado produto. A Tabela 2, em suas quatro primeiras colunas, apresenta os dados
originais (duas primeiras colunas) e os somatórios que são necessários para o cálculo dos coe�cientes de regressão e .
O coe�ciente de inclinação é dado por:
As médias e são dadas, respectivamente, por:
b0 b1
b1
= =b1
n(Σxy)−(Σx)(Σy)
n(Σ )−x2 (Σx)
2
= ≅−2, 01
7⋅(64,38)−(11,00)(42,70)
7⋅(18,64)−(11,00)2
x̄ ȳ
O intercepto será dado, portanto, por:
Logo, a equação da reta de regressão será dada por:
Podemos, agora, estimar para qualquer valor de , no intervalo . Esta restrição deve ser considerada, pois
os dados fornecidos(provenientes do levantamento realizado) não garantem que a relação entre e permaneça a mesma para
valores menores que R$ 0,90 e maiores que R$ 2,30, que são, respectivamente, o menor e o maior valores observados para as
variáveis em questão.
A estimativa que pode ser obtida para cada valor da variável é denotada por . Para estimar, por exemplo, a quantidade que
deverá ser vendida para um preço real, basta fazer:
= = ≅1, 57x̄ Σxn
11,00
7
e
= = ≅6, 10ȳ
Σy
n
42,70
7
b0
= − = 6, 10 − (−2, 01) ⋅ 1, 57 ≅9, 26b0 ȳ b1x̄
= 9, 26 − 2, 01xŷ
y x 0, 90 ≤ x ≤ 2, 30
x y
y x
x = 1, 80
= 9, 26 − 2, 01 ⋅ 1, 80 = 9, 26 − 3, 618 =ŷ
= 5, 642 milhares de unidades
Cálculo dos coe�cientes e 
Os coe�cientes e podem ser facilmente calculados no Excel. Considerando os dados digitados tais quais mostrados na
Figura 3, você poderá calcular o intercepto através da função =INTERCEPÇÃO (B2:B8;A2,A8) .
Observe que é necessário primeiro indicar o intervalo que contém os valores de e, depois, o intervalo que contém os
valores de .
Para o coe�ciente de inclinação , considere =INCLINAÇÃO (B2:B8;A2,A8) .
Podemos também estimar o valor de para valores de que fazem parte do conjunto de dados que utilizamos no processo de
regressão. Nesse caso, a diferença obtida entre o valor observado e o valor estimado é denominada resíduo. Por exemplo, se
considerarmos reais, o valor observado é milhares de unidades. Já o valor estimado é dado por:
b0 b1
b0 b1
b0
y (B2 : B8)
x (A2 : A8)
b1
y x
y ŷ
x = 2, 30 y = 4, 3 ŷ
= 9, 26 − 2, 01 ⋅ 2, 30 = 9, 26 − 4, 623 =ŷ
4, 637 milhares de unidades
O resíduo, nesse caso, é:
y − = 4, 3 − 4, 637 = −0, 337ŷ
A Tabela 4 apresenta os valores observados, estimados e os resíduos para todos os valores do conjunto de dados do Exemplo
5.
Tabela 4 – Valores observados, estimados e resíduos da regressão do Exemplo 5
Preço ( ) Quantidade vendida ( ) Resíduos ( )
2,30 4,3 4,637 -0,337
2,00 5,8 5,240 0,560
1,70 5,7 5,843 -0,143
1,40 6,1 6,446 -0,346
1,50 6,6 6,245 0,355
1,20 6,6 6,848 -0,248
0,90 7,6 7,451 0,149
Observe que os resíduos assumem ora valores positivos, ora negativos. E pode ocorrer também de um resíduo ser igual a zero. Se
considerarmos os módulos desses resíduos, quanto menores eles forem, melhor é a qualidade do ajuste. Isso signi�ca,
gra�camente, que os pontos estão bem próximos da reta, no geral. Uma medida que se baseia nesses resíduos e avalia a
qualidade do ajuste é denominada coe�ciente de determinação e é simbolizada por . Essa medida pode ser obtida a partir do
coe�ciente de correlação de Pearson, elevando-o ao quadrado.
Já vimos que, para os dados apresentados acima, o coe�ciente de correlação de Pearson é . Portanto, o coe�ciente
de determinação é:
x
X Y Ŷ Y − Ŷ
r2
r = −0, 936
= ≅0, 876  (87, 6%)r2 (−0, 936)2
Concluímos, portanto, que 87,6% (aproximadamente) da variação da quantidade vendida se deve à variação do preço, para os
dados do Exemplo 5.
Atividade
1. Para avaliar qual de três fatores tem maior grau de associação com o desempenho de funcionários do setor de produção, o
departamento de qualidade realizou um estudo de correlação considerando como variável de interesse os desempenhos desses
funcionários. As demais variáveis envolvidas nesse estudo foram: percentual de faltas, tempo na função e quantidade de horas
em treinamento. Os coe�cientes de correlação obtidos para a associação entre os desempenhos e os três fatores citados foram,
respectivamente, e .
Com base nos resultados apresentados, considere as seguintes a�rmações:
I. A maior correlação ocorreu entre os desempenhos e o percentual de faltas.
II. O fator com maior grau de associação com os desempenhos foi o tempo na função.
III. O coe�ciente entre os desempenhos e o percentual de faltas é negativo porque indica que, à medida que o segundo
aumenta, o primeiro diminui.
IV. Em uma representação por diagramas, o que conteria pontos mais alinhados seria o da correlação desempenhos ×
quantidades de horas de treinamento.
É (são) correta(s):
−0, 84; 0, 79 0, 68
a) somente a afirmação (I)
b) todas as afirmações
c) apenas (I) e (III)
d) somente (II) e (IV)
e) apenas (III)
2. No estudo de correlação entre as variáveis consumo de água por residência e número de habitantes por residência, se chegou
a um coe�ciente de correlação igual a . Esse estudo foi baseado em uma amostra de 25 residências de certa região.
Considerando um nível de signi�cância , podemos a�rmar que há correlação signi�cativa entre essas variáveis, no que
diz respeito à totalidade das residências dessa região?
r = 0, 81
α = 0, 01
3. No ajuste de uma reta de regressão para um conjunto de observações, o resultado foi em que é o valor (em
milhares de reais) investido mensalmente em publicidade e é a quantidade mensal demandada (em milhares de unidades). O
modelo é considerado para um intervalo de entre 2 e 4 (milhares de reais).
No mês em que o investimento em publicidade for de R$ 40.000,00, a quantidade demandada estimada será de:
= 10 + 5xŷ x
ŷ
x
a) 210.000 unidades
b) 200.010 unidades
c) 200.000 unidades
d) 60.000 unidades
e) 30.000 unidades
Notas
Correlação 1
Através de seu estudo, conseguimos determinar o grau e o tipo de associação entre pares de variáveis, o que se con�gura como
um processo de extrema utilidade para selecionar fatores (variáveis) que explicam o comportamento de uma variável de
interesse. É o caso, por exemplo, de quando um gestor está interessado em escolher entre as variáveis preço, volume investido
em publicidade, taxa de juros ou quantidade de parcelas oferecidas (variáveis explicativas). Qual é a que mais interfere no
volume de vendas (variável de interesse) de determinado produto?
Forte Correlação 2
Gra�camente, esse fato pode ser observado quando os pontos mostram uma tendência de decrescimento. Quando isso ocorre,
dizemos que há correlação negativa entre as variáveis estudadas. A expressão “negativa”, nesse caso, não serve para determinar
a magnitude ou intensidade da correlação (se ela é alta ou baixa, forte ou fraca).
Quando ocorre correlação negativa, concluímos que as variáveis estudadas variam em sentidos opostos, isto é, à medida que
uma aumenta, a outra diminui ou vice-versa.
Coe�ciente de correção 3
Para calcular esse coe�ciente, são necessários os valores de alguns somatórios envolvendo os valores e das variáveis
envolvidas no processo. Vamos utilizar os dados apresentados no Exemplo 1 para ilustrar o seu cálculo.
x y
Regressão linear 4
A regressão linear é o processo de obtenção, a partir de um conjunto de dados emparelhados representados pelos pontos ,
da equação de uma reta que melhor se ajuste a esses pontos. Através dessa equação, é possível prever os valores de a partir de
valores atribuídos a .
(x,y)
y
x
Coe�ciente de determinação 5
O coe�ciente de determinação indica qual é a razão da variação dos valores da variável dependente 𝑦 que pode ser explicada
pela variação dos valores da variável independente .
r2
xReferências
BUSSAB, Wilton de O.; MORETTIN, Pedro A. Estatística básica. 5. ed. São Paulo: Saraiva, 2002.
HINES, W. W.; MONTGOMERY, D. C.; GOLDSMAN, D. M.; BORROR, C. M. Probabilidade e estatística na engenharia. Rio de Janeiro:
LTC, 2006.
LEVINE, David M.; STEPHAN, David F.; SZABAT, Kathryn A. Estatística: teoria e aplicações usando Microsoft Excel em português. 7.
ed. Rio de Janeiro: LTC, 2016.
MAGALHÃES, Marcos N.; LIMA, Antonio C. P de. Noções de probabilidade e estatística. 6. ed. São Paulo: Editora da Universidade
de São Paulo 2004
de São Paulo, 2004.
MONTGOMERY, Douglas C. Introdução ao controle estatístico de qualidade. 7. ed. Rio de Janeiro: LTC, 2016.
TRIOLA, Mario F. Introdução à Estatística: atualização da tecnologia. Rio de Janeiro: LTC, 2015.
Próxima aula
Estudo de casos
Explore mais
Pesquise na internet, sites, vídeos e artigos relacionados ao conteúdo visto. Em caso de dúvidas, converse com seu professor
online por meio dos recursos disponíveis no ambiente de aprendizagem.Assista aos vídeos:
Correlação e regressão linear – parte 1 <https://youtu.be/IsgQkmtlKmI>
Correlação e regressão linear – parte 2 <https://youtu.be/4jtMxQHrO64>
Correlação e regressão lineares usando o Excel <https://youtu.be/Dvm2Kl_TLqM>
Leia o texto:
Associação, correlação e regressão <//leg.ufpr.br/~silvia/CE701/node71.html>
https://youtu.be/IsgQkmtlKmI
https://youtu.be/4jtMxQHrO64
https://youtu.be/Dvm2Kl_TLqM
http://leg.ufpr.br/~silvia/CE701/node71.html