Estou compartilhando o arquivo 'lista_regressao_' com você

CAYLANNA LIMA BRANDÃO

19/08/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 20 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Bioestatística I

12.342 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Correlação e Regressão – Lista de Exercícios 
 
Engenharia Florestal 
1) Barbetta (2001, p.275). Considerando os dados da Tabela 1: 
a) Construir um diagrama de dispersão para as variáveis taxa de alfabetização e taxa de mortalidade infantil. Quais as 
informações observadas no gráfico? 
Taxa de alfabetização (Y) 
Taxa de mortalidade infantil (X) 
 
 
 
 
b) Calcule o coeficiente de correlação de Pearson entre as variáveis taxa de alfabetização e taxa de mortalidade infantil. 
Interprete o resultado obtido. 
 > cor(X,Y) 
 [1] -0.425336 
 > round(cor(X,Y),2) 
 [1] -0.43 
 
 
Tabela 1 - Alguns dados de doze importantes municípios catarinenses 
município população 
(em 1000 hab.) 
pop. urbana % de pop. 
urbana 
taxa de cresc. taxa de mort. taxa de infantil 
demográfico alfabetização 
Itajaí 101 94 93 3,19 37 85 
Blumenau 193 181 94 4,60 27 90 
Rio do Sul 42 39 94 2,78 38 85 
Joinville 304 292 96 6,46 25 87 
Curitibanos 42 32 76 1,99 67 75 
Lages 152 126 83 1,89 63 78 
Canoinhas 55 36 66 2,92 41 81 
Chapecó 105 77 73 5,32 13 75 
Concórdia 68 25 37 2,71 28 84 
Florianópolis 219 186 85 3,11 17 87 
Criciúma 129 116 90 3,11 32 85 
Laguna 42 33 78 1,21 32 77 
 
2) Barbetta (2001, p.275). Sejam X= nota na prova do vestibular de matemática e Y = nota final na disciplina de cálculo. 
Estas variáveis foram observadas em 20 alunos, ao final do primeiro período letivo de um curso de engenharia. Os dados 
são apresentados a seguir: 
 
 X Y X Y X Y X Y X Y 
39 65 43 78 21 52 64 82 65 88 
57 92 47 89 28 73 75 98 47 71 
34 56 52 75 35 50 30 50 28 52 
40 70 70 50 80 90 32 58 67 88 
a) Construa um diagrama de dispersão e verifique se existe correlação entre os dados observados destas duas 
variáveis. 
 
 
 O que se observa na tabela é que há correlação média entre os dados das duas variáveis (X e Y). 
 
b) Existe algum aluno que foge ao comportamento geral dos demais (ponto discrepante)? 
Existem alunos que fogem ao comportamento geral dos demais. O Ponto discrepante é 70,50 e a tendência é que a 
nota na disciplina de cálculo seja sempre maior que a nota obtida no vestibular de matemática, este aluno foi o 
único que obteve nota no vestibular superior a nota na disciplina de cálculo. 
 
 
c) Calcule a correlação entre a nota no vestibular de matemática e a nota na disciplina de cálculo. > 
cor(X,Y) 
 [1] 0.6941086 
 > round(cor(X,Y),2) 
 [1] 0.69 
 
 
d) Retire o valor discrepante detectado e calcule novamente o coeficiente r. Interprete. O Coeficiente de 
Pearson sem o 70,50 r=0,8648 
O coeficiente de Pearson é 0,8648, então há uma correlação positiva forte. Quando foi tirado o valor de 
discrepância 70,50, onde a nota no vestibular foi superior a nota na disciplina de cálculo, houve aumento de 
correlação entre as notas. 
 
 
3) Barbetta (2001, p.275). Sejam os dados do conjunto de dados do anexo do Capítulo 4 (fazer download no site). 
Considerando apenas a localidade da Encosta do Morro, faça um diagrama de dispersão com os dados de: X= renda 
familiar e Y= número de moradores no domicílio. Interprete. 
 Questão Anulada. 
4) Barbetta (2001, p.286). Com o objetivo de verificar se existe correlação positiva entre aptidão em matemática e aptidão 
em música, foi selecionado um grupo de crianças de 8 a 10 anos de idade, que foram submetidas a dois testes de aptidão: 
um de matemática e outro de música. A ordem da aplicação dos testes em cada criança foi aleatória. Os dados estão 
relacionados na Tabela 2 
Tabela 2 - Testes de aptidão em crianças 
criança Valores de aptidão em criança Valores de aptidão em 
matemática música matemática música 
 1 60 80 7 48 79 
 2 58 62 8 72 88 
 3 73 70 9 75 54 
 4 51 83 10 83 82 
 5 54 62 11 62 64 
 6 75 92 12 52 69 
Faça o cálculo do coeficiente r e confira o resultado encontrado 
 
 
O coeficiente r é =0,169. Portanto, existe uma correlação positiva fraca. > 
cor(X,Y) 
[1] 0.1691458 
> round(cor(X,Y),3) 
[1] 0.169 
 
5) Barbetta (2001, p.286). Com respeito aos 23 alunos de uma turma de estatística, foram observadas as seguintes variáveis: 
número de faltas e nota final da disciplina. Estes dados acusaram a segui8ntes correlação, descrita pelo coeficiente de 
correlação de Pearson: r = – 0,56. Comente as seguintes frases relativas à turma em estudo e ao coeficiente obtido. 
a) “Como r = – 0,56 (correlação relativa moderada), nenhum aluno com grande número de faltas tirou nota alta.” Como 
a correlação é moderada poderá existir a possibilidade de que algum aluno esteja fora do padrão e tenha 
obtido nota alta mesmo com muitas faltas. Então a afirmativa é falsa. 
b) “Como as duas variáveis são correlacionadas, bastaria usar uma delas como critério de avaliação, pois uma acarreta 
a outra.” 
Para determinar a correlação de Persona, é necessário ter duas variáveis para poder existir comparação. Então a 
afirmativa é falsa. 
c) “Os dados observados mostraram uma leve tendência de a nota final se relaciona inversamente com o número de 
faltas, então os alunos freqüentadores tiveram, em geral, melhor desempenho nas avaliações, do que os alunos que 
faltaram muito.” 
Existe a possibilidade que grande parte dos alunos que tiveram mais frequentam as aulas obtiveram notas mais 
altas, estando um ou outro aluno com nota fora do padrão, determinado assim, o coeficiente de relação. A 
afirmativa é verdadeira. 
6) Barbetta (2001, p.286). Numa amostra aleatória de n = 12 livros da Biblioteca Central, encontramos r = 0,207 entre a 
idade da edição e o número de páginas do livro. 
a) O que se pode dizer com base no valor deste coeficiente de correlação? A 
correlação entre a idade de edição e o número de páginas do livro é fraca. 
b) Esta correlação pode ser explicada meramente por fatores casuais? 
Sim; O número de páginas de um livro não é determinado pela idade da edição, se houver correlação forte em uma 
determinada amostra é coincidência ou manipulação de dados. 
7) Barbetta (2001, p.297). Nos últimos anos, em várias regiões, houve um movimento migratório que fez crescer bastante a 
população urbana nos municípios médios e grandes. Neste contexto, vamos tentar explicar o crescimento demográfico 
de um município em função de sua população urbana, para os municípios da Tabela 1. 
a) Qual deve ser a variável dependente e a independente? 
A variável dependente será o crescimento demográfico e a variável independente será a população urbana. b) 
Estabeleça a equação de regressão. 
> mean(Y) 
[1] 3.274167 
> mean(X) 
[1] 103.0833 
 
Call: 
lm(formula = Y ~ X) Coefficients: 
(Intercept) X 
 1.97728 0.01258 
Equação da Variável y=1.97728 
+ 0.01258x 
 
c) Faça um gráfico com os pontos observados e a reta de regressão estimada. 
 
 
d) Qual é a taxa de crescimento demográfico, predita pela equação de regressão, para um município de 300 mil 
habitantes? Equação da Variável y=1.97728 + 0.01258x y=1.97728 + 0.0126(300.000) y=1.97728 + 3.78 
y=5.7573 
e) Calcule o coeficiente R2. 
> cor(X,Y) 
[1] 0.6925982 > 
cor(X,Y)^2 
[1] 0.479623 
 
 f) Quais são as principais informações que podem ser obtidas pela presente análise? 
Os principais dados obtidos foram: qual a taxa de crescimento demográfico em relação à população urbana, no 
qual os resultados foram obtidos por meio da equação de regressão e a média correlação existente entreos dois 
fatores. 
8) Barbetta (2001, p.298). Considerando que a satisfação de um aluno com curso universitário (Y) pode ser afetada pelo seu 
desempenho no curso (X), faça uma análise de regressão, usando os dados do conjunto de dados do anexo do Capítulo 2 
(fazer download no site). 
Questão anulada. 
9) Dados o tempo de serviço de 10 funcionários de uma companhia de seguros e o número de clientes que cada um possui, 
verifique se existe uma associação entre estas variáveis: 
 
Anos de serviço (x) 2 3 4 5 4 6 7 8 8 10 
Nº de clientes (y) 48 50 56 52 43 60 62 58 64 72 
a) Calcule as medidas descritivas destas duas variáveis; 
X<-c(2,3,4,5,4,6,7,8,8,10) 
> mean(X) 
[1] 5.7 
> Y<-c(48,50,56,52,43,60,62,58,64,72) 
> mean(Y) 
[1] 56.5 
Desvio Padrão (X) 
2,5407 
Desvio Padrão (Y) 
8,5553 
 
b) Construa o diagrama de dispersão e anote os valores mínimo e máximo de X e Y que aparecem no gráfico; 
 
 
 
X mínimo 2 e X máximo 10; Y mínimo 43 e Y máximo 77 
c) Trace no diagrama de dispersão as retas y=Xex=Y e analise o gráfico; 
 
Ao analisarmos o gráfico, nota-se uma forte correlação entre os dados. 
 
d) Calcule e interprete o coeficiente de correlação. 
> cor(X,Y) 
[1] 0.8767952 
> round(cor(X,Y),2) 
[1] 0.88 
 Correlação forte positiva. 
 
10) Numa pesquisa feita com 10 famílias com renda bruta mensal entre 10 e 60 salários mínimos, mediram-se: X: renda bruta 
mensal (expressa em números de salários mínimos) e Y: a porcentagem da renda bruta anual gasta com assistência médica. 
 
X 12 16 18 20 28 30 40 48 50 54 
Y 7,2 7,4 7,0 6,5 6,6 6,7 6,0 5,6 6,0 5,5 
a) Escolha adequadamente X e Y. 
Renda Bruta Mensal é a variável independente (X) e Porcentagem da Renda Bruta Anual gasta com assistência é 
a variável dependente (Y). 
b) Construa o diagrama de dispersão; 
 
 
# Gráfico com a reta de regressão abrangendo suas proximidades 
 
 
 
c) Calcule o coeficiente de correlação. 
> cor(X,Y) 
[1] -0.9404625 
> round(cor(X,Y),2) 
[1] -0.94 
 
11) Os quatro conjuntos de dados a seguir foram preparados pelo estatístico F. J. Anscombe e são usados com freqüência em 
aulas sobre correlação. 
 
Conjunto 1 Conjunto 2 Conjunto 3 Conjunto 4 
X Y X Y X Y X Y 
10 8,04 10 9,14 10 7,46 8 6,58 
8 6,95 8 8,14 8 6,77 8 5,76 
13 7,58 13 8,74 13 12,74 8 7,71 
9 8,81 9 8,77 9 7,11 8 8,84 
11 8,33 11 9,26 11 7,81 8 8,47 
14 9,96 14 8,10 14 8,84 8 7,04 
6 7,24 6 6,13 6 6,08 8 5,25 
4 4,26 4 3,10 4 5,39 19 12,50 
12 10,84 12 9,13 12 8,15 8 5,56 
7 4,82 7 7,26 7 6,42 8 7,91 
5 5,68 5 4,74 5 5,73 8 6,89 
a) Calcule a média e o desvio padrão para cada conjunto de dados. 
#conjunto1 
> mean(X) 
[1] 9 
> mean(Y) 
[1] 7.500909 
> round(mean(Y),2) 
[1] 7.5 
>sd(X) 
[1] 3.316625 
> round(sd(X),2) 
[1] 3.32 
>sd(Y) 
[1] 2.031299 
> round(sd(Y),2) 
[1] 2.03 
 
#conjunto2 
> mean(X) 
[1] 9 
> mean(Y) 
[1] 7.500909 
> round(mean(Y),2) 
[1] 7.5 
>sd(X) 
[1] 3.316625 
> round(sd(X),2) 
[1] 3.32 
>sd(Y) 
[1] 2.031657 
> round(sd(Y),2) 
[1] 2.03 
 
#conjunto3 
> mean(X) 
[1] 9 
> mean(Y) 
[1] 7.5 
>sd(X) 
[1] 3.316625 
> round(sd(X),2) 
[1] 3.32 
>sd(Y) 
[1] 2.030424 
> round(sd(Y),2) 
[1] 2.03 
 
#conjunto4 
> mean(X) 
[1] 9 
> mean(Y) 
[1] 7.500909 
> round(mean(Y),2) 
[1] 7.5 
>sd(X) 
[1] 3.316625 
> round(sd(X),2) 
[1] 3.32 
>sd(Y) 
[1] 2.030579 
> round(sd(Y),2) 
[1] 2.03 
 
b) Calcule o coeficiente de correlação para cada conjunto de dados. 
#conjunto1 
> cor(X,Y) 
[1] 0.8163802 
> round(cor(X,Y),2) 
[1] 0.82 
#conjunto2 
> cor(X,Y) 
[1] 0.8162365 
> round(cor(X,Y),2) 
[1] 0.82 
#conjunto3 
> cor(X,Y) 
[1] 0.8162867 
> round(cor(X,Y),2) refazer o 3 
[1] 0.82 
#conjunto4 
> cor(X,Y) 
[1] 0.8165214 
> round(cor(X,Y),2) 
[1] 0.82 
 
 
 
 
 
c) Construa o diagrama de dispersão para cada conjunto de dados. 
 #conjunto1 
 
 
 #conjunto2 
 
 
 
#conjunto3 
 
 
 
#conjunto4 
 
 
 
 
d) Analise os resultados. 
Os resultados obtidos foram praticamente os mesmos, com pequenas diferenças de arredondamento, todos os 
conjuntos possuem a mesma média e todos apresentaram correlação forte positiva entre os dados. 
 
12) Uma empresa que produz bens de alta tecnologia está preocupada com a produtividade de funcionários que exercem 
funções repetitivas e procura descobrir como algumas variáveis podem influenciar no rendimento dessas pessoas. Para 
isso implementa em cada uma de suas três fábricas um programa específico: alimentação especial sugerida pelos 
nutricionistas; intervalos para exercícios de relaxamento sugerido pelos fisioterapeutas; rodízio de funções sugerido pelos 
psicólogos. A tabela a seguir mostra o resultado da produtividade para diversos níveis implementados no programa. 
 
Produtividade (menor=100%) 100 102 105 108 112 120 
Alimentação (frequência semanal) 4 5 1 3 6 2 
Exercícios (frequência semanal) 1 3 2 4 5 6 
Rodízio (frequência semanal) 3 1 2 6 4 5 
a) Construa o diagrama de dispersão da produtividade contra cada uma das variáveis explicativas. Qual variável parece 
manter melhor correlação com a produtividade? 
Produtividade & Alimentação (frequência semanal) 
 
 
 
Produtividade & Exercícios (frequência semanal) 
 
 
 
Produtividade & Rodízio (frequência semanal) 
 
 
 A variável que parece manter melhor correlação com a produtividade é a *Exercícios* 
 
b) Calcule o coeficiente de correlação linear de Pearson nos três casos. O coeficiente confirma a impressão visual dos 
diagramas? 
Produtividade & Alimentação (frequência semanal) 
> cor(X,Y) 
[1] -0.1968218 
> round(cor(X,Y),2) 
[1] -0.2 
Correlação negativa fraca. 
 
Produtividade & Exercícios (frequência semanal) 
> cor(X,Y) 
[1] 0.9257914 
> round(cor(X,Y),2) 
[1] 0.93 
Correlação positiva forte. 
 
Produtividade & Rodízio (frequência semanal) 
> cor(X,Y) 
[1] 0.6342036 
> round(cor(X,Y),2) 
[1] 0.63 
Correlação positiva média. 
 
 
13) Use as observações de poupança agregada e renda (bilhões de reais) em um país X no período de 1990 a 1999 (dados 
fictícios), para estimar a influência do nível de renda sobre a poupança. 
 
 
 
a) Construa o diagrama de dispersão e trace a reta de regressão da poupança em função da renda. 
Interprete os coeficientes. 
 
 
b) Diga qual é o acréscimo na poupança agregada para cada bilhão a mais na renda. > mean(Y) 
[1] 135.17 
> mean(X) 
[1] 580.84 
 
A cada bilhão a mais na renda Call: 
lm(formula = Y ~ X) 
 
Coefficients: 
(Intercept) X 
 -3.3574 0.2385 y= 
−3,1189 
 
 y= -3.3574 + 0.2385 
(47.6) y= -3.3574 + 113,5 
y= 110,143 
 
c) Estime a poupança para uma renda de R$469 400 000 000,00. Quanto seria o consumo agregado das famílias? 
 OBS.: consumo + poupança = renda Call: 
lm(formula = Y ~ X) 
 
Coefficients: 
(Intercept) X 
 Y= -3.3574 + 0.2385x 
 Y= -3.3574 + 0.2385 (469,4) bilhões 
 Y= -3.3574 + 111,9 
 Y= 115,257 
 
469,4 – 115,257 = 354,143 
O consumo agregado é de 354,143 
d) Calcule e interprete o coeficiente de correlação. 
> cor(X,Y) 
[1] 0.8882655 
> round(cor(X,Y),3) 
[1] 0.888 
Correlação positiva forte. 
 
e) Calcule e interprete o coeficiente de determinação. 
Coeficiente de determinação 
> cor(X,Y)^2 
[1] 0.7890156f) Construa o diagrama de dispersão considerando o consumo como variável resposta e a renda como variável explicativa 
(preditora). Estime a reta de regressão e compare o resultado com o item a. 14) Suponha os seguintes dados na tabela 
Renda X Consumo 
 
 
 
Reta de regressão 
A correlação entre renda e consumo é mais forte do que a correlação renda e poupança. 
 
 
14 ) Suponha os seguintes dados na tabela. 
 
 Despesas com Vendas de Certo 
 Propaganda Produto 
(1000 000 R$) (1000 unidades) 
2,5 120 
6,5 190 
11,0 240 
4,0 140 
8,5 180 
14,0 280 
6,0 150 
5,0 115 
10,0 215 
13,5 220 
16,0 320 
a) Construa o diagrama de dispersão; 
 
 
b) Ajuste uma reta aos dados e estime as vendas do produto, para um gasto com propaganda de 12 milhões de reais; > 
mean(Y) 
[1] 197.27 
> mean(X) 
[1] 8.8181 
> lm(Y~X) 
 
Call: 
lm(formula = Y ~ X) 
 
Coefficients: 
(Intercept) X 
 70.76 13.985 
Equação de Regressão 
Y=74.06 + 13.985x 
Y=74.06 + 0.0963 (12) 
Y=74.06 + 167.82 
Y=241.8 (mil) produtos aproximadamente. 
 
c) Qual o acréscimo nas vendas para cada milhão a mais gasto com propaganda? 
Equação de Regressão 
Y=74.06 + 13.985x 
Y=74.06 + 13.985 
Y=88.045 
 
d) Trace a reta no diagrama de dispersão; 
 
 
e) Determine o coeficiente de correlação e interprete-o; 
>cor(X,Y) 
[1] 0.9454 
f) Calcule e interprete o coeficiente de determinação. 
>cor(X,Y)^2 
[1] 0.8958 
 
15) (Toledo e Ovalle, 1995) A tabela abaixo fornece os resultados de uma pesquisa com 10 famílias de determinada região. 
 
 
 
a) Calcule o coeficiente de correlação entre as variáveis renda e poupança, renda e número de filhos, poupança e número 
de filhos, média dos anos de estudo e número de filhos e entre as variáveis renda familiar e média de anos de estudo. 
Retire conclusões. 
Coeficiente de Correlação 
Renda & Poupança 
>cor(X,Y) 
[1] 0.9835181 
> round(cor(X,Y),2) 
[1] 0.98 
Correlação positiva forte 
 
Renda & Número de Filhos 
>cor(X,Y) 
[1] -0.7586044 
> round(cor(X,Y),2) 
[1] -0.76 
Relação negativa forte 
 
Poupança & Número de Filhos 
>cor(X,Y) 
[1] -0.7113586 
> round(cor(X,Y),2) 
[1] -0.71 
Famílias Renda 
R$100,00) ( 
Poupança 
R$10,00) ( 
Número de 
Filhos 
Média de anos de 
estudo da família 
A B 
C 
D E 
F 
G 
H 
I 
J 
 10 
 15 
 12 
70 
80 
 100 20 
30 
10 
60 
4 
 7 
 5 
20 
20 
 8 30 
 8 
3 
15 
8 
6 
5 
1 
2 
2 
3 
 2 
6 
1 
 3 
4 
 5 
12 
 16 
18 8 
8 
4 
8 
Correlação negativa média 
 
Média dos anos de estudo & Número de Filhos 
>cor(X,Y) 
[1] -0.7367236 
> round(cor(X,Y),2) 
[1] -0.74 
Correlação negativa média 
 
Renda familiar & 
Média dos anos de estudo 
>cor(X,Y) 
[1] 0.9472711 
> round(cor(X,Y),2) 
[1] 0.95 
Correlação positiva forte 
 
b) Ajuste um modelo linear utilizando as variáveis Renda (X) e Poupança (Y). Estime o valor poupado quando a renda 
for de 2.000 reais. 
Call: 
lm(formula = Y ~ X) Coefficients: 
(Intercept) X 
 1.4262 0.2598 
Equação da Variável y=1.4262 
+ 0.2598x 
 
Renda 2.000 reais y=1.4262 
+ 0.2598 (2.000) y=1.4262 
+ 519,6 y=521,0262 
A poupança será de aproximadamente 521,02 para uma renda de 2.000 reais. 
16) A administração de um banco desejava estabelecer um critério objetivo para avaliar a eficiência de seus gerentes. Para 
isso, levantou (para cada um dos subdistritos onde possuía agência) dados a respeito do depósito médio mensal por 
agência e o número de estabelecimentos comerciais existentes nesses subdistritos. Os dados são os seguintes: 
 
 
Subdistritos 
Número de 
Estabelecimentos 
Comerciais 
Depósito Médio 
Mensal por Agência 
(10 000 R$) 
Nossa Senhora do Ó 16 14 
Casa verde 30 16 
Vila Formosa 35 19 
Santana 70 30 
Barra Funda 90 31 
Jardim Paulista 120 33 
Santo Amaro 160 35 
Lapa 237 43 
Pinheiros 378 50 
a) Construa o diagrama de dispersão; 
 
 
b) Ajuste uma reta aos dados e estime depósito médio para um número de estabelecimentos comerciais igual a 350; 
 
> mean(Y) 
[1] 30.11 
> mean(X) 
[1] 126.2 
> lm(Y~X) 
 
Call: 
lm(formula = Y ~ X) 
 
Coefficients: 
(Intercept) X 
 17.94444 0.09639 
 Equação de Regressão 
 Y=17.94444 + 0.09639x 
 Y=17.94444 + 0.09639 (350) 
 Y=17.94444 + 33,74 
 Y=51,684 
 
c) Qual o acréscimo nos depósitos médios, para cada estabelecimento a mais no subdistrito? Y=17.94444 + 0.09639x 
 Y=17.94444 + 0.09639 (1) 
Y=18,0404 
 
d) Trace a reta no diagrama de dispersão; 
 
 
 
 
e) Determine o coeficiente de correlação e interprete-o; 
>cor(X,Y) [1] 
0.9363081 
f) Calcule e interprete o coeficiente de determinação. 
>cor(X,Y)^2 
[1] 0.8766728 
Existe correlação positiva forte. 
 
17) Barbetta (2001, p.308). Com o objetivo de verificar se numa certa região existe correlação entre o nível de escolaridade 
médio dos pais e o nível de escolaridade dos filhos, observou-se uma amostra aleatória de 8 indivíduos adultos, 
verificando o número de anos que estes freqüentaram (e tiveram aprovação) em escolas regulares (Y) e o número médio 
de anos que os seus pais freqüentaram (e tiveram aprovação) em escolas regulares (X). Os resultados são apresentados 
na tabela abaixo: 
 
 
X 0 0 2 3 4 4 5 7 
Y 2 3 2 5 9 8 8 15 
 
a) Calcule o coeficiente de correlação de Pearson. 
> cor(X,Y) 
[1] 0.9253721 
> round(cor(X,Y),2) 
[1] 0.93 
Correlação positiva forte 
 
b) Em termos do resultado do item (a), o que se pode dizer sobre a correlação entre o número de anos que os 8 indivíduos 
freqüentaram escolas regulares (Y) e o número médio de anos que os seus pais freqüentaram escolas regulares? Há 
uma forte correlação entre dados, os filhos no qual os pais frequentaram (e tiveram aprovação) em escolas 
regulares por mais tempo estudaram mais. 
c) Estabeleça a reta de regressão de y em relação a x. 
 
 
d) Apresente o diagrama de dispersão acompanhado da reta de regressão. 
 
 
 
 
18) Barbetta (2001, p.308). A tabela a seguir relaciona os pesos (em centenas de kg) e as taxas de consumo de combustível 
em rodovia (km/litro) numa amostra de 10 carros de passeio novos. 
 
 Peso 12 13 14 14 16 18 19 22 24 26 
 Consumo 16 14 14 13 11 12 9 9 8 6 
 
a) Calcule o coeficiente de correlação de Pearson. 
Coeficiente de Correlação de Pearson 
> cor(X,Y) 
[1] -0.9584929 
Correlação negativa forte. 
b) Considerando o resultado do item a), como você avalia o relacionamento entre o peso e o consumo, na amostra 
observada? 
Há uma forte correlação. Quanto maior o peso do veículo, menor será o consumo. 
c) Para estabelecer uma reta de regressão, qual deve ser a variável dependente e qual deve ser a variável independente? 
Justifique a sua resposta. 
A variável dependente será o consumo (Y) e a variável independente será o peso (X). d) 
Estabeleça a equação de regressão, considerando a resposta do item c). 
> mean(Y) 
[1] 17.8 
> mean(X) 
[1] 11.2 
> lm(Y~X) 
 
Call: 
lm(formula = Y ~ X) 
 
Coefficients: 
(Intercept) X 
 22.2500 -0.6208 
 Equação de Regressão 
 22.2500 – 0.6208x 
 
e) Apresente o diagrama de dispersão e a reta de regressão obtida em d). Diagrama de Dispersão 
 
 
Reta da Regressãoe Equação da Regressão 
 
 
f) Você considera adequado o ajuste do modelo de regressão do item d)? Dê uma medida desta adequação 
interpretando-a. 
 Sim; o modelo linear se aplica bem, no qual a correlação é quase perfeita. 
g) Qual o consumo esperado para um carro de 2000 kg? Lembrete: os dados de consumo na tabela estão em centenas 
de kg. 
> lm(Y~X) 
 
Call: 
lm(formula = Y ~ X) 
 
Coefficients: 
(Intercept) X 
 22.2500 -0.6208 
Equação de Regressão 
 Y=22.2500 – 0.6208x 
 Y=22.2500 – 0.6208 (20) 
 Y=22.2500 – 12,416 
 Y=9,834 
O consumo esperado é de aproximadamente 9,8 km/litro. 
 
h) Você considera seu estudo capaz de predizer o consumo esperado para um carro de 7000 kg? Justifique sua resposta. 
> lm(Y~X) 
 
Call: 
lm(formula = Y ~ X) 
 
Coefficients: 
(Intercept) X 
22.2500 -0.6208 
 Equação de Regressão 
 Y=22.2500 – 0.6208x Y=22.2500 
– 0.6208 (70) 
Y=22.2500 – 43,456 Y=-
21,20 
 O consumo não pode ser negativo. Então não é possível presumir-se o consumo. 
 
19) Barbetta (2001, p.308). Um administrador de uma grande sorveteria anotou por um longo período de tempo a temperatura 
média diária, em ºC (X), e o volume de vendas diária de sorvete, em kg (Y). Com os dados, estabeleceu uma equação 
de regressão, resultando em: y = 0,5 + 1,8x, com R2 = 0,80 Pede-se: a) Qual o consumo esperado de sorvete num dia de 
27ºC? 
(x)27 
y=0,5+1,8x 
y=0,5+1,8×(27) 
y=49,10 Kg 
b) Qual o incremento esperado nas vendas de sorvete a cada 1°C de aumento da temperatura? 
y=0,5+1,8(1) 
y=0,5+1,8 y=2,30 
Kg 
O incremento esperado é 2,30 Kg. 
 
20) Atkinson et al. (1994) investigaram em que medida partículas de chumbo potencialmente tóxica emitidas por veículos 
automotores são absorvidas por ciclistas que participam de competições. A tabela abaixo, construída a partir de um gráfico 
apresentado em seu artigo, fornece níveis de chumbo no sangue e horas de treinamento de 10 ciclistas. 
Horas de treinamento 8 10 10 12 15 18 18 21 25 25 
Chumbo no sangue (mmol/L) 0,53 0,25 0,34 0,25 0,29 0,3 0,53 0,53 0,53 0,87 
 
Pede-se: 
a) Faça um gráfico dos dados. Quais suas impressões? 
 
 
b) Verifique se há uma relação entre níveis de chumbo no sangue e horas de treinamento. > cor(X,Y) 
[1] 0.6383902 
> round(cor(X,Y),2) 
[1] 0.64 
Correlação positiva moderada. 
 
c) O ciclista 10 tem níveis muito altos. Nossa evidência de uma relação é proveniente quase que inteiramente desta 
observação? Repita (b) omitindo o ciclista 10. 
> cor(X,Y) 
[1] 0.4612087 
> round(cor(X,Y),2) 
[1] 0.46 
Correlação positiva fraca. 
 
d) O que fizemos em (c) parece razoável? 
Ao retirarmos o 10° ciclista gerou uma mudança razoável na correlação. 
e) Está claro a partir do gráfico obtido em (a) que há variação nos dados que não é explicada pelas horas de treinamento. 
(O que nos dá esta informação?) Talvez o efeito de horas de treinamento não apareça tão fortemente como deveria, 
porque estamos deixando de levar em consideração outras variáveis importantes. Sugira algumas outras variáveis 
que poderiam ser importantes. 
 Sim, os dados estão bastante dispersos, poderíamos considerar como outros fatores a alimentação e horas de sono. 
	Tabela 1 - Alguns dados de doze importantes municípios catarinenses
	Tabela 2 - Testes de aptidão em crianças
	#conjunto1
	#conjunto2
	#conjunto3
	#conjunto4
	#conjunto1
	#conjunto2
	#conjunto3
	#conjunto4
	#conjunto1
	#conjunto2
	#conjunto3
	#conjunto4
	Produtividade & Alimentação (frequência semanal)
	Produtividade & Exercícios (frequência semanal)
	Produtividade & Rodízio (frequência semanal)
	Produtividade & Alimentação (frequência semanal)
	Produtividade & Exercícios (frequência semanal)
	Produtividade & Rodízio (frequência semanal)
	Coeficiente de Correlação