Buscar

ESTATÍSTICA APLICADA AO DATA SCIENCE Pratique e Compartilhe 1

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 3 páginas

Prévia do material em texto

ESTATÍSTICA APLICADA AO DATA SCIENCE – Pratique e Compartilhe 1 
 
 
PREDIÇÕES COM MODELOS DE REGRESSÃO LINEAR 
 
Este é um estudo de caso simulado que tem o propósito de demonstrar a técnica de 
predição, com o emprego de modelos de regressão linear múltipla. 100 pessoas em bom 
estado de saúde, porém com índices altos de massa corporal (IMC entre 30 e 40) foram 
convidadas a participar de um estudo sobre o impacto da prática de atividades físicas e 
de dieta alimentar na redução da massa corporal (perda de peso). Elas foram 
randomicamente divididas em dois grupos, um que se submeteu a uma dieta alimentar 
com o uso concomitante de um estimulante natural recém-descoberto, e outro grupo, 
que não se submeteu a qualquer tipo de dieta. Aparentemente, esse novo estimulante 
resultava em grande efeito quando a pessoa se exercitava, caso contrário, o efeito era 
bem pequeno. O estudo foi conduzido para se testar essa hipótese. Sendo assim, todas 
as pessoas foram incentivadas a praticar atividades físicas de alta intensidade e registrar, 
a cada semana, o tempo total que haviam conseguido dedicar a essas atividades. As 
atividades físicas, entretanto, não eram obrigatórias. No final da primeira semana mediu-
se a redução de massa corporal de cada um dos indivíduos. Os dados obtidos foram 
organizados na forma de uma tabela. Um modelo de regressão linear múltipla foi 
ajustado a esses dados, nos quais se incluiu o efeito cruzado entre as variáveis preditivas, 
que é o efeito do produto entre as mesmas variáveis na redução de peso, obtendo-se o 
seguinte resultado: 
 
𝑦 = 	1,25 + 0,15	𝑥1 + 0,20	𝑥2 + 0,30	𝑥1	𝑥2 
 
onde 
 
𝑦 = 𝑝𝑒𝑟𝑑𝑎	𝑑𝑒	𝑝𝑒𝑠𝑜	𝑜𝑐𝑜𝑟𝑟𝑖𝑑𝑜	𝑛𝑎	𝑝𝑟𝑖𝑚𝑒𝑖𝑟𝑎	𝑠𝑒𝑚𝑎𝑛𝑎	(𝑘𝑔)	
	
𝑥1 = 𝑡𝑒𝑚𝑝𝑜	𝑑𝑒𝑑𝑖𝑐𝑎𝑑𝑜	𝑎	𝑎𝑡𝑖𝑣𝑖𝑑𝑎𝑑𝑒𝑠	𝑓í	𝑠𝑖𝑐𝑎𝑠	𝑛𝑎	𝑝𝑟𝑖𝑚𝑒𝑖𝑟𝑎	𝑠𝑒𝑚𝑎𝑛𝑎	(ℎ)	
	
𝑥2 = 	𝑖𝑛𝑑𝑖𝑐𝑎𝑑𝑜𝑟	𝑠𝑒	𝑎	𝑝𝑒𝑠𝑠𝑜𝑎	𝑛ã	𝑜	𝑓𝑒𝑧	(0)	𝑜𝑢	𝑓𝑒𝑧	(1)	𝑑𝑖𝑒𝑡𝑎	𝑎𝑙𝑖𝑚𝑒𝑛𝑡𝑎𝑟	
 
Com base nesses resultados, os pesquisadores puderam tirar algumas conclusões sobre 
o efeito do tempo semanal dedicado a atividades físicas e à prática de dieta alimentar 
com uso concomitante de estimulante natural na redução de peso daquele conjunto de 
pessoas, na primeira semana de tratamento. 
 
 
Vamos Praticar 
 
Agora que você compreendeu as funções e objetivos da construção de modelos de 
regressão para predição, pratiquemos um pouco mais sobre este assunto por meio da 
aplicação do conhecimento adquirido no estudo de caso proposto. Analise e interprete 
os resultados da pesquisa e responda às seguintes perguntas: quais foram as variáveis 
estudadas? Qual o tipo de cada variável, quantitativa ou qualitativa? Se quantitativa, qual 
sua unidade de medida? Se qualitativa, que níveis ou classes podem assumir? O que 
representa cada um dos quatro coeficientes do modelo de regressão linear múltipla? O 
efeito cruzado entre as variáveis 𝑥1 (tempo dedicado a atividades físicas na primeira 
semana) e 𝑥2 (se a pessoa fez ou não dieta alimentar) é positivo? Ou seja, um ajuda o 
outro na redução de peso das pessoas? Em que situações similares você poderia aplicar 
essa mesma técnica para gerar conhecimento a partir de dados? 
 
 
Resolução 
 
1. Quais foram as variáveis estudadas? 
𝑦 = 𝑝𝑒𝑟𝑑𝑎	𝑑𝑒	𝑝𝑒𝑠𝑜	𝑜𝑐𝑜𝑟𝑟𝑖𝑑𝑜	𝑛𝑎	𝑝𝑟𝑖𝑚𝑒𝑖𝑟𝑎	𝑠𝑒𝑚𝑎𝑛𝑎	(𝑘𝑔)	
𝑥1 = 𝑡𝑒𝑚𝑝𝑜	𝑑𝑒𝑑𝑖𝑐𝑎𝑑𝑜	𝑎	𝑎𝑡𝑖𝑣𝑖𝑑𝑎𝑑𝑒𝑠	𝑓í𝑠𝑖𝑐𝑎𝑠	𝑛𝑎	𝑝𝑟𝑖𝑚𝑒𝑖𝑟𝑎	𝑠𝑒𝑚𝑎𝑛𝑎	(ℎ)	
𝑥2 = 	𝑖𝑛𝑑𝑖𝑐𝑎𝑑𝑜𝑟	𝑠𝑒	𝑎	𝑝𝑒𝑠𝑠𝑜𝑎	𝑛ã𝑜	𝑓𝑒𝑧	(0)	𝑜𝑢	𝑓𝑒𝑧	(1)	𝑑𝑖𝑒𝑡𝑎	𝑎𝑙𝑖𝑚𝑒𝑛𝑡𝑎𝑟 
 
2. Qual o tipo de cada variável, quantitativa ou qualitativa? 
Quantitativas à 𝑦	(𝑝𝑒𝑟𝑑𝑎	𝑑𝑒	𝑝𝑒𝑠𝑜); 𝑥1	(𝑡𝑒𝑚𝑝𝑜	𝑑𝑒𝑑𝑖𝑐𝑎𝑑𝑜	𝑎	𝑎𝑡𝑖𝑣𝑖𝑑𝑎𝑑𝑒𝑠	𝑓í𝑠𝑖𝑐𝑎𝑠) 
Qualitativas à	𝑥2	(𝑖𝑛𝑑𝑖𝑐𝑎𝑑𝑜𝑟	𝑑𝑒	𝑑𝑖𝑒𝑡𝑎) 
 
3. Se quantitativa, qual sua unidade de medida? 
perda de peso à kg 
tempo dedicado a atividades físicas à h 
 
4. Se qualitativa, que níveis ou classes podem assumir? 
(0)	𝑖𝑛𝑑𝑖𝑐𝑎𝑑𝑜𝑟	𝑠𝑒	𝑎	𝑝𝑒𝑠𝑠𝑜𝑎	𝑛ã𝑜	𝑓𝑎𝑧	𝑑𝑖𝑒𝑡𝑎	𝑎𝑙𝑖𝑚𝑒𝑛𝑡𝑎𝑟			 
(1)	𝑖𝑛𝑑𝑖𝑐𝑎𝑑𝑜𝑟	𝑠𝑒	𝑎	𝑝𝑒𝑠𝑠𝑜𝑎	𝑓𝑎𝑧	𝑑𝑖𝑒𝑡𝑎	𝑎𝑙𝑖𝑚𝑒𝑛𝑡𝑎𝑟 
 
5. O que representa cada um dos quatro coeficientes do modelo de regressão linear 
múltipla? 
Seja: 
𝑏0	 = 	1,25						
𝑏1 = 	0,15							
𝑏2 = 0,20	
𝑏3 = 𝑏1𝑏2	
	
𝑏0 à coeficiente de ajuste do modelo, no caso em questão, significa que as amostras 
perderam peso sem atividade física ou dieta. 
𝑏1 à este coeficiente demonstra a influência da atividade física na perda de IMC. 
𝑏2 à a interpretação deste coeficiente é similar ao do coeficiente anterior, 𝑏1, 
demonstrando a influência da atividade física na perda de IMC. 
𝑏3 à coeficiente de ajuste cruzado (produto de 𝑏1 e 𝑏2) ele demonstra a potencialização 
da dieta na atividade física, uma vez que para	𝒙𝟐 = 𝟎	o termo 𝒃𝟑𝒙𝟏𝒙𝟐 = 𝟎. 
 
6. O efeito cruzado entre as variáveis 𝒙𝟏 (tempo dedicado a atividades físicas na primeira 
semana) e 𝒙𝟐 (se a pessoa fez ou não dieta alimentar) é positivo? Ou seja, um ajuda o 
outro na redução de peso das pessoas? 
Sim é positivo, pois quando 𝒙𝟐 = 𝟏 o valor de Y é 𝟏, 𝟒𝟓 + 𝟎, 𝟒𝟓𝒙𝟏 que é 
significativamente maior que 𝟏, 𝟐𝟓 + 𝟎, 𝟏𝟓𝒙𝟏 que é o valor de Y para 𝒙𝟐 = 𝟎. 
 
7. Em que situações similares você poderia aplicar essa mesma técnica para gerar 
conhecimento a partir de dados? 
As aplicações são diversas, mas neste momento posso dar um exemplo de comércio que 
atua com dois tipos de venda, sendo venda interna e venda externa, e Y projeção de custo 
das vendas de um produto qualquer deste comércio. 
 
Seja x1 o custo fixo de venda interna de quaisquer produtos, e x2 venda feita por 
vendedor externo, sendo x2=0 para venda interna e x2=1 venda externa. Não havendo 
nenhuma venda interna ou externa o custo fixo será mantido constante e este pode ser 
considerado como b0. Quando a venda for realizada internamente haverá custo fixo de 
venda interna b1 e para vendas externas haverá custos externos b2. Se pensarmos que 
existe ainda um custo de internalização de uma venda externa que relacione (cruze) b1 
e b2, podemos dizer que b3=b1b2 é um coeficiente que nos dá o custo de internalização 
desta venda. Deste modo podemos dizer que a função de custo Y(x1, x2) deste comércio 
e descrita por 
 
𝒀(𝒙𝟏, 𝒙𝟐) = 𝒃𝟎 + 𝒃𝟏𝒙𝟏 + 𝒃𝟐𝒙𝟐 + 𝒃𝟑𝒙𝟏𝒙𝟐

Continue navegando