Buscar

GRA1439 ANÁLISE DE REGRESSÃO UNIVARIADA GR0085211 - ATV 3

Prévia do material em texto

FACULDADE: UAM
DISCIPLINA: GRA1439 ANÁLISE DE REGRESSÃO UNIVARIADA GR0085211 -
202110.ead-14936.01
ATIVIDADE: 3
DANIEL MACHADO GABRICH DE OLIVEIRA
Caro(a) aluno(a),
No decorrer da unidade, foram apresentados diversos tópicos relacionados a uma
análise de regressão linear simples. Esse tipo de análise verifica a existência ou não
de associação linear entre duas variáveis de interesse para uma pesquisa.
Sabe-se que, para realizar uma pesquisa, deve-se inicialmente ter um assunto de
interesse ou uma pergunta, e com isso formular um objetivo geral a ser atingido.
Para que o objetivo seja atingido, é necessário elaborar um questionário de coleta
de dados (instrumento) que contenham perguntas guiadas. Após o objetivo
estipulado e o instrumento formulado, é a hora da aplicação desses pontos com a
população-alvo, e logo depois, organiza-se os dados em uma planilha (por exemplo)
para que sejam analisados
Assim, considere que em uma pesquisa foi perguntada se a renda familiar de
estudantes trabalhadores de uma certa região dependia do tempo de estudo. Logo,
o objetivo era verificar a relação entre renda familiar e tempo de estudo (número de
anos de estudo) da população-alvo. Foram entrevistados 12 estudantes
trabalhadores e os dados coletados estão apresentados na Tabela a seguir.
TABELA.png
Fonte: Elaborada pela autora, 2021.
https://anhembi.blackboard.com/bbcswebdav/pid-17421419-dt-content-rid-129505181_1/xid-129505181_1
Proposta
Com base nas informações apresentadas e no conteúdo estudado, construa uma
análise de regressão linear univariada para avaliar a relação entre renda familiar e
tempo de estudo, sabendo que a reta estimada é = 282,5 + 1141,2 X. Lembre-se de
apresentar a ANOVA e o Teste F com α = 5%, as hipóteses avaliadas, o intervalo de
confiança β1 e o coeficiente de variação. Inclua em sua resposta com as
interpretações e os resultados dos cálculos.
Submeta o arquivo de sua resposta para avaliação docente.
1. Ao enviar este relatório, você concorda: (1) que está enviando este relatório
para ser usado e armazenado como parte dos serviços do SafeAssign™, de
acordo com Política de privacidade da Blackboard; (2) que sua instituição
pode usar seu relatório de acordo com as políticas da instituição; e (3) que
seu uso do SafeAssign se dará sem direito a recurso contra a Blackboard Inc.
e suas afiliadas.
http://www.blackboard.com/Footer/Privacy-Policy.aspx
RESPOSTA
Para começar vou citar abaixo a tabela base do nosso exercício
TABELA 1 - Elencada no enunciado
Neste exercício queremos saber se a variável RENDA FAMILIAR (em reais) apresenta
alguma relação com a variável TEMPO DE ESTUDO (em anos).
_________________________________________________________________________
A. VOU VALIDAR A EQUAÇÃO DA RETA DE REGRESSÃO.
Assim vamos adotar:
Xi: TEMPO DE ESTUDO (em anos)
Yi: RENDA FAMILIAR (em reais)
Assim teremos os seguintes valores com relação aos 12 estudantes:
TABELA INICIAL
Xi Yi
8 R$ 3.370,00
7 R$ 3.321,00
8 R$ 3.310,00
10 R$ 3.541,00
11 R$ 4.350,00
11 R$ 4.132,00
7 R$ 3.250,00
8 R$ 3.459,00
10 R$ 4.331,00
7 R$ 2.950,00
12 R$ 4.650,00
9 R$ 3.540,00
Quando pensamos em uma relação pensamos em uma função. Assim vou graficar um
gráfico de pontos com as informações acima:
Analisando os pontos acima vamos estimar a regra aproximada.
A reta de regressão é dada por: Y = X + + erroα β
= coeficiente dependenteα
= coeficiente independenteβ
Assim, vamos montar a seguinte tabela a partir dos dados primários do enunciado:
TABELA COM DADOS DA PESQUISA COM IC
Alunos Xi Yi X.Y X²
ESTUDANTE 1 8 3.370 26.960 64
ESTUDANTE 2 7 3.321 23.247 49
ESTUDANTE 3 8 3.310 26.480 64
ESTUDANTE 4 10 3.541 35.410 100
ESTUDANTE 5 11 4.350 47.850 121
ESTUDANTE 6 11 4.132 45.452 121
ESTUDANTE 7 7 3.250 22.750 49
ESTUDANTE 8 8 3.459 27.672 64
ESTUDANTE 9 10 4.331 43.310 100
ESTUDANTE 10 7 2.950 20.650 49
ESTUDANTE 11 12 4.650 55.800 144
ESTUDANTE 12 9 3.540 31.860 81
TOTAL 108 44.204 407.441 1006
= 12 (407441) - (108)(44204)α
12 (1006) - (108)²
= 4889292 - 4774032α
12072 - 11664
= 115260α
408
= 282,5α
= 44204 - (282,5) 108β
12 12
= 3683,66 - (282,5) 9β
= 3683,66 - 2542,5β
= 1141,16 1141,2β ≈
Assim comprovei a reta de regressão ESTIMADA para esta amostra:
Y = 282,5 + 1141,2 X + erro
________________________________________________________________________
B. Após validado a equação e baseando nas informações da tabela original vamos elaborar
a ANOVA completando-a com os cálculos e seguindo algumas etapas.
Vamos encontrar valores os valores de Y estimados (ŷ) substituindo na reta estimada dada
os valores de X. A próxima coluna deve apresentar os dados das somas de regressão,
calculando a diferença ao quadrado dos valores estimados com a média de Y, sendo ela
nesse caso ȳ = 44204/12 = 3683,66. A coluna seguinte deve apresentar os valores das
somas dos quadrados totais, calculando a diferença ao quadrado dos valores observados
com a média de Y. Logo após, tem-se a coluna das somas dos quadrados dos resíduos,
realizando o cálculo da diferença ao quadrado dos valores observados com os valores
estimados.
Assim teremos uma nova tabela: TABELA DE APLICAÇÃO DA SOMA DE QUADRADOS
Para esta tabela assumi:
SQReg = SQTot = SQRes =
TABELA DE APLICAÇÃO DA SOMA DE QUADRADOS
Alunos Xi Yi
ŷ = 282,5 +
1141,2X SQReg SQTot SQRes
ESTUDANTE
1 8 3.370 9.412,1
32.814.566,
56 98.407,69
36.506.972,
41
ESTUDANTE
2 7 3.321 8.270,9
21.042.403,
84 131.551,29
2.450.151,0
1
ESTUDANTE
3 8 3.310 9.412,1
32.814.566,
56 139.651,69
37.235.624,
41
ESTUDANTE
4 10 3.541 11.694,5
64.172.916,
64 20.363,29
66.479.562,
25
ESTUDANTE
5 11 4.350 12.835,7
83.759.104,
00 443.955,69
72.007.104,
49
ESTUDANTE
6 11 4.132 12.835,7
83.759.104,
00 200.972,89
75.757.393,
69
ESTUDANTE
7 7 3.250 8.270,9
21.042.403,
84 188.095,69
25.209.436,
81
ESTUDANTE
8 8 3.459 9.412,1
32.814.566,
56 50.490,09
35.439.399,
61
ESTUDANTE
9 10 4.331 11.694,5
64.172.916,
64 418.997,29
54.221.132,
25
ESTUDANTE
10 7 2.950 8.270,9
21.042.403,
84 538.315,69
28.311.976,
81
ESTUDANTE
11 12 4.650 13.976,9
105.949.966
,24 933.735,69
86.991.063,
61
ESTUDANTE
12 9 3.540 10.553,3
47.191.404,
16 20.649,69
49.186.376,
89
TOTAL 108 44.204 126.639,6
610.576.322
,88
3.185.186,6
8
569.796.194
,24
CONTAS:
1. ŷ = 282,5 + 1141,2 (x)
ŷ 1 = 282,5 + 1141,2 (8)= 9412,1
ŷ 2 = 282,5 + 1141,2 (7) = 8270,9
ŷ 3 = 282,5 + 1141,2 (8) = 9412,1
ŷ 4 = 282,5 + 1141,2 (10) = 11694,5
ŷ 5 = 282,5 + 1141,2 (11) = 12835,7
ŷ 6 = 282,5 + 1141,2 (11) = 12835,7
ŷ 7 = 282,5 + 1141,2 (7) = 8270,9
ŷ 8 = 282,5 + 1141,2 (8) = 9412,1
ŷ 9 = 282,5 + 1141,2 (10) = 11694,5
ŷ 10 = 282,5 + 1141,2 (7) = 8270,9
ŷ 11 = 282,5 + 1141,2 (12) = 13976,9
ŷ 12 = 282,5 + 1141,2 (9) = 10,553,3
2. ȳ = 44204/12 = 3683,66 3683,7≈
3. SQReg =
SQReg1 = (ŷ1 - ȳ )² = (9412,1 - 3683,7)² = (5728,4)² = 32814566,56
SQReg2 = (ŷ2 - ȳ )² = (8270,9 - 3683,7)² = (4587,2)² = 21042403,84
SQReg3 = (ŷ3 - ȳ )² = (9412,1 - 3683,7)² = (5728,4)² = 32814566,56
SQReg4 = (ŷ4 - ȳ )² = (11694,5 - 3683,7)² = (8010,8)² = 64172916,64
SQReg5 = (ŷ5 - ȳ )² = (12835,7 - 3683,7)² = (9152,0)² = 83759104,0
SQReg6 = (ŷ6 - ȳ )² = (12835,7 - 3683,7)² = (9152,0)² = 83759104,0
SQReg7 = (ŷ7 - ȳ )² = (8270,9 - 3683,7)² = (4587,2)² = 21042403,84
SQReg8 = (ŷ8 - ȳ )² = (9412,1 - 3683,7)² = (5728,4)² = 32814566,56
SQReg9 = (ŷ9 - ȳ )² = (11694,5 - 3683,7)² = (8010,8)² = 64172916,64
SQReg10 = (ŷ10 - ȳ )² = (8270,9 - 3683,7)² = (4587,2)² = 21042403,84
SQReg11 = (ŷ11 - ȳ )² = (13976,9 - 3683,7)² = (10293,2)² = 105949966,24
SQReg12 = (ŷ12 - ȳ )² = (10553,3 - 3683,7)² = (6869,6)² = 47191404,16
4. SQTot =
SQTot1 = (Y1 - ȳ )² = (3370 - 3683,7)² = (-313,7)² = 98407,69
SQTot2 = (Y2 - ȳ )² = (3321 - 3683,7)² = (-362,7)² = 131551,29
SQTot3 = (Y3 - ȳ )² = (3310 - 3683,7)² = (-373,7)² = 139651,69
SQTot4 = (Y4 - ȳ )² = (3541 - 3683,7)² = (-142,7)² = 20363,29
SQTot5 = (Y5 - ȳ )² = (4350 - 3683,7)² = (666,3)² = 443955,69SQTot6 = (Y6 - ȳ )² = (4132 - 3683,7)² = (448,3)² = 200972,89
SQTot7 = (Y7 - ȳ )² = (3250 - 3683,7)² = (-433,7)² = 188095,69
SQTot8 = (Y8 - ȳ )² = (3459 - 3683,7)² = (-224,7)² = 50490,09
SQTot9 = (Y9 - ȳ )² = (4331 - 3683,7)² = (647,3)² = 418997,29
SQTot10 = (Y10 - ȳ )² = (2950 - 3683,7)² = (-733,7)² = 538315,69
SQTot11 = (Y11 - ȳ )² = (4650 - 3683,7)² = (966,3)² = 933735,69
SQTot12 = (Y12 - ȳ )² = (3540 - 3683,7)² = (-413,7)² = 20649,69
5. SQRes =
Estimativa dos resíduos. Se eu tiver resíduos pequenos significa que tenho erros mínimos
de previsão.
SQRes1 = (Y1 - ŷ1 )² = (3370 - 9412,1)² = (-6042,1)² = 36506972,41
SQRes2 = (Y2 - ŷ2 )² = (3321 - 8270,9)² = (-4949,9)² = 24501510,01
SQRes3 = (Y3 - ŷ3 )² = (3310 - 9412,1)² = (-6102,1)² = 37235624,41
SQRes4 = (Y4 - ŷ4 )² = (3541 - 11694,5)² = (-8153,5)² = 66479562,25
SQRes5 = (Y5 - ŷ5 )² = (4350 - 12835,7)² = (-8485,7)² = 72007104,49
SQRes6 = (Y6 - ŷ6 )² = (4132 - 12835,7)² = (-8703,7)² = 75754393,69
SQRes7 = (Y7 - ŷ7 )² = (3250 - 8270,9)² = (-5020,9)² = 25209436,81
SQRes8 = (Y8 - ŷ8 )² = (3459 - 9412,1)² = (-5953,1)² = 35439399,61
SQRes9 = (Y9 - ŷ9 )² = (4331 - 11694,5)² = (-7363,5)² = 54221132,25
SQRes10 = (Y10 - ŷ10 )² = (2950 - 8270,9)² = (-5320,9)² = 28311976,81
SQRes11 = (Y11 - ŷ11 )² = (4650 - 13976,9)² = (-9326,9)² = 86991063,61
SQRes12 = (Y12 - ŷ12 )² = (3540 - 10553,3)² = (-7013,3)² = 49186376,89
VOLTANDO…..
Notando que os valores são aproximados utilizando duas casas decimais, é possível
formular a tabela ANOVA com os valores obtidos, com a inclusão da fonte de variação (FV),
dos graus de liberdade, da soma dos quadrados, do quadrado médio (QM) e da estatística
F.
TABELA ANOVA - RESULTADOS
FV GL SQ QM
ESTATÍSTICA
F
REGRESSÃO 1 610.576.322,88 610576322,88
10,72RESÍDUO 10 569.796.194,24 56979619,42
TOTAL 11 1.180.372.517,12 667555942,30
Para essa tabela assumi:
>FONTE DE VARIAÇÃO (FV): REGRESSÃO e RESÍDUO
>GRAUS DE LIBERDADE (GL): Pode assumir valores dependendo do tipo:
REGRESSÃO: K = 1
RESÍDUO: K = (N - 2) = (12-2) = 10
>SOMA DE QUADRADOS (SQ):
>QUADRADO MÉDIO (QM):
SQReg/GL (REGRESSÃO) = 610576322,88/1= 610576322,88
SQRes/GL (RESÍDUO) = 569796194,24/10=56979619,42
>ESTATÍSTICA F: QM REGRESSÃO / QM RESÍDUO = 610576322,88/56979619,42 =
10,72
Assim usando os dados presente na “TABELA COM DADOS DA PESQUISA COM IC”,
formulamos o INTERVALO DE CONFIANÇA LINEAR (α = β0):
IC = ( ; ) = [ +- t , (n - 2) ]β0 γ = 95% ^ β0 α/2 𝑄𝑀𝑅𝑒𝑠 1/𝑛 + �̄� ²/𝑆𝑥𝑥 [ ]
Assumindo
> = 282,5^ β0
> n = 12
> O quadrado médio do resíduo, de acordo com a tabela ANOVA é igual a 56979619,42
> A média de x é x̄² = (108/12)² = (9)² = 81
> = = 1006 - 12 (81) = 1006 - 972 = 34𝑆𝑥𝑥
𝑖=1
𝑛
∑ 𝑋𝑖2 − 𝑛𝑥²
> t , (n - 2) = é o valor tabelado de uma distribuição t-Student com (n-2) graus deα/2
liberdade sob H0.
t , (n - 2) = t 0,05/2, (12-2) = t 0,025 , 10 = 2,228α/2
Substituindo os valores na fórmula do IC, temos:
IC = ( ; ) = [ 282,5 +- 2,228 ]β0 γ = 95% 56979619, 42 1/12 + 81/34 [ ]
IC = ( ; ) = [ 282,5 +- 2,228 ]β0 γ = 95% 56979619, 42 2, 4657[ ]
IC = ( ; ) = [ 282,5 +- 2,228 * 11853,04381]β0 γ = 95%
IC = ( ; ) = [ 282,5 +- 26408,58]β0 γ = 95%
IC = ( ; ) = [ 282,5 - 26408,58 ; 282,5 + 26408,58]β0 γ = 95%
IC = ( ; ) = [ - 26126,08; + 26691,08]β0 γ = 95%
Interpretado o coeficiente estimado e o seu respectivo intervalo encontrado, tem-se^ β0 
= 282,5 que é a média da Renda Familiar; isto é, para quem não tem nenhum Ano de^ β0
Estudo (X=0) A média da Renda Familiar é de R$282,50.
Assim, a cada 100 intervalos de confiança, a 95% de chance de serem selecionados os
valores [ - 26126,08; + 26691,08], contendo o verdadeiro valor do parâmetro .β0
Assim usando os dados presente na “TABELA COM DADOS DA PESQUISA COM IC”,
formulamos o INTERVALO para o COEFICIENTE ANGULAR ( β1 0):≠
IC = ( ; ) = [ +- t , (n - 2) ]β1 γ = 95% ^ β1 α/2 𝑄𝑀𝑅𝑒𝑠/𝑆𝑥𝑥
Assumindo
> = 1141,2^ β1
> n = 12
> O quadrado médio do resíduo, de acordo com a tabela ANOVA é igual a 56979619,42
> = = 1006 - 12 (81) = 1006 - 972 = 34𝑆𝑥𝑥
𝑖=1
𝑛
∑ 𝑋𝑖2 − 𝑛𝑥²
> t , (n - 2) = é o valor tabelado de uma distribuição t-Student com (n-2) graus deα/2
liberdade sob H0.
t , (n - 2) = t 0,05/2, (12-2) = t 0,025 , 10 = 2,228α/2
Substituindo os valores na fórmula do IC, temos:
IC = ( ; ) = [ +- t , (n - 2) ]β1 γ = 95% ^ β1 α/2 𝑄𝑀𝑅𝑒𝑠/𝑆𝑥𝑥
IC = ( ; ) = [ 1141,2 +- 2,228 ]β1 γ = 95% 56979619, 42/34
IC = ( ; ) = [ 1141,2 +- 2,228 * 1294,5544]β1 γ = 95%
IC = ( ; ) = [ 1141,2 +- 2884,267]β1 γ = 95%
IC = ( ; ) = [ 1141,2 - 2884,267 ; 1141,2 +2884,267]β1 γ = 95%
IC = ( ; ) = [ - 1743,07 ; + 4025,47]β1 γ = 95%
Interpretado o coeficiente estimado e o seu respectivo intervalo encontrado, tem-se^ β1 ^
= 1141,2 como valor indicado da Renda Familiar para cada ano de ESTUDO; isto é,^ β1
conforme acumula-se anos de estudo a média da renda familiar aumenta.
Assim, entende-se que a cada 100 intervalos de confiança, a 95% de chance de serem
encontrados os valores [ - 1743,07 ; + 4025,47] e conter o verdadeiro valor do parâmetro.
TESTE DE HIPÓTESE
Tem-se como objetivo fornecer uma metodologia que nos permita verificar se os dados
amostrais trazem evidências que apoiem ou não uma hipótese (estatística) formulada.
Teste do coeficiente Linear e angular, respectivamente:
• Ho: β0= 282, em que não existe efeito linear entre Y e X, versus a hipótese alternativa Ha:
β0 ≠ 282 dado o modelo estimado: ^y = 282,5 + 1141,2 X + erro
 
•Ho: β1 = 1141, sendo uma constante, versus a hipótese alternativa Ha: β1 ≠ 1141, sendo
diferente da constante.
Sabe-se, ainda, que o quadrado médio do resíduo é 56979619,42, de acordo com a tabela
ANOVA, e = = 1006 - 12 (81) = 1006 - 972 = 34𝑆𝑥𝑥
𝑖=1
𝑛
∑ 𝑋𝑖2 − 𝑛𝑥²
Ao testar β0 = 14, obtêm-se:
Tobs = 282,5 - 282
𝑄𝑀𝑅𝑒𝑠 1/𝑛 + �̄� ²/𝑆𝑥𝑥 [ ]
Tobs = 0,5 .
𝑄𝑀𝑅𝑒𝑠 1/𝑛 + �̄� ²/𝑆𝑥𝑥 [ ]
Tobs = 0,5 .
11853,04381
Tobs = 0,00004213
Considerando o valor crítico tabelado como -2,228, concluindo que Tobs < tc e logo não
pertence à região crítica, pois não rejeita Ho.
Graficando temos:
- 2,228 + 0,00004213 + 2,228
Para testar β1 = 1141,2, tem-se:
Tobs = 1141,2 - 1141
56979619, 42/34
Tobs = . 0,2 .
1294,5544
Tobs = 0,00015449
Considerando o valor crítico 2,228, tem-se:
- 2,228 + 0,00015449 + 2,228
Assim, como Tobs < tc, ele não pertence à região crítica e não rejeita Ho, ou seja, β1 =
1141,2
>>> Teste F de independência global dos coeficientes do modelo
Usando a tabela F-Snedecor para α = 5%
Considerando Ho: β1 = 0 versus Ho: β1 ≠ 0, dado o modelo estimado ȳ = 282,5 + 1141,2 X,
tem-se:
> O quadrado médio de regressão equivalente a 55,02
> O quadrado médio do resíduo equivalente a 0,59, de acordo com a tabela ANOVA;
> = = 1006 - 12 (81) = 1006 - 972 = 34𝑆𝑥𝑥
𝑖=1
𝑛
∑ 𝑋𝑖2 − 𝑛𝑥²
Logo,
Fobs = 610576322,88 / 56979619,42
Fobs = 10,72
Considerando encontrar na tabela t-Student o valor equivalente a
Fc = F 5%(1, 12-2)
Fc = F 5%(1, 10)
Fc = 4,96
Como Fobs > Fc, pertence à região crítica e rejeita Ho, indicando que existe relação linear entre Y e
X e o modelo proposto é aceitável. No caso do exemplo, então, para cada ano de estudo a média
salarial aumenta em 1141.
>>> Coeficiente de Variação
Aplicando esse conceito ao exemplo, em questão, com os valores já elencados acima é
possível verificar se existe uma alta explicação da variabilidade do modelo linear das
variantes, considerando o modelo estimado ŷ = 282,5 + 1141,2 X, a soma dos quadrados
como 610.576.322,88 e a soma dos quadrados totais como 1.180.372.517,12, de acordo com
a tabela ANOVA.
O cálculo para encontrar o coeficiente de explicação é, então:
R² = 610.576.322,88
1.180.372.517,12
R² = 0,5173 ou 51,73%
Portanto, ao interpretar o coeficiente de explicação nesse caso, entende-se que a variabilidade total
do modelo é explicada pela variável independente em 51,73%, considerada uma aceitável explicação
para o modelo. (Falo isso porquea maior parte dos modelos permeiam 60%, segundo estudos).

Continue navegando