Buscar

EXERCÍCIO 2 - VINHO

Prévia do material em texto

VINHO_ENTREGAR_FINAL.R
Leticia dias gomes
2019-04-11
library(readxl)
vinho <- read_excel("vinho.xlsx")
attach(vinho)
#primeiras seis linhas
head(vinho)
## # A tibble: 6 x 6
## Claridade Aroma Corpo Sabor Afinacao Qualidade
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1 3.3 2.8 3.1 4.1 9.8
## 2 1 4.4 4.9 3.5 3.9 12.6
## 3 1 3.9 5.3 4.8 4.7 11.9
## 4 1 3.9 2.6 3.1 3.6 11.1
## 5 1 5.6 5.1 5.5 5.1 13.3
## 6 1 4.6 4.7 5 4.1 12.8
#ultimas seis linhas
tail(vinho)
## # A tibble: 6 x 6
## Claridade Aroma Corpo Sabor Afinacao Qualidade
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1 3.3 3.5 4.3 4.5 12.1
## 2 1 6.8 5 6 5.2 14.9
## 3 0.8 5 5.7 5.5 4.8 13.5
## 4 0.8 3.5 4.7 4.2 3.3 12.2
## 5 0.8 4.3 5.5 3.5 5.8 10.3
## 6 0.8 5.2 4.8 5.7 3.5 13.2
# a) descritivas
summary(Qualidade)
## Min. 1st Qu. Median Mean 3rd Qu. Max. 
## 7.90 11.15 12.45 12.44 13.75 16.10
sd(Qualidade)
## [1] 2.045353
summary(Claridade)
## Min. 1st Qu. Median Mean 3rd Qu. Max. 
## 0.5000 0.8250 1.0000 0.9237 1.0000 1.0000
sd(Claridade)
## [1] 0.1239752
summary(Aroma)
## Min. 1st Qu. Median Mean 3rd Qu. Max. 
## 3.300 4.125 4.650 4.847 5.450 7.700
sd(Aroma)
## [1] 1.082474
summary(Corpo)
## Min. 1st Qu. Median Mean 3rd Qu. Max. 
## 2.600 4.150 4.750 4.684 5.375 6.600
sd(Corpo)
## [1] 0.824138
summary(Sabor)
## Min. 1st Qu. Median Mean 3rd Qu. Max. 
## 2.900 4.225 4.800 4.768 5.500 7.000
sd(Sabor)
## [1] 1.028014
summary(Afinacao)
## Min. 1st Qu. Median Mean 3rd Qu. Max. 
## 2.900 3.700 4.100 4.255 4.775 6.000
sd(Afinacao)
## [1] 0.7380388
#primeiro encontra-se o desvio padrão das variáveis, analisando que as medianas de aroma e sabor estão mais próximas das médias, significando que a distribuição tende a ser normal;
# b) correlação
pairs(vinho)
cor(vinho)
## Claridade Aroma Corpo Sabor Afinacao
## Claridade 1.00000000 0.0619021 -0.3083783 -0.08515993 0.18321471
## Aroma 0.06190210 1.0000000 0.5489102 0.73656121 0.20164445
## Corpo -0.30837826 0.5489102 1.0000000 0.64665917 0.15210591
## Sabor -0.08515993 0.7365612 0.6466592 1.00000000 0.17976051
## Afinacao 0.18321471 0.2016444 0.1521059 0.17976051 1.00000000
## Qualidade 0.02844131 0.7073243 0.5487022 0.79004713 -0.04704047
## Qualidade
## Claridade 0.02844131
## Aroma 0.70732432
## Corpo 0.54870219
## Sabor 0.79004713
## Afinacao -0.04704047
## Qualidade 1.00000000
cor.test(Qualidade,Claridade)
## 
## Pearson's product-moment correlation
## 
## data: Qualidade and Claridade
## t = 0.17072, df = 36, p-value = 0.8654
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.2939144 0.3449880
## sample estimates:
## cor 
## 0.02844131
cor.test(Qualidade,Aroma)
## 
## Pearson's product-moment correlation
## 
## data: Qualidade and Aroma
## t = 6.0037, df = 36, p-value = 6.871e-07
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.5009057 0.8376079
## sample estimates:
## cor 
## 0.7073243
cor.test(Qualidade,Corpo)
## 
## Pearson's product-moment correlation
## 
## data: Qualidade and Corpo
## t = 3.938, df = 36, p-value = 0.0003612
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.2777369 0.7387931
## sample estimates:
## cor 
## 0.5487022
cor.test(Qualidade,Sabor)
## 
## Pearson's product-moment correlation
## 
## data: Qualidade and Sabor
## t = 7.7323, df = 36, p-value = 3.683e-09
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.6293039 0.8859664
## sample estimates:
## cor 
## 0.7900471
cor.test(Qualidade,Afinacao)
## 
## Pearson's product-moment correlation
## 
## data: Qualidade and Afinacao
## t = -0.28256, df = 36, p-value = 0.7791
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.3612907 0.2768055
## sample estimates:
## cor 
## -0.04704047
#as correlações mais significativas do modelo serão as variáveis;
#observando as correlações de qualidade com as variáveis, destaca-se que o aroma e o sabor tem correlação mais significativa e positiva com a qualidade;
#o p-valor de aroma e sabor foram os menores valores encontrados, além de serem inferiores a 0,05, estão muito próximos de 0, o que indica forte significância;
#as variáveis adotadas para o modelo serão o aroma e sabor pois apresentam linearidade que tende a ser positiva;
# c) histograma
hist(Qualidade)
shapiro.test(Qualidade)
## 
## Shapiro-Wilk normality test
## 
## data: Qualidade
## W = 0.98414, p-value = 0.8559
#o p-valor da qualidade está cima de 0,05, indicando que a variavel não possui distribuição normal. 
# d)significancia dos coeficientes e R2
modelo.1<-lm(Qualidade~.,data = vinho)
modelo.1
## 
## Call:
## lm(formula = Qualidade ~ ., data = vinho)
## 
## Coefficients:
## (Intercept) Claridade Aroma Corpo Sabor 
## 3.9969 2.3395 0.4826 0.2732 1.1683 
## Afinacao 
## -0.6840
summary(modelo.1)
## 
## Call:
## lm(formula = Qualidade ~ ., data = vinho)
## 
## Residuals:
## Min 1Q Median 3Q Max 
## -2.85552 -0.57448 -0.07092 0.67275 1.68093 
## 
## Coefficients:
## Estimate Std. Error t value Pr(>|t|) 
## (Intercept) 3.9969 2.2318 1.791 0.082775 . 
## Claridade 2.3395 1.7348 1.349 0.186958 
## Aroma 0.4826 0.2724 1.771 0.086058 . 
## Corpo 0.2732 0.3326 0.821 0.417503 
## Sabor 1.1683 0.3045 3.837 0.000552 ***
## Afinacao -0.6840 0.2712 -2.522 0.016833 * 
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.163 on 32 degrees of freedom
## Multiple R-squared: 0.7206, Adjusted R-squared: 0.6769 
## F-statistic: 16.51 on 5 and 32 DF, p-value: 4.703e-08
anova(modelo.1)
## Analysis of Variance Table
## 
## Response: Qualidade
## Df Sum Sq Mean Sq F value Pr(>F) 
## Claridade 1 0.125 0.125 0.0926 0.7628120 
## Aroma 1 77.353 77.353 57.2351 1.286e-08 ***
## Corpo 1 6.414 6.414 4.7461 0.0368417 * 
## Sabor 1 19.050 19.050 14.0953 0.0006946 ***
## Afinacao 1 8.598 8.598 6.3616 0.0168327 * 
## Residuals 32 43.248 1.352 
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#os valores de aroma e sabor são mais evidentes por se aproximarem de zero;
#o valor de R2 é 0,7206 significando que o modelo responde por cerca de 72% da variabilidade na resposta qualidade;
modelo.2<-lm(Qualidade~Aroma+Sabor)
summary(modelo.2)
## 
## Call:
## lm(formula = Qualidade ~ Aroma + Sabor)
## 
## Residuals:
## Min 1Q Median 3Q Max 
## -2.19048 -0.60300 -0.03203 0.66039 2.46287 
## 
## Coefficients:
## Estimate Std. Error t value Pr(>|t|) 
## (Intercept) 4.3462 1.0091 4.307 0.000127 ***
## Aroma 0.5180 0.2759 1.877 0.068849 . 
## Sabor 1.1702 0.2905 4.027 0.000288 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.229 on 35 degrees of freedom
## Multiple R-squared: 0.6586, Adjusted R-squared: 0.639 
## F-statistic: 33.75 on 2 and35 DF, p-value: 6.811e-09
anova(modelo.2)
## Analysis of Variance Table
## 
## Response: Qualidade
## Df Sum Sq Mean Sq F value Pr(>F) 
## Aroma 1 77.442 77.442 51.284 2.369e-08 ***
## Sabor 1 24.494 24.494 16.221 0.0002883 ***
## Residuals 35 52.852 1.510 
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#o valor de R2 é 0,6586, o que indica que as variáveis aroma e sabor respondem por cerca de 65% da variabilidade na resposta qualidade do modelo;
# e) analisar os residuos
par(mfrow=c(2,2))
plot(modelo.2,add.smooth = F)
#nos resíduos, enxerga-se uma uniformidade;
#distancia de cook - os valores mais significativos são os pontos 2, 20 e 30, porém nenhum passa da distância de 0,5, indicando que todos os valores estão dentro da normalidade;
influence.measures(modelo.2)
## Influence measures of
## lm(formula = Qualidade ~ Aroma + Sabor) :
## 
## dfb.1_ dfb.Arom dfb.Sabr dffit cov.r cook.d hat inf
## 1 0.03106 -0.00594 -0.014458 0.03312 1.212 3.76e-04 0.1007 
## 2 0.31126 0.20535 -0.385174 0.48814 0.947 7.58e-02 0.0820 
## 3 -0.00690 0.01571 -0.011814 -0.01957 1.177 1.31e-04 0.0740 
## 4 0.25605 0.07805 -0.238450 0.32270 1.125 3.48e-02 0.1036 
## 5 0.02877 -0.01334 -0.015558 -0.06554 1.129 1.47e-03 0.0417 
## 6 0.00510 -0.01760 0.017559 0.03525 1.129 4.26e-04 0.0369 
## 7 0.00938 -0.00467 0.004427 0.04719 1.113 7.62e-04 0.0266 
## 8 -0.00466 -0.01937 0.019623 -0.02706 1.166 2.51e-04 0.0655 
## 9 0.33595 0.06257 -0.253552 0.47579 0.779 6.83e-02 0.0464 
## 10 0.12154 -0.17502 0.117244 0.31043 0.926 3.09e-02 0.0388 
## 11 0.07400 0.19436 -0.197692 0.37030 0.853 4.28e-02 0.0389 
## 12 0.20387 -0.29277 0.159849 0.35274 1.106 4.14e-02 0.1026 
## 13 -0.12452 -0.07539 0.175035 0.20821 1.302 1.48e-02 0.1769 *
## 14 0.02671 -0.02318 0.001151 -0.03528 1.388 4.27e-04 0.2142 *
## 15 -0.14795 0.21579 -0.085120 0.26457 1.257 2.38e-02 0.1599 *
## 16 -0.13951 0.00261 0.134499 0.31816 0.945 3.26e-02 0.0440 
## 17 -0.03893 0.17008 -0.123464 0.19063 1.226 1.24e-02 0.1292 
## 18 -0.01711 -0.03367 0.053409 0.07976 1.134 2.18e-03 0.0487 
## 19 -0.03575 -0.00996 0.026725 -0.06910 1.114 1.63e-03 0.0326 
## 20 -0.52780 0.17430 0.169240 -0.57481 0.870 1.02e-01 0.0817 
## 21 0.06413 -0.00763 -0.045352 -0.08649 1.223 2.56e-03 0.1130 
## 22 -0.00548 0.00463 0.001523 0.01638 1.131 9.21e-05 0.0365 
## 23 -0.03257 0.11539 -0.124362 -0.28585 0.920 2.62e-02 0.0331 
## 24 -0.22488 0.07840 0.052513 -0.30648 0.939 3.02e-02 0.0404 
## 25 0.16911 -0.11953 -0.036669 -0.29766 1.022 2.92e-02 0.0578 
## 26 -0.03050 0.04393 -0.029425 -0.07791 1.120 2.07e-03 0.0388 
## 27 -0.03857 0.15389 -0.133758 -0.18197 1.185 1.13e-02 0.1023 
## 28 0.00586 -0.01281 -0.010134 -0.13063 1.065 5.75e-03 0.0280 
## 29 -0.09865 0.32351 -0.270308 -0.38718 1.057 4.93e-02 0.0917 
## 30 -0.36517 -0.38977 0.605495 -0.66246 1.112 1.42e-01 0.1768 
## 31 0.02766 -0.07385 0.006781 -0.32479 0.837 3.28e-02 0.0292 
## 32 -0.21199 -0.14153 0.270736 -0.31711 1.188 3.39e-02 0.1327 
## 33 0.16943 -0.24331 0.132847 0.29315 1.138 2.89e-02 0.1026 
## 34 -0.00213 0.00215 -0.000305 0.00327 1.233 3.66e-06 0.1153 
## 35 -0.00511 -0.01005 0.015949 0.02382 1.146 1.95e-04 0.0487 
## 36 0.17870 -0.20162 0.087606 0.27309 1.091 2.49e-02 0.0760 
## 37 -0.06090 -0.03147 0.067245 -0.08916 1.172 2.72e-03 0.0771 
## 38 0.03479 0.03603 -0.070254 -0.10212 1.137 3.56e-03 0.0554
shapiro.test(modelo.2$residuals)
## 
## Shapiro-Wilk normality test
## 
## data: modelo.2$residuals
## W = 0.97832, p-value = 0.6578
#o p-valor encontrado é de 0,6578>0,05 indicando que aceita-se a hipótese nula Ho;
#outros gráficos
library(car)
## Loading required package: carData
residualPlots(modelo.2)
## Test stat Pr(>|Test stat|)
## Aroma 0.3988 0.6925
## Sabor -0.3634 0.7185
## Tukey test -0.1438 0.8856
#outlier
outlierTest(modelo.2)
## No Studentized residuals with Bonferonni p < 0.05
## Largest |rstudent|:
## rstudent unadjusted p-value Bonferonni p
## 9 2.156817 0.038179 NA
#no ponto 9 é encontrado o maior p-valor, porém 0,038<0,05 rejeitando-se Ho e indicando que a observação é um outlier;
#verificar residuos tem variancia constante
ncvTest(modelo.2)
## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 2.946652, Df = 1, p = 0.086056
durbinWatsonTest(modelo.2)
## lag Autocorrelation D-W Statistic p-value
## 1 0.5630917 0.8686443 0
## Alternative hypothesis: rho != 0
#o p-valor e a probabilidade deste resultado ser ao acaso é muito baixo, pois os residuos são correlacionados;
#no teste de durbin não tem um ponto alto de correlação, a hipótese nula é igual a zero e os dados são dependentes;
# f) valores preditos
preditos<-fitted(modelo.2)
#previsao para aroma=8 e sabor=275
predict.lm(modelo.2,newdata = data.frame(Aroma=8,Sabor=275),interval = "prediction")
## fit lwr upr
## 1 330.2857 172.1692 488.4022
predict.lm(modelo.2,newdata = data.frame(Aroma=8,Sabor=275),interval = "confidence")
## fit lwr upr
## 1 330.2857 172.1889 488.3826
#o intervalo de confiança vai estar entre os valores de 175,18 e 488,38;

Continue navegando