Baixe o app para aproveitar ainda mais
Prévia do material em texto
VINHO_ENTREGAR_FINAL.R Leticia dias gomes 2019-04-11 library(readxl) vinho <- read_excel("vinho.xlsx") attach(vinho) #primeiras seis linhas head(vinho) ## # A tibble: 6 x 6 ## Claridade Aroma Corpo Sabor Afinacao Qualidade ## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> ## 1 1 3.3 2.8 3.1 4.1 9.8 ## 2 1 4.4 4.9 3.5 3.9 12.6 ## 3 1 3.9 5.3 4.8 4.7 11.9 ## 4 1 3.9 2.6 3.1 3.6 11.1 ## 5 1 5.6 5.1 5.5 5.1 13.3 ## 6 1 4.6 4.7 5 4.1 12.8 #ultimas seis linhas tail(vinho) ## # A tibble: 6 x 6 ## Claridade Aroma Corpo Sabor Afinacao Qualidade ## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> ## 1 1 3.3 3.5 4.3 4.5 12.1 ## 2 1 6.8 5 6 5.2 14.9 ## 3 0.8 5 5.7 5.5 4.8 13.5 ## 4 0.8 3.5 4.7 4.2 3.3 12.2 ## 5 0.8 4.3 5.5 3.5 5.8 10.3 ## 6 0.8 5.2 4.8 5.7 3.5 13.2 # a) descritivas summary(Qualidade) ## Min. 1st Qu. Median Mean 3rd Qu. Max. ## 7.90 11.15 12.45 12.44 13.75 16.10 sd(Qualidade) ## [1] 2.045353 summary(Claridade) ## Min. 1st Qu. Median Mean 3rd Qu. Max. ## 0.5000 0.8250 1.0000 0.9237 1.0000 1.0000 sd(Claridade) ## [1] 0.1239752 summary(Aroma) ## Min. 1st Qu. Median Mean 3rd Qu. Max. ## 3.300 4.125 4.650 4.847 5.450 7.700 sd(Aroma) ## [1] 1.082474 summary(Corpo) ## Min. 1st Qu. Median Mean 3rd Qu. Max. ## 2.600 4.150 4.750 4.684 5.375 6.600 sd(Corpo) ## [1] 0.824138 summary(Sabor) ## Min. 1st Qu. Median Mean 3rd Qu. Max. ## 2.900 4.225 4.800 4.768 5.500 7.000 sd(Sabor) ## [1] 1.028014 summary(Afinacao) ## Min. 1st Qu. Median Mean 3rd Qu. Max. ## 2.900 3.700 4.100 4.255 4.775 6.000 sd(Afinacao) ## [1] 0.7380388 #primeiro encontra-se o desvio padrão das variáveis, analisando que as medianas de aroma e sabor estão mais próximas das médias, significando que a distribuição tende a ser normal; # b) correlação pairs(vinho) cor(vinho) ## Claridade Aroma Corpo Sabor Afinacao ## Claridade 1.00000000 0.0619021 -0.3083783 -0.08515993 0.18321471 ## Aroma 0.06190210 1.0000000 0.5489102 0.73656121 0.20164445 ## Corpo -0.30837826 0.5489102 1.0000000 0.64665917 0.15210591 ## Sabor -0.08515993 0.7365612 0.6466592 1.00000000 0.17976051 ## Afinacao 0.18321471 0.2016444 0.1521059 0.17976051 1.00000000 ## Qualidade 0.02844131 0.7073243 0.5487022 0.79004713 -0.04704047 ## Qualidade ## Claridade 0.02844131 ## Aroma 0.70732432 ## Corpo 0.54870219 ## Sabor 0.79004713 ## Afinacao -0.04704047 ## Qualidade 1.00000000 cor.test(Qualidade,Claridade) ## ## Pearson's product-moment correlation ## ## data: Qualidade and Claridade ## t = 0.17072, df = 36, p-value = 0.8654 ## alternative hypothesis: true correlation is not equal to 0 ## 95 percent confidence interval: ## -0.2939144 0.3449880 ## sample estimates: ## cor ## 0.02844131 cor.test(Qualidade,Aroma) ## ## Pearson's product-moment correlation ## ## data: Qualidade and Aroma ## t = 6.0037, df = 36, p-value = 6.871e-07 ## alternative hypothesis: true correlation is not equal to 0 ## 95 percent confidence interval: ## 0.5009057 0.8376079 ## sample estimates: ## cor ## 0.7073243 cor.test(Qualidade,Corpo) ## ## Pearson's product-moment correlation ## ## data: Qualidade and Corpo ## t = 3.938, df = 36, p-value = 0.0003612 ## alternative hypothesis: true correlation is not equal to 0 ## 95 percent confidence interval: ## 0.2777369 0.7387931 ## sample estimates: ## cor ## 0.5487022 cor.test(Qualidade,Sabor) ## ## Pearson's product-moment correlation ## ## data: Qualidade and Sabor ## t = 7.7323, df = 36, p-value = 3.683e-09 ## alternative hypothesis: true correlation is not equal to 0 ## 95 percent confidence interval: ## 0.6293039 0.8859664 ## sample estimates: ## cor ## 0.7900471 cor.test(Qualidade,Afinacao) ## ## Pearson's product-moment correlation ## ## data: Qualidade and Afinacao ## t = -0.28256, df = 36, p-value = 0.7791 ## alternative hypothesis: true correlation is not equal to 0 ## 95 percent confidence interval: ## -0.3612907 0.2768055 ## sample estimates: ## cor ## -0.04704047 #as correlações mais significativas do modelo serão as variáveis; #observando as correlações de qualidade com as variáveis, destaca-se que o aroma e o sabor tem correlação mais significativa e positiva com a qualidade; #o p-valor de aroma e sabor foram os menores valores encontrados, além de serem inferiores a 0,05, estão muito próximos de 0, o que indica forte significância; #as variáveis adotadas para o modelo serão o aroma e sabor pois apresentam linearidade que tende a ser positiva; # c) histograma hist(Qualidade) shapiro.test(Qualidade) ## ## Shapiro-Wilk normality test ## ## data: Qualidade ## W = 0.98414, p-value = 0.8559 #o p-valor da qualidade está cima de 0,05, indicando que a variavel não possui distribuição normal. # d)significancia dos coeficientes e R2 modelo.1<-lm(Qualidade~.,data = vinho) modelo.1 ## ## Call: ## lm(formula = Qualidade ~ ., data = vinho) ## ## Coefficients: ## (Intercept) Claridade Aroma Corpo Sabor ## 3.9969 2.3395 0.4826 0.2732 1.1683 ## Afinacao ## -0.6840 summary(modelo.1) ## ## Call: ## lm(formula = Qualidade ~ ., data = vinho) ## ## Residuals: ## Min 1Q Median 3Q Max ## -2.85552 -0.57448 -0.07092 0.67275 1.68093 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 3.9969 2.2318 1.791 0.082775 . ## Claridade 2.3395 1.7348 1.349 0.186958 ## Aroma 0.4826 0.2724 1.771 0.086058 . ## Corpo 0.2732 0.3326 0.821 0.417503 ## Sabor 1.1683 0.3045 3.837 0.000552 *** ## Afinacao -0.6840 0.2712 -2.522 0.016833 * ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 1.163 on 32 degrees of freedom ## Multiple R-squared: 0.7206, Adjusted R-squared: 0.6769 ## F-statistic: 16.51 on 5 and 32 DF, p-value: 4.703e-08 anova(modelo.1) ## Analysis of Variance Table ## ## Response: Qualidade ## Df Sum Sq Mean Sq F value Pr(>F) ## Claridade 1 0.125 0.125 0.0926 0.7628120 ## Aroma 1 77.353 77.353 57.2351 1.286e-08 *** ## Corpo 1 6.414 6.414 4.7461 0.0368417 * ## Sabor 1 19.050 19.050 14.0953 0.0006946 *** ## Afinacao 1 8.598 8.598 6.3616 0.0168327 * ## Residuals 32 43.248 1.352 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 #os valores de aroma e sabor são mais evidentes por se aproximarem de zero; #o valor de R2 é 0,7206 significando que o modelo responde por cerca de 72% da variabilidade na resposta qualidade; modelo.2<-lm(Qualidade~Aroma+Sabor) summary(modelo.2) ## ## Call: ## lm(formula = Qualidade ~ Aroma + Sabor) ## ## Residuals: ## Min 1Q Median 3Q Max ## -2.19048 -0.60300 -0.03203 0.66039 2.46287 ## ## Coefficients: ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 4.3462 1.0091 4.307 0.000127 *** ## Aroma 0.5180 0.2759 1.877 0.068849 . ## Sabor 1.1702 0.2905 4.027 0.000288 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 1.229 on 35 degrees of freedom ## Multiple R-squared: 0.6586, Adjusted R-squared: 0.639 ## F-statistic: 33.75 on 2 and35 DF, p-value: 6.811e-09 anova(modelo.2) ## Analysis of Variance Table ## ## Response: Qualidade ## Df Sum Sq Mean Sq F value Pr(>F) ## Aroma 1 77.442 77.442 51.284 2.369e-08 *** ## Sabor 1 24.494 24.494 16.221 0.0002883 *** ## Residuals 35 52.852 1.510 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 #o valor de R2 é 0,6586, o que indica que as variáveis aroma e sabor respondem por cerca de 65% da variabilidade na resposta qualidade do modelo; # e) analisar os residuos par(mfrow=c(2,2)) plot(modelo.2,add.smooth = F) #nos resíduos, enxerga-se uma uniformidade; #distancia de cook - os valores mais significativos são os pontos 2, 20 e 30, porém nenhum passa da distância de 0,5, indicando que todos os valores estão dentro da normalidade; influence.measures(modelo.2) ## Influence measures of ## lm(formula = Qualidade ~ Aroma + Sabor) : ## ## dfb.1_ dfb.Arom dfb.Sabr dffit cov.r cook.d hat inf ## 1 0.03106 -0.00594 -0.014458 0.03312 1.212 3.76e-04 0.1007 ## 2 0.31126 0.20535 -0.385174 0.48814 0.947 7.58e-02 0.0820 ## 3 -0.00690 0.01571 -0.011814 -0.01957 1.177 1.31e-04 0.0740 ## 4 0.25605 0.07805 -0.238450 0.32270 1.125 3.48e-02 0.1036 ## 5 0.02877 -0.01334 -0.015558 -0.06554 1.129 1.47e-03 0.0417 ## 6 0.00510 -0.01760 0.017559 0.03525 1.129 4.26e-04 0.0369 ## 7 0.00938 -0.00467 0.004427 0.04719 1.113 7.62e-04 0.0266 ## 8 -0.00466 -0.01937 0.019623 -0.02706 1.166 2.51e-04 0.0655 ## 9 0.33595 0.06257 -0.253552 0.47579 0.779 6.83e-02 0.0464 ## 10 0.12154 -0.17502 0.117244 0.31043 0.926 3.09e-02 0.0388 ## 11 0.07400 0.19436 -0.197692 0.37030 0.853 4.28e-02 0.0389 ## 12 0.20387 -0.29277 0.159849 0.35274 1.106 4.14e-02 0.1026 ## 13 -0.12452 -0.07539 0.175035 0.20821 1.302 1.48e-02 0.1769 * ## 14 0.02671 -0.02318 0.001151 -0.03528 1.388 4.27e-04 0.2142 * ## 15 -0.14795 0.21579 -0.085120 0.26457 1.257 2.38e-02 0.1599 * ## 16 -0.13951 0.00261 0.134499 0.31816 0.945 3.26e-02 0.0440 ## 17 -0.03893 0.17008 -0.123464 0.19063 1.226 1.24e-02 0.1292 ## 18 -0.01711 -0.03367 0.053409 0.07976 1.134 2.18e-03 0.0487 ## 19 -0.03575 -0.00996 0.026725 -0.06910 1.114 1.63e-03 0.0326 ## 20 -0.52780 0.17430 0.169240 -0.57481 0.870 1.02e-01 0.0817 ## 21 0.06413 -0.00763 -0.045352 -0.08649 1.223 2.56e-03 0.1130 ## 22 -0.00548 0.00463 0.001523 0.01638 1.131 9.21e-05 0.0365 ## 23 -0.03257 0.11539 -0.124362 -0.28585 0.920 2.62e-02 0.0331 ## 24 -0.22488 0.07840 0.052513 -0.30648 0.939 3.02e-02 0.0404 ## 25 0.16911 -0.11953 -0.036669 -0.29766 1.022 2.92e-02 0.0578 ## 26 -0.03050 0.04393 -0.029425 -0.07791 1.120 2.07e-03 0.0388 ## 27 -0.03857 0.15389 -0.133758 -0.18197 1.185 1.13e-02 0.1023 ## 28 0.00586 -0.01281 -0.010134 -0.13063 1.065 5.75e-03 0.0280 ## 29 -0.09865 0.32351 -0.270308 -0.38718 1.057 4.93e-02 0.0917 ## 30 -0.36517 -0.38977 0.605495 -0.66246 1.112 1.42e-01 0.1768 ## 31 0.02766 -0.07385 0.006781 -0.32479 0.837 3.28e-02 0.0292 ## 32 -0.21199 -0.14153 0.270736 -0.31711 1.188 3.39e-02 0.1327 ## 33 0.16943 -0.24331 0.132847 0.29315 1.138 2.89e-02 0.1026 ## 34 -0.00213 0.00215 -0.000305 0.00327 1.233 3.66e-06 0.1153 ## 35 -0.00511 -0.01005 0.015949 0.02382 1.146 1.95e-04 0.0487 ## 36 0.17870 -0.20162 0.087606 0.27309 1.091 2.49e-02 0.0760 ## 37 -0.06090 -0.03147 0.067245 -0.08916 1.172 2.72e-03 0.0771 ## 38 0.03479 0.03603 -0.070254 -0.10212 1.137 3.56e-03 0.0554 shapiro.test(modelo.2$residuals) ## ## Shapiro-Wilk normality test ## ## data: modelo.2$residuals ## W = 0.97832, p-value = 0.6578 #o p-valor encontrado é de 0,6578>0,05 indicando que aceita-se a hipótese nula Ho; #outros gráficos library(car) ## Loading required package: carData residualPlots(modelo.2) ## Test stat Pr(>|Test stat|) ## Aroma 0.3988 0.6925 ## Sabor -0.3634 0.7185 ## Tukey test -0.1438 0.8856 #outlier outlierTest(modelo.2) ## No Studentized residuals with Bonferonni p < 0.05 ## Largest |rstudent|: ## rstudent unadjusted p-value Bonferonni p ## 9 2.156817 0.038179 NA #no ponto 9 é encontrado o maior p-valor, porém 0,038<0,05 rejeitando-se Ho e indicando que a observação é um outlier; #verificar residuos tem variancia constante ncvTest(modelo.2) ## Non-constant Variance Score Test ## Variance formula: ~ fitted.values ## Chisquare = 2.946652, Df = 1, p = 0.086056 durbinWatsonTest(modelo.2) ## lag Autocorrelation D-W Statistic p-value ## 1 0.5630917 0.8686443 0 ## Alternative hypothesis: rho != 0 #o p-valor e a probabilidade deste resultado ser ao acaso é muito baixo, pois os residuos são correlacionados; #no teste de durbin não tem um ponto alto de correlação, a hipótese nula é igual a zero e os dados são dependentes; # f) valores preditos preditos<-fitted(modelo.2) #previsao para aroma=8 e sabor=275 predict.lm(modelo.2,newdata = data.frame(Aroma=8,Sabor=275),interval = "prediction") ## fit lwr upr ## 1 330.2857 172.1692 488.4022 predict.lm(modelo.2,newdata = data.frame(Aroma=8,Sabor=275),interval = "confidence") ## fit lwr upr ## 1 330.2857 172.1889 488.3826 #o intervalo de confiança vai estar entre os valores de 175,18 e 488,38;
Compartilhar