Prévia do material em texto
INFERÊNCIA ESTATÍSTICA - ATIV 3 __________________________________________________________________________________________ É muito comum em empresas que estão iniciando suas atividades a dúvida entre quais serão seus fornecedores. Então, para resolver à essa questão, é importante que ela avalie o desempenho de vários fornecedores, e escolha qual representa melhores resultados. Os resultados podem ser medidos conforme o lucro, a quantidade de vendas, o preço de compra, entre outras características que a empresa achar válido. Vamos imaginar que um supermercado deseja escolher quais marcas de sabão em pó ele venderá. Para isso, ele definiu que venderá apenas duas das quatro marcas que lhe foram oferecidos. O critério de seleção será as duas marcas com mais unidades vendidas em um mês. Caso dê empate, será escolhido aquele com menor custo de compra. Como o supermercado não pode esperar um mês para escolher os ganhadores, ele comprou um lote de cada produto, e pôs à venda por uma semana. Ao final da semana (7 dias) foram obtidos os seguintes resultados: Marca Média de venda Desvio padrão das vendas Custo de compra A 20 2 10,0 B 12 8 14,0 C 17 5 15,0 D 15 5 12,0 Tabela 1 - dados de vendas conforme marcas de produtos. Fonte: Autoria própria. Quais seriam as marcas escolhidas, considerando que as análises possuem uma significância de 5%? Considere que as variâncias populacionais das vendas sejam iguais para todas as marcas. Resolva os exercícios aplicando o teste p-valor. Abaixo segue as tabelas a serem aplicadas nos testes. Quadro 1 - Valores de Z para P<0,3. Fonte: Elaborado pelo autor Quadro 2 - Valores de t para P<0,15 e grau de liberdade menores que 30. Fonte: Elaborado pelo autor Quadro 3 - Valores de f para a=0,01 Fonte: Elaborado pelo autor Quadro 4 - Valores de f para a=0,05 Fonte: Elaborado pelo autor __________________________________________________________________________________________ RES.: O cenário em análise configura-se um caso de análise de variância (ANOVA de um fator com quatro níveis). Esta análise nos proporciona determinar se as médias de três ou mais grupos são diferentes. No caso de duas *marcas* com mais *unidades vendidas* em um mês. cria data frame a partir da Tabela 1 - dados de vendas conforme marcas de produtos. marcas_1 <- c(rep("A", 7), rep("B", 7), rep("C", 7), rep("D", 7)) medias_venda_1 <- c(rep(20, 7), rep(12, 7), rep(17, 7), rep(15, 7)) df_1 <- data.frame(marcas_1, medias_venda_1) df_1 **Teste de Hipótese, unilateral à direita.** **H0:** $ \vec{A} = \vec{B} = \vec{C} = \vec{D} $ **H1:** $ \text{Pelo menos duas das marcas são mais vendidas. (Alegação)} $ a) **Resultados, descrevendo e explicando artifícios estatísticos para este teste de hipótese, em consonância com as suposições estatísticas.** x_barra_1 <- tapply(medias_venda_1, marcas_1, mean) print(x_barra_1) media_a1 <- mean(medias_venda_1) print(media_a1) O dataset possui 28 observações em 4 grupos. Os tratamentos possuem 7, 7, 7 e 7 observações respectivamente, logo, precisa-se do xbarra_1 repetido nessas freqüências. n_1 <- sum(rep(7, 4)) print(n_1) soma_f_x_1 <- sum((7*12),(7*17),(7*15),(7*20)) print(soma_f_x_1) media_a2 <- soma_f_x_1/n_1 print(media_a2) Soma dentro dos grupos/soma de quadrados de dentro/resíduo. somasw_1 <- (((7-1)*2^2)+((7-1)*8^2)+((7-1)*5^2)+((7-1)*5^2)) print(somasw_1) Soma de quadrados entre tratamento/amostra. somasb_1 <- (7*(12-media_a2)^2)+(7*(15-media_a2)^2)+(7*(17-media_a2)^2)+(7*(20-media_a2)^2) print(somasb_1) Soma do quadrado total é igual somasw_1 + somasb_1. tsomas_1 <- (somasw_1+somasb_1) print(tsomas_1) k_1 é igual número de grupos/amostras k_1 <- 4 Quadrado médio(msomab_1) entre tratamentos/amostras = somasb_1/(k_1-1), sendo n igual numero de grupo, neste caso k_1 é igual a 4. msomab_1 <- somasb_1/(k_1 - 1) print(msomab_1) Quadrado médio(msomaw_1) dentro de cada tratamento/resíduo/amostra = somasw_1/(n_1-k_1), sendo n_1 igual tamanho da amostra e k_1 igual número de grupos/amostras. msomaw_1 <- somasw_1/(28 - 4) print(msomaw_1) Quadrado médio Total igual tsomas_1/(n_1 - 1), sendo n_1 igual tamanho da amostra. tsomaq_1 <- tsomas_1/(28 - 1) print(tsomaq_1) F observado é igual (msomab_1)/(msomaw_1) f_observado_1 <- (msomab_1)/(msomaw_1) print(f_observado_1) **Tabela 1 - Análise de variância para marcas mais vendidas.** Fonte Soma dos quadrados Graus de liberdade Quadrado médio Estatística F calculado Entre amostras 238 4-1 = 3 79,3 2,689266 Dentro das amostras 708 28-4 = 24 29,5 Total 946 28-1 = 27 **Análise I** Do valor F CRITICO:** O valor de F crítico ou seja do F consultado na tabela F de Fisher para F(0,05;GL do numerador da razão do F=3; GL do denominador da razão do F=24) => F(0,05;3;24) = 3,01, o valor maior do que da estatística F calculada, 2,69. #**Conclusão I** Em nível de significância de 0,05, a hipótese nula não deve ser rejeitada. Ou seja, não há evidências suficiente para concluirmos que existem duas médias de vendas maiores. **Análise II** Pelo cálculo o P-Valor p_valor_1 <- pf((msomab_1)/(msomaw_1), 3, 24, lower.tail=FALSE) print(p_valor_1) O P-Valor do teste é maior do que significância de 5%. **Conclusão II** Em nível de significância de 0,05, reitera-se, que a hipótese nula não deve ser rejeitada. **Nota:** Se admitisse analisar em nível de significância de 10%, há evidências suficiente para concluirmos que existem pelo menos duas médias de vendas maiores. Decisão pela análise do F crítico: uma vez que a estatística na tabela F de Fisher para F(0,05;GL do numerador da razão do F=3; GL do denominador da razão do F=25) => F(0,1;3;24)=2,33, valor menor do que o da estatística F calculada, 2,69. Decisão pelo cálculo do P-Valor: Sendo que p_valor do teste ser mesnor do que significância de 10%. **Conclusão Intermediaria** Nenhuma das marcas seriam escolhidas pelo critério de seleção pelas unidades mais vendidas em um mês,em nível de confiança de 5%. Deste forma, observa-se um empate, como tal vou testar se se pode escolher a marca com menor custo de compra. **Para o caso de *marca* com menor *custo de compra*** b) **Resultados, descrevendo e explicando artifícios estatísticos para o teste de hipótese, seguindo as suposições estatísticas.** cria data frame apartir da Tabela 1 - dados de vendas conforme marcas de produtos. marcas_2 <- c(rep("A", 7), rep("B", 7), rep("C", 7), rep("D", 7)) custo_compra <- c(rep(10.0, 7), rep(14.0, 7), rep(15.0, 7), rep(12.0, 7)) df_2 <- data.frame(marcas_2, custo_compra) df_2 #### **Teste de Hipótese, unilateral a esquerda.** **H0:** $ \vec{A} = \vec{B} = \vec{C} = \vec{D} $ **HA:** $ \text{Há pelo menos uma a marca com menor custo de compra. (Alegação) } $ xbarra_2 <- tapply(custo_compra, marcas_2, mean) print(xbarra_2) media_a2 <- mean(custo_compra) print(media_a2) O dataset possui 28 observações em 4 grupos. Os grupos possuem 7, 7, 7 e 7 observações respectivamente, logo, precisa-se do xbarra_2 repetido nessas freqüências. n_2 <- sum(rep(7, 4)) print(n_2) soma_f_x_2 <- sum((7*10),(7*14),(7*15),(7*12)) print(soma_f_x_2) media_b2 <- soma_f_x_2 / n_2 print(media_b2) Soma dentro dos grupos/soma de quadrados de dentro/resíduo. somasw_2 <- (((7-1)*2^2)+((7-1)*8^2)+((7-1)*5^2)+((7-1)*5^2)) print(somasw_2) Soma de quadrados entre tratamento/amostra. somasb_2 <- (7*(10-media_b2)^2)+(7*(14-media_b2)^2)+(7*(15-media_b2)^2)+(7*(12-media_b2)^2) print(somasb_2) Soma do quadrado total é igual somasw_2 + somasb_2. tsomas_2 <- (somasw_2+somasb_2) print(tsomas_2) k_2 é igual número de grupos/amostrask_2 <- 4 Quadrado médio(msomab_2) entre tratamentos/amostras = somasb_2/(k_2-1), sendo n igual numero de grupo, neste caso k_2 é igual a 4. msomab_2 <- somasb_2/(k_2 - 1) print(msomab_2) Quadrado médio(msomaw_2) dentro de cada tratamento/resíduo/amostra = somasw_2/(n_1-k_2), sendo n igual tamanho da amostra e k igual número de grupos/amostras. msomaw_2 <- somasw_2/(28 - 4) print(msomaw_2) Quadrado médio Total igual tsomas_2/(n_2 - 1), sendo n_2 igual tamanho da amostra. tsomaq_2 <- tsomas_2/(28 - 1) print(tsomaq_2) F observado é igual (msomab_2)/(msomaw_2) f_observado_2 <- (msomab_2)/(msomaw_2) print(f_observado_2) **Tabela 2 - Análise de variância para marcas mais vendidas.** Fonte Soma dos quadrados Graus de liberdade Quadrado médio Estatística F calculado Entre amostras 103,25 4-1 = 3 34,42 1,16 Dentro das amostras 708 28-4 = 24 29,5 Total 811,25 28-1 = 27 **Análise III** **Do valor F crítico:** O valor de F crítico ou seja do F consultado na tabela F de Fisher para F(0,05;GL do numerador da razão #do F=3; GL do denominador da razão do F=24) => F(0,05;3;24)=3,01, o valor maior do que da estatística F calculada, 1,16. **Conclusão III** Em nível de significância de 0,05, não há evidências suficiente para concluirmos que existem pelo menos uma marca com menor custo de compra. **Análise IV** Pelo cálculo o P-Valor p_valor_2 <- pf((somasb_2/3)/(somasw_2/24), 3, 24, lower.tail=TRUE) print(p_valor_2) O P-Valor do teste é maior do que significância de 5%. ### **Conclusão IV** Em nível de significância de 0,05, não há evidências suficiente para concluirmos que existem pelo menos uma marca com menor custo de compra. **Conclusão final** Nenhuma das marcas, seriam escolhidas pelo critério de seleção das unidades mais vendidas em um mês. Igualmente, não se poderia escolher pelo critério de marcas com menores custos de compra, em nível de 5%, pelo teste de análise de variância. Por outro lado, somente pelo critério das unidades mais vendidas em um mês, seria possível escolher as duas marcas mais vendidas, considerando-se o nível de significância de 10%. REF.: Usando a linguagem de programação estatística R com Notebook do Google Colab. https://colab.research.google.com/notebook#create=true&language=r https://colab.research.google.com/notebook#create=true&language=r INFERÊNCIA ESTATÍSTICA - ATIV 3