Baixe o app para aproveitar ainda mais
Prévia do material em texto
1) (2 pontos) A área de marketing de uma grande varejista está planejando uma nova campanha. Para direcionar melhor seus esforços e investimento de propaganda, ela deseja fazer uma pesquisa com uma amostra do seu público alvo para identificar qual tipo de canal eles mantém maior contato: TV, Rádio, Facebook, Instagram ou YouTube. Se a empresa fosse capaz de levantar dados de toda a população de indivíduos que compõem seu público alvo, ela iria descobrir que 83% deles mantém maior contato com aplicativos da internet (Facebook, Instagram ou YouTube). Entretanto, na prática ela terá que trabalhar com uma amostra. a) (0,5 pontos) Considerando que seja selecionada uma amostra de 100 indivíduos: i) Qual a distribuição amostral de �̅� ? (média, desvio-padrão e forma da distribuição) #Cálculo do desvio padrão (variável sd) > p<-0.83 > n<-100 > sd<-sqrt((p*(1-p))/n);sd [1] 0.03756328 > media<-0.83 O desvio padrão é 0,03756328 A distribuição é normal porque np ≥ 5 Pbarra tem distribuição normal com média igual a p > pbarra<-83/100;pbarra [1] 0.83 ii) Qual é a probabilidade de que a proporção amostral esteja dentro do intervalo de ± 1% em torno da proporção populacional? #Cálculo da probabilidade da proporção amostral dentro do intervalo de +-1% utilizando a função pnorm para a probabilidade acumulada até a margem de erro +1 menos a função pnorm para a probabilidade acumulada até a margem de erro -1 > p<-0.83 > sd [1] 0.03756328 > pnorm(p +0.01, p, sd) -pnorm(p -0.01, p, sd) [1] 0.2099282 A probabilidade é de 0,2099282 iii) Qual é a probabilidade de que a proporção amostral esteja dentro do intervalo de ± 3% em torno da proporção populacional? #Cálculo da probabilidade da proporção amostral dentro do intervalo de +-3% utilizando a função pnorm para a probabilidade acumulada até a margem de erro +3 menos a função pnorm para a probabilidade acumulada até a margem de erro -3 > p<-0.83 > sd [1] 0.03756328 > pnorm(p +0.03, p, sd) -pnorm(p -0.03, p, sd) [1] 0.5755079 A probabilidade é de 0,5755079 b) (0,5 pontos) Considerando que seja selecionada uma amostra de 500 indivíduos: i) Qual a distribuição amostral de �̅� ? (média, desvio-padrão e forma da distribuição) #Cálculo do desvio padrão (variável sd) > p<-0.83 > n<-500 > sd<-sqrt((p*(1-p))/n);sd [1] 0.01679881 > media<-0.83 O desvio padrão é 0,01679881 A distribuição é normal porque np ≥ 5 Pbarra tem distribuição normal com média igual a p > pbarra<-83/500;pbarra [1] 0.166 ii) Qual é a probabilidade de que a proporção amostral esteja dentro do intervalo de ± 1% em torno da proporção populacional? #Cálculo da probabilidade da proporção amostral dentro do intervalo de +-1% utilizando a função pnorm para a probabilidade acumulada até a margem de erro +1 menos a função pnorm para a probabilidade acumulada até a margem de erro -1 > p<-0.83 > sd [1] 0.01679881 > pnorm(p +0.01, p, sd) -pnorm(p -0.01, p, sd) [1] 0.4483439 A probabilidade é de 0,4483439 iii) Qual é a probabilidade de que a proporção amostral esteja dentro do intervalo de ± 3% em torno da proporção populacional? #Cálculo da probabilidade da proporção amostral dentro do intervalo de +-3% utilizando a função pnorm para a probabilidade acumulada até a margem de erro +3 menos a função pnorm para a probabilidade acumulada até a margem de erro -3 > p<-0.83 > sd [1] 0.01679881 > pnorm(p +0.03, p, sd) -pnorm(p -0.03, p, sd) [1] 0.925875 A probabilidade é de 0,925875 c) (0,5 pontos) Considerando que seja selecionada uma amostra de 1.000 indivíduos: i) Qual a distribuição amostral de �̅? (média, desvio-padrão e forma da distribuição) #Cálculo do desvio padrão (variável sd) > p<-0.83 > n<-1000 > sd<-sqrt((p*(1-p))/n);sd [1] 0.01187855 > media<-0.83 O desvio padrão é 0,01187855 A distribuição é normal porque np ≥ 5 Pbarra tem distribuição normal com média igual a p > pbarra<-83/1000;pbarra [1] 0.083 ii) Qual é a probabilidade de que a proporção amostral esteja dentro do intervalo de ± 1% em torno da proporção populacional? #Cálculo da probabilidade da proporção amostral dentro do intervalo de +-1% utilizando a função pnorm para a probabilidade acumulada até a margem de erro +1 menos a função pnorm para a probabilidade acumulada até a margem de erro -1 > p<-0.83 > sd [1] 0.01187855 > pnorm(p +0.01, p, sd) -pnorm(p -0.01, p, sd) [1] 0.60013 A probabilidade é de 0,60013 iii) Qual é a probabilidade de que a proporção amostral esteja dentro do intervalo de ± 3% em torno da proporção populacional? #Cálculo da probabilidade da proporção amostral dentro do intervalo de +-3% utilizando a função pnorm para a probabilidade acumulada até a margem de erro +3 menos a função pnorm para a probabilidade acumulada até a margem de erro -3 > p<-0.83 > sd [1] 0.01187855 > pnorm(p +0.03, p, sd) -pnorm(p -0.03, p, sd) [1] 0.9884486 A probabilidade acumulada é de 0,9884486 d) (0,5 pontos) Considere que a empresa não possui nenhuma estimativa preliminar de qual é a proporção do público alvo que tem maior contato com aplicativos da internet (Facebook, Instagram ou YouTube). Faça um script no R que calcule o tamanho da amostra ideal para margens de erro de 1%, 2%, 3%, 4% e 5%, e níveis de confiança de 90%, 95% e 99% (fazer todas combinações possíveis entre as margens de erro e níveis de confiança apresentados). #considerando p = 0,5 ME <- c(0.01,0.02,0.03,0.04,0.05) #vetor Margem de erro alpha <- c(0.10,0.05,0.01) #vetor para encontrar o nível de confiança NC <- 1-alpha #nivel de confiança z <- qnorm(1-alpha/2) # utilizando a função qnorm para encontrar o valor de z resultado <- matrix(nrow = length(z), ncol = length(ME)) #criando a matrix de dimensões 3x5 colnames(resultado) <- ME #atribuindo os nomes dos valores de margem de erro para as colunas rownames(resultado) <- NC #atribuindo os nomes dos valores de nivel de confiança para as linhas #loop para gerar os valores da matrix for (j in 1:length(z)) { for (k in 1:length(ME)) { resultado[j,k] <- ceiling(((z[j]**2)*0.25)/(ME[k]**2)) #gerando o resultado e usando a função ceiling para arredondar os valores da matrix } } > resultado 0.01 0.02 0.03 0.04 0.05 0.9 6764 1691 752 423 271 0.95 9604 2401 1068 601 385 0.99 16588 4147 1844 1037 664 2) (2 pontos) O gerente de operações de uma grande fabricante de móveis está avaliando a performance anual de seus vendedores. Ele deseja avaliar alguns aspectos que podem ajudar a aumentar a produtividade nas vendas de sua equipe. Para isso, ele selecionou aleatoriamente um conjunto de vendedores e levantou para cada um o volume vendido no último ano fiscal, o sexo do vendedor e se ele realizou curso de técnicas de vendas. Os dados coletados estão no arquivo “vendas_fabricante_moveis.csv”. Considere um nível de significância de 0,01. a) (0,5 pontos) Realize uma análise estatística descritiva geral da amostra coletada. #1º linha: lendo os dados da tabela do exercício #2º linha: análise descritiva dos dados utilizando a função summary (valor mínimo, 1º quartil, mediana, média, 3ª quartil e valor máximo > dados <-read.csv("vendas_fabricante_moveis.csv", sep =";") > summary(dados) Vendedor Vendas_anual Sexo Realizou_tre inamento Min. :10001 Min. : 7454 feminino :108 nÆo:113 1st Qu.:10060 1st Qu.: 61373 masculino:127 sim:122 Median :10118 Median : 72056 Mean :10118 Mean : 70639 3rd Qu.:10176 3rd Qu.: 82362 Max. :10235 Max. :116005 b) (0,5 pontos) Uma das fabricantes de móveis que é benchmark na indústria apresenta uma média anual de venda de R$69 mil por empregado. O gerente de operaçõesacredita que, no último ano fiscal, a média da sua empresa foi superior a este benchmark. i) Descreva quais as hipóteses para realização deste teste. H0: µ >= 69000 HA: µ < 69000 Como o gerente de operações acredita que no último ano fiscal a média da empresa foi superior a do benchmark, parte-se da premissa de que a média foi superior. Portanto o status quo é de que a média foi maior ou igual a 69000 esta é a hipótese nula. ii) Realize análise estatística descritiva para avaliação visual das hipóteses apresentadas pelo gerente de operações (ex.: boxplot). #1º linha: lendo os dados da tabela do exercício #2º linha: atribuindo os dados de vendas para a variável vendas_anual #3º linha: Histograma das vendas > dados <-read.csv("vendas_fabricante_moveis.csv", sep =";") > vendas_anual<-(dados$Vendas_anual) > hist(vendas_anual) # gráfico boxplot das vendas. O ponto verde representa a média de vendas. > boxplot(vendas_anual,name = "vendas anuais"); points(1,mean( vendas_anual), pch =23, cex =1,bg ="green") iii) Realize o teste de hipóteses para avaliação da suposição do gerente de operações. Qual o valor-p encontrado? # função t.test para realizar o teste de hipóteses para inferências de média populacional com desvio padrão desconhecido > media<-69000 > t.test(vendas_anual, alternative = "less", mu = media,conf.l evel = 0.99) One Sample t-test data: vendas_anual t = 1.4934, df = 234, p-value = 0.9317 alternative hypothesis: true mean is less than 69000 99 percent confidence interval: -Inf 73210.51 sample estimates: mean of x 70639.28 O valor-p é 0,9317. iv) Qual o intervalo de confiança para a média de venda anual por empregado? #1° linha: atribuindo o valor da média de referência do benchmark para a variável media #2º linha: atribuindo o valor da média amostral dos dados de venda para a variável xbarra #3º linha: atribuição do n amostral para a variável n #4º linha: atribuindo o valor do desvio padrão amostral para a variável sigma #5º linha: encontrando t com o número de graus de liberdade (df) do t.test realizado anteriormente #6º linha: calculando a margem de erro # 7º linha: calculando o intervalo de confiança de 99% para a média de vendas > media<-69000 > xbarra<-mean(vendas_anual);xbarra [1] 70639.28 > n<-length(vendas_anual);n [1] 235 > sigma<-sd(vendas_anual);sigma [1] 16827.37 > t<-qt(0.995, df = 234);t [1] 2.597002 > ME <- t*sigma/sqrt(n); ME [1] 2850.722 > IC <- xbarra + c(-ME,ME); IC [1] 67788.56 73490.00 O intervalo de confiança de 99% para a média de vendas é de 67788,56 e 73490,00 v) Quais as conclusões do teste de hipótese? Como o valor-p é 0,9317, superior ao nível de significância de 0,01, não rejeitamos H0. Portanto, não há evidências de que o desempenho da empresa esteja abaixo do benchmark, apoiando a afirmação do gerente. c) (0,5 pontos) O gerente de operações deseja saber se há diferença na produtividade de vendas entre homens e mulheres. i) Descreva quais as hipóteses para realização deste teste. H0: µhomens - µmulheres = 0 HA: µhomens - µmulheres =! 0 Como o gerente de operações deseja saber se há diferença na produtividade de vendas entre homens e mulheres, parte-se da premissa de que não se sabe se há diferença. Portanto o status quo é de que não há diferença e esta é a hipótese nula. ii) Realize análise estatística descritiva para avaliação visual das hipóteses apresentadas pelo gerente de operações (ex.: boxplot). #1º linha: lendo os dados da tabela do exercício #2º linha: atribuindo os dados de vendas dos homens para a variável vendas_M #3º linha: análise descritiva dos dados de vendas dos homens utilizando a função summary (valor mínimo, 1º quartil, mediana, média, 3ª quartil e valor máximo #4º linha: atribuindo os dados de vendas das mulheres para a variável vendas_F #5º linha: análise descritiva dos dados de vendas das mulheres utilizando a função summary (valor mínimo, 1º quartil, mediana, média, 3ª quartil e valor máximo > dados <- read.csv("vendas_fabricante_moveis.csv", sep = ";") > vendas_M<- dados[dados$Sexo=="masculino",]$Vendas_anual > summary(vendas_M) Min. 1st Qu. Median Mean 3rd Qu. Max. 28952 63829 74342 72084 83157 99444 > vendas_F<- dados[dados$Sexo=="feminino",]$Vendas_anual > summary(vendas_F) Min. 1st Qu. Median Mean 3rd Qu. Max. 7454 57589 67169 68941 79762 116005 #Histograma para as vendas dos homens > hist(vendas_M) #Histograma para as vendas das mulheres > hist(vendas_F) #Análise descritiva visual com gráfico boxplot comparativo para vendas de homens e de mulheres com as médias representadas pelos pontos verdes. > boxplot(vendas_M,vendas_F, names = c("vendas dos Homens", "Vendas da s Mulheres")); points(1:2, c(mean(vendas_M), mean(vendas_F)), pch = 23 , cex = 1,bg = "green") iii) Realize o teste de hipóteses. Qual o valor-p encontrado? # função t.test para realizar o teste de hipóteses para inferências sobre a diferença entre duas médias populacionais com desvio padrão 1 e 2 desconhecidos > t.test(vendas_M, vendas_F, alternative = "two.sided", mu = 0 , conf.level = 0.99) Welch Two Sample t-test data: vendas_M and vendas_F t = 1.4029, df = 201.76, p-value = 0.1622 alternative hypothesis: true difference in means is not equal to 0 99 percent confidence interval: -2682.569 8968.190 sample estimates: mean of x mean of y 72083.64 68940.83 O valor-p encontrado é de 0,1622. iv) Qual o intervalo de confiança para a diferença na média de vendas entre homens e mulheres? O intervalo de confiança é de -2682.569 e 8968.190 v) Quais as conclusões do teste de hipótese? O valor-p encontrado é de 0,1622. Como este valor é superior ao nível de significância de 0,01, a hipótese nula não é rejeitada. Não há evidências de que exista diferença na produtividade de vendas entre os vendedores do sexo masculino e feminino. d) (0,5 pontos) O gerente de operações deseja saber se há diferença na produtividade de vendas entre os vendedores que realizaram o treinamento de técnicas de vendas e aqueles que não realizaram. i) Descreva quais as hipóteses para realização deste teste. H0: µ Treino Sim - µ Treino Não = 0 HA: µ Treino Sim - µ Treino Não =! 0 Como o gerente de operações deseja saber se há diferença na produtividade de vendas entre os vendedores que fizeram o treinamento dos que não fizeram, parte-se da premissa de que não se sabe se há diferença. Portanto o status quo é de que não há diferença e esta é a hipótese nula. ii) Realize análise estatística descritiva para avaliação visual das hipóteses apresentadas pelo gerente de operações (ex.: boxplot). #1º linha: lendo os dados da tabela do exercício #2º linha: atribuindo os dados de vendas dos funcionários que fizeram treinamento para a variável vendas_treinosim #3º linha: análise descritiva dos dados de vendas dos funcionários que fizeram treinamento utilizando a função summary (valor mínimo, 1º quartil, mediana, média, 3ª quartil e valor máximo #4º atribuindo os dados de vendas dos funcionários que não fizeram treinamento para a variável vendas_treinonao #5º linha: análise descritiva dos dados de vendas dos funcionários que não fizeram treinamento utilizando a função summary (valor mínimo, 1º quartil, mediana, média, 3ª quartil e valor máximo dados <- read.csv("vendas_fabricante_moveis.csv", sep = ";") vendas_treinosim<- dados[dados$Realizou_treinamento=="sim",]$V endas_anual > summary(vendas_treinosim) Min. 1st Qu. Median Mean 3rd Qu. Max. 42270 71129 78465 78287 86510 116005 > vendas_treinonao<- dados[dados$Realizou_treinamento=="nÆo",]$Vendas_anual > summary(vendas_treinonao) Min. 1st Qu. Median Mean 3rd Qu. Max. 7454 52971 63064 62382 72056 99392 #Histograma de vendas dos funcionários que fizeram treinamento > hist(vendas_treinosim) #Histograma de vendas dos funcionários que fizeram treinamento > hist(vendas_treinonao) #Análise descritiva visual com gráfico boxplot comparativo para vendas dos funcionários que fizeram treinamento e dos funcionários que não fizeram treinamento com as médias representadas pelos pontos verdes. > boxplot(vendas_treinosim,vendas_treinonao, names = c("Com Treinament o", "Sem Treinamento")); points(1:2, c(mean(vendas_treinosim), mean(ve ndas_treinonao)), pch = 23, cex = 1,bg = "green") iii) Realize o teste de hipóteses. Qual o valor-p encontrado? # função t.test para realizar o teste de hipóteses para inferências sobre a diferença entre duas médias populacionais com desvio padrão 1 e 2 desconhecidos > t.test(vendas_treinosim, vendas_treinonao, alternative = "two.sided" , mu = 0, conf.level = 0.99) Welch Two Sample t-test data: vendas_treinosim and vendas_treinonao t = 8.1294, df = 213.61, p-value = 3.469e-14 alternative hypothesis: true difference in means is not equal to 0 99 percent confidence interval: 10820.21 20990.26 sample estimates: mean of x mean of y 78287.33 62382.09 O valor p é 3.469 x 10^-14 iv) Qual o intervalo de confiança para a diferença na média de vendas entre quem realizou e quem não realizou o treinamento? O intervalo é de 10820.21 e 20990.26 v) Quais as conclusões do teste de hipótese? O valor p é 3.469 x 10^-14. Como o valor é muito menor que o nível de significância de 0,01 a hipótese nula é rejeitada. O desempenho nas vendas dos funcionários que fizeram o treinamento é diferente dos que não fizeram. 3) (2 pontos) As áreas de tecnologia e de marketing de uma varejista estão realizando melhorias no website da empresa, com o objetivo de ampliar as vendas online. Foram desenvolvidos dois novos modelos de site, que chamaram de Alpha e Gama. Para realizar testes de performance em cada um dos novos modelos, cada um deles aparece de forma aleatória para cada um dos visitantes que entram no site da empresa, o que é conhecido como Teste A/B. Para cada uma das visitas, a empresa está coletando qual foi o modelo de site que foi disponibilizado (Alpha ou Gama), se houve conversão de venda naquela visita e também o resultado de uma pesquisa que é feita com o cliente para avaliar se ele indicaria a empresa para um amigo. Os dados coletados estão no arquivo “novo_site.csv”. Considere um nível de significância de 0,05. a) (0,5 pontos) Historicamente, a empresa tem mantido uma taxa de conversão de vendas em seus sites no patamar de 6%. Os analistas desejam avaliar se, considerando conjuntamente toda a amostra de testes realizados com os novos modelos de site (Alpha e Beta), houve aumento na taxa de conversão em vendas em relação a este patamar histórico. i) Descreva quais as hipóteses para realização deste teste. H0: p =< 0,06 HA: p > 0,06 Como os analistas desejam avaliar se houve aumento na taxa de vendas em relação ao patamar histórico de 6%, parte-se da premissa de que não se sabe se houve aumento. O status quo, ou seja, a situação normal (atual) é de que a taxa de conversão é igual ou menor do que o patamar histórico e esta é a hipótese nula. ii) Realize análise estatística descritiva para avaliação visual das hipóteses apresentadas. #1º linha: lendo os dados da tabela do exercício #2º linha: análise descritiva dos dados de acesso nos dois modelos de website coletados > dados <- read.csv("novo_site.csv", sep = ";") > summary(dados) Acesso Modelo Converteu_venda Indicaria_para_amigo 9801-0001: 1 Alpha:1221 nao:1691 nao : 433 9801-0002: 1 Gama : 645 sim: 175 sim :1403 9801-0003: 1 NA's: 30 9801-0004: 1 9801-0005: 1 9801-0006: 1 (Other) :1860 iii) Realize o teste de hipóteses. Qual o valor-p encontrado? #1º linha: lendo os dados da tabela do exercício #2º linha: atribuindo o valor da proporção de conversão de vendas de 6% para a variável p #3º linha: atribuindo o n dos dados coletados para a variável n #4º linha: atribuindo a soma dos registros de conversões em vendas para a variável publicointeresse #5º linha: calculando o valor-p com a função prop.test para teste de hipótese para proporção populacional > dados <- read.csv("novo_site.csv", sep = ";") > p<-0.06 > n<-nrow(dados);n [1] 1866 > publicointeresse <- sum(dados$Converteu_venda == "sim");publicointer esse [1] 175 > prop.test(publicointeresse, n, p, alternative = "greater", conf.leve l = 0.95) 1-sample proportions test with continuity correction data: publicointeresse out of n, null probability p X-squared = 37.164, df = 1, p-value = 5.429e-10 alternative hypothesis: true p is greater than 0.06 95 percent confidence interval: 0.08300999 1.00000000 sample estimates: p 0.09378349 O valor p é de 5,429*10^-10 iv) Qual o intervalo de confiança para a proporção de conversão de vendas com os novos modelos? O intervalo é de 0.08300999 e 1,000000 v) Quais as conclusões do teste de hipótese? O valor p é de 5,429*10^-10. Este valor é muito menor que o nível de significância de 0,05. Neste caso a hipótese nula é rejeitada. Há evidências de que após os testes realizados com os novos modelos de site (Alpha e Beta) houve aumento na taxa de conversão de vendas em relação ao patamar histórico de 6%. A estimativa de proporção da amostra é de 9,37% de acordo com o prop.test realizado anteriormente. b) (0,75 pontos) Os analistas da empresa desejam saber se há diferença entre os dois modelos de site em relação à taxa de conversão de vendas. i) Descreva quais as hipóteses para realização deste teste. H0: p Alpha Vendas - p Gama Vendas = 0 HA: p Alpha Vendas - p Gama Vendas =! 0 Como os analistas desejam saber se há diferença entre os dois modelos de site em relação à taxa de conversão de vendas, parte-se da premissa de que não se sabe se há diferença. Portanto, o status quo é de que não há diferença e esta é a hipótese nula. ii) Realize análise estatística descritiva para avaliação visual das hipóteses apresentadas. #1º linha: lendo os dados da tabela do exercício #2º linha: análise descritiva dos dados do modelo Alpha utilizando a função summary #3º linha: análise descritiva dos dados do modelo Gama utilizando a função summary > dados <- read.csv("novo_site.csv", sep = ";") > summary(dados[dados$Modelo=="Alpha",]) Acesso Modelo Converteu_venda Indicaria_para_amigo 9801-0001: 1 Alpha:1221 nao:1125 nao :277 9801-0002: 1 Gama : 0 sim: 96 sim :923 9801-0003: 1 NA's: 21 9801-0004: 1 9801-0005: 1 9801-0006: 1 (Other) :1215 > summary(dados[dados$Modelo=="Gama",]) Acesso Modelo Converteu_venda Indicaria_para_amigo 9801-1222: 1 Alpha: 0 nao:566 nao :156 9801-1223: 1 Gama :645 sim: 79 sim :480 9801-1224: 1 NA's: 9 9801-1225: 1 9801-1226: 1 9801-1227: 1(Other) :639 iii) Realize o teste de hipóteses. Qual o valor-p encontrado? #1º linha: lendo os dados da tabela do exercício #2º linha: atribuindo o número de registros de acesso do modelo Alpha para a variável n_alpha #3º linha: atribuindo o número de registros de acesso do modelo Gama para a variável n_gama #4º linha: atribuindo o número de conversões de venda do modelo Alpha para a variável n_venda_alpha #5º linha: atribuindo o número de conversões de venda do modelo Gama para a variável n_venda_gama #6º linha: aplicação da função prop.test para calcular o valor p da diferença entre duas proporções > dados <- read.csv("novo_site.csv", sep = ";") > n_alpha <- nrow(dados[dados$Modelo == "Alpha",]); n_alpha [1] 1221 > n_gama <- nrow(dados[dados$Modelo == "Gama",]); n_gama [1] 645 > n_venda_alpha <- nrow(dados[dados$Modelo == "Alpha" & dados$Converte u_venda == "sim",]); n_venda_alpha [1] 96 > n_venda_gama <- nrow(dados[dados$Modelo == "Gama" & dados$Converteu_ venda == "sim",]); n_venda_gama [1] 79 > prop.test(c(n_venda_alpha, n_venda_gama), c(n_alpha, n_gama), altern ative = "two.sided", conf.level = 0.95) 2-sample test for equality of proportions with continuity corr ection data: c(n_venda_alpha, n_venda_gama) out of c(n_alpha, n_gama) X-squared = 9.0425, df = 1, p-value = 0.002638 alternative hypothesis: two.sided 95 percent confidence interval: -0.07450365 -0.01320943 sample estimates: prop 1 prop 2 0.07862408 0.12248062 O valor-p é 0,002638 iv) Qual o intervalo de confiança para a diferença na proporção de conversão de vendas entre os dois modelos de sites? O intervalo é de -0,07450365 e -0,01320943 v) Quais as conclusões do teste de hipótese? O valor-p é 0,002638. Como o valor p é menor que o nível de significância de 0,05 a hipótese nula é rejeitada. Há evidências de que existe diferença entre os dois modelos de site (Alpha e Gama) em relação à taxa de conversão de vendas. c) (0,75 pontos) Os analistas da empresa desejam saber se há diferença entre os dois modelos de site em relação à proporção de usuários que indicariam a empresa para um amigo. Como nem todos usuários responderam à pesquisa apresentada, a análise dos dados deve levar em consideração os NAs (not available) que aparecem no banco de dados. i) Descreva quais as hipóteses para realização deste teste. H0: p Alpha indicação - p Gama Indicação = 0 HA: p Alpha Indicação - p Gama Indicação =! 0 Como os analistas desejam saber se há diferença entre os dois modelos de site em relação a proporção de usuários que fariam indicação, parte-se da premissa de que não se sabe se há diferença. Portanto, o status quo é de que não há diferença e esta é a hipótese nula. ii) Realize análise estatística descritiva para avaliação visual das hipóteses apresentadas. #1º linha: lendo os dados da tabela do exercício #2º linha: análise descritiva dos dados do modelo Alpha utilizando a função summary #3º linha: análise descritiva dos dados do modelo Gama utilizando a função summary > dados <- read.csv("novo_site.csv", sep = ";") > summary(dados[dados$Modelo == "Alpha" & dados$Indicaria_para_amigo = = "sim",]) Acesso Modelo Converteu_venda Indicaria_para_amigo 9801-0002: 1 Alpha:923 nao :851 nao : 0 9801-0003: 1 Gama : 0 sim : 72 sim :923 9801-0004: 1 NA's : 21 NA's: 21 NA's: 21 9801-0007: 1 9801-0008: 1 (Other) :918 NA's : 21 > summary(dados[dados$Modelo == "Gama" & dados$Indicaria_para_amigo == "sim",]) Acesso Modelo Converteu_venda Indicaria_para_amigo 9801-1294: 1 Alpha: 0 nao :427 nao : 0 9801-1297: 1 Gama :480 sim : 53 sim :480 9801-1298: 1 NA's : 9 NA's: 9 NA's: 9 9801-1301: 1 9801-1302: 1 (Other) :475 NA's : 9 Os NAS não foram omitidos, respeitando uma condição do exercício. Ao selecionar e contabilizar a quantidade de indicações, sejam positivas ou negativas, os NAS vão para ambas, como apresentado na análise descritiva acima, já que não se pode atribuir a qual indicação pertencem. iii) Realize o teste de hipóteses. Qual o valor-p encontrado? #1º linha: lendo os dados da tabela do exercício #2º linha: atribuindo o número de registros de acesso do modelo Alpha para a variável n_alpha #3º linha: atribuindo o número de registros de acesso do modelo Gama para a variável n_gama #4º linha: atribuindo o número indicações do modelo Alpha para a variável n_indicação_alpha #5º linha: atribuindo o número de indicações do modelo Gama para a variável n_indicação_gama #6º linha: aplicação da função prop.test para calcular o valor p da diferença entre duas proporções > dados <- read.csv("novo_site.csv", sep = ";") > n_alpha <- nrow(dados[dados$Modelo == "Alpha",]); n_alpha [1] 1221 > n_gama <- nrow(dados[dados$Modelo == "Gama",]); n_gama [1] 645 > n_indicacao_alpha <- nrow(dados[dados$Modelo == "Alpha" & dados$Indi caria_para_amigo == "sim",]); n_indicacao_alpha [1] 944 > n_indicacao_gama <- nrow(dados[dados$Modelo == "Gama" & dados$Indica ria_para_amigo == "sim",]); n_indicacao_gama [1] 489 > prop.test(c(n_indicacao_alpha, n_indicacao_gama), c(n_alpha, n_gama) , alternative = "two.sided", conf.level = 0.95) 2-sample test for equality of proportions with continuity corr ection data: c(n_indicacao_alpha, n_indicacao_gama) out of c(n_alpha, n_gama ) X-squared = 0.45186, df = 1, p-value = 0.5015 alternative hypothesis: two.sided 95 percent confidence interval: -0.02673243 0.05672690 sample estimates: prop 1 prop 2 0.7731368 0.7581395 O valor p é 0,5015. iv) Qual o intervalo de confiança para a diferença na proporção de usuários que indicariam a empresa para um amigo ao comparar os dois modelos de sites? O intervalo é de -0,02673243 e 0,05672690 v) Quais as conclusões do teste de hipótese? O valor p é 0,5015. Como o valor p é maior que o nível de significância 0,05 a hipótese nula não é rejeitada. Não há evidências de que a proporção de indicações dos usuários do modelo de site Alpha são diferentes da proporção de indicações dos usuários do modelo de site Gama. 4) (2 pontos) Uma empresa de médio porte realiza periodicamente uma pesquisa para monitoramento do clima organizacional. Tendo em vista a baixa avaliação historicamente encontrada numa questão relacionada à liderança, a empresa resolveu selecionar aleatoriamente um grupo de 126 empregados para uma análise mais detalhada a respeito deste tema. No início do ano estes empregados fizeram uma avaliação da sua liderança imediata, numa nota de 0 a 10. Logo em seguida, o RH iniciou um amplo projeto de desenvolvimento dos gestores da empresa e um robusto plano de sucessão. Após 6 meses da primeira avaliação, o RH realizou uma nova pesquisa com os mesmos empregados, para que avaliassem novamente sua liderança imediata numa nota de 0 a 10. A base de dados “avaliacao_empregados.csv” apresenta essa amostra pareada de avaliações antes e após a implementação de ações por parte do RH. O gerente de RH deseja saber se houve aumento na média das avaliações dos empregados em relação a sua liderança imediata. Considere um nível de significância de 0,05. a) (0,2 pontos) Descreva quais as hipóteses para realização deste teste. H0: µd >= 0 Ha: µd < 0 Considerando que será feito o cálculo de avaliação_anterior menos avaliação posterior, se a nota de avaliação aumentarµd será negativo. b) (0,3 pontos) Realize análise estatística descritiva para avaliação visual das hipóteses apresentadas. #1º linha: lendo os dados da tabela do exercício #2º linha: análise descritiva dos dados da avaliação anterior utilizando a função summary #3º linha: análise descritiva dos dados da avaliação posterior utilizando a função summary > dados <- read.csv("avaliacao_empregados.csv", sep = ";") > summary(dados$avaliacao_anterior) Min. 1st Qu. Median Mean 3rd Qu. Max. 0.000 4.000 5.000 5.238 6.000 10.000 > summary(dados$avaliacao_posterior) Min. 1st Qu. Median Mean 3rd Qu. Max. 0.000 5.000 6.000 5.865 7.000 10.000 # histograma dos dados da avaliação anterior > hist(dados$avaliacao_anterior) #Histograma dos dados da avaliação posterior > hist(dados$avaliacao_posterior) # Gráfico boxplot comparativo da avaliação anterior e posterior. Os pontos verdes representam as médias > boxplot(dados$avaliacao_anterior, dados$avaliacao_posterior, names = c("Avaliação Anterior", "Avaliação Posterior")); points(1:2, c(mean(da dos$avaliacao_anterior), mean(dados$avaliacao_posterior)), pch =23, ce x =1,bg ="green") c) (0,5 pontos) Realize o teste de hipóteses. Qual o valor-p encontrado? # Aplicação da função t.test para calcular a diferença entre duas médias de amostras pareadas > t.test(dados$avaliacao_anterior, dados$avaliacao_posterior, alternat ive ="less", mu =0, paired =TRUE, conf.level =0.95) Paired t-test data: dados$avaliacao_anterior and dados$avaliacao_posterior t = -4.1048, df = 125, p-value = 3.626e-05 alternative hypothesis: true difference in means is less than 0 95 percent confidence interval: -Inf -0.3738635 sample estimates: mean of the differences -0.6269841 O p valor é 3,626*10^-5 d) (0,5 pontos) Qual o intervalo de confiança para a diferença na média de avaliação antes e depois das ações implementadas pelo RH? O intervalo é de -Inf -0.3738635 e) (0,5 pontos) Quais as conclusões do teste de hipótese? O p valor é 3,626*10^-5. Como o valor-p é muito menor que o nível de significância de 0,05 a hipótese nula é rejeitada. Há evidências de que houve aumento na média das avaliações dos empregados. 5) (2 pontos) Um empreendedor está planejando desenvolver um novo aplicativo de delivery de comida. Um dos aspectos que ele considera como diferencial é a velocidade na entrega dos pedidos (lead time). Para analisar a performance do maior concorrente no mercado atualmente, ele deseja fazer uma análise estatística dos tempos de entrega deste concorrente, utilizando para isso uma amostra de pedidos a ser coletada. O arquivo “leadtime_entregas.txt” apresenta toda a população dos tempos de entrega (em minutos) dos pedidos realizados no aplicativo concorrente, composta por 1.253.689 pedidos. Entretanto, esta é uma informação que o empreendedor não tem em mãos, por isso a necessidade de planejar um estudo por meio de amostragem. a) (0,2 pontos) Faça uma análise estatística descritiva dos dados populacionais de tempos de entrega. Quais as principais conclusões quanto ao comportamento dos tempos de entrega do concorrente? #1º linha: lendo os dados da tabela do exercício #2º linha: análise descritiva dos dados de tempo de entrega em minutos utilizando a função summary #3º linha: dimensão dos dados da tabela > dados <- read.table("leadtime_entregas.txt",head=T) > summary(dados) leadtime_entregas_minutos Min. : 17.25 1st Qu.: 32.93 Median : 37.37 Mean : 40.01 3rd Qu.: 44.32 Max. :158.38 > dim(dados) [1] 1253689 Analisando os dados é possível identificar que a média de tempo de entrega do concorrente é de 40,01 minutos. O tempo mínimo registrado é de 17,25 minutos e o máximo de 158,38. A mediana é de 37,37, o 1º quartil é 32,93 e o 3º quartil é de 44,32. #histograma dos dados de tempo de entrega > hist(dados$leadtime_entregas_minutos) O histograma dos dados tem distribuição Poisson. b) (0,7 pontos) Desenvolva um script no R para fazer uma simulação na qual serão coletadas 10.000 amostras aleatórias desta população e, para cada amostra coletada, será calculada a respectiva média, gerando um vetor contendo cada uma das 10.000 médias calculadas. Neste script de simulação, considere os seguintes tamanhos de amostra: n = 5, n = 10, n = 30, n = 100, n = 500 e n = 1.000 (ao final você terá 6 vetores com 10.000 linhas cada um, representando as médias para cada uma das amostras coletadas). #1º a 6º linha: criando os vetores que receberam as 10.000 médias das 10.000 amostras de tamanhos 5, 10, 30, 100, 500 e 1000, respectivamente. #7º linha: Looping para coletar as 10.000 amostras e atribuir as respectivas 10.000 médias para os 6 vetores. > media5 <- vector() > media10 <- vector() > media30 <- vector() > media100 <- vector() > media500 <- vector() > media1000 <- vector() > for (i in 1:10000) { + amostra5 <- sample(dados$leadtime_entregas_minutos, 5) + media5[i] <- mean(amostra5) + amostra10 <- sample(dados$leadtime_entregas_minutos, 10) + media10[i] <- mean(amostra10) + amostra30 <- sample(dados$leadtime_entregas_minutos, 30) + media30[i] <- mean(amostra30) + amostra100 <- sample(dados$leadtime_entregas_minutos, 100) + media100[i] <- mean(amostra100) + amostra500 <- sample(dados$leadtime_entregas_minutos, 500) + media500[i] <- mean(amostra500) + amostra1000 <- sample(dados$leadtime_entregas_minutos, 1000) + media1000[i] <- mean(amostra1000) + } c) (0,2 pontos) Faça uma análise estatística descritiva dos 6 vetores de médias gerados na letra b. i) Quais as principais conclusões quanto à distribuição das médias para cada um dos tamanhos de amostra considerados? # análise descritiva dos vetores contendo as 10.000 medias de diferentes tamanhos amostrais > summary(media5) Min. 1st Qu. Median Mean 3rd Qu. Max. 28.51 36.70 39.42 40.03 42.64 65.59 > summary(media10) Min. 1st Qu. Median Mean 3rd Qu. Max. 31.10 37.65 39.70 39.98 42.00 56.74 > summary(media30) Min. 1st Qu. Median Mean 3rd Qu. Max. 34.13 38.67 39.88 39.99 41.21 48.52 > summary(media100) Min. 1st Qu. Median Mean 3rd Qu. Max. 36.41 39.29 39.98 40.01 40.70 44.73 > summary(media500) Min. 1st Qu. Median Mean 3rd Qu. Max. 38.20 39.69 40.01 40.01 40.33 41.96 > summary(media1000) Min. 1st Qu. Median Mean 3rd Qu. Max. 38.86 39.78 40.01 40.01 40.22 41.55 Como o empreendedor não tem acesso a média da população, ao fazer a média das médias de 10.000 amostras coletadas é possível obter um valor muito próximo da média da população. Em outras palavras, a distribuição amostral de “x barra” possui valor esperado igual ao de “µ” (média da população) e desvio padrão amostral igual ao desvio padrão da população. #cálculo do desvio padrão para cada uma das amostras coletadas > sd_media5<-sd(media5);sd_media5 [1] 4.707927 > sd_media10<-sd(media10);sd_media10 [1] 3.280105 > sd_media30<-sd(media30);sd_media30 [1] 1.906915 > sd_media100<-sd(media100);sd_media100 [1] 1.044017 > sd_media500<-sd(media500);sd_media500 [1] 0.4703888 > sd_media1000<-sd(media1000);sd_media1000 [1] 0.3288903 Conforme o tamanho amostral aumenta o erro padrão da média diminui. ii) Qual o impacto do tamanho da amostra no comportamento das distribuições das médias? # Histogramas das médias amostrais de tamanho 5, 10, 30, 100, 500 e 1000, respectivamente. > hist(media5, xlim=c(20,70)) > hist(media10, xlim=c(20,70)) > hist(media30, xlim=c(20,70)) > hist(media100, xlim=c(20,70)) > hist(media500, xlim=c(20,70)) > hist(media1000, xlim=c(20,70))É possível perceber que quanto maior a amostra coletada, mais a distribuição se aproxima de uma distribuição normal ficando concentrada numa faixa central, próximo da média dos dados. iii) O que explica este comportamento? Este comportamento é explicado pelo teorema do limite central. Ao coletar amostras aleatórias de tamanho “n” a partir de uma população, a distribuição amostral da média amostral se aproxima de uma distribuição normal conforme o tamanho amostral torna-se grande. d) (0,5 pontos) O empreendedor considera razoável estimar a média dos tempos de entrega com uma margem de erro de 2 minutos para mais ou para menos em relação à média populacional. Considerando a simulação realizada na letra b e os vetores de médias gerados, calcule a probabilidade de realizar uma estimativa dentro desta margem de erro esperada para cada um dos tamanhos de amostras analisados (n = 5, n = 10, n = 30, n = 100, n = 500 e n = 1.000). Dica: para cada vetor, calcular o percentual de médias que estão dentro da margem de erro de “média populacional ± 2”, sobre o total de simulações (10.000). # Cálculo do percentual de médias que estão dentro da margem de erro de +-2 utilizando a função pnorm para a probabilidade acumulada até a margem de erro +2 da média menos a função pnorm para a probabilidade acumulada até a margem de erro -2 da média de cada vetor. > pnorm(((mean(media5))+2),(mean(media5)),(sd(media5)))-pnorm(((mean(m edia5))-2),(mean(media5)),(sd(media5))) [1] 0.3290287 > pnorm(((mean(media10))+2),(mean(media10)),(sd(media10)))-pnorm(((mea n(media10))-2),(mean(media10)),(sd(media10))) [1] 0.4579637 > pnorm(((mean(media30))+2),(mean(media30)),(sd(media30)))-pnorm(((mea n(media30))-2),(mean(media30)),(sd(media30))) [1] 0.7057364 > pnorm(((mean(media100))+2),(mean(media100)),(sd(media100)))-pnorm((( mean(media100))-2),(mean(media100)),(sd(media100))) [1] 0.9445939 > pnorm(((mean(media500))+2),(mean(media500)),(sd(media500)))-pnorm((( mean(media500))-2),(mean(media500)),(sd(media500))) [1] 0.9999788 > pnorm(((mean(media1000))+2),(mean(media1000)),(sd(media1000)))-pnorm (((mean(media1000))-2),(mean(media1000)),(sd(media1000))) [1] 1 e) (0,4 pontos) Interprete os resultados encontrados na letra d. Qual a relação entre os resultados encontrados e os conceitos de intervalo de confiança? Nos exemplos acima, as amostras com 100 elementos já possuem um percentual próximo de 95% de médias dentro da margem de erro, enquanto a de 500 é de praticamente de 100% e a de 1000 elementos possui todas as médias dentro do intervalo estimado. É possível perceber que na medida em que o número de elementos em uma amostra aumenta, maior é o percentual de médias que se encontra dentro da margem de erro estimada. Isto também pode ser verificado pelos histogramas dos vetores, com valores concentrados em uma faixa central, afinando a distribuição normal.
Compartilhar