Trabalho_InferenciaEstatistica

•

ESTÁCIO

Felipe Costa

16/05/2020

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 29 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 29 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 29 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Inferencia Estatistica

568 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

1) (2 pontos) A área de marketing de uma grande varejista está planejando uma nova 
campanha. Para direcionar melhor seus esforços e investimento de propaganda, ela 
deseja fazer uma pesquisa com uma amostra do seu público alvo para identificar 
qual tipo de canal eles mantém maior contato: TV, Rádio, Facebook, Instagram ou 
YouTube. 
Se a empresa fosse capaz de levantar dados de toda a população de indivíduos que 
compõem seu público alvo, ela iria descobrir que 83% deles mantém maior contato 
com aplicativos da internet (Facebook, Instagram ou YouTube). Entretanto, na 
prática ela terá que trabalhar com uma amostra. 
 
 a) (0,5 pontos) Considerando que seja selecionada uma amostra de 100 
indivíduos: 
i) Qual a distribuição amostral de �̅� ? (média, desvio-padrão e forma da 
distribuição) 
#Cálculo do desvio padrão (variável sd) 
> p<-0.83 
> n<-100 
> sd<-sqrt((p*(1-p))/n);sd 
[1] 0.03756328 
 
> media<-0.83 
O desvio padrão é 0,03756328 
A distribuição é normal porque np ≥ 5 
Pbarra tem distribuição normal com média igual a p 
 
> pbarra<-83/100;pbarra 
[1] 0.83 
 
 
 
 
 ii) Qual é a probabilidade de que a proporção amostral esteja dentro do 
intervalo de ± 1% em torno da proporção populacional? 
#Cálculo da probabilidade da proporção amostral dentro do intervalo de +-1% 
utilizando a função pnorm para a probabilidade acumulada até a margem de erro +1 
menos a função pnorm para a probabilidade acumulada até a margem de erro -1 
> p<-0.83 
> sd 
[1] 0.03756328 
> pnorm(p +0.01, p, sd) -pnorm(p -0.01, p, sd) 
[1] 0.2099282 
A probabilidade é de 0,2099282 
 
 iii) Qual é a probabilidade de que a proporção amostral esteja dentro do 
intervalo de ± 3% em torno da proporção populacional? 
#Cálculo da probabilidade da proporção amostral dentro do intervalo de +-3% 
utilizando a função pnorm para a probabilidade acumulada até a margem de erro +3 
menos a função pnorm para a probabilidade acumulada até a margem de erro -3 
> p<-0.83 
> sd 
[1] 0.03756328 
> pnorm(p +0.03, p, sd) -pnorm(p -0.03, p, sd) 
[1] 0.5755079 
A probabilidade é de 0,5755079 
 
 b) (0,5 pontos) Considerando que seja selecionada uma amostra de 500 
indivíduos: 
 
 i) Qual a distribuição amostral de �̅� ? (média, desvio-padrão e forma da 
distribuição) 
#Cálculo do desvio padrão (variável sd) 
> p<-0.83 
> n<-500 
> sd<-sqrt((p*(1-p))/n);sd 
[1] 0.01679881 
 
> media<-0.83 
O desvio padrão é 0,01679881 
A distribuição é normal porque np ≥ 5 
Pbarra tem distribuição normal com média igual a p 
 
> pbarra<-83/500;pbarra 
[1] 0.166 
 
 ii) Qual é a probabilidade de que a proporção amostral esteja dentro do 
intervalo de ± 1% em torno da proporção populacional? 
#Cálculo da probabilidade da proporção amostral dentro do intervalo de +-1% 
utilizando a função pnorm para a probabilidade acumulada até a margem de erro +1 
menos a função pnorm para a probabilidade acumulada até a margem de erro -1 
> p<-0.83 
> sd 
[1] 0.01679881 
> pnorm(p +0.01, p, sd) -pnorm(p -0.01, p, sd) 
[1] 0.4483439 
A probabilidade é de 0,4483439 
 iii) Qual é a probabilidade de que a proporção amostral esteja dentro do 
intervalo de ± 3% em torno da proporção populacional? 
#Cálculo da probabilidade da proporção amostral dentro do intervalo de +-3% 
utilizando a função pnorm para a probabilidade acumulada até a margem de erro +3 
menos a função pnorm para a probabilidade acumulada até a margem de erro -3 
> p<-0.83 
> sd 
[1] 0.01679881 
> pnorm(p +0.03, p, sd) -pnorm(p -0.03, p, sd) 
[1] 0.925875 
A probabilidade é de 0,925875 
 
 c) (0,5 pontos) Considerando que seja selecionada uma amostra de 1.000 
indivíduos: 
 
 i) Qual a distribuição amostral de �̅? (média, desvio-padrão e forma da 
distribuição) 
#Cálculo do desvio padrão (variável sd) 
> p<-0.83 
> n<-1000 
> sd<-sqrt((p*(1-p))/n);sd 
[1] 0.01187855 
> media<-0.83 
O desvio padrão é 0,01187855 
A distribuição é normal porque np ≥ 5 
Pbarra tem distribuição normal com média igual a p 
 
> pbarra<-83/1000;pbarra 
[1] 0.083 
 
 ii) Qual é a probabilidade de que a proporção amostral esteja dentro do 
intervalo de ± 1% em torno da proporção populacional? 
#Cálculo da probabilidade da proporção amostral dentro do intervalo de +-1% 
utilizando a função pnorm para a probabilidade acumulada até a margem de erro +1 
menos a função pnorm para a probabilidade acumulada até a margem de erro -1 
> p<-0.83 
> sd 
[1] 0.01187855 
> pnorm(p +0.01, p, sd) -pnorm(p -0.01, p, sd) 
[1] 0.60013 
A probabilidade é de 0,60013 
 
 iii) Qual é a probabilidade de que a proporção amostral esteja dentro do 
intervalo de ± 3% em torno da proporção populacional? 
#Cálculo da probabilidade da proporção amostral dentro do intervalo de +-3% 
utilizando a função pnorm para a probabilidade acumulada até a margem de erro +3 
menos a função pnorm para a probabilidade acumulada até a margem de erro -3 
> p<-0.83 
> sd 
[1] 0.01187855 
> pnorm(p +0.03, p, sd) -pnorm(p -0.03, p, sd) 
[1] 0.9884486 
A probabilidade acumulada é de 0,9884486 
 d) (0,5 pontos) Considere que a empresa não possui nenhuma estimativa 
preliminar de qual é a proporção do público alvo que tem maior contato com 
aplicativos da internet (Facebook, Instagram ou YouTube). 
 
Faça um script no R que calcule o tamanho da amostra ideal para margens de erro de 
1%, 2%, 3%, 4% e 5%, e níveis de confiança de 90%, 95% e 99% (fazer todas 
combinações possíveis entre as margens de erro e níveis de confiança apresentados). 
#considerando p = 0,5 
 
ME <- c(0.01,0.02,0.03,0.04,0.05) #vetor Margem de erro 
alpha <- c(0.10,0.05,0.01) #vetor para encontrar o nível de confiança 
NC <- 1-alpha #nivel de confiança 
z <- qnorm(1-alpha/2) # utilizando a função qnorm para encontrar o valor de z 
resultado <- matrix(nrow = length(z), ncol = length(ME)) #criando a matrix de 
dimensões 3x5 
colnames(resultado) <- ME #atribuindo os nomes dos valores de margem de 
erro para as colunas 
rownames(resultado) <- NC #atribuindo os nomes dos valores de nivel de 
confiança para as linhas 
#loop para gerar os valores da matrix 
for (j in 1:length(z)) { 
 for (k in 1:length(ME)) { 
 resultado[j,k] <- ceiling(((z[j]**2)*0.25)/(ME[k]**2)) #gerando o resultado e 
usando a função ceiling para arredondar os valores da matrix 
 } 
} 
 
> resultado 
 0.01 0.02 0.03 0.04 0.05 
0.9 6764 1691 752 423 271 
0.95 9604 2401 1068 601 385 
0.99 16588 4147 1844 1037 664 
 
2) (2 pontos) O gerente de operações de uma grande fabricante de móveis está 
avaliando a performance anual de seus vendedores. Ele deseja avaliar alguns 
aspectos que podem ajudar a aumentar a produtividade nas vendas de sua equipe. 
Para isso, ele selecionou aleatoriamente um conjunto de vendedores e levantou para 
cada um o volume vendido no último ano fiscal, o sexo do vendedor e se ele realizou 
curso de técnicas de vendas. Os dados coletados estão no arquivo 
“vendas_fabricante_moveis.csv”. Considere um nível de significância de 0,01. 
 
 a) (0,5 pontos) Realize uma análise estatística descritiva geral da amostra 
coletada. 
 #1º linha: lendo os dados da tabela do exercício 
 #2º linha: análise descritiva dos dados utilizando a função summary (valor 
mínimo, 1º quartil, mediana, média, 3ª quartil e valor máximo 
 > dados <-read.csv("vendas_fabricante_moveis.csv", sep =";") 
 > summary(dados) 
 Vendedor Vendas_anual Sexo Realizou_tre
inamento 
 Min. :10001 Min. : 7454 feminino :108 nÆo:113 
 
 1st Qu.:10060 1st Qu.: 61373 masculino:127 sim:122 
 
 Median :10118 Median : 72056 
 
 Mean :10118 Mean : 70639 
 
 3rd Qu.:10176 3rd Qu.: 82362 
 
 Max. :10235 Max. :116005 
 
 
 b) (0,5 pontos) Uma das fabricantes de móveis que é benchmark na indústria 
apresenta uma média anual de venda de R$69 mil por empregado. O gerente de 
operaçõesacredita que, no último ano fiscal, a média da sua empresa foi superior a 
este benchmark. 
 i) Descreva quais as hipóteses para realização deste teste. 
 H0: µ >= 69000 
 HA: µ < 69000 
 Como o gerente de operações acredita que no último ano fiscal a média da 
empresa foi superior a do benchmark, parte-se da premissa de que a média foi 
superior. Portanto o status quo é de que a média foi maior ou igual a 69000 esta é a 
hipótese nula. 
 ii) Realize análise estatística descritiva para avaliação visual das hipóteses 
apresentadas pelo gerente de operações (ex.: boxplot). 
 #1º linha: lendo os dados da tabela do exercício 
 #2º linha: atribuindo os dados de vendas para a variável vendas_anual 
 #3º linha: Histograma das vendas 
 > dados <-read.csv("vendas_fabricante_moveis.csv", sep =";") 
 > vendas_anual<-(dados$Vendas_anual) 
 
 > hist(vendas_anual) 
 
 
 
 # gráfico boxplot das vendas. O ponto verde representa a média de vendas. 
 > boxplot(vendas_anual,name = "vendas anuais"); points(1,mean(
vendas_anual), pch =23, cex =1,bg ="green") 
 
 
 
 
 
 
 
 
 
 iii) Realize o teste de hipóteses para avaliação da suposição do gerente de 
operações. Qual o valor-p encontrado? 
 # função t.test para realizar o teste de hipóteses para inferências de média 
populacional com desvio padrão desconhecido 
 > media<-69000 
 
 > t.test(vendas_anual, alternative = "less", mu = media,conf.l
evel = 0.99) 
 
 One Sample t-test 
 
 data: vendas_anual 
 t = 1.4934, df = 234, p-value = 0.9317 
 alternative hypothesis: true mean is less than 69000 
 99 percent confidence interval: 
 -Inf 73210.51 
 sample estimates: 
 mean of x 
 70639.28 
 
O valor-p é 0,9317. 
 
 iv) Qual o intervalo de confiança para a média de venda anual por empregado? 
 #1° linha: atribuindo o valor da média de referência do benchmark para a 
variável media 
 #2º linha: atribuindo o valor da média amostral dos dados de venda para a 
variável xbarra 
 #3º linha: atribuição do n amostral para a variável n 
 #4º linha: atribuindo o valor do desvio padrão amostral para a variável sigma 
 #5º linha: encontrando t com o número de graus de liberdade (df) do t.test 
realizado anteriormente 
 #6º linha: calculando a margem de erro 
 # 7º linha: calculando o intervalo de confiança de 99% para a média de vendas 
 > media<-69000 
 > xbarra<-mean(vendas_anual);xbarra 
 [1] 70639.28 
 > n<-length(vendas_anual);n 
 [1] 235 
 > sigma<-sd(vendas_anual);sigma 
 [1] 16827.37 
 > t<-qt(0.995, df = 234);t 
 [1] 2.597002 
 > ME <- t*sigma/sqrt(n); ME 
 [1] 2850.722 
 > IC <- xbarra + c(-ME,ME); IC 
 [1] 67788.56 73490.00 
 
O intervalo de confiança de 99% para a média de vendas é de 67788,56 e 73490,00 
 
 v) Quais as conclusões do teste de hipótese? 
Como o valor-p é 0,9317, superior ao nível de significância de 0,01, não 
rejeitamos H0. Portanto, não há evidências de que o desempenho da empresa esteja 
abaixo do benchmark, apoiando a afirmação do gerente. 
 
 c) (0,5 pontos) O gerente de operações deseja saber se há diferença na 
produtividade de vendas entre homens e mulheres. 
 
 i) Descreva quais as hipóteses para realização deste teste. 
H0: µhomens - µmulheres = 0 
HA: µhomens - µmulheres =! 0 
Como o gerente de operações deseja saber se há diferença na produtividade de 
vendas entre homens e mulheres, parte-se da premissa de que não se sabe se há 
diferença. Portanto o status quo é de que não há diferença e esta é a hipótese nula. 
 ii) Realize análise estatística descritiva para avaliação visual das hipóteses 
apresentadas pelo gerente de operações (ex.: boxplot). 
 #1º linha: lendo os dados da tabela do exercício 
 #2º linha: atribuindo os dados de vendas dos homens para a variável vendas_M 
 #3º linha: análise descritiva dos dados de vendas dos homens utilizando a 
função summary (valor mínimo, 1º quartil, mediana, média, 3ª quartil e valor máximo 
 #4º linha: atribuindo os dados de vendas das mulheres para a variável vendas_F 
 #5º linha: análise descritiva dos dados de vendas das mulheres utilizando a 
função summary (valor mínimo, 1º quartil, mediana, média, 3ª quartil e valor máximo 
 > dados <- read.csv("vendas_fabricante_moveis.csv", sep = ";") 
 > vendas_M<- dados[dados$Sexo=="masculino",]$Vendas_anual 
 > summary(vendas_M) 
 Min. 1st Qu. Median Mean 3rd Qu. Max. 
 28952 63829 74342 72084 83157 99444 
 
 > vendas_F<- dados[dados$Sexo=="feminino",]$Vendas_anual 
 > summary(vendas_F) 
 Min. 1st Qu. Median Mean 3rd Qu. Max. 
 7454 57589 67169 68941 79762 116005 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
#Histograma para as vendas dos homens 
> hist(vendas_M) 
 
 
 
#Histograma para as vendas das mulheres 
> hist(vendas_F) 
 
 
 
 
 
#Análise descritiva visual com gráfico boxplot comparativo para vendas de homens e 
de mulheres com as médias representadas pelos pontos verdes. 
> boxplot(vendas_M,vendas_F, names = c("vendas dos Homens", "Vendas da
s Mulheres")); points(1:2, c(mean(vendas_M), mean(vendas_F)), pch = 23
, cex = 1,bg = "green") 
 
 
 
 iii) Realize o teste de hipóteses. Qual o valor-p encontrado? 
# função t.test para realizar o teste de hipóteses para inferências sobre a diferença 
entre duas médias populacionais com desvio padrão 1 e 2 desconhecidos 
 > t.test(vendas_M, vendas_F, alternative = "two.sided", mu = 0
, conf.level = 0.99) 
 
 Welch Two Sample t-test 
 
 data: vendas_M and vendas_F 
 t = 1.4029, df = 201.76, p-value = 0.1622 
 alternative hypothesis: true difference in means is not equal 
to 0 
 99 percent confidence interval: 
 -2682.569 8968.190 
 sample estimates: 
 mean of x mean of y 
 72083.64 68940.83 
 
O valor-p encontrado é de 0,1622. 
 
 iv) Qual o intervalo de confiança para a diferença na média de vendas entre 
homens e mulheres? 
O intervalo de confiança é de -2682.569 e 8968.190 
 
 v) Quais as conclusões do teste de hipótese? 
O valor-p encontrado é de 0,1622. Como este valor é superior ao nível de 
significância de 0,01, a hipótese nula não é rejeitada. Não há evidências de que exista 
diferença na produtividade de vendas entre os vendedores do sexo masculino e 
feminino. 
 
 d) (0,5 pontos) O gerente de operações deseja saber se há diferença na 
produtividade de vendas entre os vendedores que realizaram o treinamento de 
técnicas de vendas e aqueles que não realizaram. 
 
 i) Descreva quais as hipóteses para realização deste teste. 
H0: µ Treino Sim - µ Treino Não = 0 
HA: µ Treino Sim - µ Treino Não =! 0 
 Como o gerente de operações deseja saber se há diferença na produtividade de 
vendas entre os vendedores que fizeram o treinamento dos que não fizeram, 
parte-se da premissa de que não se sabe se há diferença. Portanto o status quo é 
de que não há diferença e esta é a hipótese nula. 
 
 
 ii) Realize análise estatística descritiva para avaliação visual das hipóteses 
apresentadas pelo gerente de operações (ex.: boxplot). 
 #1º linha: lendo os dados da tabela do exercício 
 #2º linha: atribuindo os dados de vendas dos funcionários que fizeram 
treinamento para a variável vendas_treinosim 
 #3º linha: análise descritiva dos dados de vendas dos funcionários que fizeram 
treinamento utilizando a função summary (valor mínimo, 1º quartil, mediana, média, 
3ª quartil e valor máximo 
 #4º atribuindo os dados de vendas dos funcionários que não fizeram 
treinamento para a variável vendas_treinonao 
 #5º linha: análise descritiva dos dados de vendas dos funcionários que não 
fizeram treinamento utilizando a função summary (valor mínimo, 1º quartil, mediana, 
média, 3ª quartil e valor máximo 
 dados <- read.csv("vendas_fabricante_moveis.csv", sep = ";") 
 vendas_treinosim<- dados[dados$Realizou_treinamento=="sim",]$V
endas_anual 
 > summary(vendas_treinosim) 
 Min. 1st Qu. Median Mean 3rd Qu. Max. 
 42270 71129 78465 78287 86510 116005 
 
 > vendas_treinonao<- dados[dados$Realizou_treinamento=="nÆo",]$Vendas_anual 
 > summary(vendas_treinonao) 
 Min. 1st Qu. Median Mean 3rd Qu. Max. 
 7454 52971 63064 62382 72056 99392 
 
 
 
 
 
 
 
 
#Histograma de vendas dos funcionários que fizeram treinamento 
> hist(vendas_treinosim) 
 
 
#Histograma de vendas dos funcionários que fizeram treinamento 
> hist(vendas_treinonao) 
 
 
 
 
 
 
#Análise descritiva visual com gráfico boxplot comparativo para vendas dos 
funcionários que fizeram treinamento e dos funcionários que não fizeram treinamento 
com as médias representadas pelos pontos verdes. 
> boxplot(vendas_treinosim,vendas_treinonao, names = c("Com Treinament
o", "Sem Treinamento")); points(1:2, c(mean(vendas_treinosim), mean(ve
ndas_treinonao)), pch = 23, cex = 1,bg = "green") 
 
 
 
 iii) Realize o teste de hipóteses. Qual o valor-p encontrado? 
 # função t.test para realizar o teste de hipóteses para inferências sobre a 
diferença entre duas médias populacionais com desvio padrão 1 e 2 desconhecidos 
> t.test(vendas_treinosim, vendas_treinonao, alternative = "two.sided"
, mu = 0, conf.level = 0.99) 
 
Welch Two Sample t-test 
 
data: vendas_treinosim and vendas_treinonao 
t = 8.1294, df = 213.61, p-value = 3.469e-14 
alternative hypothesis: true difference in means is not equal to 0 
99 percent confidence interval: 
 10820.21 20990.26 
sample estimates: 
mean of x mean of y 
 78287.33 62382.09 
 
O valor p é 3.469 x 10^-14 
 
 iv) Qual o intervalo de confiança para a diferença na média de vendas entre 
quem realizou e quem não realizou o treinamento? 
O intervalo é de 10820.21 e 20990.26 
 
 
 
 v) Quais as conclusões do teste de hipótese? 
O valor p é 3.469 x 10^-14. Como o valor é muito menor que o nível de significância de 
0,01 a hipótese nula é rejeitada. O desempenho nas vendas dos funcionários que 
fizeram o treinamento é diferente dos que não fizeram. 
 
3) (2 pontos) As áreas de tecnologia e de marketing de uma varejista estão 
realizando melhorias no website da empresa, com o objetivo de ampliar as vendas 
online. Foram desenvolvidos dois novos modelos de site, que chamaram de Alpha e 
Gama. 
Para realizar testes de performance em cada um dos novos modelos, cada um deles 
aparece de forma aleatória para cada um dos visitantes que entram no site da 
empresa, o que é conhecido como Teste A/B. Para cada uma das visitas, a empresa 
está coletando qual foi o modelo de site que foi disponibilizado (Alpha ou Gama), se 
houve conversão de venda naquela visita e também o resultado de uma pesquisa 
que é feita com o cliente para avaliar se ele indicaria a empresa para um amigo. Os 
dados coletados estão no arquivo “novo_site.csv”. Considere um nível de 
significância de 0,05. 
 
 a) (0,5 pontos) Historicamente, a empresa tem mantido uma taxa de conversão 
de vendas em seus sites no patamar de 6%. Os analistas desejam avaliar se, 
considerando conjuntamente toda a amostra de testes realizados com os novos 
modelos de site (Alpha e Beta), houve aumento na taxa de conversão em vendas em 
relação a este patamar histórico. 
 
i) Descreva quais as hipóteses para realização deste teste. 
 H0: p =< 0,06 
 HA: p > 0,06 
 Como os analistas desejam avaliar se houve aumento na taxa de vendas em 
relação ao patamar histórico de 6%, parte-se da premissa de que não se sabe se 
houve aumento. O status quo, ou seja, a situação normal (atual) é de que a taxa de 
conversão é igual ou menor do que o patamar histórico e esta é a hipótese nula. 
 
ii) Realize análise estatística descritiva para avaliação visual das hipóteses 
apresentadas. 
#1º linha: lendo os dados da tabela do exercício 
#2º linha: análise descritiva dos dados de acesso nos dois modelos de website 
coletados 
> dados <- read.csv("novo_site.csv", sep = ";") 
> summary(dados) 
 Acesso Modelo Converteu_venda Indicaria_para_amigo 
 9801-0001: 1 Alpha:1221 nao:1691 nao : 433 
 9801-0002: 1 Gama : 645 sim: 175 sim :1403 
 9801-0003: 1 NA's: 30 
 9801-0004: 1 
 9801-0005: 1 
 9801-0006: 1 
 (Other) :1860 
 
 
iii) Realize o teste de hipóteses. Qual o valor-p encontrado? 
#1º linha: lendo os dados da tabela do exercício 
#2º linha: atribuindo o valor da proporção de conversão de vendas de 6% para a 
variável p 
#3º linha: atribuindo o n dos dados coletados para a variável n 
#4º linha: atribuindo a soma dos registros de conversões em vendas para a variável 
publicointeresse 
#5º linha: calculando o valor-p com a função prop.test para teste de hipótese para 
proporção populacional 
> dados <- read.csv("novo_site.csv", sep = ";") 
> p<-0.06 
> n<-nrow(dados);n 
[1] 1866 
> publicointeresse <- sum(dados$Converteu_venda == "sim");publicointer
esse 
[1] 175 
 
> prop.test(publicointeresse, n, p, alternative = "greater", conf.leve
l = 0.95) 
 
 1-sample proportions test with continuity correction 
 
data: publicointeresse out of n, null probability p 
X-squared = 37.164, df = 1, p-value = 5.429e-10 
alternative hypothesis: true p is greater than 0.06 
95 percent confidence interval: 
 0.08300999 1.00000000 
sample estimates: 
 p 
0.09378349 
 
O valor p é de 5,429*10^-10 
 
iv) Qual o intervalo de confiança para a proporção de conversão de vendas com os 
novos modelos? 
O intervalo é de 0.08300999 e 1,000000 
 
v) Quais as conclusões do teste de hipótese? 
O valor p é de 5,429*10^-10. Este valor é muito menor que o nível de significância de 
0,05. Neste caso a hipótese nula é rejeitada. Há evidências de que após os testes 
realizados com os novos modelos de site (Alpha e Beta) houve aumento na taxa de 
conversão de vendas em relação ao patamar histórico de 6%. A estimativa de 
proporção da amostra é de 9,37% de acordo com o prop.test realizado anteriormente. 
 
 b) (0,75 pontos) Os analistas da empresa desejam saber se há diferença entre 
os dois modelos de site em relação à taxa de conversão de vendas. 
 
i) Descreva quais as hipóteses para realização deste teste. 
H0: p Alpha Vendas - p Gama Vendas = 0 
HA: p Alpha Vendas - p Gama Vendas =! 0 
Como os analistas desejam saber se há diferença entre os dois modelos de site em 
relação à taxa de conversão de vendas, parte-se da premissa de que não se sabe se 
há diferença. Portanto, o status quo é de que não há diferença e esta é a hipótese 
nula. 
 
ii) Realize análise estatística descritiva para avaliação visual das hipóteses 
apresentadas. 
#1º linha: lendo os dados da tabela do exercício 
#2º linha: análise descritiva dos dados do modelo Alpha utilizando a função summary 
#3º linha: análise descritiva dos dados do modelo Gama utilizando a função summary 
> dados <- read.csv("novo_site.csv", sep = ";") 
 
> summary(dados[dados$Modelo=="Alpha",]) 
 Acesso Modelo Converteu_venda Indicaria_para_amigo 
 9801-0001: 1 Alpha:1221 nao:1125 nao :277 
 9801-0002: 1 Gama : 0 sim: 96 sim :923 
 9801-0003: 1 NA's: 21 
 9801-0004: 1 
 9801-0005: 1 
 9801-0006: 1 
 (Other) :1215 
> summary(dados[dados$Modelo=="Gama",]) 
 Acesso Modelo Converteu_venda Indicaria_para_amigo 
 9801-1222: 1 Alpha: 0 nao:566 nao :156 
 9801-1223: 1 Gama :645 sim: 79 sim :480 
 9801-1224: 1 NA's: 9 
 9801-1225: 1 
 9801-1226: 1 
 9801-1227: 1(Other) :639 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
iii) Realize o teste de hipóteses. Qual o valor-p encontrado? 
#1º linha: lendo os dados da tabela do exercício 
#2º linha: atribuindo o número de registros de acesso do modelo Alpha para a variável 
n_alpha 
#3º linha: atribuindo o número de registros de acesso do modelo Gama para a variável 
n_gama 
#4º linha: atribuindo o número de conversões de venda do modelo Alpha para a 
variável n_venda_alpha 
#5º linha: atribuindo o número de conversões de venda do modelo Gama para a 
variável n_venda_gama 
#6º linha: aplicação da função prop.test para calcular o valor p da diferença entre duas 
proporções 
 
> dados <- read.csv("novo_site.csv", sep = ";") 
 
> n_alpha <- nrow(dados[dados$Modelo == "Alpha",]); n_alpha 
[1] 1221 
> n_gama <- nrow(dados[dados$Modelo == "Gama",]); n_gama 
[1] 645 
> n_venda_alpha <- nrow(dados[dados$Modelo == "Alpha" & dados$Converte
u_venda == "sim",]); n_venda_alpha 
[1] 96 
> n_venda_gama <- nrow(dados[dados$Modelo == "Gama" & dados$Converteu_
venda == "sim",]); n_venda_gama 
[1] 79 
 
> prop.test(c(n_venda_alpha, n_venda_gama), c(n_alpha, n_gama), altern
ative = "two.sided", conf.level = 0.95) 
 
 2-sample test for equality of proportions with continuity corr
ection 
 
data: c(n_venda_alpha, n_venda_gama) out of c(n_alpha, n_gama) 
X-squared = 9.0425, df = 1, p-value = 0.002638 
alternative hypothesis: two.sided 
95 percent confidence interval: 
 -0.07450365 -0.01320943 
sample estimates: 
 prop 1 prop 2 
0.07862408 0.12248062 
 
O valor-p é 0,002638 
 
iv) Qual o intervalo de confiança para a diferença na proporção de conversão 
de vendas entre os dois modelos de sites? 
O intervalo é de -0,07450365 e -0,01320943 
 
v) Quais as conclusões do teste de hipótese? 
O valor-p é 0,002638. Como o valor p é menor que o nível de significância de 0,05 
a hipótese nula é rejeitada. Há evidências de que existe diferença entre os dois 
modelos de site (Alpha e Gama) em relação à taxa de conversão de vendas. 
 
 
c) (0,75 pontos) Os analistas da empresa desejam saber se há diferença 
entre os dois modelos de site em relação à proporção de usuários que indicariam a 
empresa para um amigo. Como nem todos usuários responderam à pesquisa 
apresentada, a análise dos dados deve levar em consideração os NAs (not available) 
que aparecem no banco de dados. 
 
i) Descreva quais as hipóteses para realização deste teste. 
H0: p Alpha indicação - p Gama Indicação = 0 
HA: p Alpha Indicação - p Gama Indicação =! 0 
Como os analistas desejam saber se há diferença entre os dois modelos de site em 
relação a proporção de usuários que fariam indicação, parte-se da premissa de que 
não se sabe se há diferença. Portanto, o status quo é de que não há diferença e 
esta é a hipótese nula. 
 
ii) Realize análise estatística descritiva para avaliação visual das hipóteses 
apresentadas. 
#1º linha: lendo os dados da tabela do exercício 
#2º linha: análise descritiva dos dados do modelo Alpha utilizando a função summary 
#3º linha: análise descritiva dos dados do modelo Gama utilizando a função summary 
> dados <- read.csv("novo_site.csv", sep = ";") 
 
> summary(dados[dados$Modelo == "Alpha" & dados$Indicaria_para_amigo =
= "sim",]) 
 Acesso Modelo Converteu_venda Indicaria_para_amigo 
 9801-0002: 1 Alpha:923 nao :851 nao : 0 
 9801-0003: 1 Gama : 0 sim : 72 sim :923 
 9801-0004: 1 NA's : 21 NA's: 21 NA's: 21 
 9801-0007: 1 
 9801-0008: 1 
 (Other) :918 
 NA's : 21 
 
> summary(dados[dados$Modelo == "Gama" & dados$Indicaria_para_amigo ==
 "sim",]) 
 Acesso Modelo Converteu_venda Indicaria_para_amigo 
 9801-1294: 1 Alpha: 0 nao :427 nao : 0 
 9801-1297: 1 Gama :480 sim : 53 sim :480 
 9801-1298: 1 NA's : 9 NA's: 9 NA's: 9 
 9801-1301: 1 
 9801-1302: 1 
 (Other) :475 
 NA's : 9 
 
Os NAS não foram omitidos, respeitando uma condição do exercício. Ao selecionar e 
contabilizar a quantidade de indicações, sejam positivas ou negativas, os NAS vão para 
ambas, como apresentado na análise descritiva acima, já que não se pode atribuir a 
qual indicação pertencem. 
 
 
 
 
 
 
 
iii) Realize o teste de hipóteses. Qual o valor-p encontrado? 
#1º linha: lendo os dados da tabela do exercício 
#2º linha: atribuindo o número de registros de acesso do modelo Alpha para a variável 
n_alpha 
#3º linha: atribuindo o número de registros de acesso do modelo Gama para a variável 
n_gama 
#4º linha: atribuindo o número indicações do modelo Alpha para a variável 
n_indicação_alpha 
#5º linha: atribuindo o número de indicações do modelo Gama para a variável 
n_indicação_gama 
#6º linha: aplicação da função prop.test para calcular o valor p da diferença entre duas 
proporções 
 
> dados <- read.csv("novo_site.csv", sep = ";") 
 
> n_alpha <- nrow(dados[dados$Modelo == "Alpha",]); n_alpha 
[1] 1221 
> n_gama <- nrow(dados[dados$Modelo == "Gama",]); n_gama 
[1] 645 
> n_indicacao_alpha <- nrow(dados[dados$Modelo == "Alpha" & dados$Indi
caria_para_amigo == "sim",]); n_indicacao_alpha 
[1] 944 
> n_indicacao_gama <- nrow(dados[dados$Modelo == "Gama" & dados$Indica
ria_para_amigo == "sim",]); n_indicacao_gama 
[1] 489 
 
> prop.test(c(n_indicacao_alpha, n_indicacao_gama), c(n_alpha, n_gama)
, alternative = "two.sided", conf.level = 0.95) 
 
 2-sample test for equality of proportions with continuity corr
ection 
 
data: c(n_indicacao_alpha, n_indicacao_gama) out of c(n_alpha, n_gama
) 
X-squared = 0.45186, df = 1, p-value = 0.5015 
alternative hypothesis: two.sided 
95 percent confidence interval: 
 -0.02673243 0.05672690 
sample estimates: 
 prop 1 prop 2 
0.7731368 0.7581395 
 
O valor p é 0,5015. 
 
iv) Qual o intervalo de confiança para a diferença na proporção de usuários 
que indicariam a empresa para um amigo ao comparar os dois modelos de 
sites? 
O intervalo é de -0,02673243 e 0,05672690 
v) Quais as conclusões do teste de hipótese? 
O valor p é 0,5015. Como o valor p é maior que o nível de significância 0,05 a hipótese 
nula não é rejeitada. Não há evidências de que a proporção de indicações dos usuários 
do modelo de site Alpha são diferentes da proporção de indicações dos usuários do 
modelo de site Gama. 
 
 
4) (2 pontos) Uma empresa de médio porte realiza periodicamente uma pesquisa 
para monitoramento do clima organizacional. Tendo em vista a baixa avaliação 
historicamente encontrada numa questão relacionada à liderança, a empresa 
resolveu selecionar aleatoriamente um grupo de 126 empregados para uma análise 
mais detalhada a respeito deste tema. 
No início do ano estes empregados fizeram uma avaliação da sua liderança imediata, 
numa nota de 0 a 10. Logo em seguida, o RH iniciou um amplo projeto de 
desenvolvimento dos gestores da empresa e um robusto plano de sucessão. Após 6 
meses da primeira avaliação, o RH realizou uma nova pesquisa com os mesmos 
empregados, para que avaliassem novamente sua liderança imediata numa nota de 
0 a 10. A base de dados “avaliacao_empregados.csv” apresenta essa amostra 
pareada de avaliações antes e após a implementação de ações por parte do RH. 
O gerente de RH deseja saber se houve aumento na média das avaliações dos 
empregados em relação a sua liderança imediata. Considere um nível de significância 
de 0,05. 
 
 a) (0,2 pontos) Descreva quais as hipóteses para realização deste teste. 
 H0: µd >= 0 
 Ha: µd < 0 
 Considerando que será feito o cálculo de avaliação_anterior menos avaliação 
posterior, se a nota de avaliação aumentarµd será negativo. 
 
 b) (0,3 pontos) Realize análise estatística descritiva para avaliação visual das 
hipóteses apresentadas. 
 #1º linha: lendo os dados da tabela do exercício 
 #2º linha: análise descritiva dos dados da avaliação anterior utilizando a função 
summary 
 #3º linha: análise descritiva dos dados da avaliação posterior utilizando a 
função summary 
> dados <- read.csv("avaliacao_empregados.csv", sep = ";") 
 
> summary(dados$avaliacao_anterior) 
 Min. 1st Qu. Median Mean 3rd Qu. Max. 
 0.000 4.000 5.000 5.238 6.000 10.000 
> summary(dados$avaliacao_posterior) 
 Min. 1st Qu. Median Mean 3rd Qu. Max. 
 0.000 5.000 6.000 5.865 7.000 10.000 
 
 
 
 
 
 
 
 
 
 
 
 
 
# histograma dos dados da avaliação anterior 
> hist(dados$avaliacao_anterior) 
 
 
 
#Histograma dos dados da avaliação posterior 
> hist(dados$avaliacao_posterior) 
 
 
 
# Gráfico boxplot comparativo da avaliação anterior e posterior. Os pontos verdes 
representam as médias 
> boxplot(dados$avaliacao_anterior, dados$avaliacao_posterior, names =
c("Avaliação Anterior", "Avaliação Posterior")); points(1:2, c(mean(da
dos$avaliacao_anterior), mean(dados$avaliacao_posterior)), pch =23, ce
x =1,bg ="green") 
 
 
 
 c) (0,5 pontos) Realize o teste de hipóteses. Qual o valor-p encontrado? 
# Aplicação da função t.test para calcular a diferença entre duas médias de amostras 
pareadas 
> t.test(dados$avaliacao_anterior, dados$avaliacao_posterior, alternat
ive ="less", mu =0, paired =TRUE, conf.level =0.95) 
 
 Paired t-test 
 
data: dados$avaliacao_anterior and dados$avaliacao_posterior 
t = -4.1048, df = 125, p-value = 3.626e-05 
alternative hypothesis: true difference in means is less than 0 
95 percent confidence interval: 
 -Inf -0.3738635 
sample estimates: 
mean of the differences 
 -0.6269841 
 
O p valor é 3,626*10^-5 
 
 d) (0,5 pontos) Qual o intervalo de confiança para a diferença na média de 
avaliação antes e depois das ações implementadas pelo RH? 
O intervalo é de -Inf -0.3738635 
 
 
 
 e) (0,5 pontos) Quais as conclusões do teste de hipótese? 
O p valor é 3,626*10^-5. Como o valor-p é muito menor que o nível de significância de 
0,05 a hipótese nula é rejeitada. Há evidências de que houve aumento na média das 
avaliações dos empregados. 
 
5) (2 pontos) Um empreendedor está planejando desenvolver um novo aplicativo de 
delivery de comida. Um dos aspectos que ele considera como diferencial é a 
velocidade na entrega dos pedidos (lead time). Para analisar a performance do maior 
concorrente no mercado atualmente, ele deseja fazer uma análise estatística dos 
tempos de entrega deste concorrente, utilizando para isso uma amostra de pedidos a 
ser coletada. 
O arquivo “leadtime_entregas.txt” apresenta toda a população dos tempos de 
entrega (em minutos) dos pedidos realizados no aplicativo concorrente, composta 
por 1.253.689 pedidos. Entretanto, esta é uma informação que o empreendedor não 
tem em mãos, por isso a necessidade de planejar um estudo por meio de 
amostragem. 
 
 a) (0,2 pontos) Faça uma análise estatística descritiva dos dados populacionais 
de tempos de entrega. Quais as principais conclusões quanto ao comportamento dos 
tempos de entrega do concorrente? 
#1º linha: lendo os dados da tabela do exercício 
#2º linha: análise descritiva dos dados de tempo de entrega em minutos utilizando a 
função summary 
#3º linha: dimensão dos dados da tabela 
> dados <- read.table("leadtime_entregas.txt",head=T) 
> summary(dados) 
 leadtime_entregas_minutos 
 Min. : 17.25 
 1st Qu.: 32.93 
 Median : 37.37 
 Mean : 40.01 
 3rd Qu.: 44.32 
 Max. :158.38 
> dim(dados) 
[1] 1253689 
Analisando os dados é possível identificar que a média de tempo de entrega do 
concorrente é de 40,01 minutos. O tempo mínimo registrado é de 17,25 minutos e o 
máximo de 158,38. A mediana é de 37,37, o 1º quartil é 32,93 e o 3º quartil é de 44,32. 
 
 
 
 
 
 
 
 
 
 
 
 
 
#histograma dos dados de tempo de entrega 
> hist(dados$leadtime_entregas_minutos) 
 
 
O histograma dos dados tem distribuição Poisson. 
 
 b) (0,7 pontos) Desenvolva um script no R para fazer uma simulação na qual 
serão coletadas 10.000 amostras aleatórias desta população e, para cada amostra 
coletada, será calculada a respectiva média, gerando um vetor contendo cada uma das 
10.000 médias calculadas. Neste script de simulação, considere os seguintes tamanhos 
de amostra: n = 5, n = 10, n = 30, n = 100, n = 500 e n = 1.000 (ao final você terá 6 
vetores com 10.000 linhas cada um, representando as médias para cada uma das 
amostras coletadas). 
 
#1º a 6º linha: criando os vetores que receberam as 10.000 médias das 10.000 
amostras de tamanhos 5, 10, 30, 100, 500 e 1000, respectivamente. 
#7º linha: Looping para coletar as 10.000 amostras e atribuir as respectivas 10.000 
médias para os 6 vetores. 
> media5 <- vector() 
> media10 <- vector() 
> media30 <- vector() 
> media100 <- vector() 
> media500 <- vector() 
> media1000 <- vector() 
 
> for (i in 1:10000) { 
+ amostra5 <- sample(dados$leadtime_entregas_minutos, 5) 
+ media5[i] <- mean(amostra5) 
+ amostra10 <- sample(dados$leadtime_entregas_minutos, 10) 
+ media10[i] <- mean(amostra10) 
+ amostra30 <- sample(dados$leadtime_entregas_minutos, 30) 
+ media30[i] <- mean(amostra30) 
+ amostra100 <- sample(dados$leadtime_entregas_minutos, 100) 
+ media100[i] <- mean(amostra100) 
+ amostra500 <- sample(dados$leadtime_entregas_minutos, 500) 
+ media500[i] <- mean(amostra500) 
+ amostra1000 <- sample(dados$leadtime_entregas_minutos, 1000) 
+ media1000[i] <- mean(amostra1000) 
+ } 
 
 
 c) (0,2 pontos) Faça uma análise estatística descritiva dos 6 vetores de médias 
gerados na letra b. 
 
i) Quais as principais conclusões quanto à distribuição das médias para cada um dos 
tamanhos de amostra considerados? 
# análise descritiva dos vetores contendo as 10.000 medias de diferentes tamanhos 
amostrais 
 
> summary(media5) 
 Min. 1st Qu. Median Mean 3rd Qu. Max. 
 28.51 36.70 39.42 40.03 42.64 65.59 
> summary(media10) 
 Min. 1st Qu. Median Mean 3rd Qu. Max. 
 31.10 37.65 39.70 39.98 42.00 56.74 
> summary(media30) 
 Min. 1st Qu. Median Mean 3rd Qu. Max. 
 34.13 38.67 39.88 39.99 41.21 48.52 
> summary(media100) 
 Min. 1st Qu. Median Mean 3rd Qu. Max. 
 36.41 39.29 39.98 40.01 40.70 44.73 
> summary(media500) 
 Min. 1st Qu. Median Mean 3rd Qu. Max. 
 38.20 39.69 40.01 40.01 40.33 41.96 
> summary(media1000) 
 Min. 1st Qu. Median Mean 3rd Qu. Max. 
 38.86 39.78 40.01 40.01 40.22 41.55 
Como o empreendedor não tem acesso a média da população, ao fazer a média das 
médias de 10.000 amostras coletadas é possível obter um valor muito próximo da 
média da população. Em outras palavras, a distribuição amostral de “x barra” possui 
valor esperado igual ao de “µ” (média da população) e desvio padrão amostral igual ao 
desvio padrão da população. 
#cálculo do desvio padrão para cada uma das amostras coletadas 
> sd_media5<-sd(media5);sd_media5 
[1] 4.707927 
> sd_media10<-sd(media10);sd_media10 
[1] 3.280105 
> sd_media30<-sd(media30);sd_media30 
[1] 1.906915 
> sd_media100<-sd(media100);sd_media100 
[1] 1.044017 
> sd_media500<-sd(media500);sd_media500 
[1] 0.4703888 
> sd_media1000<-sd(media1000);sd_media1000 
[1] 0.3288903 
Conforme o tamanho amostral aumenta o erro padrão da média diminui. 
ii) Qual o impacto do tamanho da amostra no comportamento das distribuições das 
médias? 
 
 
 
 
# Histogramas das médias amostrais de tamanho 5, 10, 30, 100, 500 e 1000, 
respectivamente. 
> hist(media5, xlim=c(20,70)) 
> hist(media10, xlim=c(20,70)) 
> hist(media30, xlim=c(20,70)) 
> hist(media100, xlim=c(20,70)) 
> hist(media500, xlim=c(20,70)) 
> hist(media1000, xlim=c(20,70))É possível perceber que quanto maior a amostra coletada, mais a distribuição se 
aproxima de uma distribuição normal ficando concentrada numa faixa central, próximo 
da média dos dados. 
 
 
 
 
iii) O que explica este comportamento? 
 
Este comportamento é explicado pelo teorema do limite central. Ao coletar amostras 
aleatórias de tamanho “n” a partir de uma população, a distribuição amostral da média 
amostral se aproxima de uma distribuição normal conforme o tamanho amostral 
torna-se grande. 
 
 d) (0,5 pontos) O empreendedor considera razoável estimar a média dos 
tempos de entrega com uma margem de erro de 2 minutos para mais ou para menos 
em relação à média populacional. Considerando a simulação realizada na letra b e os 
vetores de médias gerados, calcule a probabilidade de realizar uma estimativa dentro 
desta margem de erro esperada para cada um dos tamanhos de amostras analisados 
(n = 5, n = 10, n = 30, n = 100, n = 500 e n = 1.000). 
 
Dica: para cada vetor, calcular o percentual de médias que estão dentro da margem de 
erro de “média populacional ± 2”, sobre o total de simulações (10.000). 
# Cálculo do percentual de médias que estão dentro da margem de erro de +-2 
utilizando a função pnorm para a probabilidade acumulada até a margem de erro +2 
da média menos a função pnorm para a probabilidade acumulada até a margem de 
erro -2 da média de cada vetor. 
> pnorm(((mean(media5))+2),(mean(media5)),(sd(media5)))-pnorm(((mean(m
edia5))-2),(mean(media5)),(sd(media5))) 
[1] 0.3290287 
> pnorm(((mean(media10))+2),(mean(media10)),(sd(media10)))-pnorm(((mea
n(media10))-2),(mean(media10)),(sd(media10))) 
[1] 0.4579637 
> pnorm(((mean(media30))+2),(mean(media30)),(sd(media30)))-pnorm(((mea
n(media30))-2),(mean(media30)),(sd(media30))) 
[1] 0.7057364 
> pnorm(((mean(media100))+2),(mean(media100)),(sd(media100)))-pnorm(((
mean(media100))-2),(mean(media100)),(sd(media100))) 
[1] 0.9445939 
> pnorm(((mean(media500))+2),(mean(media500)),(sd(media500)))-pnorm(((
mean(media500))-2),(mean(media500)),(sd(media500))) 
[1] 0.9999788 
> pnorm(((mean(media1000))+2),(mean(media1000)),(sd(media1000)))-pnorm
(((mean(media1000))-2),(mean(media1000)),(sd(media1000))) 
[1] 1 
 
 
 e) (0,4 pontos) Interprete os resultados encontrados na letra d. Qual a relação 
entre os resultados encontrados e os conceitos de intervalo de confiança? 
 
Nos exemplos acima, as amostras com 100 elementos já possuem um percentual 
próximo de 95% de médias dentro da margem de erro, enquanto a de 500 é de 
praticamente de 100% e a de 1000 elementos possui todas as médias dentro do 
intervalo estimado. 
É possível perceber que na medida em que o número de elementos em uma amostra 
aumenta, maior é o percentual de médias que se encontra dentro da margem de erro 
estimada. Isto também pode ser verificado pelos histogramas dos vetores, com 
valores concentrados em uma faixa central, afinando a distribuição normal.