Baixe o app para aproveitar ainda mais
Prévia do material em texto
AS I – REPRESENTAÇÃO DISTRIBUIÇÕES Pergunta 1 Sobre a média aritmética (aqui chamada apenas de "média"), assinale a alternativa incorreta: a média é especialmente sensível aos outliers. se no meio de uma distribuição houver uma observação muito maior ou menor que as demais, isso afeta o resultado, “puxando” a média pra cima ou para baixo. em um conjunto de dados ordenados, a média é o dado do meio. a média é a soma de todas as observações dividida pelo número de observações. quanto maior for a variância de uma distribuição, mais distantes da média estarão os seus valores. Pergunta 2 O que significa tem um dataset que tem uma variável com desvio-padrão igual a 0? Significa que todos os valores para essa variável são iguais. Significa que, necessariamente, todos os valores para essa variável são 0. Significa que, para cada variável a uma distância à direita s>0 da média μ, haverá uma outra variável a uma distância à esquerda s<0 de μ. Significa que para cada valor positivo x>0, há um valor negativo -x, de forma que a soma de todas as variáveis é 0. Significa que a média é maior que a mediana e que a moda é maior que a média. Pergunta 3 O seguinte gráfico apresenta o resultado de 5 experimentos de um Físico para medir a velocidade da luz, representados por boxplots. A linha vermelha indica a velocidade real da luz, para efeitos de comparação (Fonte: Wikimedia Commons). Analise as seguintes afirmativas a respeito desses boxplots: I. As medianas dos cinco experimentos são superiores ao valor real da velocidade da luz. II. Desconsiderando os outliers, todos os valores mínimos são inferiores ao valor real da velocidade da luz. III. Há um experimento cujo terceiro quartil é maior que o valor máximo dos demais experimentos (desconsiderando os outliers) Qual alternativa indica as afirmativas corretas? Apenas III II e III I e III Apenas I I e II Pergunta 4 Quem visita Salvador já sabe: basta virar uma esquina no fim de tarde para encontrar uma barraca de acarajé, com baianas típicas vestidas de branco, com seus encantadores sorrisos a vender o quitute clássico dos soteropolitanos. Ele está por todo lado e ninguém duvida que existam diferenças nos sabores de cada bolinho feito de feijão-fradinho com camarão e pimenta a gosto. Não apenas nos sabores os bolinhos são diferentes: seus preços também variam bastante! Uma rápida pesquisa em barracas de acarajé nos bairros do Rio Vermelho, Pelourinho e Barra trouxe a seguinte distribuição de preços em R$ para o acarajé (com camarão), em quatorze barracas: 8;12;7,50;7;7,50;8;8,50;9;10;10,50;6,50;10;9;8 Associe os elementos importantes dessa distribuição com os valores em reais. Associe os elementos importantes dessa distribuição com os valores em reais. Moda Mediana Primeiro Quartil Terceiro Quartil AIQ A. R$ 6,50 B. R$ 6,00 C. R$ 8,00 D. R$ 12,00 E. R$ 7,50 F. R$ 8,25 G. R$ 2,50 H. R$ 10,00 Moda: 8,00 Mediana: 8,25 Primeiro Quartil: 7,50 Terceiro Quartil: 10,00 AIQ: 2,50 Solução: 14 elementos mediana=(14+1)/2=7,50 posição (entre a 7ª e 8ª posições) =>> (8+8,50)/2=8,25 Q1=(n+1)/4=(14+1)/4=3,75 posição (entre a 3ª e 4ª posições) =>> 7,50 Q2=mediana=(14+1)/2=7,50 posição (entre a 7ª e 8ª posições) =>> (8+8,50)/2=8,25 Q3= 3*(n+1)/4=3*(14+1)/4=11,25 posição (entre a 11ª e 12ª posições) =>> DIF=(12 – 10,50)=1,50*0,25= 0,37 =>> Q3=10,50+0,37=10,87 (ERRADO) AIQ = Q3-Q1=10 – 7,50 =2,50 Resp: 2,50 = Q3-7,50 => Q3=2,50+7,50 =>Q3= 10 Pergunta 5 Um dataset de 100 alunos de graduação tem o seguinte resumo de 5 números: 17;20;21;24;28. Por um erro de digitação, foram inseridos dois novos valores na distribuição: 10 e 100. As seguintes afirmativas dizem respeito a esse dataset de 102 observações em relação ao anterior: I. A mediana não foi alterada; II. A média não foi alterada; III. Ambos os valores inseridos são outliers, pela regra 1,5*AIQ. Assinale a alternativa que contém apenas afirmativas corretas. II e III Apenas a I Apenas a III I e II I e III 17 20 21 24 28 5 elementos moda = 21 1Q=(5+1)/4= 1,5 3Q= 3*(5+1)/4= 4,5 AIQ = 4,5-1,5= 3 1,5AIQ = 1,5*3= 4,5 outlier inf= 17-4,5= 12,5 outlier sup= 28+4,5= 32,5 Pergunta 6 Em pesquisa realizada em junho de 2018, 1.865 usuários de celular selecionaram, em um questionário, até vinte apps que aparecem na tela de seus smartphones. Os cinco mais populares são: App % de citações Whatsapp 65% Facebook 51% Instagram 39% Messenger 19% Uber 16% Assinale a alternativa correta a respeito desses dados. um gráfico de setores é uma representação gráfica adequada para esses dados. um gráfico temporal é adequado para representar esses dados. um gráfico de colunas ou barras é adequado para representar esses dados. daria para representar, em um gráfico de setores, apenas os valores para Whatsapp e Facebook, para não ultrapassar 100% do total. não pode ser utilizado um gráfico de barras ou colunas para representar esses dados, pois torna impossível a comparação. Pergunta 7 0 em 0,08 pontos Observe o seguinte gráfico de ramo-e-folhas, da Universidade de Yale (EUA), mostrando os batimentos cardíacos de um grupo de 21 estudantes após fazerem um minuto de polichinelo ("jumping jacks"): Qual é o valor da mediana dessa distribuição? 124 114,76 106 121 99 Pergunta 8 0,08 em 0,08 pontos Questão anulada, selecione uma das opções para receber a devida pontuação Fonte: publicdomain.net - Licença CC A Ponte Aérea, mais conhecida como Ponte Aérea Rio-São Paulo, foi originalmente um acordo firmado entre as principais companhias aéreas brasileiras, que ofereciam várias frequências diárias entre os aeroportos Santos Dumont no Rio de Janeiro e Congonhas em São Paulo, com voos que duram ao redor de 1h. Uma busca em um site de compra de passagens aéreas para a Ponte Aérea Rio-São Paulo para os horários de 6h às 7h em uma quarta-feira, com antecedência de três semanas, gerou 15 respostas (valores em R$), representadas no seguinte boxplot, e que tem como resumo de cinco números os valores: 195; 225; 325; 501; 902. A distribuição não contém valores atípicos (outliers), pela regra 1,5*AIQ. Assinale a distribuição que é representada por esse gráfico. 5,195,204,225,295,310,325,325,367,478,479,501,535,902,6835 195,225,395,435,478,479,495,495,499,501,501,501,501,701,902 195,225,225,235,295,295,325,335,478,478,479,499,501,535,902 195,204,210,225,295,310,325,325,367,478,479,501,535,610,902 195,204,210,225,295,310,325,325,367,478,479,501,535,610,902 Pergunta 9 0 em 0,08 pontos Uma plaqueta sanguínea ou trombócito é uma componente do sangue cuja função (junto com os fatores de coagulação) é a de parar sangramentos aglomerando-se e formando coágulos em lesões nos vasos sanguíneos. É importante o exame de contagem de plaquetas, para indicar um baixo número de plaquetas (<150.000, chamado trombocitopenia) ou um excesso dela (>350.000 plaquetas, chamado trombocitose). Uma contagem de plaquetas realizada em 27 pacientes de um hospital em Belém-PA resultou no seguinte histograma, que possui 9 classes de tamanho 50.000 (os valores do histograma estão em milhares de plaquetas). Assinale a alternativa que completa, corretamente e na ordem, as lacunas do seguinte relatório médico: "Ha ___ pessoas com trombocitopenia e ___ pessoas com trombocitose. Pode-se dizer que o histogramaé ___" 1, 2, assimétrico 4, 5, assimétrico 3, 2, simétrico 1, 2, simétrico 4, 5, simétrico Pergunta 10 0 em 0,08 pontos O arroz é um dos alimentos mais importantes da humanidade. Há diversas espécies de arroz, cujos grãos são classificados em cinco tipos (numerados de 1 a 5), de acordo com sua qualidade. Uma rede de supermercados tem, em seu dataset, informações sobre as diferentes marcas, tipos e espécies de arroz à venda. Segue um extrato desse dataset: Em relação às alternativas a seguir sobre as variáveis, assinale opção incorreta: "Tipo" é uma variável quantitativa "Espécie" é uma variável categórica "Lucro" é uma variável quantitativa que pode ser calculada a partir de outras variáveis quantitativas Valor (kg) é uma variável quantitativa É possível fazer um histograma com os valores da variável "Lucro" ____________________________________________________________________________ AS II – DISTRIBUIÇÕES NORMAIS Pergunta 1 Observe as seguintes curvas de densidades I, II e III. Para cada uma delas, são marcados três pontos A, B e C : Sejam as seguintes interpretações para os pontos A, B e C: Interpretação 1: A e C=modas, B=mediana=média Interpretação 2: A=moda, B=mediana, C=média Interpretação 3: A=mediana, B=média, C=moda Interpretação 4: A=média, B=mediana, C=moda Assinale a alternativa que contém a correta associação de curvas e interpretações dos pontos. Curva I - Interpretação 2 Curva II - Iterpretação 4 Curva III - Interpretação 1 Curva I - Interpretação 2 Curva II - Iterpretação 1 Curva III - Interpretação 4 Curva I - Interpretação 2 Curva II - Iterpretação 1 Curva III - Interpretação 2 Curva I - Interpretação 1 Curva II - Iterpretação 2 Curva III - Interpretação 3 Curva I - Interpretação 4 Curva II - Iterpretação 1 Curva III - Interpretação 2 I -> interpretação 2 A= moda B= mediana C= média II ->interpretação 1 A= B= C= III -> interpretação 4 A= média B= mediana C= moda Pergunta 2 O Rhinella marina, conhecido como sapo-cururu, é um sapo nativo das Américas Central e do Sul. É uma espécie em que as fêmeas podem atingir até quatro vezes o peso dos machos - sabe- se que o peso das machos, em gramas, segue uma distribuição Normal N (412; 32). Usando a regra 68-95-99,7, pode-se dizer que a faixa de peso que cobre quase toda a população (99,7%) dos machos de sapos-cururu fica em que intervalo? 316g a 508g 348g a 476g Todos os machos sempre pesarão 412g 380g a 444g 32g a 412g N(412; 32) 316 348 380 u=412 444 476 508 u-3desvio = 412 - 3(32)= 316 u+3desvio = 412 + 3(32)= 508 Pergunta 2 Entre 2013 e 2018, as músicas que faziam parte da lista Billboard das 100 mais tocadas seguiam uma distribuição Normal N (230; 30) em segundos (o que significa que, em média, uma música dura 230s = 3min50s, com um desvio-padrão de 30 segundos). Seguindo essa distribuição Normal, usando a regra 68-95-99,7, qual o percentual de músicas que tinham duração maior do que 4min50s (290s)? 95% 5% 2,5% 34% 32% N(230; 30) z=(x-u)/desvio= (290-230)/30= 2 na tabela z=2= 0,97725= 97,25% dos valores são menores que o valor da observação, ou seja, apenas 2,5% das músicas possuem tempo superior à média. 140 170 200 u=230 260 290 320 u-2desvio = 230 -2(30)= 170 u+2desvio = 230 +2(30)= 290 valor obervado x=290s ->2º desvio-padrão = 95%, dessa forma restam 5%, sendo que 2,5% está à direita do gráfico (entre 2desvio e 3desvio) e 2,5% está à esquerda do gráfico (entre -3desvio e -2desvio). Pergunta 4 Considere que a nota média de redação do ENEM (Exame Nacional do Ensino Médio) vem seguindo uma distribuição normal N (523; 177). Sabe-se que em 2018 5,5 milhões de alunos participaram do ENEM, Partindo destas informações, use a regra 68-95-99,7, assinale a alternativa correta quanto à estimativa do número de alunos que tiraram mais do que 700 na redação. Mais da metade Não é possível estimar Menos de 500 mil Menos de 1 milhão Ao redor de 3,5 milhões N(523;177) -8 169 346 u=523 700 877 1.054 z=(x-u)/desvio= (700-523)/177= 1 consultando na tabela z=1= 0,84134= 84,13% dos valores são menores que o valor da observação, ou seja, apenas 15,87% dos alunos tiraram nota superior à média. 15,87% de 5,5milhoes= 872.630 alunos Pergunta 5 A relação entre euros (€) e dólares ($) vem seguindo, entre 2015 e 2019, uma distribuição Normal N (1,11; 0,04) - ou seja, €1 = $ 1,11, na média, com um desvio padrão de $0,04. Usando a tabela de escore Z fornecida no material de apoio, qual a probabilidade da cotação do € igualar ou ser menor que a do dólar, ou seja €1 < $1? 29,8% 75% Menor que 0,3% Impossível 2,98% N(1,11 ; 0,04) 0,99 01,03 1,07 u=1,11 1,15 1,19 1,23 se x=1 z=(x-u)/desvio= (1-1,11)/0,04= -2,75 consultando na tabela z=-2,75 = 0,00298 = 0,298% dos valores são menores que o valor da observação. Pergunta 6 O abacaxi da região de Marataízes-ES é considerado um dos melhores do mundo. Sua plantação na região beneficia-se do clima quente e úmido para frutos de excelente qualidade. Entretanto, em relação à variabilidade do peso das frutas, ela é bastante alta: o desvio-padrão é de 1,2 kg em uma distribuição considerada Normal, com média de 1,4kg. Porém, para um abacaxi ser considerado de tamanho grande, seu peso mínimo deve ser de 3kg. Usando a tabela do escore z, assinale a alternativa que melhor representa a quantidade de abacaxis grandes em um caminhão de 2000 frutos selecionados aleatoriamente. Ao redor de 1820 abacaxis Entre 2400 e 4000 abacaxis Por volta de 180 abacaxis Mais que 1000 abacaxis Menos de 18 abacaxis N(1,4; 1,2) 0,2 u=1,4 2,6 3,8 5,0 se x=3 z=(x-u)/desvio= (3-1,4)/1,2= 1,33 consultano na tabela z=1,33 = 0,90824 = 90,82% dos abacaxis são menores que o valor da observaçãoo (3kg), ou seja, apenas 9,18% dos abacaxis são superiores a 3kg. 9,18% de 2000 = 183,6 abacaxis Pergunta 7 A venda de camarões é parte integrante da economia de muitas cidades costeiras do Brasil, como Florianópolis-SC e Natal-RN, por exemplo. No mercado nacional, para um camarão ser considerado médio, ele deve pesar de 11g a 16g. Abaixo desse intervalo, é considerado pequeno; acima disso, é classificados como grande ou premium. Em Florianópolis, os camarões que são coletados da natureza (e não em criadouros) seguem uma distribuição Normal N (8,5; 3,2). Considerando esta informação, em uma coleta aleatória de 500kg de camarão na natureza, qual a quantidade de camarão que provavelmente será selecionado como de tamanho médio? Um pouco mais de 100kg Um pouco menos que 400kg 495kg 5kg Entre 50kg e 60kg N(8,5; 3,2) -1,1 2,1 5,3 u=8,5 11,7 14,9 18,1 se x=11 z=(x-u)/desvio= (11-8,5)/3,2= 0,78 consultando a tabela z=0,78 =0,7823 = 78,23% dos camarões são menores que 11cm, ou seja, 21,77% são acima. se x=16 z=(x-u)/desvio= (16-8,5)/3,2= 2,34 consultando a tabela z=2,34 = 0,9903 = 99,03% dos camarões são menores que 16cm. conclusão: calculando o espaço entre x=11 e x=16, temos que 78,23% dos camarões são menores que 11cm e 99,03% são menores que 16cm, ou seja, apenas 20,8% estão neste intervalo. 20,8% de 500kg = 104kg Pergunta 8 Analisando o histórico das mulheres inscritas para concursos de Miss Universo, percebe-se que a altura das candidatas segue uma distribuição Normal N (175; 5,5) - em centímetros. Use a tabela de escore z e indique a alternativa que tem o valor mais próxima da menor altura para que a candidata esteja entre as 10% mais altas. 1,80m 1,90m 1,69m 1,75m 1,82m N(175; 5,5) u=175 180,5 186 191,5 consultandoa tabela, temos z=1,29=0,9014 para despadronizar (calcular x), temos: x= z*desvio + média = 1,29(5,5) + 175 = 182cm Pergunta 9 Em um processo seletivo para as Olimpíadas de Tóquio em 2020, o Comitê Olímpico Brasileiro fez uma seleção prévia para nadadores de diversos clubes do país para disputarem bolsas para treinamento. Para fazer a seleção, utilizou-se o tempo para cumprir uma prova de 100 metros medley. O Comitê optou por estabelecer uma regra e ficar apenas com os atletas que estiverem entre os 30% com os melhores tempos (no caso, quanto menor, melhor). Descobriu-se que os tempos dos atletas nesta prova seguiu uma distribuição Normal N(57,2;4,6), em segundos. Assinale a alternativa com o tempo máximo admitido para estar entre os selecionados? 61,8s 17,1s 54,8s 52,6 57,2s n(57,2; 4,6) 43,4 48 52,6 u=57,2 consultanto a tabela, temos z=-0,52=0,3015 para despadronizar (calcular x), temos: x= z*desvio + média = -0,52*4,6 + 57,2= 54,81s Pergunta 10 Diz-se que uma distribuição Normal N(0; 1) é a distribuição normal padrão. Ou seja, quando um valor de uma variável aleatória x distribuída normalmente é transformado em um escore z, a distribuição de z será uma distribuição normal padrão. Assinale a alternativa incorreta a respeito dessa distribuição (use a tabela de escore z) Se z1 é o valor padronizado de x1 e z2 é o valor padronizado de x2, a área sobre a curva normal padrão entre z1 e z2 é diferente da área sobre a curva normal entre x1 e x2. A área acumulada é próxima de 0 para escores z próximos a z=-3,49 A área acumulada aumenta conforme os escores z aumentam A área acumulada para z=0 é 0,5 A área acumulada é próxima a 1 para escores-z próximos a z=3,49 AS III – DIAGRAMAS DE DISPERSÃO PERGUNTA 1 1. Associe os números com os termos de maneira que a seguinte oração tenha sentido: Os __(1)__ são representações visuais que geralmente involvem duas (ou mais) variáveis, onde se busca visualizar a existência ou não de uma __(2)__ entre elas. Utiliza __(3)__ para exibir valores de um __(4)__. Os dados são exibidos como uma coleção de __(5)__. PRIM EIR A R ESPOST A – ERR AD A - 0 PO NTOS SEGUND A RESPOST A MARQUEI : 1- VI , 2- IV, 3 - I I , 4 - I E 5 - VI I PERGUNT A 2 Fonte: Wikimedia Commons - Licença CC Deseja-se analisar a influência do fator pH da água do mar em relação à quantidade de peixes da espécie Labidochromis caeruleus. O que pode ser dito sobre essa observação? O pH da água seria a variável resposta e a quantidade de peixes da espécie Labidochromis caeruleus seria a variável explicativa. O pH da água seria a variável explicativa e a quantidade de peixes da espécie Labidochromis caeruleus seria a variável resposta. Nesta observação, tanto o pH da água quanto a quantidade de peixes são variáveis dependentes. Nesta observação, tanto o pH da água quanto a quantidade de peixes são variáveis dependentes. Uma coisa não explica a outra. 0,08 pontos PERGUNTA 3 Fonte: Pixabay - Licença CC Como na maioria das aves de rapina, as águias douradas são caracterizadas pelas fêmeas maiores que os machos. Elas geralmente chegam a atingir valores próximos de 2,3 metros de envergadura (distância entre as asas) e um peso de cinco a sete quilos. Por outro lado, os machos dificilmente ultrapassam dois metros de extensão e cinco quilos de peso. Na natureza, a população de fêmeas é tão numerosa quanto a de machos; é uma espécie com muito poucos casos de dimorfismo sexual (hermafroditas). Assinale a opção de gráfico de dispersão que melhor representaria uma amostra aleatória de 20 águias douradas. ERRADA Peso x envergadura Peso x envergadura Peso x envergadura ERRADA também Peso x envergadura Peso x envergadura PERGUNTA 4 Fonte: Wikimedia Commons - Licença CC Old Faithful é um gêiser localizado no Parque Nacional de Yellowstone, em Wyoming, nos Estados Unidos. O tempo de espera entre erupções e a duração da erupção desse gêiser é mostrado pelo gráfico de dispersão a seguir. Observe a seguir as seguintes afirmativas: I. Existem dois aglomerados (clusters). II. As variáveis mantêm uma associação negativa entre elas. III. Quanto mais tempo a erupção demora para ocorrer, maior a sua duração. IV. Geralmente há dois tipos de erupções: as de curta e espera e curta duração e as de longa espera e longa duração. Assinale a alternativa que contém todas as afirmativas que são corretas, e apenas elas. I, IV I, II, IV II, III, IV I, III, IV I, III. 0,08 pontos PERGUNTA 5 1. Planejar os estudos é um dos passos mais importantes na sua caminhada para conquistar uma formação. Mesmo com o conteúdo do curso à disposição, é importante tirar algumas horinhas do dia para dar aquela revisada e fixar melhor os tópicos das disciplinas. Mas quantas horas de estudo dedicar por semana? Não há estudos científicos conclusivos que nos permitam associar diretamente a quantidade de horas de estudo com as notas obtidas. Entretanto, analise o gráfico de dispersão a seguir, relacionando horas de estudo semanal e a média final em uma disciplina. Os dados são referentes a uma amostra aleatória de 13 alunos de um mesmo curso da Cruzeiro do Sul Educacional, que responderam a um breve questionário sobre hábitos de estudo: Sobre este gráfico, algumas afirmações são apresentadas: I. Há três clusters no gráfico II. Existe uma associação positiva entre horas de estudo semanais e média final III. É impossível ficar com média 10 estudando menos de 12 horas por semana IV. É impossível que uma pessoa que estude 18 horas por semana fique com média 0 Assinale a aletrnativa que contém todas as afirmações verdadeiras, e apenas elas. I e II III e IV Todas estão corretas Apenas II II, III e IV 0,08 pontos PERGUNTA 6 Fonte: Pixabay - Licença CC Há bastante tempo se estuda a relação entre hipertensão e riscos de eventos cardiovasculares em adultos (como infarto e angina, por exemplo). Há alguns apps que ajudam a calcular este risco; para realizar o cálculo, o profissional de saúde precisa fornecer informações do paciente relativas à idade, sexo, pressão sistólica e diastólica, colesterol total, colesterol HDL, uso de medicações anti-hipertensivas, tabagismo e diabetes. A partir destes dados o aplicativo classifica o indivíduo em três possíveis categorias: categorias risco baixo (inferior a 10%), risco intermediário (entre 10% e 20%) e risco alto (acima de 20%). A sístole é a fase de contração do coração, onde o sangue é bombeado para os vasos sanguíneos, já a diástole é a fase de relaxamento, fazendo com que o sangue entre no coração. Em um adulto normal, a média da pressão sistólica é de 120 milímetros de mercúrio (mmHg), enquanto a diastólica é de 80 mmHg. Um cardiologista utilizou um desses apps com uma amostra aleatória de 50 homens adultos (entre 25 e 45 anos) e, ao tentar associar a variável de pressão diastólica com o risco de eventos cardiovasculares, obteve o seguinte gráfico de dispersão: Sobre isto, faz-se um conjunto de afirmativas: I. Há uma associação positiva entre as duas variáveis II. Existem três aglomerados (clusters) no gráfico III. Não há associação entre as variáveis Assinale a alternativa que contém todas as afirmativas corretas, e apenas essas. II e III II I III I e II 0,08 pontos PERGUNTA 7 1. Assinale a alternativa que contém os termos que completam, respectivamente, a frase para que ela esteja correta: "Duas variáveis são ______ quando valores acima da média de uma tendem a acompanhar valores acima da média da outra, e valores abaixo da média também tendem a ocorrer juntos. Duas variáveis são ______ quandovalores acima da média de uma tendem a acompanhar valores abaixo da média da outra, e vice-versa." normais, normais associadas negativamente, associadas positivamente z, escore z associadas positivamente, associadas negativamente aleatórias, pseudo-aleatórias 0,08 pontos PERGUNTA 8 Fonte: Pixabay - Licença CC Foi realizado um levantamento com um conjunto de indivíduos possuidores de habilitação para dirigir carros. Quis-se verificar se havia alguma associação entre o tempo (em anos) que a pessoa possui habilitação e a quantidade de pontos (atualmente vigentes) relacionados a infrações de trânsito. A partir de uma amostra aleatória da população observada, obteve-se o seguinte gráfico de dispersão: Assinale a alternativa correta a respeito desse caso. Não é possível fazer nenhuma afirmação a respeito dessas variáveis, pois não são variáveis categóricas. As duas variáveis têm uma associação negativa, ou seja, quanto mais tempo de habilitação, menor o número de pontos atuais resultantes de infrações. As duas variáveis têm uma associação positiva, ou seja, quanto mais tempo de habilitação, maior o número de pontos atuais resultantes de infrações. Não há associação entre essas duas variáveis. As duas variáveis têm relação constante, ou seja, independente do tempo de habilitação, o número de pontos atuais resultantes de infrações é sempre o mesmo. 0,08 pontos PERGUNTA 9 1. Fonte: FDA - Licença CC A baixa umidade relativa do ar (media em %), comum em algumas regiões do mundo, é muitas vezes associada com problemas respiratórios. Uma pequena clínica especializada em problemas respiratórios em Cuiabá-MT, fez uma análise, acompanhando a umidade relativa do ar durante um período com muitas mudanças climáticas, com o númro de atendimentos realizados na clínica. Após dezenove dias de observação, o gráfico de dispersão relacionando as duas variáveis pode ser visto a seguir: Considerando este gráfico, assinale a alternativa que contém o dataset que mais se aproxima do mesmo comportamento. CORRETA - INICIA COM 30 Umidade do ar 30 61 31 50 24 34 60 54 51 68 56 64 27 18 19 48 69 22 29 Atendimentos 44 15 44 30 51 43 16 20 28 6 20 14 50 58 60 31 6 54 48 Umidade do ar 29 67 32 48 70 63 50 54 49 70 66 27 39 37 29 48 57 59 62 Atendimentos 36 75 42 56 74 71 57 59 55 75 75 37 46 46 37 54 64 66 70 Umidade do ar 58 62 67 35 40 64 39 64 44 29 42 44 39 60 20 62 37 36 68 Atendimentos 27 24 24 33 33 40 25 31 29 28 32 38 34 40 40 40 20 23 39 Umidade do ar 53 41 65 57 29 39 26 34 57 34 52 41 49 18 44 39 46 38 30 Atendimentos 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 Umidade do ar 49 49 49 49 49 49 49 49 49 49 49 49 49 49 49 49 49 49 49 Atendimentos 15 40 39 37 25 25 20 25 40 32 20 32 33 28 40 37 24 36 37 0,08 pontos PERGUNTA 10 1. Assinale a alternativa que contém uma afirmação incorreta: Se um diagrama de dispersão traz à tona duas variáveis, é porque uma é causa única da outra; nenhuma outra variável necessita ser considerada. É sempre prudente se perguntar quais outras variáveis ocultas podem contribuir para a relação apresentada em um diagrama de dispersão Duas variáveis podem ser associadas positivamente ou negativamente. Associação e relação são frequentemente tratadas como sinônimos na área de Análise de Dados. Um diagrama de dispersão, em geral, mostra a relação entre duas variáveis quantitativas ____________________________________________________________________ AS IV – CORRELAÇÃO PERGUNTA 1 1. Sobre o cálculo da correlação r, assinale a alternativa incorreta: 0<r<1 quando há uma associação positiva entre as variáveis x e y. No cálculo de r, não há distinção entre variável explicativa e variável resposta Quando r=0, diz-se que é há uma associação infinitamente forte entre as variáveis x e y. -1<r<0 quando há uma associação negativa entre as variáveis x e y. O valor de r é calculado levando-se em consideração o desvio-padrão. 0,08 pontos PERGUNTA 2 1. Fonte: Pixabay - Licença CC O comércio de diamantes do mundo tem uma série de especificidades e também muitas polêmicas, já que muito de sua exploração envolve relações violentas entre exploradores, contrabandistas e comunidades explroadas, em especial na África. A beleza, e o valor, do diamante nascem de 4 fatores: a sua cor, claridade, tamanho (e peso) e lapidação. São os famosos “4 Cs” da indústria diamantífera: em inglês: color, clarity, carat e cut. O dataset Diamonds.xls contém os seguintes dados de 308 diamantes: IDNO WEIGHT COLOR CLARITY RATER PRICE IDNO: número identificador do diamante WEIGHT: peso (quilates; 1 quilate = 200mg) COLOR: cor do diamante (escala alfabética, de D a Z) CLARITY: claridade (há 11 categorias de claridade, indicadas por siglas) RATER: organização certificadora de autenticidade (há três: GIA, IGI e HRD) PRICE: preço (em dólares norte-americanos) Sobre este dataset, são feitas as seguintes afirmações: VII. Existe uma correlação forte positiva (r maior que 0,9) entre as variáveis WEIGHT e PRICE VIII. Não há correlação entre as variáveis WEIGHT e PRICE IX. Existe uma corretação fraca negativa (r entre -0,5 e -0,1) entre as variáveis WEIGHT e PRICE X. É possível calcular a correlação entre COLOR e PRICE, sem fazer qualquer alteração nas variáveis Assinale a alternativa que contenha todas as afirmações verdadeiras, e apenas elas. https://bb.cruzeirodosulvirtual.com.br/bbcswebdav/pid-9876810-dt-content-rid-85793863_1/xid-85793863_1 Fonte do dataset: Journal of Statistics Education Apenas I Apenas II I e IV II e IV III e IV 0,08 pontos PERGUNTA 3 1. Fonte: Wikimedia Commons - Licença CC As queimadas são um problema global, que podem afetar populações inteiras, inclusive alterando fatores climáticos importantes no mundo. Analise o dataset forestfires.csv , que é um conjunto de dados que contém fatores que podem levar a incêndios florestais no nordeste de Portugal. O dataset inclui fatores climáticos e variáveis categóricas, como dias da semana. Contém 13 variáveis e 517 observações diárias. Para este exercício, porém, considere apenas as variáveis wind (velocidade do vento em km/h), temp (temperatura em Celsius) e area (área, em km2, afetada pela queimada). O formato .csv é um formato de representação de dados em texto bastante popular na área de Ciência de Dados. Todas as planilhas de cálculo têm mecanismos para importar arquivos csv. Para o Excel, por exemplo, veja neste link. Sobre este dataset, analise as seguintes afirmativas: A correlação entre wind e area é muito próxima de 0, podendo ser dito que praticamente não há correlação A correlação entre temp e area é fraca, positiva A correlação entre temp e wind é fraca, negativa Assinale a alternativa que contém todas as afirmativas corretas, e apenas elas. Fonte do dataset: [Cortez and Morais, 2007] P. Cortez and A. Morais. A Data Mining Approach to Predict Forest Fires using Meteorological Data. In J. Neves, M. F. Santos and J. Machado Eds., New Trends in Artificial Intelligence, Proceedings of the 13th EPIA 2007 - Portuguese Conference on Artificial Intelligence, December, Guimarães, Portugal, pp. 512-523, 2007. APPIA, ISBN- 13 978-989-95618-0-9. Todas estão corretas – CERTA Apenas a I https://bb.cruzeirodosulvirtual.com.br/bbcswebdav/pid-9876810-dt-content-rid-85817096_1/xid-85817096_1 https://support.office.com/pt-br/article/importar-ou-exportar-arquivos-de-texto-txt-ou-csv-5250ac4c-663c-47ce-937b-339e391393ba Nenhuma está correta II e III ERRADA Apenas a III 0,08 pontos PERGUNTA 4 1. Sobre o Quarteto de Anscombe, o que não pode ser dito? A correlação entre x e y dos quatrodatasets é aproximadamente igual Há outliers em alguns dos datasets. Trata-se de um conjunto de quatro datasets distintos com mesma média e variância. ERRADA Trata-se de um conjunto de quatro datasets com os indivíduos idênticos entre si, mas com valores estatísticos, como média e variância, completamente diferentes. ERRADA Mostra a importância da visualização de dados no processo da análise exploratória de dados 0,08 pontos PERGUNTA 5 1. Fonte: Maxpixel - Licença CC O consumo de cereais matutinos vem aumentando bastante no Brasil. Como a faixa de maior crescimento de consumo deste alimento está entre crianças e adolescentes, é necessário que os pais acompanhem sua alimentação e verifiquem os valores nutricionais de cada marca. O dataset cereal.csv contém dados nutricionais de 77 cereais. Analisando este dataset, têm-se as seguintes afirmativas: I. Há uma correlação positiva entre fat (gordura) e calorias que não pode ser considerada forte; entretanto, é maior do que a correlação entre fat e sodium II. A correlação entre sodium e potass é muito baixa, praticamente nula III. A correlação entre calories e protein é positiva e forte Assinale a alterantiva que contém todas as afirmativas corretas, e apenas estas. I e II – CERTA II e III I e III Todas estão corretas Apenas II ERRADA https://bb.cruzeirodosulvirtual.com.br/bbcswebdav/pid-9876810-dt-content-rid-86160527_1/xid-86160527_1 0,08 pontos PERGUNTA 6 1. Fonte: Needpix - Licença CC É sabido que o tempo de sono pode impactar na qualidade de vida das pessoas. Em um levantamento feito pela Eurostat em 14 países da Europa (veja dataset TimeUse.csv ) a respeito do tempo gasto por homens (males) e mulheres (females) em atividades diárias mostra que a atividade que leva mais tempo para as pessoas é dormir (sleep), embora haja diferenças no tempo total de sono entre países. O que pode ser dito em quanto à corelação do tempo de sono entre homens e mulheres, por país? Negativa e fraca Não há correlação Negativa e forte Positiva e forte Positiva e fraca 0,08 pontos PERGUNTA 7 1. O que não pode ser dito a respeito do cálculo da correlação? A correlação requer que ambas as variáveis sejam quantitativas, para que os cálculos da fórmula de r façam sentido A correlação varia de acordo com a unidade de medida das observações. Por exemplo, para cálculo de correlação entre a altura e a massa corporal de um conjunto de pessoas, o valor de r para alturas em centímetros e massa em quilogramas é diferente do valor de r para alturas em polegadas e massa em libras. Correlação não implica em causalidade. O cálculo da correlação não faz distinção entre variável explicativa e variável resposta. Não é possível, no cálculo da correlação, ter valores para r<-1 ou r>1. 0,08 pontos PERGUNTA 8 1. O dataset cars.csv contém informações a respeito de mais de 400 carros, entre elas: MPG (Milhas por Galão, medida de gasto de combustível)Displacement (Velocidade máxima - milhas por hora)Horsepower (Cavalos-vapor)Weight (Peso em libras)Acceleration (Tempo gasto para sair de 0 m/h a 100 m/h) Observe as afirmativas a seguir. https://bb.cruzeirodosulvirtual.com.br/bbcswebdav/pid-9876810-dt-content-rid-86160078_1/xid-86160078_1 https://bb.cruzeirodosulvirtual.com.br/bbcswebdav/pid-9876810-dt-content-rid-86173626_1/xid-86173626_1 I. Em relação à variável Horsepower, as variáveis Displacement e Weight mantêm uma correlação positiva. II. Em relação à variável Horsepower, as variáveis MPG e Acceleration têm uma correlação negativa III. Quanto maior o valor de Displacement, maior o valor de MPG IV. Não há nenhuma correlação entre nenhuma dessas cinco variávies Asinale a alternativa que contém todas as afirmativas corretas e apenas essas. II e III - ERRADA Somente IV Somente III – ERRADA I e II Somente I ERRADA 0,08 pontos PERGUNTA 9 1. Sejam duas variávies em uma distribuição, x e y. Se dissemos que x e y mantêm uma correlação positiva forte, isso significa que: Quanto menor o valor de x, maior o de y Quanto menor o valor de x, menor o de y x e y variam livremente e não há nenhuma relação entre seus valores O valor de y sempre será constante, independente do valor de x Quanto maior o valor de x, menor o de y 0,08 pontos PERGUNTA 10 1. O que pode ser dito sobre uma correlação negativa forte? Ocorre apenas quando as variáveis da distribuição assumem valores positivos. Quando uma das variáveis cresce, a outra cresce tamém Quando uma das variáveis cresce, a outra decresce Ocorre apenas quando as variáveis da distribuição assumem valores negativos. Só ocorre quando o valor das variâncias de ambas as variáveis é negativo. AS IV – REGRESSÃO PERGUNTA 1 Assinale a alternativa que não diz respeito à reta de regressão de mínimos quadrados: - O ponto das médias (xm,ym) pertence à reta. - Se a reta tem coeficiente linear a, isso indica que a reta cruza o eixo y no ponto (0,a) - Se a correlação entre as variáveis é positiva, o coeficiente angular terá sempre sinal positivo. - A reta sempre passa por todos os pontos da distribuição. - A inclinação é fortemente dependente de três valores: r, sx e sy. PERGUNTA 2 Assinale a alternativa que melhor explana o Método dos Mínimos Quadrados - Estabelece uma região quadrada ao torno de cada um os pontos previstos, fazendo com que a área de todos os quadrados seja sempre a mínima, equivalente a sy/sx. - Por não fazer distinção entre variável explicativa e variável resposta, faz com que os pontos que estão acima da reta tenham todos um equivalente abaixo da reta, de forma que os quadrados da distância de cada ponto previsto, somados, cheguem a zero, pois se anulam. - O método reduz os resíduos a zero, ao minimizar o quadrado da distância entre os pontos previstos e a reta de regressão. - Faz com que o erro total da previsão feita pela reta de regressão seja sempre o quadrado da soma dos erros de cada indivíduo. - O método tenta minimizar o quadrado da distância, na vertical, entre os pontos observados e a reta resultante. PERGUNTA 3 Assinale a alternativa que não está relacionada às razões pelas quais devemos usar regressão. - Quando é possível calcular a correlação entre uma variável resposta e uma variável explicativa - Quando se quer uma linha reta que descreve a mudança de uma variável resposta de acordo com aforma que uma variável explicativa muda - Quando queremos prever aproximadamente o valor de uma variável resposta de acordo com o valor de uma variável explicativa - Quando as variáveis resposta e explicativa são categóricas e queremos forçar uma aproximação entre elas. - Quando acreditamos que a relação entre a variável resposta e variável explicativa é linear PERGUNTA 5 Uma empresa de venda de fast-food online identificou que a quantidade de vendas por mês é diretamente proporcional aos investimentos que fazem em Marketing Digital. Uma análise da série histórica mostrou que as vendas têm o seguinte comportamento por mês: Vendas = 3,5*Investimento_MKT + 50500 Onde Vendas indica o volume vendido, por mês, em R$ e Investimento_MKT, o valor investido em Mareting digital, por mês. Algumas afirmativas são feitas a respeito dessa situação: I - Investir em Marketing Digital significa mais que triplicar o volume das vendas II - Mesmo quando não há investimento de Marketing Digital, o volume de vendas é maior que R$ 50 mil III - O retorno do investimento em Marketing Digital é mais que o triplo do valor investido. IV - O investimento em Marketing Digital não tem impacto nas vendas Assinale a alternativa que contém todas as afirmativas corretas, e apenas elas. Apenas IV I, II e III Apenas III II e IIII e II PERGUNTA 6 Uma amostra aleatória de 250 estudantes, retirada do Censo Escolar dos EUA (http://ww2.amstat.org) revela hábitos dos alunos em relação a vários aspectos do cotidiano. Essa amostra pode ser consultada no seguinte dataset: sampleData.csv . Analisando a relação entre as variáveis "Mensagens enviadas ontem" (Text_Messages_Sent_Yesterday) e "Mensagens recebidas ontem" (Text_Messages_Received_Yesterday), tentou-se estabelecer uma reta de regressão, considerando as mensagens recebidas como variável resposta (y) e as mensagens enviadas como variável explicativa (x). Qual a equação da reta de regressão? Observação: é importante fazer uma limpeza no dataset. Nas colunas indicadas, o valor idk ("I dont't know"- Eu não sei) deve ser substituído por zero, assim como os campos sem resposta. A indicação de valores usando o símbolo + deve levar em consideração apenas os numerais (por exemplo, 80+ deve ser considerado 80). ŷ = 1,03x + 47,7 ŷ = 150x + 450 Não é possível estabelecer uma reta de regressão para este caso, pois não há correlação ŷ = 3x - 1,5 ŷ = 47,7x + 1,03 PERGUNTA 7 De origem asiática, as primeiras sementes de mangueiras chegaram ao Brasil trazidas pelos portugueses, e rapidamente se adaptaram ao nosso solo e clima. Hoje, há várias espécies de mangas plantadas em território brasileiro. Uma empresa especializada em colheita e processamento de mangas do tipo manga-rosa fez uma análise das mangas colhidas nos últimos 5 anos e chegou aos seguintes dados para cada manga: Em relação à massa ("peso"): o média = 320,5g o desvio-padrão = 18,2 Em relação ao comprimento longitudinal: o média: 11,5cm o desvio-padrão = 1,1 Foi encontrado que existe uma correlação entre essas duas variáveis com valor r=0,92. Entre as mangas analisadas, havia uma que chamou a atenção pelo comprimento longitudinal, pois media exatos 16cm. Assim sendo, considerando uma reta de regressão calculada pelo Método dos Mínimos Quadrados, sendo massa a variável resposta e comprimento a variável explicativa, assinale a alternativa que melhor descreve quanto pesaria essa manga. Próximo de 390g Mais que 400g https://bb.cruzeirodosulvirtual.com.br/bbcswebdav/pid-9876814-dt-content-rid-86407942_1/xid-86407942_1 Próximo de 320g Próximo a 145g Mais que meio quilo PERGUNTA 8 Sabe-se que bebês têm atração por elementos coloridos, porém uma questão de pesquisa é: existe um limite para a quantidade de cores, a partir do qual as corres poderiam irritar, ao invés de atrair, os bebês ? Para isso, pesquisadores coletaram dados de 185 bebês de 2 anos, que foram expostos a uma breve animação contendo imagens cuja quantidade de cores variava de maneira crescente. Foi medido o grau de atenção dos bebês e a partir de quanto tempo (em minutos) eles se mostravam entediados ou se distraíam com outras coisas do ambiente. Os dados foram usados para montar uma reta de regressão usando o Método dos Mínimos Quadrados, que tem inclinação de 0,125 e intercepto de 4,5. A partir de quantas cores da animação a atenção dos bebês em relação à animação se limita a meio minuto? 32 cores 16 cores 8 cores 1024 cores 1 milhão de cores PERGUNTA 9 1. Quando criamos um diagrama de dispersão com uma reta de regressão, muitas vezes é necessário fazer ajustes na escala do gráfico, bem como nos pontos de início e fim de cada eixo. As seguintes afirmativas apresentam justificativas para esses ajustes: I. Porque dados reais, em geral, são concentrados em um intervalo específico. II. Porque muitos valores da reta de regressão dos mínimos quadrados não fazem sentido no mundo real. III. Porque, dependendo da escala adotada, a visualização dos pontos da distribuição pode ficar comprometida. Assinale a alterativa que contém todas as afirmativas corretas, e apenas essas. Apenas III II e III I e III Todas estão corretas I e II PERGUNTA 10 Apesar do crescimento do uso de serviços de streaming online para consumir músicas, o rádio ainda tem um papel bastante importante neste mercado. Uma importante consultoria na área digital identificou os seguintes padrões de comportamento entre os 100 artistas ou grupos mais populares no Brasil: Quanto mais minutos as músicas de um artista/grupo tocam na rádio, mais acessos mensais suas músicas têm nos serviços online. Uma reta de regressão, calculada pelo Método dos Mínimos Quadrados, para a relação ebtre essas duas variáveis, tem como inclinação o valor de 2534 Essa mesma reta indica que, se não houver nenhuma exposição de um dado artista ou grupo na rádio durante um mês, o número de acessos online fica igual a 8.500.100 Seguindo esta reta de regressão, quantos acessos online teria um artista ou grupo desse universo estudado que tivesse uma hora de música nas rádios por dia, em um mês de 30 dias? Entre 9 e 10 milhÕes de acessos Não é possível saber Menos de 9 milhões de acessos Mais de 13 milhões de acessos Mais de 20 milhões de acessos
Compartilhar