Prévia do material em texto
Atividade 4 - INTRODUÇÃO A PROGRAMAÇÃO EM BIG DATA 1. O cientista de dados da empresa fictícia EAD Corp S/A está analisando o total de furtos no primeiro semestre de 2019 no estado de São Paulo, que foi de 271 mil casos - o que representa uma média diária de 1500 crimes dessa natureza. Assinale a alternativa que indique qual seria a probabilidade de em um dia ocorra até 1350 crimes: · 43,79%. · 0,9999562%. · 99,99%. · 0,0004379296%. · 0,000004379296%. Resposta correta. A alternativa está correta, pois por se tratar da probabilidade de ocorrências de um evento discreto independente em um intervalo de tempo, a distribuição a ser considerada é de Poisson. Como o enunciado pede o percentual até 1350 crimes por dia (90% de 1500), a ideia é calcular a probabilidade acumulada usando a função ppois(1350, 1500). 2. O estagiário da empresa fictícia EAD Corp S/A está realizando uma pesquisa a respeito das notas dos clientes sobre os projetos da empresa. Ele obteve acesso a cinco notas (em uma escala variando de 0 a 20) fornecidas pelos clientes a projetos terminados recentemente: (5, 10, 15, 5, 15). Nesse sentido, assinale a alternativa que indique qual seria a soma dos desvios (valor - média) dos pontos de dados individuais em relação à sua média: · -10. · -5. · 0. · 5. · 10. Resposta correta. A alternativa está correta, pois segundo a estatística, a soma dos desvios de todos os elementos de um conjunto será sempre zero. Para comprovar, primeiramente é necessário identificar a média e desvio para cada ponto. Sendo a média igual a 10 e os desvios (-5, 0, 5, -5, 5), ao somar esses valores constatará que o valor é igual a zero. 3. Após criar o modelo linear usando a função lm(), o estagiário da empresa fictícia EAD Corp S/A precisa utilizar esse modelo para prever valores de gastos com planos de saúde baseado no valores das multas de trânsito. Ele já dispõe de um conjunto de valores de multas de trânsito ocorridas na semana passada. Nesse sentido, assinale a alternativa que indique o comando a ser utilizado para a criar as previsões: · summary(). · predict(). · lm(). · print(). · plot().7 Resposta correta. A alternativa está correta, pois a previsão utiliza um modelo de regressão linear para, a partir de um conjunto de dados x, tentar adivinhar os valores de y. Segundo a documentação do R, o comando para a criação de um conjunto de previsões baseadas em regressão linear em R é o comando predict(). 4. Analise o trecho a seguir: Como medida de ___________ entre variáveis, os testes de ____________ são usados em dados ____________ (ou seja, dados que são colocados em classes: por exemplo, sexo [masculino, feminino] e tipo de trabalho [não qualificado, semi-qualificado, qualificado]) para determinar se eles estão associados. Assinale a alternativa que preenche corretamente a · Conjunto; hipótese; nominais. · Associação; hipótese; nominais. · Relacionamento; hipótese; numéricos. · Associação; qui-quadrado; nominais. · Relacionamento; qui-quadrado; numéricos. Resposta correta. A alternativa está correta, pois os testes de qui-quadrado são usados em variáveis nominais (como tipos, categorias ou outro valor que represente um grupo). Ele serve para medir a associação entre essas variáveis e sua avaliação é medida através a análise do seu p-valor, que conforme o intervalo de confiança, deve-se aceitar ou rejeitar a hipótese nula. 5. Após prever os valores baseados no modelo de regressão linear, o estagiário da empresa fictícia EAD Corp S/A necessita criar um gráfico para explicar o modelo criado e as conclusões obtidas dessa análise. Esse gráfico deve conter informações sobre as variáveis e o modelo gerado. Assinale a alternativa que indique qual o tipo de gráfico ele deve criar: · Um gráfico de barras contendo informações das previsões sobre os valores dos planos. · Um histograma que exibe a frequência de multas dividida por faixa de valores. · Um boxplot contendo legendas indicando o modelo de regressão. · Um gráfico de pizza com rótulos descritivos sobre o modelo de regressão. · Um gráfico de dispersão com uma reta indicando o modelo de regressão. Resposta correta. A alternativa está correta, pois uma regressão linear tem como característica a identificação do relacionamento entre 2 variáveis. De forma semelhante, o gráfico de dispersão também possui essa característica. Uma vez que o modelo de regressão cria uma fórmula semelhante a uma reta, basta plotar essa reta sob o gráfico de dispersão para representá-lo sob a ótica do mesmo conjunto de dados. 6. O estagiário e o cientista de dados da empresa fictícia EAD Corp S/A estão trabalhando em conjunto em uma atividade, e devido a ela acabaram discutindo sobre medidas para apresentar média de valores. Ambos apresentaram algumas medidas que julgam serem as mais apropriadas para demonstrar esses tipos de valores. Considerando o apresentado, assinale a alternativa que indique quais das medidas podem ser usadas para apresentar uma média de dados: · Distribuição normal, média e desvio padrão. · Desvio padrão, média e moda. · Média, moda e mediana. · Variância, média e desvio padrão. · Alfa, média e moda. Resposta correta. A alternativa está correta, pois uma vez que a discussão do cientista de dados e do estagiário é sobre medidas que apresentam média de valores, seus argumentos estão referindo à medidas de tendência central. Sendo assim, o cientista de dados e o estagiário estão falando sobre a média, a moda e a mediana. 7. O estagiário da empresa fictícia EAD Corp S/A está trabalhando em uma análise sobre restaurantes, relacionando a quantidade média de estrelas recebidas pelos estabelecimentos nos comentários dos clientes (inteiros variando de 1 a 5), e a existência ou não de cardápio infantil no estabelecimento. Na análise ele obteve um valor 0,001214. Nesse sentido, assinale a alternativa que indique corretamente qual análise ele realizou e qual conclusão deve-se tirar dessa análise, respectivamente: · Qui-quadrado e não deve considerar que existe relação entre as estrelas e a existência de cardápio infantil. · Correlação e não deve considerar que existe relação entre as estrelas e a existência de cardápio infantil. · Correlação e deve considerar que existe relação entre as estrelas e a existência de cardápio infantil. · Correlação e deve considerar que não existe relação entre as estrelas e a existência de cardápio infantil. · Qui-quadrado e deve considerar que não existe relação entre as estrelas e a existência de cardápio infantil. Resposta correta. A alternativa está correta, pois apesar de a média de estrelas ser um número, o enunciado mostra que está sendo tratado como uma categoria. Além disso, a informação da existência ou não de cardápio infantil demonstra outra informação nominal, sendo então utilizada a medida do Qui-quadrado. Como o valor do teste foi um resultado inferior a 0,05, deve-se aceitar a hipótese nula, portanto considera-se que não existe relação entre as variáveis 8. O cientista de dados da empresa fictícia EAD Corp S/A está realizando uma análise dos dados de alunos de uma escola. Ele observou que existe uma correlação muito alta entre os resultados dos testes de matemática e a quantidade de exercício físico realizado por um aluno no dia do teste. Considerando o apresentado, analise as afirmativas a seguir: 1. Alta correlação implica que, após o exercício, os resultados dos testes são altos. 2. Correlação não implica em causa. 3. A correlação mede a força do relacionamento linear entre a quantidade de exercícios e as pontuações dos testes. 4. A correlação prova que existe uma relação formal entre o exercício e os resultados dos testes Está correto o que se afirma em: · I e III, apenas. · II e IV, apenas. · I e II, apenas. · I e IV, apenas. · II e III, apenas. Resposta correta. A alternativa está correta, pois embora às vezes a causalidade possa ser intuitiva a partir de uma alta correlação, na verdade, a correlação não implica nenhuma inferência causal. Apenas nos diz a força do relacionamento entre as duas variáveis.Se ambas as variáveis se movem juntas, há uma alta correlação entre elas. 9. Em uma determinada prova de língua estrangeira, constam doze perguntas de múltipla escolha em um teste de aula de inglês. Cada pergunta tem cinco respostas possíveis e apenas uma delas está correta. O R possui comandos que permitem que cálculos matemáticos sejam realizados para identificar probabilidades. Utilizando o R, realize os cálculos e assinale a alternativa que indica e qual a probabilidade de ter exatamente quatro respostas corretas se um aluno tentar responder todas as perguntas aleatoriamente: · 0.1328756. · 0.9274445. · 0.007600391. · 0.8671244. · 6.220961 x 10 -16 Resposta correta. A alternativa está correta, pois a probabilidade é de 1/5 = 0,2. Podemos encontrar a probabilidade de ter exatamente 4 respostas corretas por tentativas aleatórias (ou seja, de forma binomial), utilizando a função dbinom(4, size=12, prob=0.2) do R. 10. Em estatística, existem diversas medidas e métricas para avaliar informações sobre um determinado conjunto de dados. Dentro do dia-a-dia de um cientista de dados, saber utilizar essas medidas e métricas é considerado um requisito fundamental para realizar uma boa análise de dados. Assim, média, mediana e moda são consideradas medidas de: Considerando o apresentado, analise as afirmativas a seguir: 1 - Medidas de tendência central 2 - Medidas de dispersão 3 - Medidas de associação} 4 - Métodos gráficos| 5 - Métodos de análise de frequência Assinale a alternativa que apresenta a sequência c · F, F, V, F, V · F, F, F, V, F. · F, F, V, F, F. · V, V, F, F, F. · V, F, F, F, F. Resposta correta. A alternativa está correta, pois as medidas de tendência central são a descrição mais básica e, muitas vezes, a mais informativa das características de uma população. Eles descrevem o membro “médio” da população de interesse. No enunciado, o as medidas de média, mediana e moda levam em consideração o posicionamento dentro do grupo, sendo medidas de tendência central