Buscar

Atividade 4 - Introdução a Programação em Big Data

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

· Pergunta 1
1 em 1 pontos
	
	
	
	O cientista de dados da empresa fictícia EAD Corp S/A está realizando uma análise dos dados de alunos de uma escola. Ele observou que existe uma correlação muito alta entre os resultados dos testes de matemática e a quantidade de exercício físico realizado por um aluno no dia do teste. Considerando o apresentado, analise as afirmativas a seguir:
 
1. Alta correlação implica que, após o exercício, os resultados dos testes são altos.
2. Correlação não implica em causa.
3. A correlação mede a força do relacionamento linear entre a quantidade de exercícios e as pontuações dos testes.
4. A correlação prova que existe uma relação formal entre o exercício e os resultados dos testes
 
Está correto o que se afirma em:
	
	
	
	
		Resposta Selecionada:
	 
II e III, apenas.
	Resposta Correta:
	 
II e III, apenas.
	Feedback da resposta:
	Resposta correta. A alternativa está correta, pois embora às vezes a causalidade possa ser intuitiva a partir de uma alta correlação, na verdade, a correlação não implica nenhuma inferência causal. Apenas nos diz a força do relacionamento entre as duas variáveis. Se ambas as variáveis se movem juntas, há uma alta correlação entre elas.
	
	
	
· Pergunta 2
1 em 1 pontos
	
	
	
	O estagiário da empresa fictícia EAD Corp S/A está tentando criar uma regressão linear entre os gastos com plano de saúde por família e valores de multas de trânsito nas imediações de um determinado hospital. Ele possui as informações carregadas em 2 vetores, x e y, respectivamente. Assinale a alternativa que mostra o comando em R para criar o modelo de regressão linear:
	
	
	
	
		Resposta Selecionada:
	 
lm(y~x).
	Resposta Correta:
	 
lm(y~x).
	Feedback da resposta:
	Resposta correta. A alternativa está correta, pois a regressão linear é a criação de uma fórmula matemática do tipo y = a + bx, onde y é o valor que deve ser previsto a partir do valor x. Sendo que essa fórmula assemelha-se a de uma reta, os valores “a” e “b” são os coeficientes dessa reta, sendo “a” o ponto de interceptação da reta com o eixo y e “b” inclinação dessa reta. O comando para a criação da regressão linear em R é o comando lm().
	
	
	
· Pergunta 3
0 em 1 pontos
	
	
	
	O cientista de dados da empresa fictícia EAD Corp S/A está analisando o total de furtos no primeiro semestre de 2019 no estado de São Paulo, que foi de 271 mil casos - o que  representa uma média diária de 1500 crimes dessa natureza. Assinale a alternativa que indique qual seria a probabilidade de em um dia ocorra até 1350 crimes:
	
	
	
	
		Resposta Selecionada:
	 
0,9999562%.
	Resposta Correta:
	 
0,0004379296%.
	Feedback da resposta:
	Sua resposta está incorreta. A alternativa está incorreta, pois segundo as características do enunciado do exercício, a distribuição a ser considerada é de Poisson. Além disso, deve-se considerar que o valor a ser calculado é a probabilidade acumulada abaixo da média, portanto, não deve ser utilizado o complemento. O comando em R a ser executado é o ppois(1350, 1500), entretanto, o R apresenta o resultado em valores decimais e deve-se convertê-lo para percentuais.
	
	
	
· Pergunta 4
0 em 1 pontos
	
	
	
	Em uma determinada prova de língua estrangeira, constam doze perguntas de múltipla escolha em um teste de aula de inglês. Cada pergunta tem cinco respostas possíveis e apenas uma delas está correta. O R possui comandos que permitem que cálculos matemáticos sejam realizados para identificar probabilidades. Utilizando  o R, realize os cálculos e assinale a alternativa que indica e qual a probabilidade de ter exatamente quatro respostas corretas se um aluno tentar responder todas as perguntas aleatoriamente:
	
	
	
	
		Resposta Selecionada:
	 
0.007600391.
	Resposta Correta:
	 
0.1328756.
	Feedback da resposta:
	Sua resposta está incorreta. A alternativa está incorreta, pois por se tratar de ter respostas corretas obtidas por tentativas aleatórias, entende-se que a distribuição a ser considerada é a distribuição binomial. Assim, o cálculo da probabilidade de se ter exatamente 4 respostas pode ser obtida pelo R através do comando dbinom(4, size=12, prob=0.2), onde 0.2 é obtido pela divisão de 1 pelo número de alternativas (⅕).
	
	
	
· Pergunta 5
1 em 1 pontos
	
	
	
	Utilizando o dataset mtcars disponível no R, é possível realizar algumas análises sobre veículos e suas características. Ao realizar a análise entre o rendimento dos veículos ( mtcars$mpg ) e o peso dos veículos ( mtcars$wt ), tem-se uma correlação medida atravès do coeficiente de Pearson com valor de -0.8676594. Sobre a correlação apresentada, assinale a alternativa correta:
	
	
	
	
		Resposta Selecionada:
	 
Indica que existe uma forte relação indicando que quanto mais leve o carro, menor será seu consumo.
	Resposta Correta:
	 
Indica que existe uma forte relação indicando que quanto mais leve o carro, menor será seu consumo.
	Feedback da resposta:
	Resposta correta. A alternativa está correta, pois o rendimento de um carro é o inverso do consumo, então, quanto maior o rendimento do carro, menor será o consumo dele. Ao indicar uma relação inversa, a correlação indica que quanto maior o peso do carro, menor será seu rendimento, ou seja, quanto mais pesado o carro é, mais irá consumir.
	
	
	
· Pergunta 6
1 em 1 pontos
	
	
	
	O estagiário da empresa fictícia EAD Corp S/A está trabalhando em uma análise sobre gastos com plano de saúde por família, e valores de multas de trânsito nas imediações de um determinado hospital. A idéia é identificar se existe uma relação entre essas duas variáveis. Ele realizou uma análise e obteve um valor 0,4503. Nesse sentido, assinale a alternativa que indique corretamente qual análise foi realizada e qual conclusão foi obtida, respectivamente:
	
	
	
	
		Resposta Selecionada:
	 
Ele realizou um teste de correlação e concluiu que existe uma indicação de relação moderada entre valor gasto por família em plano de saúde e valores das multas de trânsito.
	Resposta Correta:
	 
Ele realizou um teste de correlação e concluiu que existe uma indicação de relação moderada entre valor gasto por família em plano de saúde e valores das multas de trânsito.
	Feedback da resposta:
	Resposta correta. A alternativa está correta, pois ao analisar as informações de valores gastos em plano de saúde e valores de multas, é possível identificar que essas variáveis são numéricas e contínuas. Sendo assim, a análise a ser utilizada é o teste de correlação, sendo que o valor positivo indica uma relação direta moderada entre as variáveis.
	
	
	
· Pergunta 7
0 em 1 pontos
	
	
	
	Analise o gráfico a seguir:
 
Fonte: Elaborada pelo autor
 
Os modelos de regressão linear são bastante utilizados para diversas finalidades, como previsão de vendas no mercado, identificação de perfis de compra e até mesmo sugestões de produtos. Eles levam em consideração os pontos em 2 dimensões para que seja possível prever, dado um valor x, o valor de y. Sabendo disso, assinale a alternativa que indique qual ponto em negrito, se removido, terá o maior efeito na linha de regressão ajustada, como mostrado na figura (tracejado):
	
	
	
	
		Resposta Selecionada:
	 
Pelas informações fornecidas, conclui-se que é o ponto c.
	Resposta Correta:
	 
Pelas informações fornecidas, conclui-se que é o ponto d.
	Feedback da resposta:
	Sua resposta está incorreta. A alternativa está incorreta, pois o ponto em negrito selecionado encontra-se bastante próximo da linha de regressão. Sendo assim, o impacto da sua remoção será baixo para o modelo de regressão, uma vez que o deslocamento da reta será pouco afetado. Quanto mais afastado da reta de regressão o ponto se encontra, maior o erro do modelo.
	
	
	
· Pergunta 8
1 em 1 pontos
	
	
	
	Após criar o modelo linear usando a função lm(), o estagiário da empresa fictícia EAD Corp S/A precisa utilizar esse modelo para prever valores de gastos com planos de saúde baseado no valores das multas de trânsito. Ele já dispõe de um conjunto de valores de multas de trânsitoocorridas na semana passada. Nesse sentido, assinale a alternativa que indique o comando a ser utilizado para a criar as previsões:
	
	
	
	
		Resposta Selecionada:
	 
predict().
	Resposta Correta:
	 
predict().
	Feedback da resposta:
	Resposta correta. A alternativa está correta, pois a previsão utiliza um modelo de regressão linear para, a partir de um conjunto de dados x, tentar adivinhar os valores de y. Segundo a documentação do R, o comando para a criação de um conjunto de previsões baseadas em regressão linear em R é o comando predict().
	
	
	
· Pergunta 9
1 em 1 pontos
	
	
	
	Após prever os valores baseados no modelo de regressão linear, o estagiário da empresa fictícia EAD Corp S/A necessita criar um gráfico para explicar o modelo criado e as conclusões obtidas dessa análise. Esse gráfico deve conter informações sobre as variáveis e o modelo gerado. Assinale a alternativa que indique qual o tipo de gráfico ele deve criar:
	
	
	
	
		Resposta Selecionada:
	 
Um gráfico de dispersão com uma reta indicando o modelo de regressão.
	Resposta Correta:
	 
Um gráfico de dispersão com uma reta indicando o modelo de regressão.
	Feedback da resposta:
	Resposta correta. A alternativa está correta, pois uma regressão linear tem como característica a identificação do relacionamento entre 2 variáveis. De forma semelhante, o gráfico de dispersão também possui essa característica. Uma vez que o modelo de regressão cria uma fórmula semelhante a uma reta, basta plotar essa reta sob o gráfico de dispersão para representá-lo sob a ótica do mesmo conjunto de dados.
	
	
	
· Pergunta 10
1 em 1 pontos
	
	
	
	Analise o trecho a seguir:
 
Como medida de ___________ entre variáveis, os testes de ____________ são usados ​​em dados ____________ (ou seja, dados que são colocados em classes: por exemplo, sexo [masculino, feminino] e tipo de trabalho [não qualificado, semi-qualificado, qualificado]) para determinar se eles estão associados.
 
Assinale a alternativa que preenche corretamente as lacunas:
	
	
	
	
		Resposta Selecionada:
	 
Associação; qui-quadrado; nominais.
	Resposta Correta:
	 
Associação; qui-quadrado; nominais.
	Feedback da resposta:
	Resposta correta. A alternativa está correta, pois os testes de qui-quadrado são usados em variáveis nominais (como tipos, categorias ou outro valor que represente um grupo). Ele serve para medir a associação entre essas variáveis e sua avaliação é medida através a análise do seu p-valor, que conforme o intervalo de confiança, deve-se aceitar ou rejeitar a hipótese nula.

Continue navegando