Buscar

INTRODUÇÃO A PROGRAMAÇÃO EM BIG DATA BIGD - Apanhado de questões (A1, A2 A3, A4, N2)

Esta é uma pré-visualização de arquivo. Entre para ver o arquivo original

P: No ambiente da empresa fictícia EAD Corp S/A existe um sistema Big Data que coleta informações de várias fontes de dados diferentes e as disponibiliza para as análises dos cientistas de dados. Um desses dados refere-se a informações sobre o histórico clínico de pessoas atendidas em um hospital, com registros sobre pressão arterial, idade, temperatura na hora do atendimento etc. 
Assinale a alternativa correta com a estrutura de dados em R que melhor se adéqua a carregar todos esses tipos de dados no R: 
R: Data Frame.
P: Dentre as estruturas de dados existentes no R, as matrizes e os data frames se caracterizam por armazenarem informações em duas dimensões (linhas e colunas). Entretanto, do ponto de vista estrutural, existe diferença entre ambas, fazendo com que os dados armazenados no data frame possam ser armazenados na matriz sob uma única condição. 
Assinale a alternativa que corresponde a qual seria essa condição:
R: É necessário que as colunas do data frame sejam do mesmo tipo de dado.
P: O R apresenta diferentes tipos de dados e estruturas de dados que suportam os valores que serão manipulados pela linguagem. Cada estrutura e tipo de dados possuem características que diferenciam das demais. Analise as sentenças a seguir, sobre estruturas de dados R. 
I. Os elementos de um vetor lógico podem ser TRUE, FALSE, VERDADEIRO e FALSO. 
II. Matrizes são vetores com 2 dimensões. 
III. Vetores numéricos são gerados apenas por condições. 
IV. Data frames podem conter somente 1 tipo de dado. 
 Está correto o que se afirma em:
 
R: II, apenas.
 
 
P: O estagiário da empresa fictícia EAD Corp S/A está realizando um trabalho de catalogação de informações. Para isso, ele está processando um vetor atômico de caracteres, porém, ao executar os comandos (conforme o exemplo abaixo), o R retorna uma mensagem de erro. 
 
 nomes <- (“Alberto”, “Jonas”, “Rodrigo”, “José”) 
 resultado <- paste(nomes, sep=” ”) 
 resultado 
 
 Assinale a alternativa correta, que corresponde ao que poderia estar acontecendo:
 
R: A sintaxe do comando para criar o vetor atômico está errada.
P: Lidar com sequências de caracteres é uma parte importante da análise de texto, e dividir uma sequência de caracteres geralmente é uma das tarefas comuns executadas nesse processo, sejacriando tokens, localizando textos etc. Suponha a existência de dois vetores A e B, conforme abaixo.Ao executar os comandos abaixo, qual será sua saída? 
 A <- paste(“alfa”,”beta”,”gama”,sep=” “) 
 B <- paste(“phi”,”teta”,”zeta”,sep=””) 
 partes <- strsplit(c(A,B),split=” ”) 
 partes[1] 
 
 Assinale a alternativa correta:
 
 R: “alfa”, “beta”, “gama”.
P: O estagiário da empresa fictícia EAD Corp S/A necessita criar em R uma matriz para armazenar 12 linhas com 5 colunas de dados. Cada linha da matriz refere-se a um dos meses do ano, e cada coluna da matriz diz respeito a um tipo de conta que foi paga durante o ano pela empresa. 
Assinale a alternativa que corresponde ao comando utilizado pelo estagiário para a criação dessa matriz em R:
R: m <- matrix(nrow=12, ncol=5).
P: O estagiário da empresa fictícia EAD Corp S/A está fazendo manutenção em algumas funções desenvolvidas em R. Ele encontrou a função “FormataNome”, conforme o código-fonte abaixo: 
 FormataNome <- function (n){ 
 primeira <- toupper(substr(n, 1, 1)) 
 resto <- tolower(substr(n, 2, nchar(n))) 
 
 return (paste(primeira, resto, sep="")) 
 } 
 
 Para testá-la, ele executou a chamada da função, passando como parâmetro a frase “ Teste de Rotina”. Assinale a opção que corresponde a qual resultado a função retornará:
 
R: Teste de rotina.
P: A estrutura de dados conhecida como matriz possui a característica de armazenar as informações emum formato de linhas e colunas. Ao executar o comando: m <- matrix(1:6, nrow=2, ncol=3), será criada uma matriz com valores variando de 1 a 6, com 2 linhas e 3 colunas. 
Ao exibir o conteúdo da variável m, assinale a alternativa com o resultado que seria apresentado:
R: [,1] [,2] [,3] 
 [1,] 1 3 5 
 [2,] 2 4 6
 
P: Uma etapa básica porém essencial da programação é a atribuição de valores às variáveis. Sem isso,não é possível armazenar valores à memória para poder acessá-los posteriormente e utilizar nos cálculos, funções etc. No R existe uma sintaxe específica para realizar tal ação. 
Assinale a alternativa correta que indica a atribuição de valores em R.
R: a = 10.
P: Tal como na matemática existem diferentes conjuntos (naturais, reais, inteiros etc.), no R a representação e o armazenamento desses valores fica a cargo dos tipos de dados. Desse modo, o R fornece suporte a uma determinada quantidade de tipos de dados para representação e armazenamento de valores. 
Assinale a alternativa correta que apresenta quantos tipos de dados diferentes o R oferece suporte:
R: 6.
P: O estagiário da empresa fictícia EAD Corp S/A está tentando criar uma regressão linear entre os gastos com plano de saúde por família e valores de multas de trânsito nas imediações de um determinado hospital. Ele possui as informações carregadas em 2 vetores, x e y, respectivamente.
Assinale a alternativa que mostra o comando em R para criar o modelo de regressão linear:
R: lm(y~x).
Em estatística, existem diversas medidas e métricas para avaliar informações sobre um determinado conjunto de dados. Dentro do dia-a-dia de um cientista de dados, saber utilizar essas medidas e métricas é considerado um requisito fundamental para realizar uma boa análise de dados. Assim, média, mediana e moda são consideradas medidas de: 
Considerando o apresentado, analise as afirmativas a seguir: 
1. Medidas de tendência central
2. Medidas de dispersão
3. Medidas de associação
4. Métodos gráficos
5. Métodos de análise de frequência
Assinale a alternativa que apresenta a sequência correta:
R: V, F, F, F, F.
P: O cientista de dados da empresa fictícia EAD Corp S/A está realizando uma análise dos dados de alunos de uma escola. Ele observou que existe uma correlação muito alta entre os resultados dos testes de matemática e a quantidade de exercício físico realizado por um aluno no dia do teste
Considerando o apresentado, analise as afirmativas a seguir:
1. Alta correlação implica que, após o exercício, os resultados dos testes são altos.
2. Correlação não implica em causa.
3. A correlação mede a força do relacionamento linear entre a quantidade de exercícios e as pontuações dos testes.
4. A correlação prova que existe uma relação formal entre o exercício e os resultados dos testes.
Está correto o que se afirma em:
R: II e III, apenas.
P: O estagiário da empresa fictícia EAD Corp S/A está realizando uma pesquisa a respeito das notas dos clientes sobre os projetos da empresa. Ele obteve acesso a cinco notas (em uma escala variando de 0 a 20) fornecidas pelos clientes a projetos terminados recentemente: (5, 10, 15, 5, 15). Nesse sentido, assinale a alternativa que indique qual seria a soma dos desvios (valor - média) dos pontos de dados individuais em relação à sua média:
R: 0.
P: Após prever os valores baseados no modelo de regressão linear, o estagiário da empresa fictícia EAD Corp S/A necessita criar um gráfico para explicar o modelo criado e as conclusões obtidas dessa análise. Esse gráfico deve conter informações sobre as variáveis e o modelo gerado. Assinale aalternativa que indique qual o tipo de gráfico ele deve criar:
R: Um gráfico de dispersão com uma reta indicando o modelo de regressão.
P: Analise o trecho a seguir: 
Como medida de ___________ entre variáveis, os testes de ____________ são usados em dados____________ (ou seja, dados que são colocados em classes: por exemplo, sexo [masculino,feminino] e tipo de trabalho [não qualificado, semi-qualificado, qualificado]) para determinar se elesestão associados.
Assinale a alternativa que preenche corretamente as lacunas:
R: Associação;
qui-quadrado; nominais.
P: Utilizando o dataset mtcars disponível no R, é possível realizar algumas análises sobre veículos e suas características. Ao realizar a análise entre o rendimento dos veículos ( mtcars$mpg ) e o peso dos veículos (mtcars$wt ), tem-se uma correlação medida atravès do coeficiente de Pearson com valor de -0.8676594. Sobre a correlação apresentada, assinale a alternativa correta:
R: Indica que existe uma forte relação indicando que quanto mais leve o carro,menor será seu consumo.
P: Uma fábrica produz 150 dispositivos eletrônicos por dia. Os dispositivos eletrônicos com defeito devem ser reformulados. Sabe-se que existe uma taxa de erro de 5%. O primeiro passo é estimar quantos dispositivos eletrônicos precisam ser corrigidos todos os dias de uma semana. Nesse sentido, assinale a alternativa que indique qual o comando em R que deve ser utilizado para fazer essa simulação:
R: rbinom(7, 150,.05).
P: Em uma determinada prova de língua estrangeira, constam doze perguntas de múltipla escolha em um teste de aula de inglês. Cada pergunta tem cinco respostas possíveis e apenas uma delas está correta. O R possui comandos que permitem que cálculos matemáticos sejam realizados para identificar probabilidades. Utilizando o R, realize os cálculos e assinale a alternativa que indica e qual a probabilidade de ter exatamente quatro respostas corretas se um aluno tentar responder todas as perguntas aleatoriamente:
R: 0.1328756.
P: O estagiário da empresa fictícia EAD Corp S/A realizou uma análise em alguns dados da empresa e calculou as medidas de tendência central desses valores. Entretanto, após uma análise mais detalhada, descobriu que coletou um dos valores errados e será necessário recalcular as medidas novamente. Nesse sentido, assinale a alternativa que indique qual(is) da(s) seguinte(s) medida(s) de tendência central sempre mudará se um único valor nos dados mudarem
R: Média.
P: Complete corretamente os espaços: Uma ___________ é um pedaço de código escrito para executar uma tarefa específica; pode ou não aceitar argumentos ou parâmetros, assim como pode ou não retornar um ou mais valores. No R, conforme o tipo de dado da variável, existem _________ específicas para manipular aquele valor. Elas podem se dividir em _______ e de _________. Assinale a alternativa que apresenta a sequência que melhor preenche as lacunas:
R: função - funções - numéricas - texto
P: O estagiário da empresa fictícia EAD Corp S/A tem a tarefa de analisar as despesas com energia elétrica para a empresa. Em sua mesa, ele possui as 12 últimas contas de energia do escritório da empresa, e deve carregar seus valores para o R em uma estrutura que suporte esses dados. 
Assinale a alternativa correta que indica qual função ele deverá usar: 
R: c().
P: O estagiário da empresa fictícia EAD Corp S/A necessita catalogar 10 produtos diferentes (1001, 1002, …, 1010) no R em um data frame. Ao conversar com o cientista de dados, ele recebeu a indicação de criar uma sequência para agilizar o trabalho, ao invés de inseri-los manualmente. 
Assinale a alternativa que corresponde à única maneira que utiliza a criação manual de valores no data frame:
R: df <- data.frame(Codigo = c(1, 2, 3, 4 ,5, 6,7,8,9, 10), Produto=c(1001, 1002, 1003, 1004, 1005, 1006, 1007, 1008, 1009, 1010))
P: O estagiário da empresa fictícia EAD Corp S/A está implementando em R uma solução para armazenar dados inteiros em um vetor. Para efeito de testes, ele criou um vetor v contendo os valores 1, 2, 3, 4 e exibiu seu conteúdo, obtendo 1.0, 2.0, 3.0 e 4.0 como resultados. Por desejar somente números inteiros, o resultado mostrou que algo não está certo, pois não deveriam ser exibidos os “.0”. Assinale a alternativa correta em relação ao motivo pelo qual esse resultado está acontecendo:
R: No momento da criação do vetor, faltou adicionar a letra "L" ao final de cada número.
P: Na empresa fictícia EAD Corp S/A o analista de dados criou um vetor contendo cinco elementos, v<- c(10, 20, 30, 40, 50). Agora ele necessita acessar pelo R o segundo elemento desse vetor de números. Uma vez que o vetor de números já está carregado na memória, qual é o comando que deve ser digitado? Assinale a alternativa que corresponde à opção correta:
R: v(2).
P: Na empresa fictícia EAD Corp S/A o analista de dados está realizando uma operação de concatenar dois vetores atômicos: x e y. O vetor x possui como valores x <- c (1,3,5) e o vetor y possui como valores y <- c(2,4,6). O analista de dados sabe que o comando a ser utilizado para concatenar os vetores é o cbind(). O que será produzido pela expressão cbind (x, y)? Assinale a alternativa que corresponde à opção correta:
R: Um data frame com 3 linhas e 2 colunas. 
P: Analise o excerto a seguir:
A função ___________ substitui todas as correspondências de uma sequência, se o parâmetro for um vetor de sequência, retorna um vetor de sequência com o mesmo comprimento e com os mesmos atributos (após possível substituição com o caractere). Complete as lacunas e assinale a opção correta:
R: gsub()
P: O estagiário da empresa fictícia EAD Corp S/A possui dados sobre o consumo de gasolina dos veículos da empresa durante o ano. Ele deseja buscar no R os 20% maiores consumos da relação. Supondo que esses valores estejam armazenados em uma variável chamada “consumo”. Assinale a alternativa que apresenta qual seria o comando utilizado por ele para mostrar somente os dados que equivalem a pelo menos 80% do maior consumo:
R: consumo[consumo >= max(consumo)*0.8].
P: O cientista de dados da empresa fictícia EAD Corp S/A está analisando o total de furtos no primeiro semestre de 2019 no estado de São Paulo, que foi de 271 mil casos - o que representa uma média diária de 1500 crimes dessa natureza. 
Assinale a alternativa que indique qual seria a probabilidade de em um dia ocorra até 1350 crimes:
R: 0,0004379296%.
P: O estagiário da empresa fictícia EAD Corp S/A está trabalhando em uma análise sobre gastos com plano de saúde por família, e valores de multas de trânsito nas imediações de um determinado hospital. A idéia é identificar se existe uma relação entre essas duas variáveis. Ele realizou uma análise e obteve um valor 0,4503. 
Nesse sentido, assinale a alternativa que indique corretamente qual análise foi realizada e qual conclusão foi obtida, respectivamente:
R: Ele realizou um teste de correlação e concluiu que existe uma indicação de relação moderada entre valor gasto por família em plano de saúde e valores das multas de trânsito.
P: Analise o gráfico a seguir: 
Os modelos de regressão linear são bastante utilizados para diversas finalidades, como previsão de vendas no mercado, identificação de perfis de compra e até mesmo sugestões de produtos. Eles levam em consideração os pontos em 2 dimensões para que seja possível prever, dado um valor x, o valor de y. 
Sabendo disso, assinale a alternativa que indique qual ponto em negrito, se removido, terá o maior efeito na linha de regressão ajustada, como mostrado na figura (tracejado):
R: Pelas informações fornecidas, conclui-se que é o ponto d.
P: Após criar o modelo linear usando a função lm(), o estagiário da empresa fictícia EAD Corp S/A precisa utilizar esse modelo para prever valores de gastos com planos de saúde baseado no valores das multas de trânsito. Ele já dispõe de um conjunto de valores de multas de trânsito ocorridas na semana passada. Nesse sentido, assinale a alternativa que indique o comando a ser utilizado para a criar as previsões:
R: predict().
P: Uma grande empresa do ramo de fast-food está avaliando melhorias no seu atendimento de drive-thru. Eles identificaram que o tempo médio de espera na fila é de 4 minutos, com um desvio padrão de 1 minuto. Eles consideram o tempo de 3,5 minutos como o máximo aceitável, porém acreditam que se no máximo 15% dos clientes esperarem um tempo maior que o máximo aceitável, não justifica o investimento em melhorias.
Utilizando seus conhecimentos em R para apoiar a decisão, indique a alternativa correta:
R: A empresa deve investir em melhorias, pois 69,15% dos clientes atualmente aguardam mais que 3,5 minutos.
P: Um experimento foi realizado onde, para cada participante escolhido, aleatoriamente, caminhar meia hora três vezes por semana, ou a ficar quieto lendo um livro por meia hora três vezes por semana. Ao longo do ano, a mudança na pressão arterial dos participantes foi medida e no final do ano a mudança foi comparada nos dois grupos. Este é um experimento aleatório, e não um estudo observacional, porque:
R: Os participantes foram escolhidos aleatoriamente para as atividades.
P: A empresa fictícia EAD Corp S/A está trabalhando em um projeto para a construção de telhados com placas para geração de energia. Foi identificado que a luminosidade nos telhados segue uma distribuição normal.
Além disso, a média energia gerada por dia é de 2Kwh e o desvio padrão é 17,4,. A empresa deseja saber qual éa porcentagem telhados que geram mais com 84Kwh ou mais notas no exame. 
Assinale a alternativa que indique o comando em R que realiza o cálculo:
R: 1- pnorm(84, mean=112, sd=17.4).
P: O estagiário e o cientista de dados da empresa fictícia EAD Corp S/A fizeram uma aposta. O estagiário afirma que se um deles jogar 10 moedas com cara ou coroa, cada uma com 30% de probabilidade de cara. A probabilidade de exatamente 2 delas serem cara é menor que 30%. Já o cientista de dados afirma que a probabilidade de caírem 5 coroas é de pouco mais de 10%. 
Utilizando o R para embasar sua resposta, assinale aalternativa correta:
R: O estagiário e o cientista de dados estão corretos.
P: Como em qualquer linguagem de programação, o R fornece suporte a diferentes tipos de dados. Cada variável de um tipo de dado diferente armazenará em seu conteúdo um valor com características diferentes. Os tipos de dados suportados no R são: integer, numeric, logical, complex, caracter e raw.
Sobre o tipo de dado numeric, assinale a alternativa correta:
R: Suporta somente números reais.
P: O estagiário da empresa fictícia EAD Corp S/A está trabalhando em uma análise sobre restaurantes, relacionando a quantidade média de estrelas recebidas pelos estabelecimentos nos comentários dos clientes (inteiros variando de 1 a 5), e a existência ou não de cardápio infantil no estabelecimento. Na análise ele obteve um valor 0,001214. 
Nesse sentido, assinale a alternativa que indique corretamente qual análise ele realizou e qual conclusão deve-se tirar dessa análise, respectivamente:
R: Qui-quadrado e deve considerar que não existe relação entre as estrelas e a existência de cardápio infantil.
P: O estagiário da empresa fictícia EAD Corp S/A está estudando gráficos de dispersão e utilizou o dataset mtcars , disponível no R, para realizar uma análise. Ele criou um gráfico de dispersão que relaciona o peso do veículo com o rendimento, conforme a seguir, e realizou algumas considerações.
Baseando-se no gráfico anterior, é correto afirmar que:
R: quanto mais pesado o veículo, existe uma tendência de menor rendimento
P: A seção 2.1 da Unidade I trata das competências necessárias para que uma pessoa exerça a atividade de cientista de dados. Dentre as competências apresentadas, existe uma combinação de áreas de estudo e perfil pessoal, fazendo com que essa atividade seja um “mix” de características pessoais e competências que podem ser adquiridas. Assinale a alternativa que indica características que poderiam ser mencionadas como competências necessárias para o cientista de dados:
R: Habilidade de programação, pensamento lógico, habilidade com números, conhecimento em armazenamento de dados.
P: O cientista de dados da empresa fictícia EAD Corp S/A, ao analisar os dados referentes aos projetos elaborados durante o primeiro semestre do ano anterior, gerou um histograma da rentabilidade dos projetos, conforme o gráfico a seguir e as afirmações que estão na sequência.
I - A empresa executou 32 projetos no primeiro semestre.
II - Pouco mais da metade dos projetos teve uma rentabilidade de até 150%.
III - Metade dos projetos teve uma rentabilidade superior a 150%.
IV - Os projetos que tiveram rentabilidade acima de 250% foram outliers.
 
Está correto o que se afirma em:
R: I e II, apenas.
P: A empresa fictícia EAD Corp S/A deseja padronizar a geração de gráficos gerados pelo ggplot dentro da empresa. A ideia é que todos os gráficos tenham a mesma identidade visual, para que a marca da companhia seja reforçada.
Sendo assim, assinale a alternativa que indica qual seria a solução a ser adotada para atingir esse objetivo.
R: Criar um tema específico, conforme a identidade visual da empresa.
P: O estagiário da empresa fictícia EAD Corp S/A tem a necessidade de gerar três gráficos de dispersão. O cientista de dados lhe sugeriu que fosse criado um único gráfico, contemplando os três gráficos em um só, usando facets. Ao criar alguns exemplos, viu que os gráficos eram exatamente iguais, mesmo usando facet_wrap e facet_grid .
Sendo assim, assinale a alternativa que indica o que provavelmente aconteceu.
R: Foram criados os gráficos com facet_wrap e facet_grid(cols).
P: R é uma linguagem bastante utilizada na ciência de dados, juntamente com Python. Levando em consideração a vasta oferta de linguagens disponíveis no mercado, por quais razões você acredita que a linguagem R é útil para a ciência de dados mais que outras linguagens, como Java e C#? Assinale a alternativa que representa a linguagem correta:
R: R foi projetada para manipulação e visualização de dados, portanto é natural que ela seja usada para a ciência de dados.
P: O estagiário da empresa fictícia EAD Corp S/A deseja realizar a análise dos valores dos reembolsos da empresa relacionados à despesa com alimentação durante encontros com clientes. Ele deseja gerar um gráfico identificando qual tipo de reembolso (café, almoço, jantar) foi o mais frequente durante o ano.
Sendo assim, assinale a alternativa que indica o tipo de gráfico ele deve gerar.
R: Histograma.

Teste o Premium para desbloquear

Aproveite todos os benefícios por 3 dias sem pagar! 😉
Já tem cadastro?

Continue navegando