Prévia do material em texto
02727PRINCÍPIOS DE BIG DATA 1. A respeito das aplicações de fluxos de dados, selecione a opção correta. Transações bancárias, como o serviço de PIX. Serviços de compras online Reapresentação de programas de televisão. Serviço de correio eletrônico Serviços sob demanda, como serviços de filme online. Explicação: Os serviços de fluxo de dado de aplicações de mídia de streaming são arquivos enviados em partes por serviço e reproduzidos por um cliente conforme a entrega continua. As demais opções estão erradas, pois são exemplos de serviços em que os dados já foram gerados, ou que são usados apenas esporadicamente. 2. Em relação aos V's que caracterizam os projetos de Big Data, selecione a opção que trata do processamento dos dados. valor velocidade variedade volume veracidade Explicação: A característica velocidade trata da rapidez de geração e processamento dos dados. Variedade diz respeito ao formato dos dados, valor está relacionado ao resultado útil da análise dos dados, volume significa a quantidade de dados disponíveis para tratamento e a veracidade diz respeito à confiabilidade da origem dos dados. 02508HADOOP E ARMAZENAMENTO DE DADOS 3. A respeito do HDFS, selecione a opção correta cujo componente lógico mantém os dados do usuário na forma de blocos de dados. NameNode Bloco de dados DataNode YARN Replicação Explicação: O DataNode é componente da arquitetura do HDFS responsável pelo armazenamento dos dados na forma de blocos de dados. 4. Em relação ao Data Lake, selecione a opção correta que contenha o(s) formato(s) de dados que pode(m) ser armazenado(s) nele. apenas não estruturado estruturado, não estruturado e semiestruturado apenas estruturado apenas tabelas relacionais estruturado e semiestruturado Explicação: O Data Lake pode armazenar dados estruturados, semiestruturados e não estruturados que correspondem a característica de variedade dos dados que é bem típica de aplicações de Big Data. 02729PRINCIPIOS DE DESENVOLVIMENTO DE SPARK COM PYTHON 5. O paradigma MapReduce é uma estratégia de computação com capacidade de processar grandes conjuntos de dados de maneira distribuída em várias máquinas. Em relação à técnica MapReduce, selecione a opção que é responsável por consolidar os resultados produzidos ao longo do processamento. Agregação Separação Processamento Mapeamento Redução Explicação: Gabarito: Redução Justificativa: A função de redução agrupa os pares após a fase de embaralhamento concluindo o processamento dos dados. O MapReduce é uma técnica clássica de programação distribuída e é bastante utilizada por diversos frameworks como o Spark, por exemplo. 6. O Spark é uma ferramenta computacional voltada para aplicações de Big Data. Selecione a opção correta a respeito do componente que pode ser tratado com o Spark SQL. DAG RDD Work Node Executor Tasks Explicação: Gabarito: RDD Justificativa: O componente Spark SQL do ecossistema do Spark fornece suporte à linguagem SQL para manipular RDDs. DAGs correspondem a abstrações sobre as execuções dos processos. O Executor é responsável pela execução de tarefas individuais, enquanto o Work Node corresponde ao conjunto de máquinas que executam as tarefas que são as Tasks, ou seja, subdivisões do processo. 02260ANÁLISE DE DADOS EM PYTHON COM PANDAS 7. No mundo de Big Data, temos dados os mais variados possíveis, e sua classificação é fundamental para um cientista de dados. As notas que compõem o histórico escolar de um aluno são classificadas como que tipo de dados? Atemporais Temporais Numéricos Categóricos Semi-Estruturados Explicação: O correto é classificar como dados categóricos, pois a nota de um aluno mesmo que possa ser operada por funções de soma, média etc., representa um conceito ou extrato/proporção de aprendizado de um aluno, um 8 muitas das vezes significa que o aluno aprendeu 80% da matéria por exemplo, ou implica na condição de apto, ou reprovado. O tipo numérico seria correto se não tivesse o contexto implícito de categoria, por isso devemos ter cuidado ao modelarmos nossos dados. 8. A visualização dos dados é fundamental no processo de análise, interpretação e obtenção de conhecimento. Dentre as visualizações mais adequadas para dados numéricos estão: I - Histograma II - Gráfico de Dispersão III - Gráfico de Pizza Analise as alternativas listadas e assinale a correta. Apenas III As alternativas I, II e III Apenas I e III Apenas I e II Apenas II e III Explicação: Os gráficos de histograma e de dispersão respectivamente expressam a distribuição das variáveis e a sua correlação. A alternativa III está incorreta, pois o gráfico de pizza é para dados categóricos, quando queremos mostrar proporção e valores distintos de categorias possíveis. 02318BIG DATA ANALYTICS 9. As redes neurais são modelos poderosos cujo principal componente onde estão armazenados seus conhecimentos é(são) Camada de Saída Vieses Camadas Escondidas Pesos Função de Ativação Explicação: O conhecimento dos modelos conexionistas é localizado em suas camadas internas ocultas ou escondidas (hidden), pois é lá que se encontram as matrizes de pesos, vieses e funções de ativação que, ao trabalharem juntas, produzem o conhecimento necessário para discriminar novas observações com base em registros passados. 10. As técnicas de aprendizado de máquina para aprendizado supervisionado são: I - Classificação II - Agrupamento III - Regressão Apenas I e III Apenas I e II Apenas I Apenas II e III Apenas II Explicação: O aprendizado supervisionado contempla duas técnicas que são a de classificação, em que o modelo tenta aprender a categorizar observações, e a regressão, que tenta aferir um valor numérico para novos registros, baseado no registro histórico e suas características.