Baixe o app para aproveitar ainda mais
Prévia do material em texto
01/06/2022 13:34 Estácio: Alunos https://simulado.estacio.br/alunos/ 1/5 Simulado AV Teste seu conhecimento acumulado Disc.: TÓPICOS DE BIG DATA EM PYTHON Aluno(a): VICTOR AMADEU OLIVEIRA PIRES DOS SANTOS 202107296313 Acertos: 10,0 de 10,0 01/06/2022 Acerto: 1,0 / 1,0 Selecione a opção em que a computação se refere à execução de aplicações e serviços em uma rede distribuída usando recursos virtualizados. Computação de banco de dados Computação de Big Data Computação Paralela Computação em Nuvem Computação centralizada Respondido em 01/06/2022 13:16:28 Explicação: As aplicações de computação em nuvem são acessadas por protocolos de Internet e padrões de rede. As demais opções estão erradas, pois nenhuma delas trabalha obrigatoriamente com protocolos de internet. Acerto: 1,0 / 1,0 Selecione a opção correta que contém a principal plataforma de tecnologia de nuvem que é usada como referência para as outras plataformas. IBM Cloud Microsft Azure Google Cloud Oracle Cloud Amazon AWS Respondido em 01/06/2022 13:27:54 Explicação: A plataforma Amazon AWS foi a primeira plataforma Cloud e até hoje é considerada como principal referência do mercado. As outras plataformas também são muito importantes e, junto com a Amazon, detém boa fatia do mercado. Questão1 a Questão2 a https://simulado.estacio.br/alunos/inicio.asp javascript:voltar(); 01/06/2022 13:34 Estácio: Alunos https://simulado.estacio.br/alunos/ 2/5 Acerto: 1,0 / 1,0 O Hadoop é um framework de código aberto voltado para aplicações de Big Data. Neste sentido, selecione a alternativa correta que apresenta um grande desafio no processo de configuração e gerenciamento do Hadoop. Aplicar políticas de segurança. Gerenciamento do armazenamento de dados. Tratar dados não-estruturados. Processos de extração, transformação e carregamento dos dados. Mecanismo para melhorar o processamento dos dados. Respondido em 01/06/2022 13:28:28 Explicação: O tratamento da segurança da informação é um grande desafio para o Hadoop, pois o profissional responsável por essa etapa terá que configurar o sistema que, pela natureza dos problemas de Big Data, é uma tarefa complexa. Acerto: 1,0 / 1,0 O data lake é composto por camadas e níveis. Selecione a opção correta a respeito da camada responsável por fazer a marcação dos dados do Data Lake. Camada de governança Camada de gerenciamento do ciclo de vida da informação Camada de gerenciamento de dados Camada de segurança Camada de Metadados Respondido em 01/06/2022 13:29:21 Explicação: O Data Lake possui três camadas: a de governança e segurança de dados, a de metadados e a de gerenciamento do ciclo de vida da informação que tratam, respectivamente, da política de segurança de dados, da marcação e identificação dos dados e das regras de armazenamento. Acerto: 1,0 / 1,0 Observe o trecho de código abaixo query = "SELECT * FROM tabela_teste WHERE valor = "+str(str_valor) registros = spark.sql(query) Selecione a opção correta a respeito dele. É um exemplo de aplicação de GraphX. A execução do trecho de código vai funcionar corretamente. A implementação do trecho de código está errada. É possível afirmar que a tabela_teste existe. Trata-se de um exemplo de utilização do Spark SQL Respondido em 01/06/2022 13:30:21 Explicação: Questão3 a Questão4 a Questão5 a 01/06/2022 13:34 Estácio: Alunos https://simulado.estacio.br/alunos/ 3/5 Gabarito: Trata-se de um exemplo de utilização do Spark SQL Justificativa: O trecho de código corresponde a uma aplicação do Spark SQL. Esse componente viabiliza a utilização de código SQL que facilita bastante a manipulação de dados estruturados. A implementação está codificada corretamente, apesar de não ser possível afirmar se vai executar sem erros, pois no código não aparecem informações que permitam fazer afirmações sobre a execução. Acerto: 1,0 / 1,0 Os componentes do Spark têm como objetivo facilitar o desenvolvimento de projetos com finalidades específicas. Nesse sentido, selecione a opção que contém o componente responsável por estabelecer uma conexão com o Cluster. Spark.Catalog SparkSession RDD SparkContext DataFrame Respondido em 01/06/2022 13:30:55 Explicação: Gabarito: SparkContext Justificativa: O componente responsável por estabelecer uma conexão com o cluster é o SparkContext e pode ser usado para criar RDDs, acumuladores e variáveis de transmissão nesse cluster. O SparkSession, por sua vez, é um ponto de entrada para que o Spark possa trabalhar com RDD, DataFrame e Dataset. O Spark.Catalog é uma interface para gerenciar um catálogo de metadados de entidades relacionais. Acerto: 1,0 / 1,0 Eduardo quer mostrar aos gestores da empresa como as ações da carteira de investimentos recomendada que ele e o time dele propuseram estão valorizando e gerando muitos dividendos aos clientes. Para isso, Eduardo construiu um gráfico de ______, pois está lidando com dados ________ e quer mostrar o quão bem as recomendações geradas por seu time estão evoluindo. Respectivamente a resposta que completa as duas lacunas é: Linha; Categóricos Pizza; Categóricos Linha; Numéricos Pizza; Numéricos Linha; Temporais Respondido em 01/06/2022 13:31:23 Explicação: O gráfico correto é o de linhas, pois os dados são temporais, uma vez que Eduardo quer mostrar cronologia para os acionistas e o gráfico de linha representa muito bem isto, e os dados em questão variam ao longo de meses ou anos. Gráficos de pizza não se aplicam a dados temporais. Os dados não são simplesmente numéricos pois, em essência, estamos lidando com a cronologia, logo são dados temporais. O tipo de dados em que números variam no tempo não pode ser classificado como tipo categórico. Acerto: 1,0 / 1,0 A visualização dos dados é fundamental no processo de análise, interpretação e obtenção de conhecimento. Dentre as visualizações mais adequadas para dados numéricos estão: Questão6 a Questão7 a Questão8 a 01/06/2022 13:34 Estácio: Alunos https://simulado.estacio.br/alunos/ 4/5 I - Histograma II - Gráfico de Dispersão III - Gráfico de Pizza Analise as alternativas listadas e assinale a correta. Apenas I e II As alternativas I, II e III Apenas I e III Apenas III Apenas II e III Respondido em 01/06/2022 13:31:50 Explicação: Os gráficos de histograma e de dispersão respectivamente expressam a distribuição das variáveis e a sua correlação. A alternativa III está incorreta, pois o gráfico de pizza é para dados categóricos, quando queremos mostrar proporção e valores distintos de categorias possíveis. Acerto: 1,0 / 1,0 Quais destas opções representam as diferenças entre o KDD e o CRISP-DM? I - Etapas de Entendimento do Negócio, e Implantação do Artefato de ML II - A etapa de Preparação de Dados substituindo as etapas de Seleção de Dados, Pré-Processamento e Transformação de Dados III - A obrigatoriedade da entrega de um artefato de ML Apenas as opções II e III Apenas as opções I e III Apenas a opção I Apenas a opção II As opções I, II, e III estão corretas Respondido em 01/06/2022 13:33:05 Explicação: O processo do CRISP-DM se diferencia do processo de KDD tradicional pela inclusão das etapas de entendimento do negócio e entendimento dos dados, bem como a simplificação de três etapas de preparação de dados para uma, e, finalmente, o comprometimento do processo CRISP-DM de entregar um artefato de ML. Acerto: 1,0 / 1,0 Alfredo começou em um laboratório de pesquisa e inovação no começo deste ano. Este laboratório investiga a relação entre trocas de mensagens em redes sociais e variações na bolsa de valores, dependendo principalmente de modelos de redes neurais recorrentes. Com qual tipo de IA Alfredo está lidando? IA Biológica IA SubSimbólica IA Quântica IA Simbólica IA Pura Respondido em 01/06/2022 13:33:47 Questão9 a Questão10 a01/06/2022 13:34 Estácio: Alunos https://simulado.estacio.br/alunos/ 5/5 Explicação: As redes neurais são modelos conexionistas ou subsimbólicas, pois encontram conhecimento nos dados a partir de inferências estatísticas sem requerer regras pré-definidas, sendo essa a sua maior diferença dos modelos simbólicos, e sua vantagem sobre aqueles é a capacidade de atingir melhores predições por exatidão. javascript:abre_colabore('38403','286287946','5451985326');
Compartilhar