Grátis: Grande parte do sucesso do Spark está relacionado à sua estrutura, que é composta por alguns componentes. O principal deles é o RDD. Sobre este com... – Questões Respondidas

Trabalho Social

Outros

Grande parte do sucesso do Spark está relacionado à sua estrutura, que é composta por alguns componentes. O principal deles é o RDD. Sobre este componente, classifique V para as sentenças verdadeiras e F para as falsas: ( ) É uma estrutura física do Spark que guarda informações dos objetos do Spark. Sua única limitação é não possuir um mecanismo para tratamento de falhas. ( ) Possui uma estrutura similar a uma tabela, conhecida como dataset que pode armazenar dados de diferentes tipos. ( ) Fornece suporte a dois tipos de operações: transformação e ação. Quando se aplica uma transformação um novo RDD é criado, mas o conjunto de dados só é alterado se for aplicada uma etapa de ação. ( ) Algumas operações de transformação são: SortByKey, FlatMap e GroupByKey enquanto que collect, count e CountByKey são operações de ação. A partir das alternativas abaixo, assinale a CORRETA:

A F – V – V – F.
B F – V – V – V.
C V – V – V – F.
D F – F – V – V.

ServicoSocializando

ano passado

ServicoSocializando

ano passado

Big Data Analytic e a Tomada de Decisões (17324)

Big Data Analytic e a Tomada de Decisões (17324)

UNIASSELVI

Respostas

Ed

ano passado

Vamos analisar cada uma das afirmações sobre o RDD (Resilient Distributed Dataset) do Apache Spark: ( ) É uma estrutura física do Spark que guarda informações dos objetos do Spark. Sua única limitação é não possuir um mecanismo para tratamento de falhas. É falsa. O RDD é uma abstração que permite o processamento de dados em paralelo, e possui mecanismos para tratamento de falhas, como a recuperação de dados. ( ) Possui uma estrutura similar a uma tabela, conhecida como dataset que pode armazenar dados de diferentes tipos. É falsa. O RDD não é uma estrutura similar a uma tabela; essa descrição se aplica mais ao DataFrame ou Dataset no Spark. ( ) Fornece suporte a dois tipos de operações: transformação e ação. Quando se aplica uma transformação, um novo RDD é criado, mas o conjunto de dados só é alterado se for aplicada uma etapa de ação. É verdadeira. Essa é uma característica fundamental do RDD, onde as transformações são operações que criam novos RDDs e as ações são operações que computam resultados. ( ) Algumas operações de transformação são: SortByKey, FlatMap e GroupByKey enquanto que collect, count e CountByKey são operações de ação. É verdadeira. As operações mencionadas estão corretamente classificadas como transformações e ações. Portanto, a sequência correta é: F – F – V – V. A alternativa que apresenta essa sequência é: D) F – F – V – V.

Essa resposta te ajudou?

0

0

left-side-bubbles-background

right-side-bubbles-background

Crie sua conta grátis para liberar essa resposta. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Ainda com dúvidas?

Envie uma pergunta e tenha sua dúvida de estudo respondida!

Essa pergunta também está no material:

Big Data Analytic e a Tomada de Decisões (17324)

Big Data Analytic e a Tomada de Decisões (17324)

UNIASSELVI

Mais perguntas desse material

A análise de cluster pode ser utilizada em inúmeras aplicações do cotidiano. Além disso, as técnicas e algoritmos que podem ser empregados precisam ser bem escolhidos para aumentar as chances de sucesso. Diante disso, no que é necessário refletir antes de implementar uma aplicação para análise de cluster? A partir das alternativas abaixo, assinale a CORRETA:

A Garantir uma arquitetura robusta para suportar o volume e variedade dos dados, bem como optar por uma ferramenta que possa fornecer suporte à análise paralela em cluster.
B Checar a quantidade de parâmetros que serão úteis para a aplicação, decidir que tipo de banco de dados (relacional ou não relacional) será utilizado e estruturar uma arquitetura capaz de suportar o tráfego de dados.
C Verificar e validar requisitos da aplicação, assim como selecionar uma ferramenta de Big Data adequada para garantir o rápido armazenamento e processamento dos dados.
D Verificar a quantidade de dados que será processada, bem como a variedade, mensurar os parâmetros que serão necessários para as próximas etapas, assim como avaliar a dimensionalidade.

A transição da Web representou um importante mecanismo para a revolução dos dados e expôs um novo cenário de explosão e novos formatos para análise de dados nos meios digitais. Nesse sentido, dentre as três fases da web, qual destas representou a gênese para explosão dos dados? A partir das alternativas abaixo, assinale a CORRETA:

A Na Web 3.0 a partir da geração de conteúdo por parte do usuário e a compreensão semântica de suas atividades na rede.
B Na Web 1.0 que representou o primeiro contato dos usuários em relação à web.
C Entre a Web 1.0 e Web 2.0 com o surgimento das primeiras redes sociais.
D Na Web 2.0 onde os usuários passaram a gerar conteúdo a partir de sistemas dinâmicos.

Em épocas passadas as empresas conviviam com certas limitações, em termos de tecnologia, para que pudessem analisar seus dados. Por outro lado, nos dias atuais, as tecnologias possibilitaram e estimularam a produção de conteúdo. Tendo isso em mente, classifique V para as sentenças verdadeiras e F para as falsas: ( ) As empresas precisam lidar com o alto volume e variedade de dados digitais propondo soluções automáticas de análise a fim de se manterem competitivas. ( ) As empresas orientadas a dados têm à disposição uma massiva quantidade de dados, porém, em muitos casos não sabem como gerenciá-los. ( ) A elevada produção de conteúdo implica em um problema de sobrecarga de informação, evidenciando as limitações da ação humana para lidar com isso. Assinale a alternativa correta:

A V – V – V.
B V – F – F.
C V – F – V.
D F – V – V.

Apesar do grande crescimento, o Big Data é um conceito amplo que se refere à forma como lidamos com a grande quantidade de dados disponível para uso. Além disso, a empresa precisa construir uma infraestrutura para lidar com uma infinidade de fontes e processá-las em um tempo razoável. Diante disso, em qual cenário uma empresa pode estar diante de um Big Data? A partir das alternativas abaixo, assinale a CORRETA:

A Em situações onde a infraestrutura de dados da empresa apresenta elevada taxa de latência e/ou inviabilidade para análises de dados de grande volume e em diferentes formatos e estruturas.
B Em circunstâncias onde o volume de dados da organização aumente significativamente, tornando-se possível comprar novos servidores, o que poderia diminuir os custos com armazenamento.
C Quando a análise de dados tradicional não estiver mais trazendo real valor para a organização, o que poderia indicar a possibilidade de trazer inovação com novas formas de analisar os dados.
D Quando o conjunto de dados ultrapassar a casa dos 1PB e a empresa precise lidar com dados estruturados, semiestruturados e/ou não estruturados.

Dados não estruturados ou desestruturados compreendem cerca de 80% de toda gama de dados disponíveis para extração e análise de dados. Em relação a esses tipos de dados é correto afirmar que:

A São pouco percebidos pelas empresas por conta da complexidade em lidar com essas estruturas. São extremamente custosos se comparados ao formato estruturado e carecem de técnicas para melhorar o processo de análise.
B Apresentam formato livre e são produzidos pela linguagem humana. Para que seja possível realizar a análise existe a necessidade de transformá-los em um formato estruturado.
C São de vital importância para as empresas, porém, são pouco explorados e apresentam baixo poder de aplicabilidade. Google e IBM são algumas das poucas empresas que investem recursos em análise de dados textuais.
D São dados difíceis de serem decifrados ou compreendidos pela máquina, por conta da sua estrutura. A linguagem humana é incompreensível pela máquina, o que torna o processo de descoberta de conhecimento inviável.

As métricas de segmentação representam outra classe de medidas para análise de redes sociais. Em relação a essas métricas, associe os itens, conforme o código abaixo: I – Coeficiente de agrupamento. II – Coesão. III – Clique. ( ) É uma medida que representa o grau de ligação existente entre dois vértices. ( ) É uma medida que indica a probabilidade de formação de clusters entre os vértices. ( ) Quando um determinado vértice está diretamente conectado a todos os outros vértices. A partir das alternativas abaixo, assinale a CORRETA:

A I – II – III.
B II – I – III.
C III – II – I.
D II – III – I.

HDFS, assinale a alternativa CORRETA.

A O HDFS é formado pelo NameNode e DataNode. O primeiro é considerado mestre porque controla todas as atividades relacionadas ao armazenamento físico dos dados em cada nó, enquanto o segundo processa os dados e comunica ao mestre.
B O HDFS é formado pelo JobTracker e o TaskTrack. O primeiro está relacionado ao armazenamento e processamento dos dados diretamente no cluster “pai”, enquanto que o segundo apenas obedece às instruções do pai e o notifica quando for o caso.
C O HDFS é formado pelo NameNode e DataNode. O primeiro é considerado vital, pois gerencia todos os dados que chegam ao sistema e notifica aos escravos (Data Node) em caso de falha. Estes apenas executam as tarefas solicitadas.
D O HDFS é formado pelo JobTracker e o TaskTrack. O primeiro é responsável por agendar e gerenciar as tarefas de armazenamento, enquanto que o segundo realiza as atividades diretamente nas máquinas destino.

Assinale a alternativa que apresenta a sequência CORRETA:

A III – IV – II – I – V.
B II – V – III – IV – I.
C I – V – IV – III – II.
D I – IV – V – II – III.

Tendo isso em mente, quais são as principais habilidades requeridas para um profissional de dados?

A Domínio de técnicas de aprendizagem de máquina, amplo conhecimento em matemática, experiência com todos os tipos de dados ou banco de dados (extração e manipulação) e amplo conhecimento do negócio.
B Raciocínio lógico apurado, capacidade para extrair insights de dados não estruturados, experiência prévia em aprendizagem de máquina e pouco conhecimento do conceito de Big Data.
C Forte capacidade analítica, amplo conhecimento em ferramentas de visualização de dados e frameworks de Big Data como Apache Spark e PowerBI e domínio de bancos de dados não relacionais.
D Capacidade para manipulação de dados, conhecimentos em estatística e aprendizado de máquina, habilidades com ferramentas e/ou linguagens de programação e capacidade para transmitir resultados.