Projeto em ciência de dados com soluções para processamento paralelo e distribuído de dados

•

UNOPAR

3

0

3

0

Guilherme Lima

20/10/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Ciência de Dados

3.711 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Sobre o conceito de data lake, avalie as asserções a seguir e a relação existente entre elas.
I. Se necessário, o Data Lake pode ser dividido em três camadas separadas: uma para
dados brutos, outra para conjuntos de dados alimentados diariamente e outro para
informações de terceiros.
PORQUE
II. Outra abordagem possível seria dividir o Data Lake em três partições de acordo com sua
vida útil: dados com menos de seis meses; dados mais antigos, mas ainda ativos, e dados
arquivados não mais usados, mas que precisam ser retidos (esses dados obsoletos podem
removidos para outras mídias) (MILOSLAVSKAYA; TOLSTOY, 2016).
Referência: MILOSLAVSKAYA, N.; TOLSTOY, A. Big data, fast data and data lake concepts.
Procedia Engineering, 88(2016), 300–305. Disponível em:
https://www.sciencedirect.com/science/article/pii/S1877050916316957. Acesso em: 29
nov. 2019.
Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas:
Alternativas:
● A asserção I está correta, e a asserção II está incorreta.
● As asserções I e II estão corretas, mas a asserção II não justifica a I.checkCORRETO
● As asserções I e II estão corretas e a II justifica a I.
● A asserção I está incorreta, e a asserção II está correta.
● As asserções I e II estão incorretas.
Resolução comentada:
Se necessário, o Data Lake pode ser dividido em três camadas separadas: uma para dados
brutos, outra para conjuntos de dados alimentados diariamente e outro para informações de
terceiros. Outra abordagem possível seria dividir o Data Lake em três partições de acordo
com sua vida útil: dados com menos de seis meses; dados mais antigos, mas ainda ativos,
e dados arquivados não mais usados, mas que precisam ser retidos (esses dados obsoletos
podem removidos para outras mídias).
Código da questão: 50729
2)
O uso do processamento paralelo permite que vários processadores sejam utilizados para
resolver o mesmo problema, e cada processador resolve uma parte distinta. Os autores
Navaux, De Rose e Pilla (2011) listaram uma série de vantagens do uso do processamento
paralelo. Uma das vantagens surge com a redução do tempo de execução. Qual o nome
desta característica?
Referência: NAVAUX, P. O. A.; De ROSE, C. A. F.; PILLA, L. L. Fundamentos das arquiteturas
para processamento paralelo e distribuído. 2011. Laboratório de Banco de Dados.
Departamento de Ciência da Computação – UFMG. Disponível em:
http://www.lbd.dcc.ufmg.br/colecoes/erad-rs/2011/003.pdf. Acesso em: 17 set. 2019.
Assinale a alternativa CORRETA.
Alternativas:
● Modelagem.
● Desempenho.checkCORRETO
● Tolerância a falhas.
● Aceleração linear.
● Crescimento linear.
Resolução comentada:
Navaux, De Rose e Pilla (2011) listam o desempenho como vantagem do uso do
processamento paralelo, o qual traz como consequência a redução do tempo de
processamento e execução de problemas.
Código da questão: 50700
3)
Apesar da tradução ser “armazém de dados”, o conceito de data warehouse vai além disso.
Machado (2004, p. 22 apud Gura e Benck, 2011, p. 21) faz afirmações a esse respeito, as
quais encontram-se a seguir. Avalie a afirmativa para completar suas lacunas corretamente.
Data warehouse representa uma grande base de dados capaz de ____________, de forma
concisa e confiável, as informações de interesse que se encontram espalhadas pelos
____________ operacionais e em fontes ____________, para posterior utilização nos sistemas
de apoio à decisão.
Referência: GURA, E. F.; BENCK, L. L. N. Construção de um data warehouse, aliado a uma
ferramenta open source ireport na geração de informações para tomada de decisão. 2011.
89 f. Trabalho de conclusão de curso (Curso de Tecnologia em análise e desenvolvimento
de sistemas) – Coordenação de Informática, Universidade Tecnológica Federal do Paraná,
Ponta Grosa, 2011. Disponível em:
http://repositorio.roca.utfpr.edu.br/jspui/bitstream/1/6449/1/PG_COADS_2011_2_05.pdf.
Acesso em: 7 nov. 2019.
Assinale a alternativa que completa adequadamente as lacunas acima.
Alternativas:
● Separar; sistemas; diversas.
● Integrar; sistemas; externas.checkCORRETO
● Separar; computadores; externas.
● Integrar; computadores; externas.
● Separar; computadores; diversas.
Resolução comentada:
Data warehouse representa uma grande base de dados capaz de integrar, de forma concisa
e confiável, as informações de interesse que se encontram espalhadas pelos sistemas
operacionais e em fontes externas, para posterior utilização nos sistemas de apoio à
decisão.
Código da questão: 50716
4)
Sobre o processo de integração e de unificação de dados, avalie as afirmativas a seguir e
classifique com (V) se verdadeira e (F) se falsa.
( ) As operações diárias em uma base de dados de uma empresa são realizadas em um
banco de dados chamado transacional.
( ) Os processos analíticos aplicados em bases de dados são realizados em bases de dados
OLAP.
( ) As ferramentas de Business Intelligence auxiliam na busca por padrões.
( ) Para receber um tratamento analítico, uma base de dados precisa ser representativa.
( ) O processo de descoberta do conhecimento é iterativo e interativo.
Assinale a alternativa que contenha a sequência correta.
Alternativas:
● V – V – F – V – F.
● V – F – F – V – V.
● V – V – V – V – V.checkCORRETO
● F – V – F – V – F.
● F – F – F – F – F.
Resolução comentada:
As operações diárias em uma base de dados de uma empresa são realizadas em um banco
de dados chamado transacional. Os processos analíticos aplicados em bases de dados são
realizados em bases de dados OLAP. As ferramentas de Business Intelligence auxiliam na
busca por padrões. Para receber um tratamento analítico, uma base de dados precisa ser
representativa. O processo de descoberta do conhecimento é iterativo e interativo.
Código da questão: 50733
5)
Sobre o uso de linguagem de programação R em sistemas paralelos e distribuídos, avalie as
afirmativas a seguir e classifique com (V) se verdadeira e (F) se falsa.
( ) A biblioteca snow dá suporte com linguagem R em clusters.
( ) A biblioteca snow funciona em vários sistemas operacionais.
( ) Para sistemas multicore é possível utilizar programação R com a biblioteca fork.
( ) Em ambientes GPU (Graphics Processing Unit) é possível utilizar a linguagem R com a
biblioteca OpenCL.
( ) Para arquiteturas paralelas em grid não há diversidade de bibliotecas em linguagem R.
Assinale a alternativa que contenha a sequência correta:
Alternativas:
● V – V – F – V – F.
● V – V – V – V -V.checkCORRETO
● F – F – F – F – F.
● V – V – V – F – F.
● F – V – F – V – F.
Resolução comentada:
A biblioteca snow dá suporte com linguagem R em clusters. A biblioteca snow funciona em
vários sistemas operacionais. Para sistemas multicore é possível utilizar programação R
com a biblioteca fork. Em ambientes GPU (Graphics Processing Unit) é possível utilizar a
linguagem R com a biblioteca OpenCL. Para arquiteturas paralelas em grid não há
diversidade de bibliotecas em linguagem R.
Código da questão: 50728
6)
A respeito de otimização de programação R, avalie a afirmativa a seguir para completar suas
lacunas corretamente.
Em se tratando de otimização da linguagem R em ____________, estudiosos do assunto
afirmam que esta é uma questão ____________, pois, em muitas situações, os programas
podem demorar um longo período de tempo para realizar ____________ de algumas tarefas
(HÖLBIG; MAZZONETTO; PAVAN, 2017). Por isso, dá-se à otimização uma ampla atenção
com a intenção de produzir scripts apropriados, que possam otimizar o desempenho
computacional do processo.
Referência: HÖLBIG, C. A.; MAZZONETTO, A.; PAVAN, W. Computação paralela com a
linguagem R: técnicas, ferramentas e aplicações. Minicurso. 17ª Escola Regional de Alto
Desempenho do Estado do Rio Grande do Sul. Anais, p. 25-42. Ijuí: RS, 2017. Disponível em:
http://www.lbd.dcc.ufmg.br/colecoes/erad/2017/003.pdf. Acesso em: 29 nov. 2019.
Assinale a alternativa que completa adequadamente as lacunas acima.
Alternativas:
● Processos; fácil; programas.
● Processos; crítica; execução.checkCORRETO
●Computadores; fácil; programas.
● Computadores; crítica; execução.
● Computadores; fácil; execução.
Resolução comentada:
Em se tratando de otimização da linguagem R em processos, estudiosos do assunto
afirmam que esta é uma questão crítica, pois, em muitas situações, os programas podem
demorar um longo período de tempo para realizar execução de algumas tarefas.
Código da questão: 50726
7)
Sobre o processamento paralelo, avalie a afirmativa a seguir para completar corretamente
suas lacunas.
Em um processamento paralelo, a maneira como os processadores e dispositivos de
memória realizam comunicação entre si é o que define a(o) ____________ de máquinas
paralelas (MEYER, 2006). Segundo o autor, os principais modelos de ____________ são
____________ e ____________.
Referência: MEYER, L. A. V. C. Uma visão geral dos sistemas distribuídos de cluster e grid e
suas ferramentas para o processamento paralelo de dados. 2006. IBGE [s.d.]. Disponível em
https://www.censo.gov.br/confe... . Acesso em: 17 set. 2019.
Assinale a alternativa que completa adequadamente as lacunas.
Alternativas:
● Arquitetura; memória; compartilhado; distribuído.checkCORRETO
● Processamento; processamento; compartilhado; distribuído.
● Processamento; processamento; paralelo; desempenho.
● Arquitetura; memória; compartilhado; desempenho.
● Arquitetura; memória; paralelo; distribuído.
Resolução comentada:
Em um processamento paralelo, a maneira como os processadores e dispositivos de
memória realizam comunicação entre si é o que define a arquitetura de máquinas paralelas
(MEYER, 2006). Segundo o autor, os principais modelos de memória são compartilhado e
distribuído.
Código da questão: 50701
https://www.censo.gov.br/confest_e_confege/pesquisa_trabalhos/CD/palestras/368-1.pdf
8)
A respeito dos sistemas distribuídos, avalie as asserções a seguir e a relação existente entre
elas.
I. Falhas independentes se referem à capacidade que cada componente do sistema
distribuído tem em poder falhar independentemente, sendo que outros componentes podem
permanecer em plena atividade.
PORQUE
II. Em sistemas distribuídos, as falhas resultam em isolamento do componente que falhou,
ou seja, os componentes que falham ficam isolados da rede, podendo não parar de
funcionar, apenas ficarem isolados.
Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas.
Alternativas:
● A asserção I está incorreta, e a asserção II está correta.
● As asserções I e II estão corretas e, a segunda justifica a primeira.checkCORRETO
● As asserções I e II estão incorretas.
● A asserção I está correta, e a asserção II está incorreta.
● As asserções I e II estão corretas, mas a segunda não justifica a primeira.
Resolução comentada:
Falhas independentes se referem à capacidade que cada componente do sistema
distribuído tem em poder falhar independentemente, sendo que outros componentes podem
permanecer em plena atividade porque em sistemas distribuídos as falhas resultam em
isolamento do componente que falhou, ou seja, os componentes que falham ficam isolados
da rede, podendo não parar de funcionar, apenas ficarem isolados.
Código da questão: 50704
9)
Sobre o uso de linguagem Python para tratamento de grandes volumes de dados, avalie as
asserções a seguir e a relação entre elas.
I. O tratamento de grandes volumes de dados por meio da linguagem Python pode ser feito
pela plataforma Hadoop.
PORQUE
II. A Hadoop é de computação distribuída, com alta escalabilidade, de grande confiabilidade
e bastante tolerante a falhas.
Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas:
Alternativas:
● As asserções I e II estão corretas e a asserção II justifica a I.
● As asserções I e II estão corretas, e a asserção II não justifica a I.checkCORRETO
● A asserção I está incorreta, e a asserção II está correta.
● As asserções I e II estão incorretas.
● A asserção I está correta, e a asserção II está incorreta.
Resolução comentada:
O tratamento de grandes volumes de dados por meio da linguagem Python pode ser feito
pela plataforma Hadoop, a qual é de computação distribuída, com alta escalabilidade, de
grande confiabilidade e bastante tolerante a falhas.
Código da questão: 50724
10)
O uso otimizado da linguagem de programação R pode ser feito a partir da vetorização de
funções em seu ambiente. Uma dessas funções realiza a pré-alocação de memória com o
uso de estruturas de dados mais simplificados. Qual o nome desta função?
Assinale a alternativa CORRETA.
Alternativas:
● rbind.
● glm.
● apply.checkCORRETO
● matrix.
● cbind.
Resolução comentada:
O uso otimizado da linguagem de programação R pode ser feito a partir da vetorização de
funções em seu ambiente, como por exemplo, pela função apply.
Código da questão: 50725