Buscar

Fundamentos de Big Data

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Fundamentos de Big Data 
	1.
	   Alguns autores afirmam que a IoT não se resume apenas em aplicações e objetos, sensores e Internet, ou ainda, não apenas em infraestrutura, tecnologia, objetos e software. Ainda existem os vértices denominados wearables.
 
   As informações a seguir podem ser geradas por Wearables:
   (    ) Exercícios físicos.
   (    ) Informações de saúde.
   (    ) Melhoria da alimentação.
   (    ) Encontrar promoções.
   (    ) Conexão com mídias sociais.
   (    ) Pagamento de contas.
 
   Classifique as sentenças acima como (V) verdadeiro ou (F) falso. Em seguida, marque a alternativa que apresenta a sequência correta:
	A)
	  V; V; F; F; V; V.
	B)
	  V; V; V; V; V; V. 
	C)
	  V; F; F; F; V; V.
	D)
	  F; F; V; F; V; F.
	2.
	  O armazenamento de dados, ou retenção de informações usando uma determinada tecnologia para guardar  e manter dados acessíveis quando necessário, exige a atenção de alguns aspectos. 
 
  Que aspectos devem ser considerados para o armazenamento de dados?  Marque a opção que apresenta corretamente os mesmos.
	A)
	   Portabilidade, Alta Disponibilidade; Flexibilidade. 
	B)
	   Facilidade, Escalabilidade, Flexibilidade.
	C)
	   Usabilidade, Flexibilidade, Segurança.
	D)
	   Escalabilidade; Alta Disponibilidade; Flexibilidade.
	3.
	A aprendizagem de máquina permite acelerar o processo de análise em Big Data, por exemplo, é possível identificar um padrão de um consumidor que comprou um determinado produto e, através deste padrão, prever o comportamento de compra do consumidor para comprar futuramente outros produtos.
 
São exemplos de aplicações de Aprendizagem de Máquina:
 
(   ) Recomendação de filmes, séries e vídeos;
 
(   ) Tradução automática;
 
(   ) Carros autônomos;
 
(   ) Detecção de fraudes.
 
Classifique as sentenças acima como (V) verdadeiro ou (F) falso. Em seguida, marque a alternativa que apresenta a sequência correta:
	A)
	 F; F; V; V. 
	B)
	 V; F; F; V. 
	C)
	 V; V; V; V. 
	D)
	 V; F; V; F.
	4.
	   Nas palavras de Eric Siegel, em seu livro Predictive Analytics: “Os dados que coletamos atualmente nos permitem ver coisas que até pouco tempo atrás eram grandes demais para enxergarmos.” 
 
   Quando estamos falando de Big Data, em uma das suas etapas tratamos a capacidade de análise dos dados. Há quatro tipos de análises em Big Data, uma delas é a Análise Preditiva. Assinale qual das opções abaixo descreve corretamente este tipo de análise.
 
	A)
	   Utiliza a otimização de forma a identificar as melhores alternativas e maximizar ou minimizar algum objetivo. Utilizam-se ferramentas estatísticas tanto de análise descritiva quanto a preditiva alinhada à gestão de negócios, para gerar recomendações automáticas buscando aperfeiçoar estratégias. Basicamente é uma forma de definir qual a escolha será mais efetiva em determinada situação.
	B)
	    Utilizada para perceber performances passadas e atuais de negócios, para tomada de decisões, categorizando, caracterizando, consolidando e classificando os dados em informação útil. Utilizam-se métricas e técnicas de estatística para gerar gráficos e relatórios sobre orçamentos, vendas, receitas, processamento analítico on-line (OLAP), painéis/scorecards e visualização de dados. Através desta análise, uma organização pode avaliar dados sobre a queda das vendas de um produto ou faturamento da empresa nas últimas semanas ou meses, por exemplo.
	C)
	   Se preocupa exclusivamente com os dados passados, é utilizada com interesse em saber o motivo por que determinados eventos aconteceram, na tentativa de minimizar eventuais problemas presentes. Corresponde a um tipo mais avançado de análise, em que são utilizadas técnicas como mineração, correlações, detalhamento e descoberta de dados em busca da descoberta das causas do problema.
	D)
	   Avalia performances passadas, detectando padrões e relações entre os dados futuros. O objetivo é “prever” o futuro, por meio de mineração de dados, dados estatísticos e históricos. Para este modelo também são utilizadas técnicas como Machine Learning e Inteligência Artificial. Um exemplo seria a previsão do faturamento para o próximo trimestre ou a quantidade de chamadas que poderão ocorrer em uma central de call center para próxima campanha publicitária. 
	5.
	   Hoje na Internet encontramos um grande volume de dados com conteúdos relacionados à educação, ciência, varejo, a indústria do entretenimento, governo, social, finanças, transporte, saúde. Todos estes dados, são fontes de Big Data. Mas entender a diferença entre eles proporcionará uma melhor gestão em um projeto, portanto, é essencial saber classificar os tipos de dados existentes.
 
   Com base no texto acima, qual das opções se refere a Dados Estruturados?
   Marque a opção correta.
	A)
	   Trata dos conjuntos de dados que refletem corretamente a realidade representada pela fonte de dados, que são consistentes entre si e que, portanto, são dados válidos, não possui estrutura regular, pouco ou nenhum controle sobre a forma.
	B)
	   Dados armazenados em Banco de Dados tradicionais ou relacionais, organizados em tabelas.   São tabelas com informações contidas em linhas e colunas, na maior parte números, valores numéricos ou caracteres.
	C)
	    Mescla de dados oriundos de várias fontes distintas, como vídeo, texto, áudio, imagens, XML, entre outros. Sem tipo predefinido (o dado vai sendo modelado conforme o tempo vai passando, com os campos adaptados).
	D)
	    Podem seguir diversos padrões, de forma heterogênea, dados embaralhados pela Web em arquivos HTML, XML, ou em Banco de Dados não relacionais, simplicidade para relacionar as informações e dificuldade para alterar o modelo.
	6.
	  O vasto uso de dispositivos móveis, de redes sociais e da web, em que vários dados são disponibilizados constantemente, gerou uma considerável elevação da quantidade de dados armazenados e trafegados no mundo.  Há também uma crescente abundância de dados originados por organizações. Essa exponenciação de dados tornou-se um dos principais desafios para a Ciência da Computação (MCAFEE; BRYNJOLFSSON, 2012). 
 
  Mas o que são dados? Responda selecionando a alternativa correta:
 
	A)
	  São compostos de informações coletadas, informações estatísticas, analisadas e processadas.
	B)
	 É a informação refinada por meio da análise, informação interpretada e aplicada a um fim.
	C)
	 São compostos por fatos coletados, estatísticas ou entradas aleatórias que detêm pouco valor.
	D)
	 Conjunto de dados analisados é derivado de uma coleção de dados processados em que o contexto e o significado foram adicionados aos fatos.
	7.
	 Com certeza você já navegou nos sites da Netflix ou da Amazon. Essas empresas são experts em realizar boas recomendações aos seus consumidores, seja para produtos, séries, livros ou filmes. Pois elas sabem muito bem aplicar Big Data e Machine Learning.
 
Algumas áreas nas quais são aplicadas Machine Learning:
 
(    ) Análise de sentimento baseada em texto.
 
(    ) Novos modelos de precificação.
 
(    ) Resultados de pesquisa na web.
 
(    ) Prever falhas em equipamentos.
 
(    ) Detectar invasões na rede.
 
(    ) Reconhecer padrões e imagens.
 
Classifique as sentenças acima como (V) verdadeiro ou (F) falso. Em seguida, marque a alternativa que apresenta a sequência correta: 
	A)
	  V; V; V; V; V; V. 
	B)
	  V; V; F; F; V; V. 
	C)
	 F; F; V; F; V; F. 
	D)
	 V; F; F; F; V; V.
	8.
	 “Aprendizado de máquina é a capacidade de melhorar o desempenho na realização de alguma tarefa por meio de experiência.” (Mitchell, 1997).
 
Um computador consegue aprender analisando cinco definições, como:
 
I. Ter conhecimento de algo pelo estudo, experiência ou aprendizado.
 
II. Tornar ciente por uma observação ou informação.
 
III. Memorizar.
 
IV. Ser informado ou averiguar algo.
 
V. Receber instrução.
 
Sobre as alternativas, marque a opção correta:  
	A)
	  Apenas as alternativas III e IV estão erradas.
	B)
	 Todas as alternativas estão corretas. 
	C)
	  Alternativas I, II e IIIestão erradas. 
	D)
	  Apenas as alternativas I e II estão corretas. 
	9.
	O objetivo principal do modelo preditivo é ir além de saber o que aconteceu, ao fornecer uma melhor estimativa do que poderá acontecer no futuro. Usando dados, algoritmos e métodos oriundos da estatística, aprendizado de máquinas e mineração de dados para se determinar as chances de resultados futuros, ou desconhecidos, com base em dados passados.
 
O modelo preditivo apresenta três aspectos importantes e que precisam ser compreendidos.
 
Qual das alternativas apresenta os aspectos corretos?  
	A)
	 Coletar Dados; Treinar o Modelo; Fazer Predições. 
	B)
	 Ensinar o Modelo; Fazer Análises; Gera Relatórios. 
	C)
	 Coletar Dados; Gerir Dados; Prever Dados. 
	D)
	 Fazer predições; Fazer Análise; Avaliar Custos.
	10.
	Uma outra ferramenta importante para o Universo Big Data é o HBase, um grande Banco de Dados distribuídos, que permite acessar grande volume de dados de maneira rápida.
 
Ainda sobre o HBase, podemos afirmar:
 
(  ) Tolerante a falhas;
 
(  ) Realiza pesquisas somente em dados arquivados offline;
 
(  ) Faz exportações de métricas através de plug-ins de arquivo e ganglia;
 
(  ) Modelo de dados acomoda ampla gama de casos de uso.
 
Classifique as sentenças acima como (V) verdadeiro ou (F) falso. Em seguida, marque a alternativa que apresenta a sequência correta: 
	A)
	  V; V; V; V. 
	B)
	  V; F; V; V.
	C)
	 F; V; V; F.
	D)
	 F; F; V; F.
	11.
	 A integração de bases de dados diferentes pode apresentar ruídos, informações ambíguas, conflitantes ou mesmo errôneas. Portanto, a qualidade do processo de análise dos dados dependerá da qualidade dos dados armazenados nas bases.
 
Neste contexto, quais das alternativas abaixo apresentam características importantes para se garantir a qualidade dos dados?
Marque a opção correta: 
	A)
	 Integridade; Granularidade; Confiabilidade; Funcionabilidade; Consistência; Flexibilidade.
	B)
	 Integridade; Granularidade; Tempestividade; Precisão; Consistência; Flexibilidade. 
	C)
	 Integridade; Portabilidade; Tempestividade; Precisão; Usabilidade; Flexibilidade. 
	D)
	 Integridade; Eficiência; Eficácia; Precisão; Consistência; Flexibilidade.
	12.
	O cientista de dados deve conhecer de tecnologia, de matemática, ter curiosidade e criatividade. Um cientista curioso é aquele que não se conforma com qualquer coisa, qualquer informação. Agora, conseguir um profissional com conhecimentos técnicos, quantitativos, curioso e colaborativo/comunicativo é bem difícil. Ao mesmo tempo, este cientista de dados deve saber atuar como um líder, juntamente com profissionais especializados no que fazem.
 
Quais profissionais são aliados ao cientista de dados complementando uma equipe Analytics? Marque a alternativa correta. 
	A)
	  Data Engineer; Equipe Testes; DBA; Administrador; Estatístico; Analista de Negócios; Contador. 
	B)
	 Data Engineer; Equipe de Extração; DBA; Programador; Estatístico; Analista de Negócios; Designer.
	C)
	 Data Engineer; Equipe de Manutenção; Gerente de Projetos; Suporte Técnico; Matemático; Analista de Negócios; Designer.
	D)
	 Data Engineer; Advogado; DBA; Programador; Estatístico; Analista de Negócios; Designer. 
	13.
	   Tem aviões mandando informações de por onde estão voando e quais as condições climáticas, permitindo voos muito mais seguros e quase independentes dos pilotos. Até o seu carro pode transmitir quais são as condições da estrada em que você está dirigindo e acompanhar os dados do GPS de motoristas que ajudam a predizer os horários e locais que estarão mais congestionados, em parte é isso que você faz quando usa aplicativos para cortar caminhos.
 
   Quando estamos falando de Big Data, estamos tratando a capacidade de análise dos dados. Há quatro tipos de análises em Big Data, uma delas é a Análise Prescritiva. Assinale qual das opções abaixo descreve corretamente este tipo de análise.
	A)
	   Se preocupa com os dados passados, é utilizada com interesse em saber o motivo por que determinados eventos aconteceram na análise descritiva, na tentativa de minimizar eventuais problemas presentes. Corresponde a um tipo mais avançado de análise, em que são utilizadas técnicas como mineração, correlações, detalhamento e descoberta de dados em busca da descoberta das causas do problema.
	B)
	   Utilizada para perceber performances passadas e atuais de negócios, para tomada de decisões, categorizando, caracterizando, consolidando e classificando os dados em informação útil. Utilizam-se métricas e técnicas de estatística para gerar gráficos e relatórios sobre orçamentos, vendas, receitas, processamento analítico on-line (OLAP), painéis/scorecards e visualização de dados. Através desta análise, uma organização pode avaliar dados sobre a queda das vendas de um produto ou faturamento da empresa nas últimas semanas ou meses, por exemplo.
	C)
	   Utiliza a otimização de forma a identificar as melhores alternativas e maximizar ou minimizar algum objetivo. Utilizam-se ferramentas estatísticas tanto de análise descritiva quanto a preditiva alinhada à gestão de negócios, para gerar recomendações automáticas buscando aperfeiçoar estratégias. Basicamente é uma forma de definir qual a escolha será mais efetiva em determinada situação.
	D)
	   Avalia performances passadas, detectando padrões e relações entre os dados futuros. O objetivo é “prever” o futuro, por meio de mineração de dados, dados estatísticos e históricos. Para este modelo também são utilizadas técnicas como Machine Learning e Inteligência Artificial. Um exemplo seria a previsão do faturamento para o próximo trimestre ou a quantidade de chamadas que poderão ocorrer em uma central de call center para próxima campanha publicitária.
	14.
	   Cada vez mais organizações buscam formas sistemáticas para identificar, gerenciar e integrar dados que se encontram disponíveis em diversos meios. O que se torna um grande desafio diante de uma quantidade incalculável de dados.
 
  Neste contexto, pode-se afirmar que as organizações precisam buscar que tipo de apoio para captar, organizar, analisar e gerenciar dados dos seus consumidores e suas operações, trazendo de fato impactos decisivos para o mercado e a concorrência?
 
  Marque a alternativa correta:
 
	A)
	  Analista de Negócios e Administradores.
	B)
	  Profissionais, como equipes de analytics de forma integrada.
	C)
	  Administrador de Banco de Dados e Desenvolvedores.
	D)
	  Analista de Sistemas e Testers.
	15.
	 O processo para obtenção dos dados possui diversas etapas, desde a coleta do dado até o seu descarte. Visando auxiliar estas necessidades para captar e gerar dados e atribuir valor junto à tomada de decisões, há um processo genérico no qual é estruturado o ciclo de vida dos dados.
Quais etapas compõem esse processo genérico? Marque a alternativa correta.
 
	A)
	  Desenvolvimento, Processamento, Construção, Análise, Descarte.
	B)
	  Produção, Armazenamento, Transformação, Análise, Descarte.
	C)
	  Produção, Processamento, Transformação, Teste, Descarte.
	D)
	  Desenvolvimento, Armazenamento, Transformação, Transição, Descarte. 
	16.
	   É difícil falar sobre Big Data sem mencionar o Google, pois muitos dos seus estudos e trabalhos foram motivadores para as ferramentas que utilizamos hoje. 
   Dentre uma das ferramentas, o Map Reduce teve um primeiro artigo publicado pelo Google em 2004. Marque qual das opções a seguir representa MapReduce.
	A)
	   Utiliza índices diversos, mecanismos de varrer uma rede inteira, buscando palavras e indexando essas palavras.
	B)
	  Um sistema de arquivos distribuídos e tolerante a falhas, com escala para diversas máquinas em funcionamento paralelo.
	C)
	  Um banco de dados distribuídos e paralelo em que você pudesse acessar os dados com muitas atividades e um grande volume de dados.
	D)
	 Uma técnica de programação paralela, que define um modelo em que seu programa paralelo tem que ser seguido a partir de duas operações – Map e Reduce.
	17.
	Até mesmo na área de meio ambiente háa utilização de Machine Learning, em que satélites monitoram águas costeiras, gerando imagens diariamente para detecção de manchas de óleo, permitindo treinar um sistema detector de contaminação.
 
 Mas para fazer adoção e o desenvolvimento de Machine Learning, alguns passos devem ser seguidos, como:
 
I. Data Selection;
 
II. Feature Selection;
 
III. Model Selection;
 
IV. Learning
 
Que podem ser interpretados como:
 
P - escolher as características dos dados empregados é um passo muito importante. Deve-se indicar os dados menos sensíveis a ruídos e que sejam mais fáceis de serem manipulados. Nesta ocasião é realizada a divisão entre os dados que serão utilizados para treinamento do modelo e os dados para realização dos testes.
 
Q- carece iniciar por modelos mais simples e acrescentar a complexidade se necessário. Este modelo é uma parte de uma realidade ocorrida, em que se deve obter total controle sobre aquilo que aconteceu. Desta forma será possível realizar as fases seguintes de treinamento e testes identificando se o algoritmo será capaz de prever com o maior nível de assertividade.
 
R- a assimilação dos dados que serão empregados para atingir o objetivo é essencial para o acontecimento do projeto. Este processo compreende a limpeza, seleção e adequação dos dados que serão empregados. Se você não tem os dados adequados, não há como buscar fazer previsões.
 
S- a etapa de treinamento é bem importante para que o processo seja concluído com êxito. Aproxime os parâmetros adequados que minimizem o erro do algoritmo. Entenda que o algoritmo precisa destes parâmetros e dos resultados para saber como se comportar nas fases posteriores.
 
Relacione cada passo à interpretação e marque a opção correta: 
	A)
	 I – S; II – P; III – Q; IV – R.
	B)
	  I – R; II – P; III – Q; IV – S. 
	C)
	 I – P; II – Q; III – R; IV – S. 
	D)
	  I – R; II – S; III – Q; IV – P. 
	18.
	“Data Science: é o estudo científico da criação, validação e transformação de dados para criar significados” (JOSH WILLS).
 
As principais características que diferenciam estatística de Data Science são:
 
I. Capacidade de manipular enormes quantidades de dados;
 
II. Usar algoritmos de Inteligência Artificial;
 
III. Usar computação em larga escala.
 
Classifique como (V) verdadeiro ou (F) falso as opções I a III. Marque a alternativa com a sequência correta: 
	A)
	 V; F; V. 
	B)
	  V; V; V. 
	C)
	 F; F; V.
	D)
	  F; F; F. 
	19.
	  Aprovado pelo plenário do Senado Federal, o PLC 53/2018 dispõe sobre a proteção de dados pessoais e altera a Lei 12.965/16 do Marco Civil da Internet, sendo consolidada como a Lei Geral de Proteção de Dados Brasileira (LGPD). 
 
   Recentemente, Josefa Christina fez uma compra on-line em um site e-commerce, no qual forneceu seus principais dados pessoais, como: nome, CPF, e-mail, telefone, endereço. Logo em seguida, passou a receber diversas ofertas de outros sites parceiros do e-commerce no qual ela havia realizado a compra, mas em momento algum concordou em compartilhar os seus dados.  Diante deste cenário e de acordo com a Lei Geral de Proteção de Dados Brasileiros, qual direito não foi atendido pelo site em que Josefa realizou suas compras on-line?  Marque a opção correta:
	A)
	 Direito do Consumidor.
	B)
	 Segurança Jurídica.
	C)
	 Regras para empresas.
	D)
	 Direito à Privacidade.
	20.
	  Além dos grupos de diversas ferramentas que trabalham com Big Data, ainda há como Tecnologias Big Data as Linguagens de Dados. 
 
  Podemos citar como Linguagens: R; Python e XPath.
 
Interpretadas como:
I – Surgiu com um propósito bem específico de facilitar as análises estatísticas e visualização de dados, de forma que fosse mais amigável para os usuários.
II – Possui um foco generalista, serve desde fazer aplicações web, até fazer análises de dados em larga escala.
III - É uma linguagem de consulta que seleciona nós em um documento XML.
 
Relacione cada linguagem à interpretação e marque a opção correta:
	A)
	 R – III; Python – II; XPath – I.
	B)
	 R – I; Python – III; XPath – II.
	C)
	 R – II; Python – I; XPath – III.
	D)
	 R – I; Python – II; XPath – III. 
ABABBBCBBDBBDD

Outros materiais