Buscar

Fundamentos Big data

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 7 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Fundamentos de Big Data 
1. Alguns autores afirmam que a IoT não se resume apenas em aplicações e objetos, sensores e Internet, 
ou ainda, não apenas em infraestrutura, tecnologia, objetos e software. Ainda existem os vértices 
denominados wearables. 
 
 As informações a seguir podem ser geradas por Wearables: 
 ( ) Exercícios físicos. 
 ( ) Informações de saúde. 
 ( ) Melhoria da alimentação. 
 ( ) Encontrar promoções. 
 ( ) Conexão com mídias sociais. 
 ( ) Pagamento de contas. 
 
 Classifique as sentenças acima como (V) verdadeiro ou (F) falso. Em seguida, marque a alternativa que 
apresenta a sequência correta: 
A) 
 V; V; F; F; V; V. 
B) 
 V; V; V; V; V; V. 
C) 
 V; F; F; F; V; V. 
D) 
 F; F; V; F; V; F. 
 
2. O armazenamento de dados, ou retenção de informações usando uma determinada tecnologia para 
guardar e manter dados acessíveis quando necessário, exige a atenção de alguns aspectos. 
 
 Que aspectos devem ser considerados para o armazenamento de dados? Marque a opção que apresenta 
corretamente os mesmos. 
A) 
 Portabilidade, Alta Disponibilidade; Flexibilidade. 
B) 
 Facilidade, Escalabilidade, Flexibilidade. 
C) 
 Usabilidade, Flexibilidade, Segurança. 
D) 
 Escalabilidade; Alta Disponibilidade; Flexibilidade. 
3. A aprendizagem de máquina permite acelerar o processo de análise em Big Data, por exemplo, é possível 
identificar um padrão de um consumidor que comprou um determinado produto e, através deste padrão, 
prever o comportamento de compra do consumidor para comprar futuramente outros produtos. 
 
São exemplos de aplicações de Aprendizagem de Máquina: 
 
( ) Recomendação de filmes, séries e vídeos; 
 
( ) Tradução automática; 
 
( ) Carros autônomos; 
 
( ) Detecção de fraudes. 
 
Classifique as sentenças acima como (V) verdadeiro ou (F) falso. Em seguida, marque a alternativa que 
apresenta a sequência correta: 
A) 
 F; F; V; V. 
B) 
 V; F; F; V. 
C) 
 V; V; V; V. 
D) 
 V; F; V; F. 
4. Nas palavras de Eric Siegel, em seu livro Predictive Analytics: “Os dados que coletamos atualmente nos 
permitem ver coisas que até pouco tempo atrás eram grandes demais para enxergarmos.” 
 
 Quando estamos falando de Big Data, em uma das suas etapas tratamos a capacidade de análise dos 
dados. Há quatro tipos de análises em Big Data, uma delas é a Análise Preditiva. Assinale qual das opções 
abaixo descreve corretamente este tipo de análise. 
 
A) 
 Utiliza a otimização de forma a identificar as melhores alternativas e maximizar ou minimizar 
algum objetivo. Utilizam-se ferramentas estatísticas tanto de análise descritiva quanto a preditiva 
alinhada à gestão de negócios, para gerar recomendações automáticas buscando aperfeiçoar 
estratégias. Basicamente é uma forma de definir qual a escolha será mais efetiva em determinada 
situação. 
B) 
 Utilizada para perceber performances passadas e atuais de negócios, para tomada de decisões, 
categorizando, caracterizando, consolidando e classificando os dados em informação útil. Utilizam-se 
métricas e técnicas de estatística para gerar gráficos e relatórios sobre orçamentos, vendas, 
receitas, processamento analítico on-line (OLAP), painéis/scorecards e visualização de dados. 
Através desta análise, uma organização pode avaliar dados sobre a queda das vendas de um 
produto ou faturamento da empresa nas últimas semanas ou meses, por exemplo. 
C) 
 Se preocupa exclusivamente com os dados passados, é utilizada com interesse em saber o motivo 
por que determinados eventos aconteceram, na tentativa de minimizar eventuais problemas 
presentes. Corresponde a um tipo mais avançado de análise, em que são utilizadas técnicas como 
mineração, correlações, detalhamento e descoberta de dados em busca da descoberta das causas do 
problema. 
D) 
 Avalia performances passadas, detectando padrões e relações entre os dados futuros. O objetivo é 
“prever” o futuro, por meio de mineração de dados, dados estatísticos e históricos. Para este modelo 
também são utilizadas técnicas como Machine Learning e Inteligência Artificial. Um exemplo seria a 
previsão do faturamento para o próximo trimestre ou a quantidade de chamadas que poderão 
ocorrer em uma central de call center para próxima campanha publicitária. 
5. Hoje na Internet encontramos um grande volume de dados com conteúdos relacionados à educação, 
ciência, varejo, a indústria do entretenimento, governo, social, finanças, transporte, saúde. Todos estes 
dados, são fontes de Big Data. Mas entender a diferença entre eles proporcionará uma melhor gestão em 
um projeto, portanto, é essencial saber classificar os tipos de dados existentes. 
 
 Com base no texto acima, qual das opções se refere a Dados Estruturados? 
 Marque a opção correta. 
A) 
 Trata dos conjuntos de dados que refletem corretamente a realidade representada pela fonte 
de dados, que são consistentes entre si e que, portanto, são dados válidos, não possui estrutura 
regular, pouco ou nenhum controle sobre a forma. 
B) 
 Dados armazenados em Banco de Dados tradicionais ou relacionais, organizados em 
tabelas. São tabelas com informações contidas em linhas e colunas, na maior parte números, 
valores numéricos ou caracteres. 
C) 
 Mescla de dados oriundos de várias fontes distintas, como vídeo, texto, áudio, imagens, 
XML, entre outros. Sem tipo predefinido (o dado vai sendo modelado conforme o tempo vai 
passando, com os campos adaptados). 
D) 
 Podem seguir diversos padrões, de forma heterogênea, dados embaralhados pela Web em 
arquivos HTML, XML, ou em Banco de Dados não relacionais, simplicidade para relacionar as 
informações e dificuldade para alterar o modelo. 
6. O vasto uso de dispositivos móveis, de redes sociais e da web, em que vários dados são disponibilizados 
constantemente, gerou uma considerável elevação da quantidade de dados armazenados e trafegados no 
mundo. Há também uma crescente abundância de dados originados por organizações. Essa 
exponenciação de dados tornou-se um dos principais desafios para a Ciência da Computação (MCAFEE; 
BRYNJOLFSSON, 2012). 
 
 Mas o que são dados? Responda selecionando a alternativa correta: 
 
A) 
 São compostos de informações coletadas, informações estatísticas, analisadas e processadas. 
B) 
 É a informação refinada por meio da análise, informação interpretada e aplicada a um fim. 
C) 
 São compostos por fatos coletados, estatísticas ou entradas aleatórias que detêm pouco valor. 
D) 
 Conjunto de dados analisados é derivado de uma coleção de dados processados em que o 
contexto e o significado foram adicionados aos fatos. 
7. Com certeza você já navegou nos sites da Netflix ou da Amazon. Essas empresas são experts em realizar 
boas recomendações aos seus consumidores, seja para produtos, séries, livros ou filmes. Pois elas sabem 
muito bem aplicar Big Data e Machine Learning. 
 
Algumas áreas nas quais são aplicadas Machine Learning: 
 
( ) Análise de sentimento baseada em texto. 
 
( ) Novos modelos de precificação. 
 
( ) Resultados de pesquisa na web. 
 
( ) Prever falhas em equipamentos. 
 
( ) Detectar invasões na rede. 
 
( ) Reconhecer padrões e imagens. 
 
Classifique as sentenças acima como (V) verdadeiro ou (F) falso. Em seguida, marque a alternativa que 
apresenta a sequência correta: 
A) 
 V; V; V; V; V; V. 
B) 
 V; V; F; F; V; V. 
C) 
 F; F; V; F; V; F. 
D) 
 V; F; F; F; V; V. 
 
8. “Aprendizado de máquina é a capacidade de melhorar o desempenho na realização de alguma tarefa por 
meio de experiência.” (Mitchell, 1997). 
 
Um computador consegue aprender analisando cinco definições, como: 
 
I. Ter conhecimento de algo pelo estudo, experiência ou aprendizado. 
 
II. Tornar ciente por uma observação ou informação. 
 
III. Memorizar. 
 
IV. Ser informado ou averiguar algo. 
 
V. Receber instrução. 
 
Sobre as alternativas, marque a opção correta: 
A) 
 Apenas as alternativas III e IVestão erradas. 
B) 
 Todas as alternativas estão corretas. 
C) 
 Alternativas I, II e III estão erradas. 
D) 
 Apenas as alternativas I e II estão corretas. 
 
9. O objetivo principal do modelo preditivo é ir além de saber o que aconteceu, ao fornecer uma melhor 
estimativa do que poderá acontecer no futuro. Usando dados, algoritmos e métodos oriundos da 
estatística, aprendizado de máquinas e mineração de dados para se determinar as chances de resultados 
futuros, ou desconhecidos, com base em dados passados. 
 
O modelo preditivo apresenta três aspectos importantes e que precisam ser compreendidos. 
 
Qual das alternativas apresenta os aspectos corretos? 
A) 
 Coletar Dados; Treinar o Modelo; Fazer Predições. 
B) 
 Ensinar o Modelo; Fazer Análises; Gera Relatórios. 
C) 
 Coletar Dados; Gerir Dados; Prever Dados. 
D) 
 Fazer predições; Fazer Análise; Avaliar Custos. 
10. Uma outra ferramenta importante para o Universo Big Data é o HBase, um grande Banco de Dados 
distribuídos, que permite acessar grande volume de dados de maneira rápida. 
 
Ainda sobre o HBase, podemos afirmar: 
 
( ) Tolerante a falhas; 
 
( ) Realiza pesquisas somente em dados arquivados offline; 
 
( ) Faz exportações de métricas através de plug-ins de arquivo e ganglia; 
 
( ) Modelo de dados acomoda ampla gama de casos de uso. 
 
Classifique as sentenças acima como (V) verdadeiro ou (F) falso. Em seguida, marque a alternativa que 
apresenta a sequência correta: 
A) 
 V; V; V; V. 
B) 
 V; F; V; V. 
C) 
 F; V; V; F. 
D) 
 F; F; V; F. 
11. A integração de bases de dados diferentes pode apresentar ruídos, informações ambíguas, conflitantes ou 
mesmo errôneas. Portanto, a qualidade do processo de análise dos dados dependerá da qualidade dos 
dados armazenados nas bases. 
 
Neste contexto, quais das alternativas abaixo apresentam características importantes para se garantir a 
qualidade dos dados? 
Marque a opção correta: 
A) 
 Integridade; Granularidade; Confiabilidade; Funcionabilidade; Consistência; 
Flexibilidade. 
B) 
 Integridade; Granularidade; Tempestividade; Precisão; Consistência; 
Flexibilidade. 
C) 
 Integridade; Portabilidade; Tempestividade; Precisão; Usabilidade; Flexibilidade. 
D) 
 Integridade; Eficiência; Eficácia; Precisão; Consistência; Flexibilidade. 
12. O cientista de dados deve conhecer de tecnologia, de matemática, ter curiosidade e criatividade. Um 
cientista curioso é aquele que não se conforma com qualquer coisa, qualquer informação. Agora, conseguir 
um profissional com conhecimentos técnicos, quantitativos, curioso e colaborativo/comunicativo é bem 
difícil. Ao mesmo tempo, este cientista de dados deve saber atuar como um líder, juntamente com 
profissionais especializados no que fazem. 
 
Quais profissionais são aliados ao cientista de dados complementando uma equipe Analytics? Marque a 
alternativa correta. 
A) 
 Data Engineer; Equipe Testes; DBA; Administrador; Estatístico; Analista de Negócios; 
Contador. 
B) 
 Data Engineer; Equipe de Extração; DBA; Programador; Estatístico; Analista de 
Negócios; Designer. 
C) 
 Data Engineer; Equipe de Manutenção; Gerente de Projetos; Suporte Técnico; 
Matemático; Analista de Negócios; Designer. 
D) 
 Data Engineer; Advogado; DBA; Programador; Estatístico; Analista de Negócios; 
Designer. 
13. Tem aviões mandando informações de por onde estão voando e quais as condições climáticas, 
permitindo voos muito mais seguros e quase independentes dos pilotos. Até o seu carro pode transmitir 
quais são as condições da estrada em que você está dirigindo e acompanhar os dados do GPS de 
motoristas que ajudam a predizer os horários e locais que estarão mais congestionados, em parte é isso 
que você faz quando usa aplicativos para cortar caminhos. 
 
 Quando estamos falando de Big Data, estamos tratando a capacidade de análise dos dados. Há quatro 
tipos de análises em Big Data, uma delas é a Análise Prescritiva. Assinale qual das opções abaixo descreve 
corretamente este tipo de análise. 
A) 
 Se preocupa com os dados passados, é utilizada com interesse em saber o motivo por que 
determinados eventos aconteceram na análise descritiva, na tentativa de minimizar eventuais 
problemas presentes. Corresponde a um tipo mais avançado de análise, em que são utilizadas 
técnicas como mineração, correlações, detalhamento e descoberta de dados em busca da descoberta 
das causas do problema. 
B) 
 Utilizada para perceber performances passadas e atuais de negócios, para tomada de decisões, 
categorizando, caracterizando, consolidando e classificando os dados em informação útil. Utilizam-se 
métricas e técnicas de estatística para gerar gráficos e relatórios sobre orçamentos, vendas, 
receitas, processamento analítico on-line (OLAP), painéis/scorecards e visualização de dados. 
Através desta análise, uma organização pode avaliar dados sobre a queda das vendas de um 
produto ou faturamento da empresa nas últimas semanas ou meses, por exemplo. 
C) 
 Utiliza a otimização de forma a identificar as melhores alternativas e maximizar ou minimizar 
algum objetivo. Utilizam-se ferramentas estatísticas tanto de análise descritiva quanto a preditiva 
alinhada à gestão de negócios, para gerar recomendações automáticas buscando aperfeiçoar 
estratégias. Basicamente é uma forma de definir qual a escolha será mais efetiva em determinada 
situação. 
D) 
 Avalia performances passadas, detectando padrões e relações entre os dados futuros. O objetivo é 
“prever” o futuro, por meio de mineração de dados, dados estatísticos e históricos. Para este modelo 
também são utilizadas técnicas como Machine Learning e Inteligência Artificial. Um exemplo seria a 
previsão do faturamento para o próximo trimestre ou a quantidade de chamadas que poderão 
ocorrer em uma central de call center para próxima campanha publicitária. 
14. Cada vez mais organizações buscam formas sistemáticas para identificar, gerenciar e integrar dados que 
se encontram disponíveis em diversos meios. O que se torna um grande desafio diante de uma quantidade 
incalculável de dados. 
 
 Neste contexto, pode-se afirmar que as organizações precisam buscar que tipo de apoio para captar, 
organizar, analisar e gerenciar dados dos seus consumidores e suas operações, trazendo de fato impactos 
decisivos para o mercado e a concorrência? 
 
 Marque a alternativa correta: 
 
A) 
 Analista de Negócios e Administradores. 
B) 
 Profissionais, como equipes de analytics de forma integrada. 
C) 
 Administrador de Banco de Dados e Desenvolvedores. 
D) 
 Analista de Sistemas e Testers. 
15. O processo para obtenção dos dados possui diversas etapas, desde a coleta do dado até o seu descarte. 
Visando auxiliar estas necessidades para captar e gerar dados e atribuir valor junto à tomada de decisões, há 
um processo genérico no qual é estruturado o ciclo de vida dos dados. 
Quais etapas compõem esse processo genérico? Marque a alternativa correta. 
 
A) 
 Desenvolvimento, Processamento, Construção, Análise, Descarte. 
B) 
 Produção, Armazenamento, Transformação, Análise, Descarte. 
C) 
 Produção, Processamento, Transformação, Teste, Descarte. 
D) 
 Desenvolvimento, Armazenamento, Transformação, Transição, Descarte. 
16. É difícil falar sobre Big Data sem mencionar o Google, pois muitos dos seus estudos e trabalhos foram 
motivadores para as ferramentas que utilizamos hoje. 
 Dentre uma das ferramentas, o Map Reduce teve um primeiro artigo publicado pelo Google em 2004. 
Marque qual das opções a seguir representa MapReduce. 
A) 
 Utiliza índices diversos, mecanismos de varrer uma rede inteira, buscando palavras e 
indexando essas palavras. 
B) 
 Um sistema de arquivos distribuídos e tolerante a falhas, com escala para diversas máquinas 
em funcionamento paralelo. 
C) 
 Um banco de dados distribuídos e paralelo em que você pudesse acessar os dados com muitas 
atividades e um grande volume de dados. 
D) 
 Uma técnica de programação paralela,que define um modelo em que seu programa paralelo 
tem que ser seguido a partir de duas operações – Map e Reduce. 
17. Até mesmo na área de meio ambiente há a utilização de Machine Learning, em que satélites monitoram águas 
costeiras, gerando imagens diariamente para detecção de manchas de óleo, permitindo treinar um sistema 
detector de contaminação. 
 
 Mas para fazer adoção e o desenvolvimento de Machine Learning, alguns passos devem ser seguidos, como: 
 
I. Data Selection; 
 
II. Feature Selection; 
 
III. Model Selection; 
 
IV. Learning 
 
Que podem ser interpretados como: 
 
P - escolher as características dos dados empregados é um passo muito importante. Deve-se indicar os dados 
menos sensíveis a ruídos e que sejam mais fáceis de serem manipulados. Nesta ocasião é realizada a divisão 
entre os dados que serão utilizados para treinamento do modelo e os dados para realização dos testes. 
 
Q- carece iniciar por modelos mais simples e acrescentar a complexidade se necessário. Este modelo é uma 
parte de uma realidade ocorrida, em que se deve obter total controle sobre aquilo que aconteceu. Desta forma 
será possível realizar as fases seguintes de treinamento e testes identificando se o algoritmo será capaz de 
prever com o maior nível de assertividade. 
 
R- a assimilação dos dados que serão empregados para atingir o objetivo é essencial para o acontecimento do 
projeto. Este processo compreende a limpeza, seleção e adequação dos dados que serão empregados. Se você 
não tem os dados adequados, não há como buscar fazer previsões. 
 
S- a etapa de treinamento é bem importante para que o processo seja concluído com êxito. Aproxime os 
parâmetros adequados que minimizem o erro do algoritmo. Entenda que o algoritmo precisa destes 
parâmetros e dos resultados para saber como se comportar nas fases posteriores. 
 
Relacione cada passo à interpretação e marque a opção correta: 
A) 
 I – S; II – P; III – Q; IV – R. 
B) 
 I – R; II – P; III – Q; IV – S. 
C) 
 I – P; II – Q; III – R; IV – S. 
D) 
 I – R; II – S; III – Q; IV – P. 
 
18. “Data Science: é o estudo científico da criação, validação e transformação de dados para criar significados” 
(JOSH WILLS). 
 
As principais características que diferenciam estatística de Data Science são: 
 
I. Capacidade de manipular enormes quantidades de dados; 
 
II. Usar algoritmos de Inteligência Artificial; 
 
III. Usar computação em larga escala. 
 
Classifique como (V) verdadeiro ou (F) falso as opções I a III. Marque a alternativa com a sequência 
correta: 
A) 
 V; F; V. 
B) 
 V; V; V. 
C) 
 F; F; V. 
D) 
 F; F; F. 
19. Aprovado pelo plenário do Senado Federal, o PLC 53/2018 dispõe sobre a proteção de dados pessoais e altera 
a Lei 12.965/16 do Marco Civil da Internet, sendo consolidada como a Lei Geral de Proteção de Dados 
Brasileira (LGPD). 
 
 Recentemente, Josefa Christina fez uma compra on-line em um site e-commerce, no qual forneceu seus 
principais dados pessoais, como: nome, CPF, e-mail, telefone, endereço. Logo em seguida, passou a receber 
diversas ofertas de outros sites parceiros do e-commerce no qual ela havia realizado a compra, mas em 
momento algum concordou em compartilhar os seus dados. Diante deste cenário e de acordo com a Lei Geral 
de Proteção de Dados Brasileiros, qual direito não foi atendido pelo site em que Josefa realizou suas compras 
on-line? Marque a opção correta: 
A) 
 Direito do Consumidor. 
B) 
 Segurança Jurídica. 
C) 
 Regras para empresas. 
D) 
 Direito à Privacidade. 
 
20. Além dos grupos de diversas ferramentas que trabalham com Big Data, ainda há como Tecnologias Big 
Data as Linguagens de Dados. 
 
 Podemos citar como Linguagens: R; Python e XPath. 
 
Interpretadas como: 
I – Surgiu com um propósito bem específico de facilitar as análises estatísticas e visualização de dados, de 
forma que fosse mais amigável para os usuários. 
II – Possui um foco generalista, serve desde fazer aplicações web, até fazer análises de dados em larga 
escala. 
III - É uma linguagem de consulta que seleciona nós em um documento XML. 
 
Relacione cada linguagem à interpretação e marque a opção correta: 
A) 
 R – III; Python – II; XPath – I. 
B) 
 R – I; Python – III; XPath – II. 
C) 
 R – II; Python – I; XPath – III. 
D) 
 R – I; Python – II; XPath – III. 
 
 
 
ABABBBCBBDBBDD

Continue navegando