Buscar

2022919_181047_Aula 2 - Big Data Conceitos

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 19 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 19 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 19 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Continue navegando


Prévia do material em texto

Business Analytics:
Big Data
O que é Big Data?
Prof. Esp. Nicholas Alves Said Góes
Antes de tudo, o que é um dado?
● São as menores unidades de 
informação.
● É um registro atribuído a algo.
● É a gravação de caracteres ou 
símbolos que tem um significado.
● São conceitos ou posições em um 
mapa
● Do latim datum (“aquilo que se dá”)
Ou simplesmente um dado
Big Data? É de comer?
McKinsey Global Institute define como “A intensa utilização de redes sociais online, de 
dispositivos móveis para conexão à Internet, transações e conteúdos digitais e também o 
crescente uso de computação em nuvem tem gerado quantidades incalculáveis de dados. 
O termo Big Data refere-se a este conjunto de dados cujo crescimento é exponencial e 
cuja dimensão está além da habilidade das ferramentas típicas de capturar, gerenciar e 
analisar dados”.
"O Gartner, por sua vez, define como Big Data o termo adotado pelo mercado para 
descrever problemas no gerenciamento e processamento de informações extremas as 
quais excedem a capacidade das tecnologias de informações tradicionais ao longo de uma 
ou várias dimensões. Big Data está focado principalmente em questões de volume de 
conjunto de dados extremamente grandes gerados a partir de práticas tecnológicas, tais 
como mídia social, tecnologias operacionais, acessos à Internet e fontes de informações 
distribuídas. Big Data é essencialmente uma prática que apresenta novas oportunidades 
de negócios." (Cezar Taurion, Big Data)
Big Data? É de comer? (Season 2)
“Big data é a área do conhecimento que estuda como tratar, analisar e obter informações a partir 
de conjuntos de dados grandes demais para serem analisados por sistemas tradicionais.” 
Wikipedia, 2022
“Big Data é um processo de análise e interpretação de um grande volume de dados armazenados 
remotamente.” FIA, 2021
“Big Data é a análise e a interpretação de grandes volumes de dados de grande variedade. Para 
isso são necessárias soluções específicas para Big Data que permitam a profissionais de TI 
trabalhar com informações não-estruturadas a uma grande velocidade.” Canaltech, 2015
Big Data? Se for de comer, passo
(Season ∞)
“Big data pode ser descrito em termos de desafios de gerenciamento de dados que – devido aos crescentes 
volume, velocidade e variedade dos dados – não podem ser resolvidos com bancos de dados tradicionais. Embora 
haja várias definições para big data, a maioria delas inclui o conceito comumente conhecido como "três Vs" de big 
data:
Volume: varia de terabytes e petabytes de dados
Variedade: inclui dados de uma ampla variedade de origens e formatos (por exemplo, logs da web, interações de 
mídia social, comércio eletrônico e transações online, transações bancárias, etc.)
Velocidade: cada vez mais, os negócios enfrentam requisitos rígidos do momento em que os dados são gerados 
até o momento em que as descobertas práticas são entregues aos usuários. Portanto, os dados precisam ser 
coletados, armazenados, processados e analisados em curtos períodos de tempo, variando de diariamente até em 
tempo real” AWS, 2022
Por que precisamos do Big Data?
De acordo com o artigo de 2015 “20 fatos sobre a internet que você (provavelmente) não sabe”, 
os dados gerados nos últimos dois anos superam o volume produzido em toda a história da 
humanidade.
O mesmo artigo indicava que até 2020, cerca de 1,7 megabyte de informações inéditas seriam 
criadas por segundo para cada indivíduo no planeta.
https://forbes.com.br/fotos/2015/10/20-fatos-sobre-a-internet-que-voce-provavelmente-nao-sabe/
Mais sobre volume de dados…
O Facebook armazena, acessa e analisa mais de 50 petabytes de informações geradas pelos 
usuários, a cada mês são gerados mais de 700 milhões de minutos por mês.
A cada minuto são feitos uploads de 48 horas de vídeos no Youtube, ou seja, nunca ninguém 
conseguirá assistir todos os vídeos do Youtube.
Diariamente mais de 500 milhões de mensagens são enviadas pelo Twitter, com uma média de 
5700 TPS (Twittes per Second ou Mensagens por Segundo), o recorde é de 143.199 TPS.
O Google processa diariamente mais de 3 bilhões de pesquisas em todo o mundo, sendo desse 
total 15% totalmente inéditas. Seu “motor” de pesquisa rastreia 20 bilhões de sites diariamente, 
armazenando 100 petabytes de informação. Sem contar todas as informações que as 
companhias geram diariamente, sejam elas estruturadas ou não.
https://cetax.com.br/big-data/
Mas e aquela história de “V”s do Big Data
E quais os principais Vs?
Volume: Quantidade de dados realmente grandes, que estão crescendo a todo tempo.
Velocidade: Habilidade de obter, registrar e consumir/analisar, sempre no menor tempo possível 
(normalmente próximo ao tempo real)
Variedade: Dados de diversos formatos, de diversas fontes e diversos contextos.
Veracidade: Dados confiáveis e consistentes (na medida do possível).
Valor: Os dados registrados devem ter valor ou trazer benefícios na sua análise.
Quais desafios temos com esses Vs?
Suportar diversos tipos de dados;
Lidar com volumes extremamente grandes de dados;
Processamentos em tempo real, ou quase isso;
Distribuição de processamento;
Ambientes escaláveis;
Basicamente encontrar soluções que suportem todos os Vs. E conseguir encontrar a ferramenta 
adequada para o seu cenário.
Ecossistema Big Data
Big Data… Mas e onde entra o Data Lake nisso?
Segundo a AWS, "um data lake é 
um repositório centralizado que 
permite armazenar todos os seus 
dados estruturados e não 
estruturados em qualquer escala. 
Você pode armazenar seus dados 
como estão, sem precisar primeiro 
estruturá-los e executar 
diferentes tipos de análise, desde 
painéis e visualizações até 
processamento de big data, 
análise em tempo real e machine 
learning para orientar melhores 
decisões.”
Mas e os Data Warehouses?
A AWS diz que, “um data warehouse é 
um repositório central de informações 
que podem ser analisadas para tomar 
decisões mais adequadas. Os dados 
fluem de sistemas transacionais, 
bancos de dados relacionais e de outras 
fontes para o data warehouse, 
normalmente com uma cadência 
regular. Analistas de negócios, 
engenheiros de dados, cientistas de 
dados e tomadores de decisões 
acessam os dados por meio de 
ferramentas de inteligência de 
negócios (BI), clientes SQL e outros 
aplicativos de análise.”
Data Warehouses estão defasados então?
Muito pelo contrário, são tecnologias complementares. É comum ver uma combinação de 
Bancos de Dados, Data Lake e Data Warehouse atuando juntos para a análise de dados.
Não… Próximo!
Para clarear mais as coisas…
Bancos de dados capturam e armazenam registros detalhados de uma transação. Exige que os 
dados sejam organizados de forma tabular e que sua estrutura seja definida previamente.
Data warehouse é projetado para análises de relações e tendências entre um grande volume de 
dados . Também exige que os dados sejam organizados de forma tabular e que sua estrutura seja 
definida previamente.
Data lake é um repositório centralizado para todos os dados, podendo ser estruturados, 
semiestruturados e não estruturados.
Uma tabelinha para começar a ficar esperto
Características Data warehouse Data lake
Dados Dados relacionais de sistemas transacionais, bancos de dados 
operacionais e aplicativos de linha de negócios
Todos os dados, incluindo estruturados, semiestruturados e 
não estruturados
Esquema Geralmente projetado antes da implementação do data warehouse, 
mas também pode ser gravado no momento da análise
(esquema na gravação ou esquema na leitura)
Gravado no momento da análise (esquema na leitura)
Preço/performance Resultados de consulta mais rápidos, usando armazenamento local Resultados da consulta cada vez mais rápidos usando 
armazenamento de baixo custo e desacoplamento de 
computação e armazenamento
Qualidade dos dados Dados altamente organizados, que representam a versão central 
da verdade
Quaisquer dados, organizados ou não (ou seja, dados 
brutos)
Usuários Analistas de negócios,cientistas de dados e desenvolvedores de 
dados
Analistas de negócios (usando dados organizados), 
cientistas de dados, desenvolvedores de dados, 
engenheiros de dados e arquitetos de dados
Análises Geração de relatórios em lote, BI e visualizações Machine learning, análise exploratória, descoberta de 
dados, streaming, análise operacional, big data e criação de 
perfil
Fonte: https://aws.amazon.com/pt/data-warehouse/