Aula 6 - Visualização de dados

•

ESTÁCIO

0

Flavio Ferreira de Almeida

03/06/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Big Data

6.050 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

/
Big Data
Aula 6: Visualização de dados
Apresentação
Diante da grande quantidade de dados em Big Data, torna-se essencial o uso de métodos de visualização apropriados
tanto para identi�cação de problemas nos dados quanto para conseguir entender os resultados produzidos pelos
algoritmos. Nesta aula, estudaremos como realizar a visualização dos dados através de grá�cos.
Objetivos
Reconhecer a importância da visualização dos dados em projetos de Big Data;
Explicar as formas de visualização dos dados;
Identi�car ferramentas para análise exploratória e explanatória dos dados.
Introdução
Ao falar de Big Data, surgem inúmeros desa�os. Primeiramente, decidir quais dados utilizar, como capturá-los e armazená-los
ao longo do tempo. Posteriormente, deve-se estudar, testar e avaliar a forma mais apropriada para preparar, processar e
analisar os dados alinhando expectativas com relação a custo, velocidade, escalonamento etc.
Para conseguir desempenhar todas essas etapas, necessita-se de formas de visualização de dados e�cazes.
As representações grá�cas são mecanismos utilizados para oferecer uma
maior compreensão do que os dados representam. A visualização de dados
pode desempenhar um papel essencial, pois oferece suporte à transmissão
adequada da mensagem.
/
A importância da visualização de dados
Para preparar os dados para análise, devem ser usados meios que forneçam descobertas para explorar a estrutura dos dados.
A visualização de dados pode ajudar na identi�cação da estrutura dos registros, de relacionamentos e de anomalias. Diferentes
formas de representações grá�cas podem ser usadas durante a fase de extrapolação dos dados.
1
Histograma
É um tipo de grá�co muito utilizado para visualizar como os
dados estão distribuídos, pois ele representa a frequência de
ocorrências individuais subdivididas em classes.
2
Boxplot
Por outro lado, o diagrama de caixa (boxplot) é útil para a
identi�cação de anomalias e para fazer uma comparação
visual entre dois ou mais grupos.
Na análise exploratória, o propósito maior está na rapidez de geração dos grá�cos, permitindo acelerar o processo da análise.
Por esse motivo, os grá�cos gerados nessa fase não requerem um re�namento visual.
Saiba mais
A necessidade de re�namento surge no momento em que a visualização tiver que ser apresentada para pessoas que não
participaram do processo de análise.
Nesse momento, o objetivo não é mais fazer a descoberta dos dados, mas sim enfatizar o que já foi descoberto, buscando
facilitar a compreensão das informações. A visualização de dados é usada para auxiliar nesse processo de gerar uma visão
que transmita rapidamente a informação desejada.
Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online
Tipos de grá�co
A e�cácia da visualização está na escolha do tipo de grá�co que melhor represente a informação que se deseja passar, uma
vez que cada grá�co oferece uma perspectiva diferente. Eles oferecem opções de ajustes visuais, como forma, cor e posição
espacial que ajudam muito para diferenciar, evidenciar e agrupar informações.
As visualizações devem mostrar o contexto ao qual pertencem as informações ou as correlações entre os dados de forma a
facilitar a interpretação. A�nal, não basta os dados estarem disponíveis, eles precisam ser entendidos para serem úteis.
Atenção
A seleção correta do grá�co é muito importante para se ter uma visualização da informação de forma clara e objetiva. Quando
isso não acontece, em vez de ajudar, os grá�cos levam a interpretações errôneas, o que pode causar efeitos catastró�cos.
/
Os tipos de grá�co podem ser agrupados, de acordo com a sua funcionalidade, em: Grá�cos de comparação, de composição,
de distribuição e de relação.
Clique nos botões para ver as informações.
Tipo de grá�co usado para confrontar e comparar dados ao longo do tempo. O grá�co de linhas é indicado para dados
distribuídos em muitos períodos ou dados em poucos períodos e muitas categorias. Caso os dados estejam distribuídos
em poucos períodos e poucas categorias, ou sejam compostos de poucos itens, o grá�co de colunas oferece melhor
resultado.
Os grá�cos de barras horizontais proporcionam melhor visualização quando se deseja comparar muitos itens. Por �m,
quando há dados cíclicos e numerosos, o grá�co que proporciona maior legibilidade é o grá�co de áreas circulares.
Grá�cos de comparação 
Os grá�cos de composição mostram os componentes de um todo. Para visualizar uma composição estática de uma
porção simples do total, o grá�co de pizza é adequado, pois representa fatias que somadas compõem 100% da pizza.
Os dados cuja composição varia ao longo do tempo com poucos períodos podem ser representados por grá�co de
colunas empilhadas e os dados compostos por muitos períodos podem ser representados por grá�co de linhas
empilhadas ou grá�co de área.
Grá�cos de composição 
Geralmente, anomalias e tendências são mais facilmente identi�cadas quando se observa a distribuição dos dados. O
histograma mostra as frequências ou a densidade de probabilidades de uma única variável e o grá�co de dispersão para
duas variáveis.
Grá�cos de distribuição 
Os grá�cos também podem ser utilizados para representar a interdependência entre os dados, por exemplo, a quantidade
de produtos vendidos por categorias e faixas de valores.
O grá�co de dispersão serve para observar o que acontece com uma variável quando outra variável se altera, podendo
identi�car uma possível relação de causa e efeito entre elas. Quando se tem três variáveis, usa-se o grá�co de bolha.
Grá�cos de relação 
Há tipos de grá�cos menos tradicionais para visualização de dados de forma diferenciada.
Exemplo
O uso de mapas para representar conjuntos de dados com informações geográ�cas, como nomes de cidades, estados, países,
códigos postais, latitude e longitude, bem como o uso de word cloud para representar dados baseados puramente em texto.
/
Esse tipo de visualização tem como objetivo representar a frequência de ocorrência de cada palavra. Quanto maior a
frequência, maior é o tamanho da palavra representada gra�camente.
Além de apresentar informações de forma estática, os grá�cos podem ter recursos interativos que permitem a exploração dos
dados de acordo com a necessidade e interesse em determinado momento. Interações simples, como a �ltragem de itens,
levam a evidenciar dados de maior interesse.
O detalhamento, através de um clique ou movimento do mouse, propicia acesso a informações adicionais para aprofundar o
conhecimento de um item especí�co. Muitas ferramentas grá�cas mantém o histórico de ações e têm a opção de retornar a
visualização em determinado estágio de interação, isto é, oferecem recursos de �ltragem, agrupamento e detalhamento de
informações em vários níveis.
 Fonte: Pixabay
Interações mais so�sticadas preveem relacionamentos entre dados e mudanças na escala dos dados, causando o efeito de
zoom-in e zoom-out.
Comentário
Os recursos interativos podem oferecer uma experiência rica, permitindo a navegação pelos dados de forma agradável e intuitiva.
Entretanto, para cada ponto de dados que alteramos gra�camente na visualização, precisamos reestruturar internamente nossa
representação, para que tudo continue condizente.
Isso requer funcionalidades para reduzir ou alterar os dados, modi�car os relacionamentos, selecionar novos dados e, até
mesmo, alterar a forma de representação grá�ca. Para facilitar esse processo, temos como apoio as ferramentas de
visualização de dados.
Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online
/
Ferramentas de visualização de dados
Essas ferramentas contêm diversos recursos prontos para facilitar o processo de visualização de dados, automatizando parte
do processo e permitindo autonomia do usuário para interagir com os grá�cos gerados.
Algumas delas foram desenvolvidas com o intuito de serem utilizadas em conjunto com ferramentas de análise e
processamento de dados. Alguns exemplos dessas ferramentas são:
Clique nos botões para ver as informações.
Frameworkpara desenvolvimento de aplicações web, disponível como pacote do software R. O Shiny oferece diversas
funcionalidades para o desenvolvimento da parte grá�ca, tornando possível a construção de interfaces web dinâmicas e
interativas. As conversões necessárias para código HTML, JavaScript e CSS são realizadas pelo pacote, tornado a tarefa
de visualização mais fácil. Disponível em: https://www.r-project.org/.
Shiny 
Biblioteca de grá�cos declarativa de alto nível para ser usada tanto na linguagem Python e quanto no R para construir e
implantar aplicativos analíticos da web com mais de 30 tipos de grá�cos. Disponível em: https://plotly.com/.
Plotly 
Biblioteca abrangente para a criação de visualizações estáticas, animadas e interativas em Python. Disponível em:
https://matplotlib.org/ e https://www.python.org/.
Matplotlib 
Biblioteca do Apache Spark para elaboração de grá�cos quando se utiliza computação paralela. O GraphX permite a
visualização dos dados através de grá�cos e tem recursos para transformar e unir grá�cos. Disponível em:
https://spark.apache.org/graphx/
GraphX 
 Outras ferramentas
 Clique no botão acima.
javascript:void(0);
javascript:void(0);
javascript:void(0);
javascript:void(0);
/
Outras ferramentas
Outras ferramentas, apesar de serem utilizadas de forma totalmente independente de outros tipos de ferramentas de
Big Data, oferecem compatibilidade para importação e exportação de dados. A plataforma Pentaho
(http://www.pentaho.com/) é uma ferramenta desse tipo.
Ela tem recursos para manipular dados de banco de dados relacionais e banco de dados NoSQL, incluindo cluster
Hadoop. Tais recursos abrangem acesso, integração, transformação, visualização e análise dos dados.
Além dessas, há ferramentas criadas com interface visual para em poucos cliques prover a integração e visualização
de dados de diferentes fontes, tais como, Tableau ((http://www.tableau.com)), Qlik (http://www.qlik.com/)e Power BI
(https://powerbi.microsoft.com/pt-br/) .
As ferramentas d3.js (http://d3js.org/)e gephi (https://gephi.org/)oferecem recursos so�sticados de interação com
usuário que merecem destaque. A ferramenta d3.js consiste em uma biblioteca JavaScript para manipular bases de
dados usando HTML, SVG e CSS.
Ela foi desenvolvida com ênfase nos padrões da web oferecendo recursos para compatibilidade com navegadores
modernos sem se prender a uma estrutura proprietária. Com sobrecarga mínima, rapidamente manipula grandes
conjuntos de dados e os disponibiliza através de grá�cos de barras, linhas, área, pontos, círculo, mapas e outros com
comportamentos dinâmicos para interação e animação.
O Gephi é um software criado para analistas explorarem dados usando grá�cos. Ele tem disponíveis opções de
interação com a representação, manipulação de estruturas, formas e cores que facilitam a descoberta de padrões, a
identi�cação de hipóteses e dados com ruídos.
Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online
Exemplo de uso das ferramentas para visualização de dados
Para exempli�car o uso de ferramentas para visualização de dados vamos considerar que uma Livraria Virtual, com pouco
tempo de funcionamento, deseja analisar seus dados para ter noção do andamento do negócio, identi�car falhas e
oportunidades de melhorias.
Leitura
A Livraria Virtual disponibilizou dados oriundos de seu cadastro de clientes, cadastro de livros, controle de vendas efetuadas e o
histórico de acesso ao seu website. Esses dados foram fornecidos através de três arquivos: cliente.csv, livro.csv e venda.csv.
Exemplo de uso das ferramentas para visualização de dados
Inicialmente, vamos explorar esse conjunto de dados utilizando os recursos grá�cos da ferramenta Weka para termos noção da
composição de cada um dos conjuntos de dados. Posteriormente, utilizaremos recursos grá�cos do R para realizar novas
descobertas. Por último, vamos reunir todos os conjuntos de dados utilizando o Power BI.
javascript:void(0);
javascript:void(0);
javascript:void(0);
javascript:void(0);
javascript:void(0);
javascript:void(0);
/
Visualização de dados no Weka
O software Weka possui uma interface grá�ca que,
conforme o analista de dados vai manipulando os dadosm
são produzidos grá�cos. Ao executá-lo, conforme
apresentado na Figura 1, são exibidas as opções de
Explorer, Experimenter, KnowledgeFlow, Workbench e Simple
CLI.
 Tela inicial do Weka. Fonte: Autor
A Escala Geológica de Tempo
O Explorer tem opções para abrir um arquivo e executar vários algoritmos de aprendizado de máquina, apresentando
visualização dos resultados de forma automática. Iniciaremos a nossa exploração de dados da Livraria Virtual importando o
cadastro de clientes, disponível através do arquivo cliente.csv.

 Visualização do conjunto de dados de cliente usando a ferramenta Weka. Fonte: Autor
/
Como podemos ver, o arquivo tem 77 registros e os atributos ID, Sexo, Data Nascimento e Cidade. Ao observar o atributo Sexo,
percebemos que 44 registros são do sexo masculino (M), 30 registros são do sexo feminino (F) e 3 registros não tem
informação neste atributo.
Para lidar com esses dados incompletos foi escolhida a estratégia de substituir o valor faltante por uma constante. Em virtude
de o campo Sexo somente ter dois valores possíveis, M para sexo masculino e F para sexo feminino, será utilizada a ferramenta
R para veri�car o sexo predominante e preencher o valor faltante com esta informação.
 Instalação do pacote rcmdr na ferramenta RGui. Fonte: Autor
Visualização de dados no R
No R, existe a biblioteca R commander (rcmdr), que
proporciona uma interface grá�ca amigável para geração de
grá�cos. Para utilizá-la, basta carregar o pacote rcmdr
utilizando a ferramenta RGui disponível ao instalar o R.
No R Commander, vamos abrir novamente o arquivo
cliente.csv para gerar um grá�co de pizza de clientes para
veri�car qual o sexo predominante entre eles. A primeira
imagem mostra a interface do R Commander e o comando
gerado ao solicitar a importação do arquivo cliente.csv
através da opção do menu “Data/Import Data from text �le”.
Após importar o conjunto de dados, é gerado o grá�co de
pizza utilizando a opção de menu “Graphs/Pie chart”.

 Importação do arquivo
cliente.csv utilizando a ferramenta
R Commander. Fonte: Autor
 Gráfico de pizza da
composição de clientes por sexo.
Fonte: Autor
/
O grá�co de composição de clientes por sexo, apresentado anteriormente, demonstra que a maioria dos clientes é do sexo
masculino (M). Sendo assim, os registros com o atributo Sexo não preenchido passarão a ter o valor “M”.
Para realizar essa transformação, utilizamos a opção do menu “Data/Active data set/Variables in active data set”, que gerou o
seguinte comando: Sexo <- Recode(Sexo, '""="M"', as.factor=TRUE). O resultado dessa transformação pode ser visualizado
através do grá�co de comparação do atributo Sexo ilustrado na Figura a seguir.

 Gráfico de barras para comparação do atributo Sexo. Fonte: Autor
/
Uma vez feitos os ajustes necessários no cliente passamos à exploração do arquivo vendas.csv. Para explorar os seus dados,
será utilizada a ferramenta RStudio. No Rstudio, toda a manipulação de dados é feita por meio de linhas de comando.

 Visualização de dados no RStudio. Fonte: Autor
Primeiramente, o arquivo vendas.csv foi aberto (passo 1) para visualizar o seu conteúdo (passo 2). O arquivo contém um
conjunto de dados com 377 registros e os atributos ID do cliente, ID do livro e Data compra.
Para saber a quantidade de exemplares vendidos de cada livro, foram eliminados os atributos ID do Cliente e Data compra
(passo 3) e feita a soma de registros agrupados por livro (passo 4). Com isso, cada livro passou a ter a quantidade de
exemplares vendidos associada.
Posteriormente, para descobrir os livros que têm a quantidade de vendas baixa, média e alta foi usado o algoritmo de
classi�cação K-means para agrupar os dados nesses três grupos de acordo com a quantidade de exemplares vendidos
(passo 5). Para visualizar os dados foi utilizada abiblioteca ploty para gerar um grá�co de barras.
O grá�co permite comparar a quantidade de livros classi�cados como de venda baixa, média e alta (passo 7). A
visualização dos dados pode ser vista no lado direito da imagem. Para consultas futuras, os resultados da análise foram
salvos no arquivo livroClassi�cado.csv (passo 8).
/
Visualização de dados no Power BI
Visando aproveitar as facilidades da ferramenta Power BI de integrar dados de diferentes fontes e gerar relatórios, os seguintes
arquivos foram carregados: cliente.csv, com as modi�cações feitas no R Commander, livro.csv, venda.csv, historicoAcesso.csv
e livroClassi�cado.csv.

 Tela principal do Power BI com dados da Livraria Virtual. Fonte: Autor
/
A partir da correlação desses dados, podemos fazer inúmeras análises e responder a vários questionamentos, tais como:
A quantidade de livros vendidos por cliente através de um grá�co de linha, mostrando a variação da
quantidade de exemplares já comprados por cada cliente.
Descobrir qual cidade teve maior concentração de vendas utilizando um grá�co de pizza, mostrando o
percentual de vendas por cidade.
/
Veri�car a quantidade de acesso e a quantidade de vendas por livro comparando-os através de um
grá�co de linha.
Com esse exemplo da Livraria Virtual, vimos algumas das inúmeras possibilidades de visualização de dados. O uso de
ferramentas facilita a análise exploratória e explanatória dos dados utilizando recursos grá�cos.
Atividades
1. Investir em uma visualização dos dados apropriada leva inúmeros benefícios. Marque a opção que não representa um
benefício:
a) Mostra através de números o esforço para desenvolver o projeto;
b) Melhora o monitoramento do desempenho da organização;
c) Fornece informações para apoiar o processo de tomada de decisão;
d) Facilita a comunicação das informações resultantes da análise dos dados;
e) Demonstra através de gráficos os resultados da análise.
2. A seleção do tipo de grá�co é muito importante para uma visualização da informação de forma clara e objetiva. Marque a
opção que apresenta os grá�cos recomendados para comparar ocorrências de fatos ao longo do tempo para a identi�cação de
uma tendência:
a) Pizza e área
b) Bolha e dispersão
c) Bolha e colunas
d) Pizza e linhas
e) Linhas e colunas
/
3. A visualização de dados pode ser interativa. As interações permitem a exploração das informações de acordo com a
necessidade e interesse na representação dos dados. Marque a opção que não representa uma forma de interação:
a) Filtragem de itens
b) Detalhamento de itens
c) Modificação dos resultados
d) Agrupamento de dados
e) Zoom dos dados
Notas
Título modal 1
Lorem Ipsum é simplesmente uma simulação de texto da indústria tipográ�ca e de impressos. Lorem Ipsum é simplesmente
uma simulação de texto da indústria tipográ�ca e de impressos. Lorem Ipsum é simplesmente uma simulação de texto da
indústria tipográ�ca e de impressos.
Título modal 1
Lorem Ipsum é simplesmente uma simulação de texto da indústria tipográ�ca e de impressos. Lorem Ipsum é simplesmente
uma simulação de texto da indústria tipográ�ca e de impressos. Lorem Ipsum é simplesmente uma simulação de texto da
indústria tipográ�ca e de impressos.
Referências
MARQUESONE, R. Big Data: Técnicas e tecnologias para extração de valor dos dados. Editora Casa do Código, 2016.
Próxima aula
Conceitos básicos do processamento paralelo no MapReduce;
Principais operações por MapReduce.
Explore mais
Inúmeras áreas de negócio têm investido em projetos de Big Data. Assista o primeiro episódio da série “A era dos dados”,
produzido no ano de 2020 pela Net�ix, para conhecer projetos baseados em monitoramento que conseguiram realizar
descobertas inusitadas.
Veja exemplos de grá�cos de vários tipos gerados com as informações mais acessadas pelo google na ferramenta
Google Trends.
/