Baixe o app para aproveitar ainda mais
Prévia do material em texto
/ Big Data Aula 6: Visualização de dados Apresentação Diante da grande quantidade de dados em Big Data, torna-se essencial o uso de métodos de visualização apropriados tanto para identi�cação de problemas nos dados quanto para conseguir entender os resultados produzidos pelos algoritmos. Nesta aula, estudaremos como realizar a visualização dos dados através de grá�cos. Objetivos Reconhecer a importância da visualização dos dados em projetos de Big Data; Explicar as formas de visualização dos dados; Identi�car ferramentas para análise exploratória e explanatória dos dados. Introdução Ao falar de Big Data, surgem inúmeros desa�os. Primeiramente, decidir quais dados utilizar, como capturá-los e armazená-los ao longo do tempo. Posteriormente, deve-se estudar, testar e avaliar a forma mais apropriada para preparar, processar e analisar os dados alinhando expectativas com relação a custo, velocidade, escalonamento etc. Para conseguir desempenhar todas essas etapas, necessita-se de formas de visualização de dados e�cazes. As representações grá�cas são mecanismos utilizados para oferecer uma maior compreensão do que os dados representam. A visualização de dados pode desempenhar um papel essencial, pois oferece suporte à transmissão adequada da mensagem. / A importância da visualização de dados Para preparar os dados para análise, devem ser usados meios que forneçam descobertas para explorar a estrutura dos dados. A visualização de dados pode ajudar na identi�cação da estrutura dos registros, de relacionamentos e de anomalias. Diferentes formas de representações grá�cas podem ser usadas durante a fase de extrapolação dos dados. 1 Histograma É um tipo de grá�co muito utilizado para visualizar como os dados estão distribuídos, pois ele representa a frequência de ocorrências individuais subdivididas em classes. 2 Boxplot Por outro lado, o diagrama de caixa (boxplot) é útil para a identi�cação de anomalias e para fazer uma comparação visual entre dois ou mais grupos. Na análise exploratória, o propósito maior está na rapidez de geração dos grá�cos, permitindo acelerar o processo da análise. Por esse motivo, os grá�cos gerados nessa fase não requerem um re�namento visual. Saiba mais A necessidade de re�namento surge no momento em que a visualização tiver que ser apresentada para pessoas que não participaram do processo de análise. Nesse momento, o objetivo não é mais fazer a descoberta dos dados, mas sim enfatizar o que já foi descoberto, buscando facilitar a compreensão das informações. A visualização de dados é usada para auxiliar nesse processo de gerar uma visão que transmita rapidamente a informação desejada. Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online Tipos de grá�co A e�cácia da visualização está na escolha do tipo de grá�co que melhor represente a informação que se deseja passar, uma vez que cada grá�co oferece uma perspectiva diferente. Eles oferecem opções de ajustes visuais, como forma, cor e posição espacial que ajudam muito para diferenciar, evidenciar e agrupar informações. As visualizações devem mostrar o contexto ao qual pertencem as informações ou as correlações entre os dados de forma a facilitar a interpretação. A�nal, não basta os dados estarem disponíveis, eles precisam ser entendidos para serem úteis. Atenção A seleção correta do grá�co é muito importante para se ter uma visualização da informação de forma clara e objetiva. Quando isso não acontece, em vez de ajudar, os grá�cos levam a interpretações errôneas, o que pode causar efeitos catastró�cos. / Os tipos de grá�co podem ser agrupados, de acordo com a sua funcionalidade, em: Grá�cos de comparação, de composição, de distribuição e de relação. Clique nos botões para ver as informações. Tipo de grá�co usado para confrontar e comparar dados ao longo do tempo. O grá�co de linhas é indicado para dados distribuídos em muitos períodos ou dados em poucos períodos e muitas categorias. Caso os dados estejam distribuídos em poucos períodos e poucas categorias, ou sejam compostos de poucos itens, o grá�co de colunas oferece melhor resultado. Os grá�cos de barras horizontais proporcionam melhor visualização quando se deseja comparar muitos itens. Por �m, quando há dados cíclicos e numerosos, o grá�co que proporciona maior legibilidade é o grá�co de áreas circulares. Grá�cos de comparação Os grá�cos de composição mostram os componentes de um todo. Para visualizar uma composição estática de uma porção simples do total, o grá�co de pizza é adequado, pois representa fatias que somadas compõem 100% da pizza. Os dados cuja composição varia ao longo do tempo com poucos períodos podem ser representados por grá�co de colunas empilhadas e os dados compostos por muitos períodos podem ser representados por grá�co de linhas empilhadas ou grá�co de área. Grá�cos de composição Geralmente, anomalias e tendências são mais facilmente identi�cadas quando se observa a distribuição dos dados. O histograma mostra as frequências ou a densidade de probabilidades de uma única variável e o grá�co de dispersão para duas variáveis. Grá�cos de distribuição Os grá�cos também podem ser utilizados para representar a interdependência entre os dados, por exemplo, a quantidade de produtos vendidos por categorias e faixas de valores. O grá�co de dispersão serve para observar o que acontece com uma variável quando outra variável se altera, podendo identi�car uma possível relação de causa e efeito entre elas. Quando se tem três variáveis, usa-se o grá�co de bolha. Grá�cos de relação Há tipos de grá�cos menos tradicionais para visualização de dados de forma diferenciada. Exemplo O uso de mapas para representar conjuntos de dados com informações geográ�cas, como nomes de cidades, estados, países, códigos postais, latitude e longitude, bem como o uso de word cloud para representar dados baseados puramente em texto. / Esse tipo de visualização tem como objetivo representar a frequência de ocorrência de cada palavra. Quanto maior a frequência, maior é o tamanho da palavra representada gra�camente. Além de apresentar informações de forma estática, os grá�cos podem ter recursos interativos que permitem a exploração dos dados de acordo com a necessidade e interesse em determinado momento. Interações simples, como a �ltragem de itens, levam a evidenciar dados de maior interesse. O detalhamento, através de um clique ou movimento do mouse, propicia acesso a informações adicionais para aprofundar o conhecimento de um item especí�co. Muitas ferramentas grá�cas mantém o histórico de ações e têm a opção de retornar a visualização em determinado estágio de interação, isto é, oferecem recursos de �ltragem, agrupamento e detalhamento de informações em vários níveis. Fonte: Pixabay Interações mais so�sticadas preveem relacionamentos entre dados e mudanças na escala dos dados, causando o efeito de zoom-in e zoom-out. Comentário Os recursos interativos podem oferecer uma experiência rica, permitindo a navegação pelos dados de forma agradável e intuitiva. Entretanto, para cada ponto de dados que alteramos gra�camente na visualização, precisamos reestruturar internamente nossa representação, para que tudo continue condizente. Isso requer funcionalidades para reduzir ou alterar os dados, modi�car os relacionamentos, selecionar novos dados e, até mesmo, alterar a forma de representação grá�ca. Para facilitar esse processo, temos como apoio as ferramentas de visualização de dados. Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online / Ferramentas de visualização de dados Essas ferramentas contêm diversos recursos prontos para facilitar o processo de visualização de dados, automatizando parte do processo e permitindo autonomia do usuário para interagir com os grá�cos gerados. Algumas delas foram desenvolvidas com o intuito de serem utilizadas em conjunto com ferramentas de análise e processamento de dados. Alguns exemplos dessas ferramentas são: Clique nos botões para ver as informações. Frameworkpara desenvolvimento de aplicações web, disponível como pacote do software R. O Shiny oferece diversas funcionalidades para o desenvolvimento da parte grá�ca, tornando possível a construção de interfaces web dinâmicas e interativas. As conversões necessárias para código HTML, JavaScript e CSS são realizadas pelo pacote, tornado a tarefa de visualização mais fácil. Disponível em: https://www.r-project.org/. Shiny Biblioteca de grá�cos declarativa de alto nível para ser usada tanto na linguagem Python e quanto no R para construir e implantar aplicativos analíticos da web com mais de 30 tipos de grá�cos. Disponível em: https://plotly.com/. Plotly Biblioteca abrangente para a criação de visualizações estáticas, animadas e interativas em Python. Disponível em: https://matplotlib.org/ e https://www.python.org/. Matplotlib Biblioteca do Apache Spark para elaboração de grá�cos quando se utiliza computação paralela. O GraphX permite a visualização dos dados através de grá�cos e tem recursos para transformar e unir grá�cos. Disponível em: https://spark.apache.org/graphx/ GraphX Outras ferramentas Clique no botão acima. javascript:void(0); javascript:void(0); javascript:void(0); javascript:void(0); / Outras ferramentas Outras ferramentas, apesar de serem utilizadas de forma totalmente independente de outros tipos de ferramentas de Big Data, oferecem compatibilidade para importação e exportação de dados. A plataforma Pentaho (http://www.pentaho.com/) é uma ferramenta desse tipo. Ela tem recursos para manipular dados de banco de dados relacionais e banco de dados NoSQL, incluindo cluster Hadoop. Tais recursos abrangem acesso, integração, transformação, visualização e análise dos dados. Além dessas, há ferramentas criadas com interface visual para em poucos cliques prover a integração e visualização de dados de diferentes fontes, tais como, Tableau ((http://www.tableau.com)), Qlik (http://www.qlik.com/)e Power BI (https://powerbi.microsoft.com/pt-br/) . As ferramentas d3.js (http://d3js.org/)e gephi (https://gephi.org/)oferecem recursos so�sticados de interação com usuário que merecem destaque. A ferramenta d3.js consiste em uma biblioteca JavaScript para manipular bases de dados usando HTML, SVG e CSS. Ela foi desenvolvida com ênfase nos padrões da web oferecendo recursos para compatibilidade com navegadores modernos sem se prender a uma estrutura proprietária. Com sobrecarga mínima, rapidamente manipula grandes conjuntos de dados e os disponibiliza através de grá�cos de barras, linhas, área, pontos, círculo, mapas e outros com comportamentos dinâmicos para interação e animação. O Gephi é um software criado para analistas explorarem dados usando grá�cos. Ele tem disponíveis opções de interação com a representação, manipulação de estruturas, formas e cores que facilitam a descoberta de padrões, a identi�cação de hipóteses e dados com ruídos. Atenção! Aqui existe uma videoaula, acesso pelo conteúdo online Exemplo de uso das ferramentas para visualização de dados Para exempli�car o uso de ferramentas para visualização de dados vamos considerar que uma Livraria Virtual, com pouco tempo de funcionamento, deseja analisar seus dados para ter noção do andamento do negócio, identi�car falhas e oportunidades de melhorias. Leitura A Livraria Virtual disponibilizou dados oriundos de seu cadastro de clientes, cadastro de livros, controle de vendas efetuadas e o histórico de acesso ao seu website. Esses dados foram fornecidos através de três arquivos: cliente.csv, livro.csv e venda.csv. Exemplo de uso das ferramentas para visualização de dados Inicialmente, vamos explorar esse conjunto de dados utilizando os recursos grá�cos da ferramenta Weka para termos noção da composição de cada um dos conjuntos de dados. Posteriormente, utilizaremos recursos grá�cos do R para realizar novas descobertas. Por último, vamos reunir todos os conjuntos de dados utilizando o Power BI. javascript:void(0); javascript:void(0); javascript:void(0); javascript:void(0); javascript:void(0); javascript:void(0); / Visualização de dados no Weka O software Weka possui uma interface grá�ca que, conforme o analista de dados vai manipulando os dadosm são produzidos grá�cos. Ao executá-lo, conforme apresentado na Figura 1, são exibidas as opções de Explorer, Experimenter, KnowledgeFlow, Workbench e Simple CLI. Tela inicial do Weka. Fonte: Autor A Escala Geológica de Tempo O Explorer tem opções para abrir um arquivo e executar vários algoritmos de aprendizado de máquina, apresentando visualização dos resultados de forma automática. Iniciaremos a nossa exploração de dados da Livraria Virtual importando o cadastro de clientes, disponível através do arquivo cliente.csv. Visualização do conjunto de dados de cliente usando a ferramenta Weka. Fonte: Autor / Como podemos ver, o arquivo tem 77 registros e os atributos ID, Sexo, Data Nascimento e Cidade. Ao observar o atributo Sexo, percebemos que 44 registros são do sexo masculino (M), 30 registros são do sexo feminino (F) e 3 registros não tem informação neste atributo. Para lidar com esses dados incompletos foi escolhida a estratégia de substituir o valor faltante por uma constante. Em virtude de o campo Sexo somente ter dois valores possíveis, M para sexo masculino e F para sexo feminino, será utilizada a ferramenta R para veri�car o sexo predominante e preencher o valor faltante com esta informação. Instalação do pacote rcmdr na ferramenta RGui. Fonte: Autor Visualização de dados no R No R, existe a biblioteca R commander (rcmdr), que proporciona uma interface grá�ca amigável para geração de grá�cos. Para utilizá-la, basta carregar o pacote rcmdr utilizando a ferramenta RGui disponível ao instalar o R. No R Commander, vamos abrir novamente o arquivo cliente.csv para gerar um grá�co de pizza de clientes para veri�car qual o sexo predominante entre eles. A primeira imagem mostra a interface do R Commander e o comando gerado ao solicitar a importação do arquivo cliente.csv através da opção do menu “Data/Import Data from text �le”. Após importar o conjunto de dados, é gerado o grá�co de pizza utilizando a opção de menu “Graphs/Pie chart”. Importação do arquivo cliente.csv utilizando a ferramenta R Commander. Fonte: Autor Gráfico de pizza da composição de clientes por sexo. Fonte: Autor / O grá�co de composição de clientes por sexo, apresentado anteriormente, demonstra que a maioria dos clientes é do sexo masculino (M). Sendo assim, os registros com o atributo Sexo não preenchido passarão a ter o valor “M”. Para realizar essa transformação, utilizamos a opção do menu “Data/Active data set/Variables in active data set”, que gerou o seguinte comando: Sexo <- Recode(Sexo, '""="M"', as.factor=TRUE). O resultado dessa transformação pode ser visualizado através do grá�co de comparação do atributo Sexo ilustrado na Figura a seguir. Gráfico de barras para comparação do atributo Sexo. Fonte: Autor / Uma vez feitos os ajustes necessários no cliente passamos à exploração do arquivo vendas.csv. Para explorar os seus dados, será utilizada a ferramenta RStudio. No Rstudio, toda a manipulação de dados é feita por meio de linhas de comando. Visualização de dados no RStudio. Fonte: Autor Primeiramente, o arquivo vendas.csv foi aberto (passo 1) para visualizar o seu conteúdo (passo 2). O arquivo contém um conjunto de dados com 377 registros e os atributos ID do cliente, ID do livro e Data compra. Para saber a quantidade de exemplares vendidos de cada livro, foram eliminados os atributos ID do Cliente e Data compra (passo 3) e feita a soma de registros agrupados por livro (passo 4). Com isso, cada livro passou a ter a quantidade de exemplares vendidos associada. Posteriormente, para descobrir os livros que têm a quantidade de vendas baixa, média e alta foi usado o algoritmo de classi�cação K-means para agrupar os dados nesses três grupos de acordo com a quantidade de exemplares vendidos (passo 5). Para visualizar os dados foi utilizada abiblioteca ploty para gerar um grá�co de barras. O grá�co permite comparar a quantidade de livros classi�cados como de venda baixa, média e alta (passo 7). A visualização dos dados pode ser vista no lado direito da imagem. Para consultas futuras, os resultados da análise foram salvos no arquivo livroClassi�cado.csv (passo 8). / Visualização de dados no Power BI Visando aproveitar as facilidades da ferramenta Power BI de integrar dados de diferentes fontes e gerar relatórios, os seguintes arquivos foram carregados: cliente.csv, com as modi�cações feitas no R Commander, livro.csv, venda.csv, historicoAcesso.csv e livroClassi�cado.csv. Tela principal do Power BI com dados da Livraria Virtual. Fonte: Autor / A partir da correlação desses dados, podemos fazer inúmeras análises e responder a vários questionamentos, tais como: A quantidade de livros vendidos por cliente através de um grá�co de linha, mostrando a variação da quantidade de exemplares já comprados por cada cliente. Descobrir qual cidade teve maior concentração de vendas utilizando um grá�co de pizza, mostrando o percentual de vendas por cidade. / Veri�car a quantidade de acesso e a quantidade de vendas por livro comparando-os através de um grá�co de linha. Com esse exemplo da Livraria Virtual, vimos algumas das inúmeras possibilidades de visualização de dados. O uso de ferramentas facilita a análise exploratória e explanatória dos dados utilizando recursos grá�cos. Atividades 1. Investir em uma visualização dos dados apropriada leva inúmeros benefícios. Marque a opção que não representa um benefício: a) Mostra através de números o esforço para desenvolver o projeto; b) Melhora o monitoramento do desempenho da organização; c) Fornece informações para apoiar o processo de tomada de decisão; d) Facilita a comunicação das informações resultantes da análise dos dados; e) Demonstra através de gráficos os resultados da análise. 2. A seleção do tipo de grá�co é muito importante para uma visualização da informação de forma clara e objetiva. Marque a opção que apresenta os grá�cos recomendados para comparar ocorrências de fatos ao longo do tempo para a identi�cação de uma tendência: a) Pizza e área b) Bolha e dispersão c) Bolha e colunas d) Pizza e linhas e) Linhas e colunas / 3. A visualização de dados pode ser interativa. As interações permitem a exploração das informações de acordo com a necessidade e interesse na representação dos dados. Marque a opção que não representa uma forma de interação: a) Filtragem de itens b) Detalhamento de itens c) Modificação dos resultados d) Agrupamento de dados e) Zoom dos dados Notas Título modal 1 Lorem Ipsum é simplesmente uma simulação de texto da indústria tipográ�ca e de impressos. Lorem Ipsum é simplesmente uma simulação de texto da indústria tipográ�ca e de impressos. Lorem Ipsum é simplesmente uma simulação de texto da indústria tipográ�ca e de impressos. Título modal 1 Lorem Ipsum é simplesmente uma simulação de texto da indústria tipográ�ca e de impressos. Lorem Ipsum é simplesmente uma simulação de texto da indústria tipográ�ca e de impressos. Lorem Ipsum é simplesmente uma simulação de texto da indústria tipográ�ca e de impressos. Referências MARQUESONE, R. Big Data: Técnicas e tecnologias para extração de valor dos dados. Editora Casa do Código, 2016. Próxima aula Conceitos básicos do processamento paralelo no MapReduce; Principais operações por MapReduce. Explore mais Inúmeras áreas de negócio têm investido em projetos de Big Data. Assista o primeiro episódio da série “A era dos dados”, produzido no ano de 2020 pela Net�ix, para conhecer projetos baseados em monitoramento que conseguiram realizar descobertas inusitadas. Veja exemplos de grá�cos de vários tipos gerados com as informações mais acessadas pelo google na ferramenta Google Trends. /
Compartilhar