Prévia do material em texto
RECURSOS GRÁFICOS PARA VISUALIZAÇÃO DE DADOS 2 UNIDADE SER_DATSCI_VISUDADOS_UNID2.indd 42 20/02/2020 16:39:43 Objetivos da unidade Tópicos de estudo Entender o que é indústria 4.0, Machine Learning e Inteligência Artificial; Conhecer quais são os principais métodos de visualização de dados; Conhecer o que são charts e plots; Conhecer o que são word clouds. Dados e a Revolução Industrial 4.0 Machine Learning Inteligência Artificial Métodos de visualização de dados Gráficos (charts) Infográficos Mapas mentais Word clouds Estruturas visuais dos dados Tipos de dados Visual encodings Processo de criação de charts e plots VISUALIZAÇÃO DE DADOS 43 SER_DATSCI_VISUDADOS_UNID2.indd 43 20/02/2020 16:39:43 Dados e a Revolução Industrial 4.0 Estamos vivendo em uma época que por muitos especialistas e pesquisadores é chamada de Revolução Industrial 4.0 ou indústria 4.0. Áreas promissoras como Machine Learning (aprendizado de máquina, em tradução livre), Inteligência Artifi - cial (IA) e Data Science estão em grande evidência, proporcionando descobertas e evoluções tecnológicas que geram melhorias na qualidade de vida das pessoas em todo o mundo. Muitas empresas e cientistas de diversos seguimentos de mercado estão in- vestindo muito tempo e dinheiro em inúmeras pesquisas que visam promover a evolução de tecnologias relacionadas a estas áreas, como robôs autônomos com Inteligência Artifi cial ou algoritmos de aprendizagem de máquina que conseguem fazer análises aprofundadas sobre determinado cenário. Sendo assim, a ideia central é projetar soluções sistêmicas que benefi ciem a hu- manidade como um todo. Inclusive, o Ministério da Indústria, Comércio e Serviços mantém um site sobre a agenda brasileira para a indústria 4.0 para mostrar os de- safi os e expectativas do país em adentrar de vez nesta nova revolução industrial. Nesta corrida pelo alcance do progresso, os dados, por sua vez, continuam sendo considerados como a principal moeda de troca, ou seja, são os ativos mais importantes para as instituições e, de certa forma, são os motores responsáveis por todo este avanço. Já é de conhecimento comum que o valor atrelado aos dados transcende a simples organização deles em planilhas ou tabelas, ou seja, as informa- ções contidas na combinação dos dados são tão importantes e relevantes que têm o poder de produzir novas interpretações, determinando outras direções que podem ser seguidas pelos tomadores de decisão. E isto independe da maneira pela qual os dados estão organizados. A evolução proporcionada pela indústria 4.0 demonstra que a análise e a visua- lização de dados devem ser mais consistentes e mais precisas do que nunca, visto que o volume de dados (Big Data) não para de crescer e a necessidade de compreen- dê-los, transformando-os em insights, tem se tornado cada vez mais urgente. Em virtude disto, as grandes instituições buscam constantemente profi ssionais capacitados em Data Science para dirigirem seus projetos de visualizações de da- dos. Eles serão os responsáveis por indicar, por meio dos dados, novos caminhos aos seus gestores. VISUALIZAÇÃO DE DADOS 44 SER_DATSCI_VISUDADOS_UNID2.indd 44 20/02/2020 16:39:43 Machine Learning O aprendizado de máquina, mais conhecido por seu termo em inglês Machi- ne Learning, é uma vertente da ciência da computação ligada à Inteligência Ar- tifi cial, que promove o treinamento de sistemas e máquinas a fi m de realizarem tarefas que, em regra, seriam executadas por seres humanos. Neste sentido, por meio de algoritmos específi cos, o próprio computador passa a ter autonomia para tomar decisões, gerando respostas de acordo com o modelo de dados que lhe é apresentado. Em Data Science, podemos dizer que o Machine Learning é aplicado como um modelo de predições (análise preditiva), isto é, com base nos dados que o algoritmo de aprendizagem de máquina tem acesso, é possível encontrar previ- sões e tendências sobre determinada situação. Isto ocorre quando se tem uma informação já conhecida dentro do conjunto de dados, sendo possível prever o comportamento do resultado na ocorrência de determinados eventos. A expe- riência com eventos anteriores pode prover orientações para situações futuras. Inteligência Artificial A tecnologia tem avançado com muita velocidade, de maneira exponencial nas últimas décadas e, certamente, um dos frutos deste grande crescimento é o surgimento da Inteligência Artifi cial. O propósito deste campo de estudo é viabilizar o desenvolvimento de ferramentas e/ou dispositivos que simulem com grande precisão o poder de pensamento e raciocínio humano. Com isto, diversas empresas atuam ativamente no desenvolvimento e cons- trução de robôs e sistemas computacionais com Inteligência Artifi cial, como é o caso da empresa Hanson Robotics, responsável pelo desenvolvimento do robô humanoide Sophia (Figura 1). EXPLICANDO A análise preditiva (predictive analytics) é uma série de técnicas do cam- po de estudo da ciência de dados ligada ao Machine Learning, estatística, mineração de dados e Inteligência Artifi cial que, com base no compor- tamento de diversos conjuntos de dados históricos e atuais, se propõe a realizar previsões sobre situações ou eventos futuros. VISUALIZAÇÃO DE DADOS 45 SER_DATSCI_VISUDADOS_UNID2.indd 45 20/02/2020 16:39:43 O robô Sophia tem a capacidade de responder a inúmeros questionamen- tos, formulando suas próprias respostas. Isto quer dizer que ela é capaz de “pensar” nas respostas, expressando-as verbalmente. O algoritmo de funcio- namento do robô é tão complexo que produz as próprias respostas com base em um banco de dados que é alimentado constantemente. O robô, que se co- munica apenas em inglês, consegue ainda simular muitos gestos característi- cos dos humanos, como sorrisos, caretas e outras expressões faciais. Métodos de visualização de dados No mundo empresarial, obter e gerenciar dados é algo muito comum e importante, pois com eles é possível gerar insights para a melhoria dos negócios de uma instituição. Os dados promovem o surgimento de novas oportunidades, visando manter a competitividade das empresas no mer- cado. Com os dados, é possível perceber qual é o nível de satisfação dos ASSISTA Em virtude da expansão da Inteligência Artifi cial e seu impacto na humanidade, assista a uma entrevista que mostra o funcionamento da inteligência artifi cial do robô Sophia, contida no vídeo Sophia, a robô mais inteligente do mundo. Figura 1. Robô Sophia. Fonte: Shutterstock. Acesso em: 13/11/2019. VISUALIZAÇÃO DE DADOS 46 SER_DATSCI_VISUDADOS_UNID2.indd 46 20/02/2020 16:39:50 clientes com determinado produto ou serviço. Além disso, os gestores po- dem ter uma visão amplificada sobre o posicionamento de suas empresas no mercado perante seus concorrentes. Tendo em vista este cenário, construir visualizações de dados coerentes e impactantes é tido como o objetivo de qualquer profissional que se propo- nha a trabalhar como um cientista de dados. Isto não quer dizer, porém, que seja uma tarefa fácil. Há muitos obstáculos que precisam ser vencidos neste processo. O grande desafio para o cientista de dados é realizar o tratamento dos dados brutos, transformando-os em informações que possam ser rele- vantes para que um gestor consiga analisar previsões para um determinado período, por exemplo. Sendo assim, para facilitar a completude deste desa- fio, o cientista de dados deve fazer uso de recursos gráficos escolhidos com muita cautela, que possibilitam o estabelecimento de conexões assertivas em conformidade com o momento e realidade vividos pela empresa. Possivelmente, em algum momento de sua vida, você pode ter se de- parado com diversos tipos de recursos gráficos que são utilizados em vi- sualizações de dados, tais como mapas de calor, dashboards interativos ou gráficos. Estas ferramentas auxiliam na transmissão da mensagem ao exibi- remos dados de maneira combinada, dentro de um contexto, facilitando a compreensão por parte da audiência. É comum, entretanto, no mundo corporativo, a insatisfação de muitos gestores com a forma com a qual os dados lhes são apresentados. Em mui- tos casos, os dados são demonstrados de maneira isolada, não fazendo conexões com o contexto e momento vividos pela empresa. Isto dificulta muito a tomada de decisões, pois gera incertezas e muita insegurança. A projeção correta de uma visualização de dados, por sua vez, proporciona o entendimento pleno da mensagem e, a partir de então, a tomada de decisão pode ser realizada com convicção e de maneira precisa, minimizando pos- síveis riscos. Os recursos gráficos são muito importantes e é bastante recomendado que sejam utilizados em projetos Data Science; contudo, devem ser consi- derados apenas como coadjuvantes no processo de comunicabilidade das informações compiladas. O objetivo da informação não pode ser ofuscado pelos recursos gráficos. VISUALIZAÇÃO DE DADOS 47 SER_DATSCI_VISUDADOS_UNID2.indd 47 20/02/2020 16:39:50 Assim, o cientista de dados deve assumir a posição de protagonista na transmissão de uma mensagem convincente e transparente, deixando em total evidência a ideia proposta pelos dados. A escolha do melhor método para uso em um projeto de visualização de dados começa com algumas sim- ples reflexões. São elas: • Quem é o seu público-alvo e quais são seus interesses? Conhecer o perfil do público-alvo e seus interesses é essencial para que o cientista de dados consiga construir uma boa visualização de dados. Nesta sondagem, é possível perceber características que são exclusivas do público e que podem contribuir para a correta escolha do método de visualização. Saber a motivação do seu público também é uma boa estratégia. • Quais dúvidas o público-alvo possui em relação aos dados? Se o público-alvo deseja ter acesso à visualização de dados para poder tomar decisões que impactem no negócio como um todo, o cientista de dados precisará estar preparado para esclarecer todas as suas perguntas. Uma boa prática é conhecer a regra de negócio da empresa e entender todo o seu fluxo de geração de dados. • Que informações você deseja comunicar a ele? Com os dados em mãos e todos os insumos necessários para a constru- ção de uma visualização, o cientista ainda precisa saber selecionar o que realmente é importante dentro do conjunto de dados. O filtro se faz neces- sário para que o público não seja distraído com informações irrelevantes. Com as respostas para estas perguntas em mente, o cientista de da- dos conseguirá construir um projeto bem estruturado. Isto significa que ter um propósito bem definido facilitará o processo de desenvolvimento da vi- sualização de dados e, indo além, permitirá que os stakeholders consigam absorver o maior número de informações possíveis, percebendo, por exemplo, mais de uma solução para um deter- minado problema. Como não existe um passo a passo ou recei- ta de bolo que defina quais recursos gráficos devem ser utilizados em cada caso, a melhor saída é testar mais de um tipo de método de visualização para um mesmo conjunto de dados. VISUALIZAÇÃO DE DADOS 48 SER_DATSCI_VISUDADOS_UNID2.indd 48 20/02/2020 16:39:50 Perceber o comportamento de um mesmo conjunto de dados (dataset) em diferentes tipos de visualizações tornará o cientista de dados experiente no desenvolvimento deste tipo de projeto. Com isso, ele conseguirá observar quais recursos visuais demonstraram com maior assertividade e precisão o que os dados querem informar. CITANDO “Algo importante também em relação à visualização dos dados é que, além dos gráfi cos convencionais que estamos acostumados (como o de barras, de pizza e de linha), há uma variedade de opções para se transmitir uma mensagem, que, dependendo do cenário, pode ser a forma mais efi - caz de representar visualmente seus dados” (MARQUESONE, 2016, p. 180). Essencialmente, existem diversos tipos de métodos de visualizações de da- dos, dentre os quais podemos citar alguns exemplos, como gráfi cos, mapas mentais, infográfi cos, word clouds etc. Vamos conhecê-los nos próximos tópicos. Gráficos (charts) Conhecidos por serem os métodos mais tradicionais de visualizações de dados, os gráfi cos (charts), ocupam o posto de ferramenta mais utilizada por cientistas de dados em seus projetos, pois, com ele, é possível perceber de forma natural a evolução e o comportamento de um determinado conjunto de dados, levando em consideração certa unidade de medida, como o tempo, por exemplo. Deste modo, é possível observar como diferentes elementos intera- gem dentro de uma mesma escala, contribuindo para uma análise simultânea destes dados. Alguns questionamentos que podem vir a surgir em relação a este méto- do são: por que os gráfi cos são os recursos mais utilizados pelos cientistas de dados? E quais são as vantagens em utilizá-los? Há uma série de motivos que podemos elencar para explicar este fenômeno, dentre os quais podemos destacar: • Fácil leitura: ideias compiladas em gráfi cos são exibidas de maneira resu- mida, tornando a leitura leve, rápida e sucinta, facilitando o entendimento da mensagem pelo interlocutor. VISUALIZAÇÃO DE DADOS 49 SER_DATSCI_VISUDADOS_UNID2.indd 49 20/02/2020 16:39:50 • Exibe conexões: dentro de um gráfico, é muito mais fácil perceber as conexões que existem entre parâmetros diferentes. Desta forma, podemos observar que um elemento pode vir a sofrer uma alteração e que esta varia- ção ocorre em decorrência de alteração de valor em outro processo. Ou seja, a mudança de um dado pode interferir em outro, demonstrando, assim, uma correlação entre eles. • Desperta parcerias: por ser uma linguagem de simples compreensão, os gráficos possibilitam que muitos colaboradores de uma determinada em- presa ou organização consigam atuar juntos na melhoria de processos in- ternos, tendo por objetivo a obtenção de melhores resultados. • Avaliação de resultados: a ma- neira como os gráficos são organiza- dos facilita uma análise aprofundada dos dados, de modo que possam ser feitos comparativos entre períodos. Ou seja, é possível avaliar qualitativa e quantitativamente o desempenho de determinadas ocorrências, perce- bendo se obtiveram resultados posi- tivos ou negativos, por exemplo. Os gráficos possuem tipos dife- rentes que são aplicados também em contextos variados, dentre os quais podemos citar alguns exemplos: gráfico de barras, gráfico de colunas, gráfico de linhas, gráfico de rosca, gráfico de pizza. Gráfico de barras: este tipo de recurso é perfeito para a representação de informações lineares. A ideia des- te gráfico é focar na comparação de muitos dados. Como exemplo, ele pode ser utilizado para a exibição de quantidades vendidas de um produto em um período específico. Os dados são dispostos horizontalmente. Observe um exemplo no Gráfico 1: VISUALIZAÇÃO DE DADOS 50 SER_DATSCI_VISUDADOS_UNID2.indd 50 20/02/2020 16:39:58 Gráfico de colunas: este tipo de recurso é semelhante ao gráfico de barras e sua aplicabilidade pode ser a mesma. A única diferença é que, no gráfico de colu- nas, os dados são dispostos verticalmente, conforme exemplificado no Gráfico 2. GRÁFICO 2. EXEMPLO DE GRÁFICO DE COLUNAS: UNIDADES DE ELETRÔNICOS GRÁFICO 1. EXEMPLO DE GRÁFICO DE BARRAS: UNIDADES DE ELETRÔNICOS VISUALIZAÇÃO DE DADOS 51 SER_DATSCI_VISUDADOS_UNID2.indd 51 20/02/2020 16:40:00 Gráfico de linhas: este tipo de recurso é ideal para demonstrar a evolução de um elemento dentro de um período específico. A projeção é realiza- da em formato de linha e a sua disposição é horizontal. Uma observação importante é quanto ao cuidado com a quantidade de elementos a serem exibidos, pois o excesso de linhas pode impedir a leitura das legen- das, dificultando o entendimento das informações nele contidas. GRÁFICO3. EXEMPLO DE GRÁFICO DE LINHAS: UNIDADES VENDIDAS DE UM SMARTPHONE Gráfico de pizza: este tipo de gráfico é muito prático e co- mum em projetos de visualizações. Ele se caracteriza com a divisão dos dados em setores e a composição de todas as partes formam um todo. Desta forma, cada setor repre- senta uma parte da informação a qual está relacionado. É importante mencionar, entretanto, que o uso deste gráfico só é assertivo se a soma de todas as partes dos dados daquela informação for igual a 100%. VISUALIZAÇÃO DE DADOS 52 SER_DATSCI_VISUDADOS_UNID2.indd 52 20/02/2020 16:40:01 GRÁFICO 4. EXEMPLO DE GRÁFICO DE PIZZA: VENDAS DE UMA BARRACA DE FEIRA GRÁFICO 5. EXEMPLO DE GRÁFICO DE ROSCA: VOTOS (CANDIDATO X, CANDIDATO Y, CANDIDATO Z) Gráfico de rosca: este tipo de visualização é semelhante ao gráfico de piz- za, exibindo a composição de um todo, mas ele pode conter mais de uma se- quência de dados. O Gráfico 5 retrata o modelo deste tipo de visualização. No exemplo, é possível observar o resultado de uma eleição de candidatos X, Y e Z nos estados de São Paulo e Rio de Janeiro. No anel externo, são exibidas as por- centagens de votos do RJ; já no anel interno, as porcentagens de votos de SP. O gráfico demonstra também os votos nulos e brancos de ambos os estados. VISUALIZAÇÃO DE DADOS 53 SER_DATSCI_VISUDADOS_UNID2.indd 53 20/02/2020 16:40:02 Gráfi co de área: o gráfi co de área é muito similar ao gráfi co de linhas. A diferen- ça é que, no gráfi co de área, o espaço entre a linha e o eixo é preenchido com uma cor. Além disso, a ideia deste gráfi co é exibir as alterações nos números de uma categoria ao longo de um período específi co. É possível utilizar este gráfi co para re- presentar as vendas dos funcionários em um período específi co de tempo. GRÁFICO 6. EXEMPLO DE GRÁFICO DE ÁREA: VENDAS FUNCIONÁRIOS Infográficos Dentre as principais ferramentas de visualizações de dados disponíveis no mercado, podemos citar os infográfi cos, que são variações dos gráfi cos. Eles podem ser classifi cados e defi nidos como outra estratégia de comunicação. Com o auxílio de textos explicativos, exibe imagens que informam sobre te- mas e assuntos relacionados ao conjunto de dados. Com isso, podemos dizer que os infográfi cos são representações visuais dos dados (informações), com- binando imagens e textos. Este método de visualização é amplamente utilizado por empresas de di- versos setores, como, por exemplo, organizações que atuam com mídias di- gitais, como sites, jornais e/ou revistas eletrônicas. Além disso, é importante VISUALIZAÇÃO DE DADOS 54 SER_DATSCI_VISUDADOS_UNID2.indd 54 20/02/2020 16:40:04 mencionar que os infográfi cos são muito úteis e proporcionam excelentes resultados em projetos de visualização de dados, principalmente quando as informações precisam ser apresentadas de maneira interativa e com certo di- namismo. Por este motivo, uma de suas vantagens principais é a de que ele pode ser personalizado de acordo com as características de cada público-alvo. Os infográfi cos possuem uma série de aplicabilidades adaptadas para di- versos contextos, como em reuniões de negócios ou conferências, podendo ser utilizados para demonstrar os resultados fi nanceiros de uma empresa dentro de um período específi co, por exemplo. Vejamos algumas das principais vantagens de se aplicar infográfi cos em projetos de visualização de dados: • Podem ser memorizados com facilidade: as imagens, além de comple- mentarem o entendimento da mensagem que está sendo passada por meio dos textos, são mais fáceis de serem gravadas, possibilitando que o interlocu- tor crie uma memória visual. • São altamente persuasivos: os infográfi cos causam impacto e proporcio- nam a sensação de pertencimento. Além disso, direcionam a atenção do inter- locutor para o que realmente é importante dentro da visualização de dados. • Simplifi cam o entendimento: por serem muito bem objetivos e diretos na transmissão da mensagem, os infográfi cos proporcionam uma melhor com- preensão dos dados, quase que de maneira intuitiva. Mapas mentais Os mapas mentais são ferramentas de organização de informações que au- xiliam na representação visual de diferentes conexões entre elementos distin- tos. Em adição, pode-se dizer que este método de visualização é responsável por unir dados diferentes, ramifi cando as ideias, como em um diagrama. A ideia de um mapa mental, também chamado de mind map, é sintetizar os dados, selecionando apenas as informações-chave que são mais relevantes para serem representadas visualmente. Decerto, o seu funcionamento se dá com a inserção de um tema central, gerando ramifi cações de ideias e conceitos atrelados a ele, conforme observável no exemplo do Diagrama 1, sendo que o tema central é projeto e, a partir des- VISUALIZAÇÃO DE DADOS 55 SER_DATSCI_VISUDADOS_UNID2.indd 55 20/02/2020 16:40:04 ta palavra-chave, são gerados diversos pontos de ligação, como tempo, ideia, recursos, criatividade, comunicação, estudo e metas, que formam a linha de pensamento relacionado ao assunto de onde se originou o mapa mental. Outro exemplo de uso para os mapas mentais nas empresas, além da ex- posição de ideias, é a verifi cação de tendências para um determinado produto ou serviço. DIAGRAMA 1. EXEMPLO DE MAPA MENTAL Recursos Criatividade Comunicação Metas Estudo Tempo Ideia Mapa Mental do Projeto Fonte: Shutterstock. Acesso em: 13/11/2019. (Adaptado). Word clouds Além das ferramentas mencionadas anteriormente, temos outro méto- do de visualização de dados bastante popular, especialmente em websites, blogs ou em sistemas web utilizados pelas empresas. Este tipo de visuali- zação é chamado de word cloud (nuvem de palavras). VISUALIZAÇÃO DE DADOS 56 SER_DATSCI_VISUDADOS_UNID2.indd 56 20/02/2020 16:40:05 Diferentemente da maneira como são representados os recursos baseados em imagens, as word clouds são exclusivamente formadas e estruturadas apenas por palavras. Este recurso tem como propósito fundamental demonstrar a frequência de ocorrência de palavras que existe em um conjunto de dados textual. A ideia é que quanto mais vezes uma determinada palavra for encontrada no conjunto de dados, ela será representada em maior tamanho na nuvem de palavras. Apesar de não demonstrar quantas vezes uma palavra foi encontrada no con- junto de dados, uma word cloud auxilia muito no entendimento de que determina- do termo pode ser mais relevante que outro, visto que ele está em maior evidência. Em um sistema web empresarial, por exemplo, uma word cloud poderia ser ge- rada com os principais termos pesquisados pelos usuários. Além disso, neste mes- mo exemplo, as palavras que formam a word cloud poderiam ser transformadas em hiperlinks para direcionar os usuários por determinadas áreas do sistema. As cores utilizadas em nuvens de palavras não seguem nenhum padrão ou regra específica. Isto quer dizer que elas são adicionadas apenas para fins estéti- cos deste tipo de visualização de dados. Um ponto de atenção em relação às nuvens de palavras é que elas não po- dem ser consideradas para análises estatísticas precisas, visto que não exibem a quantidade de vezes que uma palavra é encontrada no conjunto de dados. Figura 2. Exemplo de word cloud. Fonte: Shutterstock. Acesso em: 17/11/2019. VISUALIZAÇÃO DE DADOS 57 SER_DATSCI_VISUDADOS_UNID2.indd 57 20/02/2020 16:40:13 Estruturas visuais dos dados Representar os dados grafi camente, sem sombra de dúvidas, exige gran- de responsabilidade e esforço por parte do cientista de dados, que, além de pensar em como as informações devem ser organizadas para facilitar o enten- dimento do público, deve pensar também em como serão construídas estas estruturas visuais. Neste sentido, nos próximos tópicos vamos compreender quais são as partes conceituais que defi nem os tipos de dados, bem como en- tender como os gráfi cos são estruturadosvisualmente. Tipos de dados Ao se trabalhar com Data Science, antes de iniciar qualquer projeto de Data Visualization, o cientista de dados precisa conhecer com riqueza de detalhes quais são os tipos de dados que ele possui em mãos. Basicamente, existem qua- tro tipos de dados, que estão divididos em duas categorias principais: qualitati- vas e quantitativas. Dados qualitativos: são dados de caráter mais subjetivo, que podem represen- tar uma característica ou propriedade de um elemento do conjunto. Por exemplo: um produto poderia ser classifi cado como ótimo, bom ou ruim. Esta classifi cação seria o dado qualitativo. Além disso, estes dados podem possuir narrativas faladas ou escritas e estão organizados em dados nominais e dados ordinais. • Dado qualitativo nominal: como o próprio nome diz, são dados que po- dem ser nomeados ou rotulados e não necessitam de ordenação. Por exemplo: cor do cabelo, sexo, país etc. • Dado qualitativo ordinal: são variáveis que possuem uma ordem ou se- quência natural. Por exemplo: índices, escolaridade, meses do ano. Dados quantitativos: são dados baseados em análises estatísticas e matemáti- cas, portanto, podem ser contabilizados. Estes dados podem ser defi nidos em dis- cretos e contínuos. • Dados quantitativos discretos: são dados que podem ser contados e orga- nizados numericamente. Podemos citar como exemplo o número de acessos únicos em um website ou vídeos de uma plataforma de streaming, unidades vendidas de um determinado produto, número de e-mails enviados em um período específi co. VISUALIZAÇÃO DE DADOS 58 SER_DATSCI_VISUDADOS_UNID2.indd 58 20/02/2020 16:40:14 • Dados quantitativos contínuos: são variáveis que podem assumir valo- res que, por ventura, sejam analisados dentro de um intervalo, como, por exem- plo, o peso e a altura de uma pessoa, o tempo, o salário de um funcionário de uma determinada empresa ou taxas de juros. Estes valores podem ser alterados dentro desta escala. Visual encodings Uma vez que o cientista conhece os dados e já possui entendimento sufi - ciente sobre o que eles representam para o seu público, inicia-se o momento de codifi cá-los visualmente. Este processo é chamado de visual encoding (codifi cação visual, em português). Independentemente do método de visualização escolhido pelo cientista de dados, a informação precisa ser distribuída (mapeada) em estruturas vi- suais, ou seja, precisa ser codifi cada visualmente por meio de variáveis. Em outras palavras, dizemos que codifi cação visual é a forma pela qual as infor- mações (dados) são organizadas em tela. São duas as categorias de variáveis para visual encoding: planar e retinal. A categoria de variáveis visual encoding planar é muito conhecida pelas pessoas, especialmente se você estudou matemática em algum momento. Ou seja, se você conhece os eixos X e Y de um plano cartesiano, certamente já trabalhou com este tipo de técnica, pois elas representam os pontos em um sistema de coordenadas. Desta forma, utilizamos coordenadas X e Y para a construção da estrutura visual de um gráfi co. Quando há a necessi- dade de utilizar uma terceira dimen- são, utilizamos o eixo Z, muito comum em gráfi cos tridimensionais (3D). A codifi cação visual planar é muito mais assertiva na representação visual de dados quantitativos. VISUALIZAÇÃO DE DADOS 59 SER_DATSCI_VISUDADOS_UNID2.indd 59 20/02/2020 16:40:19 Entretanto, é importante mencionar que o uso destas propriedades de retina depende de algumas condições, como o tipo de dado (se é qualita- tivo ou quantitativo) e o tipo de mídia que será utilizada na visualização (digital ou impressa). Vejamos o detalhamento de cada uma delas: • Tamanho: ao codificar visualmente os dados, devemos levar em consideração o tamanho que eles serão exibidos, visto que, se uma de- terminada informação for colocada em tamanho pequeno dentro de um gráfico, poderá ser considerada com pouca relevância, e se for inserida com um tamanho grande, terá maior significância e importância ou, de- pendendo do indicador, pode demonstrar um sinal de atenção. Este tipo de visual encoding é ideal para representação de dados quantitativos. A categoria visual encoding retinal pode ser definida como as proprieda- des que utilizamos para expressar os dados. Existem seis variáveis principais nesta categoria (exemplificados no Quadro 1). São elas: cor, tamanho, satu- ração da cor, forma, textura e orientação. A necessidade de adição destas propriedades se dá pela urgência de apresentar mais de uma variável em uma única visualização. QUADRO 1. EXEMPLOS DE VARIÁVEIS DE RETINA Fonte: CIANCI, 2018. Tamanho Orientação Saturação da cor Textura Forma Matiz de cor Variáveis de retina VISUALIZAÇÃO DE DADOS 60 SER_DATSCI_VISUDADOS_UNID2.indd 60 20/02/2020 16:40:20 GRÁFICO 7. EXEMPLO DE VISUAL ENCODING RETINAL (TAMANHO) • Orientação: esta codificação visual é responsável por direcionar o interlo- cutor na leitura dos elementos contidos em um gráfico. Desta forma, organizar bem os dados facilitará a leitura e interpretação fluida da informação ali repre- sentada. Por exemplo: se o usuário a quem se destina a visualização de dados for de uma cultura em que a leitura é realizada da direita para a esquerda, os elementos devem ser dispostos nesta orientação para que a compreensão so- bre o conteúdo seja facilitada. • Cor: em um projeto de visualização, a escolha da cor dos elementos de um gráfico é de suma importância e deve ser feita com muita responsabilidade, pois o uso equivocado pode induzir o interlocutor a ter uma percepção errada sobre aquela informação. Por exemplo, estamos acostumados com a ideia de que sinais de alerta são exibidos em amarelo, enquanto os sinais de perigo são demonstrados em vermelho. Trocar as cores em situações como estas pode gerar erros na compreensão da informação. • Saturação da cor: uma vez escolhida a cor, é possível também selecionar a sua escala, ou seja, a tonalidade desta cor, visando diferenciar os dados de maneira adequada. Observe um exemplo de saturação na Figura 3: Fonte: TAUCHARTS, 2020. Acesso em: 16/02/2020. VISUALIZAÇÃO DE DADOS 61 SER_DATSCI_VISUDADOS_UNID2.indd 61 20/02/2020 16:40:21 • Forma: neste tipo de visual encoding, a ideia principal é criar diferentes formatos para diferenciar os elementos de um gráfico, conforme podemos vi- sualizar no Gráfico 8. GRÁFICO 8. EXEMPLO DE VISUAL ENCODING RETINAL (FORMA) Fonte: HEER, 2019. Figura 3. Exemplo de visual encoding retinal (saturação da cor). Fonte: AdobeStock. Acesso em: 20/11/2019. VISUALIZAÇÃO DE DADOS 62 SER_DATSCI_VISUDADOS_UNID2.indd 62 20/02/2020 16:40:29 Processo de criação de charts e plots Ao elaborar ou projetar quaisquer charts (gráfi cos) e plots, o cientista de dados precisa ter em mente que há três camadas (layers) comuns a qualquer gráfi co e elas não podem ser ignoradas no processo de desenvolvimento. São elas: camada dados, camada mapeamento e camada gráfi ca. As vi- sual encodings aqui estudadas estão localizados na camada gráfi ca. • Textura: este visual encoding é menos usual, porém pode ser utilizado para realçar suavemente os elementos de um gráfi co, dando a sensação de relevo ou destaque. Você verá a seguir as principais etapas que cada uma destas camadas possui: Camada dados Os dados representam a essência de um gráfi co. Toda a formação do gráfi co depende do conjunto de informações. É nesta etapa que o cientista seleciona e organiza quais serão os dados a serem utilizados para a construção de um gráfi - co adequado ao seu público. Para isto, algumas tarefas precisam ser executadas por este profi ssional: • Localização e seleção dos dados oriundos das diversas fontes de informa- ções disponíveis; • Importação dos dados em um formato adequado para a construção do gráfi co; • Verifi cação de ocorrência de relacionamento entre os dados; • Análise dos dados brutos. Camadamapeamento Nesta camada, os dados são compilados, fi ltrados e comparados. Com isso, são verifi cadas as possíveis inconsistências entre os conjuntos de informações disponíveis. Este processo requer a realização das seguintes tarefas: EXPLICANDO Plot é uma técnica para a representação de um conjunto de dados em formato gráfi co. Na prática, este mecanismo exibe grafi camente o relacionamento entre diferentes variáveis de um ou mais conjuntos de dados. VISUALIZAÇÃO DE DADOS 63 SER_DATSCI_VISUDADOS_UNID2.indd 63 20/02/2020 16:40:29 • Análise aprofundada dos dados; • Verificação da integridade dos dados; • Associação de forma adequada dos diferentes canais de dados; • Geometria e correspondência. Camada gráfica Esta camada se refere ao resultado das tarefas realizadas nas camadas anteriores, ou seja, ela é a finalização de todo o processo, demonstrando, ao final, o gráfico efetivamente construído. Nesta etapa, as seguintes tarefas devem ser realizadas pelo cientista de dados: • Gerenciamento das interações; • Conversão da geometria dos dados em imagens; • Formatação do gráfico; • Aplicação das visual encodings. VISUALIZAÇÃO DE DADOS 64 SER_DATSCI_VISUDADOS_UNID2.indd 64 20/02/2020 16:40:29 Sintetizando Prezado aluno, chegamos ao fim de mais uma unidade. Esperamos que os conteúdos aqui abordados tenham sido de grande valia e proveito para o seu aprendizado. Com base no que estudamos, você pôde perceber que, na Revolução In- dustrial 4.0, a influência dos dados é bem presente, principalmente em áreas como Machine Learning e Inteligência Artificial. Por conseguinte, conhecemos em detalhes alguns tipos de recursos grá- ficos utilizados em projetos de visualização de dados, tais como: gráfico de colunas, gráfico de barras, gráfico de linhas, gráfico de pizza, gráfico de ros- ca, gráfico de área, infográficos, mapas mentais e word clouds. Além disso, entendemos os tipos de dados qualitativos e quantitativos, bem como suas variações. Mais adiante, conhecemos os principais conceitos que norteiam a construção das estruturas visuais dos dados: as visual encodings. Tendo em vista todos os mecanismos de construção de visualização de dados estudados neste capítulo, é possível compreender que a maior dificul- dade do cientista de dados não está na escolha das ferramentas, mas, sim, na decisão de como irá realizar a comunicação dos dados aos stakeholders. Portanto, muito mais importante que o método de visualização escolhido é a definição da linguagem que será empregada nesta comunicação. Ela pre- cisa ser nítida. O cientista de dados deve ser a peça-chave deste processo, mantendo sempre o foco na mensagem dos dados. Bons estudos! VISUALIZAÇÃO DE DADOS 65 SER_DATSCI_VISUDADOS_UNID2.indd 65 20/02/2020 16:40:29 Referências bibliográficas CIANCI, E. M. Data visualization fundamentals. Disponível em: <https://erik- cianci.com/blog/data-visualization-fundamentals#visual-encodings>. Acesso em: 16 fev. 2020. DUBAKOV, M. Visual encoding. Disponível em: <https://www.targetprocess. com/articles/visual-encoding>. Acesso em: 16 fev. 2020. HEER, F. Data types, graphical marks, and visual encoding channels. Dispo- nível em: <https://observablehq.com/@uwdata/data-types-graphical-marks-an- d-visual-encoding-channels>. Acesso em: 16 fev. 2020. MARQUESONE, R. Big data: técnicas e tecnologias para extração de valor dos dados. São Paulo: Casa do Código, 2016. MINISTÉRIO DA INDÚSTRIA, COMÉRCIO E SERVIÇOS. Agenda brasileira para a indústria 4.0. Disponível em: <http://www.industria40.gov.br/>. Acesso em: 16 fev. 2020. MOREIRA, L. P. O que é gráfico? Disponível em: <https://brasilescola.uol.com. br/o-que-e/matematica/o-que-e-grafico.htm>. Acesso em: 16 fev. 2019. NEOMAN STUDIOS. Why your brain craves infographics. Disponível em: <ht- tps://neomam.com/interactive/13reasons/>. Acesso em: 16 fev. 2020. SOPHIA, a robô mais inteligente do mundo | Indústria 4.0. Postado por Baú do Conhecimento. (5 min. 49 s.). son. color. port. Disponível em: <https://www. youtube.com/watch?v=XB6BGu5bQjI>. Acesso em: 16 fev. 2020. TAUCHARTS. Visual encoding/size. Disponível em: <https://api.taucharts.com/ advanced/visual_encoding__size.html>. Acesso em: 16 fev. 2020. VISUALIZAÇÃO DE DADOS 66 SER_DATSCI_VISUDADOS_UNID2.indd 66 20/02/2020 16:40:29