Baixe o app para aproveitar ainda mais
Prévia do material em texto
Unidade 1 Introdução ao Big Data Big Data e Ciência de Dados Diretor Executivo DAVID LIRA STEPHEN BARROS Gerente Editorial CRISTIANE SILVEIRA CESAR DE OLIVEIRA Projeto Gráfico TIAGO DA ROCHA Autoria JÉSSICA LAISA DIAS DA SILVA ALAN DE OLIVEIRA SANTANA AUTORIA Jéssica Laisa Dias da Silva Olá. Sou graduada em Sistemas da Informação pela Universidade de Ciências Sociais Aplicadas (Unifacisa) e mestre em Sistema e Computação pela Universidade Federal de Rio Grande do Norte (UFRN). Atualmente, sou doutoranda em Sistema e Computação pela UFRN e professora conteudista na elaboração de cadernos. Alan de Oliveira Santana Olá. Sou graduado em Ciência da Computação pela Universidade do Estado do Rio Grande do Norte (UERN) e mestre em Sistemas da Computação pela Universidade Federal do Rio Grande do Norte (UFRN). Atualmente, sou professor conteudista, elaborador de cadernos de questões e doutorando em Ciências da Computação. Como cientista, atuo no desenvolvimento e avaliação de técnicas de desenvolvimento de sistemas com ênfase na educação. Desse modo, fomos convidados pela Editora Telesapiens a integrar seu elenco de autores independentes. Estamos muito satisfeitos com o convite e a possibilidade de auxiliar em seu desenvolvimento intelectual e profissional. Bons estudos! ICONOGRÁFICOS Olá. Esses ícones irão aparecer em sua trilha de aprendizagem toda vez que: OBJETIVO: para o início do desenvolvimento de uma nova competência; DEFINIÇÃO: houver necessidade de se apresentar um novo conceito; NOTA: quando necessária observações ou complementações para o seu conhecimento; IMPORTANTE: as observações escritas tiveram que ser priorizadas para você; EXPLICANDO MELHOR: algo precisa ser melhor explicado ou detalhado; VOCÊ SABIA? curiosidades e indagações lúdicas sobre o tema em estudo, se forem necessárias; SAIBA MAIS: textos, referências bibliográficas e links para aprofundamento do seu conhecimento; REFLITA: se houver a necessidade de chamar a atenção sobre algo a ser refletido ou discutido sobre; ACESSE: se for preciso acessar um ou mais sites para fazer download, assistir vídeos, ler textos, ouvir podcast; RESUMINDO: quando for preciso se fazer um resumo acumulativo das últimas abordagens; ATIVIDADES: quando alguma atividade de autoaprendizagem for aplicada; TESTANDO: quando uma competência for concluída e questões forem explicadas; SUMÁRIO História e Evolução do Big Data ...........................................................10 Histórico: Big Data .......................................................................................................................... 13 Big Data ................................................................................................................................................. 14 Os 5Vs do Big Data .........................................................................................16 Aplicabilidade das Tecnologias de Big Data ............................... 20 A diferença entre Big Data e os sistemas tradicionais......................................... 20 Impacto do Big Data ..................................................................................................................... 21 O ambiente favorável à aplicação do Big Data: tecnologias ..........................26 Técnicas de Visualização de Dados ................................................... 30 Visualização de dados: conceito ........................................................................................ 30 Modelos do processo de visualização ............................................................................33 Técnicas de visualização ..........................................................................................................35 Onde aplicar Big Data ........................................................................ 40 A importância de utilizar Big Data ................................................................40 Big Data: onde é aplicado .......................................................................................................... 41 Big Data na Educação ............................................................................................... 41 Big Data aplicado a negócios .............................................................................43 Big Data aplicado na saúde ..................................................................................45 Big Data aplicado na área eleitoral .................................................................47 7 UNIDADE 01 Big Data e Ciência de Dados 8 INTRODUÇÃO Percebemos que as tecnologias avançam se tornando cada vez mais acessíveis, não parando de produzir grandes massas de dados. Temos o avanço iniciado com a Internet e crescendo ao longo do tempo, com os sistemas de informação, aplicações pessoais e comerciais. Como também, temos as redes sociais, portais, e-mails, sensores e aplicações, gerando dados a cada instante. Com isto, surge a necessidade de desenvolvimento de técnicas e recursos tecnológicos que ajuda a lidar com todos esses dados. Uma destas tecnologias que surgiram é a solução computacional Big Data, que será abordada ao longo da unidade. Dessa forma, iremos descrever desde da definição dos autores como os 5Vs que a caracteriza: volume, veracidade, valor e variedade. Veremos também, a diferença entre Big Data e os sistemas tradicionais, tendo em vista o objetivo, bem como o tipo de plataforma e infraestrutura usadas para trabalhar com Big Data. Entenderemos, ainda, como a visualização de dados é importante na utilização de Big Data, tendo em vista que, a partir da análise dos dados, é necessário disponibilizar a informação para as organizações realizarem suas tomadas de decisão. Por fim, na unidade estudaremos ambientes onde aplicar Big Data e as contribuições trazidas com essa solução computacional. Big Data e Ciência de Dados 9 OBJETIVOS Olá. Seja muito bem-vinda (o). Nosso propósito é auxiliar você no desenvolvimento das seguintes objetivos de aprendizagem até o término desta etapa de estudos: 1. Compreender o conceito de Big Data. 2. Conhecer o ambiente favorável à aplicação de tecnologias de Big Data. 3. Visualizar dados. 4. Identificar onde aplicar Big Data. Então? Preparado para adquirir conhecimento sobre um assunto fascinante e inovador como esse? Vamos lá! Big Data e Ciência de Dados 10 História e Evolução do Big Data OBJETIVO: Neste capítulo, conceituaremos sobre a solução computacional Big Data, tratando da sua definição e seu surgimento, apresentando ainda sua importância na atualidade. Com o surgimento da Internet, uma nova era de compartilhamento de informações em um volume e velocidade nunca vistos antes também apareceu. Segundo Sodré (2016), aproximadamente 2,5 quintilhões de bytes de dados são criados diariamente por meio de postagens em redes sociais, upload de fotos e vídeos, registros de transações comerciais, sinais de GPS, rastros de navegação e sensores dos mais diversos tipos. E esse volume só tende a crescer. Além do que, as novas tecnologias têm surgido nos últimos anos para endereçar as limitações técnicas das ferramentas clássicas no tratamento das demandas de processamento mais sofisticados, tempos de resposta cada vez menores e crescentes volumes de dados (LETOUZÉ, 2012; GOLDMAN et al., 2012). Tecnologias como ferramentas de colaboração, sensores, diversidade de sistemas, aplicações desenvolvidas tanto para empresas como para uso pessoal contribuem para a grande produção dos dados diariamente. Assim, um grande volume de dados é produzido diariamente pelas mais variadas aplicações existentes, surgindo, nesse contexto, a necessidade de tratamento desses dados e extração das informações. Observemos primeiramente os conceitos primordiais envolvidos neste cenário, conformeo exposto na Figura 1. Big Data e Ciência de Dados 11 Figura 1 – Conceitos primordiais do Big Data DADOS: são fatos, instruções ou convenções coletadas e normalmente armazenadas, ou seja, são representações de informações. Exemplo: símbolos como as letras do alfabeto (COELHO, 2009). INFORMAÇÃO: é o dado que passou por uma análise, ou seja, é um dado ajustado, trabalhado, processado e configurado de modo adequado (ORNA, 2008). CONHECIMENTO: é a informação in¬terpretada, compreendida e aplicada para um determinado fim. De acordo com Sober (2008), a informação é transformada em saber por parte do usuário e, desta forma, proporciona um processo decisório eficiente. Fonte: Adaptado de Coelho (2009), Sober (2008) e Orna (2008) Dessa maneira, podemos entender que tendo os dados e usando técnicas de análise, obtêm-se informações, sendo possível gerar conhecimento. EXEMPLO: Para compreender melhor as definições, temos o dado como o ponto de inicial para a informação. A informação é determinada por um dado com significado para o indivíduo que tenha interesse, e esta informação pode ser transformada em conhecimento. Portanto, percebe-se que a todo momento temos que lidar com grande volume de dados que estão sendo produzidos por meio de inúmeras aplicações existentes. Em termos práticos, segundo o autor Petry (2013), em um ano, por volta de 2 zettabytes de dados são acumulados. Isto é, em escala, 3 exabytes era toda a capacidade de armazenamento anual que a humanidade podia sustentar em 1986. Em contrapartida, atualmente produzimos duas vezes esse valor por dia. Big Data e Ciência de Dados 12 Grande parte do aumento no volume de dados, deve-se aos seguintes motivos (LOH, 2014): • Armazenamento de dados cada vez mais baratos e disponíveis. • Maior utilização de aplicações e tecnologias por pessoas, devido à familiaridade com as tecnologias. • Maior disponibilidade de serviços e aplicações diversas que são utilizadas para propagar informações, como redes sociais, e-mail, redes globais, conexões sem fio, entre outros. Figura 2 – Volume de dados Fonte: Pixabay A partir do grande volume de dados existentes, motivou-se o surgimento da área de análise de dados, denominada por Big Data, utilizada para caracterizar os dados que extrapolam a capacidade de processamento em sistemas de banco de dados convencionais. Schneider (2012) afirma que Big Data representa um grande volume de dados, movendo-se rapidamente, e que não se adapta às restrições do modelo arquitetural de banco de dados. Outros autores definem Big Data como um processo de extração da informação com qualidade por meio de um grande volume de informação (MAYER-SCHONBERG; CUKIER, 2013). Big Data e Ciência de Dados 13 A seguir, vamos conhecer um breve histórico sobre Big Data, como também, trazer mais conceitos de autores sobre essa tecnologia e abordar sua composição. Histórico: Big Data Antes de começarmos a explorar a história do Big Data (BD), é importante esclarecer que não se sabe ao certo o período de seu surgimento, uma vez que não há um consenso sobre a época exata de seu surgimento pela comunidade acadêmica. A exemplo disto, os autores Phelan (2012) e Arrigoni (2013) afirmam que Big Data surgiu para determinar um grande volume de dados que foram gerados a partir dos anos 2000, porém não havia hardwares para armazená-los ou manipulá-los. Todavia, conforme Arrigoni (2013), o surgimento deste termo se deu na década de 1990, na NASA, com o intuito de delinear grandes conjuntos de dados complexos que apresentavam um enorme desafio aos limites computacionais tradicionais de capturar, processar, analisar e armazenar informação. Corroborando com a disparidade de datas apresentadas anteriormente, no ano de 2010, por meio de uma reportagem na revista The Economist, o termo Big Data foi usado para se dirigir à terceira era da informação, o qual está ligado à terceira Revolução Industrial que ocorreu em meados do século XX e obteve como principais impactos a globalização, a utilização da informática e o desenvolvimento de novas tecnologias (NESELLO; FACHINELLI, 2014). No entanto, a consolidação do Big Data no âmbito acadêmico se deu em meados dos anos 2000, com o relatório de Laney (2001), em que foram apresentados os resultados de estudos sobre os desafios que o incremento do e-commerce trouxe para o mercado de gestão de dados. Diante desta notoriedade, o mercado aderiu massivamente ao uso do Big Data e de seus modelos evolutivos de análise de dados, visto que tais modelos atenderam às novas demandas de análises rápidas dos dados oriundos de várias fontes e em maior quantidade (NOVO; NEVES, 2013). Big Data e Ciência de Dados 14 SAIBA MAIS: Nesta entrevista, que traz uma linha do tempo da história de como os dados se tornaram importantes, com informações que precederam o surgimento do Big Data como área da Tecnologia da Informação (TI). O artigo está disponível clicando aqui. Na próxima seção, detalharemos o conceito que os autores trazem sobre Big Data. Big Data Não há um consenso sobre o conceito do Big Data, alguns autores apresentam este termo como correspondendo ao alto volume de dados virtuais que são complexos, variados, heterogêneos e derivam de múltiplas e autônomas fontes, com controles distribuídos e não centralizados (MCAFEE; BRYNJOLFSSON, 2012). Já Goldman et al. (2012), refere-se ao Big Data como um acontecimento do processamento de grandes volumes de dados, com as quais ferramentas tradicionais não possuem capacidades para trabalhar na velocidade necessária. Figura 3 – Big Data Fonte: Freepik Big Data e Ciência de Dados http://www.forbes.com/sites/gilpress/2013/05/09/a-very-shorthistory-of-big-data/ 15 Segundo Schonberguer (2012), o Big Data representa trabalhos em ampla escala de dados para extrair novas ideias e criar novos modos de valor, a fim de alterar os mercados e as organizações. Como já citamos, o Big Data tomou uma proporção maior na atualidade, devido ao grande volume de dados que é gerado a cada dia. Podemos destacar um ponto que contribui para isso, como o quesito das novas fontes de dados. Neste sentido, temos as redes sociais como um exemplo de fonte de dados mais utilizado ao longo dos anos, fato motivado pela grande quantidade de dados gerados pelos usuários, como por exemplo por meio de: mensagens de texto, tweets, posts sensores, entre outros (SCHNEIDER, 2012). NOTA: Podemos perceber o quanto as redes sociais produzem dados; basta você observar o quanto utilizamos esses recursos. Além das redes sociais, também temos os portais das principais redes de rádio e TV, jornais e revistas tradicionais permitindo a rápida disseminação de informações. Outro autor que destacou o crescimento dos dados das redes sociais foi Gantz (2011), citando outras fontes responsáveis por produzir dados, como sites de entretenimento, aplicações de saúde e segurança (como os vídeos de vigilâncias). Ainda conforme o aludido autor, o Big Data é como um corte horizontal do mundo digital, podendo conter dados transacionais, armazenados, metadados, entre outros, habitando em arquivos volumosos. Existe diversas conceituações na literatura, porém, podemos inferir que todas elas têm concordância com a definição de Davenport (2014, p. 152), que afirma: “Big Data” é um termo genérico para dados que não podem ser contidos nos repositórios usuais; refere-se a dados volumosos demais para caber em um único servidor; Big Data e Ciência de Dados 16 não estruturados demais para se adequar a um banco de dados organizados em linhas e colunas; ou fluídos demais para serem armazenados em um data warehouse estático. Segundo Schonberguer e Cukier (2013), o Big Data é responsável por modificar a natureza dos negócios, dos mercados e da sociedade, uma vez que sua aplicação altera e se expande em relação aos importantes dadoscorporativos, tornando-se um recurso econômico primordial para a macroeconomia, servindo como fundamento para o surgimento de novos modelos de negócios. NOTA: Moraes (2012) revela como a aplicação do Big Data pode ser importante para o direcionamento dos melhores modos de angariar fundos e distinguir quem poderia ser convencido para apoiar a reeleição do candidato Barack Obama para presidência dos Estados Unidos da América. Neste cenário, a aplicação do Big Data possibilitou prever com 15 dias de antecedência que a atuação de Obama no primeiro debate não seria satisfatória, oportunizando que a equipe elaborasse uma ação on- line que foi ao ar uma hora depois do programa de debates (MORAES, 2012). Outro meio aplicado, segundo a análise do The Guardian (2012), foi a campanha de Obama que utilizou a capacidade do Facebook para guiar os eleitores, ou seja, manipulando a rede social como meio de detectar o perfil de potenciais eleitores. Os 5Vs do Big Data Taurion (2013) determina cinco características que compõem o Big Data, sendo elas: volume, variedade, velocidade, veracidade e valor. A representação do Big Data feita por meio dos 5Vs relaciona as diversas alterações no universo da informação. Big Data e Ciência de Dados 17 EXEMPLO: O aumento no volume de dados disponíveis e a necessidade de velocidade para que as informações sejam recuperadas e processadas, ligadas à característica de sua variedade, auxiliam para que os dados possam gerar valor e ter garantia de veracidade. A seguir, temos o detalhamento de cada um desses pontos: • Volume: constitui a grande capacidade de aquisição de dados disponíveis em registro, explicando o universo de informações disponíveis por meio das diversas aplicações existentes, redes sociais pesquisas no Google, upload, entre outros. Esse crescimento de dados pode ser originado por várias fontes, como celulares, computadores, sensores, equipamentos médicos, variados aplicativos existentes, entre outros, que agrupam grandes quantidades de informação (SCHNEIDER, 2012). • Velocidade: esta característica refere-se ao dinamismo de crescimento e o processamento dos dados. Vale ressaltar que o Big Data tem um andamento consecutivo de informações que não param de ser geradas, por isto, é de suma importância, que as análises sejam realizadas em tempo real e se atualizem de modo constante, ou seja, ocorram com velocidade. Diferentemente de análises de modo tradicional, o Big Data necessita satisfazer um fluxo contínuo de dados (DAVENPORT, 2014). • Variedade: refere-se às diversas origens, configurações e formatos dos dados, podendo apresentar os dados estruturados ou não, compreendendo os não estruturados como os oriundos de redes sociais, e-mails, pesquisas na Internet, entre outros meios. Esta variedade é de grande importância devido às fontes em geral não estarem relacionadas. Porém, quando combinados os dados de diversas fontes, podem resultar em informações marcantes para os gestores adotarem em suas decisões, bem como, realizarem predições mais hábeis (TAURION, 2013). • Veracidade: refere-se à autenticidade, à fonte originada e à confiabilidade dos dados. Segundo White (2012), se porventura os Big Data e Ciência de Dados 18 dados não constituírem uma qualidade satisfatória na ocasião em que forem integrados com outros dados, as informações podem acarretar em uma falsa correlação, podendo, assim, resultar em uma análise incorreta de alguma oportunidade de negócios de uma organização, ou seja, implicando de modo direto no resultado das análises. • Valor: refere-se ao conjunto de resultados entre as ações de coletar, armazenar, processar e analisar o Big Data, ou seja, a junção de todos os outros Vs apresentados acima. Este ponto está intrinsecamente relacionado com quanto maior for a qualidade dos dados, maior valor ela tem para o negócio (KAISLER et al., 2013). Vale ressaltar que o valor e a velocidade estão inversamente relacionados, de modo que, quanto menor for a velocidade para gerar informações consistentes, maior poderá ser o valor gerado para o negócio, os quais irão contribuir para as organizações, ajudando no processo de tomada de decisão deixando mais eficiente e rápida. SAIBA MAIS: Faça a leitura do artigo Big Data: os cinco Vs que todo mundo deveria saber. O artigo traz um resumo e explicação de cada um dos Vs que compõem o Big Data: volume, veracidade, velocidade, valor e variedade. Acesse clicando aqui. Por fim, temos que o desempenho das organizações no mercado será compreendido por meio do modo que irão trabalhar com esse volume, veracidade e com a velocidade que elas surgem e se disseminam. Portanto, os líderes terão que determinar o que fazer com tantos dados, a fim de agregar valor ao negócio, esse é um dos principais objetivos do Big Data (COMPUTERWORLD, 2012). Big Data e Ciência de Dados https://canaltech.com.br/big-data/Big-Data-os-cinco-Vs-que-todo-mundo-deveria-saber/ 19 RESUMINDO: Estudamos neste capítulo a respeito do Big Data, abordando pontos importantes como histórico, conceituação e características ligadas aos dados. Durante o capítulo, percorremos sobre diversas aplicações como: redes sociais, Internet, sensores, entre outros, os quais são responsáveis por produzir grandes quantidades de dados. Vimos como, ao longo dos avanços tecnológicos, as diversas fonte dados marcaram o surgimento do termo Big Data, no qual entendemos sua ligação com grandes volumes de dados que necessitam ser analisados em tempo real para gerarem informações em um determinado escopo solicitado. Podemos observar ainda uma breve história do termo Big Data e os conceitos de dados por diferentes autores. Finalizamos estudando e descrevendo os 5Vs que compõem o Big Data: volume, veracidade, variedade, velocidade e valor. Big Data e Ciência de Dados 20 Aplicabilidade das Tecnologias de Big Data OBJETIVO: Seguindo os estudos sobre Big Data, neste capítulo, abordaremos um pouco mais sobre este universo ao tratar das características do ambiente de trabalho com esta tecnologia. Trataremos ainda a diferença entre Big Data e os sistemas tradicionais, tendo em vista o seu objetivo, bem como discorreremos sobre o tipo de plataforma e infraestrutura usadas para trabalhar com Big Data. Prontos? Vamos lá!! A diferença entre Big Data e os sistemas tradicionais Precisamos compreender primeiramente que a gestão do conhecimento no assunto do Big Data, no geral, não é compatível com as clássicas linguagens de consulta em bancos de dados e sistemas de informação, devido aos sistemas tradicionais serem habitualmente projetados para lidarem com fluxos menores e mais previsíveis de dados estruturados, fator que pode acarretar em desempenho indesejado, caso haja um aumento na quantidade desses dados (SANTOS, 2016). Outra diferença que merece ser destacada é referente ao processamento de dados de modelos tradicionais (SQL) entre os modelos do Big Data, em que a escalabilidade vertical e horizontal utilizada nos sistemas SQL, para obter uma melhor capacidade de processamento, um investimento em hardware e tecnologias mais avançadas, devem ser aplicadas, gerando um alto custo para se obter o aperfeiçoamento do processamento dos dados (COELHO, 2004). Por outro lado, a escalabilidade horizontal é utilizada nos modelos do Big Data à computação paralela, de modo que as máquinas de nível intermediário, commodities, trabalham em conjunto para processar Big Data e Ciência de Dados 21 volumes de dados que antes não possuíam essa capacidade, permitindo, assim, uma redução de custo e tempo (COELHO, 2004). Figura 4 – Processamento de dados Fonte: Freepik Conforme uma analogia feita pelo autor Taurion (2013), as ferramentas do Big Data representam, para as organizações e sociedade, uma importância semelhante ao que o microscópio representou para a medicina, por serem ferramentasde análise, possibilitando recursos para extrair informações, predizer incidentes permitindo e evitando problemas futuros. Impacto do Big Data Percebe-se que os recursos do Big Data, como visto anteriormente, possibilitam descobrir padrões e sentidos em um enorme e variado volume de dados gerados por sistemas transacionais, redes sociais, sensores, entre outros. Deste modo, o Big Data permite agregar valor para as empresas, pois possibilita buscar padrões e relação entre dados que antes estavam perdidos (TAURION, 2013). Big Data e Ciência de Dados 22 Conforme a Mckinsey e Company (2012), existem cinco modos para se obter o valor transformacional por meio dos grandes dados: elaborar transparência; apresentar a variabilidade que possibilitam a experimentação; segmentar populações para personalizar ações; substituir e apoiar a tomada de decisão humana com algoritmos automáticos; e inovar novos modelos de negócios, produtos e serviços. Continuando, temos como impacto positivo obtido pela aplicação do Big Data nas empresas, o fato da possibilidade do grande potencial de proporcionar uma melhor tomada de decisão, visto que quando uma organização adota o desenvolvimento de tecnologias que trabalhem como Big Data, obtém-se um ganho por meio de análises eficientes e corretas dos dados extraídos, como ainda a capacidade de decisão, ganhando, assim, um importante diferencial frente a concorrência (MAZZEGA, 2016). Outras implicações positivas no âmbito do Big Data são duas características importantes: um volume relacionado às grandes quantidades de dados dos bancos de dados e a velocidade referente à manipulação e ao tratamento analítico ligado à realização de modo rápido, em algumas situações em tempo real (TAURION, 2013). Em contrapartida, temos um impacto crítico em relação a exigência de escolher mão de obra qualificada para se trabalhar com Big Data e realizar a sua implantação devido à exigência de conhecimento robusto e específico para trabalhar com essa tecnologia. Por outro lado, esta necessidade de profissionais qualificados permitiu surgir oportunidades de trabalho para aqueles que se qualificam. NOTA: Há alguns anos, Anderson e Raine (2012) realizaram um estudo com diversos pesquisadores e especialistas, apresentando os impactos positivos e negativos que o Big Data poderia causar às empresas, indivíduos e sociedade ao longo dos anos. Neste estudo, demonstrou-se que 53% dos indivíduos entrevistados tinham um posicionamento positivo ligado ao Big Data, enquanto 39% tinha um posicionamento negativo. Big Data e Ciência de Dados 23 Foi demonstrado nesta pesquisa citada acima, um contexto promissor de novas oportunidades de empregos e foi destacada a necessidade de um novo tipo de profissional chamado de Data Scientist ou cientista de dados, um profissional com formação em Ciências da Computação e Matemática. Uma matéria no ano de 2017 reportada pelo jornal Extra com tema Profissionais do Big Data estão entre os cinco mais contratados no Brasil, comprava o que os pesquisadores já previam, ou seja, que as oportunidades na área em Big Data iriam oferecer oportunidades a profissionais qualificados. Nesta reportagem, também pode ser destacado um levantamento de uma empresa de recrutamento, Michael Page, demonstrando que o cargo estava entre os cinco mais solicitados pelo mercado brasileiro no ano 2017 (ZUAZZO, 2017). De acordo com Isaca (2013), o Big Data pode afetar a empresa em diversos pontos, como também a governança e o gerenciamento do planejamento, utilização, garantia e privacidade apresentados abaixo: • Governança: é responsável por garantir que as requisições e necessidades dos envolvidos possam ser analisadas para estabelecer metas que devam ser atendidas pelas empresas. Este fato implica que o processo de governança apropriado aos projetos do Big Data pode levar a uma sequência de outros problemas, inclusive de dados errôneos e imprevistos nos custos. Dessa forma, temos um desafio expressivo no processo de governança do Big Data que é atenção em categorizar, modelar e mapear os dados ao modo que são capturados e armazenados. • Planejamento: refere-se ao processo de coleta e estruturação dos resultados gerados pela análise dos dados. • Utilização: refere-se ao tipo de uso do Big Data que pode mudar conforme a necessidade de cada empresa. Exemplificando, dependendo da estrutura que compõem a empresa, pode ocorrer maior tempo para implementar o Big Data, principalmente se for uma empresa menor que necessite se adequar para oferecer suporte e caso seja necessário desenvolver infraestrutura para Big Data e Ciência de Dados 24 suportar os novos processos ligados ao BD. Também é percebido, ao longo do tempo, que empresas grandes como a IBM, HP, Amazon, Google e Netflix, realizaram aquisições precisas e implementações usando recursos oferecidos pelo Big Data para suas tomadas de decisões e planejamentos estratégicos nas suas organizações. • Garantia: representa um ponto crítico e preocupante para empresa ligado à garantia da qualidade dos dados, pois uma informação só é eficaz quando satisfaz às necessidades do beneficiário das informações, bem como a melhoria da qualidade do dado, aprimora as decisões fundamentadas nele. • Privacidade: refere-se às leis que resguardam a privacidade dos sujeitos e todas as informações adquiridas sobre eles, mesmo que haja o compartilhamento de informações confidenciais de modo inadequado pelas pessoas. Até mesmo com toda as informações de fácil acesso nas redes sociais, deve-se garantir a autenticidade da informação coletada devido esta necessitar ser protegida de usuários perigosos e fraudulentos, até de governos controladores. IMPORTANTE: É importante destacar que a Lei nº 13.709/2018, conhecida como Lei Geral de Proteção de Dados Pessoais (LGPD), foi sancionada por Michel Temer em agosto de 2018 e entra em vigor em agosto de 2020. O objetivo é regulamentar o tratamento de dados pessoais de clientes e usuários por parte de empresas públicas e privadas (PLANALTO, 2018). Big Data e Ciência de Dados 25 Figura 5 – Segurança e privacidade dos dados Fonte: Pixabay Com isto, todas as partes envolvidas no trabalho com Big Data precisam estar informadas das implicações de armazenamento e análises realizando cruzamentos de grandes volumes de dados confidenciais. IMPORTANTE: Vale ressaltar que os dados se tornaram um elemento de extremo valor nas empresas, gerando assim uma dependência, pois a partir do tratamento e das análises dos dados as organizações obtêm precisas tomadas decisões. Por isso, todo cuidado é necessário para que não sejam gerados dados imprecisos, incompletos ou manipulados de maneira fraudulenta, e assim não ser gerado prejuízos aos tomadores de decisões (FEIJÓ, 2013). Outro ponto de extrema importância é a segurança e privacidade que cumprem uma função destacada em Big Data, até porque não se pode trabalhar com dados e não promover a segurança e privacidade deles, tendo em vista que, após serem tratados, possuem valor para a organização. Com isto, todas as partes envolvidas no trabalho com Big Data precisam estar informadas das implicações de armazenamento e análises realizadas, as quais ocorrem por meio do cruzamento de grandes volumes de dados confidenciais. Big Data e Ciência de Dados 26 SAIBA MAIS: Faça a leitura do artigo O fenômeno Big Data e seu impacto nos negócios para saber mais sobre o tema. Acesse clicando aqui. O ambiente favorável à aplicação do Big Data: tecnologias Podemos compreender que proporcionar o trabalho com Big Data é definido pelo desenvolvimento de tecnologias, que possibilitem aperfeiçoar a complexidade de se gerenciar grandes volume de dados. Com isso, surgiram ferramentas com intuito de proporcionaro tratamento dos dados e contribuir no desenvolvimento de soluções voltadas ao Big Data. Figura 6 – Tecnologias Big Data Fonte: Pixabay Big Data e Ciência de Dados https://canaltech.com.br/big-data/O-fenomeno-Big-Data-e-seu-impacto-nos-negocios/ 27 Assim, as tecnologias do Big Data podem ser analisadas sob duas óticas (KERNOCHAN, 2011), sendo elas: • Relacionadas com analytics ou analítica, tendo Hadoop e MapReduce como destaques. • As tecnologias de infraestrutura, que são responsáveis por armazenar e processar os dados. Neste caso, destaca-se o NoSQL. Abaixo temos o detalhe de cada uma dessas tecnologias: Haddop O Hadoop Distributed File System (HDFS) é um software em Java desenvolvido para ser usado em dispositivos que são interconectados para disponibilizar um poder de processamento maior. HDFS tem características distintas, como: ter alta tolerância a falhas e é idealizado para ser implementado em hardware de baixo custo. Além do exposto, é dirigido para aplicações que possuam grande volume de dados (BORTHAKUR, 2007). Esta ferramenta é um sistema de arquivos distribuídos com o componente de armazenamento de dados do projeto sendo código aberto, intitulado Apache Hadoop, aperfeiçoado para qualquer tipo de dados não estruturados, estruturados e semiestruturados, elaborado para trabalhar com hardware de baixo custo e escalável de modo rápido com milhares de máquinas (HADOOP, 2020). MapReduce Inicialmente, esta ferramenta foi idealizada pelo Google, sendo uma inovação na técnica para tirar proveito da grande quantidade de volume de dados produzidos em larga escala. Está ferramenta tem uma característica de subdividir problemas em atividades controláveis e logo após, realizar a distribuição das atividades para alguns servidores, trabalhando assim um conjunto de servidores em paralelo para alcançar o resultado. Exemplos de empresas que utilizam a MapReduce é o próprio Google e a Fundação Apache Software, utilizado para formar a base de implementação para tratar grandes dados (SCHNEIDER, 2012). Big Data e Ciência de Dados 28 NoSQL Esta foi outra tecnologia que surgiu para o ambiente de Banco de Dados, fazendo parte de uma nova categoria denominada NoSQL (Not Only SQL), em que foi idealizado para atender os requisitos de gerenciamento de grandes massas de dados que precisavam de alta disponibilidade e escalabilidade. Outro motivo para o surgimento desta tecnologia foi a falta de eficiência dos bancos de dados relacionais, ligado a grandes massas e diferentes tipos de dados (LÓSCIO, 2011). NOTA: O Big Data está nos mais diversos setores, como: saúde, educação, empresas e setores econômicos, motivando as empresas a investirem em inovação e em fornecer tecnologias que utilizem o Big Data, como a IBM (2012), LinkedIn, Amazon, entre outros que vêm desenvolvendo tecnologias e métodos de utilização do Big Data para as mais variadas áreas. Após a infraestrutura, a decisão de tecnologia adotadas para usar o Big Data é de vital importância, sendo preciso atenção aos componentes de analytics, pois este transforma os dados em algo de valor para o negócio. O Big Data Analytics não significa eliminar os sistemas tradicionais que existem hoje, mas ambos devem coexistir (TAURION, 2013). Big Data e Ciência de Dados 29 RESUMINDO: Estudamos, neste capítulo, os conceitos mais detalhados sobre o Big Data e o ambiente favorável para trabalhar com esta tecnologia. Vimos ainda a diferença entre o Big Data e os sistemas tradicionais, como também, discorremos sobre os impactos positivos e negativos quando se trabalha como o Big Data. Também entendemos que o impacto positivo está relacionado às contribuições permitidas nos diversos setores econômicos, colaborando na tomada de decisão das organizações devido ao valor que os dados tem após ser analisados. Ainda podemos apresentar os impactos negativos ligados à questão de as empresas terem atenção na tecnologia adequada para implementar o Big Data, no quesito de segurança e privacidade dos dados, entre outros pontos. Por fim, conhecemos algumas tecnologias que oferecem infraestrutura para trabalhar com o Big Data. No próximo capítulo, detalharemos mais sobre as tecnologias associadas ao Big Data e suas contribuições. Big Data e Ciência de Dados 30 Técnicas de Visualização de Dados OBJETIVO: Neste capítulo, estudaremos como a visualização de dados é importante na utilização do Big Data, uma vez que a partir das análises dos dados, é necessário disponibilizar a visualização das informações para as organizações. Nesse sentido, como estudamos, o Big Data possibilita o uso de todos os dados de um acontecimento, realizando um filtro das informações necessárias e visualizando dados que antes não eram possíveis por meio de outras tecnologias. Assim, estudaremos os conceitos de visualização de dados que apresentam as informações após terem sido realizados os tratamentos e as análises. Também veremos os modelos de representação de dados, e também como se dá o trabalho com esses dados no contexto da tecnologia do Big Data, sendo apresentado as técnicas adequadas de visualização de dados. Vamos dar continuidade aos nossos estudos!! Visualização de dados: conceito Para iniciar, precisamos entender do que se trata a visualização de informação, segundo Chen (2010), esta visualização corresponde às representações gráficas interativas de informação, criadas por um computador, consistindo em uma área integrada com técnicas de computação gráfica que contribuem no processo de análise e interpretação de conjuntos de dados por meio de representações gráficas possíveis de se manipular (CARD; MACKINLAY, 1997). Neste sentido, entende-se a visualização de dados como a apresentação de informações em formato imagético ou gráfico. Por meio dela, é possível os organizadores realizarem as tomadas de decisões observando os resultados das análises visualmente, assim, com a Big Data e Ciência de Dados 31 visualização é possível obter ainda um entendimento dos conceitos difíceis por meio da identificação de novos padrões (SAS, 2020). De acordo com Yau (2000), a visualização de dados é o modo de proporcionar e expor informações de maneira a estimular a compreensão, seleção e associação, possibilitando o reconhecimento de padrões. Figura 7 – Visualização dos dados Fonte: Freepik Assim, entendemos a visualização dos dados como a representação gráfica dos dados, no qual se possibilita que estes possam ser analisados, por meio de alguma técnica computacional com a finalidade de obter informação. Todavia, não são apenas estruturas computacionais que são usadas para análise de dados, há também as habilidades humanas para interpretar essas representações (MATTHEW et al., 2010). No contexto do uso da tecnologia, as representações visuais apresentam e combinam os elementos fortes de apresentação de dados, em que temos o indivíduo e o computador colaborando com as aptidões para obter os resultados mais eficazes para atender uma determinada necessidade. Big Data e Ciência de Dados 32 IMPORTANTE: É importante entender que a visualização de dados não visa somente representar os dados, mas trata de trazer a compreensão e padrões existentes em grupos de dados. Com relação ao analista, este deve proporcionar, detectar, avaliar e comparar os processos por meio de técnicas que resultem em informação de diferentes formas e visões (PARSAYE; CHIGNELL, 1993). Por isso, é importante entender do que se trata a visualização, para assim compreender a importância desta em Big Data. Conforme Matthew et al. (2010), a visualização na maioria das vezes, é um elemento de um processo maior que pode ser a análise exploratória de dados, descobrimento do conhecimento, exposição de resultados de técnicas ou análise visual. Sabe-se que o Big Data trabalha com grande volume de dados que passam pelo processo de coleta, armazenamentoe análises. Tendo em vista essa grande quantidade de dados disponibilizados que não param de crescer nas empresas, a visualização torna-se ainda mais importante, pois possibilita que as empresas vejam e tenham entendimento dos seus dados, criando estratégias e tomando decisões (ACCENTURE, 2014). SAIBA MAIS: Assita a dois vídeos do TED que abordam a visualização de dados de modo inovador, trazendo uma visão ampla: A Beleza da visualização de dados. Acesse clicando aqui. Já na próxima seção será apresentado os modelos de processo de Visualização. Big Data e Ciência de Dados https://www.ted.com/talks/david_mccandless_the_beauty_of_data_visualization 33 Modelos do processo de visualização Temos que os modelos do processo de visualização correspondem à apresentação de um conjunto de atividades que ajudam na elaboração de uma representação visual. Desse modo, inicialmente os dados grosseiros são coletados dos sistemas operacionais, banco de dados ou alguma aplicação e são transformados em tabelas de dados por meio de processos de transformação de dados e em seguida, as tabelas de dados devem ser alteradas para formatos visuais por meio de processos de mapeamento visual com o intuito de alcançar a visualização concreta. Conforme os autores Card e Mackinlay (1999), o modelo de visualização de dados foi idealizado para selecionar os componentes primordiais no processo de transformação dos dados em uma representação visual diante o uso de uma técnica. Dessa forma, no processo de visualização identifica-se três etapas básicas (CARD; MACKINLAY, 1999): • Pré-processamento: esta etapa trata da transformação dos dados realizando as alterações dos dados brutos em relações lógicas, mas estruturadas para a compreensão humana. • Mapeamento visual: esta etapa trata de relação entre os dados e as representações gráficas, ou seja, os formatos visuais são formados por: substrato espacial, marcas e propriedades gráficas. • Representação: esta etapa trata de disponibilizar a imagem ou gráfico. Dado o exposto, este modelo de processo pode ser alterado, incluso outras etapas, de acordo com o intuito de utilizá-lo, por exemplo, na utilização da tecnologia Big Data, podemos incluir filtragem e interação, implicando que a filtragem corresponde a selecionar o conjunto de dados que se almeja visualizar e esta pode ser empregada em qualquer parte do andamento do processo de visualização de dados (PEREIRA, 2015). Big Data e Ciência de Dados 34 Já a interação é referente a um mecanismo que pode ser usado ao longo do processo de visualização, em que se pode adicionar um novo conjunto de dados para um novo pré-processamento, caso o conjunto de dados processados não seja absoluto (PEREIRA, 2015). Por outro lado, segundo Ware (2013), o processo de visualização é formado por quatro etapas: coleta e armazenamento de dados; pré- processamento para manipular os dados, deixando apenas as informações que são pertinentes; a transformação dos dados após a coleta e manipulação, realizando apresentação visual por meio, geralmente, da computação gráfica. E, por fim, a parte referente à percepção da informação pelo usuário por meio do seu sistema cognitivo. Podemos exemplificar os tipos comuns de visualização de dados que são: gráficos, tabelas, diagramas, mapas, infográficos, painéis e, outros exemplos mais característicos de processos de visualização de dados: gráfico de área, gráfico de barras, gráfico de caixa, nuvem de bolhas, gráfico de marcador, cartogramas, exibição de círculos, mapa de distribuição de pontos, mapa de variações, histograma, matriz, árvore radial, gráfico de dispersão (2D ou 3D), gráfico de fluxo, tabelas de texto, linha do tempo, mapa de árvore, gráfico de segmentos e nuvem de palavras (TABLEAU, 2020). Figura 8 – Tipos de Visualização de Dados Fonte: Freepik Big Data e Ciência de Dados 35 Referente ainda à grande quantidade de dados trabalhada no Big Data, temos outras dificuldades como em relação a visualização. Primeiro, a questão de deixar todos esses dados escaláveis para serem visualizados, como também a dificuldade de processamento. Segundo Agrawal et al. (2015), mesmo com a redução dos dados, ocorre um custo com relação ao tempo para serem geradas as visualizações dos dados, ocasionando travamentos. IMPORTANTE: É importante ressaltar alguns problemas atribuídos pela visualização de dados referente a utilização do Big Data. Um desses se trata do quesito escalabilidade. Por causa da dificuldade de percepção, as informações em tempo real e a necessidade de ocorrer interação. Além do exposto, a questão de coletar informações referentes a grandes massas de dados torna difícil deixar escaláveis as visualizações de dados. Outra limitação que temos é a da tela para demonstrar todos os dados visualmente, diante disso, tem-se a necessidade de buscar técnicas com a abstração para apresentar os dados visualmente. Ainda merece destaque o cuidado na visualização, devido o fator dos dados serem gerados em tempo real, dificultarem a criação da visualização para esse tipo de informação (AGRAWAL et al, 2015). Podemos constatar que a visualização facilita o processo de tomada decisão, pois acaba por trazer as informações geradas de modo mais compreensivo e interpretável para os gestores trabalharem. Técnicas de visualização A visualização das informações contribui para apresentar as informações para que os envolvidos possam consumi-las e extrair valor delas, sendo fundamental para o Big Data. Como já vimos, por meio das visualizações e análises, é possível realizar a tomada de decisões e estratégias. Big Data e Ciência de Dados 36 Ao longo do tempo, as técnicas de visualização vêm avançando muito conforme se aumenta as demandas de análises de dados (TAURION, 2013). NOTA: No mercado, existem diferentes ferramentas de visualização de dados que trabalham com a plataforma Hadoop, o qual contém módulos que analisam muito bem a grande quantidade de dados, mas são ineficientes na criação da visualização dos dados (WANG et al., 2015). Vimos que a abordagem da visualização de dados se relaciona com as técnicas usadas para criar representações gráficas, seja elas tabelas, imagens, diagramas, entre outros modos de exibição intuitivos para promover a interpretação dos dados e gerar o conhecimento por eles apresentados (CHEN; ZHANG, 2014). Diante das dificuldades de visualização de dados quando se trabalha com Big Data, surgiram pesquisas para desenvolver tecnologias para enfrentar os desafios existentes. A seguir, seguem dois exemplos que surgiram como alternativa: Data Cube e Nanocube; e imMens. • Data Cube e Nanocube: o data cubes corresponde a estruturas que conseguem agregar-se em todas as possibilidades nas dimensões de uma tabela em um banco de dados, permitindo uma abordagem de modo rápido aos dados (LINS; KLOSOVSKI, 2013). Pesquisadores tiveram iniciativas, ao longo dos últimos anos, desenvolvendo algoritmos fundamentados a esta tecnologia com o intuito de transmitir a visualização de dados para Big Data, principalmente com relação à escalabilidade do tempo real que esse tipo de iniciativa disponibiliza para explorar visualizações multidimensionais e espaço-temporais, de modo muito veloz. Um desses exemplos é o Nanocube. • imMens: o imMens é referente a uma plataforma online que oferece interações em tempo real, com sínteses visuais escaláveis do Big Data (LIU et al., 2013). Com isso, para viabilizar que as visualizações se tornem escaláveis e interativas, o sistema deve usar táticas para Big Data e Ciência de Dados 37 reduzir os dados denominado data binning, resultando em pontos mapeados unidos por variáveis, como: numérico, ordinal, temporal e variáveis geográficas. Dentro do universo do Big Data, uma prática muito adotada para possibilitar análise dos dados é realizar o trabalho de limpeza, transformaçãoe modelagem dos dados. Neste sentido, a data mining (mineração de dados) possibilita a extração de informações importantes por meio de dados desorganizados por meio de algoritmos (KEIM, et al., 2008). A data mining realiza processos de encontrar padrões e relacionamentos em grandes massas de dados. Esse tipo de técnica usa da análise para fazer a combinação de ferramentas de estatística e inteligência artificial que, por meio do gerenciamento de banco de dados, realizam análises de grandes volumes de dados (ENCYCLOPÆDIA BRITANNICA, 2018). A ferramenta Oracle Data Mining é uma ferramenta que aplica técnicas da Data Mining. Esta ferramenta permite o uso de robustos algoritmos de mineração de dados que possibilitam aos analistas alcançar insights, fazer previsões e tomar decisão de investimentos. Com o ODM, é possível também realizar criações e aplicações de modelos preditivos, além de fornecer projeções sobre o comportamento do cliente, desenvolver perfis, identificar oportunidades de vendas e detectar possíveis anomalias e fraudes. IMPORTANTE: É importante ressaltar que a visualização faz parte de um processo maior, podendo ser a análise dos dados, descoberta de conhecimento, a exposição de resultados de técnicas ou análise visual. Tanto a visualização quanto a análise têm seus andamentos conjuntos, com o intuito de promover a construção de um modelo que representa os dados. Isso se deve à visualização promover a exploração dos dados e ser utilizada para disponibilizar as informações, descobertas de novos conhecimentos a identificação de estruturas, padrões, entre outros (MATTHEW et al., 2010). Big Data e Ciência de Dados 38 Podemos citar que, no contexto de promover a visualização de dados em Big Data, existem outras ferramentas disponíveis no mercado, como as citadas abaixo: • Tableau: esta ferramenta possibilita visualizar as informações com nitidez, visto que, essa função é básica para quem deseja investir em análises do Big Data. Abordagem deste software possibilita a criação de mapas, gráficos diversos, tabelas e outros elementos gráficos para contribuir ao entendimento das informações. Vale ressaltar que esta ferramenta trabalha criando tudo de modo rápido e atualizado em tempo real. O Tableau está disponível em versões gratuitas e pagas (TABLEAU, 2020). • Pentaho: trata-se de uma ferramenta que possibilita realizar a integração das informações de diferentes plataformas e softwares usados enquanto ocorre a análise do Big Data. O Pentaho permite se conectar com o Tableau e também com as redes sociais da empresa envolvida, permitindo, assim, que por meio desta conexão, o trabalho possa ser mais eficiente no uso dessas informações (PENTAHO, 2020). • Chartio: trata-se de uma ferramenta que possibilita juntar os distintos dados coletados e criar relatórios de modo direto pelo navegador web, proporcionando que os arquivos possam ser convertidos em formato PDF (CHARTIO, 2020). SAIBA MAIS: Faça a leitura do artigo Guia prático da visualização de dados: definição, exemplos e recursos de aprendizado para saber mais sobre o assunto. Acesse clicando aqui. Conforme destaca Taurion (2013), outras tecnologias que merecem destaque em Big Data é o conceito de stream processing, que é responsável por analisar os dados em movimento e permite análises por meio de técnicas paralelas no momento em que estes são gerados, passando por regras de negócio de forma que contribuem nas análises, Big Data e Ciência de Dados https://www.tableau.com/pt-br/learn/articles/data-visualization 39 definindo assim, ações imediatas em resposta. Além do exposto, o paradigma stream computing realiza o tratamento dos dados estáticos em tempo real. RESUMINDO: Estudamos neste capítulo a importância da visualização de dados no contexto do Big Data. Estudamos como ela promove a representação dos dados, e também promove a compreensão de padrões, tendências, análises dos dados e as relações existentes entre o conjunto dos dados. Vimos que o processo de visualização contribui para selecionar os componentes primordiais no processo de transformação dos dados em uma representação visual diante do uso de uma técnica. Também foram destacados problemas que podem ocorrer na visualização dos dados em Big Data, devido ao grande volume de dados trabalhados por essa tecnologia, permitindo, assim, o tratamento e interatividade para produzir a informação em tempo real. Por fim, foram apresentadas técnicas de visualização e como estão relacionadas com análises de dados, mostrando algumas tecnologias desenvolvidas para promover uma visualização de qualidade, tentando sanar os pontos críticos para uma boa visualização dos dados em aplicações que utilizam Big Data. Big Data e Ciência de Dados 40 Onde aplicar Big Data OBJETIVO: Neste capítulo, você saberá onde podemos aplicar Big Data, citando sua importância no contexto geral do mercado. Logo após, apresentaremos as diversas áreas que ele está sendo explorado. Vamos lá! A importância de utilizar Big Data Para iniciar, entenderemos que a grande importância do Big Data não é voltada apenas em torno do volume de dados disponíveis, mas sim por conta do que se pode fazer com todos esses dados. Desse modo, os dados oriundos de qualquer que seja a fonte, podem ser analisados para descobrir conhecimento e buscar respostas. Por meio da utilização do Big Data é possível reduzir custos, antecipar ações, elaborar estratégias, criar novos produtos e realizar ofertas melhoradas. Vale ressaltar que as empresas utilizam cada vez mais a tecnologia como meio e não como fim, usando os recursos do Big Data para ser um diferencial e uma vantagem no mercado, deixando-as à frente dos concorrentes. SAIBA MAIS: Faça a leitura do artigo A importância do Big Data e como gerar valor por meio da tecnologia para saber mais sobre o assunto. Acesse clicando aqui. Ao longo das seções seguintes, será exposto áreas onde se pode aplicar Big Data e suas contribuições. Big Data e Ciência de Dados 41 Big Data: onde é aplicado Podemos ver que as empresas hoje buscam não só satisfazer seus clientes, como também seus colaboradores e visam a sempre ter recursos para vencer seus concorrentes. Observamos ainda que os políticos, de forma geral, buscam entender quem são os leitores, bem como, a satisfação ou insatisfação deles. Na educação, vemos que se busca respostas para promover aprendizado aos alunos e entender suas reais necessidades, como também atender aos professores. Na saúde, hoje percebemos uma mudança em que os médicos eram antes a principal fonte de informação, hoje a saúde é sobre entender o paciente e não mais sobre a doença (GAFFIELD, 2013). IMPORTANTE: Diante de todo esse contexto das necessidades, de cada um desses setores e o advindo da era da informação, as aplicações do Big Data têm se tornado grandes aliadas para trabalhar com estes grandes volumes de dados e são adotadas para analisar os dados e fazer previsões, provendo auxílio em tomadas de decisões ou para compreender um problema. Ademais, existem diversas áreas como empresarial, eleitoral, educação e saúde, que acabam adotando o Big Data para produzir e prever problemas para suas áreas de atuação. Big Data na Educação Uma boa área para se aplicar o Big Data é a educação e um bom exemplo é o Programa Internacional de Avaliação de Alunos (Pisa – Programm for International Student Assessment), que é organizado pela Organização para a Cooperação e Desenvolvimento Econômico, o qual tem buscado realizar análises das habilidades dos estudantes no campo de Matemática, Ciências e Leitura/interpretação, de modo que se possa Big Data e Ciência de Dados 42 permitir fazer comparação entre as capacidades que os jovens estão aprendendo em diversos países (SCHLEICHER, 2013). O Pisa possibilitou a criação de grandes massas de dados, a qual se pode utilizaro Big Data sobre a propriedade dos resultados da escola. Este uso também contribui ao direcionar as políticas públicas na área da educação mais claras e mais eficientes, disponibilizando às escolas, por meio desses dados, tomarem decisão para o seu país, observando os dados dos outros. Assim, permitindo que os governos possam analisar melhorias na oferta de conteúdos de diversas áreas da educação em seus respectivos países (SCHLEICHER, 2013). Outra contribuição que a utilização do Big Data pode fornecer é a fundamentação para o desenvolvimento de algoritmos e aplicações que permitam criar deduções sobre o conhecimento que os estudantes possuem, prevendo problemas, interesses, como também a idealização de modelos apropriados de previsão de comportamentos e interesses futuros (MANYIKA et al., 2011). Figura 9 – Big Data na educação Fonte: Freepik Arnold e Pistilli (2012) descreveram que, nos anos de 2007 a 2010, a Universidade de Purdue dirigiu um trabalho denominado Course Signal, que usava o Big Data para agrupar conhecimento sobre seus estudantes por meio de várias fontes, com o objetivo de gerar influências pedagógicas e fazer a identificação de alunos em circunstâncias de riscos. Big Data e Ciência de Dados 43 Conforme está descrito no site (SANTO DIGITAL, 2018), há algumas vantagens em adotar o Big Data na educação, que são apresentadas abaixo: • Identificação dos padrões para melhorar notas: querendo entender o problema de desempenho de alunos em diferentes contextos, por exemplo, tentar entender “por que o Brasil é tão mal avaliado no Programa Internacional de Avaliação de Estudantes, o Pisa?”, o Big Data pode ajudar sendo uma ótima alternativa para encontrar essas respostas, entre outras. • Criação de plataformas de aprendizado personalizadas: o Big Data pode contribuir no desenvolvimento de programas personalizados para os alunos de acordo com o perfil de cada um. • Integração ao contexto dos alunos: promover a integração no desenvolvimento de plataformas de aprendizagens mais interessantes são direcionados para cada aluno por meio da utilização do Big Data. • Possibilidade de avaliação inteligente: por meio da utilização do Big Data, promover atividades personalizadas para cada aluno. • Diminuição da evasão: como atualmente o problema de evasão é forte na área de educação, principalmente nos cursos de exatas, as aplicações de Big Data são um grande recurso para realizar previsões, identificar padrões no desempenho do aluno e indicar a probabilidade de evasão, contribuindo com soluções para evitar evasão. Big Data aplicado a negócios A aplicação do Big Data, para os negócios de empresas de diversos segmentos, é cada vez mais utilizado. Neste sentido, a IDC – International Data Corporation (2013) teve uma iniciativa de listar algumas oportunidades interessantes de negócios, a qual estão descritas abaixo: • Serviços financeiros: este setor trata de promover por meio da utilização do Big Data, recursos para prever e detectar fraudes bancárias e de seguros. Por meio de análise preditiva, impedir Big Data e Ciência de Dados 44 estragos nas indústrias de seguros, análises no segmento de reclamações em seguros, observar padrões, prever riscos de transações e integrar dados a fim de entender aspectos de consumo. • Telecomunicações: no segmento de telecomunicações, o Big Data pode contribuir otimizando as redes, prevendo fraudes e evasões de clientes, melhorar o processo de vendas e a identificação de padrões como a alocação de largura de banda. • Meios de comunicação: a utilização do Big Data no segmento de comunicação contribui classificando os clientes, e viabilizando o crescimento de audiência. • Transporte: no segmento de transporte, o Big Data pode promover aperfeiçoamento de logística, como análises geográficas referentes a localização usadas por meio dos dados de GPS. Outro exemplo, é o uso de sensores espalhados em dispositivos móveis, que possibilitam veículos fornecerem informações em tempo real, permitindo que seja analisado o tráfego. Por meio destas informações, alinhando com alguns elementos independentes em alguns veículos, é possível que os condutores dirijam de forma mais segura e com menos engarrafamentos (TECHAMERICA, 2012). • Serviços profissionais: neste segmento o Big Data pode promover aos profissionais maior facilidade no gerenciamento e direcionamento de campanhas e programas, a fim de atrair e manter clientes. Além do exposto, é possível buscar por clientes que se identifique com produtos específicos. Ainda na área de segurança, o Big Data pode ser utilizado para prevenir crimes e detectar serviços de segurança. • Varejo e atacado: neste segmento o Big Data pode promover aperfeiçoamento das redes de fornecedores, análise de comportamento observando as preferências dos consumidores, fomentando o cruzamento de venda e a inferência de vendas em locais, viabilizar descontos com base nos padrões de consumo Big Data e Ciência de Dados 45 dos clientes, análise de cesta fundamentada na demografia, otimização de merchandising, prevenção e detecção de fraudes e detecção de fraudes no comércio eletrônico. IMPORTANTE: Podemos perceber que o Big Data pode ser aplicado em diversos setores e geram importantes recursos, como também pode ser uma tecnologia que contribui e atua na prevenção de problemas do dia a dia. Assim, o Big Data pode ser usado em aplicações para entender problemas e identificar padrões. O BD cresce muito e pode ser aplicado trazendo importantes mudanças. Nisto percebemos que a mudança que lidamos é, de certa forma, superior às geradas por inovações importantes de modo drástico, expandindo o escopo e a escala das informações na sociedade (MAYER et al., 2013). Big Data aplicado na saúde Neste segmento, a utilização do Big Data cresce bastante, pois atualmente existem diversos recursos que disponibilizam os dados a serem tratados por meio de meios eletrônicos, como dispositivos móveis que registram e monitoram algumas ações dos pacientes, dados em tempo real, armazenamento de dados do paciente e exames, entre outros. Por meio das análises de dados, o Big Data possibilita contribuições, ligadas ao uso de sistema de análise para poder gerar alertas personalizados a cada pessoa e o como o médico corresponderá ao paciente. Com esses sistemas, os recursos de sensores nos hospitais ou em residências, podem monitorar frequentemente com marcadores bioquímicos, permitindo que sejam realizadas análises em tempo real dos dados, bem como, prever eventos que poderão acontecer ao paciente (TECHAMERICA, 2012). Continuando, podemos citar outras melhorias que podem ser destacadas na utilização de aplicações do Big Data. Voltando para saúde, Big Data e Ciência de Dados 46 com o aperfeiçoamento na qualidade do serviço de cuidados, tem-se aperfeiçoado o processo de diagnóstico de doenças ainda no período inicial, permitindo tratamentos personalizados. Assim, o Big Data é de vital importância para a saúde, uma vez que permite aplicações de tomada de decisão mais fundamentadas, bem como, realizações de previsões (CALDEIRA, 2016). Figura 10 – Big Data aplicado na saúde Fonte: Freepik Outro exemplo foi a pesquisa idealizada com análise de mais de 60 mil usuários nos Estados Unidos em um período de quatro anos, a partir disso houve observações ligadas a como os usuários descreviam, nas redes sociais, seu peso inicial e sustentavam uma influência mútua com outros, durante todo o período de regime, o qual falavam ainda sobre suas queixas, desafios e vitórias, conseguindo atingir a meta final (CALDEIRA, 2016). Alguns exemplos interessantes podem ser citados, como a pesquisa do Big Data realizada na UFMG em colaboração com pesquisadores do Catar e da Alemanha, finalizada no ano 2016, a qual conseguiu-se analisar padrões de comportamentode indivíduos em grupos que buscavam perda de peso em redes sociais. Big Data e Ciência de Dados 47 SAIBA MAIS: Faça a leitura do artigo Big Data na Medicina: veja como essa tecnologia está transformando a área da saúde e veja alguns exemplos de pesquisas que utilizaram o Big Data na saúde. Acesse clicando aqui. Big Data aplicado na área eleitoral Uma aplicação que merece destaque é uso do Big Data na política, ajudando em processos de eleição para os candidatos entenderem melhor seus cidadãos e como realizar estudos que possam permitir entender melhor os problemas de determinadas regiões, pavimentando a construção de planos de governo. Assim, utilizando dos recursos de cruzamento de dados geográficos ou demográficos por meio de captura de dados de redes sociais e de pesquisas por formulário on-line, as campanhas podem agregar valor às suas estratégias de campanha, obtendo assim, informações sólidas para tomadas decisões. Figura 11 – Big Data aplicado na área eleitoral Fonte: Freepik Um grande exemplo do Big Data, utilizado em áreas eleitorais, ocorreu em campanhas presidenciais americanas de 2008 e 2012, em que foram feitas análises por meio de um sistema de coleta de notícias automatizados. Big Data e Ciência de Dados https://blog.iclinic.com.br/big-data-na-medicina/ 48 Conforme relata Prati (2014, p. 47): O estudo descreve ampla pesquisa com 2,5 milhões de notícias coletadas a partir de 498 diferentes provedores de 98 países e que publicaram textos na língua inglesa por um período de 10 meses. Com isto, as notícias foram classificadas automaticamente e foram aplicados sobre elas, técnicas de aprendizado de máquina em 15 categorias variadas. O intuito era descobrir padrões e semelhanças, como por exemplo, estilos de escrita entre diferentes provedores, distinção de gênero no tema abordado nas notícias e no relacionamento com a popularidade dos artigos. SAIBA MAIS: Faça a leitura do artigo Big Data na política: entenda como ela interfere nas eleições para saber mais sobre o assunto. Acesse clicando aqui. Assim, percebemos que o campo eleitoral pode obter um bom aproveito das técnicas de Big Data que proporcionam análises em tempo real, de padrão como de predição entre outras. RESUMINDO: Estudamos ao longo deste capítulo onde podemos aplicar o Big Data, abordando diversas áreas que podem ser aplicadas suas técnicas, bem como, contribuir como importante recurso de tomada de decisão. Assim, podemos ver nas explanações, as contribuições oferecidas por esta tecnologia, entendendo melhor como ela pode ser aplicada nos diversos segmentos, desde a saúde ao mercado financeiro, passando também pela educação e tantos outros ramos do conhecimento e comércio. Podemos ainda avaliar a importância desta tecnologia e como ela tem um grande potencial de viabilizar um diferencial aos setores que adotar. Big Data e Ciência de Dados https://www.knowsolution.com.br/big-data-politica-eleicoes/ 49 REFERÊNCIAS ACCENTURE. Entendendo de dados. Disponível em: https://www. accenture.com/_acnmedia/pdf-45/accenture-entendedo-de-dados.pdf. Acesso em: 02 maio 2020. AGRAWAL, R. et al. Challenges and Opportunities with Big Data Visualization. In: INTERNATIONAL CONFERENCE ON MANAGEMENT OF COMPUTATIONAL AND COLLECTIVE INTELLIGENCE IN DIGITAL ECOSYSTEMS, 7., 2015, [s. l.]. Anais […] [S.l.: s.n.], 2015. p. 169-173. ARRIGONI, R. Uma entrevista didática sobre o Big Data. Exame, 2013. Disponível em: https://exame.abril.com.br/tecnologia/uma-entrevista- didatica-sobre-big-data. Acesso em: 28 abr. 2020. ARTHUR, C. What’s a zettabyte? By 2015, the internet will know, says Cisco. The Guardian, 2011. Disponível em: https://www.theguardian. com/technology/blog/2011/jun/29/zettabyte-data- internet- cisco#:~:text=For%20example%2C%20from%20the%20Cisco,catalog%20 more%20than%203%2C000%20times. Acesso em: 02 maio 2020. BIESDORF, S.; COURT, D.; WILLMOTT, P. Big data: What`s your Plan? Mckinsey Quarterly, p. 40-41, 2013. BIG Data – Impactos e Benefícios. Isaca, 2013. Disponível em: http:// www.isaca.org/Knowledge-Center/Research/Documents/BigData_ whp_Por_0413.pdf. Acesso em: 20 maio 2017. BIG data na Educação: conheça 5 vantagens. Santo Digital, 2018. Disponível em: https://www.santodigital.com.br/big-data-na-educacao- conheca-5-vantagens. Acesso em: 05 maio 2020. BIG Data: os cinco vs que todo mundo deveria saber. Canal Tech, [s. d.]. Disponível em: http://corporate.canaltech.com.br/dica/big-data/ big-data-os-cinco-vs-que-todo-mundo-deveria-saber/. Acesso em: 28 abr. 2020. CARD, K.; Mackinlay, J. The Structure of the Information Visualization Design Space. Xerox PARC, p. 92-99, 1997. Big Data e Ciência de Dados 50 CALDEIRA H. O Big Data e o seu uso na saúde. CM Tecnologia, [s. d.]. Disponível em: https://cmtecnologia.com.br/blog/big-data-saúde. Acesso em: 09 maio 2020. CHEN, C. Information visualization. John Wi Ley & Sons, v. 2, p. 387- 403, jul./ago. 2010. Disponível em: http://doi.org/10.1002/wics.89. Acesso em: 11 fev. 2022. CHEN, M.; MAO, S.; LIU, Y. Big Data: A survey. Mobile networks and applications, v. 19, n. 2, p. 171-209. 2014. COELHO, W. Dados, informação, conhecimento e competência. Web Artigos, 2009. Disponível em: http://www.webartigos.com/ art ic les/26653/1/DADOS-INFORMACAO-CONHECIMENTO-E- COMPETENCIA/pagina1.html. Acesso em: 02 maio 2020. COELHO, P. Arquitetura: princípios para alcançar desempenho e escalabilidade em aplicações. Microsoft, 2008. Disponível em: https:// msdn.microsoft.com/pt-br/library/cc518051.aspx. Acesso em: 28 abr. 2020. COMPUTERWORLD. Big Data: volume de dados crescerá 60 em 12 anos. Computer World, 2012. Disponível em: https://computerworld.com. br/2012/05/25/big-data-volume-de-dados-no-mundo-crescera-60- em-2012. Acesso em: 02 maio 2020. DATA Mining. Britannica Academic, 2018. Disponível em: https:// academic.eb.com/?target=%2Flevels%2Fcollegiate%2Farticle%2F437561. Acesso em: 05 maio 2020. DAVENPORT, T. Big Data no trabalho: derrubando mitos e descobrindo oportunidades. Rio de Janeiro: Elsevier, 2014. FEIJÓ, B. A Revolução dos Dados. Exame, 2013. Disponível em: https://exame.com/pme/a-revolucao-dos-dados/. Acesso em: 11 fev. 2022. GANTZ, J.; REINSEL, D. The digital universe in 2020: Big Data. EMC, 2020. Disponível em: https://www.emc.com/collateral/analyst-reports/ idc-the-digital-universe-in-2020.pdf. Acesso em: 09 maio 2020. Big Data e Ciência de Dados 51 GLIKAS, A. A importância do Big Data e como gerar valor por meio da tecnologia. Computer World, 2018. Disponível em: https://computerworld. com.br/2018/02/09/importancia-do-big-data-e-como-gerar-valor-por- meio-da-tecnologia/. Acesso em: 08 maio 2020. GOLDMAN, A. et al. Apache hadoop: conceitos teóricos e práticos, evolução e novas possibilidades. In: JORNADAS DE ATUALIZAÇÕES EM INFORMÁTICA, 31., 2012, [s. l.]. Anais [...] [s. l. s. n.], 2012. GUIMARÃES, L. Big Data na política: entenda como ela interfere nas eleições. Know Solution, [s. d.]. Disponível em: https://www.knowsolution. com.br/big-data-politica-eleicoes/#close. Acesso em: 09 maio 2020. KAISLER, S. et al. Big Data: Issues and Challenges Moving Forward. In: HAWAII INTERNATIONAL CONFERENCE ON SYSTEM SCIENCES, 46., 2013, Maui. Anais […] Maui: [s. n.], 2013. LANEY, D. 3D Data Management: Controlling data volume, velocity, and variety, meta group. Gartner, 2012. Disponível em: https://blogs. gartner.com/douglaney/files/2012/01/ad949-3D-Data-Management- Controlling-Data-Volume-Velocityand-Variety.pdf. Acesso em: 04 maio 2020. LETOUZÉ, E. Big Data for development: challenges & opportunities. [s. n.]: UN Global Pulse, 2012. LINS, L.; KLOSOWSKI, T.; SCHEIDEGGER, C. Nanocubes for Real- Time Exploration of Spatiotemporal Datasets. Visualization and Computer Graphics, IEEE Transactions on 19, n. 12, p. 2456-2465, 2013. LOH, S. BI na era do Big Data para cientistas de dados: indo alémde cubos e dashboards na busca pelos porquês, explicações e padrões. Porto Alegre: [s. n.], 2014. MANYIKA, J. et al. Big Data. [s. l.]: McKinsey Global Institute, 2011. MATTHEW W.; GRINSTEIN, G.; KEIM, D. Interactive Data Visualization Foundations Techniques and Applications. 2. ed. Boca Raton: CRC Press, 2010. Big Data e Ciência de Dados 52 MAYER, V.; CUKIER, K. Big Data: Como extrair volume, variedade, velocidade e valor da avalanche de informação quotidiana. Rio de Janeiro: Campus, 2013. MAYUMI, Y. Big Data na Medicina: veja como essa tecnologia está transformando a área da saúde. Iclinic, 2017. Disponível em: https://blog. iclinic.com.br/big-data-na-medicina/. Acesso em: 09 maio 2020. MAZZEGA, L. Big Data: oportunidades e desafios para os negócios. Campinas: Unicamp, 2016. MCAFEE, A.; BRYNJOLFSSON, E. Big Data: The management revolution. Harvard Business Review, v. 90, n. 10, p. 60. 2012. MCCANDLESS, D. A Beleza da visualização de dados. TED, 2010. Disponível em: http://www.ted.com/talks/david_mccandless_the_ beauty_of_data_visualization.html. Acesso em: 03 maio 2020. NESELLO, P.; FACHINELLI, A. Big Data: o novo desafio para gestão. Revista Inteligência Competitiva, São Paulo, v. 4, n. 1, p. 18-38, jan. 2014. NOVO, R.; NEVES, J. Inovação na inteligência analítica por meio do Big Data: características de diferenciação da abordagem tradicional. Workshop de Pós-Graduação e Pesquisa do Centro Paula Souza, v. 8. p. 32-44. 2013. ORNA, E. Information policies: Yesterday, today, tomorrow. Journal of information Science, Otawa, v. 34, n. 4, p. 547-565, jun. 2008. PARSAYE, K.; CHIGNELL, M. Intelligent Database Tools & Applications: Hyperinformation access, data quality, visualization, automatic Discovery. John Wiley & Sons Inc, p. 541. 1993. PEREIRA, A. Big Data e Data Analysis:Visualização de Informação. Braga: Universidade do Minho, 2015. SAIBA o que é o Big Data e os desafios que as empresas enfrentam. IBM, 2012. Disponível em: http://www.ibm.com/midmarket/br/pt/ infografico_bigdata.html. Acesso em: 04 maio 2020. Big Data e Ciência de Dados 53 SANTOS, I. A. B. Condicionantes do uso efetivo do Big Data e Business Analytics em organizações privadas: atitudes, aptidão e resultados. Recife: UFPE, 2016. SCHLEICHER, A. Big Data and PISA. Huff Post, 2013. Disponível em:http://www.huffingtonpost.com/andreas-schleicher/big-data- andpisa_b_3633558.html. Acesso em: 05 maio 2020. SCHNEIDER, D. Hadoop for dummies. Mississauga: John Wiley & Sons Canada, 2012. SCHONBERGER-MAYER, V.; CUKIER JR., K. Big Data: como extrair volume, variedade, velocidade e valor da avalanche de informação cotidiana. Rio de Janeiro: Elsevier, 2013. SOBER, E. O que é o conhecimento? Crítica na Rede, 2008. Disponível em: http://criticanarede.com/fil_conhecimento.html. Acesso em: 04 maio 2020. SODRÉ, L. Big Data estratégico: um framework para gestão sistêmica do ecossistema big data. 125 f. Dissertação (Mestrado em Engenharia de Produção) – Programa de Pós-graduação em Engenharia de Produção. UFRJ. Rio de Janeiro. 2016. TAURION, C. Big Data. Rio de Janeiro: Brasport, 2013. VIANNA, B.; DUTRA, L. Big Data e gestão da informação: Modelagem do Contexto Decisional Apoiado pela Sistemografia. Revista Informação e Informação, Londrina, v. 21, n. 1, p. 185- 212, jan./abr. 2016 WARE, C. Information visualization: Perception for design. 3. ed, New York: Morgan Kaufmann Publishers, 2013. YAU, N. Visualize this: The FlowingData Guide to Design, Visualization, and Statistics. New Jersey: Willey, 2011. Big Data e Ciência de Dados oi _Hlk39799078 _Hlk39515698 _Hlk39603802 _Hlk39603575 _Hlk39602591 _Hlk39604627 _Hlk39602296 _Hlk39602145 _Hlk39601976 _Hlk39602483 _Hlk39604983 _Hlk39604396 _Hlk39799489 _Hlk39799884 _Hlk39799629 _Hlk39799785 _Hlk39800799 _Hlk39800717 _Hlk39800522 _Hlk39802502 _Hlk39801957 _Hlk39802176 _Hlk39803944 _Hlk39803612 _Hlk39804443 _Hlk39804412 _Hlk39804381 _Hlk39804199 _Hlk39804041 _Hlk40108420 _Hlk40108477 _Hlk45057271 _Hlk45057738 História e Evolução do Big Data Histórico: Big Data Big Data Os 5Vs do Big Data Aplicabilidade das Tecnologias de Big Data A diferença entre Big Data e os sistemas tradicionais Impacto do Big Data O ambiente favorável à aplicação do Big Data: tecnologias Técnicas de Visualização de Dados Visualização de dados: conceito Modelos do processo de visualização Técnicas de visualização Onde aplicar Big Data A importância de utilizar Big Data Big Data: onde é aplicado Big Data na Educação Big Data aplicado a negócios Big Data aplicado na saúde Big Data aplicado na área eleitoral
Compartilhar