Prévia do material em texto
Unidade 1 Jéssica Laisa Dias da Silva Alan de Oliveira Santana Big Data e Ciência dos Dados Unidade 1| Introdução Percebemos que a cada dia as tecnologias avançam se tornando cada vez mais acessíveis, não parando de produzir grandes massas de dados. Com isto, surge a necessidade de desenvolvimento de técnicas e recursos tecnológicos que ajudam a lidar com todos esses dados. Uma destas tecnologias que surgiram, foi a solução computacional Big Data. Figura 1 - Tecnologias. Fonte: Pixabay Unidade 1| Objetivos 1. Introduzir o conceito da Big Data; 2. Conhecer o ambiente favorável à aplicação de tecnologias da Big Data; 3. Conhecer a visualização de dados; 4. Estudar onde aplicar Big Data. 1. Conceitos, História e Evolução da Big Data Novas tecnologias têm surgido nos últimos anos para endereçar as limitações técnicas das ferramentas clássicas no tratamento das demandas de processamento mais sofisticados, tempos de resposta cada vez menores e crescentes volumes de dados (LETOUZÉ, 2012; GOLDMAN et al., 2012). Figura 2 – Volume de Dados. Fonte: Pixabay Grande parte do aumento no volume de dados, deve-se aos seguintes motivos (LOH, 2014): Armazenamento de dados a cada vez mais baratos e disponíveis; Maior utilização de aplicações e tecnologias por pessoas, devido a familiaridade com as tecnologias. Maior disponibilidade de serviços e aplicações diversas que são utilizados para propagar informações, como redes sociais, e-mail, redes globais, conexões sem fio, entre outros. A partir do grande volume de dados existentes, motivou-se o surgimento da área de análise de dados, denominada por Big Data, utilizada para caracterizar os dados que extrapolam a capacidade de processamento em sistemas de banco de dados convencionais (SCHNEIDER, 2012). O autor Schneider (2012) afirma que Big Data representa um grande volume de dados, se movendo rapidamente, e que não se adapta as restrições do modelo arquitetural de banco de dados. Os autores Phelan (2012) e Arrigoni (2013), afirmam que a Big Data surgiu para determinar um grande volume de dados que foram gerados a partir dos anos 2000, porém, não haviam hardwares para armazená-los ou manipulá-los. Todavia, conforme Arrigoni (2013), o surgimento deste termo se deu na década de 1990, na NASA, com o intuito de delinear grandes conjuntos de dados complexos que apresentavam um enorme desafio aos limites computacionais tradicionais de capturar, processar, analisar e armazenar informação. Corroborando com a disparidade de datas apresentadas anteriormente, no ano de 2010 por meio de uma reportagem na revista The Economist, o termo Big Data foi usado para se dirigir à terceira era da informação, o qual, está ligado à terceira Revolução Industrial que ocorreu em meados do século XX e obteve como principais impactos a globalização, a utilização da informática e o desenvolvimento de novas tecnologias (NESELLO; FACHINELLI, 2014). No entanto, a consolidação da Big Data no âmbito acadêmico se deu em meados dos anos 2000, com o relatório de Laney (2001), em que foram apresentados os resultados de estudos sobre os desafios que o incremento do e-commerce trouxe para o mercado de gestão de dados. Diante desta notoriedade, o mercado aderiu massivamente o uso da Big Data e de seus modelos evolutivos de análise de dados, visto que tais modelos atenderam as novas demandas de análises rápidas dos dados oriundos de várias fontes e em maior quantidade (NOVO; NEVES, 2013). Big Data Não há um consenso sobre o conceito da Big Data, alguns autores apresentam este termo como correspondendo ao alto volume de dados virtuais que são complexos, variados, heterogêneos e que derivam de múltiplas e autônomas fontes, com controles distribuídos e não centralizados (MCAFEE E BRYNJOLFSSON, 2012). Figura 3 – Big Data. Fonte: Pixabay Já Goldman et al. (2012), refere-se a Big Data como um acontecimento do processamento de grandes volumes de dados, com as quais, ferramentas tradicionais não possuem capacidades para trabalhar na velocidade necessária. Segundo Schonberguer (2012), Big Data representa trabalhos em ampla escala de dados para extrair novas ideias e criar novos modos de valor, a fim de alterar os mercados e as organizações. Temos as redes sociais como um exemplo de fonte de dados mais utilizados ao longo dos anos, fato motivado pela grande quantidade de dados gerados pelos usuários, como por exemplo através de: mensagens de texto, tweets, posts sensores, entre outros (SCHNEIDER,2012). Outro autor, que destacou o crescimento dos dados das redes sociais foi Gantz (2011), citando outras fontes responsáveis por produzir dados, como sites de entretenimento, aplicações de saúde e segurança (como os vídeos de vigilâncias). No entanto, a consolidação da Big Data no âmbito acadêmico se deu em meados dos anos 2000, com o relatório de Laney (2001), em que foram apresentados os resultados de estudos sobre os desafios que o incremento do e-commerce trouxe para o mercado de gestão de dados. Diante desta notoriedade, o mercado aderiu massivamente o uso da Big Data e de seus modelos evolutivos de análise de dados, visto que tais modelos atenderam as novas demandas de análises rápidas dos dados oriundos de várias fontes e em maior quantidade (NOVO e NEVES, 2013). Segundo Schonberguer e Cukier (2013), a Big Data é responsável por modificar a natureza dos negócios, dos mercados e da sociedade, uma vez que sua aplicação altera e se expande em relação aos importantes dados corporativos, tornando-se um recurso econômico primordial para a macroeconomia, servindo como fundamento para o surgimento de novos modelos de negócios. Taurion (2013) determina cinco características que compõem a Big Data, sendo elas: volume, variedade, velocidade, veracidade e valor. 2. Fundamentos do Ambiente Favorável à Aplicação de Tecnologias da Big Data Precisamos compreender primeiramente que a gestão do conhecimento no assunto da Big Data, no geral, não é compatível com as clássicas linguagens de consulta em bancos de dados e sistemas de informação, devido os sistemas tradicionais serem habitualmente projetados para lidarem com fluxos menores e mais previsíveis de dados estruturados, (SANTOS, 2016). Figura 4 – Processamento de Dados. Fonte: Pixabay Outra diferença que merece ser destacada, é referente ao processamento de dados de modelos tradicionais (SQL) entre os modelos da Big Data, onde a escalabilidade vertical e horizontal utilizada nos sistemas SQL para obter uma melhor capacidade de processamento, um investimento em hardware e tecnologias mais avançadas devem ser aplicadas, gerando um alto custo para se obter o aperfeiçoamento do processamento dos dados (COELHO, 2004). Por outro lado, a escalabilidade horizontal utilizada nos modelos da Big Data a computação paralela, de modo que, as máquinas de nível intermediário, commodities, trabalham em conjuntos para processar volumes de dados que antes não possuíam essa capacidade, permitindo assim uma redução de custo e tempo (COELHO, 2004). Impacto da Big Data Temos como impacto positivo obtido pela aplicação da Big Data nas empresas, o fato da possibilidade do grande potencial de proporcionar uma melhor tomada de decisão, visto que, quando uma organização adota o desenvolvimento de tecnologias que trabalhem com a Big Data, obtém-se um ganho por meio de análises eficientes e corretas dos dados extraídos (MAZZEGA,2016). Figura 5 – Segurança e Privacidade dos Dados. Fonte: Pixabay Outra implicação positiva no âmbito da Big Data, são duas características importantes: um volume relacionado as grandes quantidades de dados dos bancos de dados e a velocidade referente a manipulação e o tratamento analítico ligado a realização de modo rápido em algumas situações em tempo real (TAURION, 2013). Em contrapartida, temos um impacto crítico em relação a exigência de mão de obra qualificada para se trabalhar com BigData e realizar a sua implantação devido a exigência de conhecimento robusto e específico para trabalhar com essa tecnologia. Este é um desafio que as empresas vêm vencendo, resultando em oportunidades de trabalho para aqueles que se qualificam (TAURION,2013). De acordo com Isaca (2013), a Big Data pode afetar a empresa em diversos pontos, como: Governança, planejamento, utilização, garantia, privacidade. Vale ressaltar que os dados se tornaram um elemento de extrema valor nas empresas, gerando assim uma dependência, pois a partir do tratamento e das análises dos dados, as organizações obtêm precisas tomadas decisões (FEIJÓ, 2013). Por isso, todo cuidado é preciso para que não sejam gerados dados imprecisos, incompletos ou manipulados de maneira fraudulenta, para que assim não seja gerado prejuízos aos tomadores de decisões (FEIJÓ, 2013). Outro ponto de extrema importância é a segurança e privacidade que cumprem uma função destacada em Big Data, até porque, não se pode trabalhar com dados e não promover a segurança e privacidade deles, tendo em vista que ele após ser tratado possui valor para organização. Podemos compreender que proporcionar o trabalho com Big Data é definido pelo desenvolvimento de tecnologias que possibilitem aperfeiçoar a complexidade de se gerenciar grandes volume de dados. Com isso, surgiram ferramentas com intuito de proporcionar o tratamento dos dados e contribuir no desenvolvimento de soluções voltadas a Big Data. Assim, as tecnologias da Big Data podem ser analisadas sob duas óticas (KERNOCHAN, 2011), sendo elas: • Relacionadas com analytics ou analítica, tendo Hadoop e MapReduce como destaques. • As tecnologias de infra estrutura, que são responsáveis por armazenar e processar os dados. Neste caso destaca-se o NoSQL. 3. Técnicas de Visualização de dados Para iniciar, precisamos entender do que se trata a visualização de informação, segundo Chen (2010), esta visualização corresponde às representações gráficas interativas de informação criadas por um computador consistindo em uma área que tem integração com técnicas de computação gráfica que contribuem no processo de análise e interpretação de conjuntos de dados por meio de representações gráficas possíveis de se manipular (CARD e MACKINLAY, 1997). Figura 6 – Visualização dos Dados. Fonte: Pixabay Entendemos a visualização do dados como a representação gráfica dos dados, onde possibilita que estes possam ser analisados, através de alguma técnica computacional com a finalidade de obter informação.Todavia, não são apenas estruturas computacionais que são usadas para análise de dados, mas também as habilidades humanas para interpretar essas representações (MATTHEW et. al. 2010). No contexto do uso da tecnologia, as representações visuais apresentam e combinam os elementos fortes de apresentação de dados em que temos o indivíduo e o computador colaborando com as referentes aptidões para obter os resultados mais eficazes para atender uma determinada necessidade. Conforme Matthew et. al. (2010), a visualização na maioria das vezes é um elemento de um processo maior que pode ser a análise exploratória de dados, descobrimento do conhecimento, exposição de resultados de técnicas ou análise visual. Modelos do Processo de Visualização De modo, inicialmente os dados grosseiros são coletados dos sistemas operacionais, banco dados ou alguma aplicação e são transformados em tabelas de dados por meio de processos de transformação de dados e em seguida, as tabelas de dados devem ser alteradas para formatos visuais por meio de processos de mapeamento visual com o intuito de alcançar a visualização concreta. Figura 7 – Visualização de Dados. Fonte: Pixabay O processo de visualização identifica-se três etapas básicas (CARD e MACKINLAY, 1999): Pré-processamento: esta etapa trata da transformação dos dados realizando as alterações dos dados brutos em relações lógicas, mas, estruturadas para a compreensão humana. Mapeamento visual: esta etapa trata de relação entre os dados e as representações gráficas, ou seja, os formatos visuais são formados por: substrato espacial, marcas e propriedades gráficas. Representação: esta etapa trata de disponibilizar a imagem ou gráfico. Vimos que a abordagem da visualização de dados se relaciona com às técnicas usadas para criar representações gráficas, seja elas tabelas, imagens, diagramas, entre outros modos de exibição intuitivos para promover a interpretação dos dados e gerar o conhecimento por eles apresentados (CHEN; ZHANG, 2014). Diante das dificuldades de visualização de dados quando se trabalha com Big Data, como estudamos anteriormente, surgiram pesquisas para desenvolver tecnologias para enfrentar os desafios existentes. Abaixo segue dois exemplos que surgiram como alternativa: Data Cube e Nanocube; e imMens. Podemos citar que no contexto de promover a visualização de dados em Big Data, existem outras ferramentas disponíveis no mercado como: Tableau, pentaho e chartio. 4. Onde Aplicar Big Data A grande importância da Big Data não é voltada apenas em torno do volume de dados disponível, mas sim por conta do que se pode fazer com todos esses dados. Desse modo, os dados oriundos de qualquer que seja a fonte, podem ser analisados para descobrir conhecimento e buscar respostas. Figura 8 – Big Data na Educação. Fonte: Pixabay Por meio da utilização da Big Data é possível reduzir custos, antecipar ações, elaborar estratégias, criar novos produtos e realizar ofertas melhoradas. Vale ressaltar, que as empresas utilizam cada vez mais a tecnologia como meio e não como fim, usando os recursos da Big Data para ser um diferencial e uma vantagem no mercado, deixando-as a frente dos concorrentes. Áreas Onde o Big Data é Aplicado Podemos ver que as empresas hoje buscam não só satisfazer seus clientes, como também seus colaboradores e visam sempre ter recursos para vencer seus concorrentes. Observamos ainda que os políticos, de forma geral, buscam entender quem são os leitores, bem como, a satisfação ou insatisfação deles. Figura 9 – Big Data na Saúde. Fonte: Pixabay Na educação, vemos que a cada dia, busca-se respostas para promover aprendizado aos alunos e entender suas reais necessidades, como também atender aos professores. Na saúde, hoje percebemos uma mudança onde os médicos eram antes a principal fonte de informação, hoje a saúde é sobre entender o paciente e não mais sobre a doença (GAFFIELD, 2013). Diante de todo esse contexto das necessidades, de cada um desses setores e o advindo da era da informação, as aplicações da Big Data tem se tomado um grande aliado para trabalhar com estes grandes volume de dados e é adotada para analisar os dados para fazer previsões, provendo auxilio em tomadas de decisão ou para compreender um problema. Assim podemos ver as contribuições oferecidas por esta tecnologia, entendendo melhor como ela pode ser aplicada nos diversos segmentos, desde a saúde, ao mercado financeiro, passando também pela educação e tantos outros ramos do conhecimento e comércio. Podemos ainda avaliar a importância desta tecnologia e como ela tem um grande potencial de viabilizar um diferencial aos setores que a adotar. Número do slide 1 Unidade 1| Introdução Unidade 1| Objetivos 1. Conceitos, História e Evolução da Big Data Número do slide 5 Número do slide 6 Número do slide 7 Número do slide 8 Número do slide 9 Big Data Número do slide 11 Número do slide 12 Número do slide 13 Número do slide 14 2. Fundamentos do Ambiente Favorável à Aplicação de Tecnologias da Big Data Número do slide 16 Impacto da Big Data Número do slide 18 Número do slide 19 Número do slide 20 Número do slide 21 3. Técnicas de Visualização de dados Número do slide 23 Número do slide 24 Modelos do Processo de Visualização Número do slide 26 Número do slide 27 4. Onde Aplicar Big Data Número do slide 29 Áreas Onde o Big Data éAplicado Número do slide 31 Número do slide 32