Buscar

Trabalho da Disciplina Tecnologias Avançadas



Continue navegando


Prévia do material em texto

�
UNIVERSIDADE ESTÁCIO DE SÁ
MBA EM CIÊNCIA DE DADOS E BIG DATA ANALYTICS
Fichamento de Estudo de Caso
Trabalho da disciplina de
Tecnologias Avançadas
Itajubá - MG
2018
Estudo de Caso: Big Social Data: Princípios sobre Coleta, Tratamento e Análise de Dados Sociais
Referência: Big Social Data: Princípios sobre Coleta, Tratamento e Análise de Dados Sociais
Texto do Fichamento:
No resumo abaixo será apresentado o entendimento sobre a leitura deste artigo no que ser refere ao problema do Big Data por conta do aumento expressivo gerado pelas mídias sociais.
As redes sociais se comportam como um ciclo de vida em um organismo vivo, se pensarmos que cada célula é uma pessoa podemos absorver melhor essa comparação, partindo de um princípio onde elas se multiplicam e que quando uma morre pode dar lugar a outra. Pensando dessa forma o conceito de rede social pode se encaixar em vários padrões no qual o comportamento não seja estático.
A estrutura que forma essas relações normalmente se mostram complexas, por isso a rede é estudada como um todo, partindo do todo até chegar em sua atitude, porém antes de chegar na atitude comportamental o todo é estudado de uma visão sociocêntrica ou em uma visão egocêntrica.
A análise de rede social pode atender a interesses diversos que vão desde uma empresa que deseja disseminar melhor o conhecimento entre seus funcionários até o levantamento de relacionamentos entre weblogs dedicados a trazer propagandas e ideias terroristas. Saber que podemos estudar essa comportamento é algo fantástico se parar pra imaginar que as pessoas formam grupos, o comportamento desse grupo gera conteúdo, esse conteúdo é comentado e relatado, experiências se multiplicam quase de instantânea em diversas plataformas possibilitando soluções a partir deste estudo.
A popularização das mídias sociais faz que usuários de dispositivos móveis venha crescendo disponibilizando cada vez mais informações na internet. Todo esse avanço acabou criando uma espécie de democratização na geração de conteúdo, passando do modelo tradicional de “um pra muito” para “muito pra muitos”, onde jornais, revista e televisão não são mais os principais veículos de informação.
Como tudo o que cresce necessita de organização, as mídias foram caracterizadas em colaborativa, comunicativa, multimídia e entretenimento. Porém a monitorização destas mídias tornou-se um problema para o Big Data, pois exige velocidade no tratamento de um grande volume de dado com características distintas para que análises diferentes sejam realizadas.
Grande parte da informação distribuída via Web é composta de dado não estruturado e para que essa análise seja realizada é necessário aplicar técnicas em mineração para conseguir extrair alguma informação, devido a esse grande problema vem crescendo a busca constante para estruturar estes dados. Com o intuito de contribuir com o garimpo destes dados foram criados alguns padrões, entre eles o XML e JSON, seria uma ótima solução se essa diversidade não fosse um problema, já que é necessário criar uma aplicação para cada padrão de representação.
Atualmente as principais redes sociais online possuem serviços para coleta de dados, um exemplo destas ferramentas é o Node.js. construída na máquina virtual do Javascript do Google para facilitar a construção de aplicações de rede de forma rápida e escalável. O Twitter é uma rede social online que possui duas APIs diferentes para a captura de seus dados, REST API e Streaming API, sua padronização de arquivos é em JSON, todos os dados são recebidos neste formato. Com este conjunto de ferramentas utilizadas é possível realizar a leitura, desambiguação de nós e montagem do grafo de relacionamentos, munido desta informações é possível iniciar a análise da rede social traçando métricas.
O principal objetivo é realizar uma mineração consistente de dados a procura de padrões consistentes, porém de forma eficiente. Para isso temos a seguinte estrutura: a mineração de grafos (estrutura de dados genéricos) são divididos em grupos, mineração orientada a objetos, mineração orientada a links e mineração orientada a grafos, os grupos e os métodos de cada grupos são, tarefas relacionadas a objetos, tarefas relacionadas a ligações e tarefas relacionadas a grafos. Por sua vez as tarefas relacionadas a objetos se dividem em: Ranking baseado em ligação de objetos; Classificação baseada em ligação de objeto; Agrupamento de objetos e Identificação de objetos. As tarefas relacionadas a ligações resumem-se à predição de ligações. Por fim, as tarefas relacionadas a grafos se dividem em: Descoberta de subgrafos e Classificação de grafos.
O tratamento do enorme volume de dados tem se tornando um grande desafio a ser superado, tais como, armazenamento, processamento, visualização e principalmente a análise destes dados. Para tratar esse aumento novas unidades de medida surgem, porém muitas destas não serão úteis em um longo período de tempo.
As análises devem ser eficientes, realizadas quase em tempo real e capazes de lidar com grafos com milhões de nós e arestas. Além disso, existem outros problemas, como falhas e redundâncias. Somadas aos desafios de armazenar esses volumes de dados, também existe o desafio de recuperar e analisar os dados dessas mídias digitais. Os problemas relacionados ao armazenamento, recuperação e análise são agravados por novas variações dos dados decorrente das alterações nas mídias digitais ocasionadas por novas tendências, pelo surgimento de novas mídias digitais com características novas e por comportamentos diferentes por parte dos usuários. Vale ressaltar que outras características desses dados são: redundâncias, inconsistências, dados com algum tipo de falha, etc. Todavia, apesar de todas essas dificuldades, as grandes massas de dados impulsionam a necessidade de extrair sentido dos mesmos. Correlacioná-los para compreendê-los apesar das constantes alterações dos dados podem trazer a tona informações preciosas, podendo se tornar essencial no futuro.
Quando se fala da gerência dos dados, o volume varia de acordo com a capacidade das ferramentas utilizadas em cada área de aplicação. Por exemplo, as informações de um grafo com milhões de nós e bilhões de arestas podem ser armazenadas em um arquivo de alguns gigabytes. O tamanho desse arquivo pode não ser grande do ponto de vista de armazenamento, porém o processamento desse grafo (a aplicação de técnicas de análises) pode exceder a capacidade das ferramentas utilizada com tal finalidade. Percebe-se que, apesar do tamanho ser a parte mais evidente do problema, a definição de Big Data deve observar outras características, as quais podem não estar diretamente associados ao tamanho absoluto dos dados .
A quantidade de dados produzidos na Internet aumenta diariamente. Novas aplicações usadas na rede, aliadas às aplicações existentes e ao aumento do uso de sensores e dispositivos eletrônicos (medidores elétricos, por exemplo) aumentam cada vez mais a quantidade de dados produzidos. As redes sociais online seguem essa tendência. À medida que novas mídias digitais surgem e se popularizam, novas funcionalidades são adicionadas as mídias e novos usuários participam dessas redes, levando ao aumento da quantidade de dados oriundos de interações sociais. As informações são multidisciplinares, em grandes quantidades, produzidos rapidamente e em diferentes fontes.
Com tantos desafios a serem superados, a possibilidade de trabalhar com amostras cada vez maiores de dados das redes sociais possibilita a compreenção de novas informações relevantes que antes não eram consideradas devido as limitações técnicas e humanas.
�