Baixe o app para aproveitar ainda mais
Prévia do material em texto
Introdução a Ciência de dados Exercício 1 Qual é a diferença entre Big Data e Data Science? R= big data são conjuntos de dados muito grandes para serem gerenciados por tecnologias convencionais de processamento de dados, exigindo o desenvolvimento de novas técnicas e ferramentas para armazenamento de dados, processamento e transmissão, o big data está mais preocupado com a tecnologia. Já a Data Science ou ciência de dados se preocupa com a criação de modelos capazes de extrair padrões a partir de dados complexos e o uso desses modelos em problemas da vida real extrai conhecimento significativo e útil dos dados, com o apoio de tecnologias adequadas, tem um relacionamento próximo com análise e mineração de dados fornecendo uma extração de conhecimento framework, incluindo estatísticas e visualização, aplica técnicas a esses dados para descobrir novos e úteis conhecimentos 2 - Qual é a definição de Small Data? Cite um exemplo. R=é um conjunto de dados cujo volume e formato permite seu processamento e análise por uma pessoa ou uma pequena organização. small data está preocupado com os indivíduos que produziram os dados e o exemplo é que seja navegar na web, comprar um produto em uma loja, fazer exames médicos e usando aplicativos em seus celulares, são pequenos dados compreensíveis de uma pessoa de seu entendimento é um exemplo de small data. 3-Nesta unidade, falamos sobre dados tabulares, que são representados como tabelas, e também mencionamos alguns dados que não podem ser apresentados dessa forma. Um deles é o documento de texto. No entanto, após o processamento, um texto pode ser representado como um vetor de características. Pesquise brevemente na internet algumas técnicas que permitem a realização dessa tarefa. R= Existem muitas técnicas para realizar essa tarefa. Algumas delas são: Word2vec; TF-IDF e Bag-of-Words. Tabular é organizar. A tabulação de dados, então, é a transformação de todas as informações coletadas em material que possa ser analisado para, assim, ter potencial de se tornar um suporte importante nas tomadas de decisão. Esse processo envolve quatro passos: 1. pesquisa de campo com base em uma técnica 2. organização dos dados coletados para serem tabulados; 3. elaboração de relatórios; 4. análise dos relatórios. O procedimento usado na tabulação é o que vai garantir a qualidade dos dados e evitar a necessidade de reestruturações quando chegar o momento de fazer a análise dessas informações. Por isso, é essencial fazê-lo de forma organizada. Rich Morin descreve um problema existente em estudos com grandes amostras. Explique que problema é esse? R= Esses estudos podem produzir resultados estatisticamente significativos que, ao mesmo tempo, são essencialmente triviais. Rich Morin afirma que esses estudos podem produzir resultados estatisticamente significativos que, ao mesmo tempo, são essencialmente triviais. Explicação: Quanto maior o tamanho da amostra, menores serão as diferenças para serem estatisticamente significativas, ou seja, é altamente provável que sejam verdadeiramente diferentes umas das outras. Inicialmente, o Big Data foi definido pelos três Vs: velocidade, volume e variedade. No entanto, com o passar dos anos, outros Vs foram atribuídos a essa área do conhecimento. Cite alguns deles e descreva-os brevemente. R= Veracidade (veracity) – refere-se à confiabilidade dos dados e Valor (value) – refere-se ao fato de os dados terem valor ou não dentro do nosso projeto ou negócio. Armazenar dados é importante, mas esses dados podem ter pouca utilidade se deles não puder ser extraído conhecimento. - Volume, velocidade, variedade, veracidade e valor Explicação: - Volume: é uma grande quantidade de dados gerada a cada segundo, - Velocidade: Se refere à velocidade com que os dados são criado. - Variedade: Com o Big Data, mensagens, fotos, vídeos e sons, que são dados não-estruturados, podem ser administrados juntamente com dados tradicionais. - Veracidade: Com o Big Data não é possível controlar cada hashtag do Twitter ou notícia falsa na internet, mas com análises e estatísticas de grandes volumes de dados é possível compensar as informações incorretas - Valor: O último V é o que torna Big Data relevante: tudo bem ter acesso a uma quantidade massiva de informação a cada segundo, mas isso não adianta nada se não puder gerar valor.
Compartilhar