Baixe o app para aproveitar ainda mais
Prévia do material em texto
Qual é a diferença entre Big Data e Data Science? O big data é o processamento de um volume de dados muito grande, que exigem "super computadores". O data science são todas as tecnicas e modelos que nos auxiliam na extração de informação dos dados. Qual é a definição de Small Data? Cite um exemplo. O small data é a extração de conjunto de dados pequenos e focados em uma análise ou contexto específico, onde a mineração de dados não é muto elevada Nesta unidade, falamos sobre dados tabulares, que são representados como tabelas, e também mencionamos alguns dados que não podem ser apresentados dessa forma. Um deles é o documento de texto. No entanto, após o processamento, um texto pode ser representado como um vetor de características. Pesquise brevemente na internet algumas técnicas que permitem a realização dessa tarefa. A tabulação de dados é uma forma de organizar os dados de forma a serem analisados para tomadas de decisão. Esse procedimento garante a qualidade dos dados e evita necessidade de reestruturações. Uma forma de fazermos essa tabulação é: a) pesquisa de campo com base em uma técnica b) organização dos dados coletados para serem tabulados c) elaboração de relatórios d) análise dos relatórios. Rich Morin descreve um problema existente em estudos com grandes amostras. Explique que problema é esse. Morin explica que quanto maior a amostra, menores são as diferenças para tornarem estatisticamente significativas. Para o programador, então, os estudos podem trazer resultados significativos que são triviais ao mesmo tempo. Inicialmente, o Big Data foi definido pelos três Vs: velocidade, volume e variedade. No entanto, com o passar dos anos, outros Vs foram atribuídos a essa área do conhecimento. Cite alguns deles e descreva-os brevemente. Ribeiro (2014) apresenta as quatro sustentações do Big Data: Volume e Variedade, que estão intimamente relacionados devido a ampliação da tecnologia que faz com que ocorra uma inundação de dados. A Velocidade é devida a ampliação de internet, receptores satélites e banda larga celular, esses fatores são importantes pra a troca rápida de informação. A última é a Veracidade, que implica verificar a qualidade dos dados e, além disso, a forma de utilização para cada público que o dado será representado.
Compartilhar