Buscar

UNIDADE 1 - CIENCIA DE DADOS

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Qual é a diferença entre Big Data e Data Science?
O big data é o processamento de um volume de dados muito grande, que exigem "super computadores". O data science são todas as tecnicas e modelos que nos auxiliam na extração de informação dos dados.
Qual é a definição de Small Data? Cite um exemplo.
O small data é a extração de conjunto de dados pequenos e focados em uma análise ou contexto específico, onde a mineração de dados não é muto elevada
Nesta unidade, falamos sobre dados tabulares, que são representados como tabelas, e também mencionamos alguns dados que não podem ser apresentados dessa forma. Um deles é o documento de texto. No entanto, após o processamento, um texto pode ser representado como um vetor de características.
Pesquise brevemente na internet algumas técnicas que permitem a realização dessa tarefa.
A tabulação de dados é uma forma de organizar os dados de forma a serem analisados para tomadas de decisão. Esse procedimento garante a qualidade dos dados e evita necessidade de reestruturações.
Uma forma de fazermos essa tabulação é: 
a) pesquisa de campo com base em uma técnica
b) organização dos dados coletados para serem tabulados
c) elaboração de relatórios
d) análise dos relatórios. 
Rich Morin descreve um problema existente em estudos com grandes amostras. Explique que problema é esse.
Morin explica que quanto maior a amostra, menores são as diferenças para tornarem estatisticamente significativas. Para o programador, então, os estudos podem trazer resultados significativos que são triviais ao mesmo tempo.
Inicialmente, o Big Data foi definido pelos três Vs: velocidade, volume e variedade. No entanto, com o passar dos anos, outros Vs foram atribuídos a essa área do conhecimento. Cite alguns deles e descreva-os brevemente.
Ribeiro (2014) apresenta as quatro sustentações do Big Data: Volume e Variedade, que estão intimamente relacionados devido a ampliação da tecnologia que faz com que ocorra uma inundação de dados. A Velocidade é devida a ampliação de internet, receptores satélites e banda larga celular, esses fatores são importantes pra a troca rápida de informação. A última é a Veracidade, que implica verificar a qualidade dos dados e, além disso, a forma de utilização para cada público que o dado será representado.

Outros materiais

Materiais relacionados

Perguntas relacionadas

Perguntas Recentes