Buscar

Introdução a Ciência de dados_Exercicio1

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 3 páginas

Prévia do material em texto

Introdução a Ciência de dados
Exercício 1
Qual é a diferença entre Big Data e Data Science?
R= big data são conjuntos de dados muito grandes para serem gerenciados por tecnologias convencionais de processamento de dados, exigindo o desenvolvimento de novas técnicas e ferramentas para armazenamento de dados, processamento e transmissão, o big data está mais preocupado com a tecnologia.
Já a Data Science ou ciência de dados se preocupa com a criação de modelos capazes de extrair padrões a partir de dados complexos e o uso desses modelos em problemas da vida real extrai conhecimento significativo e útil dos dados, com o apoio de tecnologias adequadas, tem um relacionamento próximo com análise e mineração de dados fornecendo uma extração de conhecimento framework, incluindo estatísticas e visualização, aplica técnicas a esses dados para descobrir novos e úteis conhecimentos
2 - Qual é a definição de Small Data? Cite um exemplo.
R=é um conjunto de dados cujo volume e formato permite
seu processamento e análise por uma pessoa ou uma pequena organização. small data está preocupado com os indivíduos que produziram os dados e o exemplo é que seja navegar na web, comprar um produto em uma loja, fazer exames médicos e usando aplicativos em seus celulares, são pequenos dados compreensíveis de uma pessoa de seu entendimento é um exemplo de small data.
3-Nesta unidade, falamos sobre dados tabulares, que são representados como tabelas, e também mencionamos alguns dados que não podem ser apresentados dessa forma. Um deles é o documento de texto. No entanto, após o processamento, um texto pode ser representado como um vetor de características.
Pesquise brevemente na internet algumas técnicas que permitem a realização dessa tarefa.
R= Existem muitas técnicas para realizar essa tarefa. Algumas delas são: 
 
Word2vec; 
 
TF-IDF e 
 
Bag-of-Words. 
 
Tabular é organizar. A tabulação de dados, então, é a transformação de todas as 
informações coletadas em material que possa ser analisado para, assim, ter 
potencial de se tornar um suporte importante nas tomadas de decisão. 
 
Esse processo envolve quatro passos: 
 
1. pesquisa de campo com base em uma técnica
2. organização dos dados coletados para serem tabulados; 
3. elaboração de relatórios; 
4. análise dos relatórios. 
O procedimento usado na tabulação é o que vai garantir a qualidade dos dados e 
evitar a necessidade de reestruturações quando chegar o momento de fazer a 
análise dessas informações. Por isso, é essencial fazê-lo de forma organizada. 
Rich Morin descreve um problema existente em estudos com grandes amostras. Explique que problema é esse?
R= Esses estudos podem produzir resultados estatisticamente significativos que, ao mesmo 
tempo, são essencialmente triviais. 
 
Rich Morin afirma que esses estudos podem produzir resultados estatisticamente 
significativos que, ao mesmo tempo, são essencialmente triviais. 
Explicação: 
Quanto maior o tamanho da amostra, menores serão as diferenças para serem 
estatisticamente significativas, ou seja, é altamente provável que sejam 
verdadeiramente diferentes umas das outras. 
Inicialmente, o Big Data foi definido pelos três Vs: velocidade, volume e variedade. No entanto, com o passar dos anos, outros Vs foram atribuídos a essa área do conhecimento. Cite alguns deles e descreva-os brevemente.
R= 
Veracidade (veracity) – refere-se à confiabilidade dos dados e Valor (value) – refere-se ao fato de os dados terem valor ou não dentro do nosso projeto ou negócio. Armazenar dados é importante, mas esses dados podem ter pouca 
utilidade se deles não puder ser extraído conhecimento. 
- Volume, velocidade, variedade, veracidade e valor 
Explicação: 
- Volume: é uma grande quantidade de dados gerada a cada segundo, 
- Velocidade: Se refere à velocidade com que os dados são criado. 
- Variedade: Com o Big Data, mensagens, fotos, vídeos e sons, que são dados 
não-estruturados, podem ser administrados juntamente com dados tradicionais. 
- Veracidade: Com o Big Data não é possível controlar cada hashtag do Twitter ou 
notícia falsa na internet, mas com análises e estatísticas de grandes volumes de dados é 
possível compensar as informações incorretas 
- Valor: O último V é o que torna Big Data relevante: tudo bem ter acesso a uma 
quantidade massiva de informação a cada segundo, mas isso não adianta nada se não 
puder gerar valor.

Continue navegando