Baixe o app para aproveitar ainda mais
Prévia do material em texto
GABARITO Curso gratuito FGV INTRODUÇÃO À CIÊNCIA DE DADOS Qual é a diferença entre Big Data e Data Science? Big Data está mais relacionado à tecnologia. Ele fornece um ambiente computacional não apenas para análise como também para outros tipos de tarefas de processamento. A Ciência de Dados, por sua vez, está mais relacionada à criação de modelos capazes de extrair padrões de dados complexos e o seu uso em problemas da vida real. Qual é a definição de Small Data? Cite um exemplo. É um conjunto de dados cujos volume e formato permitem que o seu processamento e análise sejam realizados por uma pessoa ou uma pequena organização. Por exemplo, todos nós geramos pequenos dados por meio do uso dos nossos telefones celulares, e esses dados são armazenados localmente no dispositivo. No entanto, quando esses dados são enviados aos servidores para serem processados, eles se tornam Big Data. O Small Data se refere a uma pequena quantidade de dados apreendida por ferramentas de análises. Esse pequeno conjunto de informações é capaz de ajudar pessoas na tomada de decisões. Ambos os conceitos são importante para as empresas que possuem uma cultura de gestão de dados. o Small Data atua focado naquelas informações que respondem a perguntas específicas e contextos singulares e explora detalhes por meio de uma mineração muito estreita. Nesta unidade, falamos sobre dados tabulares, que são representados como tabelas, e também mencionamos alguns dados que não podem ser apresentados dessa forma. Um deles é o documento de texto. No entanto, após o processamento, um texto pode ser representado como um vetor de características. Pesquise brevemente na internet algumas técnicas que permitem a realização dessa tarefa. Existem muitas técnicas para realizar essa tarefa. Algumas delas são: Word2vec; TF-IDF e Bag-of-Words. Tabular é organizar. A tabulação de dados, então, é a transformação de todas as informações coletadas em material que possa ser analisado para, assim, ter potencial de se tornar um suporte importante nas tomadas de decisão. Esse processo envolve quatro passos: pesquisa de campo com base em uma técnica; organização dos dados coletados para serem tabulados; elaboração de relatórios; análise dos relatórios. O procedimento usado na tabulação é o que vai garantir a qualidade dos dados e evitar a necessidade de reestruturações quando chegar o momento de fazer a análise dessas informações. Por isso, é essencial fazê-lo de forma organizada. COMO FAZER A TABULAÇÃO DE DADOS? O primeiro passo é escolher o software a ser utilizado.Tabular é organizar. A tabulação de dados, então, é a transformação de todas as informações coletadas em material que possa ser analisado para, assim, ter potencial de se tornar um suporte importante nas tomadas de decisão. Esse processo envolve quatro passos: pesquisa de campo com base em uma técnica; organização dos dados coletados para serem tabulados; elaboração de relatórios; análise dos relatórios. O procedimento usado na tabulação é o que vai garantir a qualidade dos dados e evitar a necessidade de reestruturações quando chegar o momento de fazer a análise dessas informações. Por isso, é essencial fazê-lo de forma organizada. COMO FAZER A TABULAÇÃO DE DADOS? O primeiro passo é escolher o software a ser utilizado. Rich Morin descreve um problema existente em estudos com grandes amostras. Explique que problema é esse. Esses estudos podem produzir resultados estatisticamente significativos que, ao mesmo tempo, são essencialmente triviais. Rich Morin afirma que esses estudos podem produzir resultados estatisticamente significativos que, ao mesmo tempo, são essencialmente triviais. Explicação: Quanto maior o tamanho da amostra, menores serão as diferenças para serem estatisticamente significativas, ou seja, é altamente provável que sejam verdadeiramente diferentes umas das outras. Inicialmente, o Big Data foi definido pelos três Vs: velocidade, volume e variedade. No entanto, com o passar dos anos, outros Vs foram atribuídos a essa área do conhecimento. Cite alguns deles e descreva-os brevemente. Os Vs mais comuns são: http://nc-www5.fgv.br/cursosgratuitos/cg/OCWICDEAD/base_rede/pag/1545_unidade-1-a-revolucao-dos-dados.html# ● veracidade (veracity) – refere-se à confiabilidade dos dados e ● valor (value) – refere-se ao fato de os dados terem valor ou não dentro do nosso projeto ou negócio. Armazenar dados é importante, mas esses dados podem ter pouca utilidade se deles não puder ser extraído conhecimento. - Volume, velocidade, variedade, veracidade e valor Explicação: - Volume: é uma grande quantidade de dados gerada a cada segundo, - Velocidade: Se refere à velocidade com que os dados são criado. - Variedade: Com o Big Data, mensagens, fotos, vídeos e sons, que são dados não-estruturados, podem ser administrados juntamente com dados tradicionais. - Veracidade: Com o Big Data não é possível controlar cada hashtag do Twitter ou notícia falsa na internet, mas com análises e estatísticas de grandes volumes de dados é possível compensar as informações incorretas - Valor: O último V é o que torna Big Data relevante: tudo bem ter acesso a uma quantidade massiva de informação a cada segundo, mas isso não adianta nada se não puder gerar valor. A alternativa correta é a letra D) da programação orientada a objetos à mineração dos dados. O KDD é descrito como um método em que há extração de informações de uma base de dados, sem conhecimento prévio mas com grande potencial de utilizada, sendo extraídos de um banco de dados. 7) A alternativa correta é a letra D) obter um supercomputador que permita trabalhar com big data. Não necessariamente é adotado a técnica Big Data, apesar de ser uma técnica que permite descrever um volume imenso de dados, com velocidade e variedade. 8) A alternativa correta é a letra A)I, II e III. Os dados brutos (raw data) são valores que não foram tratados no primeiro momento, foram apenas inseridos adquiridos, extraídos, sem nenhuma interferência. 9) A alternativa correta é a letra D) é robusta, possibilitando a localização de outliers e atributos irrelevantes. 10) A alternativa correta é a letra B) transformar os valores de um atributo para facilitar a identificação de outliers. Qual o principal objetivo da Ciência de Dados? O principal objetivo é a extração de conhecimento, aplicando-o posteriormente em situações reais. diferença entre dados estruturados e não estruturados? Observe na Figura 2 uma diferença visual para reforçar os conceitos explicados. Os dados estruturados são organizados em um padrão fixo e constante, seguem uma estrutura mais rígida. Os dados não-estruturados, como o próprio nome já diz, não possuem estrutura de organização, sendo totalmente desestruturados. 1) Dados Estruturados São os dados que estão armazenados dentro de uma estruturada que podemos entender “a olho nu”, pois estão armazenados de forma organizada. Esta organização é geralmente feita por colunas e linhas (parecidos com as planilhas do Excel), mas pode variar de acordo com a fonte de dados. Alguns exemplos de dados estruturados: ● Planilhas eletrônicas (Excel) ● Bancos de dados ● Arquivos XML ● Arquivos CSV 2) Dados Não Estruturados Quando não conseguimos identificar uma organização clara dos dados lá armazenados, concluímos que esta é um dado não estruturado. Como identificar as todas as palavras de um documento texto (bloco de notas, Word, e-mails, entre outros) e relacioná-las a um contexto? Como tirar insights de uma imagem e enquadrá-la em um cenário? É praticamente impossível, não é? Quando nos deparamos com esta situação desorganizada, estamos lidando dados não estruturados. Abaixo alguns exemplos: ● Arquivos de texto: documentos words, apresentações (PowerPoint), e-mail, logs, anotações. ● Dados de Redes Sociais: posts, likes dofacebook, tweets do twitter, posts do linkedIn. ● Website: vídeos do YouTube, imagens do instagram, … ● Dados móveis: mensagens de texto (SMS), dados sobre geolocalização. ● Comunicações: conversas de Chat, gravações telefônicas, … ● Mídia: arquivos de MP3, fotos digitais, arquivos de áudio e vídeo. z-value tem como objetivo? transformar os valores de um atributo para facilitar a identificação de outliers. Segundo (Gorrie, 2016), o objetivo do Z-score é remover os efeitos da localização e escala do dado, permitindo a comparação direta entre diferentes bases de dados. Como os dados são centralizados e re-escalados, qualquer ponto que está muito distante do zero pode ser considerado um outlier. QUESTÃO 1 Suponha que um cientista de dados que atua no departamento de tecnologia da informação de determinada empresa precise trabalhar, diretamente, com um profissional da área comercial. No entanto, eles falam idiomas diferentes. A soft-skill a ser utilizada nesse caso envolve: flexibilidade de comunicação. Todas são soft-skills necessárias a um cientista de dados, mas a flexibilidade de comunicação é a mais apropriada nesse caso, uma vez que permite entender e saber usar as palavras certas com cada tipo de trabalhador. Em alguns casos, é necessário usar tanto palavras técnicas (área de TI) quanto não técnicas (área de negócios). QUESTÃO 2 Existe uma tarefa na Ciência de Dados à qual dedicamos grande parte do nosso tempo (de acordo com a leitura, quase 90%). Que tarefa é essa? Quase 90% do nosso tempo é gasto na atividade de limpeza, formatação e colocação dos nossos dados de maneira adequada para os nossos algoritmos de aprendizado de máquina. QUESTÃO 3 Em várias partes das leituras, abordamos os conceitos de correlação e causalidade. Explique, brevemente, a diferença entre esses conceitos. Correlação é uma medida estatística, expressa com um número, que descreve o tamanho e a direção de um relacionamento entre duas ou mais variáveis. Já a causalidade indica que um evento é o resultado da ocorrência de outro evento – isto é, existe uma relação causal entre os dois eventos. O exemplo clássico de causalidade versus correlação frequentemente usado é que o tabagismo está relacionado ao alcoolismo, mas não causa alcoolismo, enquanto fumar provoca um aumento no risco de desenvolver câncer de pulmão.
Compartilhar