Prévia do material em texto
Exercício - Fundamentos da Ciência de Dados Sair e finalizar depois 1 A ciência de dados é um campo multidisciplinar que usa diferentes ferramentas, métodos e tecnologias que mudam com o passar do tempo. O que diferencia a ciência de dados da estatística tradicional? A Nada as diferenciam, na realidade, trata-se do mesmo conceito com nomes diferentes. B A ciência de dados possui uma abordagem mais holística. Ela também está envolvida na coleta, armazenamento (big data), tratamento e limpeza dos dados, bem como em transmitir as percepções extraídas da análise desses dados (visualização dos dados). C A estatística é uma habilidade dispensável no campo da ciência de dados. D A estatística se preocupa na análise de varáveis com valores finitos como sexo, estado civil e idade, enquanto a ciência de dados trata das variáveis com valores infinitos como peso, altura, tempo online, etc. Marcar para revisão Questão 8 de 10 Finalizar exercício E A estatística utiliza a tecnologia de big data para armazenar dados estruturados e não estruturados. Resposta correta Gabarito comentado A ciência de dados está relacionada à estatística, mas difere da estatística de várias maneiras importantes. No mesmo sentido em que a medicina está relacionada à química, mas não pode ser reduzida à química, pois a medicina lida com seus próprios sistemas distintos e com suas próprias propriedades. 2 “São dados que foram processados, estruturados ou contextualizados para que sejam significativos para os seres humanos”. A afirmação anterior se aplica a qual das seguintes opções abaixo? A Conhecimento. B Informação. Marcar para revisão Questão 8 de 10 C Sabedoria. D Variável. E Entidade. Resposta correta Gabarito comentado A informação é um grupo de dados que carregam coletivamente um significado lógico, já o conhecimento é a informação que foi interpretada e compreendida por um ser humano para que ele possa agir conforme necessário e finalmente sabedoria é agir sobre o conhecimento de maneira apropriada. 3 Quase todas as grandes plataformas de anúncios on-line têm um algoritmo de aprendizado que a partir de algumas informações sobre um anúncio e sobre o perfil do usuário, o algoritmo então pode determinar qual anúncio um usuário está mais propenso a clicar. Que tipo de algoritmo é usado no texto acima? Marcar para revisão Questão 8 de 10 A Lógica Fuzzy B Supervisionado C Redes Neurais D Processamento de Linguagem Natural E Não Supervisionado Resposta incorreta Resposta correta: B Gabarito comentado Nesse caso temos como atributos de entrada (X) o anúncio e informações do usuário. Nosso rótulo ou classe de saída (Y) é a informação se o usuário irá clicar ou não no anúncio. Como é fornecida para o algoritmo a resposta certa para que ele aprenda a prever a resposta futuramente, então se trata de um algoritmo de aprendizado supervisionado. Questão 8 de 10 4 O aprendizado por reforço é um dos tópicos de pesquisa mais quentes no campo da inteligência artificial e sua popularidade cresce a cada dia. Ele permite que um agente aprenda em um ambiente interativo por tentativa e erro usando feedbacks de suas próprias ações e experiências.Quais são os dois modelos matemáticos frequentemente usados no desenvolvimento de aplicações de aprendizado por reforço? A Redes Neurais Recorrentes e Redes Neurais Convolucionais. B Processo de decisão Markov e Método de Monte Carlo. C K-means e PCA. D Agrupamento e Random Forest. E Dimensionality Reduction e Anomaly Detection. Resposta correta Gabarito comentado Marcar para revisão Questão 8 de 10 O aprendizado por reforço é baseado em dois tópicos. O mais importante é o processo de decisão de Markov (MDP), uma estrutura que ajuda a descrever o problema. O método de Monte Carlo está no centro de todos os algoritmos que utilizam MDP. 5 Ao contrário do aprendizado supervisionado, o aprendizado não supervisionado usa dados não rotulados. A partir desses dados, ele descobre padrões que ajudam a resolver problemas de agrupamento ou associação. Isso é particularmente útil quando não temos certeza das propriedades comuns dentro de um dataset. Das opções abaixo, qual você abordaria usando um algoritmo de aprendizado não supervisionado? A Classificar se um e-mail é um spam ou não. B Retenção de cliente prevendo aqueles que estão propensos a procurar a concorrência. C Dado um conjunto de artigos de notícias encontrados na web, agrupe-os em conjuntos de artigos sobre as mesmas histórias. D Dado um conjunto de dados de pacientes diagnosticados como tendo diabetes ou não, classificar novos pacientes como tendo ou não diabetes. Marcar para revisão Questão 8 de 10 E Em carros autônomos, onde há vários aspectos a serem considerados, como limites de velocidade, zonas dirigíveis e evitar colisões. Resposta correta Gabarito comentado Essa é uma típica aplicação de aprendizado não supervisionado chamado clustering. O algoritmo de clustering utiliza dados sem rótulos e tenta agrupá-los automaticamente em clusters (grupos). 6 Observe as seguintes descrições sobre um dataset: I. Possui valores contáveis específicos. II. Alguns exemplos são o número de alunos, o número de filhos e idade. III. Valores de dados ordinais e valores inteiros representam esse tipo de dados. IV. Facilmente contado com algo tão simples quanto uma linha numérica. As informações acima descrevem que tipo de dados? Marcar para revisão Questão 8 de 10 A Nominal. B Categórico. C Discreto. D Continuo. E Estruturado. Resposta correta Gabarito comentado Uma variável discreta é uma variável que assume valores distintos e contáveis. Em teoria, você sempre deve ser capaz de contar os valores de uma variável discreta. Exemplos de variáveis discretas incluem: Anos de escolaridade e número de gols marcados em uma partida de futebol. Questão 8 de 10 7 A imagem abaixo representa qual elemento de uma rede neural? (Essa imagem foi criada pelo conteudista) A Sinapse. B Peso. C Bias. D Neurônio artificial (também conhecido como nó ou unidade). E Função de ativação. Resposta correta Gabarito comentado Marcar para revisão Questão 8 de 10 O neurônio artificial é um modelo simplificado do neurônio biológico. O neurônio artificial recebe um ou mais sinais de entrada e devolve um único sinal de saída, que pode ser distribuído como sinal de saída da rede, ou como sinal de entrada para um ou vários outros neurônios da camada posterior (que formam a rede neural artificial). 8 A imagem abaixo exibe uma linguagem de marcação chamada de HTML. As linguagens de marcação possuem esquemas que podem ser descritivos, incompletos ou mutáveis. Outro exemplo de linguagem de marcação são os documentos XML. As linguagens de marcação são exemplos de qual tipo de estrutura de dados? https://www.shutterstock.com/pt/image-photo/html-html5-source-code-title- programming-2023859888 A Semi-estruturado. B Quantitativo. C Não estruturado. D Categórico. Marcar para revisão Questão 8 de 10 E Estruturado. Resposta correta Gabarito comentado Além dos dados estruturados e não estruturados, existe uma terceira categoria, que basicamente é uma mistura entre os dois. O tipo de dado definido como semi-estruturado tem algumas características definidas e consistentes, mas não obedece a uma estrutura tão rígida quanto se espera de um banco de dados relacional. 9 No aprendizado não supervisionado, o objetivo é obter insights a partir de grandes volumes de dados. O algoritmo de aprendizado não supervisionado determina o que é diferente ou interessante no dataset. Quais são as três categorias mais comuns de algoritmos de aprendizado não supervisionado? A Regressão, Classificação a Clustering. Marcar para revisão Questão 8 de 10 B K-means, PCA e Random Forest. C Agrupamento de deslocamento médio, PCA e K-means. D Clustering, Dimensionality Reduction e Anomaly Detection. E Regressão, Dimensionality Reduction e Anomaly Detection. Resposta correta Gabarito comentado Os algoritmosque se enquadram na categoria Clustering irão lidar principalmente com a localização de uma estrutura ou padrão em um dataset não categorizado. Já a classe Dimensionality Reduction refere-se a técnicas para reduzir o número de variáveis (atributos) de entrada em um dataset. Por fim, a classe Anomaly Detection aborda a identificação de itens em um dataset que diferem da norma. 10 Marcar para revisão Questão 8 de 10 O aprendizado supervisionado é uma subcategoria de algoritmos de machine learning. É definido pelo uso de datasets rotulados para treinar algoritmos que classificam dados ou preveem resultados com precisão. Quais são os dois principais tipos de aprendizado supervisionado? A Árvores de decisão e Naive Bayes. B PCA e Agrupamento K-means. C Regressão e Classificação. D Clustering e Random Forest. E Regressão logística e Regressão linear. Resposta correta Gabarito comentado Em um problema de regressão, como a previsão de preços de casas, o algoritmo precisa prever infinitos números de saída possíveis.Questão 8 de 10 Já nos problemas onde a classificação é usada, o algoritmo faz a previsão de uma categoria, ou seja, um pequeno conjunto de saídas possíveis. Questão 8 de 10