Prévia do material em texto
SEMANA1 PERGUNTA 1 A cada dia que passa somos bombardeados por informações, já que elas aparecem de forma exponencial em volume, variedade e velocidade. Em verdade, infere-se que a quantidade de informação no contexto da humanidade atual duplica em cada 20 meses e que a quantidade e a magnitude das bases de dados cresce a um ritmo ainda maior, tornando-se de fundamental importância a coleta e a interpretação de dados. Com relação à Ciência de Dados (ou Data Science), é correto afirmarmos que: a. trata-se de uma ciência quantitativa com funções específicas de dados computacionais. b. é uma ciência que interpreta dados para a gestão empresarial. c. é simplesmente uma ciência matemática quantitativa. d. é a ciência que trabalha com a visualização de dados computacionais. e. é a ciência que interpreta dados e informações para gerar insights relevantes para a gestão de negócios empresariais. PERGUNTA 2 A Ciência de Dados está diretamente ligada à Inteligência Artificial, utilizando de modelos matemáticos, métodos estatísticos e científicos, bem como da análise de dados. Ou ainda, tem seus procedimentos alicerçados em campos específicos do conhecimento, conforme mostrado na Figura 1 a seguir. Fonte: Elaborada pelo autor. Com base nas informações apresentadas, identifique se são verdadeiras (V) ou falsas (F) as afirmativas a seguir. I. A Ciência de Dados é uma ciência interdisciplinar. II. A Ciência de Dados utiliza de procedimentos para reconhecer padrões em problemas de diferentes naturezas. III. O propósito da Ciência de Dados é transformar o “dado” em informação importante por intermédio de etapas que permitem reconhecer padrões e identificar comportamentos a posteriori. Assinale a alternativa que apresenta a sequência correta. a. F - V - F. b. V - V - F. c. V - V - V. d. V - F - F. e. F - V - V. PERGUNTA 3 Conceitua-se a Ciência de Dados como campo do conhecimento ou da ciência que fundamenta a transfiguração de dados em informações relevantes por intermédio de etapas, cada uma delas com as suas respectivas particularidades, ou, ainda, a percepção do ciclo dos dados gera uma caracterização geral sobre o que deverá ser feito nas investigações levando a um planejamento mais estruturado para cada etapa. Nesse sentido, como se chama a sequência de etapas no contexto da Ciência de Dados? a. Sequência de dados. b. Grupo de dados. c. Fluxograma de dados. d. Ciclo de dados. e. Etapa de dados. PERGUNTA 4 Uma das questões mais difíceis de serem respondidas pelo setor de marketing de uma empresa é a indagação: “O que pensa o meu cliente?”. Ou ainda, “Como fidelizar o meu cliente?”. Ou ainda, “Como caracterizar o perfil do meu cliente por meio de informações confiáveis que levem à criação de estratégias eficazes?”. Assim, empresas e organizações necessitam armazenar e analisar informações a fim de gerar soluções assertivas que possam nortear suas estratégias mercadológicas, surgindo, então, a Ciência de Dados como ferramenta pertinente a ser utilizada para responder a indagações como essas, dentre outras. Com base nas informações apresentadas, identifique se são verdadeiras (V) ou falsas (F) as afirmativas a seguir. I. Dados são gerados rotineiramente e exponencialmente no âmbito organizacional e empresarial. II. Dados são transfigurados em informações que revelam padrões não conhecidos pelas organizações. III. O mérito de dados obtidos e interpretados por tecnologias diversas ligadas a Ciência de Dados geram benefícios importantes e transformadores para as empresas no contexto competitivo atual. Assinale a alternativa que apresenta a sequência correta. a. V - F - V. b. V - V - V. c. V - F - F. d. F - V - V. e. F - F - V. SEMANA2 PERGUNTA 1 Python é uma linguagem de programação desenvolvida com o intuito de simplicidade e versatilidade, podendo ser utilizada para a realização de diversas tarefas, tais como construção de aplicativos, criação de sites, criação de programas, jogos e análise de dados. A grosso modo, a linguagem Python é ___________________________________ e que sustenta _______________________________ de programação: _________________________, ____________________________ e ___________________________. Preencha as lacunas escolhendo a alternativa correta. a. interpretada de menor nível, paradigmas únicos, imperativo, não orientado a objetos, não funcional. b. interpretada de maior nível, múltiplos paradigmas, imperativo, orientado a objetos, não funcional. c. interpretada de menor nível, múltiplos paradigmas, imperativo, orientado a objetos, funcional. d. interpretada de menor nível, paradigmas únicos, imperativo, orientado a objetos, funcional. e. interpretada de maior nível, paradigmas únicos, imperativo, orientado a objetos, funcional. PERGUNTA 2 A linguagem Python constitui uma das principais linguagens de programação voltada para a análise de dados e possui algumas características peculiares, das quais podemos citar a questão de ser considerada uma linguagem de programação interpretada e de alto nível, ou seja, apresenta maior proximidade com a linguagem humana do que com a linguagem de máquina (sistema binário). Fonte: Elaborado pelo autor. Com base nas informações apresentadas, identifique se são verdadeiras (V) ou falsas (F) as afirmativas a seguir. I. No Python a implementação é realizada por intermédio de um processo no qual um dos elementos fundamentais é exatamente o interpretador. II. No Python tem-se a utilização de estruturas denominadas “funções”. III. No Python temos classes e objetos, sendo, portanto, uma programação multiplataforma. Assinale a alternativa correta. a. F - F - V. b. V - V - V. c. V - V - F. d. V - F - F. e. F - F - F. PERGUNTA 3 Com relação ao desenvolvimento de sites e programas diversos ou, ainda, no contexto de áreas mais complexas, como Ciência de Dados, Machine Learning e Inteligência Artificial (IA), tem-se nas linguagens de programação um aparato fundamental. Por exemplo, linguagens específicas como a linguagem Python e suas diversas estruturas de dados, bloco de dados e bibliotecas. Considerando a descrição estrutural da linguagem Python e suas nomenclaturas relacionadas, avalie as afirmações a seguir, em relação à fundamentação e à aplicabilidade do Python, e relacione-as adequadamente aos termos às quais se referem. 1 – Pandas 2 – Numpy 3 – Matplotlib I – Caracteriza-se como uma das bibliotecas-base da Python, relacionando-se com a visualização de dados. II - Caracteriza-se como uma das bibliotecas-base da Python, relacionando-se com as operações matemáticas. III - É uma biblioteca Python voltada para a análise de dados. Assinale a alternativa que correlaciona adequadamente os dois grupos de informação. a. 1-III; 2-II; 3-I. b. 1-II; 2-III; 3-II. c. 1-III; 2-I; 3-III. d. 1-I; 2-II; 3-III. e. 1-I; 2-III; 3-II. PERGUNTA 4 A linguagem Python apresenta grande valorização e aplicabilidade no contexto atual, sendo amplamente utilizada em grandes áreas, tais como Análise de Dados e Ciência de Dados, Automações e Desenvolvimento Web. Em termos específicos, quando se fala em Ciência de Dados tem-se um dos campos mais populares de utilização do Python. De outro modo, a automatização de tarefas possíveis está intimamente ligada à produtividade e à eficiência de processos diversos. Adicionalmente, aplicações para Web são evidenciadas com maior simplicidade com base na fundamentação do sistema Python. Nesse contexto, em linhas de mercado, constituem-se fundamentalmente como proveitos significativos da utilização da linguagem Python visando a modelagem de soluções de problemas empresariais: a. multiplataforma e extensibilidade, dinamismo de aprendizado e gratuidade. b. multiplataforma e extensibilidade, especificidade de aprendizado e gratuidade. c. plataforma única e extensibilidade, especificidade de aprendizado e gratuidade. d. multiplataforma e fundamentalidade, especificidade de aprendizado e gratuidade. e. multiplataformae periodicidade, especificidade de aprendizado e gratuidade. PERGUNTA 5 As linguagens de programação são o alicerce fundamental para o desenvolvimento de sistemas, sites etc., assim sendo, a construção de inteligências artificiais, a realização de análise de dados ou a projeção do back-end de uma aplicação envolvem a utilização da linguagem Python e de aparatos derivativos. Nesse contexto, são visualizadas como características fundamentais da linguagem Python: a. multiplataforma / multiparadigma / linguagem orientada. b. plataforma simples / multiparadigma / linguagem interpretada. c. multiplataforma / multiparadigma / linguagem interpretada. d. multiplataforma / paradigma único / linguagem programada. e. multiplataforma / paradigma único / linguagem interpretada. PERGUNTA 6 É sabido que a linguagem Python é muito usada no contexto atual devido a sua associação com grandes estruturas de dados, como o Big Data, e o suporte voltado ao programador para trabalhar com diversas áreas, como a inteligência de máquina. Especificamente no contexto da linguagem Python, qual é a biblioteca com origem na terminologia panel data que tem como um de seus principais intuitos a utilização de dados multidimensionais? a. Biblioteca Pandas. b. Biblioteca Numpy. c. Biblioteca Pumpy. d. Jupyter Notebook. e. Google Colab. SEMANA3 PERGUNTA 1 Sabe-se que a biblioteca Scikit-Learn é uma das principais bibliotecas do sistema de linguagem Python, tendo como essência o trabalho específico voltado para a prática da inteligência em máquina (Machine Learning) e, por conseguinte, para a Inteligência Artificial (IA). É composta fundamentalmente por diversas ferramentas de simples manuseio e com excelente eficiência visando a abordagem preditiva de dados, como modelos descritivos e inferenciais, sejam de classificação, correlação, regressão, redução de dimensão, confiabilidade de instrumentos, cruzamento de variáveis etc. Observe a figura a seguir que nos mostra um esquema de tal biblioteca. Fonte: 123RF Com base nas informações apresentadas sobre a biblioteca Scikit-Learn, identifique se são verdadeiras (V) ou falsas (F) as afirmativas a seguir. I. É uma biblioteca fundamentada em diversos módulos com suas respectivas peculiaridades, introduzindo funções diversas para um grande leque de aplicações. II. Permite a redução do número de variáveis, fazendo com que o grau de complexidade da interpretação dos dados fique mais dinâmico, ou seja, diminuindo a frequência de cálculos a serem fundamentados. III. Biblioteca voltada para comparação, validação e seleção de parâmetros e modelos por intermédio da automatização. Assinale a alternativa que apresenta a sequência correta. a. V - V - V. b. V - F - F. c. F - V - V. d. V - V - F. e. F - V - F. PERGUNTA 2 Dada a imagem a seguir, que representa um dataframe Pandas nomeado df: Após ser executado o comando df2=df[df['QtdeFunc']>1000], analise as afirmações a seguir: I. Serão listadas as linhas de df que tem o atributo QtdeFunc com mais de 1000. II. Será criado um dataframe df2, que conterá 2 linhas. III. Será criado um dataframe df2, que conterá 3 linhas. IV. Será criado um dataframe df2, que será uma réplica exata do dataframe df. V. A linha indexada como 6 no dataframe df, também fará parte do dataframe df2, que será criado. De acordo com as afirmações apresentadas, indique qual alternativa é a correta: Apenas as afirmações II e V estão corretas. Apenas as afirmações I, II e IV estão corretas. Apenas as afirmações III, IV e V estão corretas. Apenas a afirmação I é correta. Apenas as afirmações I, IV e V estão corretas. PERGUNTA 3 Dado o seguinte comando, sendo que o alias pd é uma referência a biblioteca pandas: Assinale com V (verdadeiro) ou F (falso) as afirmações a seguir sobre o comando apresentado: ( ) – O comando cria uma estrutura do tipo Series do Pandas. ( ) – A variável s1 será de um tipo único, integer. ( ) – Se após o comando do enunciado for executado o comando: s1['z']=5, é certo afirmar que o todos os valores da variável s1 passarão a ser o valor 5. ( ) – O parâmetro index=['x','y','v','z'] é opcional no comando, se ele não fosse utilizado, por padrão os índices seriam valores numéricos de 0 a 3. A sequência correta de preenchimento dos parênteses, de cima para baixo, é: V, F, F, V. F, F, V, V. V, V, F, V. F, V, V, F. V, F, V, F. PERGUNTA 4 Assinale com V (verdadeiro) ou F (falso) as afirmações a seguir sobre as características da Biblioteca NumPy: ( ) – NumPy é a abreviatura de Numerical Python. ( ) – A Biblioteca NumPy foi projetada para ser muito eficaz ao lidar com arrays de dados muito grandes. ( ) – Todos os elementos de um ndarray são do mesmo tipo. ( ) – Por meio do atributo dtype é possível saber as dimensões de um ndarray. ( ) – Dataframe é uma das estruturas fundamentais da Biblioteca NumPy. A sequência correta de preenchimento dos parênteses, de cima para baixo, é: V, F, V, F, F. F, F, V, V, V. V, F, V, V, F. F, V, F, F, V. V, V, V, F, F. PERGUNTA 5 A Matemática, a Computação e a Estatística são conteúdos próprios, ou áreas do conhecimento, que alicerçam a Ciência de Dados em suas diversas abordagens e aplicações, desde conceituações a métodos e bibliotecas associadas. Nesse contexto, assinale a alternativa que apresenta um aparato da linguagem Python voltado para matemáticos, cientistas e engenheiros, que permite a utilização de técnicas no âmbito computacional, no campo científico. a. Biblioteca Seaborn. b. Biblioteca Scikit-Learn. c. Biblioteca Matplotlib. d. Biblioteca Pandas. e. Biblioteca Scipy. PERGUNTA 6 Em se tratando de Big Data, quando estamos tratando de dados estruturados, não estruturados e semiestruturados, nos referindo a uma grande quantidade de tipos e formatos de dados, como e- mails, fotos, vídeos e sons, o que torna a análise bastante complexa, estamos detalhando qual das características de Big Data? Assinale a alternativa que traz essa característica. Variedade. Volume. Velocidade. Veracidade. Valor. PERGUNTA 7 A busca por informações gerenciais sempre foi de grande valia para as organizações e/ou empresas para que possam aumentar o seu leque competitivo de mercado. No mundo globalizado isso se faz extremamente necessário, assim, a busca por uma quantidade exponencial de informações relevantes é um aparato para a criação de estratégias organizacionais. Nesse sentido, a importância da utilização do Web Scraping deve-se pela: a. busca de um número limitado e restrito de informações de forma mais rápida e dinâmica, a fim de treinar e aprimorar algoritmos de aprendizagem de máquina. b. busca de um número finito de informações de forma simples, a fim de treinar e aprimorar algoritmos de aprendizagem de máquina. c. busca de um número exponencial de informações de forma mais rápida e dinâmica, a fim de treinar e aprimorar algoritmos de aprendizagem de máquina. d. busca de um número infinito de informações de forma mais rápida e dinâmica, a fim de treinar e aprimorar algoritmos de aprendizagem de máquina. e. criação de um número exponencial de informações de forma simples, a fim de treinar e aprimorar algoritmos de aprendizagem de máquina SEMANA4 Pergunta 1 Observa-se que a Mineração de Dados do Processo de Descoberta do Conhecimento de Dados (KDD) vincula-se de forma substancial com as técnicas de inteligência de máquina, identificando regras, otimalidade, simulação e análises estatísticas multivariadas a fim de gerar padrões por intermédio do banco de dados em questão. Nota-se que a Mineração de Dados é uma das etapas do KDD, sendo que ela é organizada em seis fases ou etapas, que integram o CRISP-DM (Processo Padrão Intersetorial de Mineração de Dados, tradução da nomenclatura em inglês Cross-Industry Standard Process of Data Mining). Dessa maneira, assinale a alternativa que apresenta as etapas que integram o CRISP-DM. a. Compreensão dos negócios, entendimentodos dados, preparação dos dados, modelagem, simulação dos resultados, divulgação dos resultados. b. Identificação dos parâmetros, entendimento dos dados, preparação dos dados, modelagem, análise dos resultados, divulgação dos resultados. c. Compreensão dos negócios, entendimento dos dados, caracterização dos dados, modelagem, análise dos resultados, divulgação dos resultados. d. Compreensão dos negócios, simulação dos dados, preparação dos dados, modelagem, análise dos resultados, divulgação dos resultados. e. Compreensão dos negócios, entendimento dos dados, preparação dos dados, modelagem, análise dos resultados, divulgação dos resultados. Pergunta 2 No contexto do mercado empresarial e/ou organizacional, a Mineração de Dados assume algumas identidades com relação às nomenclaturas, sendo conhecida, por exemplo, como inteligência de negócios, modelagem e análise preditiva, descoberta do conhecimento, dentre outras. Ressalta-se que as técnicas voltadas para a Mineração de Dados são recentes, todavia a Mineração de Dados não é um aparato recente, já que indivíduos já interpretavam dados desde a invenção dos primeiros computadores. Existem tarefas principais vinculadas à Mineração de Dados, assinale a alternativa que apresenta algumas das principais tarefas da Mineração de Dados. a. Otimização e simulação, separação de parâmetros, padrões de associação, enquadramento de variáveis. b. Otimização e simulação, enquadramento de variáveis, padrões discriminantes, predição. c. Separação de parâmetros, clustering, padrões de associação, avaliação. d. Otimização e simulação, clustering, padrões de associação, predição. e. Descrição, enquadramento de variáveis, padrões de independência, predição. Pergunta 3 Observe a seguir o comando e sua respectiva saída abaixo. Verifique que no Dataset de Prêmios da Netflix há 8 tipos de programas, além de alguns registros que contém o valor nulo (nan). Baseado no comando acima e no dataset apresentado, qual dos comandos abaixo é capaz de substituir, de forma definitiva, todos os registros com valor “nan” para o valor “indefinido” no atributo kind? d3['kind']="indefinido" d3['kind'].isnull(value='indefinido',inplace=True) d3['kind'].fillna(value='indefinido',inplace=True) d3['kind']='indefinido' d3['kind']=="nan"="indefinido" Pergunta 4 A nomenclatura Mineração de Dados que é derivada do termo inglês Data Mining, é uma metodologia processual para identificar irregularidades, padrões, correlações e regressões em grandes banco de dados para estimar resultados e gerar decisões assertivas, por intermédio de várias tipologias de dados, melhorando por exemplo, receitas e lucros e a relação com clientes. Neste contexto, o pré-processamento de dados é usado para modificar dados brutos em informações relevantes e úteis, tendo três passos principais com suas peculiares atividades, que são: a limpeza de dados, transformação de dados e redução de dados. Considerando o pré-processamento de dados e seus passos fundamentais, avalie as afirmações a seguir, e relacione-as adequadamente aos passos do pré-processamento. 1 – Limpeza de dados. 2 – Transformação de dados. 3 – Redução de dados. I – É o passo do pré-processamento que envolve as atividades de normalização, seleção de atributos, discretização e geração de hierarquia de conceitos. II – O grau de complexidade do sistema computacional pode ser reduzido consideravelmente por meio da redução de dados, permitindo uma melhor eficiência e diminuição de custos envolvidos no processo. III – Os dados brutos do dataset podem possuir pontos irrelevantes ou ausentes, assim sendo, a limpeza de dados se torna um ponto essencial no processo. Assinale a alternativa que correlaciona adequadamente os dois grupos de informação. a. 1-III; 2-I; 3-II. b. 1-III; 2-II; 3-I. c. 1-I; 2-II; 3-III. d. 1-I; 2-III; 3-II. e. 1-II; 2-I; 3-III. Pergunta 5 A aplicabilidade dos métodos e técnicas associadas à Ciência de Dados visa, em muitas situações, a redução do grau de complexidade do processo em si. Assim, um dos processos que compõem a Ciência de Dados é o Processo de Descoberta do Conhecimento (KDD) que se caracteriza como um processo dividido em algumas etapas de interação não triviais, ou seja, não tão simples de serem interpretadas e que tendem a identificar padronizações válidas e pertinentes para uso via conjunto de dados. Salienta-se que uma das etapas do KDD é exatamente a Mineração de Dados (Data Mining). Com base nas informações apresentadas, identifique se são verdadeiras (V) ou falsas (F) as afirmativas a seguir. I. Data Mining envolve diretamente a utilização de algoritmos e técnicas para caracterizar padrões nos dados e validar hipóteses. II. As apurações na Data Mining tem cunho descritivas ou preditivas. III. A Data Mining possui intuitos envolvendo regressões, clusters ou conglomerados, associações e divergências entre variáveis que compõem o banco de dados. Assinale a alternativa que apresenta a sequência correta. a. V - F - V. b. V - V - V. c. F - F - V. d. V - F - F. e. F - V - V. Pergunta 6 O KDD (Knowledge Discovery in Databases) geralmente é dividido em cinco fases. Qual delas consiste em fazer a verificação da qualidade dos dados, exceções e ruídos são removidos, também ocorre limpeza, correção, remoção de dados inconsistentes, e identificação de dados ausentes, incompletos ou não íntegros? Transformação. Seleção. Mineração de Dados. Interpretação. Pré-Processamento. Pergunta 7 Quando se trata do manuseio de dados, especialmente do foco de um profissional que trabalha com dados, independentemente das ferramentas utilizadas, sejam elas de análise ou de inteligência de máquina, é de fundamental importância a atividade de pré-processamento de dados, incluindo o conhecimento da sua tipologia. Nesse contexto, podem ser interpretados como objetos similares a outros objetos no mesmo conjunto de dados: a. dados elementares. b. dados inconsistentes. c. dados sem ruídos. d. dados redundantes. e. dados com ruídos. SEMANA5 Pergunta 1 Assinale com V (verdadeiro) ou F (falso) as afirmações a seguir sobre Big Data: ( ) – Ao lidar com a diversidade de dados como textos, músicas, hipertextos, vídeos e conteúdos interativos, estamos nos referindo à característica de Variedade do Big Data. ( ) – Ao tratar, não apenas da entrada, mas também do fluxo de dados, estamos nos referindo à característica de Velocidade do Big Data. ( ) – Sintaticamente, Big Data pode ser caracterizado a partir de informações que não podem ser processadas ou analisadas com ferramentas e métodos tradicionais. ( ) – A conexão de um número cada vez maior de dispositivos na rede e o uso mais intenso de redes sociais têm impactado diretamente a característica de Veracidade do Big Data. A sequência correta de preenchimento dos parênteses, de cima para baixo, é: V, F, F, V. V, V, V, F. V, F, V, F. V, V, F, V. F, V, V, F. Pergunta 2 Em aprendizado de máquinas, relacione o tipo de tarefa as suas características? Sistema Características I – Regressão II – Classificação III – Agrupamento IV – Associação ( ) – Consiste em encontrar padrões frequentes de associações entre os atributos de um conjunto de dados. ( ) – Mapeia um exemplo em um valor real. ( ) – Dados são agrupados de acordo com sua similaridade. ( ) – Associa a descrição de um objeto a uma classe. A sequência correta de preenchimento dos parênteses, de cima para baixo, é:IV, III, II, I. III, II, I, IV. I, II, III, IV. I, IV, III, II. IV, I, III, II. Pergunta 3 Assinale com V (verdadeiro) ou F (falso) as afirmações a seguir sobre aprendizado de máquina: ( ) – Algoritmo é um passo a passo para resolução de problemas, nesse caso específico por meio de uma linguagem computacional. ( ) – Aprendizado Supervisionado traz um objetivo estabelecido e pode ser dividido entre problemas de regressão e classificação. ( ) – O Aprendizado de Máquina não supervisionado acontece quando as saídas não estão bem definidas e as respostas só podem ser aferidas após algumas execuções. ( ) – Quando o intuito é compreender melhor os dados para realizar agrupamentos, estamos nos referindo a Aprendizado de Máquina por reforço. A sequência correta de preenchimento dos parênteses, de cima para baixo, é: V, F, V, V. V, V, F, F. V, F, F, V. F, V, V, V. F, F, V, F. Pergunta 4 Analise as afirmações a seguir: I. A classificação é um fator discriminatório que pode impactar as atividades de integração, agregação e análise do ciclo de vida dos dados. II. A ótica do analista de dados é um fator discriminatório que pode impactar a atividade de obtenção do ciclo de vida dos dados. III. A atividade de obtenção, do ciclo de vida dos dados, pode ser impactada com os fatores de amostra, com dados incorretos ou incompletos para a questão da discriminação. IV. Amostra com dados parciais é um fator com impacto discriminatório na atividade de limpeza do ciclo de vida dos dados. De acordo com as afirmações apresentadas, indique qual alternativa é a correta: Apenas as afirmações I, III e IV estão corretas. Apenas as afirmações II, III e IV estão corretas. Apenas as afirmações I e III estão corretas. Apenas a afirmação IV está correta. Apenas as afirmações I e II estão corretas. Pergunta 5 É sabido que um algoritmo se traduz como sequência lógica de passos a fim de solucionarmos um problema. Assim sendo, para Machine Learning, Inteligência Artificial e ciência de dados, tal elemento constitui ferramenta importantíssima que propicia gerar conclusões com base em dados de treino e dados de teste propriamente ditos. Relacionando-se a tal contexto, tem-se a necessidade de mensuração de desempenho de algoritmos em procedimentos de estimação. Assinale a alternativa que descreve corretamente um algoritmo de Machine Learning voltado a treinamento de máquina e que não gera um bom rendimento. a. Underfitting. b. Chromofitting. c. Overfitting. d. Letofitting. e. Data fitting. Pergunta 6 A ciência de dados é uma área interdisciplinar que se baseia em ferramentas distintas e algoritmos para descrever padrões e insights por intermédio de dados brutos. Isso mostra que fundamentalmente nossos movimentos na internet podem ser rastreados para que empresas, com base em informações, entendam nossas preferências de consumo. Dessa forma, a Inteligência de Máquina é um aparato fundamental para a ciência de dados, constituindo uma metodologia que automatiza a descrição de modelos analíticos alicerçados em dados e que buscam padrões com o mínimo de participação humana na tomada de decisão. Diante da contextualização anterior, assinale a alternativa que descreve corretamente a subárea da ciência de dados que automatiza modelos analíticos por meio de informações. a. Machine Learning. b. Redes neurais. c. Estatística espacial. d. Big data. e. Simulação Monte Carlo. Pergunta 7 A Ciência de Dados é desenvolvida por meio de um conjunto de processos, entre eles o aprendizado de máquina (Machine Learning). Dentre esses processos, qual deles geralmente acontece após a execução do aprendizado de máquina? Limpeza dos Dados. Visualização. Coleta de Dados. Pré-Processamento. Análise Exploratória. SEMANA6 Pergunta 1 É notório que vivemos num mundo cada vez mais caracterizado pelas informações presentes e pelo conhecimento gerado por elas com base em análises e interpretações estruturadas, coerentes e precisas. Dessa maneira, percebe-se claramente que técnicas e tecnologias associadas com a predição de dados estão se transformando em aparato fundamental e crucial para as organizações tomarem decisões nos mais variados campos. Disso advém a importância do conhecimento de métodos e técnicas vinculados a ciência de dados, Machine Learning (ML), Inteligência Artificial (IA) etc. Considerando a importância de predição de dados e utilização de algoritmos diversos que direcionam à resolução de problemas no contexto organizacional de forma mais confiável, avalie as afirmações a seguir, em relação a estruturação e aplicabilidade da predição de dados via ML, e as correlacione adequadamente aos termos a que se referem. 1. Algoritmo KNN. 2. Predição. 3. Conhecimento. I. Caracteriza-se como um algoritmo de aprendizado de ML de simples implementação alicerçado na técnica de aprendizado supervisionado. II. Técnica vinculada à ciência de dados para predizer ações futuras e moldar comportamentos diversos. III. A criação de modelos preditivos é feita com base em algoritmos de reprodução do conhecimento. Assinale a alternativa que correlaciona adequadamente os dois grupos de informação: a. 1, I; 2, III; 3, II. b. 1, II; 2, III; 3, I. c. 1, III; 2, II; 3, I. d. 1, II; 2, I; 3, III. e. 1, I; 2, II; 3, III. Pergunta 2 Considere as afirmações a seguir, sobre Análise ROC, como verdadeiras (V) ou falsas (F): ( ) O gráfico ROC é um gráfico bidimensional plotado em um espaço denominado espaço ROC, com eixos X e Y representando as medidas de taxa de falsos positivos (TFP) e taxa de verdadeiros positivos (TVP), respectivamente. ( ) ROC quer dizer Receiving Operating Characteristics. ( ) Seu uso inicial foi para avaliação e comparação de algoritmos. ( ) Uma das principais desvantagens do uso da Análise ROC é seu baixo desempenho com grande quantidade de dados. A sequência correta de preenchimento dos parênteses, de cima para baixo, é: V, F, F, V V, F, V, V F, F, V, F V, V, V, F F, V, F, V Pergunta 3 O algoritmo KNN é um dos principais algoritmos vinculados à ciência de dados e, especificamente falando da inteligência de máquina, apreciado por seu grau de simplicidade em implementações de cálculos diversos. No contexto organizacional, ele é amplamente utilizado em situações/problemas nas áreas de saúde, gestão financeira, política, reconhecimento de vídeos, reconhecimento de imagens etc. Assinale a alternativa que apresenta corretamente as características do algoritmo KNN. a. Difícil compreensão; treinamento supervisionado; paramétrico; lazy learner. b. Difícil compreensão; treinamento supervisionado; não paramétrico; lazy learner. c. Simples compreensão; treinamento supervisionado; não paramétrico; lazy learner. d. Simples compreensão; treinamento supervisionado; paramétrico; lazy learner. e. Simples compreensão; treinamento não supervisionado; não paramétrico; lazy learner. Pergunta 4 Observe a imagem a seguir: Considere como verdadeiras (V) ou falsas (F) as afirmações a seguir sobre a imagem que é uma análise exploratória que seguirá para um algoritmo KNN. ( ) O gráfico apresentado é tridimensional. ( ) O ponto mais inferior no gráfico representa medidas de uma flor Versicolor. ( ) Petal Length (cm) é um dos atributos que representa uma dimensão do gráfico. ( ) Setosa é uma das classes disponíveis para classificação dos pontos plotados. A sequência correta de preenchimento dos parênteses, de cima para baixo, é:V, F, F, V F, F, V, F F, V, F, V V, V, F, F V, F, V, V Pergunta 5 Observe a imagem a seguir: Analise as afirmações sobre o algoritmo KNN representado pela imagem. I. O algoritmo realizará uma tarefa de regressão. II. O círculo verde, sendo um novo ponto a ser classificado, caso tenhamos um K igual a 3, passará a ser da Classe A. III. Se o algoritmo utilizar a linha (círculo) preta como definição dos vizinhos, o K será igual a 6. IV. Se o algoritmo utilizar a linha (círculo) vermelha como definição dos vizinhos, o K será igual a 3. De acordo com as afirmações apresentadas, indique qual alternativa traz todas as afirmações corretas. Apenas as afirmações I e III. Apenas as afirmações I e II. Apenas as afirmações I, III e IV. Apenas a afirmação IV. Apenas as afirmações II, III e IV. Pergunta 6 Para realizar a acurácia no algoritmo KNN podemos utilizar uma função do próprio Scikit-Learn. Qual das funções abaixo é responsável por calcular a acurácia? KNeighborsRegressor() fit() score() predict() KNeighborsClassifier() Pergunta 7 No mundo atual, informações têm valor relevante para as organizações buscarem as melhores soluções a seus problemas, independentemente do grau de complexidade, ou seja, amostrar dados e transformá-los em informações relevantes é uma maneira de as empresas gerarem as melhores decisões e criarem estratégias mais confiáveis para a alta competitividade de mercado. Em outras palavras, as tecnologias se baseiam na busca inteligente de informações por meio de análise e interpretação de grande volume de dados de seu público-alvo. Logo os algoritmos são os elementos chave para tratativa da resolução de problemas no cunho de ciência de dados, Machine Learning (ML), Inteligência Artificial (IA) etc., cada um com características específicas. Ilustrando: temos o algoritmo usualmente conhecido como “K-vizinhos mais próximos”, de simples compreensão e que constitui ferramenta importante para problemas de classificação e regressão na gestão dos negócios organizacionais. Com base no exposto, assinale a alternativa que descreve a nomenclatura para tal algoritmo. a. Algoritmo KMM. b. Algoritmo KKN. c. Algoritmo KMN. d. Algoritmo KNM. e. Algoritmo KNN. SEMANA7 Pergunta 1 Random Forest é um algoritmo específico de inteligência de máquina muito poderoso que visa caracterizar ou gerar predições, tendo aplicabilidades infinitas no mercado, desde bolsa de valores, passando pela área de gestão da tecnologia, bem como operação de equipamentos e CRM (Customer Relationship Management, em português, gestão de relacionamento com o cliente). Nesse contexto, surgem algoritmos voltados a projetos de ciência de dados na prática organizacional, dentre os quais pode ser citado o algoritmo de Random Forest, com suas características e funcionalidades peculiares. Em relação ao exposto, avalie as afirmações a seguir. I. No mundo globalizado, há competitividade acirrada entre organizações quanto à predição de dados, a qual pode ser um aparato fundamental para que as mesmas aumentem sua competitividade de mercado. II. Fundamentalmente falando, alguns dos algoritmos preditivos se alicerçam em essência em métodos estatísticos. III. O algoritmo de Random Forest é um dos principais e mais populares algoritmos de predição de dados e, por conseguinte, de ciência de dados. Está correto o que se afirma em: a. II e III, apenas. b. I e III, apenas. c. I, II e III. d. I e II, apenas. e. II, apenas. Pergunta 2 No universo da ciência de dados, há várias tipologias de algoritmos essencialmente utilizadas visando ao aprendizado de máquina por intermédio de modelos e análise de dados, sendo que os mesmos comumente dependem do número e dos atributos de exemplos para gerar conhecimentos. É importante ressaltar que o aprendizado de máquina será mais eficiente a partir do momento em que a cardinalidade de exemplos seja maior, pois se tem um aparato mais estruturado para representar a realidade. Em relação ao exposto, avalie as afirmações a seguir. I. O algoritmo de Random Forest é usualmente conhecido por Floresta Aleatória no contexto de Machine Learning. II. Fundamentalmente falando, trata-se de um algoritmo computacional voltado à criação de predições. III. O algoritmo de Random Forest gera aleatoriamente diversas áreas de decisão e, com base na combinação dos resultados das mesmas, caracteriza o resultado final. Está correto o que se afirma em: a. I, II e III. b. II e III, apenas. c. I e III, apenas. d. I e II, apenas. e. Apenas em I. Pergunta 3 Grosso modo, no contexto de ciência de dados, Machine Learning (ML) e Inteligência Artificial (IA), a análise preditiva de dados alicerçada em dados históricos, algoritmos computacionais estatísticos e modelos de ML busca caracterizar a probabilidade relacionada a predições futuras, ou seja, probabilidades de resultados futuros. Em linguajar popular, isso mostra que a ideia central é saber mais do que já aconteceu com o intuito de entender e caracterizar o que pode acontecer. Os elementos centrais desse aparato são os algoritmos preditivos. Em relação ao exposto, avalie as afirmações a seguir. I. Os algoritmos preditivos apresentam grande leque de aplicabilidade no mercado organizacional e empresarial. II. Um algoritmo preditivo pode ser usado em situações vinculadas à bolsa de ações com o intuito de caracterizar o valor das ações em função de suas distorções mensais. III. Um algoritmo preditivo pode ser usado na área da saúde a fim de caracterizar a evolução de anomalias ou doenças por intermédio do conhecimento do grau de gravidade de vários órgãos. IV. Um algoritmo preditivo pode ser usado na área da gestão de estoques a fim de caracterizar as necessidades de reposição a partir do conhecimento de vendas realizadas em períodos anteriores. Está correto que se afirma em: a. II e IV, apenas. b. I, II, III e IV. c. I e III, apenas. d. III e IV, apenas. e. I, II e III, apenas. Pergunta 4 Com a transformação digital, acelerada e dinâmica, a análise preditiva de dados tornou-se uma poderosa ferramenta para auxiliar estratégias de negócios e organizacionais como um todo, sendo amplamente utilizada por empresas dos mais variados portes e segmentos. No contexto atual, tomar decisões gerenciais assertivas pode significar aumento de lucratividade e ganho de competitividade de mercado por parte das organizações. É corriqueira, por exemplo, a conceituação de dados e informações como o “novo petróleo”, significando uma metodologia interessante para que empresas ganhem insights, observem oportunidades de mercado, realizem previsões futuras de mercado e atuem de forma mais concisa em linhas estratégicas. Considerando a teoria sobre predição de dados e suas principais características que contribuem significativamente a estudos e tomadas de decisões nas organizações, avalie as afirmações a seguir e as correlacione adequadamente aos termos a que se referem. 1. Algoritmo preditivo. 2. Algoritmo Random Forest. 3. Árvore de decisão. I. Tem como fundamentação básica a geração de informações confiáveis sobre distintos aspectos para alicerçar e facilitar o processo decisório organizacional. II. É um algoritmo de treinamento supervisionado cuja entrada é uma série temporal que se enquadra na metodologia ensemble (métodos ensemble). III. É um elemento importante no contexto dos algoritmos preditivos de dados e um dos algoritmos mais comuns em aprendizado de máquina, realiza divisões sucessivas nos dados e gera conjuntos menores e específicos (atributos) até alcançar dimensões simplificadas para que informações sejam padronizadas. Assinalea alternativa que correlaciona adequadamente os dois grupos de informação: a. 1, III; 2, II; 3, I. b. 1, I; 2, II; 3, III. c. 1, II; 2, I; 3, III. d. 1, I; 2, III; 3, II. e. 1, III; 2, I; 3, II. Pergunta 5 O contexto das análises preditivas necessita do conhecimento sobre conceituação de análise de dados. Tal fato se baseia na argumentação de que a predição de dados se caracteriza como ferramenta gerencial com potencial de interpretar informações a fim de gerar padrões e descrever tendências de mercado. Ilustrando: quando se fala em previsões futuras de mercado, isso propicia que empresas distingam seus produtos e serviços daqueles de potenciais concorrentes, agregando valor de competitividade a si mesmas. Diante disso, algoritmos preditivos surgem como poderosa ferramenta para solucionar problemas (por exemplo, os algoritmos de Random Forest, KNN e árvores de decisão). Os algoritmos citados se enquadram num conjunto de métodos com a característica básica de apresentar a combinação de distintos modelos para computar um único resultado. Na ciência de dados, esses métodos são conhecidos como: a. métodos censemble. b. métodos densemble. c. métodos tensemble. d. métodos ensemble. e. métodos kensemble. Pergunta 6 Algoritmos são elementos fundamentais para que possamos criar mecanismos via ciência de dados na resolução de problemas diversos no contexto organizacional, ou seja, para transformarmos dados em informações relevantes para organizações tomarem decisões confiáveis. Assim sendo, constituem tipos de algoritmos utilizados na ciência de dados na aplicabilidade prática: a. algoritmo KNN; árvores de decisão; Random Forest. b. algoritmo PNN; árvores de decisão; Handle Forest. c. algoritmo KMM; árvores de decisão; Handle Forest. d. algoritmo KMM; árvores MNP; Random Forest. e. algoritmo KMM; árvores de decisão; Random Forest.