Baixe o app para aproveitar ainda mais
Prévia do material em texto
Prova Impressa GABARITO | Avaliação da Disciplina (Cod.:645435) Peso da Avaliação 10,00 Prova 61785207 Qtd. de Questões 20 Nota 9,00 O KNN é um algoritmo supervisionado que tem por objetivo classificar objetos (WEBB, 2002). O algoritmo de Machine learning tem como propósito classificar o elemento e atribuir a ele o rótulo que representa a maior frequência dentre as k amostras mais próximas, através do esquema de votação. Como podemos utilizar o algoritmo KNN em negócios? Assinale a opção correta: A Para analisar o perfil do cliente. B Para encontrar as empresas mais semelhantes aos melhores clientes do negócio. C Para calcular a probabilidade de vendas. D Para estimar o total de vendas em um período. O método aglomerativo é iniciado com cada padrão formando seu próprio agrupamento, e gradativamente os grupos são formados até que um único conjunto contendo todos os dados seja gerado (SILVA, 2005). Ao iniciar o processo, os grupos são pequenos e os elementos de cada grupo possuem um alto grau de similaridade. Como podemos medir a qualidade do agrupamento formado a partir do método aglomerativo? Assinale a opção correta: A Através do desvio-padrão do agrupamento. B Através da média do agrupamento. C Através do coeficiente de correlação. D Através do coeficiente aglomerativo. A partir da coleta de dados, podemos extrair as informações sobre o fenômeno que desejamos avaliar, seja o perfil do cliente ou do mercado. Com base no que foi visto no capítulo sobre coleta e extração de informações, vamos avaliar a seguinte questão. Assinale a alternativa que indica corretamente o tipo de coleta de dados citado no trecho abaixo. VOLTAR A+ Alterar modo de visualização 1 2 3 “Esse tipo de coleta consiste em uma conversação para obter informações envolvendo duas ou mais pessoas”. A Entrevista. B Telemarketing. C Questionário. D Face a face. Algoritmos de aprendizado de máquina não supervisionado inferem padrões de um conjunto de dados sem referência a resultados conhecidos ou rotulados (MONARD, 2003). Com base nos conceitos vistos no capítulo sobre algoritmos de aprendizado de máquina não supervisionado, responda à próxima questão. Assinale a alternativa correta sobre o aprendizado não supervisionado. A O aprendizado não supervisionado é usado para problemas de classificação. B O aprendizado não supervisionado precisa que os dados sejam rotulados para que se possa identificar padrões. C O aprendizado não supervisionado pode ser usado para descobrir a estrutura subjacente dos dados sem a necessidade de existir um conjunto de dados a priori, porém não é usado na análise exploratória de dados. D O aprendizado não supervisionado pode ser usado para descobrir a estrutura subjacente dos dados sem a necessidade de existir um conjunto de dados a priori. K-médias é um algoritmo não supervisionado, isto é, seus dados não possuem rótulos. O principal propósito é identificar as similaridades entre os dados e agrupá-los conforme o número de cluster. O algoritmo de k-médias é interativo e poderoso para dividir um conjunto de dados em grupos separados. Sobre as etapas dos processos de K-Means, marque V para verdadeiro e F para falso: ( ) Inicialização: nesta etapa acontece a atribuição ao cluster e a movimentação de centroides é repetida até o cluster se tornar estático. ( ) Atribuição ao Cluster: Nesta etapa calcula-se a distância entre os pontos dos dados e cada um dos centroides. ( ) Movimentação de Centroides: nesta etapa é modificada a localização do centroide. ( ) Otimização: nesta etapa calcula-se a média dos valores dos pontos de dados de cada cluster, e o valor médio será o novo centroide. Marque a opção que contém a sequência correta: A F - V - V - V. B F - V - V - F. C F - V - F - F. 4 5 D F - F - F - F. O KNN é um algoritmo supervisionado que tem por objetivo classificar objetos (WEBB, 2002). O algoritmo de Machine learning tem como propósito classificar o elemento e atribuir a ele o rótulo que representa a maior frequência dentre as k amostras mais próximas, através do esquema de votação. Quais as medidas de distâncias usadas pelo algoritmo KNN? Assinale o item correto: A Somente Distância Euclidiana. B Somente Distância Manhattan. C Distância Euclidiana e a Distância Manhattan. D Distância Manhattan e Centroide. O KNN é um algoritmo supervisionado que tem por objetivo classificar objetos (WEBB, 2002). O algoritmo de Machine learning tem como propósito classificar o elemento e atribuir a ele o rótulo que representa a maior frequência dentre as k amostras mais próximas, através do esquema de votação. Sobre o KNN, marque V para verdadeiro e F para falso: ( ) Para estimar a classe a que o elemento K pertença, o algoritmo KNN calcula os K-vizinhos mais próximos a K . ( ) Na fase de classificação para um dado elemento de teste K, seus K-vizinhos mais próximos podem ser de uma mesma classe, e o algoritmo pode não conseguir decidir qual a classe a que esse elemento K pertença. ( ) Para encontrar a classe de um elemento que ainda não pertença a algum conjunto formado, o classificador KNN busca os K elementos do conjunto de treinamento que tenham a menor distância do elemento desconhecido. Marque a opção que contém a sequência correta: A F-F-F. B V-F-F. C V-V-F. D V-V-V. 6 7 8 O aprendizado supervisionado tenta segmentar a população com base em rótulos conhecidos, isto é, precisa-se dizer ao algoritmo os resultados esperados para que ele possa fazer as classificações ou previsões de maneira correta. Com base nos conceitos iniciais da aprendizagem supervisionada, responda à próxima questão. Vimos no capítulo 2 os conceitos da aprendizagem supervisionada e as principais formas de aplicação. Com base no que estudamos, marque a opção que apresenta uma situação que podemos resolver usando a aprendizagem supervisionada. Marque o item correto: A Calcular a probabilidade de os clientes comprarem o novo produto desenvolvido. B Agrupar os clientes de forma espontânea com base nos seus perfis, onde eles se enquadram em diferentes grupos. C Encontrar grupos de clientes que têm uma maior probabilidade de usar os serviços que uma empresa oferece. D Separar os clientes em grupos em que eles são reconhecidos por meio de características próprias. Os gráficos podem mostrar o desempenho do negócio em determinado período de tempo, evidenciando os pontos que precisam ser otimizados, e proporcionam aos setores da organização elaborar um planejamento eficiente, baseando-se em dados consistentes. Com base no que foi visto sobre gráficos, responda ao próximo questionamento. Para gerar os gráficos é preciso seguir alguns princípios. Assinale a opção que informa corretamente o que é necessário para construir um gráfico: A O gráfico precisa ser claro e legível, mas não é necessário fornecer legenda e nota de rodapé. B O gráfico não precisa ser claro e legível, pois somente com a sua visualização podemos entender as informações. C O gráfico precisa ser claro e legível, porém, devido à sua simplicidade, não há necessidade de colocar título. D O gráfico precisa ser claro e legível, e fornecer uma legenda clara que descreva as informações contidas. O gráfico pode conter várias informações, como: Título e Nota de rodapé. O método aglomerativo é iniciado com cada padrão formando seu próprio agrupamento, e gradativamente os grupos são formados até que um único conjunto contendo todos os dados seja gerado (SILVA, 2005). Ao iniciar o processo, os grupos são pequenos e os elementos de cada grupo possuem um alto grau de similaridade. Nos métodos aglomerativos existem alguns passos que precisam ser seguidos. Assinale a opção que contém os passos necessários para usar o método aglomerativo. 9 10 A Primeiro deve-se calcular um único padrão para cada agrupamento. Após o passo inicial é gerado um novo agrupamento, o qual é formado pela união dos agrupamentos com maior grau de similaridade. Os passos1 e 2 são executados diversas vezes, até que todos os objetos estejam em um único agrupamento. B Primeiro deve-se calcular a matriz de similaridades. Após o passo inicial é gerado um novo agrupamento, o qual é formado pela união dos agrupamentos com maior grau de similaridade. Os passos 1 e 2 são executados diversas vezes, até que todos os objetos estejam em um único agrupamento. C O passo inicial é gerar um novo agrupamento, o qual é formado pela união dos agrupamentos com maior grau de similaridade. O segundo passo é calcular a matriz de similaridades. Os passos 2 e 3 são executados diversas vezes, até que todos os objetos estejam em um único agrupamento. D Primeiro deve-se calcular um único padrão para cada agrupamento. O segundo passo é calcular a matriz de similaridades. Após os passos iniciais é gerado um novo agrupamento, o qual é formado pela união dos agrupamentos com maior grau de similaridade. Os passos 2 e 3 são executados diversas vezes, até que todos os objetos estejam em um único agrupamento. As técnicas multivariadas analisam as relações de múltiplas variáveis dependentes e/ou múltiplas variáveis independentes. Essas variáveis podem ter relação ou não de causa/efeito entre duas ou mais variáveis. Esses métodos possibilitam que se faça uma exploração da performance conjunta das variáveis, e seja determinada a correlação entre elas (DAGNELIE, 1985). Quais conceitos é preciso seguir para uma distribuição ser considerada multivariada? Assinale a opção correta: A Todas a variáveis devem ser inter-relacionadas. Os efeitos das variáveis podem ser significativamente interpretados se analisadas separadamente. B Todas as variáveis devem ser aleatórias. Todas a variáveis devem ser inter-relacionadas. Os efeitos das variáveis não podem ser significativamente interpretados se analisadas separadamente. C Algumas variáveis devem ser aleatórias, mas não todas. Todas a variáveis devem ser inter- relacionadas. Os efeitos das variáveis não podem ser significativamente interpretados se analisadas separadamente. D Todas as variáveis devem ser aleatórias. Todas a variáveis não podem ser inter-relacionadas. A compreensão das técnicas estatísticas depende do entendimento de alguns conceitos básicos, como saber a diferença entre população e amostra. População é todos os elementos do conjunto e a amostra é apenas uma parte desse conjunto. Com base nos conceitos básicos das técnicas estatísticas, assinale a opção correta: A Parâmetro: característica que descreve a população. B População: conjuntos de todos os itens que não têm características em comum. 11 12 C Amostra: conjuntos de todos os elementos da população que será analisada. D Estimador: característica não numérica estabelecida na amostra. Os métodos hierárquicos criam uma hierarquia de relacionamentos entre os elementos, na qual os dados são particionados várias vezes, para produzir uma representação hierárquica dos agrupamentos (EVERITT, 2001), com o propósito de melhorar a visualização sobre a formação dos agrupamentos em cada estágio onde ela ocorreu e com o grau de semelhança entre os agrupamentos. Métodos hierárquicos precisam de uma matriz que contém as métricas de distância entre os agrupamentos em cada estágio do algoritmo. Essa matriz é conhecida como matriz de similaridades entre agrupamentos. Conforme a matriz a seguir, quais são as variáveis que têm agrupamento similar? Y1 Y2 Y3 Y 1 0 0,3 0,2 Y2 0,6 0 0,8 Y3 0,2 0,7 0 Assinale o item que contém o resultado correto: A Y1 E Y3 B Y2 E Y3 C Nehuma das variáveis mostra agrupamento similar. D Y1 E Y2 13 Depois de coletar os dados é conveniente organizá-los de forma simples e clara, para melhor entendimento das informações. Os dados podem ser organizados em formas de tabelas ou gráficos para facilitar sua visualização e interpretação. Com base neste contexto, responda ao questionamento. Sobre o que aprendemos de gráficos, marque o item correto: A Gráficos não podem identificar padrões devido à sua simplicidade para analisar dados. B Gráficos identificam padrões, resultados e comparam medidas de forma mais rápida e simples, em relação a outras medidas estatísticas. C Os gráficos não são confiáveis para fazer análises dos dados, pois não existem softwares precisos o suficiente para esta função. D Gráficos identificam padrões, resultados e comparam medidas de forma mais rápida e simples, porém, somente se usados junto com medidas estatísticas. A análise de regressão é frequentemente usada por economistas e pesquisadores de negócios, para auxiliar gerentes e donos de empresas a prever condições futuras, e fornece suporte quantitativo para a tomada de decisão dos gerentes. Também auxilia na detecção de falhas das estratégias gerenciais e fornece novos feedbacks que podem mudar as prospecções do negócio (PROVOST, 2013). Dentre as alternativas abaixo, qual caracteriza a regressão? Assinale a opção correta: A A análise de regressão pode ser usada para inferir as relações entre variáveis independentes e dependentes, porém somente para valores positivos. B A análise de regressão pode ser usada para inferir as relações somente entre uma variável independente e uma dependente. C A análise de regressão pode ser usada para inferir a classificação entre uma variável independente e uma dependente. D A análise de regressão também é usada para entender quais dentre as variáveis independentes estão relacionadas à variável dependente e explorar as formas dessas relações. A técnica de regressão tenta estimar ou prever para cada indivíduo o valor numérico de alguma variável que pertença a ele (CHARNET, 1999). Com base nos conceitos vistos no capítulo sobre regressão, responda à próxima questão. No seguinte exemplo: Na cidade de São Paulo, a Secretaria de Saúde deseja investigar se o número de casos de dengue aumenta com a chegada da quadra invernosa. Quem são nossas variáveis dependente e independente? Assinale a opção correta: A Y:Habitantes da cidade de São Paulo X: Quadra invernosa. B Y: Quadra invernosa X: Casos de dengue. 14 15 16 C Y: Casos de dengue X: Habitantes da cidade de São Paulo. D Y: Casos de dengue X: Quadra invernosa. Depois de coletar os dados é conveniente organizá-los de forma simples e clara, para melhor entendimento das informações. Os dados podem ser organizados em formas de tabelas ou gráficos para facilitar sua visualização e interpretação. Com base neste contexto, responda ao questionamento. Em relação ao que estudamos no capítulo sobre distribuição de frequência, marque a opção verdadeira: A Ela pode ser formatada apenas como lista e tabela. B Ela pode ser formatada apenas em tabela, a qual mostra a frequência de vários resultados de uma amostra. C Ela pode ser em formato de lista, tabela ou gráfico, mostrando a frequência de vários resultados de uma amostra. D Ela é pouco usada devido à sua complexidade. Os algoritmos de classificação tem por objetivo: classificar um indivíduo em uma classe ou conjunto (WEBB, 2002) no qual elas precisam ser mutuamente exclusivas (PROVOST, 2013). Com base nos conceitos vistos no capítulo sobre classificação, responda à próxima questão. Qual opção abaixo podemos definir como um problema de classificação? Marque o item correto: A Os clientes da empresa X precisam ser agrupados a partir das suas características. B Calcular a probabilidade de um cliente comprar o produto. C Previsão da quantidade de produtos vendidos durante um determinado período. D Uma empresa que investiga a chance dos seus clientes comprarem ou não o novo produto lançado. Os gráficos podem mostrar o desempenho do negócio em determinado período de tempo, evidenciando os pontos que precisam ser otimizados, e proporcionam aos setores da organização elaborar um planejamento eficiente, baseando-se em dados consistentes. Sobre as características que o gráfico de dispersão possui, assinale a alternativa correta: A Ele representa os dados contínuos como tempo e pressão. 17 18 19B Representa dados da medição de uma variável contínua. C Utiliza-se para verificar a relação entre duas variáveis. D Utiliza-se para comparar um único valor entre vários grupos. A técnica de regressão tenta estimar ou prever para cada indivíduo o valor numérico de alguma variável que pertença a ele (CHARNET, 1999). Com base nos conceitos vistos no capítulo sobre regressão, responda à próxima questão. Assinale a opção que contém a principal característica da técnica de regressão. A O propósito da regressão é encontrar a relação entre uma variável dependente (denotada por Y) e somente uma variável independente (denotada por X). B O propósito da regressão é encontrar a relação entre uma variável dependente (denotada por Y) e uma série de outras variáveis independentes (denotadas por X). C O propósito da regressão é agrupar indivíduos com as mesmas características. D O propósito da regressão é minerar os dados de maneira descritiva. 20 Imprimir
Compartilhar