Baixe o app para aproveitar ainda mais
Prévia do material em texto
18/03/2024, 11:09 Avaliação Final (Objetiva) - Individual about:blank 1/7 Prova Impressa GABARITO | Avaliação Final (Objetiva) - Individual (Cod.:822554) Peso da Avaliação 3,00 Prova 64691257 Qtd. de Questões 10 Acertos/Erros 7/3 Nota 7,00 Em tecnologia da informação, temos os mais diferentes profissionais envolvidos em resolver problemas. Como engenheiro de dados, cientista de dados, analista de negócio, entre outros. As responsabilidades de cada um podem se intercalar no decorrer do projeto. Nesse sentido, o que se espera que um engenheiro de dados faça? A Será o responsável por cuidar de como os dados serão armazenados e processados. B Será o responsável por utilizar o conhecimento obtido para gerar relatórios de acordo com a necessidade das partes interessadas. C Será o responsável por extrair o conhecimento dos dados e também utilizar o conhecimento obtido para gerar relatórios de acordo com a necessidade das partes interessadas. D Será o responsável por fazer a extração de conhecimento dos dados. A discretização também é denominada de mapeamento em intervalos. Ela é baseada em transformar valores numéricos em faixas de valores, categorias, classes ou valores ordinais. De acordo com Goldschmidt e Passos (2005, p. 41), “[...] a representação em intervalos pode ser obtida a partir de métodos que dividam o domínio de uma variável numérica em intervalos”. Esses autores ainda colocam que “alguns autores consideram o processo de Discretização como pertencente ao conjunto de operações voltadas à redução de valores das variáveis (Redução de Valores Contínuos)”. Entretanto, existem diversos desafios referentes à discretização. Referente aos desafios da discretização, classifique V para as sentenças verdadeiras e F para as falsas: ( ) A representação das categorias também é vista como um desafio, devido a algumas delas poderem não ser representativas. ( ) Um desafio é transformar valores numéricos em atributos categóricos, implicando a perda de informação. ( ) A discretização envolve cuidado, pois ela deve ser utilizada com a menor perda de informação. ( ) A solução para representação das categorias é definir a raiz quadrada do número de instâncias como o valor inicial (ou ponto de partida) do número de faixas de valores da discretização. Assinale a alternativa que apresenta a sequência CORRETA: VOLTAR A+ Alterar modo de visualização 1 2 18/03/2024, 11:09 Avaliação Final (Objetiva) - Individual about:blank 2/7 FONTE: GOLDSCHMIDT, R.; PASSOS, E. Data Mining: um guia prático. Rio de Janeiro: Elsevier, 2005. A F - V - V - V. B V - V - F - F. C V - F - V - V. D V - V - V - V. Os principais gráfico para representar valores categóricos dizem respeito ao gráfico de balões, gráfico de mosaicos, mapa de calor, análise de série de dados temporais (ou time series), nuvem de palavras (word cloud), mapa em árvore (ou treemap), entre outros. Sobre a exibição de nuvem de palavras, assinale a alternativa INCORRETA: A Quanto maior for incidência de determinadas palavras, maior será o tamanho da fonte da palavra. B A nuvem de palavras também é conhecida como word cloud. C Quanto maior for a incidência de determinadas palavras, menor será o tamanho da fonte da palavra. D A exibição da nuvem de palavras permite que seja realizado a identificação de maneira visual das palavras mais frequentes em um determinado texto. As abordagens de visualização de dados podem ser classificadas em vários grupos, começando com a criação de gráficos e diagramas informativos, como os gráficos e infográficos estatísticos, até métodos estatísticos avançados para visualizar tabelas multidimension. Com relação às colocações de Priceonomics, analise as sentenças a seguir: I- A visualização de dados está relacionada a como “digerimos” as informações. II- Nas últimas décadas, houve uma explosão no uso de gráficos e um reconhecimento de como a mente humana processa dados de maneira visual. 3 4 18/03/2024, 11:09 Avaliação Final (Objetiva) - Individual about:blank 3/7 III- A ascensão da visualização coincidiu, provavelmente não por coincidência, com uma formalização e uma consideração mais profunda do que funciona melhor ao tentar transmitir informações de maneira gráfica. Assinale a alternativa CORRETA: A Somente a sentença I está correta. B As sentenças I, II e III estão corretas. C Somente a sentença III está correta. D Somente a sentença II está correta. Às vezes, o que pensamos ser um problema não é o problema real. Portanto, para chegar ao problema real, é necessário investigar. A análise de causa raiz é um método eficaz de análise: ajuda a identificar o que, como e por que algo aconteceu. Segundo Etmann (2018), chegar a um problema claramente definido é uma ação orientada a descobertas. Comece com uma definição conceitual e, por meio da análise (causa, análise de impacto etc.), você forma e redefine o problema em termos de questões. Um problema se torna conhecido quando uma pessoa observa uma discrepância entre a maneira como as coisas são e como deveriam ser. Com relação as questões que Etman (2018) coloca como os problemas podem ser identificados, classifique V para as sentenças verdadeiras e F para as sentenças falsas. ( ) Relatórios de desempenho visando futuras projeções da empresa, portanto, não precisa estar se pensando na identificação dos problemas. ( ) Estudos comparativos e benchmarking. ( ) Relatório de desempenho para avaliar o desempenho atual em relação às metas e objetivos. ( ) Análise Strengths, Weaknesses, Opportunities e Threats (SWOT), que consiste em uma ferramenta para avaliar os pontos fortes, que são as Forças e Oportunidades, e os pontos fracos, que são Fraquezas e Ameaças (FOFA). Assinale a alternativa que apresenta a sequência CORRETA: FONTE: ETMANN, Al. Big Data: The analytics life cycle. 2018. Disponível em: https://www.linkedin.com/pulse/big-datathe-analytics-life-cycle-alaa-etman/. Acesso em: 27 maio 2021. A F - V - V - F. 5 18/03/2024, 11:09 Avaliação Final (Objetiva) - Individual about:blank 4/7 B V - V - F - V. C F - F - V - V. D F - V - V - V. Os principais gráficos para representar valores numéricos dizem respeito ao gráfico de pontos (ou de dispersão), ao gráfico de caixas, ao histograma, aos gráficos de densidade e ao gráfico violino. Sobre o gráfico de pontos ou de dispersão, assinale a alternativa INCORRETA: A No gráfico de dispersão, os dados são exibidos como uma coleção de pontos, cada um com o valor de uma variável determinando a posição no eixo horizontal e o valor da outra variável determinando a posição no eixo vertical, no caso de se ter duas variáveis. B No gráfico de dispersão, os dados são mostrados em linhas, sendo que cada linha traz o valor de uma variável. C O gráfico de dispersão utiliza coordenadas cartesianas para exibir valores de um conjunto de dados. D O gráfico de dispersão são representações de dados de duas ou mais variáveis que são organizadas em um gráfico. A análise por componentes principais ajuda a identificar grupo com custo computacional baixo, podendo ser aplicada em qualquer conjunto de dados numéricos que tenha mais de duas dimensões. Na literatura, ela também é conhecida como Karhunen-Loeve ou Método K-L. Existem quatro procedimentos considerados básicos da análise por componentes principais. Com relação a esses quatro procedimentos, classifique V para as sentenças verdadeiras e F para as falsas: ( ) Ao utilizar os componentes principais mais fracos com relação à variância, consegue-se realizar a reconstrução aproximando-se bem dos dados originais. ( ) Os dados de entrada são normalizados de maneira que os valores de todos os atributos fazem parte da mesma faixa de valores. 6 7 18/03/2024, 11:09 Avaliação Final (Objetiva) - Individual about:blank 5/7 ( ) Os c vetores ortonormais computados pela análise de componentes principais são unitários, norma igual a 1, em que o rumo é perpendicularreferente aos demais ( ) Na redução dos componentes mais fracos, primeiramente, os componentes são ordenados de maneira decrescente relacionados à variância. O tamanho do conjunto de dados tem a possibilidade de ser reduzido a partir da eliminação dos componentes mais fracos, ou seja, daqueles que tiverem menor variância. Assinale a alternativa que apresenta a sequência CORRETA: A F - V - V - F. B V - F - V - V. C F - V - V - V. D F - F - F - V. A linguagem R é uma linguagem para manipulação de dados e análises estatísticas, de código aberto “[...] para computação estatística e construção de gráficos que pode ser baixada e distribuída gratuitamente, de acordo com a licença GNU. O R está disponível para as plataformas UNIX, Windows e MacOS” (LANDEIRO, 2011, sp). Com relação à Linguagem R, analise as sentenças a seguir: I- A linguagem R possibilita que sejam gerados gráficos, mas estes não podem ser exportados para relatórios. II- A Linguagem R possui um amplo conjunto de bibliotecas para análise e visualização de dados. III- A linguagem R também é um conjunto de facilitadores para manipulação de dados. IV- A linguagem R possui bibliotecas de manipulação e armazenamento de dados (arquivos de texto, bancos de dados etc.). Assinale a alternativa CORRETA: FONTE: LANDEIRO, Victor Lemes. Introdução ao uso do programa R. Manaus: Instituto Nacional de Pesquisas da Amazônia, 2011. 8 18/03/2024, 11:09 Avaliação Final (Objetiva) - Individual about:blank 6/7 A As sentenças II, III e IV estão corretas. B As sentenças I e III estão corretas. C As sentenças I e IV estão corretas. D As sentenças I, II e IV estão corretas. O mapa de calor possibilita identificar tanto os pontos de menor concentração de eventos, pessoas e afins assim como possibilita identificar os pontos de maior concentração. A identificação de algum tipo de concentração é importante nesse tipo de visualização. Com relação ao mapa de calor, classifique V para as sentenças verdadeiras e F para as falsas: ( ) O importante na visualização do mapa de calor é identificar algum tipo de concentração. ( ) O importante na visualização do mapa de calor é identificar os pontos de maior concentração. ( ) O mapa de calor permite identificar somente os pontos de menor de concentração. ( ) O mapa de calor permite que seja realizado a identificação de pontos de menor e de maior concentração de eventos, de pessoas, dentre outros. Assinale a alternativa que apresenta a sequência CORRETA: A V - F - V - V. B V - F - F - V. C F - V - V - V. D F - F - V - F. 9 18/03/2024, 11:09 Avaliação Final (Objetiva) - Individual about:blank 7/7 O algoritmo k-means é um método popular da tarefa de clusterização. Toma-se, randomicamente, k pontos de dados (dados numéricos) como sendo os centroides (elementos centrais) dos clusters. Em seguida, cada ponto (ou registro da base de dados) é atribuído ao cluster cuja distância deste ponto em relação ao centroide de cada cluster é a menor dentre todas as distâncias calculadas. Um novo centroide para cada cluster é computado pela média dos pontos do cluster, caracterizando a configuração dos clusters para a iteração seguinte. O processo termina quando os centroides dos clusters param de se modificar, ou após um número limitado de iterações que tenha sido especificado pelo usuário. Sobre como ocorre a execução do algoritmo k-means, classifique V para as sentenças verdadeiras e F para as falsas: ( ) A execução do algoritmo k-means consiste em primeiro selecionar aleatoriamente k objetos, que inicialmente representam cada um a média de um cluster. ( ) O processo se repete até que uma condição de parada seja atingida. ( ) A execução do algoritmo k-means consiste em primeiro selecionar aleatoriamente k objetos, que inicialmente representam cada um a mediana de um cluster. ( ) Para cada um dos objetos remanescentes, é feita a atribuição ao cluster ao qual o objeto é mais similar, baseado na distância entre o objeto e a média do cluster. Assinale a alternativa que apresenta a sequência CORRETA: A V - F - F - V. B V - V - F - V. C F - F - V - F. D F - V - V - V. 10 Imprimir
Compartilhar