Baixe o app para aproveitar ainda mais
Prévia do material em texto
16/11/2023, 18:29 Avaliação II - Individual about:blank 1/5 Prova Impressa GABARITO | Avaliação II - Individual (Cod.:888459) Peso da Avaliação 1,50 Prova 72822255 Qtd. de Questões 10 Acertos/Erros 10/0 Nota 10,00 O método de redução de valores nominais pode ser utilizado apenas em variáveis nominais, enquanto o método de redução de valores contínuos (ou discretos) podem ser aplicados somente em variáveis contínuas ou discretas. Cabe destacar que uma variável nominal tem um número finito, possivelmente grande, de diferentes valores e esses valores não possuem ordenação. Já uma variável contínua ou discreta tem um relacionamento de ordenação entre os seus valores. Sobre os métodos de redução de valores do tipo nominal, assinale a alternativa INCORRETA: A Na identificação de hierarquia entre valores os c vetores ortonormais computados pela análise de componentes principais são unitários, norma igual a 1, cujo rumo é perpendicular referente aos demais. B Na identificação de hierarquia entre atributos, os dados de entrada são normalizados de maneira que os valores de todos os atributos fazem parte de diferentes faixas de valores. C Os dois métodos do tipo nominal são identificação de hierarquia entre atributos e a identificação de hierarquia entre valores. D Os vetores da identificação de hierarquia entre valores são chamados componentes principais, sendo que os dados de entrada conseguem representar a combinação linear dos componentes principais. Transformações de dados objetivam melhorar a utilidade de uma característica adicionando, modificando ou eliminando informações, bem como cada tipo de característica possui um detalhamento específico, favorecendo ou desfavorecendo a extração de valor. A etapa de transformação de dados envolve também a consolidação em formatos adequados para que a mineração possa ser realizada. Smooting, Agregação, Generalização, Normalização e Construção de atributos dizem respeito à transformação de dados. Referente à Normalização e Construção de atributos, assinale a alternativa INCORRETA: A Um exemplo da normalização de dados é por exemplo estipular um intervalo tal como entre –1.0 a 1.0 ou de 0.0 a 1.0 etc. B Um exemplo de construção de atributos é estipular um intervalo tal como entre –1.0 a 2.0. C Na construção de atributos, novos atributos podem ser construídos a partir dos atributos existentes, no sentido de apoiar o processo de análise. D A normalização dos dados possibilita atribuir uma nova escala a um atributo de maneira que os valores desse atributo possam cair na nova escala em um intervalo especificado. VOLTAR A+ Alterar modo de visualização 1 2 16/11/2023, 18:29 Avaliação II - Individual about:blank 2/5 Em um conjunto de dados, a organização dos dados deve ser um objetivo geral em função de facilitar nossa análise posterior. As propriedades dos dados organizados são as mesmas que a terceira forma normal de Codd, só que voltadas à linguagem estatística, e o foco está em um único conjunto de dados. Com relação às principais propriedades dos dados organizados, analise as sentenças a seguir: I- Cada valor pertence a uma variável e a uma observação (instância). II- Cada variável contém todos os valores de uma determinada propriedade medidos em todas as observações. III- Cada observação contém todos os valores das variáveis medidas para o respectivo caso. Assinale a alternativa CORRETA: A Somente a sentença I está correta. B Somente a sentença II está correta. C Somente a sentença III está correta. D As sentenças I, II e III estão corretas. A análise por componentes principais ajuda a identificar grupo com custo computacional baixo, podendo ser aplicada em qualquer conjunto de dados numéricos que tenha mais de duas dimensões. Na literatura ela também é conhecida como Karhunen-Loeve ou Método K-L. Existem quatro procedimentos considerados básicos da análise por componentes principais. Sobre esses quatro procedimentos, assinale a alternativa INCORRETA: A Os dados de entrada são normalizados de maneira que os valores de todos os atributos fazem parte da mesma faixa de valores. B Na redução dos componentes mais fracos, primeiramente, os componentes são ordenados de maneira decrescente relacionado à variância, o tamanho do conjunto de dados tem a possibilidade de ser reduzido a partir da eliminação dos componentes mais fracos, ou seja, daqueles que tiverem menor variância. C Ao utilizar os componentes principais mais fracos com relação à variância, consegue-se realizar a reconstrução aproximando-se bem dos dados originais. D Os vetores ortonormais computados pela análise de componentes principais são unitários, norma igual a 1, cujo rumo é perpendicular referente aos demais. Transformações de dados objetivam melhorar a utilidade de uma característica adicionando, modificando ou eliminando informações, bem como cada tipo de característica possui um detalhamento específico, favorecendo ou desfavorecendo a extração de valor. A etapa de transformação de dados envolve também a consolidação em formatos adequados para que a mineração possa ser realizada. Smooting, Agregação, Generalização, Normalização e Construção de atributos dizem respeito à transformação de dados. Referente a Smooting, Agregação e Generalização, classifique V para as sentenças verdadeiras e F para as falsas: ( ) Generalização é tipicamente utilizada para geração de dados no formato multidimensional em dados com alta granularidade (muitos detalhes). 3 4 5 16/11/2023, 18:29 Avaliação II - Individual about:blank 3/5 ( ) Smooting remove os dados corrompidos (noisy data), usando técnicas de binning, agrupamento e regressão. ( ) Agregação aplica operações de sumarização e agregação nos dados. ( ) Generalização dos dados é a etapa que possibilita transformar os dados primitivos (como linhas de tabelas) em hierarquias de mais alto nível. Assinale a alternativa que apresenta a sequência CORRETA: A V - F - V - V. B V - V - V - F. C V - V - F - V. D F - V - V - V. O algoritmo k-means é um método popular da tarefa de clusterização. Toma-se, randomicamente, k pontos de dados (dados numéricos) como sendo os centroides (elementos centrais) dos clusters. Em seguida, cada ponto (ou registro da base de dados) é atribuído ao cluster cuja distância desse ponto em relação ao centroide de cada cluster é a menor dentre todas as distâncias calculadas. Um novo centroide para cada cluster é computado pela média dos pontos do cluster, caracterizando a configuração dos clusters para a iteração seguinte. O processo termina quando os centroides dos clusters param de se modificar, ou após um número limitado de iterações que tenha sido especificado pelo usuário. Sobre como ocorre a execução do algoritmo k-means, analise as sentenças a seguir: I- A execução do algoritmo k-means consiste em primeiro selecionar aleatoriamente k objetos, que inicialmente representam cada um a média de um cluster. II- O processo se repete até que uma condição de parada seja atingida. III- A execução do algoritmo k-means consiste em primeiro selecionar aleatoriamente k objetos, que inicialmente representam cada um a mediana de um cluster. IV- Para cada um dos objetos remanescentes, é feita a atribuição ao cluster ao qual o objeto é mais similar, baseado na distância entre o objeto e a média do cluster. Assinale a alternativa CORRETA: A As sentenças I, II e IV estão corretas. B As sentenças I, II e III estão corretas. C Somente a sentença IV está correta. D As sentenças III e IV estão corretas. Para Wickham (2014), conjuntos de dados organizados são fáceis de manipular, modelar e visualizar, possuindo uma estrutura específica: por exemplo, cada variável é uma coluna, cada observação é uma linha e cada tipo de unidade de observação é uma tabela. Dessa forma, é fundamental entendermos a estrutura e a sua semântica, além da importância de termos os dados organizados. Com isso, devemos ter dados organizados como um objetivogeral em função de facilitar nossa análise posterior. Referente às principais propriedades dos dados organizados, classifique V para as sentenças verdadeiras e F para as falsas: ( ) As principais propriedades dos dados organizados são as mesmas que a terceira forma normal de Codd, só que voltadas para a linguagem estatística e o foco está em um único conjunto de dados. 6 7 16/11/2023, 18:29 Avaliação II - Individual about:blank 4/5 ( ) Cada valor pertence a uma variável e a uma observação (instância). ( ) Cada variável contém todos os valores de uma determinada propriedade medidos em todas as observações. ( ) Cada observação contém todos os valores das variáveis medidas para o respectivo caso. Assinale a alternativa que apresenta a sequência CORRETA: FONTE: WICKHAM, H. Tidy data. Journal of Statistical Software, v. 59, n. 10, p. 1-23, 2014. A V - F - V - V. B V - V - V - V. C F - F - V - F. D F - V - F - V. A função de limpeza de informações ausentes compreende a eliminação de valores ausentes em conjunto de dados. Muitas abordagens de dados ausentes simplificam o problema jogando fora os dados, ou seja, removendo os valores. Entretanto, essas abordagens podem levar a estimativas tendenciosas. Além disso, jogar fora os dados pode levar a estimativas errôneas devido ao tamanho reduzido da amostra. Nesse sentido, existem alguns métodos para tratar os valores ausentes, como exclusão de casos, preenchimento manual de valores, preenchimento com valores globais constantes, preenchimento com medidas estatísticas e preenchimento com métodos de mineração de dados. Sobre esses métodos para tratar os valores ausentes, analise as sentenças a seguir: I- O método de exclusão de casos é o método mais simples para limpeza de informações ausentes. II- O método de preenchimento manual de valores consiste em substituir todos os valores ausentes de um atributo por um valor padrão tal como “desconhecido” ou “null”. III- O método de preenchimento com valores globais constantes pode ser implementado por meio de pesquisas junto às fontes de dados originais que procurem captar as informações ausentes. IV- O método de preenchimento com medidas estatísticas pode utilizar a média para atributos numéricos e moda para atributos categóricos. Assinale a alternativa CORRETA: A As sentenças III e IV estão corretas. B As sentenças II e III estão corretas. C As sentenças I e IV estão corretas. D As sentenças I e II estão corretas. A seleção das melhores características é uma das abordagens mais conhecidas para reduzir os dados. Essa abordagem pode ser executada com: eliminação de valores ausentes, análise da variância e análise de correlação. Com relação à eliminação de valores ausentes, análise da variância e análise de correlação, analise as sentenças a seguir: I- Na análise da variância, as características devem ser normalizadas antes de se fazer a análise da variância, para que o preparador tenha mais facilidade em determinar o que constitui um valor alto de variância e o que constitui um valor baixo de variância. II- A eliminação de valores ausentes tem o intuito de identificar aquelas características que sejam muito correlacionadas, elegendo de cada par uma dessas características. 8 9 16/11/2023, 18:29 Avaliação II - Individual about:blank 5/5 III- A análise da variância tem o intuito de eliminar aquelas características que possuem valores ausentes. IV- Análise da correlação tem o intuito de identificar características dos valores que possuem baixa variância. Assinale a alternativa CORRETA: A Somente a sentença I está correta. B As sentenças I e IV estão corretas. C Somente a sentença III está correta. D As sentenças II e IV estão corretas. Dados organizados (estruturados) fornecem uma maneira padronizada de vincular a estrutura de dados (seu layout físico) com sua semântica (seu significado). Na semântica de dados, um conjunto de dados é uma coleção de valores, geralmente números (se quantitativos) ou sequências de caracteres (se qualitativas). Nesse sentido, os valores podem ser organizados de duas formas. Sobre como os valores são organizados na semântica de dados, assinale a alternativa INCORRETA: A Os valores são organizados de duas maneiras. Todo valor pertence a uma variável e a uma observação. B Uma variável contém todos os valores que medem o mesmo atributo subjacente (como altura, temperatura, duração) nas unidades. C Uma observação contém todos os valores medidos na mesma unidade (como uma pessoa, um dia ou uma corrida). D Os valores são organizados de três formas, sendo que todo valor pertence a uma variável, a um atributo e a uma observação. 10 Imprimir
Compartilhar