Baixe o app para aproveitar ainda mais
Prévia do material em texto
18/03/2024, 11:09 Avaliação II - Individual about:blank 1/6 Prova Impressa GABARITO | Avaliação II - Individual (Cod.:822552) Peso da Avaliação 1,50 Prova 64040810 Qtd. de Questões 10 Acertos/Erros 6/4 Nota 6,00 Para um determinado conjunto de dados, na maioria das vezes, é fácil descobrir o que são observações e o que são variáveis, porém, é complicado definir as variáveis e as observações de maneira precisa. Por exemplo, se as colunas de uma tabela tivessem altura e largura, seria menos claro, pois poderíamos pensar em altura e largura como valores de uma variável de dimensão. Agora, se as colunas fossem telefones residencial e comercial, poderíamos tratá-las como duas variáveis. Já em um ambiente de detecção de fraude, o uso de um número de telefone para várias pessoas pode indicar fraude, dessa forma, podemos querer variáveis como número de telefone e tipo de número. Sobre as relações funcionais entre as colunas, classifique V para as sentenças verdadeiras e F para as falsas: ( ) É mais fácil fazer comparações entre grupos de observações do que entre grupo de colunas. ( ) Em uma determinada análise podem existir vários níveis de observação. ( ) É mais fácil descrever relações funcionais entre colunas do que entre linhas. Assinale a alternativa que apresenta a sequência CORRETA: A V - V - V. B F - V - F. C V - F - F. D F - F - V. Para um determinado conjunto de dados, na maioria das vezes, é fácil descobrir o que são observações e o que são variáveis, contudo é complicado definir as variáveis e as observações de forma precisa. Em um ambiente de detecção de fraude, o uso de um número de telefone para várias pessoas pode indicar fraude, dessa forma, podemos querer variáveis número de telefone e tipo de número. Analise as opções referentes ao exposto e assinale a alternativa INCORRETA: A É mais fácil fazer comparações entre grupos de observações. VOLTAR A+ Alterar modo de visualização 1 2 18/03/2024, 11:09 Avaliação II - Individual about:blank 2/6 B Em uma determinada análise pode existir apenas um nível de observação. C Em uma determinada análise, podem existir vários níveis de observação. D É mais fácil descrever relações funcionais entre colunas do que entre linhas. A função de limpeza de inconsistências compreende identificar e eliminar valores inconsistentes em conjuntos de dados. Uma inconsistência pode estar relacionada a um único registro (tupla) ou se referir a um conjunto de registros. A inconsistência em apenas uma tupla acontece quando os valores dessa tupla forem divergentes. Também podem existir inconsistências causadas por integrações de dados, em que um atributo pode ter nomes distintos em seus bancos de dados. Consequentemente, podem existir dados redundantes. Nesse sentido, existem alguns métodos para tratar os valores inconsistentes. Referente ao método de correção de erros para tratar os valores inconsistentes, classifique V para as sentenças verdadeiras e F para as falsas: ( ) Esse método é muito rápido. ( ) Esse método consome muito tempo. ( ) Esse método consiste em substituir valores errôneos ou inconsistentes identificados no conjunto de dados. ( ) Esse método pode envolver desde a correção manual até a atualização desses valores em um lote predeterminado de registros, usando comandos de atualização de dados em ambientes relacionais. Assinale a alternativa que apresenta a sequência CORRETA: A F - F - V - F. B V - F - V - V. C F - F - F - V. D F - V - V - V. Valores com informações ausentes surgem em quase todas as análises estatísticas sérias. Primeiramente, para podermos lidar com valores ausentes, é importante sabermos o motivo deles estarem ausentes. Referente a como a linguagem R trata essas questões, classifique V para as sentenças verdadeiras e F para as falsas: ( ) Os valores ausentes são indicados pelos zeros e Nas. ( ) Os valores ausentes são indicados pelo Null. ( ) Os valores ausentes são indicados pelos Nas e Null. ( ) Os valores ausentes são indicados pelos Nas. Assinale a alternativa que apresenta a sequência CORRETA: A V - F - V - V. B F - F - V - F. C F - F - F - V. D F - V - V - V. 3 4 18/03/2024, 11:09 Avaliação II - Individual about:blank 3/6 A seleção das melhores características é uma das abordagens mais conhecidas para reduzir os dados. Essa abordagem pode ser executada com: eliminação de valores ausentes, análise da variância e análise de correlação. Com relação à eliminação de valores ausentes, análise da variância e análise de correlação, classifique V para as sentenças verdadeiras e F para as falsas: ( ) Na análise da variância, as características devem ser normalizadas antes de se fazer essa análise, para que o preparador tenha mais facilidade em determinar o que constitui um valor alto de variância e o que constitui um valor baixo de variância. ( ) A eliminação de valores ausentes tem o intuito de identificar aquelas características que sejam muito correlacionadas, elegendo de cada par uma característica correlacionada. ( ) A análise da variância tem o intuito de eliminar aquelas características que possuem valores ausentes. ( ) A análise da correlação tem o intuito de identificar características dos valores que possuem baixa variância. Assinale a alternativa que apresenta a sequência CORRETA: A V - F - V - V. B F - F - V - V. C V - F - F - F. D F - V - V - F. A análise por componentes principais ajuda a identificar grupo com custo computacional baixo, podendo ser aplicada em qualquer conjunto de dados numéricos que tenha mais de duas dimensões. Na literatura ela também é conhecida como Karhunen-Loeve ou Método K-L. Existem quatro procedimentos considerados básicos da análise por componentes principais. Sobre esses quatro procedimentos, assinale a alternativa INCORRETA: A Os vetores ortonormais computados pela análise de componentes principais são unitários, norma igual a 1, cujo rumo é perpendicular referente aos demais. 5 6 18/03/2024, 11:09 Avaliação II - Individual about:blank 4/6 B Os dados de entrada são normalizados de maneira que os valores de todos os atributos fazem parte da mesma faixa de valores. C Na redução dos componentes mais fracos, primeiramente, os componentes são ordenados de maneira decrescente relacionado à variância, o tamanho do conjunto de dados tem a possibilidade de ser reduzido a partir da eliminação dos componentes mais fracos, ou seja, daqueles que tiverem menor variância. D Ao utilizar os componentes principais mais fracos com relação à variância, consegue-se realizar a reconstrução aproximando-se bem dos dados originais. Para Wickham (2014), conjuntos de dados organizados são fáceis de manipular, modelar e visualizar, possuindo uma estrutura específica: por exemplo, cada variável é uma coluna, cada observação é uma linha e cada tipo de unidade de observação é uma tabela. Dessa forma, é fundamental entendermos a estrutura e a sua semântica, além da importância de termos os dados organizados. Com isso, devemos ter dados organizados como um objetivo geral em função de facilitar nossa análise posterior. Com relação às principais propriedades dos dados organizados, analise as sentenças a seguir: I- As principais propriedades dos dados organizados são as mesmas que a terceira forma normal de Codd, só que voltadas para a linguagem estatística e o foco está em um único conjunto de dados. II- Cada valor pertence a uma variável e a uma observação (instância). III- Cada variável contém todos os valores de uma determinada propriedade medidos em todas as observações. IV- Cada observação contém todos os valores das variáveis medidas para o respectivo caso. Assinale a alternativa CORRETA: FONTE: WICKHAM, H. Tidy data. Journal of Statistical Software, v. 59, n. 10, p. 1-23, 2014. A As sentenças I, II, III e IV estão corretas. B Somente a sentença III está correta. C Somente a sentença IV está correta. 7 18/03/2024, 11:09 Avaliação II- Individual about:blank 5/6 D Somente a sentença II está correta. A função de limpeza de informações ausentes compreende a eliminação de valores ausentes em conjunto de dados. Muitas abordagens de dados ausentes simplificam o problema jogando fora os dados, ou seja, removendo os valores. Entretanto, essas abordagens podem levar a estimativas tendenciosas. Além disso, jogar fora os dados pode levar a estimativas errôneas devido ao tamanho reduzido da amostra. Nesse sentido, existem alguns métodos para tratar os valores ausentes, como exclusão de casos, preenchimento manual de valores, preenchimento com valores globais constantes, preenchimento com medidas estatísticas e preenchimento com métodos de mineração de dados. Sobre esses métodos para tratar os valores ausentes, assinale a alternativa CORRETA: A O método de preenchimento manual de valores consiste em substituir todos os valores ausentes de um atributo para um valor padrão tal como “desconhecido” ou “null”. B O método de preenchimento com valores globais constantes pode ser implementado por meio de pesquisas junto às fontes de dados originais que procurem captar as informações ausentes. C O método de exclusão de casos é o método mais simples para limpeza de informações ausentes. D O método de preenchimento com medidas estatísticas faz uso de algoritmos de mineração de dados, tais como redes Neurais, modelos bayesianos e árvores de decisão. A discretização também é denominada de mapeamento em intervalos. Ela é baseada em transformar valores numéricos em faixas de valores, categorias, classes ou valores ordinais. De acordo com Goldschmidt e Passos (2005, p. 41), “[...] a representação em intervalos pode ser obtida a partir de métodos que dividam o domínio de uma variável numérica em intervalos”. Esses autores ainda colocam que “alguns autores consideram o processo de Discretização como pertencente ao conjunto de operações voltadas à redução de valores das variáveis (Redução de Valores Contínuos)”. Entretanto, existem diversos desafios referentes à discretização. Referente aos desafios da discretização, assinale a alternativa INCORRETA: FONTE: GOLDSCHMIDT, R.; PASSOS, E. Data Mining: um guia prático. Rio de Janeiro: Elsevier, 2005. A A representação das categorias também não é vista como um desafio, devido a algumas delas poderem não ser representativas. 8 9 18/03/2024, 11:09 Avaliação II - Individual about:blank 6/6 B A solução para representação das categorias é definir a raiz quadrada do número de instâncias como o valor inicial (ou ponto de partida) do número de faixas de valores da discretização. C A discretização envolve cuidado, pois ela deve ser utilizada com a menor perda de informação. D Um desafio é transformar valores numéricos em atributos categóricos, implicando a perda de informação. Dados organizados, ou seja, estruturados, proveem uma forma padronizada de vincular a estrutura de dados, isto é, seu layout físico, com sua semântica, ou seja, com seu significado. Ao termos um conjunto de dados organizados, conseguimos facilmente manipular, modelar e visualizar, possuindo uma estrutura específica. Portanto, é essencial compreendermos estrutura e a sua semântica. Analise as questões referentes à estrutura de dados e assinale a alternativa CORRETA: A Os dados podem ser estruturados de diferentes formas, ou seja, os dados apresentados são os mesmos, contudo o layout é diferente. B A estrutura dos dados diz respeito aos números que apresentamos. C A estrutura dos dados está relacionada com a coleção de seus valores. D A estrutura dos dados se refere aos caracteres apresentados. 10 Imprimir
Compartilhar