Baixe o app para aproveitar ainda mais
Prévia do material em texto
Prova Impressa GABARITO | Avaliação II - Individual (Cod.:822552) Peso da Avaliação 1,50 Prova 64040741 Qtd. de Questões 10 Acertos/Erros 9/1 Nota 9,00 A função de limpeza de informações ausentes compreende a eliminação de valores ausentes em conjunto de dados. Muitas abordagens de dados ausentes simplificam o problema jogando fora os dados, ou seja, removendo os valores. Entretanto, essas abordagens podem levar a estimativas tendenciosas. Além disso, jogar fora os dados pode levar a estimativas errôneas devido ao tamanho reduzido da amostra. Nesse sentido, existem alguns métodos para tratar os valores ausentes, como exclusão de casos, preenchimento manual de valores, preenchimento com valores globais constantes, preenchimento com medidas estatísticas e preenchimento com métodos de mineração de dados. Sobre esses métodos para tratar os valores ausentes, assinale a alternativa CORRETA: A O método de preenchimento manual de valores consiste em substituir todos os valores ausentes de um atributo para um valor padrão tal como “desconhecido” ou “null”. B O método de preenchimento com medidas estatísticas faz uso de algoritmos de mineração de dados, tais como redes Neurais, modelos bayesianos e árvores de decisão. C O método de exclusão de casos é o método mais simples para limpeza de informações ausentes. D O método de preenchimento com valores globais constantes pode ser implementado por meio de pesquisas junto às fontes de dados originais que procurem captar as informações ausentes. Dados organizados (estruturados) fornecem uma maneira padronizada de vincular a estrutura de dados (seu layout físico) com sua semântica (seu significado). Na semântica de dados, um conjunto de dados é uma coleção de valores, geralmente números (se quantitativos) ou sequências de caracteres (se qualitativas). Nesse sentido, os valores podem ser organizados de duas formas. Sobre como os valores são organizados na semântica de dados, assinale a alternativa INCORRETA: A Os valores são organizados de duas maneiras. Todo valor pertence a uma variável e a uma observação. VOLTAR A+ Alterar modo de visualização 1 2 B Uma observação contém todos os valores medidos na mesma unidade (como uma pessoa, um dia ou uma corrida). C Os valores são organizados de três formas, sendo que todo valor pertence a uma variável, a um atributo e a uma observação. D Uma variável contém todos os valores que medem o mesmo atributo subjacente (como altura, temperatura, duração) nas unidades. Dados organizados, ou seja, estruturados, proveem uma forma padronizada de vincular a estrutura de dados, isto é, seu layout físico, com sua semântica, ou seja, com seu significado. Ao termos um conjunto de dados organizados, conseguimos facilmente manipular, modelar e visualizar, possuindo uma estrutura específica. Portanto, é essencial compreendermos estrutura e a sua semântica. Analise as questões referentes à estrutura de dados e assinale a alternativa CORRETA: A A estrutura dos dados se refere aos caracteres apresentados. B A estrutura dos dados diz respeito aos números que apresentamos. C A estrutura dos dados está relacionada com a coleção de seus valores. D Os dados podem ser estruturados de diferentes formas, ou seja, os dados apresentados são os mesmos, contudo o layout é diferente. Transformações de dados objetivam melhorar a utilidade de uma característica adicionando, modificando ou eliminando informações, bem como cada tipo de característica possui um detalhamento específico, favorecendo ou desfavorecendo a extração de valor. A etapa de transformação de dados envolve também a consolidação em formatos adequados para que a mineração possa ser realizada. Smooting, Agregação, Generalização, Normalização e Construção de atributos dizem respeito à transformação de dados. Referente a Smooting, Agregação e Generalização, assinale a alternativa INCORRETA: A Generalização dos dados é a etapa que possibilita transformar os dados primitivos (como linhas de tabelas) em hierarquias de mais alto nível. B Agregação aplica operações de sumarização e agregação nos dados. C Smooting remove os dados corrompidos (noisy data), usando técnicas de binning, agrupamento e regressão. 3 4 D Generalização é tipicamente utilizada para geração de dados no formato multidimensional em dados com alta granularidade (muitos detalhes). Transformações de dados objetivam melhorar a utilidade de uma característica adicionando, modificando ou eliminando informações, bem como cada tipo de característica possui um detalhamento específico, favorecendo ou desfavorecendo a extração de valor. A etapa de transformação de dados envolve também a consolidação em formatos adequados para que a mineração possa ser realizada. Smooting, Agregação, Generalização, Normalização e Construção de atributos dizem respeito à transformação de dados. Referente à Normalização e Construção de atributos, classifique V para as sentenças verdadeiras e F para as falsas: ( ) Um exemplo de construção de atributos é estipular um intervalo tal como entre –1.0 a 2.0. ( ) A normalização dos dados possibilita atribuir uma nova escala a um atributo de maneira que os valores desse atributo possam cair na nova escala em um intervalo especificado. ( ) Um exemplo da normalização de dados é por exemplo estipular um intervalo tal como entre –1.0 a 1.0 ou de 0.0 a 1.0 etc. ( ) Na construção de atributos novos atributos podem ser construídos a partir dos atributos existentes, no sentido de apoiar o processo de análise. Assinale a alternativa que apresenta a sequência CORRETA: A V - V - V - F. B V - F - V - V. C F - V - V - V. D V - V - F - V. A abordagem por boxplot utiliza gráfico e, dessa forma, o entendimento é mais direto, enquanto a abordagem de identificação por Z-Score é mais matemática. Ao se falar em Z-Score, estamos nos 5 6 referindo a um número de vezes que um determinado valor se distancia das outras amostras com relação ao desvio padrão e a média do atributo. Com relação à identificação de outliers por meio do Z-Score, analise as sentenças a seguir: I- A identificação de outliers por meio do Z-Score consiste em centralizar os dados em torno da média 0 e desvio padrão 1, e a partir dos novos dados, identificar aqueles que estão muito distantes de 0. II- A identificação de outliers por meio do Z-Score consiste em realizar a clusterização, randomicamente, k pontos de dados (dados numéricos) como sendo os centroides (elementos centrais) dos clusters. III- A identificação de outliers por meio do Z-Score consiste em identificar os outliers por meio da inspeção visual utilizando gráficos do tipo boxplot. IV- A identificação de outliers por meio do Z-Score consiste em encontrar a melhor linha de ajustamento para duas variáveis, desde que uma possa ser estimada (predita) pela outra. Assinale a alternativa CORRETA: A As sentenças III e IV estão corretas. B As sentenças I e IV estão corretas. C As sentenças II e III estão corretas. D Somente a sentença I está correta. Valores com informações ausentes surgem em quase todas as análises estatísticas sérias. Primeiramente, para podermos lidar com valores ausentes, é importante sabermos o motivo deles estarem ausentes. Referente a como a linguagem R trata essas questões, classifique V para as sentenças verdadeiras e F para as falsas: ( ) Os valores ausentes são indicados pelos zeros e Nas. ( ) Os valores ausentes são indicados pelo Null. ( ) Os valores ausentes são indicados pelos Nas e Null. ( ) Os valores ausentes são indicados pelos Nas. Assinale a alternativa que apresenta a sequência CORRETA: A F - V - V - V. B V - F - V - V. C 7 F - F - V - F. D F - F - F - V. A discretização também é denominada de mapeamento em intervalos. Ela é baseada em transformar valores numéricos em faixas de valores, categorias, classes ou valores ordinais. De acordo com Goldschmidt e Passos (2005, p. 41), “[...] a representação em intervalospode ser obtida a partir de métodos que dividam o domínio de uma variável numérica em intervalos”. Esses autores ainda colocam que “alguns autores consideram o processo de Discretização como pertencente ao conjunto de operações voltadas à redução de valores das variáveis (Redução de Valores Contínuos)”. Entretanto, existem diversos desafios referentes à discretização. Com relação aos desafios da discretização, analise as sentenças a seguir: I- A representação das categorias também é vista como um desafio, devido a algumas delas poderem não ser representativas. II- Um desafio é transformar valores numéricos em atributos categóricos, implicando a perda de informação. III- A discretização envolve cuidado, pois ela deve ser utilizada com a menor perda de informação. IV- A solução para representação das categorias é definir a raiz quadrada do número de instâncias como o valor inicial (ou ponto de partida) do número de faixas de valores da discretização. Assinale a alternativa CORRETA: FONTE: GOLDSCHMIDT, R.; PASSOS, E. Data Mining: um guia prático. Rio de Janeiro: Elsevier, 2005. A Somente a sentença IV está correta. B As sentenças I, II, III e IV estão corretas. C Somente a sentença II está correta. D Somente a sentença III está correta. 8 O método de redução de valores nominais pode ser utilizado apenas em variáveis nominais, enquanto o método de redução de valores contínuos (ou discretos) pode ser aplicado somente em variáveis contínuas ou discretas. Cabe destacar que uma variável nominal tem um número finito, possivelmente grande, de diferentes valores, e esses valores não possuem ordenação. Já uma variável contínua ou discreta tem um relacionamento de ordenação entre os seus valores. Com relação aos métodos de redução de valores do tipo nominal, analise as sentenças a seguir: I- Na identificação de hierarquia entre atributos, os dados de entrada são normalizados de maneira que os valores de todos os atributos fazem parte de diferentes faixas de valores. II- Os dois métodos do tipo nominal são identificação de hierarquia entre atributos e a identificação de hierarquia entre valores. III- Na identificação de hierarquia entre valores, os c vetores ortonormais computados pela análise de componentes principais são unitários, norma igual a 1, cujo rumo é perpendicular referente aos demais. IV- Os vetores da identificação de hierarquia entre valores são chamados componentes principais, sendo que os dados de entrada conseguem representar a combinação linear dos componentes principais. Assinale a alternativa CORRETA: A As sentenças I, II e IV estão corretas. B As sentenças I, II e III estão corretas. C As sentenças I e III estão corretas. D As sentenças II, III e IV estão corretas. A função de limpeza de inconsistências compreende identificar e eliminar valores inconsistentes em conjuntos de dados. Uma inconsistência pode estar relacionada a um único registro (tupla) ou se referir a um conjunto de registros. A inconsistência em apenas uma tupla acontece quando os valores dessa tupla forem divergentes. Também podem existir inconsistências causadas por integrações de dados, em que um atributo pode ter nomes distintos em seus bancos de dados. Consequentemente, 9 Revisar Conteúdo do Livro 10 podem existir dados redundantes. Nesse sentido, existem alguns métodos para tratar os valores inconsistentes. Referente ao método de correção de erros para tratar os valores inconsistentes, classifique V para as sentenças verdadeiras e F para as falsas: ( ) Esse método é muito rápido. ( ) Esse método consome muito tempo. ( ) Esse método consiste em substituir valores errôneos ou inconsistentes identificados no conjunto de dados. ( ) Esse método pode envolver desde a correção manual até a atualização desses valores em um lote predeterminado de registros, usando comandos de atualização de dados em ambientes relacionais. Assinale a alternativa que apresenta a sequência CORRETA: A V - F - V - V. B F - V - V - V. C F - F - V - F. D F - F - F - V. Imprimir
Compartilhar