Buscar

Avaliação II - Individual Analises Exploratoria de dados

Prévia do material em texto

Prova Impressa
GABARITO | Avaliação II - Individual (Cod.:822552)
Peso da Avaliação 1,50
Prova 64040741
Qtd. de Questões 10
Acertos/Erros 9/1
Nota 9,00
A função de limpeza de informações ausentes compreende a eliminação de valores ausentes em 
conjunto de dados. Muitas abordagens de dados ausentes simplificam o problema jogando fora os 
dados, ou seja, removendo os valores. Entretanto, essas abordagens podem levar a estimativas 
tendenciosas. Além disso, jogar fora os dados pode levar a estimativas errôneas devido ao tamanho 
reduzido da amostra. Nesse sentido, existem alguns métodos para tratar os valores ausentes, como 
exclusão de casos, preenchimento manual de valores, preenchimento com valores globais constantes, 
preenchimento com medidas estatísticas e preenchimento com métodos de mineração de dados. 
Sobre esses métodos para tratar os valores ausentes, assinale a alternativa CORRETA:
A O método de preenchimento manual de valores consiste em substituir todos os valores ausentes
de um atributo para um valor padrão tal como “desconhecido” ou “null”. 
B O método de preenchimento com medidas estatísticas faz uso de algoritmos de mineração de
dados, tais como redes Neurais, modelos bayesianos e árvores de decisão. 
C O método de exclusão de casos é o método mais simples para limpeza de informações ausentes. 
D O método de preenchimento com valores globais constantes pode ser implementado por meio de
pesquisas junto às fontes de dados originais que procurem captar as informações ausentes. 
Dados organizados (estruturados) fornecem uma maneira padronizada de vincular a estrutura de 
dados (seu layout físico) com sua semântica (seu significado). Na semântica de dados, um conjunto 
de dados é uma coleção de valores, geralmente números (se quantitativos) ou sequências de caracteres 
(se qualitativas). Nesse sentido, os valores podem ser organizados de duas formas. 
Sobre como os valores são organizados na semântica de dados, assinale a alternativa INCORRETA:
A Os valores são organizados de duas maneiras. Todo valor pertence a uma variável e a uma
observação. 
 VOLTAR
A+ Alterar modo de visualização
1
2
B Uma observação contém todos os valores medidos na mesma unidade (como uma pessoa, um
dia ou uma corrida). 
C Os valores são organizados de três formas, sendo que todo valor pertence a uma variável, a um
atributo e a uma observação. 
D Uma variável contém todos os valores que medem o mesmo atributo subjacente (como altura,
temperatura, duração) nas unidades. 
Dados organizados, ou seja, estruturados, proveem uma forma padronizada de vincular a 
estrutura de dados, isto é, seu layout físico, com sua semântica, ou seja, com seu significado. Ao 
termos um conjunto de dados organizados, conseguimos facilmente manipular, modelar e visualizar, 
possuindo uma estrutura específica. Portanto, é essencial compreendermos estrutura e a sua 
semântica. Analise as questões referentes à estrutura de dados e assinale a alternativa CORRETA:
A A estrutura dos dados se refere aos caracteres apresentados.
B A estrutura dos dados diz respeito aos números que apresentamos.
C A estrutura dos dados está relacionada com a coleção de seus valores.
D Os dados podem ser estruturados de diferentes formas, ou seja, os dados apresentados são os
mesmos, contudo o layout é diferente.
Transformações de dados objetivam melhorar a utilidade de uma característica adicionando, 
modificando ou eliminando informações, bem como cada tipo de característica possui um 
detalhamento específico, favorecendo ou desfavorecendo a extração de valor. A etapa de 
transformação de dados envolve também a consolidação em formatos adequados para que a 
mineração possa ser realizada. Smooting, Agregação, Generalização, Normalização e Construção de 
atributos dizem respeito à transformação de dados. 
Referente a Smooting, Agregação e Generalização, assinale a alternativa INCORRETA: 
A Generalização dos dados é a etapa que possibilita transformar os dados primitivos (como linhas
de tabelas) em hierarquias de mais alto nível. 
B Agregação aplica operações de sumarização e agregação nos dados. 
C Smooting remove os dados corrompidos (noisy data), usando técnicas de binning, agrupamento
e regressão. 
3
4
D Generalização é tipicamente utilizada para geração de dados no formato multidimensional em
dados com alta granularidade (muitos detalhes). 
Transformações de dados objetivam melhorar a utilidade de uma característica adicionando, 
modificando ou eliminando informações, bem como cada tipo de característica possui um 
detalhamento específico, favorecendo ou desfavorecendo a extração de valor. A etapa de 
transformação de dados envolve também a consolidação em formatos adequados para que a 
mineração possa ser realizada. Smooting, Agregação, Generalização, Normalização e Construção de 
atributos dizem respeito à transformação de dados. Referente à Normalização e Construção de 
atributos, classifique V para as sentenças verdadeiras e F para as falsas: 
( ) Um exemplo de construção de atributos é estipular um intervalo tal como entre –1.0 a 2.0. 
( ) A normalização dos dados possibilita atribuir uma nova escala a um atributo de maneira que os 
valores desse atributo possam cair na nova escala em um intervalo especificado. 
( ) Um exemplo da normalização de dados é por exemplo estipular um intervalo tal como entre –1.0 
a 1.0 ou de 0.0 a 1.0 etc. 
( ) Na construção de atributos novos atributos podem ser construídos a partir dos atributos 
existentes, no sentido de apoiar o processo de análise. 
Assinale a alternativa que apresenta a sequência CORRETA:
A V - V - V - F. 
B V - F - V - V. 
C F - V - V - V. 
D V - V - F - V.
A abordagem por boxplot utiliza gráfico e, dessa forma, o entendimento é mais direto, enquanto a 
abordagem de identificação por Z-Score é mais matemática. Ao se falar em Z-Score, estamos nos 
5
6
referindo a um número de vezes que um determinado valor se distancia das outras amostras com 
relação ao desvio padrão e a média do atributo. Com relação à identificação de outliers por meio do 
Z-Score, analise as sentenças a seguir: 
I- A identificação de outliers por meio do Z-Score consiste em centralizar os dados em torno da média 
0 e desvio padrão 1, e a partir dos novos dados, identificar aqueles que estão muito distantes de 0. 
II- A identificação de outliers por meio do Z-Score consiste em realizar a clusterização, 
randomicamente, k pontos de dados (dados numéricos) como sendo os centroides (elementos centrais) 
dos clusters. 
III- A identificação de outliers por meio do Z-Score consiste em identificar os outliers por meio da 
inspeção visual utilizando gráficos do tipo boxplot. 
IV- A identificação de outliers por meio do Z-Score consiste em encontrar a melhor linha de 
ajustamento para duas variáveis, desde que uma possa ser estimada (predita) pela outra. 
Assinale a alternativa CORRETA:
A As sentenças III e IV estão corretas.
B As sentenças I e IV estão corretas.
C As sentenças II e III estão corretas.
D Somente a sentença I está correta.
Valores com informações ausentes surgem em quase todas as análises estatísticas sérias. 
Primeiramente, para podermos lidar com valores ausentes, é importante sabermos o motivo deles 
estarem ausentes. Referente a como a linguagem R trata essas questões, classifique V para as 
sentenças verdadeiras e F para as falsas:
( ) Os valores ausentes são indicados pelos zeros e Nas.
( ) Os valores ausentes são indicados pelo Null.
( ) Os valores ausentes são indicados pelos Nas e Null.
( ) Os valores ausentes são indicados pelos Nas.
Assinale a alternativa que apresenta a sequência CORRETA:
A F - V - V - V.
B V - F - V - V.
C
7
F - F - V - F.
D F - F - F - V.
A discretização também é denominada de mapeamento em intervalos. Ela é baseada em transformar 
valores numéricos em faixas de valores, categorias, classes ou valores ordinais. De acordo 
com Goldschmidt e Passos (2005, p. 41), “[...] a representação em intervalospode ser obtida a partir 
de métodos que dividam o domínio de uma variável numérica em intervalos”. Esses autores ainda 
colocam que “alguns autores consideram o processo de Discretização como pertencente ao conjunto 
de operações voltadas à redução de valores das variáveis (Redução de Valores 
Contínuos)”. Entretanto, existem diversos desafios referentes à discretização. Com relação aos 
desafios da discretização, analise as sentenças a seguir: 
I- A representação das categorias também é vista como um desafio, devido a algumas delas poderem 
não ser representativas. 
II- Um desafio é transformar valores numéricos em atributos categóricos, implicando a perda de 
informação. 
III- A discretização envolve cuidado, pois ela deve ser utilizada com a menor perda de informação. 
IV- A solução para representação das categorias é definir a raiz quadrada do número de instâncias 
como o valor inicial (ou ponto de partida) do número de faixas de valores da discretização. 
Assinale a alternativa CORRETA:
FONTE: GOLDSCHMIDT, R.; PASSOS, E. Data Mining: um guia prático. Rio de Janeiro: Elsevier, 
2005. 
A Somente a sentença IV está correta.
B As sentenças I, II, III e IV estão corretas.
C Somente a sentença II está correta.
D Somente a sentença III está correta.
8
O método de redução de valores nominais pode ser utilizado apenas em variáveis nominais, enquanto 
o método de redução de valores contínuos (ou discretos) pode ser aplicado somente em variáveis 
contínuas ou discretas. Cabe destacar que uma variável nominal tem um número finito, possivelmente 
grande, de diferentes valores, e esses valores não possuem ordenação. Já uma variável contínua ou 
discreta tem um relacionamento de ordenação entre os seus valores. Com relação aos métodos de 
redução de valores do tipo nominal, analise as sentenças a seguir: 
I- Na identificação de hierarquia entre atributos, os dados de entrada são normalizados de maneira que 
os valores de todos os atributos fazem parte de diferentes faixas de valores. 
II- Os dois métodos do tipo nominal são identificação de hierarquia entre atributos e a identificação 
de hierarquia entre valores. 
III- Na identificação de hierarquia entre valores, os c vetores ortonormais computados pela análise de 
componentes principais são unitários, norma igual a 1, cujo rumo é perpendicular referente aos 
demais. 
IV- Os vetores da identificação de hierarquia entre valores são chamados componentes principais, 
sendo que os dados de entrada conseguem representar a combinação linear dos componentes 
principais. 
Assinale a alternativa CORRETA:
A As sentenças I, II e IV estão corretas.
B As sentenças I, II e III estão corretas.
C As sentenças I e III estão corretas.
D As sentenças II, III e IV estão corretas.
A função de limpeza de inconsistências compreende identificar e eliminar valores inconsistentes 
em conjuntos de dados. Uma inconsistência pode estar relacionada a um único registro (tupla) ou se 
referir a um conjunto de registros. A inconsistência em apenas uma tupla acontece quando os valores 
dessa tupla forem divergentes. Também podem existir inconsistências causadas por integrações de 
dados, em que um atributo pode ter nomes distintos em seus bancos de dados. Consequentemente, 
9
Revisar Conteúdo do Livro
10
podem existir dados redundantes. Nesse sentido, existem alguns métodos para tratar os valores 
inconsistentes. Referente ao método de correção de erros para tratar os valores inconsistentes, 
classifique V para as sentenças verdadeiras e F para as falsas:
( ) Esse método é muito rápido.
( ) Esse método consome muito tempo.
( ) Esse método consiste em substituir valores errôneos ou inconsistentes identificados no conjunto 
de dados.
( ) Esse método pode envolver desde a correção manual até a atualização desses valores em um lote 
predeterminado de registros, usando comandos de atualização de dados em ambientes relacionais.
Assinale a alternativa que apresenta a sequência CORRETA:
A V - F - V - V.
B F - V - V - V.
C F - F - V - F.
D F - F - F - V.
Imprimir

Continue navegando