Buscar

Tratamento de Valores Faltantes

Prévia do material em texto

1. 
Encontrar valores faltantes é um dos problemas mais comuns em bancos de dados.
Quanto a esses valores faltantes, é verdade que:
C. 
podem ter diferentes causas, humanas e por equipamentos. 
Valores faltantes são aqueles que não foram coletados ou preenchidos no processo de alimentação do banco de dados. Podem ser causados por erros no equipamento, erros de preenchimento ou omissão proposital de dados. Podem ocorrer em todos os tipos de variáveis e interferem negativamente na análise de dados, devendo ser sempre tratados.
2. 
Os valores ausentes podem ocorrer de forma aleatória (MAR), completamente aleatória (MCAR) ou não aleatória (MNAR).
Quanto a esses tipos, assinale a alternativa correta.
D. 
O tipo não aleatório é aquele que depende de um valor hipotético ou de outra variável.
O tipo de dado aleatório (MAR) é aquele resultante da observação dos dados. O tipo completamente aleatório (MCAR), como o nome já diz, não é previsto em nenhum sentido, como a quebra de um tubo de amostra de sangue. O tipo não aleatório (MNAR) é aquele que depende de um valor hipotético ou de outra variável. Quando os dados faltantes são MCAR, o dano estatístico é mínimo e não cria um grande viés nos dados na maioria dos casos. Quando as faltas são MAR ou MCAR, pode ser aceitável remover os valores faltantes, a depender do quanto representem do número total. Para os MNAR, por outro lado, essa prática é contraindicada, pelo potencial de criar um grande viés.
3. 
É importante buscar formas eficientes de identificar dados faltantes.
Quanto a essa identificação, é verdade que:
D. 
é importante conhecer e explorar o banco de dados.
A identificação pode ser iniciada buscando-se valores ausentes, mas deve-se sempre investigar o tipo de dado presente nas variáveis para identificar inconsistências que eventualmente simbolizem valores ausentes, sendo por isso importante saber o que se espera do preenchimento de cada variável. A verificação de valores vazios deve ser realizada em todas as variáveis que serão utilizadas para a análise, sejam numéricas ou não, e em ambos os casos é importante conhecer e explorar o banco para identificar se os valores faltantes estão representados por outras coisas, como siglas, símbolos e números discrepantes, além das células vazias. 
4. 
A remoção de valores faltantes é o tipo de tratamento mais simples que pode ser feito.
Quanto aos comandos do Pandas para realizá-la, é verdade que:
C. 
drop() pode ser utilizada para remover uma coluna em específico.
A função dropna() realiza a remoção de casos completos, removendo qualquer linha que apresente pelo menos um valor faltante.
A função fillna(), por outro lado, é uma função de imputação de dados.
A função drop() pode ser utilizada para remover uma coluna em específico, de acordo com seu nome.
Já funções como describe() removem pontualmente os valores faltantes para cada coluna, em vez de removerem a linha inteira. 
5. 
Existem diferentes métodos de imputação de valores faltantes.
Quanto a esses métodos, é verdade que:
C. 
a imputação pode ser realizada com o valor anterior ou seguinte.
A imputação pode ser realizada com o valor anterior ou posterior à célula vazia. A imputação por média, mediana ou moda é o método mais fácil, mas apresenta muitas desvantagens relacionadas à redução da variação dos dados. Imputar por observações relacionadas nem sempre é possível, pois nem todos os bancos têm esse tipo de variável e, assim como na regressão linear, só é possível quando há uma correlação direta entre a variável com valores faltantes e a variável utilizada como referência. Utilizar valores preditivos pode oferecer excelentes resultados, mais próximos aos reais do que os outros métodos, mas demanda um conhecimento um pouco mais avançado.

Continue navegando