Buscar

prova final objetiva Preparação e Análise Exploratória de Dados

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Acadêmico:
Disciplina: Preparação e Análise Exploratória de Dados ()
Avaliação: Avaliação Final (Objetiva) - Individual Semipresencial ( Cod.:) ( peso.:3,00)
Prova:
Nota da Prova: 10,00
Legenda: Resposta Certa   Sua Resposta Errada   Questão Cancelada
1. O uso das técnicas de análise exploratória de dados objetiva procurar os dados para a estrutura ou a falta dela. Algumas das técnicas são o uso de
sumário de cinco números, exibição de caule e folhas, exibição de scatterplot matrix, exibição por outliers, entre outras técnicas. Referente às tabel
classifique V para as sentenças verdadeiras e F para as falsas:
(    ) Uma tabela é o objeto mais complexo da EDA.
(    ) Uma tabela consiste nos quartis maior, menor, mediano e superior e inferior.
(    ) Uma tabela é o objeto mais simples da EDA.
(    ) A tabela serve simplesmente para organizar os dados de uma maneira conveniente.
Assinale a alternativa que apresenta a sequência CORRETA:
 a) V - F - V - V.
 b) F - F - V - F.
 c) F - V - F - V.
 d) F - F - V - V.
2. Algumas vezes, exibir somente as informações condensadas de um conjunto de dados é mais adequado do que mostrar todas as informações em
tabela. Nesse caso, devemos usar uma exibição de caule e folhas. Referente à exibição de caule e folhas, classifique V para as sentenças verdadeir
para as falsas:
(    ) A exibição de caule e folhas é o objeto mais simples da EDA.
(    ) A exibição de caule e folhas serve simplesmente para organizar os dados de uma maneira conveniente.
(    ) As folhas são números em uma haste.
(    ) A haste é uma linha com um valor.
Assinale a alternativa que apresenta a sequência CORRETA:
 a) V - F - V - V.
 b) F - F - V - F.
 c) F - F - V - V.
 d) F - V - F - V.
3. Os atributos contínuos são aqueles que assumem valores com casas decimais e que admitem que entre dois números há uma infinidade de núme
quebrados. Podemos exemplificar com o valor de Pi (3,1415), que fica entre 3,0 e 4,0. Pense em dados contínuos como dados que continuam
indefinidamente. Esses dados podem ser divididos em unidades cada vez menores. Referente aos dados do tipo contínuo, classifique V para as sen
verdadeiras e F para as falsas:
(    ) Os dados contínuos podem ser categorizados em dois tipos de escalas de medição: intervalo e proporção. 
(    ) Uma variável, ou atributo, é contínua se puder receber algum valor em um determinado intervalo.
(    ) Exemplos de variáveis contínuas são pesos e alturas de pássaros, temperatura de um dia etc.
Assinale a alternativa que apresenta a sequência CORRETA:
 a) V - V - V.
 b) F - V - V.
 c) F - V - F.
 d) F - F - V.
4. Existe uma técnica da análise exploratória de dados que é uma maneira conveniente de estudar a dispersão dos dados bivariados. Na sua construç
necessária uma mediana bivariada, análoga dos quartis e whiskers. Que técnica é essa?
 a) Exibição por Outliers.
 b) Residual Plots.
 c) Exibição Scatterplot Matrix.
 d) Bag Plots.
Os valores do conjunto de dados precisam ser trabalhados para que estejam limpos. A boa estruturação dos dados facilita as análises. Frequentem
dados não são fornecidos em um formato tão organizado. Com relação aos cinco principais problemas encontrados em conjunto de dados, de aco
Wickham (2014), analise as sentenças a seguir:
I- Múltiplas variáveis são armazenadas em uma coluna.
II- Cabeçalhos de coluna são valores, ou seja, são nomes de variáveis.
III- Múltiplos tipos de observação são armazenados na mesma tabela.
IV- As variáveis são armazenadas somente em linhas.
V- Um único tipo de observação é armazenado em várias tabelas.
Assinale a alternativa CORRETA:
FONTE: WICKHAM, H. Tidy data. Journal of Statistical Software, v. 59, n. 10, p. 1-23, 2014.
 a) As sentenças II e III estão corretas.

 b) Somente a sentença IV está correta.
 c) As sentenças II, IV e V estão corretas.
 d) As sentenças I e III estão corretas.
 * Observação: A questão número 5 foi Cancelada.
6. A reexpression se refere a ter uma expressão de mesma informação por números diferentes. Podemos exemplificar usando logit = log (p/(1-p)) ao 
proporção p. Com relação à reexpression, analise as sentenças a seguir: 
I- Ela pode ser utilizada para se trabalhar com tabelas bidirecionais. 
II- O objetivo pode ser substituir a dispersão de pontos por uma smooth curve. 
III- O objetivo pode ser tanto a aditividade quanto obter retidão ou simetria ou ainda tornar a variabilidade mais uniforme. 
Assinale a alternativa CORRETA:
 a) Somente a sentença I está correta.
 b) As sentenças II e III estão corretas.
 c) As sentenças I e III estão corretas.
 d) As sentenças I e II estão corretas.
7. A organização SGB elencou alguns números para termos uma ideia melhor do volume de dados. "O volume de dados criado nos últimos anos é ma
a quantidade produzida em toda a história." (SGB, 2019, s.p.). O estimado para o ano 2020 é que "[...] existirão cerca de 50 bilhões de dispositivos c
desenvolvidos para a coleta, análise e compartilhamento de dados. A produção de dados dobra a cada dois anos e a previsão é de que em 2020 se
gerados 350 zettabytes de dados ou 35 trilhões de gigabytes; a rede social Facebook gera mais de 500 terabytes de dados diariamente. O volume d
no Brasil pode chegar a 1,6 bilhão de gigabytes em 2020" (SGB, 2019, s.p.). Nesse sentido, qual é o tamanho de um ZB?
FONTE: SGB. O que você precisa entender sobre dados para se tornar uma organização Data Driven. 2019. Disponível em:
http://socialgoodbrasil.org.br/2019/05/15/entenda-tudo-sobre-dados-para-se-tornar-uma-organizacao-data-driven/. Acesso em: 11 set. 2020.
 a) Equivale a um trilhão de bytes.
 b) Equivale a um trilhão de gigabytes.
 c) Equivale a um trilhão de bits.
 d) Equivale a um trilhão de megabytes.
8. Em um conjunto de dados, a organização dos dados deve ser um objetivo geral em função de facilitar nossa análise posterior. As propriedades dos
organizados são as mesmas que a terceira forma normal de Codd, só que voltadas à linguagem estatística, e o foco está em um único conjunto de
Com relação às principais propriedades dos dados organizados, analise as sentenças a seguir:
I- Cada valor pertence a uma variável e a uma observação (instância).
II- Cada variável contém todos os valores de uma determinada propriedade medidos em todas as observações.
III- Cada observação contém todos os valores das variáveis medidas para o respectivo caso.
Assinale a alternativa CORRETA:
 a) Somente a sentença II está correta.
 b) Somente a sentença III está correta.
 c) Somente a sentença I está correta.
 d) As sentenças I, II e III estão corretas.
9. A função de limpeza de inconsistências compreende identificar e eliminar valores inconsistentes em conjuntos de dados. Uma inconsistência pode
relacionada a um único registro (tupla) ou se referir a um conjunto de registros. A inconsistência em apenas uma tupla acontece quando os valores
tupla forem divergentes. Também podem existir inconsistências causadas por integrações de dados, em que um atributo pode ter nomes distintos 
bancos de dados. Consequentemente, podem existir dados redundantes. Nesse sentido, existem alguns métodos para tratar os valores inconsisten
Referente ao método de correção de erros para tratar os valores inconsistentes, classifique V para as sentenças verdadeiras e F para as falsas:
(    ) Esse método é muito rápido.
(    ) Esse método consome muito tempo.
(    ) Esse método consiste em substituir valores errôneos ou inconsistentes identificados no conjunto de dados.
(    ) Esse método pode envolver desde a correção manual até a atualização desses valores em um lote predeterminado de registros, usando coman
atualização de dados em ambientes relacionais.
Assinale a alternativa que apresenta a sequência CORRETA:
 a) F - V - V - V.
 b) F - F - F - V.
 c) F - F - V - F.
 d) V - F - V - V.
10.Ao buscar uma solução de um determinado problema, os profissionais envolvidos fazem a identificação dos dados relacionados com ele. Esses da
podem ser internos e externos. Cabe destacar que essa identificação inicial será o pontode partida para fazer a coleta dos dados e a integração em
conjunto de dados que será utilizado no projeto. Com relação aos tipos de dados identificados e suas fontes, analise as sentenças a seguir:
I- Os dados estruturados são oriundos de bancos de dados relacionais da organização.
II- Os dados não estruturados e semiestruturados podem ser provenientes das mais diversas fontes, como de arquivos de texto, imagem, áudio, víd
planilhas, além de pesquisas realizadas de mercado.
III- As redes sociais e bases externas abertas não são relevantes no contexto da questão.
Assinale a alternativa CORRETA:
 a) As sentenças I e III estão corretas.
 b) As sentenças II e III estão corretas.
 c) As sentenças I e II estão corretas.
 d) Somente a sentença I está correta.
Prova finalizada com 10 acertos e 0 questões erradas.

Outros materiais