Buscar

Preparação de Dados em Ciência de Dados

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 8 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Questão 1 
 
Na etapa de preparação de dados a serem submetidos ao processo de mineração de 
dados, uma importante tarefa consiste no processo de normalização dos dados 
numéricos, que está dentro do contexto da análise exploratória e do pré-
processamento dos dados. Com isso, leva-se o conjunto de dados a uma mesma 
escala, evitando distorções na execução dos algoritmos de aprendizado de máquina 
utilizados na descoberta de conhecimento de dados, afetando a análise dos 
resultados. 
A respeito da análise exploratória e o descarte dos dados, é possível afirmar: 
 
1. 
A união de bases de dados similares, para tentar melhorar a análise dos dados, é uma 
tarefa comum em ciência de dados. 
Dado que uma base de dados A contém dados íntegros, com grande confiabilidade e 
com campos similares aos de uma base de dados B, ambas as bases poderiam ser 
usadas para analisar um conjunto de dados. No entanto, na base B, verifica-se que 
65% de seu total de campos está nulo, e muitos dados contêm erros relacionados ao 
formato. Qual seria uma boa estratégia a ser adotada dentro dos processos de ciência 
de dados? 
Resposta incorreta. 
A. 
Devem-se descartar as duas bases, justamente por não ser possível realizar a integração. 
A base A contém dados confiáveis, e, apesar de a base B ter colunas correlatas às da base 
A, não é possível realizar a integração devido à quantidade de campos nulos e de dados 
coletados de forma errada. Assim, mantém-se somente a base A como objeto de estudo e 
descarta-se a B. 
 
Resposta incorreta. 
B. 
Mantém-se a segunda base somente, pois, como ela contém erros, de fato, será o objeto de 
estudo. 
A base A contém dados confiáveis, e, apesar de a base B ter colunas correlatas às da base 
A, não é possível realizar a integração devido à quantidade de campos nulos e de dados 
coletados de forma errada. Assim, mantém-se somente a base A como objeto de estudo e 
descarta-se a B. 
 
Você acertou! 
C. 
A base A será mantida, pois contém dados confiáveis, e a base B será descartada. 
A base A contém dados confiáveis, e, apesar de a base B ter colunas correlatas às da base 
A, não é possível realizar a integração devido à quantidade de campos nulos e de dados 
coletados de forma errada. Assim, mantém-se somente a base A como objeto de estudo e 
descarta-se a B. 
 
Resposta incorreta. 
D. 
É possível integrar as duas bases, mesmo com alguns erros na base B. 
A base A contém dados confiáveis, e, apesar de a base B ter colunas correlatas às da base 
A, não é possível realizar a integração devido à quantidade de campos nulos e de dados 
coletados de forma errada. Assim, mantém-se somente a base A como objeto de estudo e 
descarta-se a B. 
 
Resposta incorreta. 
E. 
A base B tem colunas correlatas à base A; portanto, deve-se realizar a integração. 
A base A contém dados confiáveis, e, apesar de a base B ter colunas correlatas às da base 
A, não é possível realizar a integração devido à quantidade de campos nulos e de dados 
coletados de forma errada. Assim, mantém-se somente a base A como objeto de estudo e 
descarta-se a B. 
 
2. 
Em ciência de dados, o contexto do armazenamento dos dados tem seus pormenores 
para que tenhamos a devida segurança e fácil recuperação. 
Um hospital armazena os dados de seus pacientes a fim de que possa ter mais 
segurança e, também, realizar o devido tratamento. Especificamente na área de 
dermatologia, há uma pequena amostra de dados armazenados: 
 
 
Eles foram realizados por um dermatologista de renome; assim, há alta taxa de 
confiabilidade e qualidade nos dados. No entanto, ele armazenou os dados dentro de 
seu smartphone em bloco de anotação digital, ao qual somente ele tem acesso. A 
partir do problema, o que se pode inferir a respeito do armazenamento, da 
recuperação, da qualidade e da privacidade? 
Resposta incorreta. 
A. 
O médico armazenou de forma a dificultar a recuperação dos dados por outros; no entanto, 
não há privacidade. 
O médico armazenou os dados em um dispositivo de baixa confiabilidade, pois 
um smartphone pode queimar, e ele perderia seus dados. É claro que, como somente ele 
tem o acesso, foi mantida a privacidade. E, como é relatado que é um médico de renome, 
seus dados coletados são confiáveis e de qualidade. A recuperação dos dados é difícil, uma 
vez que estão apenas em blocos de anotação, e não disponíveis em um sistema. 
 
Resposta incorreta. 
B. 
Ele armazenou em um formato correto e com alta confiabilidade, de modo que não ocorra 
perda dos dados. 
O médico armazenou os dados em um dispositivo de baixa confiabilidade, pois 
um smartphone pode queimar, e ele perderia seus dados. É claro que, como somente ele 
tem o acesso, foi mantida a privacidade. E, como é relatado que é um médico de renome, 
seus dados coletados são confiáveis e de qualidade. A recuperação dos dados é difícil, uma 
vez que estão apenas em blocos de anotação, e não disponíveis em um sistema. 
 
Você acertou! 
C. 
A coleta tem qualidade e confiabilidade, e, de fato, o armazenamento foi feito de forma 
errada, já que dificulta a recuperação, com possibilidades de perda. 
O médico armazenou os dados em um dispositivo de baixa confiabilidade, pois 
um smartphone pode queimar, e ele perderia seus dados. É claro que, como somente ele 
tem o acesso, foi mantida a privacidade. E, como é relatado que é um médico de renome, 
seus dados coletados são confiáveis e de qualidade. A recuperação dos dados é difícil, uma 
vez que estão apenas em blocos de anotação, e não disponíveis em um sistema. 
 
Resposta incorreta. 
D. 
A privacidade é mantida por ser um acesso único, e a recuperação é fácil. Já a qualidade 
dos dados é baixa e com pouca confiabilidade. 
O médico armazenou os dados em um dispositivo de baixa confiabilidade, pois 
um smartphone pode queimar, e ele perderia seus dados. É claro que, como somente ele 
tem o acesso, foi mantida a privacidade. E, como é relatado que é um médico de renome, 
seus dados coletados são confiáveis e de qualidade. A recuperação dos dados é difícil, uma 
vez que estão apenas em blocos de anotação, e não disponíveis em um sistema. 
 
Resposta incorreta. 
E. 
Ao priorizar a privacidade, o médico afetou a confiabilidade dos dados; portanto, eles devem 
ser descartados. 
O médico armazenou os dados em um dispositivo de baixa confiabilidade, pois 
um smartphone pode queimar, e ele perderia seus dados. É claro que, como somente ele 
tem o acesso, foi mantida a privacidade. E, como é relatado que é um médico de renome, 
seus dados coletados são confiáveis e de qualidade. A recuperação dos dados é difícil, uma 
vez que estão apenas em blocos de anotação, e não disponíveis em um sistema. 
 
3. 
A partir da Lei Geral de Proteção de Dados (LGPD), as instituições devem ter o devido 
cuidado nos processos de ciência de dados, a fim de garantir a eficiência necessária 
com o cumprimento das normas. 
Um sistema, alocado na Internet, solicita ao usuário dados pessoais e os 
armazena em uma base de dados relacional confiável, à qual somente a própria 
empresa tem acesso, utilizando-a para o fim de marketing. De acordo com a Lei Geral 
da Proteção de Dados e as fases de coleta e descarte do processo de ciência de 
dados, pode-se afirmar que: 
Você acertou! 
A. 
o usuário pode solicitar a qualquer momento uma cópia dos dados, bem como compreender 
para que fim estão sendo utilizados. 
Uma empresa pode coletar ou descartar os dados, sempre com o consentimento do usuário, 
de acordo com a LGPD. Assim, o usuário pode solicitar a qualquer momento qualquer uma 
das duas ações. A finalidade para a qual os dados são utilizados sempre deve ser 
informada ao usuário. 
 
4. 
Em ciência de dados, a preservação dos dados tem, em sua essência, o objetivo de 
contribuir para que o dado coletado tenha suas informações originais e fidedignas, 
sem perda de informações quando de sua recuperação. 
No processo de identificação de pragas, um agrônomo pode colher, em campo, 
diversasfotografias em alta qualidade de cada uma delas e catalogá-las em seu 
sistema com o intuito de organizar uma base necessária para os seus estudos. No 
entanto, ao realizar os processos para a identificação, percebe que o horário e a 
qualidade das fotografias têm um papel importante para a catalogação. No que se 
refere aos fatores que permeiam as fases da ciência de dados, o que se 
pode compreender nesse contexto? 
Resposta incorreta. 
A. 
A parte dos direitos autoriais foi violada, já que realizou fotografias de diversas pragas sem 
a autorização devida. 
Os metadados, que são informações sobre os dados das fotografias, também têm sua 
importância, como pôde ser evidenciado nesse caso, e fazem parte da preservação dos 
dados. Os direitos autorais não foram violados, uma vez que não existe tal autorização para 
o reino animal em questão. A priori, a viralidade não aconteceria, em virtude de as imagens 
não terem significado para o público, mas para um contexto específico de pesquisa. As 
fotografias foram colhidas em alta qualidade, e é necessário o seu armazenamento para os 
estudos atuais e futuros. 
 
Resposta incorreta. 
B. 
Devido à qualidade baixa dos dados, não é possível prosseguir com os estudos. 
Os metadados, que são informações sobre os dados das fotografias, também têm sua 
importância, como pôde ser evidenciado nesse caso, e fazem parte da preservação dos 
dados. Os direitos autorais não foram violados, uma vez que não existe tal autorização para 
o reino animal em questão. A priori, a viralidade não aconteceria, em virtude de as imagens 
não terem significado para o público, mas para um contexto específico de pesquisa. As 
fotografias foram colhidas em alta qualidade, e é necessário o seu armazenamento para os 
estudos atuais e futuros. 
 
Resposta incorreta. 
C. 
Estas seriam fotografias que se disseminariam facilmente nas redes sociais, pois todos 
compreenderiam seu significado. 
Os metadados, que são informações sobre os dados das fotografias, também têm sua 
importância, como pôde ser evidenciado nesse caso, e fazem parte da preservação dos 
dados. Os direitos autorais não foram violados, uma vez que não existe tal autorização para 
o reino animal em questão. A priori, a viralidade não aconteceria, em virtude de as imagens 
não terem significado para o público, mas para um contexto específico de pesquisa. As 
fotografias foram colhidas em alta qualidade, e é necessário o seu armazenamento para os 
estudos atuais e futuros. 
 
Resposta incorreta. 
D. 
A preservação das fotografias não é necessária, já que, após os estudos, elas serão 
descartadas. 
Os metadados, que são informações sobre os dados das fotografias, também têm sua 
importância, como pôde ser evidenciado nesse caso, e fazem parte da preservação dos 
dados. Os direitos autorais não foram violados, uma vez que não existe tal autorização para 
o reino animal em questão. A priori, a viralidade não aconteceria, em virtude de as imagens 
não terem significado para o público, mas para um contexto específico de pesquisa. As 
fotografias foram colhidas em alta qualidade, e é necessário o seu armazenamento para os 
estudos atuais e futuros. 
 
Você acertou! 
E. 
• Mostra a importância dos metadados, já que o dia e a hora das fotografias, bem como a sua 
qualidade, são dados que poderiam ser obtidos. 
Os metadados, que são informações sobre os dados das fotografias, também têm sua 
importância, como pôde ser evidenciado nesse caso, e fazem parte da preservação dos 
dados. Os direitos autorais não foram violados, uma vez que não existe tal autorização para 
o reino animal em questão. A priori, a viralidade não aconteceria, em virtude de as imagens 
não terem significado para o público, mas para um contexto específico de pesquisa. As 
fotografias foram colhidas em alta qualidade, e é necessário o seu armazenamento para os 
estudos atuais e futuros. 
 
5. 
Na etapa de preparação de dados a serem submetidos ao processo de mineração de 
dados, uma importante tarefa consiste no processo de normalização dos dados 
numéricos, que está dentro do contexto da análise exploratória e do pré-
processamento dos dados. Com isso, leva-se o conjunto de dados a uma mesma 
escala, evitando distorções na execução dos algoritmos de aprendizado de máquina 
utilizados na descoberta de conhecimento de dados, afetando a análise dos 
resultados. 
A respeito da análise exploratória e o descarte dos dados, é possível afirmar: 
Resposta incorreta. 
A. 
Mesmo que a análise exploratória mostre campos nulos, a extração de conhecimento ainda 
pode ser feita com esses campos. 
A primeira parte é a identificação dos dados necessários ao problema, e, assim, é realizada 
a coleta; posteriormente, haverá a normalização e, assim, a mineração dos dados. A análise 
exploratória é parte importante para o conhecimento dos dados; caso se observem campos 
nulos, eles podem ser retirados ou readequados. Se, na pós-coleta, no armazenamento e 
na análise for constatado que há dados que não fazem sentido ao problema ou que não 
podem ser utilizados, seja por erros, seja por privacidade, eles serão descartados. 
 
Você acertou! 
B. 
O descarte é realizado minuciosamente, retirando-se o que não faz sentido ao problema ou 
o que não tem condições de ter conhecimento extraído. 
A primeira parte é a identificação dos dados necessários ao problema, e, assim, é realizada 
a coleta; posteriormente, haverá a normalização e, assim, a mineração dos dados. A análise 
exploratória é parte importante para o conhecimento dos dados; caso se observem campos 
nulos, eles podem ser retirados ou readequados. Se, na pós-coleta, no armazenamento e 
na análise for constatado que há dados que não fazem sentido ao problema ou que não 
podem ser utilizados, seja por erros, seja por privacidade, eles serão descartados. 
 
Resposta incorreta. 
C. 
A mineração de dados é realizada já durante a coleta, a fim de que já se possa 
obter insights dos dados. 
A primeira parte é a identificação dos dados necessários ao problema, e, assim, é realizada 
a coleta; posteriormente, haverá a normalização e, assim, a mineração dos dados. A análise 
exploratória é parte importante para o conhecimento dos dados; caso se observem campos 
nulos, eles podem ser retirados ou readequados. Se, na pós-coleta, no armazenamento e 
na análise for constatado que há dados que não fazem sentido ao problema ou que não 
podem ser utilizados, seja por erros, seja por privacidade, eles serão descartados. 
 
Resposta incorreta. 
D. 
A análise exploratória é um passo que poderia ser ignorado, já que, ao identificar um dado 
na coleta, ele deve fazer parte de solução. 
A primeira parte é a identificação dos dados necessários ao problema, e, assim, é realizada 
a coleta; posteriormente, haverá a normalização e, assim, a mineração dos dados. A análise 
exploratória é parte importante para o conhecimento dos dados; caso se observem campos 
nulos, eles podem ser retirados ou readequados. Se, na pós-coleta, no armazenamento e 
na análise for constatado que há dados que não fazem sentido ao problema ou que não 
podem ser utilizados, seja por erros, seja por privacidade, eles serão descartados. 
 
Resposta incorreta. 
E. 
A normalização dos dados é parte importante anterior à coleta e faz com que a mineração 
dos dados seja mais efetiva. 
A primeira parte é a identificação dos dados necessários ao problema, e, assim, é realizada 
a coleta; posteriormente, haverá a normalização e, assim, a mineração dos dados. A análise 
exploratória é parte importante para o conhecimento dos dados; caso se observem campos 
nulos, eles podem ser retirados ou readequados. Se, na pós-coleta, no armazenamento e 
na análise for constatado que há dados que não fazem sentido ao problema ou que não 
podem ser utilizados, seja por erros, seja por privacidade, eles serão descartados.

Continue navegando