Prévia do material em texto
A Ciclo de vida de um processo de ciência de dados 1. A união de bases de dados similares, para tentar melhorar a análise dos dados, é uma tarefa comum em ciência de dados. Dado que uma base de dados A contém dados íntegros, com grande confiabilidade e com campos similares aos de uma base de dados B, ambas as bases poderiam ser usadas para analisar um conjunto de dados. No entanto, na base B, verifica-se que 65% de seu total de campos está nulo, e muitos dados contêm erros relacionados ao formato. Qual seria uma boa estratégia a ser adotada dentro dos processos de ciência de dados? Resposta incorreta. A. Devem-se descartar as duas bases, justamente por não ser possível realizar a integração. Resposta incorreta. B. Mantém-se a segunda base somente, pois, como ela contém erros, de fato, será o objeto de estudo. Você acertou! C. A base A será mantida, pois contém dados confiáveis, e a base B será descartada. A base A contém dados confiáveis, e, apesar de a base B ter colunas correlatas às da base A, não é possível realizar a integração devido à quantidade de campos nulos e de dados coletados de forma errada. Assim, mantém-se somente a base A como objeto de estudo e descarta-se a B. Resposta incorreta. D. É possível integrar as duas bases, mesmo com alguns erros na base B. Resposta incorreta. E. A base B tem colunas correlatas à base A; portanto, deve-se realizar a integração 2. Em ciência de dados, o contexto do armazenamento dos dados tem seus pormenores para que tenhamos a devida segurança e fácil recuperação. Um hospital armazena os dados de seus pacientes a fim de que possa ter mais segurança e, também, realizar o devido tratamento. Especificamente na área de dermatologia, há uma pequena amostra de dados armazenados: Eles foram realizados por um dermatologista de renome; assim, há alta taxa de confiabilidade e qualidade nos dados. No entanto, ele armazenou os dados dentro de seu smartphone em bloco de anotação digital, ao qual somente ele tem acesso. A partir do problema, o que se pode inferir a respeito do armazenamento, da recuperação, da qualidade e da privacidade? Você não acertou! A. O médico armazenou de forma a dificultar a recuperação dos dados por outros; no entanto, não há privacidade. Resposta incorreta. B. Ele armazenou em um formato correto e com alta confiabilidade, de modo que não ocorra perda dos dados. Resposta correta. C. A coleta tem qualidade e confiabilidade, e, de fato, o armazenamento foi feito de forma errada, já que dificulta a recuperação, com possibilidades de perda. O médico armazenou os dados em um dispositivo de baixa confiabilidade, pois um smartphone pode queimar, e ele perderia seus dados. É claro que, como somente ele tem o acesso, foi mantida a privacidade. E, como é relatado que é um médico de renome, seus dados coletados são confiáveis e de qualidade. A recuperação dos dados é difícil, uma vez que estão apenas em blocos de anotação, e não disponíveis em um sistema. Resposta incorreta. D. A privacidade é mantida por ser um acesso único, e a recuperação é fácil. Já a qualidade dos dados é baixa e com pouca confiabilidade. Resposta incorreta. E. Ao priorizar a privacidade, o médico afetou a confiabilidade dos dados; portanto, eles devem ser descartados. 3. A partir da Lei Geral de Proteção de Dados (LGPD), as instituições devem ter o devido cuidado nos processos de ciência de dados, a fim de garantir a eficiência necessária com o cumprimento das normas. Um sistema, alocado na Internet, solicita ao usuário dados pessoais e os armazena em uma base de dados relacional confiável, à qual somente a própria empresa tem acesso, utilizando-a para o fim de marketing. De acordo com a Lei Geral da Proteção de Dados e as fases de coleta e descarte do processo de ciência de dados, pode-se afirmar que: Você acertou! A. o usuário pode solicitar a qualquer momento uma cópia dos dados, bem como compreender para que fim estão sendo utilizados. Uma empresa pode coletar ou descartar os dados, sempre com o consentimento do usuário, de acordo com a LGPD. Assim, o usuário pode solicitar a qualquer momento qualquer uma das duas ações. A finalidade para a qual os dados são utilizados sempre deve ser informada ao usuário. Resposta incorreta. B. mesmo que o usuário peça o descarte, a empresa não é obrigada a fazê-lo, já que o usuário assinou um contrato digital de consentimento. Resposta incorreta. C. a empresa pode utilizar os dados para o fim necessário, ou seja, mesmo que tenha iniciado com marketing, poderá, posteriormente, realizar a venda dos dados. Resposta incorreta. D. para que seja realizada a coleta de dados, a empresa não precisa que o usuário informe o consentimento, pois pode utilizar-se de outras vias. Resposta incorreta. E. se o usuário pedir o descarte dos dados, a coleta não mais poderá ser realizada em nenhum momento, pois o usuário será excluído permanentemente. 4. Em ciência de dados, a preservação dos dados tem, em sua essência, o objetivo de contribuir para que o dado coletado tenha suas informações originais e fidedignas, sem perda de informações quando de sua recuperação. No processo de identificação de pragas, um agrônomo pode colher, em campo, diversas fotografias em alta qualidade de cada uma delas e catalogá-las em seu sistema com o intuito de organizar uma base necessária para os seus estudos. No entanto, ao realizar os processos para a identificação, percebe que o horário e a qualidade das fotografias têm um papel importante para a catalogação. No que se refere aos fatores que permeiam as fases da ciência de dados, o que se pode compreender nesse contexto? Resposta incorreta. A. A parte dos direitos autoriais foi violada, já que realizou fotografias de diversas pragas sem a autorização devida. Resposta incorreta. B. Devido à qualidade baixa dos dados, não é possível prosseguir com os estudos. Resposta incorreta. C. Estas seriam fotografias que se disseminariam facilmente nas redes sociais, pois todos compreenderiam seu significado. Resposta incorreta. D. A preservação das fotografias não é necessária, já que, após os estudos, elas serão descartadas. Você acertou! E. Mostra a importância dos metadados, já que o dia e a hora das fotografias, bem como a sua qualidade, são dados que poderiam ser obtidos. Os metadados, que são informações sobre os dados das fotografias, também têm sua importância, como pôde ser evidenciado nesse caso, e fazem parte da preservação dos dados. Os direitos autorais não foram violados, uma vez que não existe tal autorização para o reino animal em questão. A priori, a viralidade não aconteceria, em virtude de as imagens não terem significado para o público, mas para um contexto específico de pesquisa. As fotografias foram colhidas em alta qualidade, e é necessário o seu armazenamento para os estudos atuais e futuros. 5. Na etapa de preparação de dados a serem submetidos ao processo de mineração de dados, uma importante tarefa consiste no processo de normalização dos dados numéricos, que está dentro do contexto da análise exploratória e do pré-processamento dos dados. Com isso, leva-se o conjunto de dados a uma mesma escala, evitando distorções na execução dos algoritmos de aprendizado de máquina utilizados na descoberta de conhecimento de dados, afetando a análise dos resultados. A respeito da análise exploratória e o descarte dos dados, é possível afirmar: Resposta incorreta. A. Mesmo que a análise exploratória mostre campos nulos, a extração de conhecimento ainda pode ser feita com esses campos. Resposta correta. B. descarte é realizado minuciosamente, retirando-se o que não faz sentido ao problema ou o que não tem condições de ter conhecimento extraído. A primeira parte é a identificação dos dados necessários ao problema, e, assim, é realizada a coleta; posteriormente, haverá a normalização e, assim, a mineração dos dados. A análise exploratória é parte importante para o conhecimento dos dados; caso se observem campos nulos, eles podem ser retirados ou readequados.Se, na pós-coleta, no armazenamento e na análise for constatado que há dados que não fazem sentido ao problema ou que não podem ser utilizados, seja por erros, seja por privacidade, eles serão descartados. Resposta incorreta. C. A mineração de dados é realizada já durante a coleta, a fim de que já se possa obter insights dos dados. Resposta incorreta. D. A análise exploratória é um passo que poderia ser ignorado, já que, ao identificar um dado na coleta, ele deve fazer parte de solução. Você não acertou! E. A normalização dos dados é parte importante anterior à coleta e faz com que a mineração dos dados seja mais efetiva.