Baixe o app para aproveitar ainda mais
Prévia do material em texto
Questão 1 Na etapa de preparação de dados a serem submetidos ao processo de mineração de dados, uma importante tarefa consiste no processo de normalização dos dados numéricos, que está dentro do contexto da análise exploratória e do pré- processamento dos dados. Com isso, leva-se o conjunto de dados a uma mesma escala, evitando distorções na execução dos algoritmos de aprendizado de máquina utilizados na descoberta de conhecimento de dados, afetando a análise dos resultados. A respeito da análise exploratória e o descarte dos dados, é possível afirmar: 1. A união de bases de dados similares, para tentar melhorar a análise dos dados, é uma tarefa comum em ciência de dados. Dado que uma base de dados A contém dados íntegros, com grande confiabilidade e com campos similares aos de uma base de dados B, ambas as bases poderiam ser usadas para analisar um conjunto de dados. No entanto, na base B, verifica-se que 65% de seu total de campos está nulo, e muitos dados contêm erros relacionados ao formato. Qual seria uma boa estratégia a ser adotada dentro dos processos de ciência de dados? Resposta incorreta. A. Devem-se descartar as duas bases, justamente por não ser possível realizar a integração. A base A contém dados confiáveis, e, apesar de a base B ter colunas correlatas às da base A, não é possível realizar a integração devido à quantidade de campos nulos e de dados coletados de forma errada. Assim, mantém-se somente a base A como objeto de estudo e descarta-se a B. Resposta incorreta. B. Mantém-se a segunda base somente, pois, como ela contém erros, de fato, será o objeto de estudo. A base A contém dados confiáveis, e, apesar de a base B ter colunas correlatas às da base A, não é possível realizar a integração devido à quantidade de campos nulos e de dados coletados de forma errada. Assim, mantém-se somente a base A como objeto de estudo e descarta-se a B. Você acertou! C. A base A será mantida, pois contém dados confiáveis, e a base B será descartada. A base A contém dados confiáveis, e, apesar de a base B ter colunas correlatas às da base A, não é possível realizar a integração devido à quantidade de campos nulos e de dados coletados de forma errada. Assim, mantém-se somente a base A como objeto de estudo e descarta-se a B. Resposta incorreta. D. É possível integrar as duas bases, mesmo com alguns erros na base B. A base A contém dados confiáveis, e, apesar de a base B ter colunas correlatas às da base A, não é possível realizar a integração devido à quantidade de campos nulos e de dados coletados de forma errada. Assim, mantém-se somente a base A como objeto de estudo e descarta-se a B. Resposta incorreta. E. A base B tem colunas correlatas à base A; portanto, deve-se realizar a integração. A base A contém dados confiáveis, e, apesar de a base B ter colunas correlatas às da base A, não é possível realizar a integração devido à quantidade de campos nulos e de dados coletados de forma errada. Assim, mantém-se somente a base A como objeto de estudo e descarta-se a B. 2. Em ciência de dados, o contexto do armazenamento dos dados tem seus pormenores para que tenhamos a devida segurança e fácil recuperação. Um hospital armazena os dados de seus pacientes a fim de que possa ter mais segurança e, também, realizar o devido tratamento. Especificamente na área de dermatologia, há uma pequena amostra de dados armazenados: Eles foram realizados por um dermatologista de renome; assim, há alta taxa de confiabilidade e qualidade nos dados. No entanto, ele armazenou os dados dentro de seu smartphone em bloco de anotação digital, ao qual somente ele tem acesso. A partir do problema, o que se pode inferir a respeito do armazenamento, da recuperação, da qualidade e da privacidade? Resposta incorreta. A. O médico armazenou de forma a dificultar a recuperação dos dados por outros; no entanto, não há privacidade. O médico armazenou os dados em um dispositivo de baixa confiabilidade, pois um smartphone pode queimar, e ele perderia seus dados. É claro que, como somente ele tem o acesso, foi mantida a privacidade. E, como é relatado que é um médico de renome, seus dados coletados são confiáveis e de qualidade. A recuperação dos dados é difícil, uma vez que estão apenas em blocos de anotação, e não disponíveis em um sistema. Resposta incorreta. B. Ele armazenou em um formato correto e com alta confiabilidade, de modo que não ocorra perda dos dados. O médico armazenou os dados em um dispositivo de baixa confiabilidade, pois um smartphone pode queimar, e ele perderia seus dados. É claro que, como somente ele tem o acesso, foi mantida a privacidade. E, como é relatado que é um médico de renome, seus dados coletados são confiáveis e de qualidade. A recuperação dos dados é difícil, uma vez que estão apenas em blocos de anotação, e não disponíveis em um sistema. Você acertou! C. A coleta tem qualidade e confiabilidade, e, de fato, o armazenamento foi feito de forma errada, já que dificulta a recuperação, com possibilidades de perda. O médico armazenou os dados em um dispositivo de baixa confiabilidade, pois um smartphone pode queimar, e ele perderia seus dados. É claro que, como somente ele tem o acesso, foi mantida a privacidade. E, como é relatado que é um médico de renome, seus dados coletados são confiáveis e de qualidade. A recuperação dos dados é difícil, uma vez que estão apenas em blocos de anotação, e não disponíveis em um sistema. Resposta incorreta. D. A privacidade é mantida por ser um acesso único, e a recuperação é fácil. Já a qualidade dos dados é baixa e com pouca confiabilidade. O médico armazenou os dados em um dispositivo de baixa confiabilidade, pois um smartphone pode queimar, e ele perderia seus dados. É claro que, como somente ele tem o acesso, foi mantida a privacidade. E, como é relatado que é um médico de renome, seus dados coletados são confiáveis e de qualidade. A recuperação dos dados é difícil, uma vez que estão apenas em blocos de anotação, e não disponíveis em um sistema. Resposta incorreta. E. Ao priorizar a privacidade, o médico afetou a confiabilidade dos dados; portanto, eles devem ser descartados. O médico armazenou os dados em um dispositivo de baixa confiabilidade, pois um smartphone pode queimar, e ele perderia seus dados. É claro que, como somente ele tem o acesso, foi mantida a privacidade. E, como é relatado que é um médico de renome, seus dados coletados são confiáveis e de qualidade. A recuperação dos dados é difícil, uma vez que estão apenas em blocos de anotação, e não disponíveis em um sistema. 3. A partir da Lei Geral de Proteção de Dados (LGPD), as instituições devem ter o devido cuidado nos processos de ciência de dados, a fim de garantir a eficiência necessária com o cumprimento das normas. Um sistema, alocado na Internet, solicita ao usuário dados pessoais e os armazena em uma base de dados relacional confiável, à qual somente a própria empresa tem acesso, utilizando-a para o fim de marketing. De acordo com a Lei Geral da Proteção de Dados e as fases de coleta e descarte do processo de ciência de dados, pode-se afirmar que: Você acertou! A. o usuário pode solicitar a qualquer momento uma cópia dos dados, bem como compreender para que fim estão sendo utilizados. Uma empresa pode coletar ou descartar os dados, sempre com o consentimento do usuário, de acordo com a LGPD. Assim, o usuário pode solicitar a qualquer momento qualquer uma das duas ações. A finalidade para a qual os dados são utilizados sempre deve ser informada ao usuário. 4. Em ciência de dados, a preservação dos dados tem, em sua essência, o objetivo de contribuir para que o dado coletado tenha suas informações originais e fidedignas, sem perda de informações quando de sua recuperação. No processo de identificação de pragas, um agrônomo pode colher, em campo, diversasfotografias em alta qualidade de cada uma delas e catalogá-las em seu sistema com o intuito de organizar uma base necessária para os seus estudos. No entanto, ao realizar os processos para a identificação, percebe que o horário e a qualidade das fotografias têm um papel importante para a catalogação. No que se refere aos fatores que permeiam as fases da ciência de dados, o que se pode compreender nesse contexto? Resposta incorreta. A. A parte dos direitos autoriais foi violada, já que realizou fotografias de diversas pragas sem a autorização devida. Os metadados, que são informações sobre os dados das fotografias, também têm sua importância, como pôde ser evidenciado nesse caso, e fazem parte da preservação dos dados. Os direitos autorais não foram violados, uma vez que não existe tal autorização para o reino animal em questão. A priori, a viralidade não aconteceria, em virtude de as imagens não terem significado para o público, mas para um contexto específico de pesquisa. As fotografias foram colhidas em alta qualidade, e é necessário o seu armazenamento para os estudos atuais e futuros. Resposta incorreta. B. Devido à qualidade baixa dos dados, não é possível prosseguir com os estudos. Os metadados, que são informações sobre os dados das fotografias, também têm sua importância, como pôde ser evidenciado nesse caso, e fazem parte da preservação dos dados. Os direitos autorais não foram violados, uma vez que não existe tal autorização para o reino animal em questão. A priori, a viralidade não aconteceria, em virtude de as imagens não terem significado para o público, mas para um contexto específico de pesquisa. As fotografias foram colhidas em alta qualidade, e é necessário o seu armazenamento para os estudos atuais e futuros. Resposta incorreta. C. Estas seriam fotografias que se disseminariam facilmente nas redes sociais, pois todos compreenderiam seu significado. Os metadados, que são informações sobre os dados das fotografias, também têm sua importância, como pôde ser evidenciado nesse caso, e fazem parte da preservação dos dados. Os direitos autorais não foram violados, uma vez que não existe tal autorização para o reino animal em questão. A priori, a viralidade não aconteceria, em virtude de as imagens não terem significado para o público, mas para um contexto específico de pesquisa. As fotografias foram colhidas em alta qualidade, e é necessário o seu armazenamento para os estudos atuais e futuros. Resposta incorreta. D. A preservação das fotografias não é necessária, já que, após os estudos, elas serão descartadas. Os metadados, que são informações sobre os dados das fotografias, também têm sua importância, como pôde ser evidenciado nesse caso, e fazem parte da preservação dos dados. Os direitos autorais não foram violados, uma vez que não existe tal autorização para o reino animal em questão. A priori, a viralidade não aconteceria, em virtude de as imagens não terem significado para o público, mas para um contexto específico de pesquisa. As fotografias foram colhidas em alta qualidade, e é necessário o seu armazenamento para os estudos atuais e futuros. Você acertou! E. • Mostra a importância dos metadados, já que o dia e a hora das fotografias, bem como a sua qualidade, são dados que poderiam ser obtidos. Os metadados, que são informações sobre os dados das fotografias, também têm sua importância, como pôde ser evidenciado nesse caso, e fazem parte da preservação dos dados. Os direitos autorais não foram violados, uma vez que não existe tal autorização para o reino animal em questão. A priori, a viralidade não aconteceria, em virtude de as imagens não terem significado para o público, mas para um contexto específico de pesquisa. As fotografias foram colhidas em alta qualidade, e é necessário o seu armazenamento para os estudos atuais e futuros. 5. Na etapa de preparação de dados a serem submetidos ao processo de mineração de dados, uma importante tarefa consiste no processo de normalização dos dados numéricos, que está dentro do contexto da análise exploratória e do pré- processamento dos dados. Com isso, leva-se o conjunto de dados a uma mesma escala, evitando distorções na execução dos algoritmos de aprendizado de máquina utilizados na descoberta de conhecimento de dados, afetando a análise dos resultados. A respeito da análise exploratória e o descarte dos dados, é possível afirmar: Resposta incorreta. A. Mesmo que a análise exploratória mostre campos nulos, a extração de conhecimento ainda pode ser feita com esses campos. A primeira parte é a identificação dos dados necessários ao problema, e, assim, é realizada a coleta; posteriormente, haverá a normalização e, assim, a mineração dos dados. A análise exploratória é parte importante para o conhecimento dos dados; caso se observem campos nulos, eles podem ser retirados ou readequados. Se, na pós-coleta, no armazenamento e na análise for constatado que há dados que não fazem sentido ao problema ou que não podem ser utilizados, seja por erros, seja por privacidade, eles serão descartados. Você acertou! B. O descarte é realizado minuciosamente, retirando-se o que não faz sentido ao problema ou o que não tem condições de ter conhecimento extraído. A primeira parte é a identificação dos dados necessários ao problema, e, assim, é realizada a coleta; posteriormente, haverá a normalização e, assim, a mineração dos dados. A análise exploratória é parte importante para o conhecimento dos dados; caso se observem campos nulos, eles podem ser retirados ou readequados. Se, na pós-coleta, no armazenamento e na análise for constatado que há dados que não fazem sentido ao problema ou que não podem ser utilizados, seja por erros, seja por privacidade, eles serão descartados. Resposta incorreta. C. A mineração de dados é realizada já durante a coleta, a fim de que já se possa obter insights dos dados. A primeira parte é a identificação dos dados necessários ao problema, e, assim, é realizada a coleta; posteriormente, haverá a normalização e, assim, a mineração dos dados. A análise exploratória é parte importante para o conhecimento dos dados; caso se observem campos nulos, eles podem ser retirados ou readequados. Se, na pós-coleta, no armazenamento e na análise for constatado que há dados que não fazem sentido ao problema ou que não podem ser utilizados, seja por erros, seja por privacidade, eles serão descartados. Resposta incorreta. D. A análise exploratória é um passo que poderia ser ignorado, já que, ao identificar um dado na coleta, ele deve fazer parte de solução. A primeira parte é a identificação dos dados necessários ao problema, e, assim, é realizada a coleta; posteriormente, haverá a normalização e, assim, a mineração dos dados. A análise exploratória é parte importante para o conhecimento dos dados; caso se observem campos nulos, eles podem ser retirados ou readequados. Se, na pós-coleta, no armazenamento e na análise for constatado que há dados que não fazem sentido ao problema ou que não podem ser utilizados, seja por erros, seja por privacidade, eles serão descartados. Resposta incorreta. E. A normalização dos dados é parte importante anterior à coleta e faz com que a mineração dos dados seja mais efetiva. A primeira parte é a identificação dos dados necessários ao problema, e, assim, é realizada a coleta; posteriormente, haverá a normalização e, assim, a mineração dos dados. A análise exploratória é parte importante para o conhecimento dos dados; caso se observem campos nulos, eles podem ser retirados ou readequados. Se, na pós-coleta, no armazenamento e na análise for constatado que há dados que não fazem sentido ao problema ou que não podem ser utilizados, seja por erros, seja por privacidade, eles serão descartados.
Compartilhar