Buscar

Exercícios BIG DATA

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 98 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 98 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 98 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Exercícios
Respostas enviadas em: 06/01/2023 11:54
1. 
A união de bases de dados similares, para tentar melhorar a análise dos dados, é uma tarefa comum em ciência de dados.
Dado que uma base de dados A contém dados íntegros, com grande confiabilidade e com campos similares aos de uma base de dados B, ambas as bases poderiam ser usadas para analisar um conjunto de dados. No entanto, na base B, verifica-se que 65% de seu total de campos está nulo, e muitos dados contêm erros relacionados ao formato. Qual seria uma boa estratégia a ser adotada dentro dos processos de ciência de dados?
Resposta incorreta.
A. 
Devem-se descartar as duas bases, justamente por não ser possível realizar a integração.
A base A contém dados confiáveis, e, apesar de a base B ter colunas correlatas às da base A, não é possível realizar a integração devido à quantidade de campos nulos e de dados coletados de forma errada. Assim, mantém-se somente a base A como objeto de estudo e descarta-se a B.
Resposta incorreta.
B. 
Mantém-se a segunda base somente, pois, como ela contém erros, de fato, será o objeto de estudo.
A base A contém dados confiáveis, e, apesar de a base B ter colunas correlatas às da base A, não é possível realizar a integração devido à quantidade de campos nulos e de dados coletados de forma errada. Assim, mantém-se somente a base A como objeto de estudo e descarta-se a B.
Você acertou!
C. 
A base A será mantida, pois contém dados confiáveis, e a base B será descartada.
A base A contém dados confiáveis, e, apesar de a base B ter colunas correlatas às da base A, não é possível realizar a integração devido à quantidade de campos nulos e de dados coletados de forma errada. Assim, mantém-se somente a base A como objeto de estudo e descarta-se a B.
Resposta incorreta.
D. 
É possível integrar as duas bases, mesmo com alguns erros na base B.
A base A contém dados confiáveis, e, apesar de a base B ter colunas correlatas às da base A, não é possível realizar a integração devido à quantidade de campos nulos e de dados coletados de forma errada. Assim, mantém-se somente a base A como objeto de estudo e descarta-se a B.
Resposta incorreta.
E. 
A base B tem colunas correlatas à base A; portanto, deve-se realizar a integração.
A base A contém dados confiáveis, e, apesar de a base B ter colunas correlatas às da base A, não é possível realizar a integração devido à quantidade de campos nulos e de dados coletados de forma errada. Assim, mantém-se somente a base A como objeto de estudo e descarta-se a B.
 
Em ciência de dados, o contexto do armazenamento dos dados tem seus pormenores para que tenhamos a devida segurança e fácil recuperação.
Um hospital armazena os dados de seus pacientes a fim de que possa ter mais segurança e, também, realizar o devido tratamento. Especificamente na área de dermatologia, há uma pequena amostra de dados armazenados:
​​​​​​​Eles foram realizados por um dermatologista de renome; assim, há alta taxa de confiabilidade e qualidade nos dados. No entanto, ele armazenou os dados dentro de seu smartphone em bloco de anotação digital, ao qual somente ele tem acesso. A partir do problema, o que se pode inferir a respeito do armazenamento, da recuperação, da qualidade e da privacidade? 
Resposta incorreta.
A. 
O médico armazenou de forma a dificultar a recuperação dos dados por outros; no entanto, não há privacidade.
O médico armazenou os dados em um dispositivo de baixa confiabilidade, pois um smartphone pode queimar, e ele perderia seus dados. É claro que, como somente ele tem o acesso, foi mantida a privacidade. E, como é relatado que é um médico de renome, seus dados coletados são confiáveis e de qualidade. A recuperação dos dados é difícil, uma vez que estão apenas em blocos de anotação, e não disponíveis em um sistema.
Resposta incorreta.
B. 
Ele armazenou em um formato correto e com alta confiabilidade, de modo que não ocorra perda dos dados.
O médico armazenou os dados em um dispositivo de baixa confiabilidade, pois um smartphone pode queimar, e ele perderia seus dados. É claro que, como somente ele tem o acesso, foi mantida a privacidade. E, como é relatado que é um médico de renome, seus dados coletados são confiáveis e de qualidade. A recuperação dos dados é difícil, uma vez que estão apenas em blocos de anotação, e não disponíveis em um sistema.
Você acertou!
C. 
A coleta tem qualidade e confiabilidade, e, de fato, o armazenamento foi feito de forma errada, já que dificulta a recuperação, com possibilidades de perda.
O médico armazenou os dados em um dispositivo de baixa confiabilidade, pois um smartphone pode queimar, e ele perderia seus dados. É claro que, como somente ele tem o acesso, foi mantida a privacidade. E, como é relatado que é um médico de renome, seus dados coletados são confiáveis e de qualidade. A recuperação dos dados é difícil, uma vez que estão apenas em blocos de anotação, e não disponíveis em um sistema.
Resposta incorreta.
D. 
A privacidade é mantida por ser um acesso único, e a recuperação é fácil. Já a qualidade dos dados é baixa e com pouca confiabilidade.
O médico armazenou os dados em um dispositivo de baixa confiabilidade, pois um smartphone pode queimar, e ele perderia seus dados. É claro que, como somente ele tem o acesso, foi mantida a privacidade. E, como é relatado que é um médico de renome, seus dados coletados são confiáveis e de qualidade. A recuperação dos dados é difícil, uma vez que estão apenas em blocos de anotação, e não disponíveis em um sistema.
Resposta incorreta.
E. 
Ao priorizar a privacidade, o médico afetou a confiabilidade dos dados; portanto, eles devem ser descartados.
O médico armazenou os dados em um dispositivo de baixa confiabilidade, pois um smartphone pode queimar, e ele perderia seus dados. É claro que, como somente ele tem o acesso, foi mantida a privacidade. E, como é relatado que é um médico de renome, seus dados coletados são confiáveis e de qualidade. A recuperação dos dados é difícil, uma vez que estão apenas em blocos de anotação, e não disponíveis em um sistema.
 
A partir da Lei Geral de Proteção de Dados (LGPD), as instituições devem ter o devido cuidado nos processos de ciência de dados, a fim de garantir a eficiência necessária com o cumprimento das normas.
Um sistema, alocado na Internet, solicita ao usuário dados pessoais e os armazena em uma base de dados relacional confiável, à qual somente a própria empresa tem acesso, utilizando-a para o fim de marketing. De acordo com a Lei Geral da Proteção de Dados e as fases de coleta e descarte do processo de ciência de dados, pode-se afirmar que:
Resposta correta.
A. 
o usuário pode solicitar a qualquer momento uma cópia dos dados, bem como compreender para que fim estão sendo utilizados.
Uma empresa pode coletar ou descartar os dados, sempre com o consentimento do usuário, de acordo com a LGPD. Assim, o usuário pode solicitar a qualquer momento qualquer uma das duas ações. A finalidade para a qual os dados são utilizados sempre deve ser informada ao usuário.
Resposta incorreta.
B. 
mesmo que o usuário peça o descarte, a empresa não é obrigada a fazê-lo, já que o usuário assinou um contrato digital de consentimento.
Uma empresa pode coletar ou descartar os dados, sempre com o consentimento do usuário, de acordo com a LGPD. Assim, o usuário pode solicitar a qualquer momento qualquer uma das duas ações. A finalidade para a qual os dados são utilizados sempre deve ser informada ao usuário.
Resposta incorreta.
C. 
a empresa pode utilizar os dados para o fim necessário, ou seja, mesmo que tenha iniciado com marketing, poderá, posteriormente, realizar a venda dos dados.
Uma empresa pode coletar ou descartar os dados, sempre com o consentimento do usuário, de acordo com a LGPD. Assim, o usuário pode solicitar a qualquer momento qualquer uma das duas ações. A finalidade para a qual os dados são utilizados sempre deve ser informada ao usuário.
Resposta incorreta.
D. 
para que seja realizada a coleta de dados, a empresa não precisa que o usuário informe o consentimento, poispode utilizar-se de outras vias.
Uma empresa pode coletar ou descartar os dados, sempre com o consentimento do usuário, de acordo com a LGPD. Assim, o usuário pode solicitar a qualquer momento qualquer uma das duas ações. A finalidade para a qual os dados são utilizados sempre deve ser informada ao usuário.
Você não acertou!
E. 
se o usuário pedir o descarte dos dados, a coleta não mais poderá ser realizada em nenhum momento, pois o usuário será excluído permanentemente.
Uma empresa pode coletar ou descartar os dados, sempre com o consentimento do usuário, de acordo com a LGPD. Assim, o usuário pode solicitar a qualquer momento qualquer uma das duas ações. A finalidade para a qual os dados são utilizados sempre deve ser informada ao usuário.
Em ciência de dados, a preservação dos dados tem, em sua essência, o objetivo de contribuir para que o dado coletado tenha suas informações originais e fidedignas, sem perda de informações quando de sua recuperação.
No processo de identificação de pragas, um agrônomo pode colher, em campo, diversas fotografias em alta qualidade de cada uma delas e catalogá-las em seu sistema com o intuito de organizar uma base necessária para os seus estudos. No entanto, ao realizar os processos para a identificação, percebe que o horário e a qualidade das fotografias têm um papel importante para a catalogação. No que se refere aos fatores que permeiam as fases da ciência de dados, o que se pode compreender nesse contexto? 
Resposta incorreta.
A. 
A parte dos direitos autoriais foi violada, já que realizou fotografias de diversas pragas sem a autorização devida.
Os metadados, que são informações sobre os dados das fotografias, também têm sua importância, como pôde ser evidenciado nesse caso, e fazem parte da preservação dos dados. Os direitos autorais não foram violados, uma vez que não existe tal autorização para o reino animal em questão. A priori, a viralidade não aconteceria, em virtude de as imagens não terem significado para o público, mas para um contexto específico de pesquisa. As fotografias foram colhidas em alta qualidade, e é necessário o seu armazenamento para os estudos atuais e futuros.
Resposta incorreta.
B. 
Devido à qualidade baixa dos dados, não é possível prosseguir com os estudos.
Os metadados, que são informações sobre os dados das fotografias, também têm sua importância, como pôde ser evidenciado nesse caso, e fazem parte da preservação dos dados. Os direitos autorais não foram violados, uma vez que não existe tal autorização para o reino animal em questão. A priori, a viralidade não aconteceria, em virtude de as imagens não terem significado para o público, mas para um contexto específico de pesquisa. As fotografias foram colhidas em alta qualidade, e é necessário o seu armazenamento para os estudos atuais e futuros.
Resposta incorreta.
C. 
Estas seriam fotografias que se disseminariam facilmente nas redes sociais, pois todos compreenderiam seu significado.
Os metadados, que são informações sobre os dados das fotografias, também têm sua importância, como pôde ser evidenciado nesse caso, e fazem parte da preservação dos dados. Os direitos autorais não foram violados, uma vez que não existe tal autorização para o reino animal em questão. A priori, a viralidade não aconteceria, em virtude de as imagens não terem significado para o público, mas para um contexto específico de pesquisa. As fotografias foram colhidas em alta qualidade, e é necessário o seu armazenamento para os estudos atuais e futuros.
Resposta incorreta.
D. 
A preservação das fotografias não é necessária, já que, após os estudos, elas serão descartadas.
Os metadados, que são informações sobre os dados das fotografias, também têm sua importância, como pôde ser evidenciado nesse caso, e fazem parte da preservação dos dados. Os direitos autorais não foram violados, uma vez que não existe tal autorização para o reino animal em questão. A priori, a viralidade não aconteceria, em virtude de as imagens não terem significado para o público, mas para um contexto específico de pesquisa. As fotografias foram colhidas em alta qualidade, e é necessário o seu armazenamento para os estudos atuais e futuros.
Você acertou!
E. 
· Mostra a importância dos metadados, já que o dia e a hora das fotografias, bem como a sua qualidade, são dados que poderiam ser obtidos.
Os metadados, que são informações sobre os dados das fotografias, também têm sua importância, como pôde ser evidenciado nesse caso, e fazem parte da preservação dos dados. Os direitos autorais não foram violados, uma vez que não existe tal autorização para o reino animal em questão. A priori, a viralidade não aconteceria, em virtude de as imagens não terem significado para o público, mas para um contexto específico de pesquisa. As fotografias foram colhidas em alta qualidade, e é necessário o seu armazenamento para os estudos atuais e futuros.
 
Na etapa de preparação de dados a serem submetidos ao processo de mineração de dados, uma importante tarefa consiste no processo de normalização dos dados numéricos, que está dentro do contexto da análise exploratória e do pré-processamento dos dados. Com isso, leva-se o conjunto de dados a uma mesma escala, evitando distorções na execução dos algoritmos de aprendizado de máquina utilizados na descoberta de conhecimento de dados, afetando a análise dos resultados.
A respeito da análise exploratória e o descarte dos dados, é possível afirmar:
Resposta incorreta.
A. 
Mesmo que a análise exploratória mostre campos nulos, a extração de conhecimento ainda pode ser feita com esses campos.
A primeira parte é a identificação dos dados necessários ao problema, e, assim, é realizada a coleta; posteriormente, haverá a normalização e, assim, a mineração dos dados. A análise exploratória é parte importante para o conhecimento dos dados; caso se observem campos nulos, eles podem ser retirados ou readequados. Se, na pós-coleta, no armazenamento e na análise for constatado que há dados que não fazem sentido ao problema ou que não podem ser utilizados, seja por erros, seja por privacidade, eles serão descartados.
Resposta correta.
B. 
O descarte é realizado minuciosamente, retirando-se o que não faz sentido ao problema ou o que não tem condições de ter conhecimento extraído.
A primeira parte é a identificação dos dados necessários ao problema, e, assim, é realizada a coleta; posteriormente, haverá a normalização e, assim, a mineração dos dados. A análise exploratória é parte importante para o conhecimento dos dados; caso se observem campos nulos, eles podem ser retirados ou readequados. Se, na pós-coleta, no armazenamento e na análise for constatado que há dados que não fazem sentido ao problema ou que não podem ser utilizados, seja por erros, seja por privacidade, eles serão descartados.
Você não acertou!
C. 
A mineração de dados é realizada já durante a coleta, a fim de que já se possa obter insights dos dados.
A primeira parte é a identificação dos dados necessários ao problema, e, assim, é realizada a coleta; posteriormente, haverá a normalização e, assim, a mineração dos dados. A análise exploratória é parte importante para o conhecimento dos dados; caso se observem campos nulos, eles podem ser retirados ou readequados. Se, na pós-coleta, no armazenamento e na análise for constatado que há dados que não fazem sentido ao problema ou que não podem ser utilizados, seja por erros, seja por privacidade, eles serão descartados.
Resposta incorreta.
D. 
A análise exploratória é um passo que poderia ser ignorado, já que, ao identificar um dado na coleta, ele deve fazer parte de solução.
A primeira parte é a identificação dos dados necessários ao problema, e, assim, é realizada a coleta; posteriormente, haverá a normalização e, assim, a mineração dos dados. A análise exploratória é parte importante para o conhecimento dos dados; caso se observem campos nulos, eles podem ser retirados ou readequados. Se, na pós-coleta, no armazenamento e na análise for constatado que há dados que não fazem sentido ao problema ou que nãopodem ser utilizados, seja por erros, seja por privacidade, eles serão descartados.
Resposta incorreta.
E. 
A normalização dos dados é parte importante anterior à coleta e faz com que a mineração dos dados seja mais efetiva.
A primeira parte é a identificação dos dados necessários ao problema, e, assim, é realizada a coleta; posteriormente, haverá a normalização e, assim, a mineração dos dados. A análise exploratória é parte importante para o conhecimento dos dados; caso se observem campos nulos, eles podem ser retirados ou readequados. Se, na pós-coleta, no armazenamento e na análise for constatado que há dados que não fazem sentido ao problema ou que não podem ser utilizados, seja por erros, seja por privacidade, eles serão descartados.
 
Ultimamente, com a crescente utilização de técnicas e ferramentas de Big Data, grande parte das empresas estão decidindo armazenar seus dados em nuvem e mais recentemente em bancos de dados NoSQL. Qual profissional está apto a trabalhar e manter sistemas de dados com essas tecnologias?
Resposta incorreta.
A. 
Cientista de dados.
Embora o DBA possa conhecê-las ou até trabalhar com algumas delas, é o engenheiro de dados o profissional apto a trabalhar e manter sistemas de dados completos com essas tecnologias (AWS, Azure, Hadoop, Spark, Hive, MongoDB e Cassandra). Analistas de negócios e gerentes de projetos, por não terem perfil de TI, não trabalham diretamente com essas tecnologias. Administradores de banco de dados são mais focados em bancos SQL, e aqueles mais modernos também trabalham com bancos NoSQL e por vezes em nuvem, mas algumas das tecnologias citadas (como Hadoop e Spark) não fazem parte do seu ambiente de trabalho diário, ficando por conta do engenheiro de dados. Cientistas de dados são focados nas análises dos dados e em fazer descobertas que agreguem valor ao negócio. Portanto, é indiferente se o banco de dados é SQL, NoSQL, em nuvem ou não.
Resposta incorreta.
B. 
Administrador de banco de dados.
Embora o DBA possa conhecê-las ou até trabalhar com algumas delas, é o engenheiro de dados o profissional apto a trabalhar e manter sistemas de dados completos com essas tecnologias (AWS, Azure, Hadoop, Spark, Hive, MongoDB e Cassandra). Analistas de negócios e gerentes de projetos, por não terem perfil de TI, não trabalham diretamente com essas tecnologias. Administradores de banco de dados são mais focados em bancos SQL, e aqueles mais modernos também trabalham com bancos NoSQL e por vezes em nuvem, mas algumas das tecnologias citadas (como Hadoop e Spark) não fazem parte do seu ambiente de trabalho diário, ficando por conta do engenheiro de dados. Cientistas de dados são focados nas análises dos dados e em fazer descobertas que agreguem valor ao negócio. Portanto, é indiferente se o banco de dados é SQL, NoSQL, em nuvem ou não.
Resposta incorreta.
C. 
Gerente de projetos.
Embora o DBA possa conhecê-las ou até trabalhar com algumas delas, é o engenheiro de dados o profissional apto a trabalhar e manter sistemas de dados completos com essas tecnologias (AWS, Azure, Hadoop, Spark, Hive, MongoDB e Cassandra). Analistas de negócios e gerentes de projetos, por não terem perfil de TI, não trabalham diretamente com essas tecnologias. Administradores de banco de dados são mais focados em bancos SQL, e aqueles mais modernos também trabalham com bancos NoSQL e por vezes em nuvem, mas algumas das tecnologias citadas (como Hadoop e Spark) não fazem parte do seu ambiente de trabalho diário, ficando por conta do engenheiro de dados. Cientistas de dados são focados nas análises dos dados e em fazer descobertas que agreguem valor ao negócio. Portanto, é indiferente se o banco de dados é SQL, NoSQL, em nuvem ou não.
Você acertou!
D. 
Engenheiro de dados.
Embora o DBA possa conhecê-las ou até trabalhar com algumas delas, é o engenheiro de dados o profissional apto a trabalhar e manter sistemas de dados completos com essas tecnologias (AWS, Azure, Hadoop, Spark, Hive, MongoDB e Cassandra). Analistas de negócios e gerentes de projetos, por não terem perfil de TI, não trabalham diretamente com essas tecnologias. Administradores de banco de dados são mais focados em bancos SQL, e aqueles mais modernos também trabalham com bancos NoSQL e por vezes em nuvem, mas algumas das tecnologias citadas (como Hadoop e Spark) não fazem parte do seu ambiente de trabalho diário, ficando por conta do engenheiro de dados. Cientistas de dados são focados nas análises dos dados e em fazer descobertas que agreguem valor ao negócio. Portanto, é indiferente se o banco de dados é SQL, NoSQL, em nuvem ou não.
Resposta incorreta.
E. 
Analista de negócios.
Embora o DBA possa conhecê-las ou até trabalhar com algumas delas, é o engenheiro de dados o profissional apto a trabalhar e manter sistemas de dados completos com essas tecnologias (AWS, Azure, Hadoop, Spark, Hive, MongoDB e Cassandra). Analistas de negócios e gerentes de projetos, por não terem perfil de TI, não trabalham diretamente com essas tecnologias. Administradores de banco de dados são mais focados em bancos SQL, e aqueles mais modernos também trabalham com bancos NoSQL e por vezes em nuvem, mas algumas das tecnologias citadas (como Hadoop e Spark) não fazem parte do seu ambiente de trabalho diário, ficando por conta do engenheiro de dados. Cientistas de dados são focados nas análises dos dados e em fazer descobertas que agreguem valor ao negócio. Portanto, é indiferente se o banco de dados é SQL, NoSQL, em nuvem ou não.
Muito do que uma companhia produz é proveniente de projetos, no desenvolvimento tanto de novos produtos e serviços para o cliente quanto para o próprio uso da empresa. O bom andamento dos projetos em uma empresa é um fator muito importante, pois a sistematização da má gestão em projetos pode acarretar desperdício financeiro, de recursos humanos e de tempo, além de afetar gravemente os negócios. Isso pode refletir em perdas de oportunidades, diminuição na participação no mercado ou em situações mais graves como a falência do negócio.
Visto que todo projeto pode ter um custo financeiro associado e invariavelmente tem uma duração para que seja realizado, entre os papéis estudados de uma equipe de Ciência de Dados e Big Data, qual profissional é responsável por esses assuntos para um bom andamento do projeto?
Resposta incorreta.
A. 
Analista de negócios.
O gerente de projetos é o responsável por tratar dos custos e do cronograma do projeto. Cientistas de dados, engenheiros de dados e administradores de banco de dados têm perfis técnicos e se preocupam com questões relacionadas à TI (dados e análises), não com os aspectos do projeto em si, como quanto irá custar ou quanto tempo levará para cumpri-lo. Analistas de negócios devem se atentar para entender as necessidades de negócio e observar o valor gerado pelos dados/análises da parte técnica, verificando se estão de acordo com as necessidades apresentadas. Contudo não são responsáveis por custos ou cronograma do projeto.
Resposta incorreta.
B. 
Cientista de dados.
O gerente de projetos é o responsável por tratar dos custos e do cronograma do projeto. Cientistas de dados, engenheiros de dados e administradores de banco de dados têm perfis técnicos e se preocupam com questões relacionadas à TI (dados e análises), não com os aspectos do projeto em si, como quanto irá custar ou quanto tempo levará para cumpri-lo. Analistas de negócios devem se atentar para entender as necessidades de negócio e observar o valor gerado pelos dados/análises da parte técnica, verificando se estão de acordo com as necessidades apresentadas. Contudo não são responsáveis por custos ou cronograma do projeto.
Você não acertou!
C. 
Engenheiro de dados.
O gerente de projetos é o responsável por tratar dos custos e do cronograma do projeto. Cientistas de dados, engenheiros de dados e administradores de banco de dados têm perfis técnicos e se preocupam com questões relacionadas à TI (dados e análises), não com os aspectos do projeto em si, como quanto irá custar ou quanto tempo levará para cumpri-lo.Analistas de negócios devem se atentar para entender as necessidades de negócio e observar o valor gerado pelos dados/análises da parte técnica, verificando se estão de acordo com as necessidades apresentadas. Contudo não são responsáveis por custos ou cronograma do projeto.
Resposta incorreta.
D. 
Administrador de banco de dados.
O gerente de projetos é o responsável por tratar dos custos e do cronograma do projeto. Cientistas de dados, engenheiros de dados e administradores de banco de dados têm perfis técnicos e se preocupam com questões relacionadas à TI (dados e análises), não com os aspectos do projeto em si, como quanto irá custar ou quanto tempo levará para cumpri-lo. Analistas de negócios devem se atentar para entender as necessidades de negócio e observar o valor gerado pelos dados/análises da parte técnica, verificando se estão de acordo com as necessidades apresentadas. Contudo não são responsáveis por custos ou cronograma do projeto.
Resposta correta.
E. 
Gerente de projetos.
O gerente de projetos é o responsável por tratar dos custos e do cronograma do projeto. Cientistas de dados, engenheiros de dados e administradores de banco de dados têm perfis técnicos e se preocupam com questões relacionadas à TI (dados e análises), não com os aspectos do projeto em si, como quanto irá custar ou quanto tempo levará para cumpri-lo. Analistas de negócios devem se atentar para entender as necessidades de negócio e observar o valor gerado pelos dados/análises da parte técnica, verificando se estão de acordo com as necessidades apresentadas. Contudo não são responsáveis por custos ou cronograma do projeto.
Independente do cargo de um funcionário em uma empresa, há atribuições que são trabalhadas especialmente por ele. Isso não é diferente em equipes de Ciência de Dados e Big Data. Sempre conseguimos identificar uma responsabilidade que é de um profissional específico e de nenhum outro, tendo em vista, por exemplo, sua formação na área, experiência, domínio ou simplesmente vocação.
Considerando a natureza multidisciplinar dos cientistas de dados e a quantidade de tecnologias, métodos e assuntos que eles precisam dominar, qual opção abaixo é trabalhada especialmente por eles?
Resposta incorreta.
A. 
Recuperação de desastres.
Machine learning é um tópico da alçada do cientista de dados, que é o profissional apto para o assunto. Recuperação de desastres, ciclo de vida do projeto, bancos de dados SQL e inventário dos dados brutos são assuntos trabalhados por outros perfis, mas machine learning é foco especialmente dos cientistas de dados.
Resposta correta.
B. 
Machine learning.
Machine learning é um tópico da alçada do cientista de dados, que é o profissional apto para o assunto. Recuperação de desastres, ciclo de vida do projeto, bancos de dados SQL e inventário dos dados brutos são assuntos trabalhados por outros perfis, mas machine learning é foco especialmente dos cientistas de dados.
Você não acertou!
C. 
Ciclo de vida do projeto.
Machine learning é um tópico da alçada do cientista de dados, que é o profissional apto para o assunto. Recuperação de desastres, ciclo de vida do projeto, bancos de dados SQL e inventário dos dados brutos são assuntos trabalhados por outros perfis, mas machine learning é foco especialmente dos cientistas de dados.
Resposta incorreta.
D. 
Banco de dados SQL.
Machine learning é um tópico da alçada do cientista de dados, que é o profissional apto para o assunto. Recuperação de desastres, ciclo de vida do projeto, bancos de dados SQL e inventário dos dados brutos são assuntos trabalhados por outros perfis, mas machine learning é foco especialmente dos cientistas de dados.
Resposta incorreta.
E. 
Cuidar do inventário dos dados brutos.
Machine learning é um tópico da alçada do cientista de dados, que é o profissional apto para o assunto. Recuperação de desastres, ciclo de vida do projeto, bancos de dados SQL e inventário dos dados brutos são assuntos trabalhados por outros perfis, mas machine learning é foco especialmente dos cientistas de dados.
 
Para uma equipe de Ciência de Dados e Big Data é importante que se conheça bem o negócio em foco e o mercado onde a empresa está inserida. Conhecer a empresa é saber o que é ou pode ser oferecido ao cliente no futuro, por exemplo; é conhecer o mercado e entender a concorrência, como cada empresa age frente aos concorrentes e o que pode ser feito para crescer nesse ambiente. É extremamente valioso para os técnicos da equipe de Ciência de Dados e Big Data ter em mãos essas informações de negócios para guiá-los no desenvolvimento de produtos e serviços orientados a dados. Dito isso, ter domínio do negócio da empresa, ser um facilitador entre o negócio e a TI e conhecer bem os produtos e serviços da própria empresa e da concorrência são atribuições de qual perfil?
Você acertou!
A. 
Analista de negócios.
As asserções do enunciado se referem a um profissional focado no negócio. Ainda, por conhecer bem os produtos e serviços da própria empresa e da concorrência, ​​​​​​​estamos falando do analista de negócios. São, portanto, atribuições exclusivas do analista de negócios.
Resposta incorreta.
B. 
Cientista de dados.
As asserções do enunciado se referem a um profissional focado no negócio. Ainda, por conhecer bem os produtos e serviços da própria empresa e da concorrência, ​​​​​​​estamos falando do analista de negócios. São, portanto, atribuições exclusivas do analista de negócios.
Resposta incorreta.
C. 
Administrador de banco de dados.
As asserções do enunciado se referem a um profissional focado no negócio. Ainda, por conhecer bem os produtos e serviços da própria empresa e da concorrência, ​​​​​​​estamos falando do analista de negócios. São, portanto, atribuições exclusivas do analista de negócios.
Resposta incorreta.
D. 
Engenheiro de dados.
As asserções do enunciado se referem a um profissional focado no negócio. Ainda, por conhecer bem os produtos e serviços da própria empresa e da concorrência, ​​​​​​​estamos falando do analista de negócios. São, portanto, atribuições exclusivas do analista de negócios.
Resposta incorreta.
E. 
Usuário solicitante.
As asserções do enunciado se referem a um profissional focado no negócio. Ainda, por conhecer bem os produtos e serviços da própria empresa e da concorrência, ​​​​​​​estamos falando do analista de negócios. São, portanto, atribuições exclusivas do analista de negócios.
Muitas profissões são evoluções de outras que já existiram, seja por necessidades de negócio, seja por conta da própria evolução tecnológica. Dito isso, qual perfil profissional voltado a dados foi o precursor do engenheiro de dados?
Resposta incorreta.
A. 
Usuário solicitante.
Os precursores dos engenheiros de dados são os administradores de banco de dados. Gerentes de projetos e analistas de negócios não têm perfis de TI, portanto não são os precursores dos engenheiros de dados. Cientistas de dados não têm como responsabilidades criar e manter bancos de dados, capturar dados e armazená-los, portanto também não são os precursores dos engenheiros de dados. Usuário solicitante pode ser qualquer colaborador da empresa que tenha uma necessidade de negócio e, ao menos que este seja também um administrador de banco de dados, ele não é o precursor do engenheiro de dados.
Resposta incorreta.
B. 
Gerente de projetos.
Os precursores dos engenheiros de dados são os administradores de banco de dados. Gerentes de projetos e analistas de negócios não têm perfis de TI, portanto não são os precursores dos engenheiros de dados. Cientistas de dados não têm como responsabilidades criar e manter bancos de dados, capturar dados e armazená-los, portanto também não são os precursores dos engenheiros de dados. Usuário solicitante pode ser qualquer colaborador da empresa que tenha uma necessidade de negócio e, ao menos que este seja também um administrador de banco de dados, ele não é o precursor do engenheiro de dados.
Você acertou!
C. 
Administrador de banco de dados.
Os precursores dos engenheiros de dados são os administradores de bancode dados. Gerentes de projetos e analistas de negócios não têm perfis de TI, portanto não são os precursores dos engenheiros de dados. Cientistas de dados não têm como responsabilidades criar e manter bancos de dados, capturar dados e armazená-los, portanto também não são os precursores dos engenheiros de dados. Usuário solicitante pode ser qualquer colaborador da empresa que tenha uma necessidade de negócio e, ao menos que este seja também um administrador de banco de dados, ele não é o precursor do engenheiro de dados.
Resposta incorreta.
D. 
Cientista de dados.
Os precursores dos engenheiros de dados são os administradores de banco de dados. Gerentes de projetos e analistas de negócios não têm perfis de TI, portanto não são os precursores dos engenheiros de dados. Cientistas de dados não têm como responsabilidades criar e manter bancos de dados, capturar dados e armazená-los, portanto também não são os precursores dos engenheiros de dados. Usuário solicitante pode ser qualquer colaborador da empresa que tenha uma necessidade de negócio e, ao menos que este seja também um administrador de banco de dados, ele não é o precursor do engenheiro de dados.
Resposta incorreta.
E. 
Analista de negócios.
Os precursores dos engenheiros de dados são os administradores de banco de dados. Gerentes de projetos e analistas de negócios não têm perfis de TI, portanto não são os precursores dos engenheiros de dados. Cientistas de dados não têm como responsabilidades criar e manter bancos de dados, capturar dados e armazená-los, portanto também não são os precursores dos engenheiros de dados. Usuário solicitante pode ser qualquer colaborador da empresa que tenha uma necessidade de negócio e, ao menos que este seja também um administrador de banco de dados, ele não é o precursor do engenheiro de dados.
Ultimamente, com a crescente utilização de técnicas e ferramentas de Big Data, grande parte das empresas estão decidindo armazenar seus dados em nuvem e mais recentemente em bancos de dados NoSQL. Qual profissional está apto a trabalhar e manter sistemas de dados com essas tecnologias?
Resposta incorreta.
A. 
Cientista de dados.
Embora o DBA possa conhecê-las ou até trabalhar com algumas delas, é o engenheiro de dados o profissional apto a trabalhar e manter sistemas de dados completos com essas tecnologias (AWS, Azure, Hadoop, Spark, Hive, MongoDB e Cassandra). Analistas de negócios e gerentes de projetos, por não terem perfil de TI, não trabalham diretamente com essas tecnologias. Administradores de banco de dados são mais focados em bancos SQL, e aqueles mais modernos também trabalham com bancos NoSQL e por vezes em nuvem, mas algumas das tecnologias citadas (como Hadoop e Spark) não fazem parte do seu ambiente de trabalho diário, ficando por conta do engenheiro de dados. Cientistas de dados são focados nas análises dos dados e em fazer descobertas que agreguem valor ao negócio. Portanto, é indiferente se o banco de dados é SQL, NoSQL, em nuvem ou não.
Resposta incorreta.
B. 
Administrador de banco de dados.
Embora o DBA possa conhecê-las ou até trabalhar com algumas delas, é o engenheiro de dados o profissional apto a trabalhar e manter sistemas de dados completos com essas tecnologias (AWS, Azure, Hadoop, Spark, Hive, MongoDB e Cassandra). Analistas de negócios e gerentes de projetos, por não terem perfil de TI, não trabalham diretamente com essas tecnologias. Administradores de banco de dados são mais focados em bancos SQL, e aqueles mais modernos também trabalham com bancos NoSQL e por vezes em nuvem, mas algumas das tecnologias citadas (como Hadoop e Spark) não fazem parte do seu ambiente de trabalho diário, ficando por conta do engenheiro de dados. Cientistas de dados são focados nas análises dos dados e em fazer descobertas que agreguem valor ao negócio. Portanto, é indiferente se o banco de dados é SQL, NoSQL, em nuvem ou não.
Resposta incorreta.
C. 
Gerente de projetos.
Embora o DBA possa conhecê-las ou até trabalhar com algumas delas, é o engenheiro de dados o profissional apto a trabalhar e manter sistemas de dados completos com essas tecnologias (AWS, Azure, Hadoop, Spark, Hive, MongoDB e Cassandra). Analistas de negócios e gerentes de projetos, por não terem perfil de TI, não trabalham diretamente com essas tecnologias. Administradores de banco de dados são mais focados em bancos SQL, e aqueles mais modernos também trabalham com bancos NoSQL e por vezes em nuvem, mas algumas das tecnologias citadas (como Hadoop e Spark) não fazem parte do seu ambiente de trabalho diário, ficando por conta do engenheiro de dados. Cientistas de dados são focados nas análises dos dados e em fazer descobertas que agreguem valor ao negócio. Portanto, é indiferente se o banco de dados é SQL, NoSQL, em nuvem ou não.
Você acertou!
D. 
Engenheiro de dados.
Embora o DBA possa conhecê-las ou até trabalhar com algumas delas, é o engenheiro de dados o profissional apto a trabalhar e manter sistemas de dados completos com essas tecnologias (AWS, Azure, Hadoop, Spark, Hive, MongoDB e Cassandra). Analistas de negócios e gerentes de projetos, por não terem perfil de TI, não trabalham diretamente com essas tecnologias. Administradores de banco de dados são mais focados em bancos SQL, e aqueles mais modernos também trabalham com bancos NoSQL e por vezes em nuvem, mas algumas das tecnologias citadas (como Hadoop e Spark) não fazem parte do seu ambiente de trabalho diário, ficando por conta do engenheiro de dados. Cientistas de dados são focados nas análises dos dados e em fazer descobertas que agreguem valor ao negócio. Portanto, é indiferente se o banco de dados é SQL, NoSQL, em nuvem ou não.
Resposta incorreta.
E. 
Analista de negócios.
Embora o DBA possa conhecê-las ou até trabalhar com algumas delas, é o engenheiro de dados o profissional apto a trabalhar e manter sistemas de dados completos com essas tecnologias (AWS, Azure, Hadoop, Spark, Hive, MongoDB e Cassandra). Analistas de negócios e gerentes de projetos, por não terem perfil de TI, não trabalham diretamente com essas tecnologias. Administradores de banco de dados são mais focados em bancos SQL, e aqueles mais modernos também trabalham com bancos NoSQL e por vezes em nuvem, mas algumas das tecnologias citadas (como Hadoop e Spark) não fazem parte do seu ambiente de trabalho diário, ficando por conta do engenheiro de dados. Cientistas de dados são focados nas análises dos dados e em fazer descobertas que agreguem valor ao negócio. Portanto, é indiferente se o banco de dados é SQL, NoSQL, em nuvem ou não.
Muito do que uma companhia produz é proveniente de projetos, no desenvolvimento tanto de novos produtos e serviços para o cliente quanto para o próprio uso da empresa. O bom andamento dos projetos em uma empresa é um fator muito importante, pois a sistematização da má gestão em projetos pode acarretar desperdício financeiro, de recursos humanos e de tempo, além de afetar gravemente os negócios. Isso pode refletir em perdas de oportunidades, diminuição na participação no mercado ou em situações mais graves como a falência do negócio.
Visto que todo projeto pode ter um custo financeiro associado e invariavelmente tem uma duração para que seja realizado, entre os papéis estudados de uma equipe de Ciência de Dados e Big Data, qual profissional é responsável por esses assuntos para um bom andamento do projeto?
Resposta incorreta.
A. 
Analista de negócios.
O gerente de projetos é o responsável por tratar dos custos e do cronograma do projeto. Cientistas de dados, engenheiros de dados e administradores de banco de dados têm perfis técnicos e se preocupam com questões relacionadas à TI (dados e análises), não com os aspectos do projeto em si, como quanto irá custar ou quanto tempo levará para cumpri-lo. Analistas de negócios devem se atentar para entender as necessidades de negócio e observar o valor gerado pelos dados/análises da parte técnica, verificando se estão de acordo com as necessidades apresentadas. Contudo não são responsáveis por custos ou cronograma do projeto.
Respostaincorreta.
B. 
Cientista de dados.
O gerente de projetos é o responsável por tratar dos custos e do cronograma do projeto. Cientistas de dados, engenheiros de dados e administradores de banco de dados têm perfis técnicos e se preocupam com questões relacionadas à TI (dados e análises), não com os aspectos do projeto em si, como quanto irá custar ou quanto tempo levará para cumpri-lo. Analistas de negócios devem se atentar para entender as necessidades de negócio e observar o valor gerado pelos dados/análises da parte técnica, verificando se estão de acordo com as necessidades apresentadas. Contudo não são responsáveis por custos ou cronograma do projeto.
Você não acertou!
C. 
Engenheiro de dados.
O gerente de projetos é o responsável por tratar dos custos e do cronograma do projeto. Cientistas de dados, engenheiros de dados e administradores de banco de dados têm perfis técnicos e se preocupam com questões relacionadas à TI (dados e análises), não com os aspectos do projeto em si, como quanto irá custar ou quanto tempo levará para cumpri-lo. Analistas de negócios devem se atentar para entender as necessidades de negócio e observar o valor gerado pelos dados/análises da parte técnica, verificando se estão de acordo com as necessidades apresentadas. Contudo não são responsáveis por custos ou cronograma do projeto.
Resposta incorreta.
D. 
Administrador de banco de dados.
O gerente de projetos é o responsável por tratar dos custos e do cronograma do projeto. Cientistas de dados, engenheiros de dados e administradores de banco de dados têm perfis técnicos e se preocupam com questões relacionadas à TI (dados e análises), não com os aspectos do projeto em si, como quanto irá custar ou quanto tempo levará para cumpri-lo. Analistas de negócios devem se atentar para entender as necessidades de negócio e observar o valor gerado pelos dados/análises da parte técnica, verificando se estão de acordo com as necessidades apresentadas. Contudo não são responsáveis por custos ou cronograma do projeto.
Resposta correta.
E. 
Gerente de projetos.
O gerente de projetos é o responsável por tratar dos custos e do cronograma do projeto. Cientistas de dados, engenheiros de dados e administradores de banco de dados têm perfis técnicos e se preocupam com questões relacionadas à TI (dados e análises), não com os aspectos do projeto em si, como quanto irá custar ou quanto tempo levará para cumpri-lo. Analistas de negócios devem se atentar para entender as necessidades de negócio e observar o valor gerado pelos dados/análises da parte técnica, verificando se estão de acordo com as necessidades apresentadas. Contudo não são responsáveis por custos ou cronograma do projeto.
 
Independente do cargo de um funcionário em uma empresa, há atribuições que são trabalhadas especialmente por ele. Isso não é diferente em equipes de Ciência de Dados e Big Data. Sempre conseguimos identificar uma responsabilidade que é de um profissional específico e de nenhum outro, tendo em vista, por exemplo, sua formação na área, experiência, domínio ou simplesmente vocação.
Considerando a natureza multidisciplinar dos cientistas de dados e a quantidade de tecnologias, métodos e assuntos que eles precisam dominar, qual opção abaixo é trabalhada especialmente por eles?
Resposta incorreta.
A. 
Recuperação de desastres.
Machine learning é um tópico da alçada do cientista de dados, que é o profissional apto para o assunto. Recuperação de desastres, ciclo de vida do projeto, bancos de dados SQL e inventário dos dados brutos são assuntos trabalhados por outros perfis, mas machine learning é foco especialmente dos cientistas de dados.
Resposta correta.
B. 
Machine learning.
Machine learning é um tópico da alçada do cientista de dados, que é o profissional apto para o assunto. Recuperação de desastres, ciclo de vida do projeto, bancos de dados SQL e inventário dos dados brutos são assuntos trabalhados por outros perfis, mas machine learning é foco especialmente dos cientistas de dados.
Você não acertou!
C. 
Ciclo de vida do projeto.
Machine learning é um tópico da alçada do cientista de dados, que é o profissional apto para o assunto. Recuperação de desastres, ciclo de vida do projeto, bancos de dados SQL e inventário dos dados brutos são assuntos trabalhados por outros perfis, mas machine learning é foco especialmente dos cientistas de dados.
Resposta incorreta.
D. 
Banco de dados SQL.
Machine learning é um tópico da alçada do cientista de dados, que é o profissional apto para o assunto. Recuperação de desastres, ciclo de vida do projeto, bancos de dados SQL e inventário dos dados brutos são assuntos trabalhados por outros perfis, mas machine learning é foco especialmente dos cientistas de dados.
Resposta incorreta.
E. 
Cuidar do inventário dos dados brutos.
Machine learning é um tópico da alçada do cientista de dados, que é o profissional apto para o assunto. Recuperação de desastres, ciclo de vida do projeto, bancos de dados SQL e inventário dos dados brutos são assuntos trabalhados por outros perfis, mas machine learning é foco especialmente dos cientistas de dados.
Para uma equipe de Ciência de Dados e Big Data é importante que se conheça bem o negócio em foco e o mercado onde a empresa está inserida. Conhecer a empresa é saber o que é ou pode ser oferecido ao cliente no futuro, por exemplo; é conhecer o mercado e entender a concorrência, como cada empresa age frente aos concorrentes e o que pode ser feito para crescer nesse ambiente. É extremamente valioso para os técnicos da equipe de Ciência de Dados e Big Data ter em mãos essas informações de negócios para guiá-los no desenvolvimento de produtos e serviços orientados a dados. Dito isso, ter domínio do negócio da empresa, ser um facilitador entre o negócio e a TI e conhecer bem os produtos e serviços da própria empresa e da concorrência são atribuições de qual perfil?
Você acertou!
A. 
Analista de negócios.
As asserções do enunciado se referem a um profissional focado no negócio. Ainda, por conhecer bem os produtos e serviços da própria empresa e da concorrência, ​​​​​​​estamos falando do analista de negócios. São, portanto, atribuições exclusivas do analista de negócios.
Resposta incorreta.
B. 
Cientista de dados.
As asserções do enunciado se referem a um profissional focado no negócio. Ainda, por conhecer bem os produtos e serviços da própria empresa e da concorrência, ​​​​​​​estamos falando do analista de negócios. São, portanto, atribuições exclusivas do analista de negócios.
Resposta incorreta.
C. 
Administrador de banco de dados.
As asserções do enunciado se referem a um profissional focado no negócio. Ainda, por conhecer bem os produtos e serviços da própria empresa e da concorrência, ​​​​​​​estamos falando do analista de negócios. São, portanto, atribuições exclusivas do analista de negócios.
Resposta incorreta.
D. 
Engenheiro de dados.
As asserções do enunciado se referem a um profissional focado no negócio. Ainda, por conhecer bem os produtos e serviços da própria empresa e da concorrência, ​​​​​​​estamos falando do analista de negócios. São, portanto, atribuições exclusivas do analista de negócios.
Resposta incorreta.
E. 
Usuário solicitante.
As asserções do enunciado se referem a um profissional focado no negócio. Ainda, por conhecer bem os produtos e serviços da própria empresa e da concorrência, ​​​​​​​estamos falando do analista de negócios. São, portanto, atribuições exclusivas do analista de negócios.
Muitas profissões são evoluções de outras que já existiram, seja por necessidades de negócio, seja por conta da própria evolução tecnológica. Dito isso, qual perfil profissional voltado a dados foi o precursor do engenheiro de dados?
Resposta incorreta.
A. 
Usuário solicitante.
Os precursores dos engenheiros de dados são os administradores de banco de dados. Gerentes de projetos e analistas de negócios não têm perfis de TI, portanto não são os precursores dos engenheiros de dados. Cientistas de dados não têm como responsabilidades criar e manter bancos de dados, capturar dadose armazená-los, portanto também não são os precursores dos engenheiros de dados. Usuário solicitante pode ser qualquer colaborador da empresa que tenha uma necessidade de negócio e, ao menos que este seja também um administrador de banco de dados, ele não é o precursor do engenheiro de dados.
Resposta incorreta.
B. 
Gerente de projetos.
Os precursores dos engenheiros de dados são os administradores de banco de dados. Gerentes de projetos e analistas de negócios não têm perfis de TI, portanto não são os precursores dos engenheiros de dados. Cientistas de dados não têm como responsabilidades criar e manter bancos de dados, capturar dados e armazená-los, portanto também não são os precursores dos engenheiros de dados. Usuário solicitante pode ser qualquer colaborador da empresa que tenha uma necessidade de negócio e, ao menos que este seja também um administrador de banco de dados, ele não é o precursor do engenheiro de dados.
Você acertou!
C. 
Administrador de banco de dados.
Os precursores dos engenheiros de dados são os administradores de banco de dados. Gerentes de projetos e analistas de negócios não têm perfis de TI, portanto não são os precursores dos engenheiros de dados. Cientistas de dados não têm como responsabilidades criar e manter bancos de dados, capturar dados e armazená-los, portanto também não são os precursores dos engenheiros de dados. Usuário solicitante pode ser qualquer colaborador da empresa que tenha uma necessidade de negócio e, ao menos que este seja também um administrador de banco de dados, ele não é o precursor do engenheiro de dados.
Resposta incorreta.
D. 
Cientista de dados.
Os precursores dos engenheiros de dados são os administradores de banco de dados. Gerentes de projetos e analistas de negócios não têm perfis de TI, portanto não são os precursores dos engenheiros de dados. Cientistas de dados não têm como responsabilidades criar e manter bancos de dados, capturar dados e armazená-los, portanto também não são os precursores dos engenheiros de dados. Usuário solicitante pode ser qualquer colaborador da empresa que tenha uma necessidade de negócio e, ao menos que este seja também um administrador de banco de dados, ele não é o precursor do engenheiro de dados.
Resposta incorreta.
E. 
Analista de negócios.
Os precursores dos engenheiros de dados são os administradores de banco de dados. Gerentes de projetos e analistas de negócios não têm perfis de TI, portanto não são os precursores dos engenheiros de dados. Cientistas de dados não têm como responsabilidades criar e manter bancos de dados, capturar dados e armazená-los, portanto também não são os precursores dos engenheiros de dados. Usuário solicitante pode ser qualquer colaborador da empresa que tenha uma necessidade de negócio e, ao menos que este seja também um administrador de banco de dados, ele não é o precursor do engenheiro de dados.
Diversos materiais na Internet definem a ciência de dados como responsável apenas pelo processamento de dados. Entretanto, ela é responsável por outras etapas extremamente importantes para o uso de dados. Qual alternativa mostra a sequência correta de todas as etapas do ciclo da ciência de dados?
Resposta incorreta.
A. 
Entender o problema, coletar os dados, processar os dados, explorar as informações dos resultados e comunicar os resultados.
As etapas do ciclo da ciência de dados que devem ser seguidas são:
1- entender o problema como um todo para determinar quais variáveis são importantes;
2- coletar os dados;
3- armazenar os dados;
4- processar os dados;
5- explorar as informações dos resultados;
6- comunicar os resultados;
7- fornecer feedback ao setor que solicitou o uso da ciência de dados.
Para processar os dados, é necessário armazená-los. Após comunicar os resultados, há a última etapa, para fornecer feedback ao setor que solicitou o uso da ciência de dados. Antes de coletar os dados, é fundamental entender o problema como um todo para determinar quais variáveis são importantes. Além disso, todas as etapas apresentadas devem seguir a ordem; assim, é necessário entender o problema como um todo para determinar quais variáveis são importantes e só depois coletar os dados. A etapa de armazenamento dos dados deve ser feita antes do processamento deles.
Resposta incorreta.
B. 
Entender o problema, coletar os dados, processar os dados, explorar as informações dos resultados, comunicar os resultados e fornecer feedback.
As etapas do ciclo da ciência de dados que devem ser seguidas são:
1- entender o problema como um todo para determinar quais variáveis são importantes;
2- coletar os dados;
3- armazenar os dados;
4- processar os dados;
5- explorar as informações dos resultados;
6- comunicar os resultados;
7- fornecer feedback ao setor que solicitou o uso da ciência de dados.
Para processar os dados, é necessário armazená-los. Após comunicar os resultados, há a última etapa, para fornecer feedback ao setor que solicitou o uso da ciência de dados. Antes de coletar os dados, é fundamental entender o problema como um todo para determinar quais variáveis são importantes. Além disso, todas as etapas apresentadas devem seguir a ordem; assim, é necessário entender o problema como um todo para determinar quais variáveis são importantes e só depois coletar os dados. A etapa de armazenamento dos dados deve ser feita antes do processamento deles.
Você acertou!
C. 
Entender o problema, coletar os dados, armazenar os dados, processar os dados, explorar as informações dos resultados, comunicar os resultados e fornecer feedback.
As etapas do ciclo da ciência de dados que devem ser seguidas são:
1- entender o problema como um todo para determinar quais variáveis são importantes;
2- coletar os dados;
3- armazenar os dados;
4- processar os dados;
5- explorar as informações dos resultados;
6- comunicar os resultados;
7- fornecer feedback ao setor que solicitou o uso da ciência de dados.
Para processar os dados, é necessário armazená-los. Após comunicar os resultados, há a última etapa, para fornecer feedback ao setor que solicitou o uso da ciência de dados. Antes de coletar os dados, é fundamental entender o problema como um todo para determinar quais variáveis são importantes. Além disso, todas as etapas apresentadas devem seguir a ordem; assim, é necessário entender o problema como um todo para determinar quais variáveis são importantes e só depois coletar os dados. A etapa de armazenamento dos dados deve ser feita antes do processamento deles.
Resposta incorreta.
D. 
Coletar os dados, armazenar os dados, processar os dados, explorar as informações dos resultados, comunicar os resultados e fornecer feedback.
As etapas do ciclo da ciência de dados que devem ser seguidas são:
1- entender o problema como um todo para determinar quais variáveis são importantes;
2- coletar os dados;
3- armazenar os dados;
4- processar os dados;
5- explorar as informações dos resultados;
6- comunicar os resultados;
7- fornecer feedback ao setor que solicitou o uso da ciência de dados.
Para processar os dados, é necessário armazená-los. Após comunicar os resultados, há a última etapa, para fornecer feedback ao setor que solicitou o uso da ciência de dados. Antes de coletar os dados, é fundamental entender o problema como um todo para determinar quais variáveis são importantes. Além disso, todas as etapas apresentadas devem seguir a ordem; assim, é necessário entender o problema como um todo para determinar quais variáveis são importantes e só depois coletar os dados. A etapa de armazenamento dos dados deve ser feita antes do processamento deles.
Resposta incorreta.
E. 
Coletar os dados, entender o problema, processar os dados, armazenar os dados, explorar as informações dos resultados, comunicar os resultados e fornecer feedback.
As etapas do ciclo da ciência de dados que devem ser seguidas são:
1- entender o problema como um todo para determinar quais variáveis são importantes;
2- coletar os dados;
3- armazenar os dados;
4- processar os dados;
5- explorar as informações dos resultados;
6- comunicar os resultados;7- fornecer feedback ao setor que solicitou o uso da ciência de dados.
Para processar os dados, é necessário armazená-los. Após comunicar os resultados, há a última etapa, para fornecer feedback ao setor que solicitou o uso da ciência de dados. Antes de coletar os dados, é fundamental entender o problema como um todo para determinar quais variáveis são importantes. Além disso, todas as etapas apresentadas devem seguir a ordem; assim, é necessário entender o problema como um todo para determinar quais variáveis são importantes e só depois coletar os dados. A etapa de armazenamento dos dados deve ser feita antes do processamento deles.
O uso da ciência de dados vem se tornando comum nos últimos anos. Apesar disso, ainda existem pessoas que expressam de forma errada a correlação entre estatística e ciência de dados.
Qual é a explicação correta sobre a correlação entre estatística e ciência de dados?
Resposta incorreta.
A. 
São iguais. Ambas têm como objetivo analisar os dados.
A ciência de dados e a estatística, além de serem distintas, não são apenas para analisar dados.
Apesar de a estatística descritiva ser uma ferramenta ou método utilizado pela ciência de dados, ela não é utilizada na etapa de coletar os dados, e sim nas etapas de processar os dados e explorar as informações dos resultados. A ciência de dados é responsável por todas as etapas do ciclo de análise de dados.
Resposta incorreta.
B. 
A ciência de dados é um método utilizado pela estatística descritiva.
A ciência de dados e a estatística, além de serem distintas, não são apenas para analisar dados.
Apesar de a estatística descritiva ser uma ferramenta ou método utilizado pela ciência de dados, ela não é utilizada na etapa de coletar os dados, e sim nas etapas de processar os dados e explorar as informações dos resultados. A ciência de dados é responsável por todas as etapas do ciclo de análise de dados.
Você não acertou!
C. 
A estatística é utilizada para processar os dados, e a ciência de dados é responsável por interpretar os resultados da estatística.
A ciência de dados e a estatística, além de serem distintas, não são apenas para analisar dados.
Apesar de a estatística descritiva ser uma ferramenta ou método utilizado pela ciência de dados, ela não é utilizada na etapa de coletar os dados, e sim nas etapas de processar os dados e explorar as informações dos resultados. A ciência de dados é responsável por todas as etapas do ciclo de análise de dados.
Resposta incorreta.
D. 
A estatística é uma ferramenta da ciência de dados e é utilizada nas etapas de coleta e processamento de dados.
A ciência de dados e a estatística, além de serem distintas, não são apenas para analisar dados.
Apesar de a estatística descritiva ser uma ferramenta ou método utilizado pela ciência de dados, ela não é utilizada na etapa de coletar os dados, e sim nas etapas de processar os dados e explorar as informações dos resultados. A ciência de dados é responsável por todas as etapas do ciclo de análise de dados.
Resposta correta.
E. 
A estatística é uma ferramenta da ciência de dados e é utilizada nas etapas de processar os dados e explorar as informações dos resultados.
A ciência de dados e a estatística, além de serem distintas, não são apenas para analisar dados.
Apesar de a estatística descritiva ser uma ferramenta ou método utilizado pela ciência de dados, ela não é utilizada na etapa de coletar os dados, e sim nas etapas de processar os dados e explorar as informações dos resultados. A ciência de dados é responsável por todas as etapas do ciclo de análise de dados.
Um questionário geral visando a analisar um grupo de pessoas com acompanhamento nutricional foi desenvolvido, composto pelas variáveis sexo, peso, altura, número de filhos, telefone e mês de início do acompanhamento. Classifique a classe de cada variável e assinale a alternativa que representa a sequência correta.
Você acertou!
A. 
Qualitativa nominal, quantitativa contínua, quantitativa contínua, quantitativa discreta, qualitativa nominal e qualitativa ordinal.
A sequência correta é: qualitativa nominal, quantitativa contínua, quantitativa contínua, quantitativa discreta, qualitativa nominal e qualitativa ordinal.
A variável sexo é qualitativa nominal mesmo se fosse utilizado número no lugar de letra para indicar sexo masculino (1) ou feminino (2).
As variáveis peso e altura podem assumir valores não inteiros, ou seja, são quantitativas contínuas.
A variável número de filhos só pode assumir valores discretos, ou seja, é quantitativa discreta.
O telefone, apesar de ser composto por números, não apresenta valores quantitativos, nem pode ser ordenado, ou seja, é uma variável qualitativa nominal.
O mês de início do acompanhamento é qualitativa ordinal, uma vez que existe uma ordenação entre as categorias.
Resposta incorreta.
B. 
Qualitativa nominal, quantitativa contínua, quantitativa contínua, quantitativa discreta, quantitativa discreta e qualitativa ordinal.
A sequência correta é: qualitativa nominal, quantitativa contínua, quantitativa contínua, quantitativa discreta, qualitativa nominal e qualitativa ordinal.
A variável sexo é qualitativa nominal mesmo se fosse utilizado número no lugar de letra para indicar sexo masculino (1) ou feminino (2).
As variáveis peso e altura podem assumir valores não inteiros, ou seja, são quantitativas contínuas.
A variável número de filhos só pode assumir valores discretos, ou seja, é quantitativa discreta.
O telefone, apesar de ser composto por números, não apresenta valores quantitativos, nem pode ser ordenado, ou seja, é uma variável qualitativa nominal.
O mês de início do acompanhamento é qualitativa ordinal, uma vez que existe uma ordenação entre as categorias.
Resposta incorreta.
C. 
Qualitativa ordinal, quantitativa contínua, quantitativa contínua, quantitativa discreta, qualitativa nominal e qualitativa ordinal.
A sequência correta é: qualitativa nominal, quantitativa contínua, quantitativa contínua, quantitativa discreta, qualitativa nominal e qualitativa ordinal.
A variável sexo é qualitativa nominal mesmo se fosse utilizado número no lugar de letra para indicar sexo masculino (1) ou feminino (2).
As variáveis peso e altura podem assumir valores não inteiros, ou seja, são quantitativas contínuas.
A variável número de filhos só pode assumir valores discretos, ou seja, é quantitativa discreta.
O telefone, apesar de ser composto por números, não apresenta valores quantitativos, nem pode ser ordenado, ou seja, é uma variável qualitativa nominal.
O mês de início do acompanhamento é qualitativa ordinal, uma vez que existe uma ordenação entre as categorias.
Resposta incorreta.
D. 
Qualitativa nominal, quantitativa contínua, quantitativa contínua, quantitativa contínua, qualitativa nominal e qualitativa ordinal.
A sequência correta é: qualitativa nominal, quantitativa contínua, quantitativa contínua, quantitativa discreta, qualitativa nominal e qualitativa ordinal.
A variável sexo é qualitativa nominal mesmo se fosse utilizado número no lugar de letra para indicar sexo masculino (1) ou feminino (2).
As variáveis peso e altura podem assumir valores não inteiros, ou seja, são quantitativas contínuas.
A variável número de filhos só pode assumir valores discretos, ou seja, é quantitativa discreta.
O telefone, apesar de ser composto por números, não apresenta valores quantitativos, nem pode ser ordenado, ou seja, é uma variável qualitativa nominal.
O mês de início do acompanhamento é qualitativa ordinal, uma vez que existe uma ordenação entre as categorias.
Resposta incorreta.
E. 
Qualitativa nominal, quantitativa contínua, quantitativa discreta, quantitativa discreta, qualitativa nominal e qualitativa ordinal.
A sequência correta é: qualitativa nominal, quantitativa contínua, quantitativa contínua, quantitativa discreta, qualitativa nominal e qualitativa ordinal.
A variável sexo é qualitativa nominal mesmo se fosse utilizado número no lugar de letra para indicar sexo masculino (1) ou feminino (2).
As variáveis peso e altura podem assumir valores nãointeiros, ou seja, são quantitativas contínuas.
A variável número de filhos só pode assumir valores discretos, ou seja, é quantitativa discreta.
O telefone, apesar de ser composto por números, não apresenta valores quantitativos, nem pode ser ordenado, ou seja, é uma variável qualitativa nominal.
O mês de início do acompanhamento é qualitativa ordinal, uma vez que existe uma ordenação entre as categorias.
4. 
Em uma escola no interior de São Paulo, é comum que o professor de Educação Física faça a medição de altura dos alunos no início do ano letivo e faça uma comparação entre as alturas medidas. Para isso, o professor mediu a altura de 100 alunos e montou uma tabela com a distribuição de frequência de altura.
O que é possível concluir a partir da tabela?
​​​​​​​
Você não acertou!
A. 
A maioria dos alunos tem entre 1,65 e 1,70m de altura. A minoria dos alunos tem entre 1,50 e 1,55m. Do total de alunos, 59% têm entre 1,50 e 1,70m.
A partir dos dados da tabela, é possível verificar que a maioria dos alunos tem entre 1,70 e 1,75m de altura. A minoria dos alunos tem entre 1,75 e 1,80m. E, do total de alunos, 59% têm entre 1,50 e 1,70m.
Resposta correta.
B. 
A maioria dos alunos tem entre 1,70 e 1,75m de altura. A minoria dos alunos tem entre 1,75 e 1,80m. Do total de alunos, 59% têm entre 1,50 e 1,70m.
A partir dos dados da tabela, é possível verificar que a maioria dos alunos tem entre 1,70 e 1,75m de altura. A minoria dos alunos tem entre 1,75 e 1,80m. E, do total de alunos, 59% têm entre 1,50 e 1,70m.
Resposta incorreta.
C. 
A maioria dos alunos tem entre 1,70 e 1,75m de altura. A minoria dos alunos tem entre 1,50 e 1,55m. Do total de alunos, 92% têm entre 1,50 e 1,70m.
A partir dos dados da tabela, é possível verificar que a maioria dos alunos tem entre 1,70 e 1,75m de altura. A minoria dos alunos tem entre 1,75 e 1,80m. E, do total de alunos, 59% têm entre 1,50 e 1,70m.
Resposta incorreta.
D. 
A maioria dos alunos tem entre 1,65 e 1,70m de altura. A minoria dos alunos tem entre 1,75 e 1,80m. Do total de alunos, 59% têm entre 1,50 e 1,70m.
A partir dos dados da tabela, é possível verificar que a maioria dos alunos tem entre 1,70 e 1,75m de altura. A minoria dos alunos tem entre 1,75 e 1,80m. E, do total de alunos, 59% têm entre 1,50 e 1,70m.
Resposta incorreta.
E. 
A maioria dos alunos tem entre 1,70 e 1,75m de altura. A minoria dos alunos tem entre 1,75 e 1,80m. Do total de alunos, 40% têm entre 1,50 e 1,70m.
A partir dos dados da tabela, é possível verificar que a maioria dos alunos tem entre 1,70 e 1,75m de altura. A minoria dos alunos tem entre 1,75 e 1,80m. E, do total de alunos, 59% têm entre 1,50 e 1,70m
 
A estatística descritiva é responsável pela etapa inicial de análise de dados. Por meio de suas métricas, é possível analisar a posição das variáveis e analisar a dispersão.
Escolha a alternativa que melhor explica as medidas em estatística descritiva.
Resposta incorreta.
A. 
Média, mediana, moda e quartis (1.º e 3.º) são medidas para análise de posição. A média é a soma de todas as observações dividida pelo número total de observações. A mediana é o valor que a variável assume com maior frequência. A moda, também conhecida como 2.º quartil, indica um valor que é maior que 50% das amostras ordenadas. O 1.º quartil (25%) indica um valor em que 25% das amostras ordenadas são menores, e o 3.º quartil (75%) indica um valor em que 75% das amostras ordenadas são menores. A amplitude e o coeficiente de variação são medidas de dispersão. A amplitude é dada pela diferença entre o valor máximo e o valor mínimo da variável. O coeficiente de variação é uma medida de dispersão relativa, que elimina o efeito da magnitude dos dados.
Média, mediana, moda e quartis (1.º e 3.º) são medidas para análise de posição.
O 1.º quartil (25%) indica um valor em que 25% das amostras ordenadas são menores, e o 3.º quartil (75%) indica um valor em que 75% das amostras ordenadas são menores.
A média é a soma de todas as observações dividida pelo número total de observações.
A moda é o valor que a variável assume com maior frequência.
A mediana, também conhecida como 2.º quartil, indica um valor que é maior que 50% das amostras ordenadas.
A amplitude e o coeficiente de variação são medidas de dispersão. A amplitude é dada pela diferença entre o valor máximo e o valor mínimo da variável. O coeficiente de variação é uma medida de dispersão relativa, que elimina o efeito da magnitude dos dados.
Resposta incorreta.
B. 
Média, mediana, moda e amplitude são medidas para análise de posição. A média é a soma de todas as observações dividida pelo número total de observações. A moda é o valor que a variável assume com maior frequência. A mediana, também conhecida como 2.º quartil, indica um valor que é maior que 50% das amostras ordenadas. A amplitude é dada pela diferença entre o valor máximo e o valor mínimo da variável. Os quartis (1.º e 3.º) e o coeficiente de variação são medidas de dispersão. O 1.º quartil (25%) indica um valor em que 25% das amostras ordenadas são menores, e o 3.º quartil (75%) indica um valor em que 75% das amostras ordenadas são menores. O coeficiente de variação é uma medida de dispersão relativa, que elimina o efeito da magnitude dos dados.
Média, mediana, moda e quartis (1.º e 3.º) são medidas para análise de posição.
O 1.º quartil (25%) indica um valor em que 25% das amostras ordenadas são menores, e o 3.º quartil (75%) indica um valor em que 75% das amostras ordenadas são menores.
A média é a soma de todas as observações dividida pelo número total de observações.
A moda é o valor que a variável assume com maior frequência.
A mediana, também conhecida como 2.º quartil, indica um valor que é maior que 50% das amostras ordenadas.
A amplitude e o coeficiente de variação são medidas de dispersão. A amplitude é dada pela diferença entre o valor máximo e o valor mínimo da variável. O coeficiente de variação é uma medida de dispersão relativa, que elimina o efeito da magnitude dos dados.
Resposta incorreta.
C. 
Média, mediana, moda e quartis (1.º e 3.º) são medidas para análise de posição. A média é a soma de todas as observações dividida pelo número total de observações. A moda é o valor que a variável assume com maior frequência. A mediana, também conhecida como 2.º quartil, indica um valor que é maior que 50% das amostras ordenadas. O 1.º quartil (25%) indica um valor em que 25% das amostras ordenadas são menores, e o 3.º quartil (75%) indica um valor em que 75% das amostras ordenadas são menores. A amplitude e o coeficiente de variação são medidas de dispersão. A amplitude é dada pela diferença entre o valor máximo e o valor mínimo da variável. O coeficiente de variação é uma medida de dispersão relativa, que considera o efeito da magnitude dos dados.
Média, mediana, moda e quartis (1.º e 3.º) são medidas para análise de posição.
O 1.º quartil (25%) indica um valor em que 25% das amostras ordenadas são menores, e o 3.º quartil (75%) indica um valor em que 75% das amostras ordenadas são menores.
A média é a soma de todas as observações dividida pelo número total de observações.
A moda é o valor que a variável assume com maior frequência.
A mediana, também conhecida como 2.º quartil, indica um valor que é maior que 50% das amostras ordenadas.
A amplitude e o coeficiente de variação são medidas de dispersão. A amplitude é dada pela diferença entre o valor máximo e o valor mínimo da variável. O coeficiente de variação é uma medida de dispersão relativa, que elimina o efeito da magnitude dos dados.
Resposta incorreta.
D. 
Média, mediana, moda e quartis (1.º e 3.º) são medidas para análise de posição. A média é a soma de todas as observações dividida pelo número total de observações. A moda é o valor que a variável assume com maior frequência. A mediana, também conhecida como 2.º quartil, indica um valor que é maior que 50% das amostras ordenadas. O 1.º quartil (25%) indica um valor em que 25% das amostras ordenadas são menores, e o 3.º quartil (75%) indica um valor em que 75% das amostras ordenadassão menores. A amplitude e o coeficiente de variação são medidas de dispersão. A amplitude é o valor máximo que a variável assume. O coeficiente de variação é uma medida de dispersão relativa, que elimina o efeito da magnitude dos dados.
Média, mediana, moda e quartis (1.º e 3.º) são medidas para análise de posição.
O 1.º quartil (25%) indica um valor em que 25% das amostras ordenadas são menores, e o 3.º quartil (75%) indica um valor em que 75% das amostras ordenadas são menores.
A média é a soma de todas as observações dividida pelo número total de observações.
A moda é o valor que a variável assume com maior frequência.
A mediana, também conhecida como 2.º quartil, indica um valor que é maior que 50% das amostras ordenadas.
A amplitude e o coeficiente de variação são medidas de dispersão. A amplitude é dada pela diferença entre o valor máximo e o valor mínimo da variável. O coeficiente de variação é uma medida de dispersão relativa, que elimina o efeito da magnitude dos dados.
Você acertou!
E. 
Média, mediana, moda e quartis (1.º e 3.º) são medidas para análise de posição. A média é a soma de todas as observações dividida pelo número total de observações. A moda é o valor que a variável assume com maior frequência. A mediana, também conhecida como 2.º quartil, indica um valor que é maior que 50% das amostras ordenadas. O 1.º quartil (25%) indica um valor em que 25% das amostras ordenadas são menores, e o 3.º quartil (75%) indica um valor em que 75% das amostras ordenadas são menores. A amplitude e o coeficiente de variação são medidas de dispersão. A amplitude é dada pela diferença entre o valor máximo e o valor mínimo da variável. O coeficiente de variação é uma medida de dispersão relativa, que elimina o efeito da magnitude dos dados.
Média, mediana, moda e quartis (1.º e 3.º) são medidas para análise de posição.
O 1.º quartil (25%) indica um valor em que 25% das amostras ordenadas são menores, e o 3.º quartil (75%) indica um valor em que 75% das amostras ordenadas são menores.
A média é a soma de todas as observações dividida pelo número total de observações.
A moda é o valor que a variável assume com maior frequência.
A mediana, também conhecida como 2.º quartil, indica um valor que é maior que 50% das amostras ordenadas.
A amplitude e o coeficiente de variação são medidas de dispersão. A amplitude é dada pela diferença entre o valor máximo e o valor mínimo da variável. O coeficiente de variação é uma medida de dispersão relativa, que elimina o efeito da magnitude dos dados.
1 - Introdução a Big Data
1. 
A definição de big data parte de cinco características, conhecidas como 5 Vs do big data, a saber: volume, velocidade, variedade, valor e veracidade.
Das alternativas a seguir, aponte aquela que apresenta circunstâncias em que a velocidade é o motor principal e, assim, é preciso tomar decisões rápidas:
C. 
Caldeira com monitoramento de temperatura; dados de um vírus altamente contagioso; e monitoramento de hashtags na ocorrência de desastre natural.
 
2. 
Uma parte muito importante do contexto big data é a ingestão dos dados. A partir disso, analise o seguinte cenário:
Uma empresa tem dados oriundos do sensor RFID do sistema de ponto eletrônico e também diversas planilhas eletrônicas em cinco diferentes departamentos, totalizando mais de 15 milhões de registros feitos nos últimos 20 anos. É necessário unificar esses dados em um repositório único, a fim de que a análise e o processamento fiquem mais fáceis.
Diante do exposto, qual é a solução possível no contexto de big data?
C. 
É possível unir todos os arquivos em um repositório comum, em um sistema HDFS, inclusive, em estrutura de cluster, a fim de compor a segurança, a replicação e a confiabilidade.
3. 
O conjunto big data & analytics é uma denominação da IBM para a correlação entre big data, mineração de dados e inteligência do negócio. No entanto, para que se tenha uma mineração com êxito, precisa-se do conceito de veracidade no contexto do big data.
Considerando um cenário em que não há o controle de qualidade dos dados, o que pode ser feito para garantir a veracidade?
C. 
Utilizar um padrão organizado de governança de dados, por meio do DAMA DMBok framework, e realizar análises exploratórias para verificação dos dados e acompanhamento contínuo de qualidade.
 
4. 
Analise o seguinte cenário:
Uma empresa fintech realiza empréstimo, prospecção de clientes, análise de fotos de perfis e verificação de análise de sentimento em comentários do aplicativo; faz uso de bloco de notas (arquivo CSV) para anotar registros em formato tabular dentro de departamentos; e envia e-mails automáticos de marketing para bons perfis, de acordo com um sistema de machine learning de análise de crédito.
Para iniciar o processo de organização dos dados dessa empresa, o que se pode afirmar sobre os dados estruturados e não estruturados citados?
C. 
Os dados não estruturados são diferentes dos estruturados. Um exemplo de um contexto não estruturado seria a ingestão de textos dos comentários em uma estrutura Hbase, dentro do Hadoop, e a posterior análise de sentimento.
 
5. 
A mineração de dados é um processo de aquisição de conhecimento por meio do que o big data entrega como informação, ou seja, é a descoberta da informação por meio dos dados.
Considere uma empresa que precisa ter mais conhecimento para a melhoria de suas vendas. Essa empresa tem vendas mensais de 50 peças, visitação de 10 clientes diários, em média, e dispõe de dados pessoais do cliente, incluindo sexo, idade e frequência de compra; dados completos do fornecedor; links das redes sociais de cada cliente, por meio de um cadastro voluntário após a compra; e dados oriundos de um sensor que realiza a contagem de quantas vezes o cliente passa por cada corredor. No entanto, não há nada formal cadastrado em bancos de dados ou qualquer outra estrutura, além de planilhas e anotações digitais.
Diante desse cenário, pode-se concluir que:
B. 
pelo relato, a empresa não tem um ambiente big data, e, portanto, é possível simplesmente organizar dados estruturados em bancos relacionais e dados não estruturados em bancos NoSQL, a fim de que, posteriormente, seja realizada alguma mineração.
[11:23, 09/01/2023] Marcio Rocha Atual: 2 - O ecossistema de Big Data
1. 
Em um contexto geral, o Data Lake representa um repositório para grandes quantidades de dados. Portanto, pode-se afirmar que o Data Lake é:
A. 
uma tecnologia para Big Data.
 
2. 
O Apache Hadoop apresenta um ecossistema de tecnologias que auxiliam no gerenciamento de dados. Quais dos nomes a seguir fazem parte desse ecossistema?
C. 
Apache Spark e Apache Sqoop.
 
3. 
Uma das ferramentas que ganhou mais notoriedade nos últimos anos é o Apache Spark. Qual é o seu diferencial?
A. 
O Apache Spark tem como diferencial o uso da escrita em memória, em vez de fazer várias chamadas ao disco rígido, aumentando sua velocidade no processamento dos dados.
 
4. 
As camadas do ecossistema de Big Data são responsáveis por cuidar de to…
[11:29, 09/01/2023] Marcio Rocha Atual: 3 - Ciência de dados e Big Data
1. 
Os dados podem ser considerados recursos ativos gerados automaticamente em toda atividade exercida; se tratados e analisados têm grande valor para o mercado. Assinale a alternativa que contempla a definição correta sobre o dado.
A. 
É uma quantidade de fatos não analisados.
 
2. 
A obtenção dos dados ocorre por meio de diversas fontes: e-mails, redes sociais, smartphones, tablets, entre outros. Dessa forma, com o passar do tempo, recursos computacionais se tornaram necessários para que tudo isso possa ser aproveitado pelo mundo corporativo.
Assinale a alternativa que apresenta os passos percorridos pelo dado durante seu uso na tomada de decisões corporativas.
C. 
Coleta dos dados, armazenamento, tratamento e análise.
 
3. 
A ciência de dados traz a multidisciplinaridade para o mundo dos dados, e, agindo em conjunto com tecnologias e ferramentas Big Data, pode contribuir para a geração e diversificação de novos negócios.
Assinale a alternativa que traz

Continue navegando