Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.
left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

left-side-bubbles-backgroundright-side-bubbles-background

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Prévia do material em texto

Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova!
Parte superior do formulário
1)
I. Na fase de descoberta de dados, a equipe de ETL deve aprofundar mais na descoberta dos dados para determinar cada sistema, tabela e atributo de origem necessário para carregar o data warehouse. 
PORQUE
II. Deve-se determinar a fonte adequada para cada elemento, em que, uma boa análise, evita atrasos causados pelo uso de uma fonte errada.
Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas
Alternativas:
· A primeira asserção está incorreta e a segunda está incorreta
· A primeira asserção está correta e a segunda está incorreta.
· As duas asserções estão corretas e a segunda justifica a primeira
checkCORRETO
· As duas asserções estão corretas e a segunda não justifica a primeira.
· A primeira asserção está incorreta e a segunda está correta.
Resolução comentada: 
As duas asserções estão corretas e a segunda justifica a primeira. Na fase de descoberta de dados, a equipe de ETL deve aprofundar mais na descoberta dos dados para determinar cada sistema, tabela e atributo de origem necessário para carregar o data warehouse porque deve-se determinar a fonte adequada para cada elemento, em que, uma boa análise, evita atrasos causados pelo uso de uma fonte errada.
Código da questão: 42838
2)
Um ___________ é uma variação ou ____________ aleatório observado em uma ______________ medida, podendo introduzir erros nos ____________.
Assinale a alternativa que completa adequadamente as lacunas acima:
Alternativas:
· ruído – erro – variável - resultados.
checkCORRETO
· ruído – erro – análise - resultados.
· ruído – mudança – variável - resultados.
· ruído – erro – variável - ruídos.
· desvio – erro – variável - resultados.
Resolução comentada: 
O ruído se mostra como uma variação ou erro que se observa em uma variável que está sendo medida, podendo assim, apresentar erros nos resultados.
Código da questão: 42840
3)
São técnicas para suavização de ruídos:
( ) Compartimentalização (binning)
( ) Regressão Linear 
( ) Mineração de Dados
( ) Agrupamento (clustering)
( ) Regressão Não-Linear
Assinale a alternativa que contenha a sequência correta:
Alternativas:
· V – V – F – V – F
· V – V – F – V – V
checkCORRETO
· V – V – V – F – V
· V – V – V – V – V
· V – V – V – F – F
Resolução comentada: 
São técnicas para suavização de ruídos a compartimentalização (binning), a regressão linear, o agrupamento (clustering) e a regressão não-linear. Mineração de dados não é um método de suavização de ruídos porque é o exame de dados já coletados, resultando em informações.
Código da questão: 42842
4)
De acordo com Kimbal e Caserta (2009), a conformação ou integração de dados diz respeito a criação de dimensões e instâncias de fatos configuradas, combinando as melhores informações de várias fontes de dados em uma visão mais abrangente. Dentre um dos problemas para conformação, estão dados duplicados e vários atributos podendo ser obtidos a partir de um outro atributo ou conjunto de valores. Assinale a alternativa que apresente, corretamente, qual o problema descrito acima:
Alternativas:
· Unidades diferentes.
· Identificação de Entidades.
· Conflito de Valores.
· Valores que os campos podem assumir.
· Redundância.
checkCORRETO
Resolução comentada: 
A redundância é um dos problemas que trata dados duplicados e vários atributos, podendo ser obtidos a partir de outro atributo ou conjunto de valores.
Código da questão: 42844
5)
A transformação de dados consiste em transformar ou consolidar os dados em um formato mais adequado para o data warehouse. São considerados tipos de transformação:
( ) Suavização.
( ) Agregação. 
( ) Generalização.
( ) Normalização.
( ) Redundância.
Assinale a alternativa que contenha a sequência correta:
Alternativas:
· V – V – V – V – F
checkCORRETO
· V – V – V – F – F
· V – V – F – V – V
· V – V – F – V – F
· V – V – V – V – V
Resolução comentada: 
São técnicas para transformação de dados a suavização, agregação, generalização e normalização. A redundância é um tipo de problema relacionado à conformação de dados.
Código da questão: 42847
6)
Antes de se construir um sistema de ______________, é necessário criar um mapa ________________, que documente a relação entre ________________ e ________________ da tabela.
Assinale a alternativa que completa adequadamente as lacunas acima:
Alternativas:
· sistema de carregamento – de dados lógico – campos de origem – campos de destino.
· sistema de conformação – de dados lógico – campos de origem – campos de destino.
· sistema de extração – de dados lógico – campos de origem – campos de destino.
checkCORRETO
· sistema de transformação – de dados lógico – campos de origem – campos de destino.
· sistema de limpeza – de dados lógico – campos de origem – campos de destino.
Resolução comentada: 
As palavras que completam as lacunas são “sistema de extração – de dados lógico – campos de origem – campos de destino”. Para se criar um sistema de extração é necessário criar um mapa de dados lógico que tem por objetivo documentar a relação existente entre os campos de origem e os campos de destino da tabela.
Código da questão: 42835
7)
Existem vários métodos para identificar os candidatos de registro alterados para carga de ETL do microbatch no data warehouse em tempo real:
( ) Timestamps.
( ) Tabelas de log ETL.
( ) Log dos SGBD.
( ) Incompatibilidade de dados.
( ) Monitores de Rede.
Assinale a alternativa que contenha a sequência correta:
Alternativas:
· V – V – F – V – F.
· V – V – V – F – V.
checkCORRETO
· V – V – F – V – V.
· V – V – V – F – F.
· V – V – V – V – V.
Resolução comentada: 
Os vários métodos para identificar os candidatos de registro alterados para carga de ETL do microbatch no data warehouse em tempo real são: Timestamps (método que permite gravações frequentes de registros de data e hora nos sistemas para as alterações e leituras frequentes), tabelas de log ETL (tabelas que contém o identificados do registro novo ou alterado), Log dos SGBD (usados para identificar novas transações e transações alteradas) e Monitores de Rede (utilitários que monitoram algum conjunto de tráfego em um rede, filtrando e registrando o tráfego).
Código da questão: 42857
8)
O uso de banco de dados é essencial para o processo de manipulação de dados, porém para fins analíticos é de difícil uso, sendo indicado o uso de um data warehouse. Assinale a alternativa que apresenta, corretamente, o principal objetivo de um data warehouse:
Alternativas:
· Transformação de dados
· Armazenamento de dados
· Alteração de dados
· Auxiliar à tomada de decisões
checkCORRETO
· Recuperação de dados
Resolução comentada: 
O principal objetivo de um data warehouse é auxiliar as organizações na tomada de decisões, pois fornece dados que podem ser utilizados para fins analíticos.
Código da questão: 42817
9)
Dados dimensionais para dimensões grandes e complexas como cliente, fornecedor ou produto são frequentemente extraídos de várias fontes em diferentes momentos. Isso requer atenção especial ao reconhecimento da mesma entidade dimensional em vários sistemas de origem. Assinale a alternativa que apresente, corretamente, um conflito que pode ocorrer.
Alternativas:
· Conflito de chaves.
· Conflito em descrições sobrepostas.
checkCORRETO
· Conflito com dimensões grandes.
· Conflito de extração de dados.
· Conflito de data e hora
Resolução comentada: 
Ao se utilizar dados dimensionais para dimensões grandes e complexas, é necessário uma atenção especial para reconhecer da mesma entidade dimensional em vários sistemas de origem um conflito em descrições sobrepostas.
Código da questão: 42853
10)
Segundo Kimball e Caserta (2009), a chave primáriafica armazenada em um único campo contendo um valor inteiro único chamado valor substituto. Assinale a alternativa que apresente, corretamente, a forma de relação que deve ser realizada com essas chaves.
Alternativas:
· Criar e inserir chaves.
· Criar e inserir chaves primárias.
· Criar e inserir chaves substitutas.
checkCORRETO
· Criar e inserir chaves primárias e substitutas.
· Criar e inserir dados.
Resolução comentada: 
A chave primária fica armazenada em um único campo contendo um valor inteiro único chamado valor substituto. O processo de ETL do data warehouse deve sempre criar e inserir as chaves substitutas, isto é, o data warehouse possui essas chaves e nunca permite que outra entidade as atribua.
Código da questão: 42849
Parte inferior do formulário
Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova!
Parte superior do formulário
1)
Sobre a produção de visualização de dados, existe uma série de quesitos que devem ser levados em conta para que possam ser escolhidos os gráficos adequados e apropriados para a apresentação de informações. Considerando este contexto, avalie as afirmativas e assinale (V) se verdadeira e (F) se falsa.
( ) Para que sejam utilizados métodos de visualização de dados apropriados é sempre importante levar em conta o público a que se deseja atingir. 
( ) As visualizações de dados podem ser classificadas em estáticas, dinâmicas e interativas.
( ) Sempre existe um contexto histórico associado a uma imagem resultante de um trabalho de pesquisa. 
( ) Visualizar dados permite resumir informações, comunicar de forma efetiva o que se deseja ajuda a compreender os resultados com rapidez, dentre outras coisas.
( ) Os estudiosos do assunto sugerem que o estudo sobre visualização de dados seja iniciado com informações/variáveis quantitativas.
Assinale a alternativa que apresenta a sequência CORRETA, respectivamente.
Alternativas:
· F – F – F – F – F.
· V – V – F – F – F.
· V – V – V – V – V.
checkCORRETO
· F – V – V – F – F.
· V – V – V – F – F.
Resolução comentada: 
Para que sejam utilizados métodos de visualização de dados apropriados é sempre importante levar em conta o público a que se deseja atingir. As visualizações de dados podem ser classificadas em estáticas, dinâmicas e interativas. Sempre existe um contexto histórico associado a uma imagem resultante de um trabalho de pesquisa. Visualizar dados permite resumir informações, comunicar de forma efetiva o que se deseja ajuda a compreender os resultados com rapidez, dentre outras coisas, e os conhecedores do assunto sugerem que o estudo sobre visualização de dados seja iniciado com informações/variáveis quantitativas.
Código da questão: 43768
2)
Sobre as intenções que justificam a elaboração de um dashboard, avalie as asserções a seguir.
I. As informações que devem constar em um dashboard estão diretamente relacionadas com os objetivos da empresa que o produz. 
PORQUE
II. Sempre que se elabora um dashboard, as intenções que estimularam a sua elaboração, em geral, podem variar a depender do ambiente, corporativo ou acadêmico.
Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas:
Alternativas:
· A asserção I está incorreta e a asserção II está correta.
· A asserção I está correta e a asserção II está incorreta.
· As asserções I e II estão incorretas.
· As asserções I e II estão corretas, mas a segunda não justifica a primeira.
checkCORRETO
· As asserções I e II estão corretas e a segunda justifica a primeira.
Resolução comentada: 
As informações que devem constar em um dashboard estão diretamente relacionadas com os objetivos da empresa que o produz, por isso elas podem variar consideravelmente, não podendo ser padronizadas.
Código da questão: 43774
3)
Estamos em tempos de massiva produção de dados. Por causa disso, existe uma intensa corrida tecnológica em busca de ferramentas adequadas para o armazenamento e tratamento analítico desses dados para transformá-los em informação útil para a sociedade. Existe um conceito que denomina essa produção intensa de dados. Qual o nome atribuído para esta situação?
Assinale a alternativa CORRETA.
Alternativas:
· Análise exploratória.
· Visualização.
· Dados qualitativos.
· Big Data.
checkCORRETO
· Estatísticas.
Resolução comentada: 
O movimento de intensa geração de dados que exige ferramentas apropriadas para armazenamento e tratamento dos mesmos é conhecido com Big Data.
Código da questão: 43760
4)
Existe uma biblioteca de geração de mapas para web e para dispositivos móveis que tem como principal vantagem a facilidade na troca entre fornecedores de mapas, agregando flexibilidade à exibição de mapas de diversas fontes. A qual ferramenta estamos nos referindo?
Assinale a alternativa CORRETA.
Alternativas:
· Chart.js.
· JavaScript.
· Leaflet.
checkCORRETO
· Weka.
· Google charts.
Resolução comentada: 
A biblioteca Leaflet foi criada para gerar mapas na web e em dispositivos móveis e tem como uma das principais vantagens a facilidade na troca entre fornecedores de mapas, agregando flexibilidade à exibição de mapas de diversas fontes.
Código da questão: 43790
5)
Falar em OLAP é falar de um conceito amplo que inclui desde softwares até bancos de dados, dentre outros mecanismos. No entanto, quando se fala de função básica de uma ferramenta OLAP, estamos nos referindo a quais atividades?
Assinale a alternativa CORRETA.
Alternativas:
· Visualização unidimensional e descarregamento de dados.
· Visualização multidimensional e exploração de dados.
checkCORRETO
· Visualização unidimensional e exploração de dados.
· Armazenamento e visualização multidimensional de dados.
· Armazenamento e descarregamento de dados.
Resolução comentada: 
Como função básica de uma ferramenta OLAP, pode-se enumerar: (1) visualização multidimensional de dados; e (2) exploração de dados.
Código da questão: 43780
6)
Muitos especialistas afirmam que há uma relação direta entre business intelligence (BI) e data discovery. A respeito disto, avalie as afirmações a seguir.
I. BI trabalha unicamente com dados internos, como ERP e CRM.
II. BI é considerado o processo tradicional de tomada de decisões.
III. BI necessariamente tem relação direta com um data warehouse.
IV. Data Discovery também tem relação única com data warehouse.
V. Data Discovery só pode ser realizado com perguntas pré-determinadas.
Assinale a alternativa que contém as alternativas VERDADEIRAS.
Alternativas:
· IV e V.
· II, III e IV.
· I, II e III.
checkCORRETO
· III e IV.
· I, II e IV.
Resolução comentada: 
BI é o método tradicional de lidar com métodos analíticos e data Discovery é um conceito mais avançado, que pode ser realizado sem perguntas pré-determinadas.
Código da questão: 43787
7)
A respeito de característica de data discovery, avalie a afirmativa a seguir para completar suas lacunas corretamente.
Um dos diferenciais do conceito de data discovery é, segundo especialistas, que seu ____________ permite identificar ____________sem respostas, ou seja, é possível identificar itens ou elementos que não seriam possíveis de ver com outra ____________.
Assinale a alternativa que contém as palavras adequadas às lacunas. :
Alternativas:
· armazenamento; análises; análise.
· produto; visualização; análise.
· produto; perguntas; análise.
· processo; visualização; metodologia.
· processo; perguntas; metodologia.
checkCORRETO
Resolução comentada: 
Um dos diferenciais do conceito de data discovery é, segundo especialistas, que seu processo permite identificar perguntas sem respostas, ou seja, é possível identificar itens ou elementos que não seriam possíveis de ver com outra metodologia. Isso ocorre, principalmente, com a visualização de dados, ou seja, o data discovery, ondeé possível identificar padrões e tendências mais facilmente e, a partir disto, levantar hipóteses e questionamentos.
Código da questão: 43786
8)
Sobre a diversidade de ferramentas para visualização de dados na web, avalie as afirmativas a seguir e assinale (V) se verdadeira e (F) se falsa.
( ) A biblioteca Dygraphs foi criada com linguagem JavaScript e tem código open source. 
( ) Existe um pacote em linguagem R que permite o uso da biblioteca Dygraphs dentro do RStudio.
( ) A biblioteca Highcharts foi criada com base em SVG. 
( ) A biblioteca Highcharts tem a limitação de ter sido criada unicamente para dispositivos móveis.
( ) A biblioteca Google Charts exige conhecimento de programa R.
Assinale a alternativa que contenha a sequência CORRETA.
Alternativas:
· V – V – V – F – F.
checkCORRETO
· F – F – F – F – F.
· F – V – F – V – F.
· V – V – V – V – V.
· V – F – V – F – V.
Resolução comentada: 
A biblioteca Dygraphs foi criada com linguagem JavaScript e tem código open source. Existe um pacote em linguagem R que permite o uso da biblioteca Dygraphs dentro do RStudio. A biblioteca Highcharts foi criada com base em SVG (Scalable Vector Graphics). A biblioteca Highcharts foi criada para Web e dispositivos móveis. A biblioteca Google Charts NÃO exige conhecimento de programa R.
Código da questão: 43793
9)
Sobre OLAP e conceitos associados, avalie as afirmativas a seguir e classifique com (V) se verdadeira e (F) se falsa.
( ) OLAP e data warehouse são conceitos que caminham juntos, porque não se pode falar de um sem falar do outro. 
( ) Cubo OLAP são formas de relacionamento entre o data warehouse e o usuário.
( ) A visão multidimensional de dados só permite a visualização de dados. 
( ) A dimensão de visualização de dados via OLAP é a mesma de recursos data mining.
( ) A multidimensionalidade dos dados se dá porque os dados podem ser observados em diversas faces.
Assinale a alternativa que contenha a sequência correta:
Alternativas:
· V – V – F – F – V.
checkCORRETO
· F – F – F – F – F.
· F – V – F – V – F.
· V – V – F – V – F.
· V – V – V – V – V.
Resolução comentada: 
OLAP e data warehouse são conceitos que caminham juntos, porque não se pode falar de um sem falar do outro. Cubo OLAP são formas de relacionamento entre o data warehouse e o usuário. A dimensão de visualização de dados via OLAP não é a mesma de recursos data mining, pois OLAP permite visualização multidimensional e data mining permite visualização unidimensional. A multidimensionalidade dos dados se dá porque os dados podem ser observados em diversas faces.
Código da questão: 43783
10)
Sobre a linguagem de programação R, a qual também é utilizada para produção de visualização de dados, analise a afirmativa a seguir para completar suas lacunas corretamente.
A linguagem de programação R, conforme definem Oliveira, Guerra e McDonnell (2018, p. 10), pode ser entendida como “um conjunto de ____________ e ferramentas ____________, munido de funções que facilitam sua utilização, desde a criação de simples ____________ até análises de dados complexas”.
Referência: OLIVEIRA, P.F.; GUERRA, S.; McDONNELL, R. Ciência de dados com R: introdução. Brasília: IBPAD, 2018.
Assinale a alternativa que completa adequadamente as lacunas acima:
Alternativas:
· pacotes; matemáticas; gráficos.
· funções; matemáticas; rotinas.
· expressões; algébricas; gráficos.
· pacotes; estatísticas; rotinas.
checkCORRETO
· funções; estatísticas; gráficos.
Resolução comentada: 
A linguagem de programação R, conforme definem Oliveira, Guerra e McDonnell (2018, p. 10), pode ser entendida como “um conjunto de pacotes e ferramentas estatísticas, munido de funções que facilitam sua utilização, desde a criação de simples rotinas até análises de dados complexas”.
Código da questão: 43776
Parte inferior do formulário
Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova!
Parte superior do formulário
1)
O _________ possui uma estruturação em _________ com a função básica de gerar visualizações _________ a partir de um único banco de dados. Tais visualizações são especificadas de acordo com os _________ dos usuários.
Assinale a alternativa que completa adequadamente as lacunas:
Alternativas:
· DBMS; módulos; lógicas; interesses.
checkCORRETO
· Banco de dados geral; símbolos; gráficas; ideais.
· Servidor; rede; em nuvem; históricos.
· DBMS; equipes; impressas; objetivos.
· BDR; DBMS; DML; requisitos.
Resolução comentada: 
o DBMS tem uma estruturação em módulos para gerar visualizações lógicas específicas para os interesses de usuário a partir de dados físicos de um banco de dados.
Código da questão: 59514
2)
Sobre os cinco “Vs” de Big Data, considere as seguintes afirmações:
( ) Compreende as características valor, veracidade, volume, velocidade e variedade. 
( ) Obtenção de dados estruturados ou não, em diversas fontes, é o que define variedade de Big Data.
( ) Veracidade relaciona-se ao rápido processamento de dados, em tempo real, garantindo sua integridade e, consequentemente, confiabilidade. 
( ) Dados são sinônimos de valor quando são tratados de forma a serem importantes e com potencial de agregar valor às empresas. 
( ) Volume corresponde à seleção de pequenos grupos de dados importantes, com posterior descarte dos que não trarão retorno.
Assinale a alternativa que contenha a sequência correta:
Alternativas:
· F – V – F – V – F.
· V – V – F – V – F.
checkCORRETO
· V – F – F – V – F.
· V – V – F – V – V.
· V – V – F – F – F.
Resolução comentada: 
os 5Vs de Big Data são: volume (quanto mais informações, mais possibilidades de se obterem informações valiosas); velocidade (processamento em tempo real); veracidade (garantia de que os dados são confiáveis, imparciais e não tendenciosos); variedade (os dados devem vir das mais variadas fontes possíveis, podem ser estruturados ou não); e valor (os dados devem agregar valor às empresas, trazendo retorno financeiro).
Código da questão: 59523
3)
Qual das alternativas a seguir apresenta corretamente os tipos de informações obtidas por meio do data mining (mineração de dados)?
Alternativas:
· De incrementação; sequenciais; de aglomeração; colaborativas; de seleção.
· De incrementação; associativas; colaborativas; introdutória; de seleção.
· Retroativas; corporativas; funcionais; estruturais; de visualização.
· De incrementação; funcionais; emergenciais; valiosas; de descarte.
· Associativas; sequenciais; classificativas; de aglomeração; de prognósticos.
checkCORRETO
Resolução comentada: 
os tipos de informações obtidas do data mining são: associativas, referentes a ocorrências de um mesmo evento; sequenciais, que ocorrem durante o evento; classificativas, que definem o perfil de clientes; de aglomeração, agrupando perfis identificados; e de prognósticos, que preveem valores a partir da análise de outros valores.
Código da questão: 59527
4)
Ao se propor o desenvolvimento de Big Data em uma organização, é preciso se atentar à promoção de etapas sequenciais que garantirão seu sucesso na implementação e plena utilização. 
Sobre as etapas de desenvolvimento de Big Data, assinale a alternativa correta.
Alternativas:
· Compreendem três etapas: coleta de dados, tratamento de dados e atividades analíticas para interpretar os dados.
checkCORRETO
· Compreende duas etapas: seleção de dados de interesse e processamento dos dados selecionados.
· As etapas são sugestões, mas não possuem um caráter obrigatório em função de sua importância.
· Consiste apenas por uma etapa geral de tratamento de dados em Big Data.
· Todas as etapas não precisam ser realizadas de maneira sequencial.
Resolução comentada: 
compreendem três etapas muito importantes que devem ser seguidas rigorosamentede forma sequencial. Na primeira etapa, devem-se coletar os dados, garantindo maior variedade e volume possível. Na segunda etapa, ocorre o processamento de dados, promovendo veracidade, agregação, integração, correção e segurança dos dados. E, por fim, na última etapa, deve-se realizar a correta interpretação de dados por meio de perguntas-chave.
Código da questão: 59521
5)
Um conceito também importante no banco de dados é a cardinalidade, que pode ser entendida como:
Alternativas:
· O grau de relacionamento das ocorrências de determinadas entidades.
checkCORRETO
· O grau de raciocínio das ocorrências de determinadas entidades.
· A capacidade de fabricação e armazenamento dos dados.
· A sequência de dados organizados das entidades.
· O número de racionamento das ocorrências de determinadas entidades.
Resolução comentada: 
um conceito também importante no banco de dados é a cardinalidade, que pode ser entendida como o grau de relacionamento das ocorrências de determinadas entidades.
Código da questão: 59508
6)
Em determinadas aplicações, é necessário impedir que usuários e diferentes aplicativos possam alterar os dados ao mesmo tempo. Por exemplo, no Edudrive, que é bastante utilizado por órgãos governamentais no Brasil, é impossível alterar os dados ao mesmo tempo por vários usuários.
Qual alternativa pode-se aplicar para evitar alteração de dados simultaneamente?
Alternativas:
· Aplicar a redundância.
· Aplicar o bloqueio.
checkCORRETO
· Aplicar a inconsistência.
· Aplicar a simultaneidade.
· Aplicar a segurança.
Resolução comentada: 
o bloqueio pode impedir que usuários e diferentes aplicativos possam alterar os dados ao mesmo tempo. Ele pode ser aplicado a uma tabela inteira ou no nível de registro. Se forem aplicados bloqueios no registro, significa que outros destes poderão ser utilizados dentro da mesma tabela.
Código da questão: 59501
7)
Este conceito é como se fosse uma proteção, quando uma transação não foi validada, mas está em andamento, o conceito garante que deve permanecer separada, ou seja, não haverá interferência por outra ação que acontece concomitantemente.
Estamos falando do conceito de: 
Alternativas:
· Durabilidade.
· Consistência.
· Coerência.
· Atomicidade.
· Isolamento.
checkCORRETO
Resolução comentada: 
o isolamento garante que transações concorrentes não sofram mútua interferência. Em outras palavras, uma transação em andamento que ainda não esteja validada deve permanecer isolada de qualquer outra operação, garantindo que a transação não será interferida por nenhuma outra.
Código da questão: 59512
8)
Leia e associe as duas colunas:
Assinale a alternativa que traz a associação correta entre as duas colunas:
Alternativas:
· I – A; II – B; III – C.
· I – C; II – A; III – B.
· I – B; II – A; III – C.
checkCORRETO
· I – A; II – C; III – B.
· I – C; II – B; III – A.
Resolução comentada: 
o Data Mart é o que gera grupos menores de dados selecionados de acordo com os interesses finais, enquanto os Hadoops MapReduce e Distributed File System são responsáveis respectivamente por mapear dados, escolhendo e fragmentando em tuplas de interesse para serem combinados e fornecer o resultado para a consulta; e dividir os dados em pequenos blocos e realizar cópias de segurança destes.
Código da questão: 59524
9)
O Brasil possui 5.570 cidades e 27 estados, imagine ter cem indicadores de cada cidade para fazer o diagnóstico de como está a situação em várias áreas. 
Se tivermos tantos dados de indicadores de cada cidade do Brasil, na ordem de terabytes ou zetabytes, como chamamos?
Alternativas:
· Bytes Dados.
· Dados inteligentes.
· Smart Data.
· Big Data.
checkCORRETO
· Good Data.
Resolução comentada: 
o grande volume de dados hoje em dia traz uma grande necessidade de como fazer a aquisição, guardar e extrair informações de uma quantidade imensa de dados e de análise de dados, essa quantidade imensa, quando falamos de zetabytes, falamos de Big Data.
Código da questão: 59499
10)
É importante entender as vantagens, os benefícios e a importância de um banco de dados relacional confiável.
Pode-se considerar um investimento que as empresas fazem que pode impactar a produtividade, gerando impacto positivo entre os funcionários e bons resultados que a empresa pode alcançar. 
Sobre os benefícios do banco de dados em uma empresa, pode-se afirmar que:
I. Entre os setores das empresas: relacionamento entre as diversas áreas e dados da empresa. Um bom banco de dados pode manter as várias áreas diferentes da empresa se comunicando de forma eficiente, isso melhora seu tempo de produtividade.
II. Aumentar os riscos de operação: a possibilidade de aumentar os riscos se dá porque a transparência das informações é maior, dado que as diferentes equipes terão acesso confiável aos dados. Isso faz com que as equipes estejam alinhadas com as necessidades do empreendimento.
III. Aumentar a segurança: ter um sistema de gestão de informações, ampliando a confiança com uma aquisição e armazenamento de dados para pessoas que precisam ter acesso e, também, limitando e controlando as pessoas com acesso e, com isso, ter maior segurança dos dados.
IV. Melhorar a tomada de decisão: basear em informações valiosas de forma eficiente é a melhor forma de diminuir os riscos e tomar decisões de forma coerente com as características da empresa. É mais provável ter uma visão geral do todo e identificar os principais problemas e melhorias a serem alcançadas no negócio.
São verdadeiras:
Alternativas:
· I – II – III – IV.
· II – III – IV.
· I – IV.
· I – III – IV.
checkCORRETO
· III – IV.
Resolução comentada: 
I. Entre os setores das empresas: relacionamento entre as diversas áreas e dados da empresa. Um bom banco de dados pode manter as várias áreas diferentes da empresa se comunicando de forma eficiente, isso melhora seu tempo de produtividade.
II. Diminuir os riscos de operação: a possibilidade de aumentar os riscos se dá porque a transparência das informações é maior, dado que as diferentes equipes terão acesso confiável aos dados. Isso faz com que as equipes estejam alinhadas com as necessidades do empreendimento.
III. Aumentar a segurança: ter um sistema de gestão de informações, ampliando a confiança com uma aquisição e armazenamento de dados para pessoas que precisam ter acesso e, também, limitando e controlando as pessoas com acesso e, com isso, ter maior segurança dos dados.
IV. Melhorar a tomada de decisão: basear em informações valiosas de forma eficiente é a melhor forma de diminuir os riscos e tomar decisões de forma coerente com as características da empresa. É mais provável ter uma visão geral do todo e identificar os principais problemas e melhorias a serem alcançadas no negócio.
Código da questão: 59510
Parte inferior do formulário
Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova!
Parte superior do formulário
1)
Sobre a linguagem Cypher:
I. O comando RETURN, escrito em tempo de execução de uma query, requer uma variável de armazenamento.
II. Atualizações de dados são feitas através do comando SET.
III. Para criar nós e relacionamentos utiliza-se o comando CREATE.
IV. O comando MATCH não pode ser usado juntamente com o comando CREATE.
V. O comando REMOVE é utilizado para eliminar a estrutura de um banco de dados (similar ao DROP de bancos relacionais).
São verdadeiras:
Alternativas:
· I - III - IV - V.
· I - III - V.
· I - II - III.
checkCORRETO
· II - IV.
· I - V.
Resolução comentada: 
As afirmativas I, II e III estão corretas. A afirmativa IV é falsa porque, na verdade, o comando MATCH pode ser utilizado junto de um comando CREATE; e a afirmativa V está incorreta, pois o comando REMOVE é utilizado para remover registros.Código da questão: 46014
2)
Quanto às características dos metadados, considere as seguintes afirmações:
I. São divididos em caráter técnico, de negócio e estrutural.
II. Podem ser representados apenas em fotos e arquivos de texto como .doc ou .pdf.
III. Quanto ao caráter técnico, fornecem informações a respeito do tipo de dado, possibilitando ao desenvolvedor o planejamento assertivo da estrutura da base de dados.
IV. Quanto ao caráter de negócio, pode fornecer informações por meio de relatórios dos dados colhidos.
V. No caráter estrutural, define o nome das colunas e os respectivos tipos de dados que poderão ser inseridos na base de dados.
São verdadeiras:
Alternativas:
· III - IV.
checkCORRETO
· IV - V.
· II - III.
· I - II - IV.
· III - IV - V.
Resolução comentada: 
A afirmativa I está incorreta, pois não existe o caráter estrutural em sua divisão.
A afirmativa II está incorreta, pois é possível ter metadados em qualquer tipo de arquivo, como fotos, vídeos, som, texto e arquivos em geral.
A afirmativa III está correta, pois o caráter técnico se preocupa com os tipos de dados, tratativas de desempenho e segurança.
A afirmativa IV está correta, pois o caráter de negócio tem como objetivo extrair informações e utilizá-las como vantagem competitiva na área de negócios.
A afirmativa V está incorreta, pois não existe o caráter estrutural em sua divisão.
Código da questão: 45989
3)
Com maior oferta de internet móvel pelas operadoras, a popularização dos dispositivos móveis e outras ações que contribuíram para o aumento exponencial de geração de dados, fizeram com que os cientistas de dados percebessem o grande potencial em conseguir capturar, armazenar, tratar e efetuar a convergência em informações úteis a determinados segmentos.
Quanto ao modelo de banco de dados orientado a documentos, assinale a alternativa correta. :
Alternativas:
· Os documentos são arquivos físicos como: figuras, vídeos ou áudios.
· O modelo orientado a documentos não recebe uma chave primária, pois os dados não são estruturados.
· São modelos que devem permitir o relacionamento por meio do chaveamento entre as tabelas.
· Os documentos são os dados semiestruturados, inseridos na base de dados.
· Os documentos são objetos inseridos na base de dados, como as strings, listas e objetos aninhados.
checkCORRETO
Resolução comentada: 
A afirmativa “São modelos que devem permitir o relacionamento por meio do chaveamento entre as tabelas” está incorreta, pois esse conceito está relacionado a banco de dados relacional.
A afirmativa “Os documentos são arquivos físicos como: figuras, vídeos ou áudios” está incorreta, pois é possível inserir strings, listas e objetos aninhados.
A afirmativa “O modelo orientado a documentos não recebe uma chave primária, pois os dados não são estruturados” está incorreta, pois os bancos orientados a documento possuem uma chave identificadora que deve ser unívoca.
A afirmativa “Os documentos são objetos inseridos na base de dados, como as strings, listas e objetos aninhados” está correta, pois é possível inserir os dados não estruturados ou semiestruturados, sendo possível inserir strings, listas e objetos aninhados.
A afirmativa “Os documentos são os dados semiestruturados, inseridos na base de dados” está incorreta, pois documentos não são dados, e sim possuem dados, independente do seu formato estrutural.
Código da questão: 45992
4)
Nos bancos de dados orientado a ________________, a sua estrutura de armazenamento necessita de uma chave identificadora conhecida pela sigla ____________. Essa chave deve identificar os registros univocamente. Normalmente é definida ________________________ pelos sistemas de gerenciamento de banco de dados NoSQL.
Assinale a alternativa que completa adequadamente as lacunas acima:
Alternativas:
· Documentos: NUID; manualmente.
· Documentos: UID; aleatoriamente.
· Documentos; UUID; automaticamente.
checkCORRETO
· Colunas: UUID; dinamicamente.
· Chave-valor; SGBD; manualmente.
Resolução comentada: 
Os bancos de dados orientados a documentos precisam de uma chave que identifica cada um dos registros univocamente, que tem como sigla UUID, que é o Identificador Único Universal, normalmente gerado automaticamente pelo SGBD.
Código da questão: 45998
5)
Analise a seguinte sintaxe:
CREATE (var :usuarios:professores) RETURN usuarios
É possível afirmar que:
( ) Existe uma variável atrelada ao processo de criação.
( ) Ocorrerá um erro na exibição do resultado de execução.
( ) Semanticamente, as palavras “usuário” e “professor” deveriam estar invertidas.
( ) Com esta estrutura, não seria possível adicionar mais labels após a palavra “professores”.
( ) Para adicionar propriedades ao label “professores”, seria necessário inseri-las entre chaves.
Assinale a alternativa que contenha a sequência correta:
Alternativas:
· V – V – V – V – F.
· V – V – F – F – F.
· V – V – F – F – V.
checkCORRETO
· F – F – V – V – F.
· F – F – F – V – V.
Resolução comentada: 
Após a execução, um erro retornaria, informando que a variável usuários não foi inicializada – pois foi inicializada apenas a variável var. Em questões semânticas, sabe-se que professores pertencem a usuários. Novos labels podem ser atrelados à estrutura adicionando-se dois pontos e escrevendo o nome do label.
Código da questão: 46015
6)
I. Em uma estrutura de relacionamento entre nós é comum utilizar os termos “pertence” ou “possui”, bem como outros termos que possibilitem-nos assimilar a forma como os nós interagem entre si. Os modelos orientados a grafos aceitam vários relacionamentos idênticos entre seus nós.
PORQUE
II. Os modelos orientados a grafos são bancos de dados estruturados, ou seja, são rígidos em sua estrutura. Para evitar a duplicidade de relacionamentos durante uma consulta, recomenda-se o uso do comando MERGE, em detrimento ao comando CREATE dentro da query de consulta.
Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas:
Alternativas:
· A primeira asserção está correta. e a segunda está incorreta.
checkCORRETO
· A primeira asserção está incorreta. e a segunda está correta.
· Ambas as asserções estão incorretas.
· Ambas as asserções estão corretas, mas a segunda não justifica a primeira.
· A primeira asserção está correta. e a segunda justifica a primeira.
Resolução comentada: 
A asserção I está correta, mas a asserção II está incorreta ao dizer que os modelos orientados a grafos são bancos de dados estruturados, ou seja, são rígidos em sua estrutura. A asserção escrita corretamente, diria que: “Os modelos orientados a grafos NÃO são bancos de dados estruturados, ou seja, NÃO são rígidos em sua estrutura”.
Código da questão: 46016
7)
I. O CouchDB utiliza um mecanismo para controle de versão conhecido como UVC – Unique Version Control (Controle de versão exclusiva). 
PORQUE
II. É a ferramenta utilizada para subscrever os dados e disponibilizar a versão mais consistente.
Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas:
Alternativas:
· Ambas as asserções estão corretas, mas a segunda não justifica a primeira.
· A primeira e a segunda asserção estão incorretas.
checkCORRETO
· A primeira asserção está incorreta, e a segunda está correta.
· Ambas as asserções estão corretas, e a segunda justifica a primeira.
· A primeira asserção está correta, e a segunda está incorreta.
Resolução comentada: 
A primeira asserção está incorreta, pois o CouchDB utiliza o mecanismo para controle de versão conhecido como MVCC (Multi-Version Concurrency Control).
A segunda asserção está incorreta, pois nos mecanismos de controle de versão no CouchDB são criadas versões dos dados dessa forma, os dados contidos no banco de dados não são subscritos.
Código da questão: 46001
8)
Em um banco de dados orientado a grafos, “cada nó representa uma entidade (uma pessoa, local, coisa, categoria ou outra parte de dados) e cada relacionamento representa como dois nós estão associados. Essa estrutura de uso geral permite modelar todos os tipos de cenários - de um sistema de estradas a umarede de dispositivos, ao histórico médico de uma população ou qualquer outra coisa definida por relacionamentos”.
Fonte: Neo4j. Why Graph Databases? Disponível em:<https://neo4j.com/why-graph-databases/?ref=footer> . Acesso em: 03 set. 2019. 
Com base no enunciado, aponte a alternativa correta.
Alternativas:
· Cada nó (node) deve estar associado com algum outro nó do mesmo banco.
· Um nó (node) limita-se a ligar-se com, no máximo, um nó antecessor.
· Cada nó (node) pode, também, ser considerado como um tipo de dado.
· Um nó (node) limita-se a ligar-se com, no máximo, dois nós sucessores.
· Cada nó (node) pode ter N ligações com outros nós.
checkCORRETO
Resolução comentada: 
Modelos orientados a grafos podem ter nós (nodes) com várias ligações a outros nós, embora isso não seja uma regra.
Código da questão: 46012
9)
Quando um desenvolvedor efetua o levantamento de requisitos, as regras de negócio irão determinar como a aplicação deverá ser estruturada e isso deve ficar bem claro. Todas as características técnicas são determinadas nesse momento, e isso acaba impactando no formato da base de dados, no layout da aplicação, na tecnologia mais adequada, dentre outros pontos relevantes. 
Assinale a alternativa que descreve a estrutura encontrada em projetos em que se tem um número de colunas pré-determinado e relacionamento entre tabelas: .
Alternativas:
· Dados não estruturados.
· Dados superestruturados.
· Metadados.
· Dados semiestruturados.
· Dados estruturados.
checkCORRETO
Resolução comentada: 
São bases de dados organizadas com obediência às linhas e colunas. São estruturadas por meio das colunas, deixando bem claro o tipo de dado que poderá ser inserido.
Código da questão: 45987
10)
Sobre o Cassandra (Banco de Dados com modelo Família de Colunas), analise as seguintes proposições:
( ) É um banco de dados que não utiliza schemas.
( ) Possui colunas compostas por chave e valor.
( ) Tem limitação de sub-colunas. 
( ) Todos os registros precisam ter os mesmos campos em todas as colunas.
( ) Sua normalização é feita apenas até a 4FN (Quarta Forma Normal).
Assinale a alternativa que contenha a sequência correta:
Alternativas:
· V – V – F – F – F.
checkCORRETO
· F – F – V – V – F.
· F – F – F – V – V.
· V – V – V – V – V.
· F – V – V – V – V.
Resolução comentada: 
O Cassandra é escalável por permitir ilimitados níveis de colunas com subcolunas, além de expansão horizontal em cluster; cada coluna pode ter quantidades distintas de campos; é um banco sem normalização (e a 6FN não existe em bancos relacionais).
Código da questão: 46010
 Parte inferior do formulário
Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova!
Parte superior do formulário
1)
Existe uma série de gráficos que podem ser utilizados como recursos de visualização de dados para apresentação de resultados de análise de dados. Com relação aos tipos de gráficos, avalie as afirmativas a seguir.
I. Para uma correta apresentação gráfica, é necessário identificar o tipo da variável tratada.
II. O gráfico de colunas é apropriado para apresentar resultados de variáveis categóricas, tanto nominais quanto discretas.
III. O gráfico de setores é apropriado para apresentar, preferencialmente, em percentual informações de variáveis qualitativas.
IV. Um gráfico de série temporal é apropriado para apresentar resultados que variam ao longo do tempo, ou seja, que foram coletados considerando uma variação temporal e que tenham alguma dependência entre si.
V. Apresentar dados sobre a quantidade de consultas médicas de uma pessoa pode ser realizada com o uso de um diagrama de dispersão bidimensional.
Assinale as alternativas que contém as afirmativas CORRETAS.
Alternativas:
· II, III e V.
· I, II e IV.
· II, IV e V.
· III, IV e V.
· I, III e IV.
checkCORRETO
Resolução comentada: 
Para uma correta apresentação visual (gráfica) é necessário conhecer o tipo de variável que será apresentada. Por exemplo, um gráfico de colunas é apropriado para apresentar variáveis categóricas, tanto nominais quanto ordinais. Um gráfico de setores é bastante utilizado para apresentação de resultados percentuais de variáveis categóricas ou qualitativas, no entanto, também podem apresentar frequências absolutas. Um gráfico de série temporal é apropriado para apresentar resultados coletados ao longo do tempo, de um determinado período. O gráfico apropriado para apresentar o número de consultas médicas realizadas em determinado período é o gráfico de dispersão unidimensional.
Código da questão: 47609
2)
Sobre criação de bancos de dados em ambiente R, avalie as afirmações a seguir e assinale (V) para verdadeira e (F) para falsa.
( ) Um objeto do tipo data frame é mais genérico que um objeto do tipo matriz. 
( ) O comando para selecionar as duas primeiras colunas de conjuntos de dados denominado “dados” é dados[1:3].
( ) O comando R para selecionar uma variável de um banco de dados é igual a “nome_variável$dados”.
( ) Para juntar vetores em colunas, utiliza-se a função cbind( ) em linguagem R.
( ) O comando aggregate( ) resume variáveis quantitativas segundo algumas variáveis categórica.
Assinale a alternativa que contenha a sequência correta:
Alternativas:
· F – V – F – V – F.
· V – V – V – V – V.
· F – V – V – F – F.
· F – F – F – F – F.
· V – F – F – V – V.
checkCORRETO
Resolução comentada: 
Um objeto do tipo data frame é mais genérico que um objeto do tipo matriz, porque pode conter diversos tipos de variáveis. O comando que seleciona as duas primeiras colunas de um conjunto chamado “dados” é dados[1:2]. O comando que seleciona uma variável do conjunto “dados” é dados$nome_variável. A junção de vetores em colunas é feita com o uso do comando cbind( ). O comando aggregate( ) resume variáveis quantitativas em médias, por exemplo, segundo alguma outra variável categórica.
Código da questão: 47615
3)
A organização de dados para uma análise estatística requer uma série de manipulações para transformar os dados em informações úteis e aproveitáveis para pesquisas diversas. Um dos possíveis resultados de uma manipulação de dados se refere à obtenção de medidas ou estatísticas. Uma estatística é uma medida que é uma função dos dados de uma amostra. Qual dos itens apresentados pode ser considerado uma estatística?
Assinale a alternativa CORRETA.
Alternativas:
· Apuração.
· Coleta.
· Amostra.
· Variância.
checkCORRETO
· Parâmetro.
Resolução comentada: 
Qualquer função dos dados de uma amostra é considerada uma estatística ou uma medida resumo. Um exemplo de uma função da amostra é a variância, que é o nome simplificado dado para a variância amostral.
Código da questão: 47587
4)
O teste de hipóteses compõe o conjunto de técnicas estatísticas conhecido como inferência estatística. Ele é utilizado para constatar ou refutar hipóteses de pesquisa através de conjuntos de dados. Com base no texto, avalie as afirmativas sobre teste de hipóteses e assinale (V) se verdadeiras e (F) se falsas.
( ) Um teste de hipóteses é composto por três hipóteses.
( ) A hipótese do problema investigado é representada pelo hipótese nula.
( ) O erro tipo I é representado pelo nível de significância associado ao teste de hipóteses.
( ) O critério de decisão é baseado na estatística do teste.
Assinale a alternativa que contenha a sequência CORRETA.
Alternativas:
· F – V – F – V.
· F – F – V – V.
checkCORRETO
· V – V – V – V.
· V – V – F – F.
· F – F – F – F.
Resolução comentada: 
A sequência correta é F – F – V – V. Um teste de hipóteses é composto por duas hipóteses, conhecidas como hipótese nula e alternativa, respectivamente. A hipótese do problema investigado é a hipótese alternativa. O erro tipo I é representado pelo nível de significância do teste e o critério dedecisão é baseado na estatística do teste.
Código da questão: 47595
5)
Segundo Siqueira e Tibúrcio (2011, p. 5) “existe mais de uma ênfase de análise estatística”. Considerando esta afirmação, analise a afirmativa a seguir para completar suas lacunas corretamente.
Os métodos ____________ estatísticos são métodos de análise ____________ de dados, os quais são elaborados com a produção de ____________.
Assinale a alternativa que preenche CORRETAMENTE as lacunas.
Alternativas:
· Clássicos; descritiva; tabelas.
checkCORRETO
· Clássicos; descritiva; probabilidades.
· Bayesianos; descritiva; tabelas.
· Bayesianos; inferencial; tabelas.
· Bayesianos; inferencial; valor p.
Resolução comentada: 
Siqueira e Tibúrcio (2011, p. 5) afirmam que “existe mais de uma ênfase de análise estatística” e uma é a ênfase clássica, onde os métodos clássicos estatísticos são métodos de análise descritiva, onde um dos seus produtos é a elaboração de tabelas.
Código da questão: 47603
6)
A correlação entre variáveis é uma informação de extrema importância porque a partir de sua existência é possível analisar efeitos de causalidade entre si, assim como elaborar modelos de regressão eficientes. Sobre correlação, causalidade e modelos de regressão, avalie as afirmativas a seguir e classifique com (V) se verdadeira e (F) se falsa.
( ) O coeficiente de correlação de Pearson verifica a existência de relação linear entre variáveis quantitativas.
( ) O coeficiente de correlação de Pearson assume valores numéricos entre -1 e +1.
( ) Para elaborar um modelo de regressão são necessárias pelo menos duas variáveis.
( ) Uma variável dependente de um modelo de regressão também é conhecida como variável endógena.
Assinale a alternativa que contenha a sequência CORRETA.
Alternativas:
· F – V – F – V.
· V – V – F – F.
· V – F – V – F.
· F – F – F – F.
· V – V – V – V.
checkCORRETO
Resolução comentada: 
A sequência correta é V – V – V – V. O coeficiente de correlação avalia a existência de relação linear entre variáveis quantitativas e é uma medida que assume valores entre -1 e +1. Para um modelo de regressão ser elaborado são necessárias pelo menos duas variáveis, e a variável dependente também é conhecida como variável endógena.
Código da questão: 47596
7)
A classe de modelos preditivos é diversa e, também, classificada segundo os objetivos que se tem com os dados. A esse respeito, avalie a afirmativa a seguir para completar corretamente suas lacunas.
Os modelos preditivos são uma classe de modelos ____________ utilizados para representarem __________ para tomada de decisão. Os modelos preditivos para ____________ também são conhecidos como modelos de _____________ supervisionada.
Assinale a alternativa que completa adequadamente as lacunas acima:
Alternativas:
· Constantes; problemas; classificação; aprendizagem.
· Visuais; fórmulas; equação; atividade.
· Matemáticos; problemas; classificação; aprendizagem.
checkCORRETO
· Estatísticos; problemas; classificação; atividade.
· Visuais; problemas; equação; atividade.
Resolução comentada: 
Os modelos preditivos são uma classe de modelos matemáticos utilizados para representarem problemas para tomada de decisão. Os modelos preditivos para classificação também são conhecidos como modelos de aprendizagem supervisionada.
Código da questão: 47618
8)
Para uma pesquisa ser bem realizada, faz-se necessário um bom planejamento de todas as etapas de sua realização. O detalhamento ou planejamento de uma pesquisa pode ser documentado em um projeto de pesquisa. Em uma dessas etapas, deve-se buscar a possível existência de falhas e imperfeições existentes na coleta dos dados. A qual etapa do planejamento estamos nos referindo?
Assinale a alternativa CORRETA.
Alternativas:
· Apresentação de dados.
· Crítica de dados.
checkCORRETO
· Apuração de dados.
· Amostragem de dados.
· Coleta de dados.
Resolução comentada: 
Na etapa de crítica de dados de uma pesquisa é onde ocorre a busca de falhas e imperfeições. Nessa etapa, os dados precisam ser criticados, de maneira cuidadosa, para que não ocorram erros grosseiros em análises posteriores.
Código da questão: 47588
9)
Toda análise de dados, para ser bem executada, precisa ser bem planejada e executada com rigor. Então, para uma boa realização da análise, divide-se o processo em duas etapas. A primeira etapa da análise ajuda a conhecer os dados e a identificar todo e qualquer tipo de padrão existente, assim como a identificação de possíveis erros. Como é denominada a metodologia estatística utilizada na primeira etapa de uma análise de dados?
Assinale a alternativa CORRETA..
Alternativas:
· Estatística descritiva.
checkCORRETO
· Causalidade.
· Amostragem.
· Inferência estatística.
· Teste de hipóteses.
Resolução comentada: 
Toda análise de dados é iniciada com uma exploração dos dados. As técnicas utilizadas para tal exploração compõem o conjunto de medidas descritivas, chamado estatística descritiva.
Código da questão: 47592
10)
Sobre o uso da linguagem de programação R para elaboração de gráficos estatísticos, avalie as afirmativas a seguir e assinale (V) se verdadeira e (F) se falsa.
( ) O RStudio é uma IDE (Ambiente de Desenvolvimento Integrado) para uso da linguagem R.
( ) O RStudio tem uma série de facilidades que ajudam na manipulação da linguagem R para elaboração de gráficos.
( ) O comando barplot( ) é utilizado para elaborar gráfico de setores com a linguagem R. 
( ) A opção “ylab=” de um comando R é usada para inserir rótulo no eixo horizontal de um gráfico.
( ) O comando stripchart( ) é usado para produzir gráfico de séries temporais no R.
Assinale a alternativa que contenha a sequência correta:
Alternativas:
· V – V – F – F – F.
checkCORRETO
· F – V – F – V – F.
· V – V – V – V – V.
· F – F – F – F – F.
· V – V – F – V – F.
Resolução comentada: 
O RStudo é uma IDE para uso da linguagem R e apresenta uma série de facilidades em seu uso. O comando barplot( ) é usado para elaborar gráficos de colunas com o R. A opção “ylab=” é usada em comandos de elaboração de gráficos para inserir rótulos no eixo vertical. O comando stripchart( ) é utilizado para produzir gráficos de dispersão unidimensional.
Código da questão: 47610
Parte inferior do formulário
Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova!
Parte superior do formulário
1)
Sobre os conceitos de Estatística, Probabilidade e bibliotecas do Python, considere as seguintes afirmações:
( ) Utilizando algumas bibliotecas do Python como Numpy, pandas e Matplotlib é possível criar e visualizar histogramas.
( ) Na distribuição normal, o valor da média, moda e mediana são sempre iguais.
( ) Na correlação, se o valor da magnitude se aproxima de 1 ou -1, indica que temos uma correlação fraca.
( ) A biblioteca Pandas é uma poderosa biblioteca do Python usada principalmente para realizar cálculos em arrays e matrizes multidimensionais.
Assinale a alternativa que contenha a sequência correta.
Alternativas:
· V – V – V – F.
· V – V– F – F.
checkCORRETO
· F – F – V – V.
· F – F – F – V.
· V – F – F – V.
Resolução comentada: 
Na correlação, se o valor da magnitude se aproxima de 1 ou -1, indica que temos uma correlação forte.
A biblioteca NumPy é uma poderosa biblioteca do Python usada principalmente para realizar cálculos em arrays e matrizes multidimensionais.
Código da questão: 48963
2)
I. O aprendizado de máquina (machine learning) é largamente utilizado para resolver problemas complexos em diversas áreas do conhecimento (engenharia, psicologia, medicina e computação), que muitas vezes seria impossível de se resolver ou demoraria muito tempo para serem resolvidos. Exemplo de aplicação bastante utilizada são sistemas para reconhecimento facial e aplicações para segurançaem diversos países.
II. Kyoto é um importante destino turístico que recebe mais de 8,7 milhões de visitantes por ano - um número impressionante, mesmo para os padrões globais. A Prefeitura se juntou à companhia japonesa para desenvolver o projeto denominado "Criando espaços públicos e cidades seguras". O sistema combina teoria criminal com dados sobre crimes cometidos em todas as áreas da cidade e analisa esses dados para prever quando e onde certos tipos de crimes tendem a acontecer. (Fonte: NEC. Tecnologia de reconhecimento facial movida a IA e machine learning. 06/03/2018. Disponível em: https://computerworld.com.br/brandpost/tecnologia-de-reconhecimento-facial-movida-ia-e-machine-learning/. Acesso em: 13 nov. 2019).
III. Entretanto, algumas questões relacionadas com moralidade e ética precisam ser levadas em consideração antes do desenvolvimento de aplicações que usam IA. Muitas vezes, nem percebemos que estamos sendo manipulados e monitorados o tempo todo por aplicações desenvolvidas utilizando inteligência artificial. 
IV. Um drone militar americano, em 2011, eliminou, por comportamento suspeito, um grupo de homens em Datta Khel, no Paquistão, que estavam em assembleia para resolver um conflito local; o Google, em 2017, estava sendo processado na Inglaterra em uma ação coletiva por coletar dados de 5,4 milhões de usuários de iPhone, teoricamente protegidos por políticas. (Fonte: KAUFMAN, Dora. A ética e a inteligência artificial. Valor, 21/12/2017. Disponível em: https://valor.globo.com/eu-e/noticia/2017/12/21/a-etica-e-a-inteligencia-artificial.ghtml. Acesso em: 13 nov. 2019).
Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas.
Alternativas:
· A primeira asserção está correta, a segunda são exemplos de contradição para a primeira, a terceira é a confirmação da primeira e a quarta são citados exemplos para confirmação para a terceira.
· A primeira asserção está incorreta, na segunda e na quarta são citados exemplos para confirmação para a terceira.
· A primeira asserção está correta, na segunda e quarta são citados exemplos para confirmação para a terceira.
· A primeira asserção está incorreta, a segunda é complemento para a primeira, a terceira é a contradição da primeira e a quarta são citados exemplos para confirmação para a terceira.
· A primeira asserção está correta, a segunda são exemplos para ajudar na confirmação para a primeira, a terceira é a contradição da primeira e na quarta são citados exemplos para confirmação para a terceira.
checkCORRETO
Resolução comentada: 
A primeira asserção está correta e explica a importância do aprendizado de máquina (machine learning) em diversas áreas. A segunda asserção cita um exemplo de uma aplicação para confirmar a primeira asserção. Já a terceira asserção se contradiz com a primeira, explicando que aplicações com inteligência artificial, muitas vezes, são utilizadas sem se preocupar com problemas éticos e morais. Na quarta são citados dois exemplos para confirmação da terceira asserção.
Código da questão: 48969
3)
Sobre os conceitos de visualização de dados em Python, Numpy, Matplotlib e Pandas, considere as seguintes afirmações:
( ) Utilizando algumas bibliotecas do Python como Numpy, Pandas e Matplotlib é possível criar e visualizar histogramas.
( ) O histograma de uma imagem digital (preto e branco) indica o número de pixels que a imagem tem em determinado nível de cinza, que varia de 0 a 255.
( ) Na versão atual do Matplotlib é possível somente criar plotagem em 3D.
( ) A biblioteca Pandas é uma poderosa biblioteca do Python usada principalmente para realizar cálculos em arrays e matrizes multidimensionais.
Assinale a alternativa que contenha a sequência correta.
Alternativas:
· F – F – V – V.
· V – F – F – V.
· V – V – F – V. 
· V – V – F – F.
checkCORRETO
· F – V – V – F.
Resolução comentada: 
Na versão atual do Matplotlib é possível criar plotagem em 2D e 3D. Portanto, a terceira afirmação é falsa.
A biblioteca NumPy é uma poderosa biblioteca do Python usada principalmente para realizar cálculos em arrays e matrizes multidimensionais. Portanto, a quarta afirmação é falsa. O Pandas é um pacote Python que fornece estruturas de dados rápidas, flexíveis e expressivas, projetadas para facilitar o trabalho com dados relacionais.
Código da questão: 60241
4)
Organização e visualização dos dados são tarefas essenciais para a área de ciência de dados. A visualização é uma técnica bastante utilizada e consiste na criação de imagens, diagramas, histogramas, gráficos ou animação para melhor representar a informação. 
Matplotlib é a principal biblioteca de plotagem científica em Python. Ela suporta visualização interativa e não interativa e fornece ampla variedade de tipos de plotagem (ROUGIER, 2019).
O Pandas é um pacote Python que fornece estruturas de dados rápidas, flexíveis e expressivas, projetadas para facilitar o trabalho com dados relacionais. Os dados manipulados no Pandas são frequentemente usados para trabalhar com análises estatísticas no SciPy, plotando funções do Matplotlib e algoritmos de aprendizado de máquina no Scikit-learn (MCKINNEY, 2019).
Fontes: 
MCKINNEY, W., PyData Development Team. pandas: powerful Python data analysis toolkit. Release 0.25.3, Python for High Performance and Scientific Computing, 2019. Disponível em https://pandas.pydata.org/pandas-docs/stable/pandas.pdf. Acesso em: 28 out. 2019.
ROUGIER, N, P. Scientific Visualization – Python & Matplotlib - Scientific Python — Volume II, 2019. Disponível em https://github.com/rougier/scientific-visualization-book. Acesso em: 28 out. 2019.
Analise as seguintes afirmações, indicando aquelas verdadeiras:
I. Utilizando a biblioteca Pandas, é possível criar gráficos a partir de informações contidas em arquivo MS Excel.
II. A biblioteca Matplotlib não tem suporte para a criação de subgráficos (subplots). 
III. A função Matplotlib.pyplot.setp é responsável para alterar algumas propriedades do gráfico, tais como: cor e estilos da linha, legendas ou eixos.
IV. Pandas fornece suporte para manipulação de arquivos Open Document Spreadsheet (ODS).
Alternativas:
· I -, III - IV.
checkCORRETO
· Todas as afirmações são verdadeiras..
· Apenas III.
· I - II - IV.
· II - III - IV.
Resolução comentada: 
A biblioteca Matplotlib tem suporte para criação de gráficos e subgráficos. Portanto a opção II é falsa.
Código da questão: 48959
5)
Sobre os conceitos de Big Data e Apache Spark Streaming, considere as seguintes afirmações:
( ) Os dados em Big Data são criados em diferentes formatos e armazenados em diferentes fontes de dados, que podemos classificar em três grupos: não-estruturado, semiestruturado e estruturado.
( ) Existem dois tipos de operações do Apache Spark RDD: transformações e ações. Uma transformação é uma função que produz um novo RDD a partir dos RDDs existentes. Quando a ação é acionada após o resultado, o novo RDD também é criado, assim como na transformação.
( ) O projeto Apache Spark introduziu o conceito de RDD, que formalmente é uma coleção de objetos imutáveis, particionados em um conjunto de nós do cluster, podendo somente ser criado através de funções como map(), filter(), join() e groupBy(), executadas em outros RDDs ou meios de armazenamentos estáveis.
( ) O Apache Kafka é uma plataforma distribuída de código-fonte livre (open-source) de processamento de mensagens e streams desenvolvida pela Apache Software Foundation, escrita na linguagem de programação Java e Python.
Assinale a alternativa que contém a sequência correta.
Alternativas:
· V – F – F – F.
· V – V – F – F.
· V – V – V – F.
· F – F – V – V.
· V – F – V – F.
checkCORRETO
Resolução comentada: 
Os objetos RDD são imutáveis e, nas operações de ação, um novo RDD não é criado. 
O Apache Kafka foi desenvolvido utilizando a linguagem Java e Scala, não Python. 
Código da questão: 48978
6)
A análise de dados em tempo real (Real Time Analytics) é referida ao processo de análise de grande volume de dados (Big Data) no momento em que é produzido ou usado. Dos arquivos de logsde servidores e/ou dispositivos aos dados do sensor, os cientistas de dados estão cada vez mais tendo que lidar com fluxos (streaming) de dados. Esses dados chegam em um fluxo constante, geralmente de várias aplicações simultaneamente. 
Sobre Big Data e Apache Spark Streaming, assinale a alternativa correta. 
Alternativas:
· No processamento em streaming ocorre a análise dos dados que já foram armazenados por um tempo. Esses dados geralmente podem ser em arquivo ou banco de dados, entre outros.
· Em Python, os DataFrames de streaming podem ser criados por meio da interface DataStreamReader retornada por SparkSession.createStream().
· A API Apache Spark Streaming tem suporte para as linguagens de programação Java, Scala, Python e R.
· Resilient Distributed Dataset (RDD) é considerado a estrutura de dados mais importantes no PySpark, e uma característica importante dos RDDs é que eles não são objetos imutáveis.
· A biblioteca Apache Spark Streaming pode ser usada para processar dados de streaming em tempo real de diferentes fontes, como sensores, redes sociais e transações online, e os resultados gerados podem ser armazenados em software como Kafka, HDFS, Cassandra e Elasticsearch.
checkCORRETO
Resolução comentada: 
No processamento em batch ocorre a análise dos dados que já foram armazenados por um tempo, portanto a alternativa a. é falsa. 
Os objetos Resilient Distributed Dataset (RDD) são considerados a estrutura de dados mais importante no PySpark; uma característica importante dos RDDs é que são objetos imutáveis, portanto a alternativa b. é falsa. 
A API Apache Spark Streaming não tem suporte para a linguagem de programação R, portanto a alternativa c. é falsa.
Em Python, os DataFrames de streaming podem ser criados por meio da interface DataStreamReader retornada por SparkSession.readStream(), então a alternativa e. é falsa.
Código da questão: 48975
7)
O Spark tem algumas características que podem ser citadas, como, por exemplo, o armazenamento é realizado primeiramente em memória e somente após o processamento passa a enviar os dados para memória, agilizando o processamento das informações.
Além dessas características, assinale como verdadeira ou falsa as outras mencionadas a seguir:
( ) Otimização de operações para grafos.
( ) Suporte para funções que vão além do Map e Reduce.
( ) Disponibiliza um Shell interativo para as linguagens Python e Scala.
( ) A avaliação de consultas para Big Data sob demanda, contribuindo para a otimização do fluxo do processamento de dados.
( ) O Spark não suporta armazenamento de dados distribuídos. 
Alternativas:
· F – V – V – V – V.
· F – F – V – V – F.
· F – V – F – V – F.
· V – V – V – V – F.
checkCORRETO
· V – F – V – V – V.
Resolução comentada: 
Somente a última afirmativa é falsa, pois o Spark suporta armazenamento de dados distribuídos.
Código da questão: 48947
8)
No Spark as __________ possibilitam que os desenvolvedores criem suas aplicações fazendo uso das interfaces para Python, Java e Scala. Com o Spark é possível implementar na forma de __________, mas também no formato de computação __________.
Assinale a alternativa que completa adequadamente as lacunas.
Alternativas:
· Documentações – algoritmo único – evolutiva.
· API’s – servidor autônomo – distribuída.
checkCORRETO
· Informações – grafos – paralela.
· Tecnologias – programação assíncrona – distribuída.
· API’s - software – online.
Resolução comentada: 
Através do uso de API’s o Spark possibilita o desenvolvimento em diversas linguagens, gerando implementações autônomas ou distribuídas.
Código da questão: 48941
9)
Estatística e probabilidade são extremamente importantes para trabalhar na área de ciência de dados, assim como em outras áreas, como medicina, ciências biológicas, psicologia, engenharia, computação etc.
Sobre Estatística, Probabilidade e Python, assinale a alternativa correta.
Alternativas:
· O desvio padrão é usado quando queremos separar a metade maior e a metade menor de uma amostra, uma população ou uma distribuição de probabilidade.
· A biblioteca NumPy é bastante utilizada para realizar cálculos em arrays e matrizes multidimensionais e faz parte do pacote principal do Python, não sendo necessária sua instalação.
· A biblioteca Pandas é um módulo Python que fornece classes e funções para a estimativa de muitos modelos estatísticos, bem como para a realização de testes e a exploração de dados estatísticos.
· A estatística é a área responsável pela coleta, organização e interpretação de dados experimentais e pela extrapolação dos resultados da amostra para a população.
checkCORRETO
· A estatística é uma área da matemática que estuda as chances de ocorrência de um determinado experimento ou evento.
Resolução comentada: 
A mediana é usado quando queremos separar a metade maior e a metade menor de uma amostra, uma população ou uma distribuição de probabilidade, portanto a alternativa b é falsa.
A biblioteca numpy não faz parte do pacote principal do Python, sendo necessário sua instalação manual. Então a alternativa c é falsa.
A biblioteca Statsmodels é um módulo Python que fornece classes e funções para a estimativa de muitos modelos estatísticos, portanto a alternativa d é falsa.
A probabilidade é uma área da matemática que estuda as chances de ocorrência de experimentos são calculadas, então a alternativa e é falsa.
Código da questão: 48960
10)
Sobre os conceitos de machine learning, considere as seguintes afirmações:
( ) Os primeiros estudos na área de machine learning surgiram por volta do ano 2000, devido à evolução dos computadores. 
( ) Python é a única linguagem de programação utilizada para o desenvolvimento de aplicações na área de ciência de dados, especialmente na área de machine learning. 
( ) Construindo um algoritmo de machine learning uma tarefa fundamental é a organização dos dados fazendo separação do conjunto de dados em 2 subconjuntos: treinamento e teste. É difícil estipular a porcentagem que cada subconjunto vai ter, por exemplo: 70% dos dados para treinamento e 30% para testes. Essa análise deve levar em consideração o problema a ser resolvido e o modelo. 
( ) Em aprendizado de máquina supervisionado, o principal desafio é encontrar o conjunto de atributos suficientes que se ajustem ao modelo e que possa prever rótulos desconhecidos no conjunto de teste. 
( ) Reconhecimento de impressão digital; identificação de tumores a partir de uma imagem de ressonância, reconhecimento de e-mail do tipo spam e recolhimento de animais em fotos, podem ser resolvidos utilizando algoritmo de regressão. 
Assinale a alternativa que contenha a sequência correta.
Alternativas:
· F – F – V – V – F.
checkCORRETO
· V – F – V – V – F.
· F – V – V – V – F.
· V – F – V – F – F.
· V – V – V – F – F.
Resolução comentada: 
O primeiro estudo em machine learning surgiu por volta de 1950, a evolução dos computadores possibilitou que as novas técnicas fossem aplicadas a grande quantidade de dados. 
A linguagem Python é bastante utilizada para resolver problemas usando machine learning, porém outras linguagens também podem ser utilizadas, tais como: R, Java, SQL e Matlab.
Reconhecimento de impressão digital; identificação de tumores a partir de uma imagem de ressonância, reconhecimento de e-mail do tipo spam e recolhimento de animais em fotos, podem ser resolvidos utilizando algoritmo de classificação e não de regressão.
Código da questão: 48968
Parte inferior do formulário
Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova!
Parte superior do formulário
1)
A partir de seus conhecimentos sobre sistemas de recomendação, analise os itens a seguir:
( ) A fatoração matricial é uma forma de trabalhar a matriz de proximidades para poder organizaralfabeticamente os usuários.
( ) Deep learning pode ser utilizado em sistemas de recomendação para criar redes neurais relacionando usuários e objetos.
( ) A principal diferença entre métodos baseados em filtragem colaborativa e métodos baseados em conteúdo é que o primeiro estuda a interação entre usuários e objetos, ao passo que o segundo analisa as suas características.
( ) O método nearest-neighbor, quando aplicado a sistemas de recomendação baseados em filtragem colaborativa, consegue criar matrizes relacionando usuário-usuário, mas não é capaz de gerar matrizes usuário-item.
Assinale a alternativa que julga corretamente as afirmações acima como verdadeiras (V) ou falsas (F).
Alternativas:
· F – F – V – F.'
· F – V – V – F.
checkCORRETO
· F – V – V – V.
· V – V – V – F.
· V – V – F – F.
Resolução comentada: 
( ) A fatoração matricial é uma forma de trabalhar a matriz de proximidades, mas a organização não é feita por ordem alfabética.
( ) Deep learning pode ser utilizado em sistemas de recomendação para criar redes neurais relacionando usuários e objetos.
( ) A principal diferença entre métodos baseados em filtragem colaborativa e métodos baseados em conteúdo é que o primeiro estuda a interação entre usuários e objetos, ao passo que o segundo analisa as suas características.
( ) O método nearest-neighbor, quando aplicado a sistemas de recomendação baseados em filtragem colaborativa, consegue criar matrizes relacionando usuário-usuário e também é capaz de gerar matrizes usuário-item.
Código da questão: 49633
2)
Existem inúmeras técnicas de agrupamento para serem aplicadas na resolução de problema com machine learning e mineração de dados. Sobre as técnicas de agrupamento não hierárquico, analise as afirmativas a seguir:
( ) A escolha inicial dos objetos a serem utilizados no algoritmo K-means não influencia no resultado final, uma vez que essa técnica é robusta e imune a ótimos locais.
( ) No algoritmo K-médias, cada objeto do domínio pode mudar de cluster K vezes.
( ) Dendogramas são gráficos que mostram como foi a evolução dos clusters formados pelo K-means. 
Assinale a alternativa que julga corretamente os itens, na sequência:
Alternativas:
· V – V – F.
· F – V – V.
· F – F – F.
checkCORRETO
· V – F – V.
· V – F – F.
Resolução comentada: 
a semente inicial influencia bastante no resultado obtido.
No K-means, os objetos podem mudar de grupo quantas vezes forem necessárias, até que o critério de parada seja atingido.
Dendograma é utilizado para visualizar o processo de clusterização passo a passo, assim como analisar os níveis de distância dos clusters formados.
Código da questão: 49622
3)
Os gráficos a seguir ilustram um algoritmo de regressão linear aplicado a quatro diferentes casos de dispersão de dados. Para todos os casos, tem-se a mesma reta de regressão linear y = 4+ 0,5x, independente de quais sejam as estatísticas suficientes, como: coeficientes linear e angular; soma dos quadrados dos resíduos e da regressão; e número de observações.
A partir dos gráficos, analise as afirmativas a seguir:
I. O gráfico B indica que os dados são propícios para a utilização de uma regressão do tipo linear.
II. O gráfico C ilustra a possível existência de uma observação outlier na regressão linear.
III. O gráfico D ilustra a possível existência de uma observação outlier na regressão linear.
Assinale a alternativa que julga corretamente essas afirmações:
Alternativas:
· Somente I está correta.
· Somente I e III estão corretas.
· Somente II está correta.
checkCORRETO
· Somente III está correta.
· Somente II e III estão corretas.
Resolução comentada: 
I. O gráfico B mostra observações que não são corretamente estimadas por meio do uso de uma regressão linear.
II. A afirmativa está correta.
III. O gráfico D não contém dados corretamente estimados por uma regressão linear.
Código da questão: 49613
4)
O aprendizado de máquina é uma técnica que pode ser aplicada em diversos cenários, sendo que cada um possui suas características específicas e algoritmos mais indicados para serem utilizados. Esses algoritmos podem ser classificados de diversas maneiras, mas um tipo de classificação é a mais utilizada na literatura.
Assinale a alternativa que contém a classificação correta do tipo de abordagem do aprendizado de máquina.
Alternativas:
· Aprendizado não supervisionado e clusterização.
· Aprendizado supervisionado e regressão.
· Aprendizado supervisionado e de supervisão.
· Aprendizado supervisionado e não supervisionado.
checkCORRETO
· Aprendizado supervisionado e de classificação.
Resolução comentada: 
segue a classificação mais utilizada para o aprendizado de máquina:
Código da questão: 49600
5)
Técnicas de machine learning podem ser utilizadas para inúmeras finalidades. A seguir, você pode verificar graficamente uma solução que relaciona estilos de escrita e alguns livros famosos:
Figura 1 – Ilustração de metodologia de representação gráfica para a relação entre objetos e suas características principais
Fonte: adaptada de Gormley (2017).
Descrição: esta figura contém uma representação utilizada para relacionar seis obras literárias e seus respectivos estilos.
A Figura 1 contém a relação entre obras literárias e suas características; porém, elas estão divididas em duas etapas, sendo que a segunda é uma aproximação da primeira, utilizada para simplificar a análise.
Essa aproximação é uma técnica bastante
utilizada para a manipulação de dados em sistemas de recomendação. Sendo assim,
assinale a alternativa que contém o nome correto da técnica representada pela
Figura 1.
Alternativas:
· Recomendação por filtragem colaborativa baseada em métodos de fatoração matricial.
checkCORRETO
· Recomendação por filtragem colaborativa baseada em métodos de aprendizado profundo.
· Recomendação por filtragem baseada em conteúdo com métodos híbridos.
· Recomendação por filtragem colaborativa baseada em métodos de relações de conteúdos.
· Recomendação por filtragem colaborativa baseada em métodos de inversão matricial.
Resolução comentada: 
a figura contém claramente uma fatoração matricial. A matriz inicial, de dimensão elevada, é manipulada de tal forma a ser fatorada para então poder ser representada pela multiplicação entre as matrizes  e . Com isso, a fatoração fica da seguinte forma:
Código da questão: 49634
6)
Deep learning é um ramo de aprendizado de máquina baseado em um conjunto de algoritmos que buscam modelar abstrações em ____________ a partir da leitura de __________ de dados. Em redes profundas, ou densas, existem ____________ layers que possibilitam ao algoritmo utilizar várias camadas de processamento compostas por transformações lineares e não lineares.
Assinale a alternativa que preenche corretamente, na sequência, as lacunas do trecho anterior.
Alternativas:
· Alto nível; poucos níveis; vários.
· Alto nível; grandes quantidades; vários.
checkCORRETO
· Conjuntos de dados; poucos níveis; poucos.
· Conjuntos de dados; grandes quantidades; vários.
· Baixo nível; grandes quantidades; vários.
Resolução comentada: 
Deep learning é um ramo de aprendizado de máquina baseado em um conjunto de algoritmos que buscam modelar abstrações em alto nível a partir da leitura de grandes quantidades de dados. Em redes profundas, ou densas, existem vários layers que possibilitam ao algoritmo utilizar várias camadas de processamento compostas por transformações lineares e não lineares.
Código da questão: 49626
7)
Alternativas:
· As entradas da matriz de preferência podem ser somente numéricas, e não binárias.
· Os algoritmos de deep learning não podem ser aplicados a sistemas de recomendação que utilizam métodos de filtragem colaborativa.
· As matrizes de preferências resultantes do estudo de grandes lojas virtuais, como a Amazon, costumam ser compostas por poucas linhas e colunas.
· Os algoritmos de recomendação baseados em filtragem colaborativa precisam, de alguma forma, manipular a matriz de preferências, e a decomposição SVD (singular value decomposition) é uma técnica utilizada para realizar essa tarefa.
checkCORRETO· Os algoritmos de recomendação baseados em filtragem colaborativa precisam, de alguma forma, manipular a matriz de preferências, e a recomendação baseada em conteúdo é uma técnica utilizada para realizar essa tarefa.
Resolução comentada: 
a) A recomendação baseada em conteúdo é outra metodologia utilizada para fazer a recomendação
c) Os algoritmos de deep learning podem ser aplicados a sistemas de recomendação que utilizam métodos de filtragem colaborativa.
d) As entradas da matriz podem ser tanto numéricas (a nota dada para uma comida pelo aplicativo de celular) como binárias (se o cliente comprou determinado produto ou clicou em algum link).
e) As matrizes de preferências resultantes do estudo de grandes lojas virtuais, como a Amazon, costumam ser compostas por poucas linhas e colunas.
Código da questão: 49630
8)
Existe uma classe de aprendizado de máquina (AM) que busca analisar um conjunto de dados D={(x_i,f(x_i )),i=1,…,n}, sendo f(x_i ) uma função desconhecida, para poder criar uma aproximação f ̂(x_i ) capaz de estimar rótulos para novas entradas. 
Assinale a alternativa que afirma corretamente qual é essa classe de aprendizado de máquina.
Alternativas:
· AM descritivo.
· AM associativo.
· AM preditivo.
checkCORRETO
· AM de agrupamento.
· AM julgativo.
Resolução comentada: 
considere o conjunto de pares de dados como D={(x_i,f(x_i )),i=1,…,n}, sendo que f("x" _i ) é uma função desconhecida. O algoritmo de AM preditivo analisa então esse conjunto para criar uma aproximação f ̂ de f. Com essa aproximação, o algoritmo consegue, então, estimar os rótulos para qualquer nova entrada "x"
Código da questão: 49606
9)
Analise atentamente a afirmativa a seguir:
"Este algoritmo utiliza predições de muitos indivíduos aleatórios, cada uma podendo ter variância diferente, e agrupa todas elas".
Assinale a alternativa que representa o algoritmo ao qual a afirmação acima se refere.
Alternativas:
· Floresta aleatória.
checkCORRETO
· Árvore de decisão.
· Rede neural.
· Support vector machine.
· K nearest neighbors.
Resolução comentada: 
a floresta aleatória (Random Forest) é o algoritmo que utiliza predições de muitos indivíduos aleatórios, cada uma podendo ter variância diferente, e agrupa todas elas.
Código da questão: 49618
10)
Existem inúmeros problemas em que você pode aplicar algoritmos de aprendizado de máquina.
Sobre os problemas clássicos de aprendizado de máquina, analise as afirmativas a seguir:
( ) A classificação multiclasse pode ser entendida como a extensão da classificação binária.
( ) Algoritmos de regressão não precisam utilizar a etapa de treinamento para criar modelos que relacionam as características dos dados.
( ) O clustering é uma tarefa do aprendizado de máquina supervisionado e tem como objetivo agrupar os dados disponíveis em grupos com características semelhantes.
Classifique as afirmações como verdadeiro (V) e falso (F) e assinale a alternativa que contenha a sequência correta, respectivamente, de cima para baixo.
Alternativas:
· V – F – F.
checkCORRETO
· V – V – F.
· F – V – F.
· V – V – V.
· V – F – V.
Resolução comentada: 
o clustering é uma tarefa do aprendizado de máquina não supervisionado e tem como objetivo agrupar os dados disponíveis em grupos com características semelhantes.
Código da questão: 49603
Parte inferior do formulário
Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova!
Parte superior do formulário
1)
Sobre o processo de integração e de unificação de dados, avalie as afirmativas a seguir e classifique com (V) se verdadeira e (F) se falsa.
( ) As operações diárias em uma base de dados de uma empresa são realizadas em um banco de dados chamado transacional. 
( ) Os processos analíticos aplicados em bases de dados são realizados em bases de dados OLAP.
( ) As ferramentas de Business Intelligence auxiliam na busca por padrões.
( ) Para receber um tratamento analítico, uma base de dados precisa ser representativa.
( ) O processo de descoberta do conhecimento é iterativo e interativo.
Assinale a alternativa que contenha a sequência correta.
Alternativas:
· V – F – F – V – V.
· F – V – F – V – F.
· F – F – F – F – F.
· V – V – V – V – V.
checkCORRETO
· V – V – F – V – F.
Resolução comentada: 
As operações diárias em uma base de dados de uma empresa são realizadas em um banco de dados chamado transacional. Os processos analíticos aplicados em bases de dados são realizados em bases de dados OLAP. As ferramentas de Business Intelligence auxiliam na busca por padrões. Para receber um tratamento analítico, uma base de dados precisa ser representativa. O processo de descoberta do conhecimento é iterativo e interativo.
Código da questão: 50733
2)
Um sistema distribuído P2P possui características próprias que o diferencia de um sistema centralizado. Existem três características técnicas importantes de um sistema P2P, as quais se referem à auto-organização e adaptabilidade. Qual a terceira caraterística de um sistema P2P?
Assinale a alternativa CORRETA.
Alternativas:
· Escalabilidade.
checkCORRETO
· Regeneração.
· Cluster.
· Adaptabilidade.
· Potencialidade.
Resolução comentada: 
A terceira característica técnica de um sistema P2P é a escalabilidade.
Código da questão: 50710
3)
Business Intelligence é um conceito associado à definição de data warehouse. O propósito daquele é permitir um tipo de tomada de decisão. Que tipo é este?
Assinale a alternativa CORRETA.
Alternativas:
· Descritiva.
· Investigativa.
· Proativa.
checkCORRETO
· Qualitativa.
· Responsiva.
Resolução comentada: 
O propósito do Business Intelligence é permitir a tomada de decisões proativas.
Código da questão: 50715
4)
Sobre o processamento paralelo, avalie a afirmativa a seguir para completar corretamente suas lacunas.
Em um processamento paralelo, a maneira como os processadores e dispositivos de memória realizam comunicação entre si é o que define a(o) ____________ de máquinas paralelas (MEYER, 2006). Segundo o autor, os principais modelos de ____________ são ____________ e ____________.
Referência: MEYER, L. A. V. C. Uma visão geral dos sistemas distribuídos de cluster e grid e suas ferramentas para o processamento paralelo de dados. 2006. IBGE [s.d.]. Disponível em https://www.censo.gov.br/confe... . Acesso em: 17 set. 2019.
Assinale a alternativa que completa adequadamente as lacunas.
Alternativas:
· Arquitetura; memória; paralelo; distribuído.
· Arquitetura; memória; compartilhado; distribuído.
checkCORRETO
· Processamento; processamento; compartilhado; distribuído.
· Processamento; processamento; paralelo; desempenho.
· Arquitetura; memória; compartilhado; desempenho.
Resolução comentada: 
Em um processamento paralelo, a maneira como os processadores e dispositivos de memória realizam comunicação entre si é o que define a arquitetura de máquinas paralelas (MEYER, 2006). Segundo o autor, os principais modelos de memória são compartilhado e distribuído.
Código da questão: 50701
5)
Sobre as ferramentas OLAP (processo analítico online), avalie as afirmativas a seguir.
I. A primeira vez que falou no termo OLAP foi em 1992.
II. A linguagem OLAP de definição de dados (DDL) pode remover uma estrutura de dados.
III. A estrutura principal de dados de um data warehouse é conhecida como fatos.
IV. Uma estrutura de dados de um data warehouse, quando pensada como um cubo, se tiver mais de três dimensões é conhecida como hipercubo.
V. As estruturas auxiliares de um data warehouse são conhecidas como tabelas.
São verdadeiras:
Alternativas:
· III - IV - V.
· II - III - IV.
checkCORRETO
· I - II - IV.
· IV - V.
· II - III - V.
Resolução comentada: 
A primeira vez que se falou no termo OLAP foi em 1962. A linguagem OLAP de definição de dados (DDL) pode remover uma estruturade dados. A estrutura principal de dados de um data warehouse é conhecida como fatos. Uma estrutura de dados de um data warehouse quando pensada como um cubo, se tiver mais de três dimensões é conhecida como hipercubo. As estruturas auxiliares de um data warehouse são conhecidas como tabelas.
Código da questão: 50732
6)
Sobre os métodos de depuração e análise de desempenho de programas paralelos, avalie as afirmativas a seguir.
I. A busca por grande capacidade de processamento numérico pode ser considerada como a principal motivação para a criação de sistemas paralelos.
II. A análise de desempenho de sistemas paralelos é útil para identificar os pontos fortes do sistema.
III. A análise de desempenho é usualmente iniciada logo após a instalação do sistema paralelo.
IV. A análise de desempenho se manifesta de forma cíclica, pois o desenvolvedor precisa realizar execuções experimentais do programa.
V. A amostragem é uma técnica de coleta e registros da abordagem offline de uma análise de desempenho.
Assinale a alternativa com contém as afirmativas CORRETAS:
Alternativas:
· I - II - III.
· III - IV.
· II - III.
· IV - V.
· I - IV - V.
checkCORRETO
Resolução comentada: 
Estão corretas as afirmativas I, IV e V. 
II. Segundo Schnorr (2014, p. 1), “o objetivo da análise de desempenho de aplicações paralelas é a identificação de regiões do programa que tem uma baixa exploração dos recursos computacionais”.
III. É usual partir para a análise de desempenho de programas paralelos após a sua implementação, livre de qualquer possível erro, momento em que o desenvolvedor ou administrador do banco de dados está apto para realizar esta etapa do trabalho.
Código da questão: 50707
7)
Sobre o uso de linguagem Python para tratamento de grandes volumes de dados, avalie as asserções a seguir e a relação entre elas.
I. O tratamento de grandes volumes de dados por meio da linguagem Python pode ser feito pela plataforma Hadoop.
PORQUE
II. A Hadoop é de computação distribuída, com alta escalabilidade, de grande confiabilidade e bastante tolerante a falhas.
Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas:
Alternativas:
· As asserções I e II estão incorretas.
· A asserção I está incorreta, e a asserção II está correta.
· A asserção I está correta, e a asserção II está incorreta.
· As asserções I e II estão corretas e a asserção II justifica a I.
· As asserções I e II estão corretas, e a asserção II não justifica a I.
checkCORRETO
Resolução comentada: 
O tratamento de grandes volumes de dados por meio da linguagem Python pode ser feito pela plataforma Hadoop, a qual é de computação distribuída, com alta escalabilidade, de grande confiabilidade e bastante tolerante a falhas.
Código da questão: 50724
8)
A respeito de otimização de programação R, avalie a afirmativa a seguir para completar suas lacunas corretamente.
Em se tratando de otimização da linguagem R em ____________, estudiosos do assunto afirmam que esta é uma questão ____________, pois, em muitas situações, os programas podem demorar um longo período de tempo para realizar ____________ de algumas tarefas (HÖLBIG; MAZZONETTO; PAVAN, 2017). Por isso, dá-se à otimização uma ampla atenção com a intenção de produzir scripts apropriados, que possam otimizar o desempenho computacional do processo.
Referência: HÖLBIG, C. A.; MAZZONETTO, A.; PAVAN, W. Computação paralela com a linguagem R: técnicas, ferramentas e aplicações. Minicurso. 17ª Escola Regional de Alto Desempenho do Estado do Rio Grande do Sul. Anais, p. 25-42. Ijuí: RS, 2017. Disponível em: http://www.lbd.dcc.ufmg.br/colecoes/erad/2017/003.pdf. Acesso em: 29 nov. 2019.
Assinale a alternativa que completa adequadamente as lacunas acima.
Alternativas:
· Computadores; fácil; execução.
· Processos; fácil; programas.
· Computadores; fácil; programas.
· Processos; crítica; execução.
checkCORRETO
· Computadores; crítica; execução.
Resolução comentada: 
Em se tratando de otimização da linguagem R em processos, estudiosos do assunto afirmam que esta é uma questão crítica, pois, em muitas situações, os programas podem demorar um longo período de tempo para realizar execução de algumas tarefas.
Código da questão: 50726
9)
A respeito do processo da descoberta do conhecimento por meio dos dados, avalie as asserções a seguir e a relação existente entre elas.
I. Para Loh (2014, n.p.) “o processo da descoberta do conhecimento é iterativo e interativo”.
PORQUE
II. O autor explica que ser iterativo (ou cíclico) indica que, em muitas situações, o processo pode precisar ser executado diversas vezes, com amostras diferentes ou, até mesmo, com técnicas distintas. O uso do termo interativo, ainda segundo o autor, justifica-se devido à necessidade de intervenção humana ao longo de todo o processo.
Referência: LOH, S. BI na era do big data para cientistas de dados: indo além de cubos e dashboards na busca pelos porquês, explicações e padrões. Porto Alegre. Edição do Kindle. 2014. Não paginado.
Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas.
Alternativas:
· A asserção I está correta, e a asserção II está incorreta.
· As asserções I e II estão corretas, mas a asserção II não justifica a I.
· As asserções I e II estão incorretas.
· As asserções I e II estão corretas e a asserção II justifica a I.
checkCORRETO
· A asserção I está incorreta, e a asserção II está correta.
Resolução comentada: 
Para Loh (2014, n.p.) “o processo da descoberta do conhecimento é iterativo e interativo”. O autor explica que ser iterativo (ou cíclico) indica que, em muitas situações, o processo pode precisar ser executado diversas vezes, com amostras diferentes ou, até mesmo, com técnicas distintas. O uso do termo interativo, ainda segundo o autor, justifica-se devido à necessidade de intervenção humana ao longo de todo o processo.
Código da questão: 50734
10)
Sobre redes P2P, avalie a afirmativas a seguir e classifique com (V) se verdadeira ou (F) se falsa.
( ) Uma das vantagens de uma rede P2P é que por ser descentralizada torna-se mais difícil de ser interrompida. 
( ) A internet é um exemplo de aplicativo de rede P2P que surgiu no período conhecido como Pré-P2P.
( ) A popularização de redes P2P ocorreu com o surgimento de aplicativos de compartilhamento de arquivos. 
( ) Uma das possíveis classificações de redes P2P divide-as em puras e híbridas.
( ) A classificação de redes P2P quanto ao controle divide-as em nós e supernós.
Assinale a alternativa que contenha a sequência correta.
Alternativas:
· V – V – F – V – F.
· V – F – V – V – F.
checkCORRETO
· V – V – V – V – V.
· F – F – F – F – F.
· F – V – F – V – F.
Resolução comentada: 
Uma das vantagens de uma rede P2P é que por ser descentralizada torna-se mais difícil de ser interrompida. A internet não é considerada uma rede Pré-P2P. A popularização de redes P2P ocorreu com o surgimento de aplicativos de compartilhamento de arquivos. Uma das possíveis classificações de redes P2P divide-as em puras e híbridas. Outra classificação de redes P2P quanto ao controle divide-as em distribuídas ou centralizadas.
Código da questão: 50713
Parte inferior do formulário
Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova!
Parte superior do formulário
1)
Um ________________ é um conjunto de dados utilizado no suporte ________________, sendo um repositório de dados _________________, orientado por assunto, _____________, variável no ______________ e _______________.
Assinale a alternativa que completa adequadamente as lacunas acima:
Alternativas:
· data warehouse - à tomada de decisões – atuais e históricos – integrado - espaço – não volátil.
· data warehouse - à tomada de decisões – atuais e históricos– integrado - tempo – volátil.
· data warehouse - à tomada de decisões – históricos – integrado - tempo – não volátil.
· sistema BI - à tomada de decisões – atuais e históricos – integrado - tempo – não volátil.
· data warehouse - à tomada de decisões – atuais e históricos – integrado - tempo – não volátil.
checkCORRETO
Resolução comentada:
As palavras que completam as lacunas são “data warehouse - à tomada de decisões – atuais e históricos – integrado - tempo – não volátil”. O data warehouse é um conjunto de dados que passaram por um processo de extração de várias fontes de dados, limpeza, transformação e carregamento, utilizado para a tomada de decisões, contando como um repositório de dados atuais e com dados históricos, orientados por assunto, integrado, variável no tempo e não-volátil.
Código da questão: 42818
2)
São características fundamentais dos data warehouse em relação aos dados:
I. Orientado por assunto
II. Integrado
III. Com apenas dados históricos.
IV. Variável no tempo.
V. Volátil.
São verdadeiras:
Alternativas:
· I, II, IV e V
· I, II, III, IV e V
· I, III e V
· I, II, III e IV
· I, II e IV
checkCORRETO
Resolução comentada:
As afirmativas III e V estão incorretas. Os data warehouse apresentam como características fundamentais dados que devem ser orientados por assunto, integrados e variáveis no tempo. Os data warehouse devem possuir dados atuais e dados históricos e devem ser não voláteis. .
Código da questão: 42820
3)
Dados dimensionais para dimensões grandes e complexas como cliente, fornecedor ou produto são frequentemente extraídos de várias fontes em diferentes momentos. Isso requer atenção especial ao reconhecimento da mesma entidade dimensional em vários sistemas de origem. Assinale a alternativa que apresente, corretamente, um conflito que pode ocorrer.
Alternativas:
· Conflito com dimensões grandes.
· Conflito de data e hora
· Conflito em descrições sobrepostas.
checkCORRETO
· Conflito de extração de dados.
· Conflito de chaves.
Resolução comentada:
Ao se utilizar dados dimensionais para dimensões grandes e complexas, é necessário uma atenção especial para reconhecer da mesma entidade dimensional em vários sistemas de origem um conflito em descrições sobrepostas.
Código da questão: 42853
4)
Sobre as ferramentas ETL Puras:
( ) são produtos independentes da base de dados e ferramenta de BI
( ) são produtos dependentes da base de dados e ferramenta de BI
( ) permitem a migração para diferentes base de dados sem mudar o processo de integração
( ) permitem a migração para diferentes base de dados mudando o processo de integração
( ) as empresas não precisam depender de nenhum outro produto para a funcionalidade oferecida
Assinale a alternativa que contenha a sequência correta:
Alternativas:
· V – V – V – F – F
· V – F – V – F – V
checkCORRETO
· V – V – F – V – F
· V – V – V – V – V
· V – V – V – F – V
Resolução comentada:
As afirmativas 2 e 4 são falsas. As ferramentas de ETL Pura são produtos independentes da base de dados e ferramenta ETL de Business Intelligence que se pretende usar. As empresas não precisam depender de nenhum outro produto para a funcionalidade oferecida e permitem a migração para diferentes bases de dados sem mudar o processo de integração.
Código da questão: 42828
5)
A ________________ de dados é a ________________ de dados de ______________ fontes em uma _________________única e coerente
Assinale a alternativa que completa adequadamente as lacunas acima:
Alternativas:
· combinação – conformação – diferentes – base de dados.
· conformação – combinação – semelhantes – base de dados.
· conformação – combinação – diferentes – base de dados.
checkCORRETO
· conformação – limpeza – diferentes – base de dados.
· conformação – transformação – diferentes – base de dados.
Resolução comentada:
A conformação de dados é utilizada para combinar de dados de diferentes fontes em uma base de dados única e coerente.
Código da questão: 42845
6)
São produtos fornecidos como opção ao comprar software de banco de dados e algumas funcionalidades são incorporadas ao banco de dados e não estão disponíveis separadamente na própria ferramenta ETL. Assinale a alternativa que apresenta, corretamente, a categoria de ferramenta de ETL descrita:
Alternativas:
· Ferramenta de ETL codificada manualmente
· Ferramenta ETL Produto de Nicho
· Ferramenta ETL Business Intelligence Integrada
· Ferramenta ETL Pura
· Ferramenta ETL Base de dados integrada
checkCORRETO
Resolução comentada:
A Ferramenta ETL Base de dados integrada é um produto fornecido como opção ao comprar software de banco de dados e algumas funcionalidades são incorporadas ao banco de dados e não estão disponíveis separadamente na própria ferramenta ETL .
Código da questão: 42825
7)
Um ___________ é uma variação ou ____________ aleatório observado em uma ______________ medida, podendo introduzir erros nos ____________.
Assinale a alternativa que completa adequadamente as lacunas acima:
Alternativas:
· desvio – erro – variável - resultados.
· ruído – erro – variável - resultados.
checkCORRETO
· ruído – erro – análise - resultados.
· ruído – erro – variável - ruídos.
· ruído – mudança – variável - resultados.
Resolução comentada:
O ruído se mostra como uma variação ou erro que se observa em uma variável que está sendo medida, podendo assim, apresentar erros nos resultados.
Código da questão: 42840
8)
A conformação de dados é a combinação de dados de diferentes fontes em uma base de dados única e coerente. São alguns problemas relacionados à conformação de dados:
I. Identificação de Entidades.
II. Redundância.
III. Conflito de Valores.
IV. Suavização.
V. Agregação.
São verdadeiras:
Alternativas:
· I, III e V.
· I, II, III e IV.
· I, II e III.
checkCORRETO
· I, II, III e V.
· I, II e IV.
Resolução comentada:
As afirmações IV e V são falsas. São alguns dos problemas relacionas à conformação de dados, a identificação de entidades, a redundância e o conflito de valores.
Código da questão: 42846
9)
O uso de banco de dados é essencial para o processo de manipulação de dados, porém para fins analíticos é de difícil uso, sendo indicado o uso de um data warehouse. Assinale a alternativa que apresenta, corretamente, o principal objetivo de um data warehouse:
Alternativas:
· Auxiliar à tomada de decisões
checkCORRETO
· Alteração de dados
· Armazenamento de dados
· Transformação de dados
· Recuperação de dados
Resolução comentada:
O principal objetivo de um data warehouse é auxiliar as organizações na tomada de decisões, pois fornece dados que podem ser utilizados para fins analíticos.
Código da questão: 42817
10)
O subsistema de limpeza de dados necessita ser minucioso em sua detecção, correção e documentação da qualidade das informações que publica. Os usuários finais querem utilizar o data warehouse como uma fonte de dados confiável, uma base sobre a qual pode construir suas métricas, estratégias e políticas de gerenciamento. Assinale a alternativa que apresente, corretamente, o objetivo de qualidade de dados descrito acima:
Alternativas:
· Transparência.
· Rapidez.
· Validade.
· Correção.
· Completude.
checkCORRETO
Resolução comentada:
Ser completo (completude) tem como característica ser minucioso em sua detecção, correção e documentação da qualidade das informações que publica. Os usuários finais querem utilizar o data warehouse como uma fonte de dados confiável, uma base sobre a qual pode construir suas métricas, estratégias e políticas de gerenciamento.
Código da questão: 42839
Parte inferior do formulário
Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova!
Parte superior do formulário
1)
Sobre a linguagem de programação Python, avalie as asserções a seguir e as possíveis relações entreelas.
I. A linguagem de programação Python foi criada para ser versátil ou mais flexível, podendo ser estrutural ou orientada a objetos.
PORQUE
II. O criador da linguagem Python tinha como ideia inicial na sua criação, o propósito de minimizar o máximo possível as estruturas de programação existentes na época.
Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas:
Alternativas:
· As asserções I e II estão corretas e a segunda justifica a primeira.
checkCORRETO
· A asserção I está correta e a asserção II está incorreta.
· As asserções I e II estão corretas, mas a segunda não justifica a primeira.
· As asserções I e II estão incorretas.
· A asserção I está incorreta e a asserção II está correta.
Resolução comentada:
Uma das versatilidades do Python é que ele pode ser programado, tanto no modo funcional estrutural quanto orientado a objetos. Guido Van Rossum tinha como propósito minimizar o máximo possível as estruturas de programação, retirando as chaves e parênteses excessivos que as linguagens de programação da época continham.
Código da questão: 43779
2)
O aplicativo Weka foi criado para trabalhar com inteligência artificial e mineração de dados. Sobre ele, avalie as asserções a seguir e a relação existente entre elas.
I. O Weka tem umas especificidades em relação a outras bibliotecas próprias para elaboração de visualização de dados para Web.
PORQUE
II. O Weka tem algoritmos de classificação e regressão para realizar mineração de dados.
Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas:
Alternativas:
· A primeira asserção é verdadeira e a segunda é falsa.
· As duas asserções são verdadeiras e a segunda justifica a primeira.
· A primeira asserção é falsa e a segunda é verdadeira.
checkCORRETO
· As duas asserções são verdadeiras e a segunda não justifica a primeira.)
· As duas asserções são falsas.
Resolução comentada:
A 1ª afirmativa está incorreta, porque o WEKA não produz dados para web, não gera código fonte para web.
Código da questão: 51585
3)
A respeito de característica de data discovery, avalie a afirmativa a seguir para completar suas lacunas corretamente.
Um dos diferenciais do conceito de data discovery é, segundo especialistas, que seu ____________ permite identificar ____________sem respostas, ou seja, é possível identificar itens ou elementos que não seriam possíveis de ver com outra ____________.
Assinale a alternativa que contém as palavras adequadas às lacunas. :
Alternativas:
· produto; perguntas; análise.
· produto; visualização; análise.
· armazenamento; análises; análise.
· processo; perguntas; metodologia.
checkCORRETO
· processo; visualização; metodologia.
Resolução comentada:
Um dos diferenciais do conceito de data discovery é, segundo especialistas, que seu processo permite identificar perguntas sem respostas, ou seja, é possível identificar itens ou elementos que não seriam possíveis de ver com outra metodologia. Isso ocorre, principalmente, com a visualização de dados, ou seja, o data discovery, onde é possível identificar padrões e tendências mais facilmente e, a partir disto, levantar hipóteses e questionamentos.
Código da questão: 43786
4)
Sobre as intenções que justificam a elaboração de um dashboard, avalie as asserções a seguir.
I. As informações que devem constar em um dashboard estão diretamente relacionadas com os objetivos da empresa que o produz.
PORQUE
II. Sempre que se elabora um dashboard, as intenções que estimularam a sua elaboração, em geral, podem variar a depender do ambiente, corporativo ou acadêmico.
Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas:
Alternativas:
· A asserção I está incorreta e a asserção II está correta.
· As asserções I e II estão incorretas.
· As asserções I e II estão corretas e a segunda justifica a primeira.
· As asserções I e II estão corretas, mas a segunda não justifica a primeira.
checkCORRETO
· A asserção I está correta e a asserção II está incorreta.
Resolução comentada:
As informações que devem constar em um dashboard estão diretamente relacionadas com os objetivos da empresa que o produz, por isso elas podem variar consideravelmente, não podendo ser padronizadas.
Código da questão: 43774
5)
Em se tratando do conceito OLAP, além da possibilidade de visualização multidimensional e da exploração de dados, existem outras atividades associadas. Com respeito a isto, avalie a afirmativa a seguir para completar suas lacunas apropriadamente.
Dentre as atividades que envolvem o conceito OLAP está o ____________ de dados, que também é conhecido como ____________ ou como ____________ de dados digitais.
Assinale a alternativa que completa adequadamente as lacunas acima:
Alternativas:
· Tratamento; análise de dados; depósito.
· Armazenamento; OLAP; depósito.
· Armazenamento; data warehouse; depósito.
checkCORRETO
· Armazenamento; data warehouse; visualização.
· Tratamento; análise de dados; visualização.
Resolução comentada:
A etapa do armazenamento de dados está mais vinculada a um outro conceito conhecido como data warehouse, que em uma tradução literal significa depósito de dados digitais.
Código da questão: 43781
6)
Sobre visualização de dados e dashboards, suas características como vantagens, desvantagens, dentre outras, avalie as afirmativas a seguir.
I. A visualização de dados é uma ciência e não uma arte, segundo alguns estudiosos.
II. As informações apresentadas em um dashboard podem ser desagregadas em grupos, regiões, etc.
III. Um arquivo em PDF divulgado periodicamente entre interessados em determinadas informações pode ser considerado um dashboard.
IV. Um dos objetivos principais de um dashboard é divulgar informações de maneira rápida.
V. Uma métrica de um dashboard é um gráfico que só pode ser divulgado neste tipo de visualização de dados.
Estão CORRETAS somente as afirmações em:
Alternativas:
· I, IV e V.
· I, II e IV.
· II, III e IV.
· IV e V.
· I, II, III e IV.
checkCORRETO
Resolução comentada:
A visualização de dados é considerada uma ciência para alguns estudiosos da área. As informações divulgadas em dashboards podem ser desagregadas em grupos, regiões, etc. Um arquivo em PDF divulgado periodicamente, para um determinado número de interessados nas informações contidas nele, pode ser classificado com um dashboard, pois um dos seus objetivos é a divulgação rápida e eficiente de informações. Uma métrica é um resultado numérico divulgado em dashboard.
Código da questão: 43772
7)
Taurion (2013) faz uma analogia entre Big Data e a medicina. O autor afirma que Big Data é um determinado aparelho laboratorial que permite enxergar coisas que não se podia até então. Qual o nome deste aparelho?
TAURION, Cezar. BIG DATA. Rio de Janeiro: Brasport, 2013. EPUB. Não paginado.
Assinale a alternativa CORRETA.
Alternativas:
· Lupa.
· Binóculo.
· Microscópio.
checkCORRETO
· Estetoscópio.
· Computador.
Resolução comentada:
Uma analogia feita por Taurion (2013) com respeito a Big Data e medicina é feita quando o autor afirma que Big Data é um microscópio, o qual permitiu que se vissem coisas que já existiam, como bactérias e vírus, mas que não se tinha conhecimento.
Código da questão: 43765
8)
O conceito de Big Data é um conceito amplo, pois além de envolver uma grande produção de informações, também está relacionado com algumas características importantes de Business Analytics. Considerando este contexto, avalie as afirmativas a seguir.
I. O conceito de Big Data trouxe para o mundo conceitos inovadores de produção e tratamento de dados.
II. Big Data é considerado um fenômeno dado à complexidade de sua definição, que envolve uma série de fatores e comportamentos.
III. As causas do fenômeno Big Data estão diretamente associadas com os insumos realizados em tecnologia.
IV. A equação matemática que pode ser utilizada para representar o conceito de Big Data envolve o conjunto dos quatro “Vs”.
V. Agregar valor associado ao conceito de Big Data significa dedicação ao trabalho sem esperar retorno.
Estão CORRETAS as afirmações:Alternativas:
· I, II e III.
checkCORRETO
· II, III e V.
· I, II, III e V.
· III, IV e V.
· II, III, IV e V.
Resolução comentada:
É verdade que o conceito de Big Data trouxe para o mundo conceitos inovadores de produção e tratamento de dados. Por isso, Big Data é considerado um fenômeno, pois envolve uma série de fatores que tornam o seu conceito, de certa forma, complexo. No entanto, é possível afirmar que as causas deste fenômeno estão diretamente associadas aos insumos realizados em tecnologia. Matematicamente, o conceito de Big Data envolve a soma de cinco características iniciadas com a letra V. Portanto, envolve cinco “Vs”. E, para finalizar, agregar valor significa o retorno financeiro esperado no investimento realizado em Big Data.
Código da questão: 43767
9)
Sobre a diversidade de ferramentas para visualização de dados na web, avalie as afirmativas a seguir e assinale (V) se verdadeira e (F) se falsa.
( ) A biblioteca Dygraphs foi criada com linguagem JavaScript e tem código open source.
( ) Existe um pacote em linguagem R que permite o uso da biblioteca Dygraphs dentro do RStudio.
( ) A biblioteca Highcharts foi criada com base em SVG.
( ) A biblioteca Highcharts tem a limitação de ter sido criada unicamente para dispositivos móveis.
( ) A biblioteca Google Charts exige conhecimento de programa R.
Assinale a alternativa que contenha a sequência CORRETA.
Alternativas:
· V – V – V – V – V.
· F – F – F – F – F.
· F – V – F – V – F.
· V – V – V – F – F.
checkCORRETO
· V – F – V – F – V.
Resolução comentada:
A biblioteca Dygraphs foi criada com linguagem JavaScript e tem código open source. Existe um pacote em linguagem R que permite o uso da biblioteca Dygraphs dentro do RStudio. A biblioteca Highcharts foi criada com base em SVG (Scalable Vector Graphics). A biblioteca Highcharts foi criada para Web e dispositivos móveis. A biblioteca Google Charts NÃO exige conhecimento de programa R.
Código da questão: 43793
10)
Estamos em tempos de massiva produção de dados. Por causa disso, existe uma intensa corrida tecnológica em busca de ferramentas adequadas para o armazenamento e tratamento analítico desses dados para transformá-los em informação útil para a sociedade. Existe um conceito que denomina essa produção intensa de dados. Qual o nome atribuído para esta situação?
Assinale a alternativa CORRETA.
Alternativas:
· Visualização.
· Big Data.
checkCORRETO
· Estatísticas.
· Dados qualitativos.
· Análise exploratória.
Resolução comentada:
O movimento de intensa geração de dados que exige ferramentas apropriadas para armazenamento e tratamento dos mesmos é conhecido com Big Data.
Código da questão: 43760
Parte inferior do formulário
Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova!
Parte superior do formulário
1)
Sobre os impactos do uso de Big Data, pode-se afirmar que:
I. As ações preditivas são permitidas graças ao imenso volume de dados analisados de diferentes fontes e, consequentemente, diferentes lugares.
II. Decisões automatizadas roubam o lugar do ser humano, caracterizando-se como impacto negativo.
III. Os interesses individuais de usuários consumidores estão cada vez mais compreendidos pelas empresas, obtendo resultados relevantes em suas consultas.
IV. O aumento do processamento de dados trouxe menos transparência de informações.
V. Os planos de negócio são otimizados com Big Data, revendo ações estratégicas em função das informações obtidas sobre os padrões de clientes e de consumo de regiões selecionadas.
São verdadeiras:
Alternativas:
· II – III – IV.
· I – III – V.
checkCORRETO
· I – IV – V.
· I – III – IV.
· III – IV – V.
Resolução comentada:
a afirmação I é verdadeira, pois esse imenso volume de informações permite encontrar padrões e relações recorrentes em dados, o que permite prever a ocorrência de um fenômeno ou evento; a III é correta, pois trata-se da segmentação da população ao nível individual do usuário em virtude de que o processamento de dados em massa permite identificar padrões comportamentais como os de consumo, filtrando e apresentando apenas resultados que realmente serão interessantes; e a V é correta, pois a identificação de padrões individuais ou regionais permite mudar os planos de negócio de uma empresa, otimizando práticas de venda cruzada, marketing direcionado à localidade, manutenção de clientes, entre outras mudanças. A II está errada, pois as decisões automatizadas são impactos positivos e que não surgiram para substituir o homem, e sim auxiliá-lo em situações que exigem ultrarrapidez em processamento de dados, o que o ser humano é incapaz de realizar. A IV é errônea, na verdade, o aumento do processamento de dados foi gerado também por um aumento do acesso a dados, que antes eram inacessíveis, permitindo cruzamentos de informações que podem gerar visualizações de demanda populacionais ou mesmo desvios em contas públicas, de modo geral, maior transparência.
Código da questão: 59525
2)
Em relação a Structure Query Language (SQL) e suas estruturas de linguagem empregadas na gestão de um banco de dados, qual alternativa contém as duas principais sublinguagens da SQL?
Alternativas:
· BDR e DDL.
· DML e DVL.
· IML e BDR.
· DDL e DML.
checkCORRETO
· DLL e DML.
Resolução comentada:
A Data Definition Language (DDL – Linguagem de Definição de Dados) e a Data Manipulation Language (DML – Linguagem de Manipulação de Dados) são as principais sublinguagens da SQL utilizadas para consultas e/ou manipulação de arquivos do banco de dados, respectivamente.
Código da questão: 59520
3)
Sobre os cinco “Vs” de Big Data, considere as seguintes afirmações:
( ) Compreende as características valor, veracidade, volume, velocidade e variedade.
( ) Obtenção de dados estruturados ou não, em diversas fontes, é o que define variedade de Big Data.
( ) Veracidade relaciona-se ao rápido processamento de dados, em tempo real, garantindo sua integridade e, consequentemente, confiabilidade.
( ) Dados são sinônimos de valor quando são tratados de forma a serem importantes e com potencial de agregar valor às empresas.
( ) Volume corresponde à seleção de pequenos grupos de dados importantes, com posterior descarte dos que não trarão retorno.
Assinale a alternativa que contenha a sequência correta:
Alternativas:
· V – V – F – V – F.
checkCORRETO
· V – V – F – F – F.
· F – V – F – V – F.
· V – F – F – V – F.
· V – V – F – V – V.
Resolução comentada:
os 5Vs de Big Data são: volume (quanto mais informações, mais possibilidades de se obterem informações valiosas); velocidade (processamento em tempo real); veracidade (garantia de que os dados são confiáveis, imparciais e não tendenciosos); variedade (os dados devem vir das mais variadas fontes possíveis, podem ser estruturados ou não); e valor (os dados devem agregar valor às empresas, trazendo retorno financeiro).
Código da questão: 59523
4)
Quais os princípios importantes na área de banco de dados que foram estudados?
Alternativas:
· Reconstrução, consistência e interação.
· Reconstrução, inconsistência e união.
· Reconstrução, consistência e integração.
· Reordenação, consistência e integração.
· Redundância, inconsistência e integração.
checkCORRETO
Resolução comentada:
os princípios são: redundância, inconsistência e integração, que são um conjunto de regras e princípios para que o tempo de aquisição das informações estruturadas seja curto, e o processo, confiável.
Código da questão: 59504
5)
Sobre a linguagem SQL, suas características e suas sublinguagens, podemos afirmar que:
I. A SQL compartilha dos objetivos básicos de um banco de dados relacional.
II. A linguagem de alto nível da DDL é responsável por ler solicitações por meio de linguagens de programação selecionadas.
III. O uso da SQL facilitao trabalho e a utilização de DBMS pelos usuários e programadores.
IV. O DML deve ser utilizado apenas para a definição lógica dos dados exigidos pelo usuário.
V. SQL em um DBMS pode manipular as funções desse sistema por meio da DDL, DML, alterações em implementações e na gestão do banco de dados propriamente dita.
São verdadeiras:
Alternativas:
· I – II – IV.
· I – II – V.
· II – IV – V.
· I – III – V.
checkCORRETO
· II – III – V.
Resolução comentada:
a afirmação I é verdadeira, pois, assim como o BDR, a SQL tem como objetivos a segurança, o controle e a integridade dos dados contra possíveis falhas; já a III é correta, pois a migração de dados é facilitada, uma vez que a SQL é padrão para DBMS, o que contribui para uma conversão de dados tranquila e sem a necessidade de treinamentos; e a V é correta, pois esse é o princípio do uso da SQL no DBMS, alterando definições de dados por meio da DDL, otimizando as implementações em função das necessidades dos usuários, garantindo a segurança, o controle e a administração de dados e permitindo ao DBAs a manipulação de dados por meio da DML de forma restrita a eles. A II está errada, pois a DDL não apresenta um alto ou baixo nível igual ao DML, sendo utilizada exclusivamente para a definição de dados, o que já justifica o fato de a afirmação IV ser errônea, pois a descrição mencionada é da DLL, enquanto a DML é responsável por manipular os dados por meio de linguagens de alto e baixo nível.
Código da questão: 59518
6)
Em relação à cardinalidade, existem dois tipos. Assinale a alternativa que os define bem:
Alternativas:
· Cardinalidade máxima: o número mínimo de vezes em que pode haver ocorrência de uma entidade A em B.
Cardinalidade mínima: o número mínimo de vezes que pode haver ocorrência de uma entidade A em uma entidade B.
· Cardinalidade máxima: o número máximo de vezes em que pode haver ocorrência de erros.
Cardinalidade mínima: o número mínimo de vezes que pode haver ocorrência de erros.
· Cardinalidade máxima: o número máximo de vezes em que pode haver ocorrência de um banco possuir Big Data.
Cardinalidade mínima: o número mínimo de vezes que pode haver ocorrência de um banco possuir Big Data.
· Cardinalidade máxima: o número máximo de vezes em que pode haver ocorrência de uma entidade A em B.
Cardinalidade mínima: o número mínimo de vezes que pode haver ocorrência de uma entidade A em uma entidade B.
checkCORRETO
· Cardinalidade máxima: o número máximo de vezes em que um banco de dados pode ser repetido em outras empresas.
Cardinalidade mínima: o número mínimo de vezes que um banco de dados pode ser repetido em outras empresas.
Resolução comentada:
cardinalidade máxima: refere-se ao número máximo de vezes em que pode haver ocorrência de uma entidade A em B.
Cardinalidade mínima: refere-se ao número mínimo de vezes que pode haver ocorrência de uma entidade A em uma entidade B. Os valores possíveis são zero ou um.
Nos relacionamentos em que temos a possibilidade de ocorrência N vezes, temos então uma cardinalidade máxima para esses casos.
Código da questão: 59509
7)
Este conceito é como se fosse uma proteção, quando uma transação não foi validada, mas está em andamento, o conceito garante que deve permanecer separada, ou seja, não haverá interferência por outra ação que acontece concomitantemente.
Estamos falando do conceito de:
Alternativas:
· Durabilidade.
· Consistência.
· Isolamento.
checkCORRETO
· Atomicidade.
· Coerência.
Resolução comentada:
o isolamento garante que transações concorrentes não sofram mútua interferência. Em outras palavras, uma transação em andamento que ainda não esteja validada deve permanecer isolada de qualquer outra operação, garantindo que a transação não será interferida por nenhuma outra.
Código da questão: 59512
8)
É o conceito que dá a ideia de indivisibilidade, ou seja, as transações que acontecem com partes de informações discretas devem ser totalmente executadas, caso contrário, se forem divididas, não serão executadas. Então, este conceito, assim como o átomo, garante a indivisibilidade de suas partes.
Estamos falando do conceito de:
Alternativas:
· Atomicidade.
checkCORRETO
· Durabilidade.
· Consistência.
· Isolamento.
· Coerência.
Resolução comentada:
atomicidade: uma transação deve ser realizada em sua totalidade, caso não seja, não deve ser realizada. Isolamento ou isolação: uma transação deve ser executada isoladamente, mesmo que sejam executadas ao mesmo tempo que outras. Mesmo acontecendo simultaneamente, não deve sofrer interferência de outras transações.
Código da questão: 59511
9)
É importante entender as vantagens, os benefícios e a importância de um banco de dados relacional confiável.
Pode-se considerar um investimento que as empresas fazem que pode impactar a produtividade, gerando impacto positivo entre os funcionários e bons resultados que a empresa pode alcançar.
Sobre os benefícios do banco de dados em uma empresa, pode-se afirmar que:
I. Entre os setores das empresas: relacionamento entre as diversas áreas e dados da empresa. Um bom banco de dados pode manter as várias áreas diferentes da empresa se comunicando de forma eficiente, isso melhora seu tempo de produtividade.
II. Aumentar os riscos de operação: a possibilidade de aumentar os riscos se dá porque a transparência das informações é maior, dado que as diferentes equipes terão acesso confiável aos dados. Isso faz com que as equipes estejam alinhadas com as necessidades do empreendimento.
III. Aumentar a segurança: ter um sistema de gestão de informações, ampliando a confiança com uma aquisição e armazenamento de dados para pessoas que precisam ter acesso e, também, limitando e controlando as pessoas com acesso e, com isso, ter maior segurança dos dados.
IV. Melhorar a tomada de decisão: basear em informações valiosas de forma eficiente é a melhor forma de diminuir os riscos e tomar decisões de forma coerente com as características da empresa. É mais provável ter uma visão geral do todo e identificar os principais problemas e melhorias a serem alcançadas no negócio.
São verdadeiras:
Alternativas:
· I – III – IV.
checkCORRETO
· III – IV.
· I – IV.
· I – II – III – IV.
· II – III – IV.
Resolução comentada:
I. Entre os setores das empresas: relacionamento entre as diversas áreas e dados da empresa. Um bom banco de dados pode manter as várias áreas diferentes da empresa se comunicando de forma eficiente, isso melhora seu tempo de produtividade.
II. Diminuir os riscos de operação: a possibilidade de aumentar os riscos se dá porque a transparência das informações é maior, dado que as diferentes equipes terão acesso confiável aos dados. Isso faz com que as equipes estejam alinhadas com as necessidades do empreendimento.
III. Aumentar a segurança: ter um sistema de gestão de informações, ampliando a confiança com uma aquisição e armazenamento de dados para pessoas que precisam ter acesso e, também, limitando e controlando as pessoas com acesso e, com isso, ter maior segurança dos dados.
IV. Melhorar a tomada de decisão: basear em informações valiosas de forma eficiente é a melhor forma de diminuir os riscos e tomar decisões de forma coerente com as características da empresa. É mais provável ter uma visão geral do todo e identificar os principais problemas e melhorias a serem alcançadas no negócio.
Código da questão: 59510
10)
Já falamos sobre algumas tecnologias que aprofundaremos ao longo da matéria, mas é importante falar também dos profissionais e da importante atuação e do conhecimento necessário do assunto da disciplina, assim como novas profissões atuais e do futuro.
Quais são alguns conhecimentos importantes que os cientistas e analistas de dados precisam ter?
Alternativas:
· Estatística, Python, R, modelo relacional.
checkCORRETO
· Smart data, R, cidades inteligentes, naruto.
· Dados para cidades, relacionamento, smartphone.
· LGPD, inglês, smart data, estilo de relacionamento.
· Smart data, Python, R, makimono.
Resolução comentada:
o novo cargo chamado cientista e analista de dados é exemplo de profissionais do presente e futuro.Código da questão: 59500
Parte inferior do formulário
Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova!
Parte superior do formulário
1)
Quanto às características do NoSQL, considere as seguintes afirmações:
I. O NoSQL tem como característica o bom desempenho e ser tolerante a falhas.
II. O relacionamento das tabelas deve ser feito por meio de chaveamento.
III. No banco de dados NoSQL, as tabelas têm que estar estruturadas verticalmente.
Assinale a alternativa correta.
Alternativas:
· Somente a alternativa II está correta.
· Somente as alternativas I e II estão corretas.
· Somente as alternativas I e III estão corretas.
· Somente a alternativa I está correta.
checkCORRETO
· Somente a alternativa III está correta.
Código da questão: 45984
2)
Sobre o Redis (Banco de Dados com estrutura chave-valor), analise as seguintes proposições:
( ) É um banco considerado fortemente tipado (tipos de dados explícitos).
( ) O comando GET deve ser sucedido pelo nome de uma chave.
( ) Não aceita dados do tipo true/false.
( ) Para sobrescrever um dado armazenado, basta atribuir um novo valor à mesma chave.
( ) Assim como os demais bancos não relacionais, possui evolução vertical e horizontal.
Assinale a alternativa que contenha a sequência correta:
Alternativas:
· F – F – V – V – F.
· V – F – F – V – V.
· F – V – V – F – F.
· F – V – F – F – F.
· F – V – F – V – F.
checkCORRETO
Resolução comentada:
Bancos NoSQL possuem tipagem fraca. No caso do Redis, para se resgatar um valor, insere-se GET+Chave desejada. Dados booleanos estão entre os vários tipos de dados aceitos. Para se sobrescrever uma chave, basta atribuir um novo valor a ela, inclusive, vazio. A evolução NoSQL ocorre sempre de maneira horizontal.
Código da questão: 46005
3)
Em um banco de dados orientado a grafos, “cada nó representa uma entidade (uma pessoa, local, coisa, categoria ou outra parte de dados) e cada relacionamento representa como dois nós estão associados. Essa estrutura de uso geral permite modelar todos os tipos de cenários - de um sistema de estradas a uma rede de dispositivos, ao histórico médico de uma população ou qualquer outra coisa definida por relacionamentos”.
Fonte: Neo4j. Why Graph Databases? Disponível em:<https://neo4j.com/why-graph-databases/?ref=footer> . Acesso em: 03 set. 2019.
Com base no enunciado, aponte a alternativa correta.
Alternativas:
· Um nó (node) limita-se a ligar-se com, no máximo, dois nós sucessores.
· Cada nó (node) deve estar associado com algum outro nó do mesmo banco.
· Cada nó (node) pode, também, ser considerado como um tipo de dado.
· Cada nó (node) pode ter N ligações com outros nós.
checkCORRETO
· Um nó (node) limita-se a ligar-se com, no máximo, um nó antecessor.
Resolução comentada:
Modelos orientados a grafos podem ter nós (nodes) com várias ligações a outros nós, embora isso não seja uma regra.
Código da questão: 46012
4)
O Redis mantém seus pares de _______________ alocados de forma dinâmica ___________, tornando seu acesso muito rápido. Isso significa que os dados armazenados ____________ (um preço a pagar pelo acesso quase instantâneo às informações).
Assinale a alternativa que completa adequadamente as lacunas acima:
Alternativas:
· ID/Hash; nos Schemas; não são consistentes.
· Chave/valor; nas tabelas; não são duráveis.
· Chave/valor; na memória; não são duráveis.
checkCORRETO
· Coluna/ID; nas chaves primárias; são persistentes.
· Coluna/Linha; na memória; são inconsistentes.
Resolução comentada:
A estrutura padrão do Redis é focada em Chave/Valor, e o ganho de velocidade é atribuído ao seu armazenamento temporário (não durável) na memória.
Código da questão: 46003
5)
I. O Hadoop possui alta escalabilidade, detecção de falha e alto desempenho, mesmo quando são processados grandes volumes de dados.
PORQUE
II. A sua arquitetura foi desenvolvida em cluster, fazendo com que as informações sejam processadas de forma distribuída.
Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas:
Alternativas:
· Ambas as asserções estão corretas, mas a segunda não justifica a primeira.
· A primeira asserção está correta, e a segunda está incorreta.
· A primeira asserção está incorreta, e a segunda está correta.
· Ambas as asserções estão incorretas.
· Ambas as asserções estão corretas, e a segunda justifica a primeira.
checkCORRETO
Resolução comentada:
O processamento do Hadoop é feito na forma de computação distribuída, conhecida como cluster.
Código da questão: 45996
6)
Nos bancos de dados orientado a ________________, a sua estrutura de armazenamento necessita de uma chave identificadora conhecida pela sigla ____________. Essa chave deve identificar os registros univocamente. Normalmente é definida ________________________ pelos sistemas de gerenciamento de banco de dados NoSQL.
Assinale a alternativa que completa adequadamente as lacunas acima:
Alternativas:
· Chave-valor; SGBD; manualmente.
· Documentos: UID; aleatoriamente.
· Colunas: UUID; dinamicamente.
· Documentos; UUID; automaticamente.
checkCORRETO
· Documentos: NUID; manualmente.
Resolução comentada:
Os bancos de dados orientados a documentos precisam de uma chave que identifica cada um dos registros univocamente, que tem como sigla UUID, que é o Identificador Único Universal, normalmente gerado automaticamente pelo SGBD.
Código da questão: 45998
7)
Observe a afirmativa a seguir.
Nos sistemas de gerenciamento de bancos de dados não relacionais, a garantia do ____________ é bem mais complexa em relação aos bancos de dados relacionais. Para isso, surge um conceito preparado para o NoSQL, conhecido como __________. O seu funcionamento consiste em ter apenas duas das três propriedades, sendo elas: disponibilidade, consistência e ___________________.
Assinale a alternativa que completa adequadamente as lacunas acima:
Alternativas:
· ACID; CAP; tolerância.
checkCORRETO
· CAP; ACID; tolerância.
· ACID; CAP; isolamento.
· ACID; CAP; durabilidade.
· CAP; ACID; isolamento.
Resolução comentada:
As propriedades encontradas no ACID foram preparadas para banco de dados do tipo relacional. Para atender às necessidades dos bancos de dados não relacionais (NoSQL), foi desenvolvido o CAP, com as propriedades de disponibilidade, consistência e tolerância, sendo necessário apenas duas propriedades no NoSQL.
Código da questão: 45983
8)
Analise a seguinte sintaxe:
CREATE (var :usuarios:professores) RETURN usuarios
É possível afirmar que:
( ) Existe uma variável atrelada ao processo de criação.
( ) Ocorrerá um erro na exibição do resultado de execução.
( ) Semanticamente, as palavras “usuário” e “professor” deveriam estar invertidas.
( ) Com esta estrutura, não seria possível adicionar mais labels após a palavra “professores”.
( ) Para adicionar propriedades ao label “professores”, seria necessário inseri-las entre chaves.
Assinale a alternativa que contenha a sequência correta:
Alternativas:
· V – V – F – F – V.
checkCORRETO
· F – F – V – V – F.
· V – V – V – V – F.
· V – V – F – F – F.
· F – F – F – V – V.
Resolução comentada:
Após a execução, um erro retornaria, informando que a variável usuários não foi inicializada – pois foi inicializada apenas a variável var. Em questões semânticas, sabe-se que professores pertencem a usuários. Novos labels podem ser atrelados à estrutura adicionando-se dois pontos e escrevendo o nome do label.
Código da questão: 46015
9)
No Neo4J, os elementos que seriam as colunas de um banco de dados relacional são chamados de _____________, enquanto _________________ fazem alusão _________________.
Assinale a alternativa que completa adequadamente as lacunas acima:
Alternativas:
· Nodes; os relacionamentos; aos labels.
· Propriedades; os labels; às tabelas.checkCORRETO
· Tabelas; os relacionamentos; às propriedades.
· Nós; as propriedades; aos relacionamentos.
· Labels; as propriedades; às tabelas.
Resolução comentada:
Propriedades representam colunas de um label. No Neo4J, os elementos que seriam as colunas de um banco de dados relacional são chamados de propriedades, enquanto os labels fazem alusão às tabelas.
Código da questão: 46013
10)
Quando um desenvolvedor efetua o levantamento de requisitos, as regras de negócio irão determinar como a aplicação deverá ser estruturada e isso deve ficar bem claro. Todas as características técnicas são determinadas nesse momento, e isso acaba impactando no formato da base de dados, no layout da aplicação, na tecnologia mais adequada, dentre outros pontos relevantes.
Assinale a alternativa que descreve a estrutura encontrada em projetos em que se tem um número de colunas pré-determinado e relacionamento entre tabelas: .
Alternativas:
· Dados estruturados.
checkCORRETO
· Dados não estruturados.
· Dados semiestruturados.
· Metadados.
· Dados superestruturados.
Resolução comentada:
São bases de dados organizadas com obediência às linhas e colunas. São estruturadas por meio das colunas, deixando bem claro o tipo de dado que poderá ser inserido.
Código da questão: 45987
Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova!
Parte superior do formulário
1)
A linguagem R foi elaborada com o intuito de realizar análise de dados. Sobre esta linguagem de programação, avalie as afirmativas a seguir.
I. A linguagem R possui diversas IDE (Ambiente de Desenvolvimento Integrado) que foram elaboradas para facilitar o seu uso.
II. A IDE RStudio tem interface dividida em três partes.
III. Um dos pacotes que permite elaboração de tabelas de frequências é o crosstab.
IV. O comando “summary( )” é utilizado para se obter medidas resumo das variáveis de um conjunto de dados.
V. A função “fisher.test( )” é utilizada para avaliar correlação entre variáveis quantitativas.
Assinale a alternativa que apresenta a sequência CORRETA.
Alternativas:
· I e IV.
checkCORRETO
· IV e V.
· II e III.
· II, III e IV.
· I, II e IV.
Resolução comentada:
A linguagem R possui diversas IDE, as quais foram elaboradas para facilitar o seu uso. A IDE RStudio tem interface dividida em quatro partes. Um dos pacotes da linguagem R que permite a elaboração de tabelas de frequências é o “descr”. O comando “summary( )” é utilizado para obter medidas resumo de variáveis de um conjunto de dados. A função “fisher.test( )” é utilizada para verificar associação entre variáveis qualitativas.
Código da questão: 47604
2)
I. A estatística é um conjunto de métodos quantitativos utilizados para realizar a coleta, organização e apresentação de dados para a busca de respostas a perguntas de pesquisas. Para facilitar a realização destas atividades, recorre-se aos programas computacionais como o software R, pois o uso de programas computacionais facilita a obtenção de resultados.
PORQUE
II. Com a utilização de programas computacionais, a execução das etapas de realização de uma análise estatística ocorre com muito mais velocidade e muito mais segurança do que se realizada manualmente.
Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas:
Alternativas:
· As duas asserções estão incorretas.
· A primeira asserção está correta e a segunda está incorreta.
· A duas asserções estão corretas e a segunda justifica a primeira.
checkCORRETO
· A primeira asserção está incorreta e a segunda está correta.
· As duas asserções estão corretas, mas a segunda não justifica a primeira.
Resolução comentada:
Para realizar uma análise estatística adequada e correta, uma série de etapas deve ser realizada com respeito aos dados. Para facilitar a execução destas etapas, assim como a obtenção dos resultados mais rapidamente, recorre-se ao uso de programas computacionais como o software R.
Código da questão: 47591
3)
Árvore de decisão é um dos modelos preditivos de classificação muito utilizado para ajustar modelos matemáticos a conjuntos de dados. Sobre este modelo, avalie as asserções a seguir e a relação entre elas.
I. O modelo de classificação árvore de decisão é um método preditivo bastante utilizado em mineração de dados.
PORQUE
II. A árvore de decisão consiste em criar um conjunto de regras que dividem as variáveis preditoras em duas partes.
Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas.
Alternativas:
· A asserção I está incorreta e a asserção II está correta.
· As asserções I e II estão corretas e a segunda justifica a primeira.
· As asserções I e II estão corretas, mas a asserção II não é justificativa da asserção I.
checkCORRETO
· As asserções I e II estão incorretas.
· A asserção I está correta e a asserção II está incorreta.
Resolução comentada:
O modelo de classificação árvore de decisão é um método preditivo bastante utilizado em mineração de dados. Uma árvore de decisão consiste em criar um conjunto de regras que dividem as variáveis preditoras em duas partes.
Código da questão: 47621
4)
A organização de dados para uma análise estatística requer uma série de manipulações para transformar os dados em informações úteis e aproveitáveis para pesquisas diversas. Um dos possíveis resultados de uma manipulação de dados se refere à obtenção de medidas ou estatísticas. Uma estatística é uma medida que é uma função dos dados de uma amostra. Qual dos itens apresentados pode ser considerado uma estatística?
Assinale a alternativa CORRETA.
Alternativas:
· Apuração.
· Parâmetro.
· Variância.
checkCORRETO
· Amostra.
· Coleta.
Resolução comentada:
Qualquer função dos dados de uma amostra é considerada uma estatística ou uma medida resumo. Um exemplo de uma função da amostra é a variância, que é o nome simplificado dado para a variância amostral.
Código da questão: 47587
5)
Sobre criação de bancos de dados em ambiente R, avalie as afirmações a seguir e assinale (V) para verdadeira e (F) para falsa.
( ) Um objeto do tipo data frame é mais genérico que um objeto do tipo matriz.
( ) O comando para selecionar as duas primeiras colunas de conjuntos de dados denominado “dados” é dados[1:3].
( ) O comando R para selecionar uma variável de um banco de dados é igual a “nome_variável$dados”.
( ) Para juntar vetores em colunas, utiliza-se a função cbind( ) em linguagem R.
( ) O comando aggregate( ) resume variáveis quantitativas segundo algumas variáveis categórica.
Assinale a alternativa que contenha a sequência correta:
Alternativas:
· V – F – F – V – V.
checkCORRETO
· F – V – V – F – F.
· F – F – F – F – F.
· V – V – V – V – V.
· F – V – F – V – F.
Resolução comentada:
Um objeto do tipo data frame é mais genérico que um objeto do tipo matriz, porque pode conter diversos tipos de variáveis. O comando que seleciona as duas primeiras colunas de um conjunto chamado “dados” é dados[1:2]. O comando que seleciona uma variável do conjunto “dados” é dados$nome_variável. A junção de vetores em colunas é feita com o uso do comando cbind( ). O comando aggregate( ) resume variáveis quantitativas em médias, por exemplo, segundo alguma outra variável categórica.
Código da questão: 47615
6)
O programa R é um software para análise estatística de dados. É um programa que está em crescimento quanto ao número de usuários, movimento motivado por uma série de fatores que influenciam na decisão de utilizá-lo. A respeito do programa R, avalie as afirmativas a seguir.
I. O R é um programa gratuito e de código aberto (open source).
II. A linguagem R foi desenvolvida por John Chambers e colaboradores.
III. A linguagem R é baseada em linhas de comando e é semelhante à linguagem S.
IV. Os argumentos das funções da linguagemR devem ser escritos sempre dentro de parênteses.
Assinale a alternativa que contenha as afirmativas CORRETAS.
Alternativas:
· I, II, III e IV.
checkCORRETO
· I e II.
· Apenas I.
· Apenas IV.
· I, II e III.
Resolução comentada:
As afirmativas I, II, III e IV estão corretas. O R é um programa gratuito e de código aberto (open source) desenvolvido por John Chambers e colaboradores. A linguagem R é baseada em linha de comando semelhante à linguagem S, onde os argumentos das suas funções devem ser digitados sempre dentro de parênteses.
Código da questão: 47590
7)
Os comandos de linguagem R criados podem ser armazenados em conjunto e, também, podem ser salvos em arquivos permanentes. Com respeito aos conjuntos de comandos do R, analise a afirmativa a seguir para completar suas lacunas corretamente.
Quando se elabora comandos de linguagem R no editor de códigos, tem-se um conjunto de comandos denominados ____________. Quando esses conjuntos são armazenados em grupos de conjuntos de comandos são denominados como _____________, também conhecidos como ____________.
A partir da afirmativa acima, assinale a alternativa que contém as palavras adequadas que preenchem as lacunas.
Alternativas:
· Pacotes; atributo; bibliotecas.
· Scripts; pacotes; objetos.
· Pacotes; objetos; variável.
· Scripts; objetos; variável.
· Scripts; pacotes; bibliotecas.
checkCORRETO
Resolução comentada:
A alternativa correta é “scripts; pacotes; bibliotecas”. Um conjunto de comandos digitados no editor de códigos compõe um script e um conjunto de scripts compõe um pacote ou biblioteca.
Código da questão: 47598
8)
Toda análise de dados, para ser bem executada, precisa ser bem planejada e executada com rigor. Então, para uma boa realização da análise, divide-se o processo em duas etapas. A primeira etapa da análise ajuda a conhecer os dados e a identificar todo e qualquer tipo de padrão existente, assim como a identificação de possíveis erros. Como é denominada a metodologia estatística utilizada na primeira etapa de uma análise de dados?
Assinale a alternativa CORRETA..
Alternativas:
· Amostragem.
· Inferência estatística.
· Causalidade.
· Teste de hipóteses.
· Estatística descritiva.
checkCORRETO
Resolução comentada:
Toda análise de dados é iniciada com uma exploração dos dados. As técnicas utilizadas para tal exploração compõem o conjunto de medidas descritivas, chamado estatística descritiva.
Código da questão: 47592
9)
A classe de modelos preditivos é diversa e, também, classificada segundo os objetivos que se tem com os dados. A esse respeito, avalie a afirmativa a seguir para completar corretamente suas lacunas.
Os modelos preditivos são uma classe de modelos ____________ utilizados para representarem __________ para tomada de decisão. Os modelos preditivos para ____________ também são conhecidos como modelos de _____________ supervisionada.
Assinale a alternativa que completa adequadamente as lacunas acima:
Alternativas:
· Matemáticos; problemas; classificação; aprendizagem.
checkCORRETO
· Visuais; fórmulas; equação; atividade.
· Constantes; problemas; classificação; aprendizagem.
· Estatísticos; problemas; classificação; atividade.
· Visuais; problemas; equação; atividade.
Resolução comentada:
Os modelos preditivos são uma classe de modelos matemáticos utilizados para representarem problemas para tomada de decisão. Os modelos preditivos para classificação também são conhecidos como modelos de aprendizagem supervisionada.
Código da questão: 47618
10)
A elaboração de um banco de dados para uma posterior análise estatística não é tão trivial quanto pode parecer. É uma das etapas onde mais tempo se utiliza para o bom andamento de um trabalho de análise de dados. De uma forma simples, é possível afirmar que um banco de dados é um arranjo retangular contendo linhas e, também, colunas. A depender da área de estudo, os elementos dos bancos de dados são denominados de maneira distinta. Por exemplo, os que os estatísticos chamam de “variável” em um banco de dados recebe outro nome, dado pelos profissionais da computação. Que nome é este?
Assinale a alternativa CORRETA.
Alternativas:
· Coluna.
· Registro.
· Campo.
checkCORRETO
· Variável.
· Linha.
Resolução comentada:
Os elementos que compõem um banco de dados recebem nomes distintos a depender da área de estudo. Por exemplo, o que os estatísticos chamam de “variável”, os profissionais da computação chamam de “campo”.
Código da questão: 47612
Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova!
Parte superior do formulário
1)
Sobre os conceitos de machine learning, considere as seguintes afirmações:
I. A aprendizagem de máquina supervisionada (Supervised Learning) é a tarefa de encontrar um resultado a partir de conjunto de dados. As informações de entrada não precisam estar rotuladas.
II. No aprendizado de máquinas não-supervisionado (Unsupervised Learning), apenas os dados de entrada são conhecidos e nenhum dado de saída conhecido é fornecido ao algoritmo.
III. O agrupamento é a tarefa de particionar o conjunto de dados (dataset) em 1 ou vários grupos, chamados clusters.
IV. O algoritmo k-Means Clustering gera 1-k agrupamentos a partir de um conjunto (dataset) de treinamento. A saída gerada é semelhante a diagrama de Voronoi, que é um particionamento do conjunto de dados com alguns pontos centrais conhecidos como centroides.
São verdadeiras:
Alternativas:
· Apenas I.
· I - III - IV.
· Todas as afirmações.
· Apenas III.
· II - III - IV.
checkCORRETO
Resolução comentada:
A afirmação I é falsa, pois o aprendizado de máquina supervisionado (Supervised Learning) é a tarefa de encontrar um resultado a partir de conjunto de dados e é obrigatório rotular o conjunto de dados de entrada.
Todas as demais afirmações são verdadeiras.
Código da questão: 48967
2)
Uma das principais estruturas que o Pandas disponibiliza para a utilização são os__________. Os __________ têm estruturas que trabalham de maneira__________. Sendo assim, eles são organizados em __________ e __________, onde cada linha é um registro e cada coluna um campo.
Assinale a alternativa que completa adequadamente as lacunas.:
Alternativas:
· Dataframes; Dataframes; linear; linhas; colunas.
· Frames; Frames; organizada; x; y.
· Repositórios; Repositórios; linear; colunas; linhas.
· Dataframes; Dataframes; tabular; linhas; colunas.
checkCORRETO
· Dataframes; Repositórios; tabular; X; Y.
Resolução comentada:
Os DataFrames têm organização tabular, portanto são organizados em linhas e colunas.
Código da questão: 48951
3)
Sobre os conceitos de Big Data e Apache Spark, considere as seguintes afirmações:
I. O Apache Spark é um framework para análise e processamento de Big Data. Além da API principal do Apache Spark, existem diversas bibliotecas adicionais para processamento de dados, SQL, grafos e aprendizado de máquina (machine learning) e processamento de imagens.
II. Spark SQL é a biblioteca mais importante do framework Apache Spark. Através dela você pode executar consultas SQL nativas em apenas dados estruturados. Tem suporte para linguagem em Java, Scala, Python e R.
III. Spark MLlib é uma biblioteca de aprendizado de máquina (machine learning), que consiste em diversos algoritmos de aprendizagem de máquina supervisionado e não-supervisionado.
IV. A biblioteca Spark GraphX contém funções para trabalhar com grafos e processamento de imagem (segmentação, filtragem e transformação geométrica).
São verdadeiras:
Alternativas:
· Apenas III.
checkCORRETO
· II - III - IV.
· Todas as afirmações.
· Apenas I.
· II - III.
Resolução comentada:
Apache Spark não contém API para processamento de imagens, portanto a opção I e IV são falsas.
A API SQL Spark tem suporte para dados semiestruturados e estruturados,portanto a opção II também é falsa.
Spark MLlib é uma biblioteca de aprendizado de máquina (machine learning), que consiste em diversos algoritmos de aprendizagem de máquina supervisionado e não-supervisionado, portando a opção III é correta.
Código da questão: 48972
4)
Sobre os conceitos de machine learning, considere as seguintes afirmações:
( ) Os primeiros estudos na área de machine learning surgiram por volta do ano 2000, devido à evolução dos computadores.
( ) Python é a única linguagem de programação utilizada para o desenvolvimento de aplicações na área de ciência de dados, especialmente na área de machine learning.
( ) Construindo um algoritmo de machine learning uma tarefa fundamental é a organização dos dados fazendo separação do conjunto de dados em 2 subconjuntos: treinamento e teste. É difícil estipular a porcentagem que cada subconjunto vai ter, por exemplo: 70% dos dados para treinamento e 30% para testes. Essa análise deve levar em consideração o problema a ser resolvido e o modelo.
( ) Em aprendizado de máquina supervisionado, o principal desafio é encontrar o conjunto de atributos suficientes que se ajustem ao modelo e que possa prever rótulos desconhecidos no conjunto de teste.
( ) Reconhecimento de impressão digital; identificação de tumores a partir de uma imagem de ressonância, reconhecimento de e-mail do tipo spam e recolhimento de animais em fotos, podem ser resolvidos utilizando algoritmo de regressão.
Assinale a alternativa que contenha a sequência correta.
Alternativas:
· V – V – V – F – F.
· F – F – V – V – F.
checkCORRETO
· F – V – V – V – F.
· V – F – V – V – F.
· V – F – V – F – F.
Resolução comentada:
O primeiro estudo em machine learning surgiu por volta de 1950, a evolução dos computadores possibilitou que as novas técnicas fossem aplicadas a grande quantidade de dados.
A linguagem Python é bastante utilizada para resolver problemas usando machine learning, porém outras linguagens também podem ser utilizadas, tais como: R, Java, SQL e Matlab.
Reconhecimento de impressão digital; identificação de tumores a partir de uma imagem de ressonância, reconhecimento de e-mail do tipo spam e recolhimento de animais em fotos, podem ser resolvidos utilizando algoritmo de classificação e não de regressão.
Código da questão: 48968
5)
Sobre os conceitos de visualização e análise de dados em Python, Matplotlib e Pandas, considere as seguintes afirmações:
I. A API do Pandas contém funções para obter informações de páginas HTML, através das funções read_html e to_html.
II. Usando as funções pandas.DataFrame.read_csv e pandas.DataFrame.show podemos fazer a leitura e visualizar todas as linhas contidas em um arquivo CSV.
III. Através do método pandas.DataFrame.drop, podemos apagar colunas ou linhas de um objeto DataFrame.
IV. A função pandas.DataFrame.describe retorna as estatísticas descritivas das colunas de um objeto DataFrame.
São verdadeiras:
Alternativas:
· Todas as afirmações.
· I - II - III.
· II - III - IV.
· I - III - IV.
checkCORRETO
· I - III.
Resolução comentada:
Usando as funções pandas.DataFrame.read_csv e pandas.DataFrame.head podemos fazer a leitura e visualizar todas as linhas contidas em um arquivo CSV. Portanto, a alternativa II é falsa. A função show é usada para plotar um gráfico e não visualizar as linhas de um arquivo.
Através do método pandas.DataFrame.drop, podemos apagar colunas ou linhas de um objeto DataFrame. Portanto, a alternativa III é verdadeira.
Código da questão: 48957
6)
A __________ é o elemento que ocorre com mais frequência em uma amostra, população ou distribuição. Outra medida importante na estatística é a __________ que é uma medida de dispersão e é usada também para expressar o quanto um conjunto de dados se desvia da média. Já o __________ é uma medida que expressa o grau de dispersão de um conjunto de dados ou amostra. Em outras palavras, indica o quanto um conjunto de dados é uniforme.
Na __________, os valores das medidas: moda, mediana e média são iguais.
Assinale a alternativa que completa adequadamente as lacunas acima:
Alternativas:
· Moda; correlação; desvio padrão; distribuição positiva.
· Média; variância; desvio padrão; distribuição positiva.
· Moda; variância; desvio padrão; distribuição normal.
checkCORRETO
· Moda; variância; histograma; distribuição normal.
· Média; correlação; desvio padrão; distribuição negativa.
Resolução comentada:
A moda é o elemento que ocorre com mais frequência em uma amostra, população ou distribuição. Já a variância é uma medida de dispersão e é usada também para expressar o quanto um conjunto de dados se desvia da média.
O desvio padrão é uma medida que expressa o grau de dispersão de um conjunto de dados ou amostra. Em outras palavras, indica o quanto um conjunto de dados é uniforme.
Na distribuição normal o valor da moda, mediana e média são iguais.
Código da questão: 48961
7)
A preparação de dados é um processo muito importante na área da Ciência de Dados, e tem por objetivo eliminar dados ruidosos e que possam alterar a análise no contexto geral.
No Python, quais as principais bibliotecas disponibilizadas para a limpeza desses dados?
Alternativas:
· PyTorch, Keras.
· XGBoost, LightGBM, CatBoost.
· Numpy, Scipy e Pandas.
checkCORRETO
· Matplotlib, Plotly.
· Scikit Learn.
Resolução comentada:
As bibliotecas Numpy, Scipy e Pandas possuem vastas funcionalidades estatísticas e de manipulação de dados que permitem a limpeza e organização dos dados antes de qualquer tarefa de processamento.
Código da questão: 48949
8)
O Spark tem algumas características que podem ser citadas, como, por exemplo, o armazenamento é realizado primeiramente em memória e somente após o processamento passa a enviar os dados para memória, agilizando o processamento das informações.
Além dessas características, assinale como verdadeira ou falsa as outras mencionadas a seguir:
( ) Otimização de operações para grafos.
( ) Suporte para funções que vão além do Map e Reduce.
( ) Disponibiliza um Shell interativo para as linguagens Python e Scala.
( ) A avaliação de consultas para Big Data sob demanda, contribuindo para a otimização do fluxo do processamento de dados.
( ) O Spark não suporta armazenamento de dados distribuídos.
Alternativas:
· V – F – V – V – V.
· F – V – F – V – F.
· V – V – V – V – F.
checkCORRETO
· F – V – V – V – V.
· F – F – V – V – F.
Resolução comentada:
Somente a última afirmativa é falsa, pois o Spark suporta armazenamento de dados distribuídos.
Código da questão: 48947
9)
Sobre os conceitos de Estatística, Probabilidade e bibliotecas do Python, considere as seguintes afirmações:
( ) Utilizando algumas bibliotecas do Python como Numpy, pandas e Matplotlib é possível criar e visualizar histogramas.
( ) Na distribuição normal, o valor da média, moda e mediana são sempre iguais.
( ) Na correlação, se o valor da magnitude se aproxima de 1 ou -1, indica que temos uma correlação fraca.
( ) A biblioteca Pandas é uma poderosa biblioteca do Python usada principalmente para realizar cálculos em arrays e matrizes multidimensionais.
Assinale a alternativa que contenha a sequência correta.
Alternativas:
· V – V– F – F.
checkCORRETO
· F – F – V – V.
· V – V – V – F.
· V – F – F – V.
· F – F – F – V.
Resolução comentada:
Na correlação, se o valor da magnitude se aproxima de 1 ou -1, indica que temos uma correlação forte.
A biblioteca NumPy é uma poderosa biblioteca do Python usada principalmente para realizar cálculos em arrays e matrizes multidimensionais.
Código da questão: 48963
10)
O processamento de dados em tempo real (streaming) é um requisito essencial em muitas aplicações que utilizam Big Data.
Em 2012, o Apache Spark incorporou a biblioteca Spark Streaming e sua___________, uma das primeiras APIs a ativar processamento de streaming usando operadores funcionais de alto nível, como mapear (map) e reduzir (reduce). Na versão atual, Apache Spark Streaming fornece uma API com suporte para as linguagens de programação _________, Java e Python.
Atualmente muitas empresas usam Apache Spark Streaming na produçãode aplicativos usando dados adquiridos em tempo real, geralmente processando terabytes de dados por hora. Muito parecido com a biblioteca de conjuntos de dados resilientes - __________________, no entanto, a API DStreams é baseada em operações de nível relativamente baixo em objetos _______ ou __________.
Assinale a alternativa que completa adequadamente as lacunas.
Alternativas:
· DataFrames; Scala; Resilient Distributed Dataset (RDD); R; Python.
· DStreams; R; Resilient Distributed Dataset (RDD); R; Python.
· API DataFrames; Java; DataSet; R; Scala.
· API DataSet; Java; Resilient Distributed Dataset (RDD); Java; Python.
· API DStreams; Scala; Resilient Distributed Dataset (RDD); Java; Python.
checkCORRETO
Resolução comentada:
Em 2012, o Apache Spark incorporou a biblioteca Spark Streaming e sua API DStreams e não DataFrames e DataSet.
A API Apache Spark Streaming tem suporte para linguagens Scala e não tem suporte para a linguagem de programação R.
A API DStreams é baseada em operações de nível relativamente baixo em objetos Java ou Python.
Código da questão: 48976
Parte inferior do formulário
1)
Os gráficos a seguir ilustram um algoritmo de regressão linear aplicado a quatro diferentes casos de dispersão de dados. Para todos os casos, tem-se a mesma reta de regressão linear y = 4+ 0,5x, independente de quais sejam as estatísticas suficientes, como: coeficientes linear e angular; soma dos quadrados dos resíduos e da regressão; e número de observações.
A partir dos gráficos, analise as afirmativas a seguir:
I. O gráfico B indica que os dados são propícios para a utilização de uma regressão do tipo linear.
II. O gráfico C ilustra a possível existência de uma observação outlier na regressão linear.
III. O gráfico D ilustra a possível existência de uma observação outlier na regressão linear.
Assinale a alternativa que julga corretamente essas afirmações:
Alternativas:
· Somente II está correta.
checkCORRETO
· Somente I está correta.
· Somente III está correta.
· Somente I e III estão corretas.
· Somente II e III estão corretas.
Resolução comentada:
I. O gráfico B mostra observações que não são corretamente estimadas por meio do uso de uma regressão linear.
II. A afirmativa está correta.
III. O gráfico D não contém dados corretamente estimados por uma regressão linear.
Código da questão: 49613
2)
Deep learning é um ramo de aprendizado de máquina baseado em um conjunto de algoritmos que buscam modelar abstrações em ____________ a partir da leitura de __________ de dados. Em redes profundas, ou densas, existem ____________ layers que possibilitam ao algoritmo utilizar várias camadas de processamento compostas por transformações lineares e não lineares.
Assinale a alternativa que preenche corretamente, na sequência, as lacunas do trecho anterior.
Alternativas:
· Conjuntos de dados; poucos níveis; poucos.
· Conjuntos de dados; grandes quantidades; vários.
· Baixo nível; grandes quantidades; vários.
· Alto nível; grandes quantidades; vários.
checkCORRETO
· Alto nível; poucos níveis; vários.
Resolução comentada:
Deep learning é um ramo de aprendizado de máquina baseado em um conjunto de algoritmos que buscam modelar abstrações em alto nível a partir da leitura de grandes quantidades de dados. Em redes profundas, ou densas, existem vários layers que possibilitam ao algoritmo utilizar várias camadas de processamento compostas por transformações lineares e não lineares.
Código da questão: 49626
3)
Um projetista resolveu utilizar seus conhecimentos para a criação de um chatbot, que tem como função simular o ser humano em uma conversação escrita. Para isso, ele deverá utilizar o ________________, que é uma técnica de machine learning, e um de seus principais algoritmos é o ________________.
Assinale a alternativa que preenche corretamente as lacunas.
Alternativas:
· Processamento em linguagem formal; Python.
· Mineração de dados; N-gram
· Processamento em linguagem natural; HTML.
· Processamento em linguagem natural; N-gram.
checkCORRETO
· Mineração de dados; HTML.
Resolução comentada:
um projetista resolveu utilizar seus conhecimentos para a criação de um chatbot, que tem como função simular o ser humano em uma conversação escrita. Para isso, ele deverá utilizar o processamento em linguagem natural, que é uma técnica de machine learning, e um de seus principais algoritmos é o N-gram.
Código da questão: 49621
4)
A análise de agrupamentos é utilizada para separar objetos em grupos e, a partir de suas características, identificar objetos similares. Esse tipo de algoritmo pode ser classificado de diversas maneiras, como, por exemplo, métodos hierárquicos, baseados em densidade ou baseados em erro quadrático.
Sobre os algoritmos de agrupamento, analise as afirmações a seguir:
I. A técnica de clustering hierárquico aglomerativo faz de cada elemento um cluster, depois agrupa os clusters similares, calcula as distâncias entre os clusters e repete esse processo até o final do algoritmo.
II. O agrupamento divisivo e aglomerativo funciona de maneira similar: ambos começam com inúmeros clusters e fundem os grupos de maior similaridade até restar apenas um grande grupo com os objetos.
III. O algoritmo k-means utiliza-se de uma etapa de treinamento, em que ele observa os dados de treinamento fornecidos para poder calcular o valor ótimo do parâmetro K, e então poder proceder à etapa de teste.
Sendo assim, estão CORRETOS somente os itens:
Alternativas:
· I.
checkCORRETO
· II – III.
· I – II.
· I – II – III.
· II.
Resolução comentada:
I. A técnica de clustering hierárquico aglomerativo faz de cada elemento um cluster, depois agrupa os clusters similares, calcula as distâncias entre os clusters e repete esse processo até o final do algoritmo.
II. O agrupamento divisivo e aglomerativo funciona de maneira oposta.
III. O algoritmo k-means não utiliza etapa de treinamento, e o valor do parâmetro K deve ser passado anteriormente.
Código da questão: 49620
5)
Técnicas de machine learning podem ser utilizadas para inúmeras finalidades. A seguir, você pode verificar graficamente uma solução que relaciona estilos de escrita e alguns livros famosos:
Figura 1 – Ilustração de metodologia de representação gráfica para a relação entre objetos e suas características principais
Fonte: adaptada de Gormley (2017).
Descrição: esta figura contém uma representação utilizada para relacionar seis obras literárias e seus respectivos estilos.
A Figura 1 contém a relação entre obras literárias e suas características; porém, elas estão divididas em duas etapas, sendo que a segunda é uma aproximação da primeira, utilizada para simplificar a análise.
Essa aproximação é uma técnica bastante
utilizada para a manipulação de dados em sistemas de recomendação. Sendo assim,
assinale a alternativa que contém o nome correto da técnica representada pela
Figura 1.
Alternativas:
· Recomendação por filtragem colaborativa baseada em métodos de relações de conteúdos.
· Recomendação por filtragem colaborativa baseada em métodos de aprendizado profundo.
· Recomendação por filtragem baseada em conteúdo com métodos híbridos.
· Recomendação por filtragem colaborativa baseada em métodos de fatoração matricial.
checkCORRETO
· Recomendação por filtragem colaborativa baseada em métodos de inversão matricial.
Resolução comentada:
a figura contém claramente uma fatoração matricial. A matriz inicial, de dimensão elevada, é manipulada de tal forma a ser fatorada para então poder ser representada pela multiplicação entre as matrizes  e . Com isso, a fatoração fica da seguinte forma:
Código da questão: 49634
6)
Existem inúmeros algoritmos de aprendizado de máquina, e cada um é mais indicado para um determinado tipo de dados. Existe um algoritmo que é normalmente sensível quanto à posição das sementes iniciais, o que pode levar para uma convergência local. Esse algoritmo é também sensível a ruídos, dado que ele leva em consideração os desvios dos objetos em relação ao centroide de cada cluster calculado. Por último, esse algoritmo não é indicado para o caso de os clusterspossuírem forma não convexa.
Assinale a alternativa que contém o nome correto do algoritmo descrito pelo texto acima.
Alternativas:
· Support vector machine.
· Random Forest.
· Algoritmo genético.
· K-means.
checkCORRETO
· Rede neural.
Resolução comentada:
o trecho se refere ao algoritmo K-means.
Código da questão: 49624
7)
Considere os seguintes passos necessários para a implementação de uma árvore de decisão:
A. Os dados são então divididos em seus diferentes atributos.
B. Calcule a entropia do resultado esperado.
C. Ramo com entropia 0 é uma folha; ramo com entropia maior do que 0 pode ser ainda mais dividida.
D. Escolha o atributo com o maior ganho de informação como o nó de decisão.
Alternativas:
· B – A – C – D.
· B – A – D – C.
checkCORRETO
· A – B – C – D.
· D – B – C – A.
· C – A – D – B.
Resolução comentada:
a sequência correta é B – A – D – C:
B. Calcule a entropia do resultado esperado.
A. Os dados são então divididos em seus diferentes atributos.
D. Escolha o atributo com o maior ganho de informação como o nó de decisão.
C. Ramo com entropia 0 é uma folha; ramo com entropia maior do que 0 pode ser ainda mais dividida.
Código da questão: 49619
8)
Alternativas:
· Regressão multivariável.
· K vizinhos mais próximos.
checkCORRETO
· Naive Bayes.
· K vizinhos mais distantes.
· Regressão linear.
Resolução comentada:
a figura contém um algoritmo de uma técnica kNN, também conhecida como K vizinhos mais próximos. A entrada do algoritmo é o conjunto de treinamento e o valor de k a ser utilizado. A saída é o classificador a ser utilizado.
Código da questão: 49612
9)
João aplicou um teste de múltipla escolha contendo 120 questões para um grande grupo de pessoas, e conseguiu perceber que houve uma grande variação na distribuição das notas.
João resolveu, então, utilizar um algoritmo para agrupar os alunos, para que cada aluno pudesse ficar no grupo mais indicado, de acordo com sua nota. Dessa forma, ele poderá elaborar trabalhos específicos para cada grupo.
Assinale a alternativa que contém o algoritmo mais indicado para a realização desse agrupamento.
Alternativas:
· K-means.
checkCORRETO
· Regressão logística.
· Regressão multivariável.
· Regressão linear.
· Monte Carlo.
Resolução comentada:
dentre as alternativas, o único algoritmo que faz o agrupamento, ou clustering, é o k-means.
Código da questão: 49623
10)
Os algoritmos de deep learning, diferente de outras técnicas de aprendizado de máquina, consegue ter seu desempenho melhorado e aperfeiçoado conforme a quantidade de dados a ser processada aumenta.
Sobre as técnicas e aplicações do aprendizado de máquina do tipo deep learning, julgue os itens a seguir:
( ) O deep learning é bastante indicado para a classificação e detecção de objetos em fotografias, pois é capaz de lidar bem com os milhares de pixels contidos em cada imagem.
( ) O deep learning, por ser uma técnica muito complexa e requerer muito cuidado na criação de cada uma das camadas ocultas do algoritmo, não pode ser aplicado em problemas de aprendizado de máquina não supervisionados.
( ) O deep learning não é utilizado para a criação de tradutores automáticos de texto, pois a implementação de tal algoritmo nessa aplicação iria requerer a utilização de um pré-processamento muito intenso na sequência de caracteres, o que acabaria inviabilizando sua utilização.
( ) Em algoritmos de deep learning, cada subcamada transforma seus dados de entrada em uma representação ligeiramente mais abstrata do que esses dados eram antes. Ao final de todas as camadas ocultas, tem-se, então, o dado modelado de maneira altamente abstrata.
Assinale a alternativa que contenha a sequência correta:
Alternativas:
· V – F – V – V.
· V – F – F – F.
· V – F – F – V.
checkCORRETO
· F – F – F – V.
· F – V – V – F.
Resolução comentada:
( V ) O deep learning é bastante indicado para a classificação e detecção de objetos em fotografias, pois é capaz de lidar bem com os milhares de pixels contidos em cada imagem.
( F ) O deep learning pode ser aplicado em problemas de aprendizado de máquina não supervisionados.
( F ) O deep learning é utilizado para a criação de tradutores automáticos de texto, pois a implementação de tal algoritmo nessa aplicação é performada de tal forma a não necessitar pré-processamento da sequência de caracteres.
( V ) Em algoritmos de deep learning, cada subcamada transforma seus dados de entrada em uma representação ligeiramente mais abstrata do que esses dados eram antes. Ao final de todas as camadas ocultas, tem-se, então, o dado modelado de maneira altamente abstrata.
Código da questão: 49627
Parte inferior do formulário
Código da questão: 50730
Parte inferior do formulário

Mais conteúdos dessa disciplina