Buscar

QUESTÕES

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 102 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 102 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 102 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova!
Parte superior do formulário
1)
I. Na fase de descoberta de dados, a equipe de ETL deve aprofundar mais na descoberta dos dados para determinar cada sistema, tabela e atributo de origem necessário para carregar o data warehouse. 
PORQUE
II. Deve-se determinar a fonte adequada para cada elemento, em que, uma boa análise, evita atrasos causados pelo uso de uma fonte errada.
Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas
Alternativas:
· A primeira asserção está incorreta e a segunda está incorreta
· A primeira asserção está correta e a segunda está incorreta.
· As duas asserções estão corretas e a segunda justifica a primeira
checkCORRETO
· As duas asserções estão corretas e a segunda não justifica a primeira.
· A primeira asserção está incorreta e a segunda está correta.
Resolução comentada: 
As duas asserções estão corretas e a segunda justifica a primeira. Na fase de descoberta de dados, a equipe de ETL deve aprofundar mais na descoberta dos dados para determinar cada sistema, tabela e atributo de origem necessário para carregar o data warehouse porque deve-se determinar a fonte adequada para cada elemento, em que, uma boa análise, evita atrasos causados pelo uso de uma fonte errada.
Código da questão: 42838
2)
Um ___________ é uma variação ou ____________ aleatório observado em uma ______________ medida, podendo introduzir erros nos ____________.
Assinale a alternativa que completa adequadamente as lacunas acima:
Alternativas:
· ruído – erro – variável - resultados.
checkCORRETO
· ruído – erro – análise - resultados.
· ruído – mudança – variável - resultados.
· ruído – erro – variável - ruídos.
· desvio – erro – variável - resultados.
Resolução comentada: 
O ruído se mostra como uma variação ou erro que se observa em uma variável que está sendo medida, podendo assim, apresentar erros nos resultados.
Código da questão: 42840
3)
São técnicas para suavização de ruídos:
( ) Compartimentalização (binning)
( ) Regressão Linear 
( ) Mineração de Dados
( ) Agrupamento (clustering)
( ) Regressão Não-Linear
Assinale a alternativa que contenha a sequência correta:
Alternativas:
· V – V – F – V – F
· V – V – F – V – V
checkCORRETO
· V – V – V – F – V
· V – V – V – V – V
· V – V – V – F – F
Resolução comentada: 
São técnicas para suavização de ruídos a compartimentalização (binning), a regressão linear, o agrupamento (clustering) e a regressão não-linear. Mineração de dados não é um método de suavização de ruídos porque é o exame de dados já coletados, resultando em informações.
Código da questão: 42842
4)
De acordo com Kimbal e Caserta (2009), a conformação ou integração de dados diz respeito a criação de dimensões e instâncias de fatos configuradas, combinando as melhores informações de várias fontes de dados em uma visão mais abrangente. Dentre um dos problemas para conformação, estão dados duplicados e vários atributos podendo ser obtidos a partir de um outro atributo ou conjunto de valores. Assinale a alternativa que apresente, corretamente, qual o problema descrito acima:
Alternativas:
· Unidades diferentes.
· Identificação de Entidades.
· Conflito de Valores.
· Valores que os campos podem assumir.
· Redundância.
checkCORRETO
Resolução comentada: 
A redundância é um dos problemas que trata dados duplicados e vários atributos, podendo ser obtidos a partir de outro atributo ou conjunto de valores.
Código da questão: 42844
5)
A transformação de dados consiste em transformar ou consolidar os dados em um formato mais adequado para o data warehouse. São considerados tipos de transformação:
( ) Suavização.
( ) Agregação. 
( ) Generalização.
( ) Normalização.
( ) Redundância.
Assinale a alternativa que contenha a sequência correta:
Alternativas:
· V – V – V – V – F
checkCORRETO
· V – V – V – F – F
· V – V – F – V – V
· V – V – F – V – F
· V – V – V – V – V
Resolução comentada: 
São técnicas para transformação de dados a suavização, agregação, generalização e normalização. A redundância é um tipo de problema relacionado à conformação de dados.
Código da questão: 42847
6)
Antes de se construir um sistema de ______________, é necessário criar um mapa ________________, que documente a relação entre ________________ e ________________ da tabela.
Assinale a alternativa que completa adequadamente as lacunas acima:
Alternativas:
· sistema de carregamento – de dados lógico – campos de origem – campos de destino.
· sistema de conformação – de dados lógico – campos de origem – campos de destino.
· sistema de extração – de dados lógico – campos de origem – campos de destino.
checkCORRETO
· sistema de transformação – de dados lógico – campos de origem – campos de destino.
· sistema de limpeza – de dados lógico – campos de origem – campos de destino.
Resolução comentada: 
As palavras que completam as lacunas são “sistema de extração – de dados lógico – campos de origem – campos de destino”. Para se criar um sistema de extração é necessário criar um mapa de dados lógico que tem por objetivo documentar a relação existente entre os campos de origem e os campos de destino da tabela.
Código da questão: 42835
7)
Existem vários métodos para identificar os candidatos de registro alterados para carga de ETL do microbatch no data warehouse em tempo real:
( ) Timestamps.
( ) Tabelas de log ETL.
( ) Log dos SGBD.
( ) Incompatibilidade de dados.
( ) Monitores de Rede.
Assinale a alternativa que contenha a sequência correta:
Alternativas:
· V – V – F – V – F.
· V – V – V – F – V.
checkCORRETO
· V – V – F – V – V.
· V – V – V – F – F.
· V – V – V – V – V.
Resolução comentada: 
Os vários métodos para identificar os candidatos de registro alterados para carga de ETL do microbatch no data warehouse em tempo real são: Timestamps (método que permite gravações frequentes de registros de data e hora nos sistemas para as alterações e leituras frequentes), tabelas de log ETL (tabelas que contém o identificados do registro novo ou alterado), Log dos SGBD (usados para identificar novas transações e transações alteradas) e Monitores de Rede (utilitários que monitoram algum conjunto de tráfego em um rede, filtrando e registrando o tráfego).
Código da questão: 42857
8)
O uso de banco de dados é essencial para o processo de manipulação de dados, porém para fins analíticos é de difícil uso, sendo indicado o uso de um data warehouse. Assinale a alternativa que apresenta, corretamente, o principal objetivo de um data warehouse:
Alternativas:
· Transformação de dados
· Armazenamento de dados
· Alteração de dados
· Auxiliar à tomada de decisões
checkCORRETO
· Recuperação de dados
Resolução comentada: 
O principal objetivo de um data warehouse é auxiliar as organizações na tomada de decisões, pois fornece dados que podem ser utilizados para fins analíticos.
Código da questão: 42817
9)
Dados dimensionais para dimensões grandes e complexas como cliente, fornecedor ou produto são frequentemente extraídos de várias fontes em diferentes momentos. Isso requer atenção especial ao reconhecimento da mesma entidade dimensional em vários sistemas de origem. Assinale a alternativa que apresente, corretamente, um conflito que pode ocorrer.
Alternativas:
· Conflito de chaves.
· Conflito em descrições sobrepostas.
checkCORRETO
· Conflito com dimensões grandes.
· Conflito de extração de dados.
· Conflito de data e hora
Resolução comentada: 
Ao se utilizar dados dimensionais para dimensões grandes e complexas, é necessário uma atenção especial para reconhecer da mesma entidade dimensional em vários sistemas de origem um conflito em descrições sobrepostas.
Código da questão: 42853
10)
Segundo Kimball e Caserta (2009), a chave primáriafica armazenada em um único campo contendo um valor inteiro único chamado valor substituto. Assinale a alternativa que apresente, corretamente, a forma de relação que deve ser realizada com essas chaves.
Alternativas:
· Criar e inserir chaves.
· Criar e inserir chaves primárias.
· Criar e inserir chaves substitutas.
checkCORRETO
· Criar e inserir chaves primárias e substitutas.
· Criar e inserir dados.
Resolução comentada: 
A chave primária fica armazenada em um único campo contendo um valor inteiro único chamado valor substituto. O processo de ETL do data warehouse deve sempre criar e inserir as chaves substitutas, isto é, o data warehouse possui essas chaves e nunca permite que outra entidade as atribua.
Código da questão: 42849
Parte inferior do formulário
Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova!
Parte superior do formulário
1)
Sobre a produção de visualização de dados, existe uma série de quesitos que devem ser levados em conta para que possam ser escolhidos os gráficos adequados e apropriados para a apresentação de informações. Considerando este contexto, avalie as afirmativas e assinale (V) se verdadeira e (F) se falsa.
( ) Para que sejam utilizados métodos de visualização de dados apropriados é sempre importante levar em conta o público a que se deseja atingir. 
( ) As visualizações de dados podem ser classificadas em estáticas, dinâmicas e interativas.
( ) Sempre existe um contexto histórico associado a uma imagem resultante de um trabalho de pesquisa. 
( ) Visualizar dados permite resumir informações, comunicar de forma efetiva o que se deseja ajuda a compreender os resultados com rapidez, dentre outras coisas.
( ) Os estudiosos do assunto sugerem que o estudo sobre visualização de dados seja iniciado com informações/variáveis quantitativas.
Assinale a alternativa que apresenta a sequência CORRETA, respectivamente.
Alternativas:
· F – F – F – F – F.
· V – V – F – F – F.
· V – V – V – V – V.
checkCORRETO
· F – V – V – F – F.
· V – V – V – F – F.
Resolução comentada: 
Para que sejam utilizados métodos de visualização de dados apropriados é sempre importante levar em conta o público a que se deseja atingir. As visualizações de dados podem ser classificadas em estáticas, dinâmicas e interativas. Sempre existe um contexto histórico associado a uma imagem resultante de um trabalho de pesquisa. Visualizar dados permite resumir informações, comunicar de forma efetiva o que se deseja ajuda a compreender os resultados com rapidez, dentre outras coisas, e os conhecedores do assunto sugerem que o estudo sobre visualização de dados seja iniciado com informações/variáveis quantitativas.
Código da questão: 43768
2)
Sobre as intenções que justificam a elaboração de um dashboard, avalie as asserções a seguir.
I. As informações que devem constar em um dashboard estão diretamente relacionadas com os objetivos da empresa que o produz. 
PORQUE
II. Sempre que se elabora um dashboard, as intenções que estimularam a sua elaboração, em geral, podem variar a depender do ambiente, corporativo ou acadêmico.
Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas:
Alternativas:
· A asserção I está incorreta e a asserção II está correta.
· A asserção I está correta e a asserção II está incorreta.
· As asserções I e II estão incorretas.
· As asserções I e II estão corretas, mas a segunda não justifica a primeira.
checkCORRETO
· As asserções I e II estão corretas e a segunda justifica a primeira.
Resolução comentada: 
As informações que devem constar em um dashboard estão diretamente relacionadas com os objetivos da empresa que o produz, por isso elas podem variar consideravelmente, não podendo ser padronizadas.
Código da questão: 43774
3)
Estamos em tempos de massiva produção de dados. Por causa disso, existe uma intensa corrida tecnológica em busca de ferramentas adequadas para o armazenamento e tratamento analítico desses dados para transformá-los em informação útil para a sociedade. Existe um conceito que denomina essa produção intensa de dados. Qual o nome atribuído para esta situação?
Assinale a alternativa CORRETA.
Alternativas:
· Análise exploratória.
· Visualização.
· Dados qualitativos.
· Big Data.
checkCORRETO
· Estatísticas.
Resolução comentada: 
O movimento de intensa geração de dados que exige ferramentas apropriadas para armazenamento e tratamento dos mesmos é conhecido com Big Data.
Código da questão: 43760
4)
Existe uma biblioteca de geração de mapas para web e para dispositivos móveis que tem como principal vantagem a facilidade na troca entre fornecedores de mapas, agregando flexibilidade à exibição de mapas de diversas fontes. A qual ferramenta estamos nos referindo?
Assinale a alternativa CORRETA.
Alternativas:
· Chart.js.
· JavaScript.
· Leaflet.
checkCORRETO
· Weka.
· Google charts.
Resolução comentada: 
A biblioteca Leaflet foi criada para gerar mapas na web e em dispositivos móveis e tem como uma das principais vantagens a facilidade na troca entre fornecedores de mapas, agregando flexibilidade à exibição de mapas de diversas fontes.
Código da questão: 43790
5)
Falar em OLAP é falar de um conceito amplo que inclui desde softwares até bancos de dados, dentre outros mecanismos. No entanto, quando se fala de função básica de uma ferramenta OLAP, estamos nos referindo a quais atividades?
Assinale a alternativa CORRETA.
Alternativas:
· Visualização unidimensional e descarregamento de dados.
· Visualização multidimensional e exploração de dados.
checkCORRETO
· Visualização unidimensional e exploração de dados.
· Armazenamento e visualização multidimensional de dados.
· Armazenamento e descarregamento de dados.
Resolução comentada: 
Como função básica de uma ferramenta OLAP, pode-se enumerar: (1) visualização multidimensional de dados; e (2) exploração de dados.
Código da questão: 43780
6)
Muitos especialistas afirmam que há uma relação direta entre business intelligence (BI) e data discovery. A respeito disto, avalie as afirmações a seguir.
I. BI trabalha unicamente com dados internos, como ERP e CRM.
II. BI é considerado o processo tradicional de tomada de decisões.
III. BI necessariamente tem relação direta com um data warehouse.
IV. Data Discovery também tem relação única com data warehouse.
V. Data Discovery só pode ser realizado com perguntas pré-determinadas.
Assinale a alternativa que contém as alternativas VERDADEIRAS.
Alternativas:
· IV e V.
· II, III e IV.
· I, II e III.
checkCORRETO
· III e IV.
· I, II e IV.
Resolução comentada: 
BI é o método tradicional de lidar com métodos analíticos e data Discovery é um conceito mais avançado, que pode ser realizado sem perguntas pré-determinadas.
Código da questão: 43787
7)
A respeito de característica de data discovery, avalie a afirmativa a seguir para completar suas lacunas corretamente.
Um dos diferenciais do conceito de data discovery é, segundo especialistas, que seu ____________ permite identificar ____________sem respostas, ou seja, é possível identificar itens ou elementos que não seriam possíveis de ver com outra ____________.
Assinale a alternativa que contém as palavras adequadas às lacunas. :
Alternativas:
· armazenamento; análises; análise.
· produto; visualização; análise.
· produto; perguntas; análise.
· processo; visualização; metodologia.
· processo; perguntas; metodologia.
checkCORRETO
Resolução comentada: 
Um dos diferenciais do conceito de data discovery é, segundo especialistas, que seu processo permite identificar perguntas sem respostas, ou seja, é possível identificar itens ou elementos que não seriam possíveis de ver com outra metodologia. Isso ocorre, principalmente, com a visualização de dados, ou seja, o data discovery, ondeé possível identificar padrões e tendências mais facilmente e, a partir disto, levantar hipóteses e questionamentos.
Código da questão: 43786
8)
Sobre a diversidade de ferramentas para visualização de dados na web, avalie as afirmativas a seguir e assinale (V) se verdadeira e (F) se falsa.
( ) A biblioteca Dygraphs foi criada com linguagem JavaScript e tem código open source. 
( ) Existe um pacote em linguagem R que permite o uso da biblioteca Dygraphs dentro do RStudio.
( ) A biblioteca Highcharts foi criada com base em SVG. 
( ) A biblioteca Highcharts tem a limitação de ter sido criada unicamente para dispositivos móveis.
( ) A biblioteca Google Charts exige conhecimento de programa R.
Assinale a alternativa que contenha a sequência CORRETA.
Alternativas:
· V – V – V – F – F.
checkCORRETO
· F – F – F – F – F.
· F – V – F – V – F.
· V – V – V – V – V.
· V – F – V – F – V.
Resolução comentada: 
A biblioteca Dygraphs foi criada com linguagem JavaScript e tem código open source. Existe um pacote em linguagem R que permite o uso da biblioteca Dygraphs dentro do RStudio. A biblioteca Highcharts foi criada com base em SVG (Scalable Vector Graphics). A biblioteca Highcharts foi criada para Web e dispositivos móveis. A biblioteca Google Charts NÃO exige conhecimento de programa R.
Código da questão: 43793
9)
Sobre OLAP e conceitos associados, avalie as afirmativas a seguir e classifique com (V) se verdadeira e (F) se falsa.
( ) OLAP e data warehouse são conceitos que caminham juntos, porque não se pode falar de um sem falar do outro. 
( ) Cubo OLAP são formas de relacionamento entre o data warehouse e o usuário.
( ) A visão multidimensional de dados só permite a visualização de dados. 
( ) A dimensão de visualização de dados via OLAP é a mesma de recursos data mining.
( ) A multidimensionalidade dos dados se dá porque os dados podem ser observados em diversas faces.
Assinale a alternativa que contenha a sequência correta:
Alternativas:
· V – V – F – F – V.
checkCORRETO
· F – F – F – F – F.
· F – V – F – V – F.
· V – V – F – V – F.
· V – V – V – V – V.
Resolução comentada: 
OLAP e data warehouse são conceitos que caminham juntos, porque não se pode falar de um sem falar do outro. Cubo OLAP são formas de relacionamento entre o data warehouse e o usuário. A dimensão de visualização de dados via OLAP não é a mesma de recursos data mining, pois OLAP permite visualização multidimensional e data mining permite visualização unidimensional. A multidimensionalidade dos dados se dá porque os dados podem ser observados em diversas faces.
Código da questão: 43783
10)
Sobre a linguagem de programação R, a qual também é utilizada para produção de visualização de dados, analise a afirmativa a seguir para completar suas lacunas corretamente.
A linguagem de programação R, conforme definem Oliveira, Guerra e McDonnell (2018, p. 10), pode ser entendida como “um conjunto de ____________ e ferramentas ____________, munido de funções que facilitam sua utilização, desde a criação de simples ____________ até análises de dados complexas”.
Referência: OLIVEIRA, P.F.; GUERRA, S.; McDONNELL, R. Ciência de dados com R: introdução. Brasília: IBPAD, 2018.
Assinale a alternativa que completa adequadamente as lacunas acima:
Alternativas:
· pacotes; matemáticas; gráficos.
· funções; matemáticas; rotinas.
· expressões; algébricas; gráficos.
· pacotes; estatísticas; rotinas.
checkCORRETO
· funções; estatísticas; gráficos.
Resolução comentada: 
A linguagem de programação R, conforme definem Oliveira, Guerra e McDonnell (2018, p. 10), pode ser entendida como “um conjunto de pacotes e ferramentas estatísticas, munido de funções que facilitam sua utilização, desde a criação de simples rotinas até análises de dados complexas”.
Código da questão: 43776
Parte inferior do formulário
Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova!
Parte superior do formulário
1)
O _________ possui uma estruturação em _________ com a função básica de gerar visualizações _________ a partir de um único banco de dados. Tais visualizações são especificadas de acordo com os _________ dos usuários.
Assinale a alternativa que completa adequadamente as lacunas:
Alternativas:
· DBMS; módulos; lógicas; interesses.
checkCORRETO
· Banco de dados geral; símbolos; gráficas; ideais.
· Servidor; rede; em nuvem; históricos.
· DBMS; equipes; impressas; objetivos.
· BDR; DBMS; DML; requisitos.
Resolução comentada: 
o DBMS tem uma estruturação em módulos para gerar visualizações lógicas específicas para os interesses de usuário a partir de dados físicos de um banco de dados.
Código da questão: 59514
2)
Sobre os cinco “Vs” de Big Data, considere as seguintes afirmações:
( ) Compreende as características valor, veracidade, volume, velocidade e variedade. 
( ) Obtenção de dados estruturados ou não, em diversas fontes, é o que define variedade de Big Data.
( ) Veracidade relaciona-se ao rápido processamento de dados, em tempo real, garantindo sua integridade e, consequentemente, confiabilidade. 
( ) Dados são sinônimos de valor quando são tratados de forma a serem importantes e com potencial de agregar valor às empresas. 
( ) Volume corresponde à seleção de pequenos grupos de dados importantes, com posterior descarte dos que não trarão retorno.
Assinale a alternativa que contenha a sequência correta:
Alternativas:
· F – V – F – V – F.
· V – V – F – V – F.
checkCORRETO
· V – F – F – V – F.
· V – V – F – V – V.
· V – V – F – F – F.
Resolução comentada: 
os 5Vs de Big Data são: volume (quanto mais informações, mais possibilidades de se obterem informações valiosas); velocidade (processamento em tempo real); veracidade (garantia de que os dados são confiáveis, imparciais e não tendenciosos); variedade (os dados devem vir das mais variadas fontes possíveis, podem ser estruturados ou não); e valor (os dados devem agregar valor às empresas, trazendo retorno financeiro).
Código da questão: 59523
3)
Qual das alternativas a seguir apresenta corretamente os tipos de informações obtidas por meio do data mining (mineração de dados)?
Alternativas:
· De incrementação; sequenciais; de aglomeração; colaborativas; de seleção.
· De incrementação; associativas; colaborativas; introdutória; de seleção.
· Retroativas; corporativas; funcionais; estruturais; de visualização.
· De incrementação; funcionais; emergenciais; valiosas; de descarte.
· Associativas; sequenciais; classificativas; de aglomeração; de prognósticos.
checkCORRETO
Resolução comentada: 
os tipos de informações obtidas do data mining são: associativas, referentes a ocorrências de um mesmo evento; sequenciais, que ocorrem durante o evento; classificativas, que definem o perfil de clientes; de aglomeração, agrupando perfis identificados; e de prognósticos, que preveem valores a partir da análise de outros valores.
Código da questão: 59527
4)
Ao se propor o desenvolvimento de Big Data em uma organização, é preciso se atentar à promoção de etapas sequenciais que garantirão seu sucesso na implementação e plena utilização. 
Sobre as etapas de desenvolvimento de Big Data, assinale a alternativa correta.
Alternativas:
· Compreendem três etapas: coleta de dados, tratamento de dados e atividades analíticas para interpretar os dados.
checkCORRETO
· Compreende duas etapas: seleção de dados de interesse e processamento dos dados selecionados.
· As etapas são sugestões, mas não possuem um caráter obrigatório em função de sua importância.
· Consiste apenas por uma etapa geral de tratamento de dados em Big Data.
· Todas as etapas não precisam ser realizadas de maneira sequencial.
Resolução comentada: 
compreendem três etapas muito importantes que devem ser seguidas rigorosamentede forma sequencial. Na primeira etapa, devem-se coletar os dados, garantindo maior variedade e volume possível. Na segunda etapa, ocorre o processamento de dados, promovendo veracidade, agregação, integração, correção e segurança dos dados. E, por fim, na última etapa, deve-se realizar a correta interpretação de dados por meio de perguntas-chave.
Código da questão: 59521
5)
Um conceito também importante no banco de dados é a cardinalidade, que pode ser entendida como:
Alternativas:
· O grau de relacionamento das ocorrências de determinadas entidades.
checkCORRETO
· O grau de raciocínio das ocorrências de determinadas entidades.
· A capacidade de fabricação e armazenamento dos dados.
· A sequência de dados organizados das entidades.
· O número de racionamento das ocorrências de determinadas entidades.
Resolução comentada: 
um conceito também importante no banco de dados é a cardinalidade, que pode ser entendida como o grau de relacionamento das ocorrências de determinadas entidades.
Código da questão: 59508
6)
Em determinadas aplicações, é necessário impedir que usuários e diferentes aplicativos possam alterar os dados ao mesmo tempo. Por exemplo, no Edudrive, que é bastante utilizado por órgãos governamentais no Brasil, é impossível alterar os dados ao mesmo tempo por vários usuários.
Qual alternativa pode-se aplicar para evitar alteração de dados simultaneamente?
Alternativas:
· Aplicar a redundância.
· Aplicar o bloqueio.
checkCORRETO
· Aplicar a inconsistência.
· Aplicar a simultaneidade.
· Aplicar a segurança.
Resolução comentada: 
o bloqueio pode impedir que usuários e diferentes aplicativos possam alterar os dados ao mesmo tempo. Ele pode ser aplicado a uma tabela inteira ou no nível de registro. Se forem aplicados bloqueios no registro, significa que outros destes poderão ser utilizados dentro da mesma tabela.
Código da questão: 59501
7)
Este conceito é como se fosse uma proteção, quando uma transação não foi validada, mas está em andamento, o conceito garante que deve permanecer separada, ou seja, não haverá interferência por outra ação que acontece concomitantemente.
Estamos falando do conceito de: 
Alternativas:
· Durabilidade.
· Consistência.
· Coerência.
· Atomicidade.
· Isolamento.
checkCORRETO
Resolução comentada: 
o isolamento garante que transações concorrentes não sofram mútua interferência. Em outras palavras, uma transação em andamento que ainda não esteja validada deve permanecer isolada de qualquer outra operação, garantindo que a transação não será interferida por nenhuma outra.
Código da questão: 59512
8)
Leia e associe as duas colunas:
Assinale a alternativa que traz a associação correta entre as duas colunas:
Alternativas:
· I – A; II – B; III – C.
· I – C; II – A; III – B.
· I – B; II – A; III – C.
checkCORRETO
· I – A; II – C; III – B.
· I – C; II – B; III – A.
Resolução comentada: 
o Data Mart é o que gera grupos menores de dados selecionados de acordo com os interesses finais, enquanto os Hadoops MapReduce e Distributed File System são responsáveis respectivamente por mapear dados, escolhendo e fragmentando em tuplas de interesse para serem combinados e fornecer o resultado para a consulta; e dividir os dados em pequenos blocos e realizar cópias de segurança destes.
Código da questão: 59524
9)
O Brasil possui 5.570 cidades e 27 estados, imagine ter cem indicadores de cada cidade para fazer o diagnóstico de como está a situação em várias áreas. 
Se tivermos tantos dados de indicadores de cada cidade do Brasil, na ordem de terabytes ou zetabytes, como chamamos?
Alternativas:
· Bytes Dados.
· Dados inteligentes.
· Smart Data.
· Big Data.
checkCORRETO
· Good Data.
Resolução comentada: 
o grande volume de dados hoje em dia traz uma grande necessidade de como fazer a aquisição, guardar e extrair informações de uma quantidade imensa de dados e de análise de dados, essa quantidade imensa, quando falamos de zetabytes, falamos de Big Data.
Código da questão: 59499
10)
É importante entender as vantagens, os benefícios e a importância de um banco de dados relacional confiável.
Pode-se considerar um investimento que as empresas fazem que pode impactar a produtividade, gerando impacto positivo entre os funcionários e bons resultados que a empresa pode alcançar. 
Sobre os benefícios do banco de dados em uma empresa, pode-se afirmar que:
I. Entre os setores das empresas: relacionamento entre as diversas áreas e dados da empresa. Um bom banco de dados pode manter as várias áreas diferentes da empresa se comunicando de forma eficiente, isso melhora seu tempo de produtividade.
II. Aumentar os riscos de operação: a possibilidade de aumentar os riscos se dá porque a transparência das informações é maior, dado que as diferentes equipes terão acesso confiável aos dados. Isso faz com que as equipes estejam alinhadas com as necessidades do empreendimento.
III. Aumentar a segurança: ter um sistema de gestão de informações, ampliando a confiança com uma aquisição e armazenamento de dados para pessoas que precisam ter acesso e, também, limitando e controlando as pessoas com acesso e, com isso, ter maior segurança dos dados.
IV. Melhorar a tomada de decisão: basear em informações valiosas de forma eficiente é a melhor forma de diminuir os riscos e tomar decisões de forma coerente com as características da empresa. É mais provável ter uma visão geral do todo e identificar os principais problemas e melhorias a serem alcançadas no negócio.
São verdadeiras:
Alternativas:
· I – II – III – IV.
· II – III – IV.
· I – IV.
· I – III – IV.
checkCORRETO
· III – IV.
Resolução comentada: 
I. Entre os setores das empresas: relacionamento entre as diversas áreas e dados da empresa. Um bom banco de dados pode manter as várias áreas diferentes da empresa se comunicando de forma eficiente, isso melhora seu tempo de produtividade.
II. Diminuir os riscos de operação: a possibilidade de aumentar os riscos se dá porque a transparência das informações é maior, dado que as diferentes equipes terão acesso confiável aos dados. Isso faz com que as equipes estejam alinhadas com as necessidades do empreendimento.
III. Aumentar a segurança: ter um sistema de gestão de informações, ampliando a confiança com uma aquisição e armazenamento de dados para pessoas que precisam ter acesso e, também, limitando e controlando as pessoas com acesso e, com isso, ter maior segurança dos dados.
IV. Melhorar a tomada de decisão: basear em informações valiosas de forma eficiente é a melhor forma de diminuir os riscos e tomar decisões de forma coerente com as características da empresa. É mais provável ter uma visão geral do todo e identificar os principais problemas e melhorias a serem alcançadas no negócio.
Código da questão: 59510
Parte inferior do formulário
Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova!
Parte superior do formulário
1)
Sobre a linguagem Cypher:
I. O comando RETURN, escrito em tempo de execução de uma query, requer uma variável de armazenamento.
II. Atualizações de dados são feitas através do comando SET.
III. Para criar nós e relacionamentos utiliza-se o comando CREATE.
IV. O comando MATCH não pode ser usado juntamente com o comando CREATE.
V. O comando REMOVE é utilizado para eliminar a estrutura de um banco de dados (similar ao DROP de bancos relacionais).
São verdadeiras:
Alternativas:
· I - III - IV - V.
· I - III - V.
· I - II - III.
checkCORRETO
· II - IV.
· I - V.
Resolução comentada: 
As afirmativas I, II e III estão corretas. A afirmativa IV é falsa porque, na verdade, o comando MATCH pode ser utilizado junto de um comando CREATE; e a afirmativa V está incorreta, pois o comando REMOVE é utilizado para remover registros.Código da questão: 46014
2)
Quanto às características dos metadados, considere as seguintes afirmações:
I. São divididos em caráter técnico, de negócio e estrutural.
II. Podem ser representados apenas em fotos e arquivos de texto como .doc ou .pdf.
III. Quanto ao caráter técnico, fornecem informações a respeito do tipo de dado, possibilitando ao desenvolvedor o planejamento assertivo da estrutura da base de dados.
IV. Quanto ao caráter de negócio, pode fornecer informações por meio de relatórios dos dados colhidos.
V. No caráter estrutural, define o nome das colunas e os respectivos tipos de dados que poderão ser inseridos na base de dados.
São verdadeiras:
Alternativas:
· III - IV.
checkCORRETO
· IV - V.
· II - III.
· I - II - IV.
· III - IV - V.
Resolução comentada: 
A afirmativa I está incorreta, pois não existe o caráter estrutural em sua divisão.
A afirmativa II está incorreta, pois é possível ter metadados em qualquer tipo de arquivo, como fotos, vídeos, som, texto e arquivos em geral.
A afirmativa III está correta, pois o caráter técnico se preocupa com os tipos de dados, tratativas de desempenho e segurança.
A afirmativa IV está correta, pois o caráter de negócio tem como objetivo extrair informações e utilizá-las como vantagem competitiva na área de negócios.
A afirmativa V está incorreta, pois não existe o caráter estrutural em sua divisão.
Código da questão: 45989
3)
Com maior oferta de internet móvel pelas operadoras, a popularização dos dispositivos móveis e outras ações que contribuíram para o aumento exponencial de geração de dados, fizeram com que os cientistas de dados percebessem o grande potencial em conseguir capturar, armazenar, tratar e efetuar a convergência em informações úteis a determinados segmentos.
Quanto ao modelo de banco de dados orientado a documentos, assinale a alternativa correta. :
Alternativas:
· Os documentos são arquivos físicos como: figuras, vídeos ou áudios.
· O modelo orientado a documentos não recebe uma chave primária, pois os dados não são estruturados.
· São modelos que devem permitir o relacionamento por meio do chaveamento entre as tabelas.
· Os documentos são os dados semiestruturados, inseridos na base de dados.
· Os documentos são objetos inseridos na base de dados, como as strings, listas e objetos aninhados.
checkCORRETO
Resolução comentada: 
A afirmativa “São modelos que devem permitir o relacionamento por meio do chaveamento entre as tabelas” está incorreta, pois esse conceito está relacionado a banco de dados relacional.
A afirmativa “Os documentos são arquivos físicos como: figuras, vídeos ou áudios” está incorreta, pois é possível inserir strings, listas e objetos aninhados.
A afirmativa “O modelo orientado a documentos não recebe uma chave primária, pois os dados não são estruturados” está incorreta, pois os bancos orientados a documento possuem uma chave identificadora que deve ser unívoca.
A afirmativa “Os documentos são objetos inseridos na base de dados, como as strings, listas e objetos aninhados” está correta, pois é possível inserir os dados não estruturados ou semiestruturados, sendo possível inserir strings, listas e objetos aninhados.
A afirmativa “Os documentos são os dados semiestruturados, inseridos na base de dados” está incorreta, pois documentos não são dados, e sim possuem dados, independente do seu formato estrutural.
Código da questão: 45992
4)
Nos bancos de dados orientado a ________________, a sua estrutura de armazenamento necessita de uma chave identificadora conhecida pela sigla ____________. Essa chave deve identificar os registros univocamente. Normalmente é definida ________________________ pelos sistemas de gerenciamento de banco de dados NoSQL.
Assinale a alternativa que completa adequadamente as lacunas acima:
Alternativas:
· Documentos: NUID; manualmente.
· Documentos: UID; aleatoriamente.
· Documentos; UUID; automaticamente.
checkCORRETO
· Colunas: UUID; dinamicamente.
· Chave-valor; SGBD; manualmente.
Resolução comentada: 
Os bancos de dados orientados a documentos precisam de uma chave que identifica cada um dos registros univocamente, que tem como sigla UUID, que é o Identificador Único Universal, normalmente gerado automaticamente pelo SGBD.
Código da questão: 45998
5)
Analise a seguinte sintaxe:
CREATE (var :usuarios:professores) RETURN usuarios
É possível afirmar que:
( ) Existe uma variável atrelada ao processo de criação.
( ) Ocorrerá um erro na exibição do resultado de execução.
( ) Semanticamente, as palavras “usuário” e “professor” deveriam estar invertidas.
( ) Com esta estrutura, não seria possível adicionar mais labels após a palavra “professores”.
( ) Para adicionar propriedades ao label “professores”, seria necessário inseri-las entre chaves.
Assinale a alternativa que contenha a sequência correta:
Alternativas:
· V – V – V – V – F.
· V – V – F – F – F.
· V – V – F – F – V.
checkCORRETO
· F – F – V – V – F.
· F – F – F – V – V.
Resolução comentada: 
Após a execução, um erro retornaria, informando que a variável usuários não foi inicializada – pois foi inicializada apenas a variável var. Em questões semânticas, sabe-se que professores pertencem a usuários. Novos labels podem ser atrelados à estrutura adicionando-se dois pontos e escrevendo o nome do label.
Código da questão: 46015
6)
I. Em uma estrutura de relacionamento entre nós é comum utilizar os termos “pertence” ou “possui”, bem como outros termos que possibilitem-nos assimilar a forma como os nós interagem entre si. Os modelos orientados a grafos aceitam vários relacionamentos idênticos entre seus nós.
PORQUE
II. Os modelos orientados a grafos são bancos de dados estruturados, ou seja, são rígidos em sua estrutura. Para evitar a duplicidade de relacionamentos durante uma consulta, recomenda-se o uso do comando MERGE, em detrimento ao comando CREATE dentro da query de consulta.
Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas:
Alternativas:
· A primeira asserção está correta. e a segunda está incorreta.
checkCORRETO
· A primeira asserção está incorreta. e a segunda está correta.
· Ambas as asserções estão incorretas.
· Ambas as asserções estão corretas, mas a segunda não justifica a primeira.
· A primeira asserção está correta. e a segunda justifica a primeira.
Resolução comentada: 
A asserção I está correta, mas a asserção II está incorreta ao dizer que os modelos orientados a grafos são bancos de dados estruturados, ou seja, são rígidos em sua estrutura. A asserção escrita corretamente, diria que: “Os modelos orientados a grafos NÃO são bancos de dados estruturados, ou seja, NÃO são rígidos em sua estrutura”.
Código da questão: 46016
7)
I. O CouchDB utiliza um mecanismo para controle de versão conhecido como UVC – Unique Version Control (Controle de versão exclusiva). 
PORQUE
II. É a ferramenta utilizada para subscrever os dados e disponibilizar a versão mais consistente.
Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas:
Alternativas:
· Ambas as asserções estão corretas, mas a segunda não justifica a primeira.
· A primeira e a segunda asserção estão incorretas.
checkCORRETO
· A primeira asserção está incorreta, e a segunda está correta.
· Ambas as asserções estão corretas, e a segunda justifica a primeira.
· A primeira asserção está correta, e a segunda está incorreta.
Resolução comentada: 
A primeira asserção está incorreta, pois o CouchDB utiliza o mecanismo para controle de versão conhecido como MVCC (Multi-Version Concurrency Control).
A segunda asserção está incorreta, pois nos mecanismos de controle de versão no CouchDB são criadas versões dos dados dessa forma, os dados contidos no banco de dados não são subscritos.
Código da questão: 46001
8)
Em um banco de dados orientado a grafos, “cada nó representa uma entidade (uma pessoa, local, coisa, categoria ou outra parte de dados) e cada relacionamento representa como dois nós estão associados. Essa estrutura de uso geral permite modelar todos os tipos de cenários - de um sistema de estradas a umarede de dispositivos, ao histórico médico de uma população ou qualquer outra coisa definida por relacionamentos”.
Fonte: Neo4j. Why Graph Databases? Disponível em:<https://neo4j.com/why-graph-databases/?ref=footer> . Acesso em: 03 set. 2019. 
Com base no enunciado, aponte a alternativa correta.
Alternativas:
· Cada nó (node) deve estar associado com algum outro nó do mesmo banco.
· Um nó (node) limita-se a ligar-se com, no máximo, um nó antecessor.
· Cada nó (node) pode, também, ser considerado como um tipo de dado.
· Um nó (node) limita-se a ligar-se com, no máximo, dois nós sucessores.
· Cada nó (node) pode ter N ligações com outros nós.
checkCORRETO
Resolução comentada: 
Modelos orientados a grafos podem ter nós (nodes) com várias ligações a outros nós, embora isso não seja uma regra.
Código da questão: 46012
9)
Quando um desenvolvedor efetua o levantamento de requisitos, as regras de negócio irão determinar como a aplicação deverá ser estruturada e isso deve ficar bem claro. Todas as características técnicas são determinadas nesse momento, e isso acaba impactando no formato da base de dados, no layout da aplicação, na tecnologia mais adequada, dentre outros pontos relevantes. 
Assinale a alternativa que descreve a estrutura encontrada em projetos em que se tem um número de colunas pré-determinado e relacionamento entre tabelas: .
Alternativas:
· Dados não estruturados.
· Dados superestruturados.
· Metadados.
· Dados semiestruturados.
· Dados estruturados.
checkCORRETO
Resolução comentada: 
São bases de dados organizadas com obediência às linhas e colunas. São estruturadas por meio das colunas, deixando bem claro o tipo de dado que poderá ser inserido.
Código da questão: 45987
10)
Sobre o Cassandra (Banco de Dados com modelo Família de Colunas), analise as seguintes proposições:
( ) É um banco de dados que não utiliza schemas.
( ) Possui colunas compostas por chave e valor.
( ) Tem limitação de sub-colunas. 
( ) Todos os registros precisam ter os mesmos campos em todas as colunas.
( ) Sua normalização é feita apenas até a 4FN (Quarta Forma Normal).
Assinale a alternativa que contenha a sequência correta:
Alternativas:
· V – V – F – F – F.
checkCORRETO
· F – F – V – V – F.
· F – F – F – V – V.
· V – V – V – V – V.
· F – V – V – V – V.
Resolução comentada: 
O Cassandra é escalável por permitir ilimitados níveis de colunas com subcolunas, além de expansão horizontal em cluster; cada coluna pode ter quantidades distintas de campos; é um banco sem normalização (e a 6FN não existe em bancos relacionais).
Código da questão: 46010
 Parte inferior do formulário
Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova!
Parte superior do formulário
1)
Existe uma série de gráficos que podem ser utilizados como recursos de visualização de dados para apresentação de resultados de análise de dados. Com relação aos tipos de gráficos, avalie as afirmativas a seguir.
I. Para uma correta apresentação gráfica, é necessário identificar o tipo da variável tratada.
II. O gráfico de colunas é apropriado para apresentar resultados de variáveis categóricas, tanto nominais quanto discretas.
III. O gráfico de setores é apropriado para apresentar, preferencialmente, em percentual informações de variáveis qualitativas.
IV. Um gráfico de série temporal é apropriado para apresentar resultados que variam ao longo do tempo, ou seja, que foram coletados considerando uma variação temporal e que tenham alguma dependência entre si.
V. Apresentar dados sobre a quantidade de consultas médicas de uma pessoa pode ser realizada com o uso de um diagrama de dispersão bidimensional.
Assinale as alternativas que contém as afirmativas CORRETAS.
Alternativas:
· II, III e V.
· I, II e IV.
· II, IV e V.
· III, IV e V.
· I, III e IV.
checkCORRETO
Resolução comentada: 
Para uma correta apresentação visual (gráfica) é necessário conhecer o tipo de variável que será apresentada. Por exemplo, um gráfico de colunas é apropriado para apresentar variáveis categóricas, tanto nominais quanto ordinais. Um gráfico de setores é bastante utilizado para apresentação de resultados percentuais de variáveis categóricas ou qualitativas, no entanto, também podem apresentar frequências absolutas. Um gráfico de série temporal é apropriado para apresentar resultados coletados ao longo do tempo, de um determinado período. O gráfico apropriado para apresentar o número de consultas médicas realizadas em determinado período é o gráfico de dispersão unidimensional.
Código da questão: 47609
2)
Sobre criação de bancos de dados em ambiente R, avalie as afirmações a seguir e assinale (V) para verdadeira e (F) para falsa.
( ) Um objeto do tipo data frame é mais genérico que um objeto do tipo matriz. 
( ) O comando para selecionar as duas primeiras colunas de conjuntos de dados denominado “dados” é dados[1:3].
( ) O comando R para selecionar uma variável de um banco de dados é igual a “nome_variável$dados”.
( ) Para juntar vetores em colunas, utiliza-se a função cbind( ) em linguagem R.
( ) O comando aggregate( ) resume variáveis quantitativas segundo algumas variáveis categórica.
Assinale a alternativa que contenha a sequência correta:
Alternativas:
· F – V – F – V – F.
· V – V – V – V – V.
· F – V – V – F – F.
· F – F – F – F – F.
· V – F – F – V – V.
checkCORRETO
Resolução comentada: 
Um objeto do tipo data frame é mais genérico que um objeto do tipo matriz, porque pode conter diversos tipos de variáveis. O comando que seleciona as duas primeiras colunas de um conjunto chamado “dados” é dados[1:2]. O comando que seleciona uma variável do conjunto “dados” é dados$nome_variável. A junção de vetores em colunas é feita com o uso do comando cbind( ). O comando aggregate( ) resume variáveis quantitativas em médias, por exemplo, segundo alguma outra variável categórica.
Código da questão: 47615
3)
A organização de dados para uma análise estatística requer uma série de manipulações para transformar os dados em informações úteis e aproveitáveis para pesquisas diversas. Um dos possíveis resultados de uma manipulação de dados se refere à obtenção de medidas ou estatísticas. Uma estatística é uma medida que é uma função dos dados de uma amostra. Qual dos itens apresentados pode ser considerado uma estatística?
Assinale a alternativa CORRETA.
Alternativas:
· Apuração.
· Coleta.
· Amostra.
· Variância.
checkCORRETO
· Parâmetro.
Resolução comentada: 
Qualquer função dos dados de uma amostra é considerada uma estatística ou uma medida resumo. Um exemplo de uma função da amostra é a variância, que é o nome simplificado dado para a variância amostral.
Código da questão: 47587
4)
O teste de hipóteses compõe o conjunto de técnicas estatísticas conhecido como inferência estatística. Ele é utilizado para constatar ou refutar hipóteses de pesquisa através de conjuntos de dados. Com base no texto, avalie as afirmativas sobre teste de hipóteses e assinale (V) se verdadeiras e (F) se falsas.
( ) Um teste de hipóteses é composto por três hipóteses.
( ) A hipótese do problema investigado é representada pelo hipótese nula.
( ) O erro tipo I é representado pelo nível de significância associado ao teste de hipóteses.
( ) O critério de decisão é baseado na estatística do teste.
Assinale a alternativa que contenha a sequência CORRETA.
Alternativas:
· F – V – F – V.
· F – F – V – V.
checkCORRETO
· V – V – V – V.
· V – V – F – F.
· F – F – F – F.
Resolução comentada: 
A sequência correta é F – F – V – V. Um teste de hipóteses é composto por duas hipóteses, conhecidas como hipótese nula e alternativa, respectivamente. A hipótese do problema investigado é a hipótese alternativa. O erro tipo I é representado pelo nível de significância do teste e o critério dedecisão é baseado na estatística do teste.
Código da questão: 47595
5)
Segundo Siqueira e Tibúrcio (2011, p. 5) “existe mais de uma ênfase de análise estatística”. Considerando esta afirmação, analise a afirmativa a seguir para completar suas lacunas corretamente.
Os métodos ____________ estatísticos são métodos de análise ____________ de dados, os quais são elaborados com a produção de ____________.
Assinale a alternativa que preenche CORRETAMENTE as lacunas.
Alternativas:
· Clássicos; descritiva; tabelas.
checkCORRETO
· Clássicos; descritiva; probabilidades.
· Bayesianos; descritiva; tabelas.
· Bayesianos; inferencial; tabelas.
· Bayesianos; inferencial; valor p.
Resolução comentada: 
Siqueira e Tibúrcio (2011, p. 5) afirmam que “existe mais de uma ênfase de análise estatística” e uma é a ênfase clássica, onde os métodos clássicos estatísticos são métodos de análise descritiva, onde um dos seus produtos é a elaboração de tabelas.
Código da questão: 47603
6)
A correlação entre variáveis é uma informação de extrema importância porque a partir de sua existência é possível analisar efeitos de causalidade entre si, assim como elaborar modelos de regressão eficientes. Sobre correlação, causalidade e modelos de regressão, avalie as afirmativas a seguir e classifique com (V) se verdadeira e (F) se falsa.
( ) O coeficiente de correlação de Pearson verifica a existência de relação linear entre variáveis quantitativas.
( ) O coeficiente de correlação de Pearson assume valores numéricos entre -1 e +1.
( ) Para elaborar um modelo de regressão são necessárias pelo menos duas variáveis.
( ) Uma variável dependente de um modelo de regressão também é conhecida como variável endógena.
Assinale a alternativa que contenha a sequência CORRETA.
Alternativas:
· F – V – F – V.
· V – V – F – F.
· V – F – V – F.
· F – F – F – F.
· V – V – V – V.
checkCORRETO
Resolução comentada: 
A sequência correta é V – V – V – V. O coeficiente de correlação avalia a existência de relação linear entre variáveis quantitativas e é uma medida que assume valores entre -1 e +1. Para um modelo de regressão ser elaborado são necessárias pelo menos duas variáveis, e a variável dependente também é conhecida como variável endógena.
Código da questão: 47596
7)
A classe de modelos preditivos é diversa e, também, classificada segundo os objetivos que se tem com os dados. A esse respeito, avalie a afirmativa a seguir para completar corretamente suas lacunas.
Os modelos preditivos são uma classe de modelos ____________ utilizados para representarem __________ para tomada de decisão. Os modelos preditivos para ____________ também são conhecidos como modelos de _____________ supervisionada.
Assinale a alternativa que completa adequadamente as lacunas acima:
Alternativas:
· Constantes; problemas; classificação; aprendizagem.
· Visuais; fórmulas; equação; atividade.
· Matemáticos; problemas; classificação; aprendizagem.
checkCORRETO
· Estatísticos; problemas; classificação; atividade.
· Visuais; problemas; equação; atividade.
Resolução comentada: 
Os modelos preditivos são uma classe de modelos matemáticos utilizados para representarem problemas para tomada de decisão. Os modelos preditivos para classificação também são conhecidos como modelos de aprendizagem supervisionada.
Código da questão: 47618
8)
Para uma pesquisa ser bem realizada, faz-se necessário um bom planejamento de todas as etapas de sua realização. O detalhamento ou planejamento de uma pesquisa pode ser documentado em um projeto de pesquisa. Em uma dessas etapas, deve-se buscar a possível existência de falhas e imperfeições existentes na coleta dos dados. A qual etapa do planejamento estamos nos referindo?
Assinale a alternativa CORRETA.
Alternativas:
· Apresentação de dados.
· Crítica de dados.
checkCORRETO
· Apuração de dados.
· Amostragem de dados.
· Coleta de dados.
Resolução comentada: 
Na etapa de crítica de dados de uma pesquisa é onde ocorre a busca de falhas e imperfeições. Nessa etapa, os dados precisam ser criticados, de maneira cuidadosa, para que não ocorram erros grosseiros em análises posteriores.
Código da questão: 47588
9)
Toda análise de dados, para ser bem executada, precisa ser bem planejada e executada com rigor. Então, para uma boa realização da análise, divide-se o processo em duas etapas. A primeira etapa da análise ajuda a conhecer os dados e a identificar todo e qualquer tipo de padrão existente, assim como a identificação de possíveis erros. Como é denominada a metodologia estatística utilizada na primeira etapa de uma análise de dados?
Assinale a alternativa CORRETA..
Alternativas:
· Estatística descritiva.
checkCORRETO
· Causalidade.
· Amostragem.
· Inferência estatística.
· Teste de hipóteses.
Resolução comentada: 
Toda análise de dados é iniciada com uma exploração dos dados. As técnicas utilizadas para tal exploração compõem o conjunto de medidas descritivas, chamado estatística descritiva.
Código da questão: 47592
10)
Sobre o uso da linguagem de programação R para elaboração de gráficos estatísticos, avalie as afirmativas a seguir e assinale (V) se verdadeira e (F) se falsa.
( ) O RStudio é uma IDE (Ambiente de Desenvolvimento Integrado) para uso da linguagem R.
( ) O RStudio tem uma série de facilidades que ajudam na manipulação da linguagem R para elaboração de gráficos.
( ) O comando barplot( ) é utilizado para elaborar gráfico de setores com a linguagem R. 
( ) A opção “ylab=” de um comando R é usada para inserir rótulo no eixo horizontal de um gráfico.
( ) O comando stripchart( ) é usado para produzir gráfico de séries temporais no R.
Assinale a alternativa que contenha a sequência correta:
Alternativas:
· V – V – F – F – F.
checkCORRETO
· F – V – F – V – F.
· V – V – V – V – V.
· F – F – F – F – F.
· V – V – F – V – F.
Resolução comentada: 
O RStudo é uma IDE para uso da linguagem R e apresenta uma série de facilidades em seu uso. O comando barplot( ) é usado para elaborar gráficos de colunas com o R. A opção “ylab=” é usada em comandos de elaboração de gráficos para inserir rótulos no eixo vertical. O comando stripchart( ) é utilizado para produzir gráficos de dispersão unidimensional.
Código da questão: 47610
Parte inferior do formulário
Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova!
Parte superior do formulário
1)
Sobre os conceitos de Estatística, Probabilidade e bibliotecas do Python, considere as seguintes afirmações:
( ) Utilizando algumas bibliotecas do Python como Numpy, pandas e Matplotlib é possível criar e visualizar histogramas.
( ) Na distribuição normal, o valor da média, moda e mediana são sempre iguais.
( ) Na correlação, se o valor da magnitude se aproxima de 1 ou -1, indica que temos uma correlação fraca.
( ) A biblioteca Pandas é uma poderosa biblioteca do Python usada principalmente para realizar cálculos em arrays e matrizes multidimensionais.
Assinale a alternativa que contenha a sequência correta.
Alternativas:
· V – V – V – F.
· V – V– F – F.
checkCORRETO
· F – F – V – V.
· F – F – F – V.
· V – F – F – V.
Resolução comentada: 
Na correlação, se o valor da magnitude se aproxima de 1 ou -1, indica que temos uma correlação forte.
A biblioteca NumPy é uma poderosa biblioteca do Python usada principalmente para realizar cálculos em arrays e matrizes multidimensionais.
Código da questão: 48963
2)
I. O aprendizado de máquina (machine learning) é largamente utilizado para resolver problemas complexos em diversas áreas do conhecimento (engenharia, psicologia, medicina e computação), que muitas vezes seria impossível de se resolver ou demoraria muito tempo para serem resolvidos. Exemplo de aplicação bastante utilizada são sistemas para reconhecimento facial e aplicações para segurançaem diversos países.
II. Kyoto é um importante destino turístico que recebe mais de 8,7 milhões de visitantes por ano - um número impressionante, mesmo para os padrões globais. A Prefeitura se juntou à companhia japonesa para desenvolver o projeto denominado "Criando espaços públicos e cidades seguras". O sistema combina teoria criminal com dados sobre crimes cometidos em todas as áreas da cidade e analisa esses dados para prever quando e onde certos tipos de crimes tendem a acontecer. (Fonte: NEC. Tecnologia de reconhecimento facial movida a IA e machine learning. 06/03/2018. Disponível em: https://computerworld.com.br/brandpost/tecnologia-de-reconhecimento-facial-movida-ia-e-machine-learning/. Acesso em: 13 nov. 2019).
III. Entretanto, algumas questões relacionadas com moralidade e ética precisam ser levadas em consideração antes do desenvolvimento de aplicações que usam IA. Muitas vezes, nem percebemos que estamos sendo manipulados e monitorados o tempo todo por aplicações desenvolvidas utilizando inteligência artificial. 
IV. Um drone militar americano, em 2011, eliminou, por comportamento suspeito, um grupo de homens em Datta Khel, no Paquistão, que estavam em assembleia para resolver um conflito local; o Google, em 2017, estava sendo processado na Inglaterra em uma ação coletiva por coletar dados de 5,4 milhões de usuários de iPhone, teoricamente protegidos por políticas. (Fonte: KAUFMAN, Dora. A ética e a inteligência artificial. Valor, 21/12/2017. Disponível em: https://valor.globo.com/eu-e/noticia/2017/12/21/a-etica-e-a-inteligencia-artificial.ghtml. Acesso em: 13 nov. 2019).
Assinale a alternativa acerca das asserções supracitadas, bem como a relação entre elas.
Alternativas:
· A primeira asserção está correta, a segunda são exemplos de contradição para a primeira, a terceira é a confirmação da primeira e a quarta são citados exemplos para confirmação para a terceira.
· A primeira asserção está incorreta, na segunda e na quarta são citados exemplos para confirmação para a terceira.
· A primeira asserção está correta, na segunda e quarta são citados exemplos para confirmação para a terceira.
· A primeira asserção está incorreta, a segunda é complemento para a primeira, a terceira é a contradição da primeira e a quarta são citados exemplos para confirmação para a terceira.
· A primeira asserção está correta, a segunda são exemplos para ajudar na confirmação para a primeira, a terceira é a contradição da primeira e na quarta são citados exemplos para confirmação para a terceira.
checkCORRETO
Resolução comentada: 
A primeira asserção está correta e explica a importância do aprendizado de máquina (machine learning) em diversas áreas. A segunda asserção cita um exemplo de uma aplicação para confirmar a primeira asserção. Já a terceira asserção se contradiz com a primeira, explicando que aplicações com inteligência artificial, muitas vezes, são utilizadas sem se preocupar com problemas éticos e morais. Na quarta são citados dois exemplos para confirmação da terceira asserção.
Código da questão: 48969
3)
Sobre os conceitos de visualização de dados em Python, Numpy, Matplotlib e Pandas, considere as seguintes afirmações:
( ) Utilizando algumas bibliotecas do Python como Numpy, Pandas e Matplotlib é possível criar e visualizar histogramas.
( ) O histograma de uma imagem digital (preto e branco) indica o número de pixels que a imagem tem em determinado nível de cinza, que varia de 0 a 255.
( ) Na versão atual do Matplotlib é possível somente criar plotagem em 3D.
( ) A biblioteca Pandas é uma poderosa biblioteca do Python usada principalmente para realizar cálculos em arrays e matrizes multidimensionais.
Assinale a alternativa que contenha a sequência correta.
Alternativas:
· F – F – V – V.
· V – F – F – V.
· V – V – F – V. 
· V – V – F – F.
checkCORRETO
· F – V – V – F.
Resolução comentada: 
Na versão atual do Matplotlib é possível criar plotagem em 2D e 3D. Portanto, a terceira afirmação é falsa.
A biblioteca NumPy é uma poderosa biblioteca do Python usada principalmente para realizar cálculos em arrays e matrizes multidimensionais. Portanto, a quarta afirmação é falsa. O Pandas é um pacote Python que fornece estruturas de dados rápidas, flexíveis e expressivas, projetadas para facilitar o trabalho com dados relacionais.
Código da questão: 60241
4)
Organização e visualização dos dados são tarefas essenciais para a área de ciência de dados. A visualização é uma técnica bastante utilizada e consiste na criação de imagens, diagramas, histogramas, gráficos ou animação para melhor representar a informação. 
Matplotlib é a principal biblioteca de plotagem científica em Python. Ela suporta visualização interativa e não interativa e fornece ampla variedade de tipos de plotagem (ROUGIER, 2019).
O Pandas é um pacote Python que fornece estruturas de dados rápidas, flexíveis e expressivas, projetadas para facilitar o trabalho com dados relacionais. Os dados manipulados no Pandas são frequentemente usados para trabalhar com análises estatísticas no SciPy, plotando funções do Matplotlib e algoritmos de aprendizado de máquina no Scikit-learn (MCKINNEY, 2019).
Fontes: 
MCKINNEY, W., PyData Development Team. pandas: powerful Python data analysis toolkit. Release 0.25.3, Python for High Performance and Scientific Computing, 2019. Disponível em https://pandas.pydata.org/pandas-docs/stable/pandas.pdf. Acesso em: 28 out. 2019.
ROUGIER, N, P. Scientific Visualization – Python & Matplotlib - Scientific Python — Volume II, 2019. Disponível em https://github.com/rougier/scientific-visualization-book. Acesso em: 28 out. 2019.
Analise as seguintes afirmações, indicando aquelas verdadeiras:
I. Utilizando a biblioteca Pandas, é possível criar gráficos a partir de informações contidas em arquivo MS Excel.
II. A biblioteca Matplotlib não tem suporte para a criação de subgráficos (subplots). 
III. A função Matplotlib.pyplot.setp é responsável para alterar algumas propriedades do gráfico, tais como: cor e estilos da linha, legendas ou eixos.
IV. Pandas fornece suporte para manipulação de arquivos Open Document Spreadsheet (ODS).
Alternativas:
· I -, III - IV.
checkCORRETO
· Todas as afirmações são verdadeiras..
· Apenas III.
· I - II - IV.
· II - III - IV.
Resolução comentada: 
A biblioteca Matplotlib tem suporte para criação de gráficos e subgráficos. Portanto a opção II é falsa.
Código da questão: 48959
5)
Sobre os conceitos de Big Data e Apache Spark Streaming, considere as seguintes afirmações:
( ) Os dados em Big Data são criados em diferentes formatos e armazenados em diferentes fontes de dados, que podemos classificar em três grupos: não-estruturado, semiestruturado e estruturado.
( ) Existem dois tipos de operações do Apache Spark RDD: transformações e ações. Uma transformação é uma função que produz um novo RDD a partir dos RDDs existentes. Quando a ação é acionada após o resultado, o novo RDD também é criado, assim como na transformação.
( ) O projeto Apache Spark introduziu o conceito de RDD, que formalmente é uma coleção de objetos imutáveis, particionados em um conjunto de nós do cluster, podendo somente ser criado através de funções como map(), filter(), join() e groupBy(), executadas em outros RDDs ou meios de armazenamentos estáveis.
( ) O Apache Kafka é uma plataforma distribuída de código-fonte livre (open-source) de processamento de mensagens e streams desenvolvida pela Apache Software Foundation, escrita na linguagem de programação Java e Python.
Assinale a alternativa que contém a sequência correta.
Alternativas:
· V – F – F – F.
· V – V – F – F.
· V – V – V – F.
· F – F – V – V.
· V – F – V – F.
checkCORRETO
Resolução comentada: 
Os objetos RDD são imutáveis e, nas operações de ação, um novo RDD não é criado. 
O Apache Kafka foi desenvolvido utilizando a linguagem Java e Scala, não Python. 
Código da questão: 48978
6)
A análise de dados em tempo real (Real Time Analytics) é referida ao processo de análise de grande volume de dados (Big Data) no momento em que é produzido ou usado. Dos arquivos de logsde servidores e/ou dispositivos aos dados do sensor, os cientistas de dados estão cada vez mais tendo que lidar com fluxos (streaming) de dados. Esses dados chegam em um fluxo constante, geralmente de várias aplicações simultaneamente. 
Sobre Big Data e Apache Spark Streaming, assinale a alternativa correta. 
Alternativas:
· No processamento em streaming ocorre a análise dos dados que já foram armazenados por um tempo. Esses dados geralmente podem ser em arquivo ou banco de dados, entre outros.
· Em Python, os DataFrames de streaming podem ser criados por meio da interface DataStreamReader retornada por SparkSession.createStream().
· A API Apache Spark Streaming tem suporte para as linguagens de programação Java, Scala, Python e R.
· Resilient Distributed Dataset (RDD) é considerado a estrutura de dados mais importantes no PySpark, e uma característica importante dos RDDs é que eles não são objetos imutáveis.
· A biblioteca Apache Spark Streaming pode ser usada para processar dados de streaming em tempo real de diferentes fontes, como sensores, redes sociais e transações online, e os resultados gerados podem ser armazenados em software como Kafka, HDFS, Cassandra e Elasticsearch.
checkCORRETO
Resolução comentada: 
No processamento em batch ocorre a análise dos dados que já foram armazenados por um tempo, portanto a alternativa a. é falsa. 
Os objetos Resilient Distributed Dataset (RDD) são considerados a estrutura de dados mais importante no PySpark; uma característica importante dos RDDs é que são objetos imutáveis, portanto a alternativa b. é falsa. 
A API Apache Spark Streaming não tem suporte para a linguagem de programação R, portanto a alternativa c. é falsa.
Em Python, os DataFrames de streaming podem ser criados por meio da interface DataStreamReader retornada por SparkSession.readStream(), então a alternativa e. é falsa.
Código da questão: 48975
7)
O Spark tem algumas características que podem ser citadas, como, por exemplo, o armazenamento é realizado primeiramente em memória e somente após o processamento passa a enviar os dados para memória, agilizando o processamento das informações.
Além dessas características, assinale como verdadeira ou falsa as outras mencionadas a seguir:
( ) Otimização de operações para grafos.
( ) Suporte para funções que vão além do Map e Reduce.
( ) Disponibiliza um Shell interativo para as linguagens Python e Scala.
( ) A avaliação de consultas para Big Data sob demanda, contribuindo para a otimização do fluxo do processamento de dados.
( ) O Spark não suporta armazenamento de dados distribuídos. 
Alternativas:
· F – V – V – V – V.
· F – F – V – V – F.
· F – V – F – V – F.
· V – V – V – V – F.
checkCORRETO
· V – F – V – V – V.
Resolução comentada: 
Somente a última afirmativa é falsa, pois o Spark suporta armazenamento de dados distribuídos.
Código da questão: 48947
8)
No Spark as __________ possibilitam que os desenvolvedores criem suas aplicações fazendo uso das interfaces para Python, Java e Scala. Com o Spark é possível implementar na forma de __________, mas também no formato de computação __________.
Assinale a alternativa que completa adequadamente as lacunas.
Alternativas:
· Documentações – algoritmo único – evolutiva.
· API’s – servidor autônomo – distribuída.
checkCORRETO
· Informações – grafos – paralela.
· Tecnologias – programação assíncrona – distribuída.
· API’s - software – online.
Resolução comentada: 
Através do uso de API’s o Spark possibilita o desenvolvimento em diversas linguagens, gerando implementações autônomas ou distribuídas.
Código da questão: 48941
9)
Estatística e probabilidade são extremamente importantes para trabalhar na área de ciência de dados, assim como em outras áreas, como medicina, ciências biológicas, psicologia, engenharia, computação etc.
Sobre Estatística, Probabilidade e Python, assinale a alternativa correta.
Alternativas:
· O desvio padrão é usado quando queremos separar a metade maior e a metade menor de uma amostra, uma população ou uma distribuição de probabilidade.
· A biblioteca NumPy é bastante utilizada para realizar cálculos em arrays e matrizes multidimensionais e faz parte do pacote principal do Python, não sendo necessária sua instalação.
· A biblioteca Pandas é um módulo Python que fornece classes e funções para a estimativa de muitos modelos estatísticos, bem como para a realização de testes e a exploração de dados estatísticos.
· A estatística é a área responsável pela coleta, organização e interpretação de dados experimentais e pela extrapolação dos resultados da amostra para a população.
checkCORRETO
· A estatística é uma área da matemática que estuda as chances de ocorrência de um determinado experimento ou evento.
Resolução comentada: 
A mediana é usado quando queremos separar a metade maior e a metade menor de uma amostra, uma população ou uma distribuição de probabilidade, portanto a alternativa b é falsa.
A biblioteca numpy não faz parte do pacote principal do Python, sendo necessário sua instalação manual. Então a alternativa c é falsa.
A biblioteca Statsmodels é um módulo Python que fornece classes e funções para a estimativa de muitos modelos estatísticos, portanto a alternativa d é falsa.
A probabilidade é uma área da matemática que estuda as chances de ocorrência de experimentos são calculadas, então a alternativa e é falsa.
Código da questão: 48960
10)
Sobre os conceitos de machine learning, considere as seguintes afirmações:
( ) Os primeiros estudos na área de machine learning surgiram por volta do ano 2000, devido à evolução dos computadores. 
( ) Python é a única linguagem de programação utilizada para o desenvolvimento de aplicações na área de ciência de dados, especialmente na área de machine learning. 
( ) Construindo um algoritmo de machine learning uma tarefa fundamental é a organização dos dados fazendo separação do conjunto de dados em 2 subconjuntos: treinamento e teste. É difícil estipular a porcentagem que cada subconjunto vai ter, por exemplo: 70% dos dados para treinamento e 30% para testes. Essa análise deve levar em consideração o problema a ser resolvido e o modelo. 
( ) Em aprendizado de máquina supervisionado, o principal desafio é encontrar o conjunto de atributos suficientes que se ajustem ao modelo e que possa prever rótulos desconhecidos no conjunto de teste. 
( ) Reconhecimento de impressão digital; identificação de tumores a partir de uma imagem de ressonância, reconhecimento de e-mail do tipo spam e recolhimento de animais em fotos, podem ser resolvidos utilizando algoritmo de regressão. 
Assinale a alternativa que contenha a sequência correta.
Alternativas:
· F – F – V – V – F.
checkCORRETO
· V – F – V – V – F.
· F – V – V – V – F.
· V – F – V – F – F.
· V – V – V – F – F.
Resolução comentada: 
O primeiro estudo em machine learning surgiu por volta de 1950, a evolução dos computadores possibilitou que as novas técnicas fossem aplicadas a grande quantidade de dados. 
A linguagem Python é bastante utilizada para resolver problemas usando machine learning, porém outras linguagens também podem ser utilizadas, tais como: R, Java, SQL e Matlab.
Reconhecimento de impressão digital; identificação de tumores a partir de uma imagem de ressonância, reconhecimento de e-mail do tipo spam e recolhimento de animais em fotos, podem ser resolvidos utilizando algoritmo de classificação e não de regressão.
Código da questão: 48968
Parte inferior do formulário
Prepare-se! Chegou a hora de você testar o conhecimento adquirido nesta disciplina. A Avaliação Virtual (AV) é composta por questões objetivas e corresponde a 100% da média final. Você tem até cinco tentativas para “Enviar” as questões, que são automaticamente corrigidas. Você pode responder as questões consultando o material de estudos, mas lembre-se de cumprir o prazo estabelecido. Boa prova!
Parte superior do formulário
1)
A partir de seus conhecimentos sobre sistemas de recomendação, analise os itens a seguir:
( ) A fatoração matricial é uma forma de trabalhar a matriz de proximidades para poder organizaralfabeticamente os usuários.
( ) Deep learning pode ser utilizado em sistemas de recomendação para criar redes neurais relacionando usuários e objetos.
( ) A principal diferença entre métodos baseados em filtragem colaborativa e métodos baseados em conteúdo é que o primeiro estuda a interação entre usuários e objetos, ao passo que o segundo analisa as suas características.
( ) O método nearest-neighbor, quando aplicado a sistemas de recomendação baseados em filtragem colaborativa, consegue criar matrizes relacionando usuário-usuário, mas não é capaz de gerar matrizes usuário-item.
Assinale a alternativa que julga corretamente as afirmações acima como verdadeiras (V) ou falsas (F).
Alternativas:
· F – F – V – F.'
· F – V – V – F.
checkCORRETO
· F – V – V – V.
· V – V – V – F.
· V – V – F – F.
Resolução comentada: 
( ) A fatoração matricial é uma forma de trabalhar a matriz de proximidades, mas a organização não é feita por ordem alfabética.
( ) Deep learning pode ser utilizado em sistemas de recomendação para criar redes neurais relacionando usuários e objetos.
( ) A principal diferença entre métodos baseados em filtragem colaborativa e métodos baseados em conteúdo é que o primeiro estuda a interação entre usuários e objetos, ao passo que o segundo analisa as suas características.
( ) O método nearest-neighbor, quando aplicado a sistemas de recomendação baseados em filtragem colaborativa, consegue criar matrizes relacionando usuário-usuário e também é capaz de gerar matrizes usuário-item.
Código da questão: 49633
2)
Existem inúmeras técnicas de agrupamento para serem aplicadas na resolução de problema com machine learning e mineração de dados. Sobre as técnicas de agrupamento não hierárquico, analise as afirmativas a seguir:
( ) A escolha inicial dos objetos a serem utilizados no algoritmo K-means não influencia no resultado final, uma vez que essa técnica é robusta e imune a ótimos locais.
( ) No algoritmo K-médias, cada objeto do domínio pode mudar de cluster K vezes.
( ) Dendogramas são gráficos que mostram como foi a evolução dos clusters formados pelo K-means. 
Assinale a alternativa que julga corretamente os itens, na sequência:
Alternativas:
· V – V – F.
· F – V – V.
· F – F – F.
checkCORRETO
· V – F – V.
· V – F – F.
Resolução comentada: 
a semente inicial influencia bastante no resultado obtido.
No K-means, os objetos podem mudar de grupo quantas vezes forem necessárias, até que o critério de parada seja atingido.
Dendograma é utilizado para visualizar o processo de clusterização passo a passo, assim como analisar os níveis de distância dos clusters formados.
Código da questão: 49622
3)
Os gráficos a seguir ilustram um algoritmo de regressão linear aplicado a quatro diferentes casos de dispersão de dados. Para todos os casos, tem-se a mesma reta de regressão linear y = 4+ 0,5x, independente de quais sejam as estatísticas suficientes, como: coeficientes linear e angular; soma dos quadrados dos resíduos e da regressão; e número de observações.
A partir dos gráficos, analise as afirmativas a seguir:
I. O gráfico B indica que os dados são propícios para a utilização de uma regressão do tipo linear.
II. O gráfico C ilustra a possível existência de uma observação outlier na regressão linear.
III. O gráfico D ilustra a possível existência de uma observação outlier na regressão linear.
Assinale a alternativa que julga corretamente essas afirmações:
Alternativas:
· Somente I está correta.
· Somente I e III estão corretas.
· Somente II está correta.
checkCORRETO
· Somente III está correta.
· Somente II e III estão corretas.
Resolução comentada: 
I. O gráfico B mostra observações que não são corretamente estimadas por meio do uso de uma regressão linear.
II. A afirmativa está correta.
III. O gráfico D não contém dados corretamente estimados por uma regressão linear.
Código da questão: 49613
4)
O aprendizado de máquina é uma técnica que pode ser aplicada em diversos cenários, sendo que cada um possui suas características específicas e algoritmos mais indicados para serem utilizados. Esses algoritmos podem ser classificados de diversas maneiras, mas um tipo de classificação é a mais utilizada na literatura.
Assinale a alternativa que contém a classificação correta do tipo de abordagem do aprendizado de máquina.
Alternativas:
· Aprendizado não supervisionado e clusterização.
· Aprendizado supervisionado e regressão.
· Aprendizado supervisionado e de supervisão.
· Aprendizado supervisionado e não supervisionado.
checkCORRETO
· Aprendizado supervisionado e de classificação.
Resolução comentada: 
segue a classificação mais utilizada para o aprendizado de máquina:
Código da questão: 49600
5)
Técnicas de machine learning podem ser utilizadas para inúmeras finalidades. A seguir, você pode verificar graficamente uma solução que relaciona estilos de escrita e alguns livros famosos:
Figura 1 – Ilustração de metodologia de representação gráfica para a relação entre objetos e suas características principais
Fonte: adaptada de Gormley (2017).
Descrição: esta figura contém uma representação utilizada para relacionar seis obras literárias e seus respectivos estilos.
A Figura 1 contém a relação entre obras literárias e suas características; porém, elas estão divididas em duas etapas, sendo que a segunda é uma aproximação da primeira, utilizada para simplificar a análise.
Essa aproximação é uma técnica bastante
utilizada para a manipulação de dados em sistemas de recomendação. Sendo assim,
assinale a alternativa que contém o nome correto da técnica representada pela
Figura 1.
Alternativas:
· Recomendação por filtragem colaborativa baseada em métodos de fatoração matricial.
checkCORRETO
· Recomendação por filtragem colaborativa baseada em métodos de aprendizado profundo.
· Recomendação por filtragem baseada em conteúdo com métodos híbridos.
· Recomendação por filtragem colaborativa baseada em métodos de relações de conteúdos.
· Recomendação por filtragem colaborativa baseada em métodos de inversão matricial.
Resolução comentada: 
a figura contém claramente uma fatoração matricial. A matriz inicial, de dimensão elevada, é manipulada de tal forma a ser fatorada para então poder ser representada pela multiplicação entre as matrizes  e . Com isso, a fatoração fica da seguinte forma:
Código da questão: 49634
6)
Deep learning é um ramo de aprendizado de máquina baseado em um conjunto de algoritmos que buscam modelar abstrações em ____________ a partir da leitura de __________ de dados. Em redes profundas, ou densas, existem ____________ layers que possibilitam ao algoritmo utilizar várias camadas de processamento compostas por transformações lineares e não lineares.
Assinale a alternativa que preenche corretamente, na sequência, as lacunas do trecho anterior.
Alternativas:
· Alto nível; poucos níveis; vários.
· Alto nível; grandes quantidades; vários.
checkCORRETO
· Conjuntos de dados; poucos níveis; poucos.
· Conjuntos de dados; grandes quantidades; vários.
· Baixo nível; grandes quantidades; vários.
Resolução comentada: 
Deep learning é um ramo de aprendizado de máquina baseado em um conjunto de algoritmos que buscam modelar abstrações em alto nível a partir da leitura de grandes quantidades de dados. Em redes profundas, ou densas, existem vários layers que possibilitam ao algoritmo utilizar várias camadas de processamento compostas por transformações lineares e não lineares.
Código da questão: 49626
7)
Alternativas:
· As entradas da matriz de preferência podem ser somente numéricas, e não binárias.
· Os algoritmos de deep learning não podem ser aplicados a sistemas de recomendação que utilizam métodos de filtragem colaborativa.
· As matrizes de preferências resultantes do estudo de grandes lojas virtuais, como a Amazon, costumam ser compostas por poucas linhas e colunas.
· Os algoritmos de recomendação baseados em filtragem colaborativa precisam, de alguma forma, manipular a matriz de preferências, e a decomposição SVD (singular value decomposition) é uma técnica utilizada para realizar essa tarefa.
checkCORRETO

Continue navegando