Buscar

Como estudar Análise de Dados do ZERO

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 279 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 279 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 279 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Como estudar Análise de Dados DO 
ZERO para Concursos
Professor Raphael Lacerda
Prof. Raphael Lacerda
We have to go back
 
 
 
 
 
 
 
 
 
TCU elevou a barra!
 
 
 
 
 
 
 
 
 
Antes
depois
AGORA EM ÁUDIO TBM!
https://www.youtube.com/watch?v=
asZBepF9vyA
https://www.youtube.com/watch?v=asZBepF9vyA
https://www.youtube.com/watch?v=asZBepF9vyA
AGORA EM ÁUDIO TBM!
(392) Fluência de Dados para Receita 
Federal: 5 assuntos que vão cair em prova! - 
YouTube
https://www.youtube.com/watch?v=az6Fvctz7Hw&t=2081s
https://www.youtube.com/watch?v=az6Fvctz7Hw&t=2081s
https://www.youtube.com/watch?v=az6Fvctz7Hw&t=2081s
AGORA EM ÁUDIO TBM!
(392) FGV acertou no nível da prova da 
RFB? - YouTube
https://www.youtube.com/watch?v=zphPaoINaoI&t=5283s
https://www.youtube.com/watch?v=zphPaoINaoI&t=5283s
AGORA EM ÁUDIO TBM!
https://www.youtube.com/watch?v=
oJ0UkXzlsjY&t=29331s
https://www.youtube.com/watch?v=oJ0UkXzlsjY&t=29331s
https://www.youtube.com/watch?v=oJ0UkXzlsjY&t=29331s
AGORA EM ÁUDIO TBM!
https://www.youtube.com/watch?v=
QTsbUv7ZXFU&t=11227s
https://www.youtube.com/watch?v=QTsbUv7ZXFU&t=11227s
https://www.youtube.com/watch?v=QTsbUv7ZXFU&t=11227s
 
 
 
 
 
 
 
 
 
Prof. Raphael Lacerda
O QUE A 
RFB TE
ENSINOU?
 
 
 
 
 
 
 
 
 
Precisamos
elevar nosso "game"
Gestão do Conhecimento
Esquematizado
Prof. raphael lacerda
Dado
Informação
Conhecimento
Inteligência
contextualizado 
aplicado/
combinado/
aprendizado 
propósito/
ser humano
Prof. Raphael Lacerda
espiral
Prof. Raphael Lacerda
explícito x tácito
Prof. Raphael Lacerda
Dados Estruturados
Prof. Raphael Lacerda
Dados NÃO Estruturados
Prof. Raphael Lacerda
Dados SEMI Estruturados
● Nó raiz
● Toda tag 
precisa ser 
fechada
● aninhados 
adequadame
nte
● atributos 
entre ""
● tags case 
"sensitive"
● sem tags
● representa as 
informações 
de forma 
mais 
compacta
● valor não 
pode ser 
function, date 
e undefinied
● separado por 
um 
delimitador
● geralmente ,
● HEADER não 
é obrigatório
Prof. Raphael Lacerda
Dados SEMI Estruturados
● formatado - basta o 
arquivo xml
● & <> " - caracteres 
especiais
● válido - externo 
(DTD ou XSD)
● chave e valor
● + leve que XML
● não aceita 
comentários
● Object ou Array
● todas as linhas 
com o mesmo 
número de valores
● ideal para dados 
estruturados
 
 
 
 
 
 
 
 
 
FGV/2019
Sobre o processo conhecido por espiral do conhecimento, responsável pela gestão do conhecimento em 
uma organização, assinale a afirmativa correta.
A Preocupa-se com o gerenciamento de ativos tangíveis da organização, que, apesar de gerar 
aprendizado, não trazem benefício econômico para a organização.
B Estimula o conhecimento tácito que é transmitido em linguagem formal, codificada e sistemática.
C Possibilita a socialização, com o objetivo de criar a habilidade necessária para as tarefas e convertê-las 
em competência, por meio de reuniões informais.
D Divulga o conjunto de dados e informações que passaram por um tratamento para serem dotados de 
relevância e propósito.
E Afirma que o conhecimento explícito pode ser compartilhado por meio de manuais ou documentos, 
possibilitando sua internalização pelos funcionários da organização.
 
 
 
 
 
 
 
 
 
FGV/2019
Sobre o processo conhecido por espiral do conhecimento, responsável pela gestão do conhecimento em 
uma organização, assinale a afirmativa correta.
A Preocupa-se com o gerenciamento de ativos tangíveis da organização, que, apesar de gerar 
aprendizado, não trazem benefício econômico para a organização.
B Estimula o conhecimento tácito que é transmitido em linguagem formal, codificada e sistemática.
C Possibilita a socialização, com o objetivo de criar a habilidade necessária para as tarefas e convertê-las 
em competência, por meio de reuniões informais.
D Divulga o conjunto de dados e informações que passaram por um tratamento para serem dotados de 
relevância e propósito.
E Afirma que o conhecimento explícito pode ser compartilhado por meio de manuais ou documentos, 
possibilitando sua internalização pelos funcionários da organização.
 
 
 
 
 
 
 
 
 
FGV/2019
Uma organização iniciou seu processo de gestão do conhecimento. As primeiras ações estruturadas consistiram na 
atualização dos manuais de apoio ao atendimento aos clientes, de acordo com a legislação vigente; e na gravação de 
vídeos pelos funcionários mais experientes, relatando suas experiências, dando “dicas” sobre atendimento aos clientes, 
como material de um treinamento a distância a ser futuramente ministrado aos novos funcionários.
Essas iniciativas representaram, respectivamente, processos de conversão do conhecimento conhecidos como:
A externalização; socialização;
B externalização; internalização;
C combinação; externalização;
D combinação; internalização;
E socialização; externalização.
 
 
 
 
 
 
 
 
 
FGV/2019
Uma organização iniciou seu processo de gestão do conhecimento. As primeiras ações estruturadas consistiram na 
atualização dos manuais de apoio ao atendimento aos clientes, de acordo com a legislação vigente; e na gravação de 
vídeos pelos funcionários mais experientes, relatando suas experiências, dando “dicas” sobre atendimento aos clientes, 
como material de um treinamento a distância a ser futuramente ministrado aos novos funcionários.
Essas iniciativas representaram, respectivamente, processos de conversão do conhecimento conhecidos como:
A externalização; socialização;
B externalização; internalização;
C combinação; externalização;
D combinação; internalização;
E socialização; externalização.
 
 
 
 
 
 
 
 
 
Cespe/PF/2021
Considere que a Polícia Federal tenha registrado, em determinado período, a 
prisão de 1.789 traficantes de drogas pertencentes a facções criminosas, 
conforme faixas etárias mostradas no gráfico. Com referência às informações e 
ao gráfico precedentes, julgue o item subsecutivo.
O número 1.789 sozinho caracteriza uma informação, independentemente do 
contexto.
 
 
 
 
 
 
 
 
 
Considere que a Polícia Federal tenha registrado, em determinado 
período, a prisão de 1.789 traficantes de drogas pertencentes a facções 
criminosas, conforme faixas etárias mostradas no gráfico. Com 
referência às informações e ao gráfico precedentes, julgue o item 
subsecutivo.
O número 1.789 sozinho caracteriza uma informação, 
independentemente do contexto.
errada
Cespe/PF/2021
 
 
 
 
 
 
 
 
 
Cespe/PF/2021
Os dados estruturados diferenciam-se dos dados não estruturados 
pela rigidez em seu formato e pelo fato de poderem ser 
armazenados em campos de tabelas de um banco de dados 
relacional.
 
 
 
 
 
 
 
 
 
Os dados estruturados diferenciam-se dos dados não estruturados 
pela rigidez em seu formato e pelo fato de poderem ser 
armazenados em campos de tabelas de um banco de dados 
relacional.
certa
Cespe/PF/2021
 
 
 
 
 
 
 
 
 
Cespe/PF/2021
Considere que a Polícia Federal tenha registrado, em determinado período, a 
prisão de 1.789 traficantes de drogas pertencentes a facções criminosas, 
conforme faixas etárias mostradas no gráfico. Com referência às informações e 
ao gráfico precedentes, julgue o item subsecutivo.
Considerando-se a classificação dados, informação, conhecimento e 
inteligência, é correto afirmar que o gráfico representa, por si só, a 
inteligência.
 
 
 
 
 
 
 
 
 
Considere que a Polícia Federal tenha registrado, em determinado período, a 
prisão de 1.789 traficantes de drogas pertencentes a facções criminosas, 
conforme faixas etárias mostradas no gráfico. Com referência às informações e 
ao gráfico precedentes, julgue o item subsecutivo.
Considerando-se a classificação dados, informação, conhecimento e 
inteligência, é correto afirmar que o gráfico representa, por si só, a 
inteligência.
errada
Cespe/PF/2021
Banco de Dados
Prof. Raphael Lacerda
De tudo um pouco
Banco de dados
transações, modelagem, normalização, SQL
Prof. Raphael Lacerda
First Things First!!!
Prof. Raphael Lacerda
Houston, wehave a problem!
Prof. Raphael Lacerda
e esses SGBD's?
Prof. Raphael Lacerda
Um banco de dados é uma coleção de registros normalmente 
gerenciada por um sistema de busca. Os bancos de dados variam em 
seu conteúdo (páginas web, patentes, dados estatísticos, normas 
técnicas, periódicos científicos etc.).
EBSERH/2018
Prof. Raphael Lacerda
Um banco de dados é uma coleção de registros normalmente 
gerenciada por um sistema de busca. Os bancos de dados variam em 
seu conteúdo (páginas web, patentes, dados estatísticos, normas 
técnicas, periódicos científicos etc.).
errada
EBSERH/2018
Prof. Raphael Lacerda
MP-AL/2018
O conjunto de programas responsável pelo gerenciamento de uma 
base de dados e que, entre outras funções, suporta uma linguagem 
de consulta, gera relatórios e disponibiliza uma interface para que os 
seus clientes possam incluir, alterar ou consultar dados, é chamado de 
A Banco de Dados Relacional (BDR).
B Dicionário de Dados (DD). 
C Modelo Entidade Relacionamento (MER).
D Sistema de Suporte à Decisão (SSD). 
E Sistema Gerenciador de Bancos de Dados (SGBD).
Prof. Raphael Lacerda
MP-AL/2018
O conjunto de programas responsável pelo gerenciamento de uma 
base de dados e que, entre outras funções, suporta uma linguagem 
de consulta, gera relatórios e disponibiliza uma interface para que os 
seus clientes possam incluir, alterar ou consultar dados, é chamado de 
A Banco de Dados Relacional (BDR).
B Dicionário de Dados (DD). 
C Modelo Entidade Relacionamento (MER).
D Sistema de Suporte à Decisão (SSD). 
E Sistema Gerenciador de Bancos de Dados (SGBD).
As funções de um sistema de gerenciamento de banco de dados 
(SGBD) incluem
A gerenciar a integridade de dados, o dicionário e o armazenamento 
de dados, bem como a memória do computador enquanto o SGBD 
estiver em execução.
B transformar e apresentar dados, controlar o acesso de multiusuário 
e prover interfaces de comunicação do banco de dados.
Prof. Raphael Lacerda
Sefaz-RS/2019
Prof. Raphael Lacerda
Sefaz-RS/2019
C gerenciar o becape e a recuperação dos dados, bem como o 
escalonamento de processos no processador por meio do banco de 
dados.
D gerenciar o sistema de arquivos e a segurança do banco de dados.
E gerenciar a entrada e saída de dispositivos, linguagens de acesso 
ao banco de dados e interfaces de programação de aplicações.
Atores
Prof. Raphael Lacerda
Administrador do Banco de dados
Administradores de Dados
Equipe de Desenvolvimento
Usuários Finais
Prof. Raphael Lacerda
Após um banco de dados ser criado, o administrador executa uma 
série de tarefas para dar permissão de acesso aos usuários que 
necessitam ler e gravar informações na base de dados. A 
responsabilidade de gerir os acessos ao banco de dados é do sistema 
gerenciador de banco de dados (SGBD).
EBSERH/2018
Prof. Raphael Lacerda
Após um banco de dados ser criado, o administrador executa uma 
série de tarefas para dar permissão de acesso aos usuários que 
necessitam ler e gravar informações na base de dados. A 
responsabilidade de gerir os acessos ao banco de dados é do sistema 
gerenciador de banco de dados (SGBD).
certa
EBSERH/2018
Prof. Raphael Lacerda
TCE-ME/2018
Em uma organização, é atribuição da administração de dados
A definir e criar tabelas, índices e outros objetos.
B monitorar e ajustar a performance do banco de dados.
C manter o tempo de resposta do SGBD adequado às expectativas 
dos usuários.
D conhecer as características de funcionamento e operação do SGBD 
adotado.
E identificar, documentar e modelar os dados que serão armazenados 
e gerenciados.
Prof. Raphael Lacerda
TCE-ME/2018
Em uma organização, é atribuição da administração de dados
A definir e criar tabelas, índices e outros objetos.
B monitorar e ajustar a performance do banco de dados.
C manter o tempo de resposta do SGBD adequado às expectativas 
dos usuários.
D conhecer as características de funcionamento e operação do SGBD 
adotado.
E identificar, documentar e modelar os dados que serão armazenados 
e gerenciados.
Prof. Raphael Lacerda
Old, but GOLD
CM-SP/2019
Uma das propriedades básicas de uma transação em um banco de dados relacional 
estabelece que cada transação não deve sofrer interferência de outras transações em 
execução no banco de dados. Essa propriedade denomina-se
A durabilidade.
B isolamento.
C consistência.
D integridade.
E cardinalidade.
Prof. Raphael Lacerda
 
 
 
 
 
 
 
 
 
No contexto da implementação de bancos de dados, o acrônimo ACID 
denota o conjunto de propriedades que devem ser observadas por 
sistemas transacionais. Essas quatro propriedades são:
A Amorfabilidade, Concorrência, Integridade e Durabilidade;
B Atomicidade, Consistência, Isolamento e Durabilidade;
C Atualização, Coesão, Inserção e Deleção;
D Auditabilidade, Conformidade, Independência e Distribuição;
E Automação, Concorrência, Integridade e Distribuição.
FGV/TJ-RO/2021
 
 
 
 
 
 
 
 
 
No contexto da implementação de bancos de dados, o acrônimo ACID 
denota o conjunto de propriedades que devem ser observadas por 
sistemas transacionais. Essas quatro propriedades são:
A Amorfabilidade, Concorrência, Integridade e Durabilidade;
B Atomicidade, Consistência, Isolamento e Durabilidade;
C Atualização, Coesão, Inserção e Deleção;
D Auditabilidade, Conformidade, Independência e Distribuição;
E Automação, Concorrência, Integridade e Distribuição.
FGV/TJ-RO/2021
 
 
 
 
 
 
 
 
 
Parte Física - Views, Triggers, Stored Procedures
 
 
 
 
 
 
 
 
 
FGV/CGE-SC/2023
Com relação à VIEW no Microsoft SQL Server, analise as afirmativas a seguir.
I. A view é utilizada para tornar a percepção do usuário mais simplificada e focalizada. 
II. Visões são instrumentos de segurança, pois permitem restringir o acesso aos 
dados, ou seja, usuários não possuem permissões para acessar as tabelas base. 
III. O Objeto view é utilizado para simular versões anteriores de tabelas que teve seu 
esquema transformado e assim garantir o pleno funcionamento dos sistemas. 
IV. As instruções de SQL UPDATE, DELETE e INSERT são permitidas desde que 
realizadas utilizando colunas de uma única tabela base.
 
 
 
 
 
 
 
 
 
FGV/CGE-SC/2023
Com relação à VIEW no Microsoft SQL Server, analise as afirmativas a seguir.
I. A view é utilizada para tornar a percepção do usuário mais simplificada e focalizada. 
II. Visões são instrumentos de segurança, pois permitem restringir o acesso aos 
dados, ou seja, usuários não possuem permissões para acessar as tabelas base. 
III. O Objeto view é utilizado para simular versões anteriores de tabelas que teve seu 
esquema transformado e assim garantir o pleno funcionamento dos sistemas. 
IV. As instruções de SQL UPDATE, DELETE e INSERT são permitidas desde que 
realizadas utilizando colunas de uma única tabela base.
 
 
 
 
 
 
 
 
 
FGV/RFB/2023
Considere um banco de dados relacional em que as operações de insert e update efetuadas numa certa 
tabela devem ser monitoradas e anotadas, como subsídio aos procedimentos de auditoria da empresa. 
Essa tabela é utilizada por uma série de aplicações, em diferentes tipos de transações, e iniciadas por um 
número considerável de usuários.
Nesse cenário, assinale o mecanismo mais adequado para a implementação desse monitoramento.
A Cursores. 
B Stored procedures.
C Triggers.
D Utilitários de exportação de dados. 
E Views.
 
 
 
 
 
 
 
 
 
FGV/RFB/2023
Considere um banco de dados relacional em que as operações de insert e update efetuadas numa certa 
tabela devem ser monitoradas e anotadas, como subsídio aos procedimentos de auditoria da empresa. 
Essa tabela é utilizada por uma série de aplicações, em diferentes tipos de transações, e iniciadas por um 
número considerável de usuários.
Nesse cenário, assinale o mecanismo mais adequado para a implementação desse monitoramento.
A Cursores. 
B Stored procedures.
C Triggers.
D Utilitários de exportação de dados. 
E Views.
#Modelagem
Prof. Raphael Lacerda
Conceitual(MER) Lógica (MR) Física
entidade, atributo, 
relacionamento, 
cardinalidade
tabelas, chaves 
primárias, estrangeiras
NORMALIZAÇÃO
fisicamente 
armazenados, SQL, 
índices, views, triggers
Prof. Raphael Lacerda
+1
Modelando problemas
Prof. Raphael Lacerda
Arquitetura 3 esquemas 
https://www.estrategiaconcursos.com.br/blog/conceitos-basicos-de-banco-de-dados/
https://www.estrategiaconcursos.com.br/blog/conceitos-basicos-de-banco-de-dados/
MPC-PA/2019
De acordo com as informações do texto 9A1-I, assinale a opção 
correta, com relação à leitura das regras do negócio representadas no 
modelo apresentado.
A Ao realizar uma reserva, o cliente pode escolher um ou vários 
trechos de voo. Existem várias opções de aeronaves para o trecho 
reservado.
B Ao realizar uma reserva, o cliente pode escolher um ou vários 
trechos de voo, mas existe apenas uma aeronave alocada para o 
trecho reservado.
MPC-PA/2019
MPC-PA/2019
C
Ao realizar uma reserva, o cliente pode escolher apenas um trecho de 
voo, mas existem várias opções de aeronaves para o trecho 
reservado.
D
Um trecho de voo está relacionado a apenas uma reserva.
E
Ao realizar uma reserva, o cliente recebe um único número de 
assento, válido para todos os trechos que forem reservados.
De acordo com as informações do texto 9A1-I, assinale a opção 
correta, com relação à leitura das regras do negócio representadas no 
modelo apresentado.
A Ao realizar uma reserva, o cliente pode escolher um ou vários 
trechos de voo. Existem várias opções de aeronaves para o trecho 
reservado.
B Ao realizar uma reserva, o cliente pode escolher um ou vários 
trechos de voo, mas existe apenas uma aeronave alocada para o 
trecho reservado.
MPC-PA/2019
 
 
 
 
 
 
 
 
 
FGV/MPE-SC/2022
Num banco de dados relacional, considere as tabelas T1 e T2, criadas como descrito a seguir.
• T1 tem duas colunas, intituladas A e B, do tipo inteiro; a coluna A é declarada como primary key, e não aceita valores nulos.
• T2 tem duas colunas, intituladas C e A, do tipo inteiro; a coluna C é declarada como primary key, e não aceita valores nulos; a coluna A foi 
declarada como UNIQUE, não aceita valores nulos e ainda foi declarada como uma foreign key que referencia a coluna A da tabela T1.
À luz dessa estrutura, é correto afirmar que o relacionamento entre T1 e T2:
A é do tipo 1:1;
B é do tipo 1:N;
C é do tipo N:1;
D é do tipo M:N;
E não pode ser categorizado, pois isso depende das instâncias de cada tabela.
 
 
 
 
 
 
 
 
 
FGV/MPE-SC/2022
Num banco de dados relacional, considere as tabelas T1 e T2, criadas como descrito a seguir.
• T1 tem duas colunas, intituladas A e B, do tipo inteiro; a coluna A é declarada como primary key, e não aceita valores nulos.
• T2 tem duas colunas, intituladas C e A, do tipo inteiro; a coluna C é declarada como primary key, e não aceita valores nulos; a coluna A foi 
declarada como UNIQUE, não aceita valores nulos e ainda foi declarada como uma foreign key que referencia a coluna A da tabela T1.
À luz dessa estrutura, é correto afirmar que o relacionamento entre T1 e T2:
A é do tipo 1:1;
B é do tipo 1:N;
C é do tipo N:1;
D é do tipo M:N;
E não pode ser categorizado, pois isso depende das instâncias de cada tabela.
#SQL
Prof. Raphael Lacerda
SQL
TCE-RJ - Análise Informações
Prof. Raphael Lacerda
Operadores no WHERE
= | <> igualdade diferente
> | >= maior que maior igual
< | <= menor que menor igual
>= maior igual
BETWEEN entre datas por exemplos
LIKE padrão de pesquisa
IN múltiplos possíveis valores
SQL
Prof. Raphael Lacerda
Like
a% começa com a
%a termina com a
%a% tem a em qualquer lugar
_a% a na posição 2
a__% começa com a e tem no mínimo 3 posições
Prof. Raphael Lacerda
várias funções
https://pt.wikibooks.org/wiki/SQL/Funções_de_agrega
ção
https://pt.wikibooks.org/wiki/SQL/Fun%C3%A7%C3%B5es_de_agrega%C3%A7%C3%A3o
https://pt.wikibooks.org/wiki/SQL/Fun%C3%A7%C3%B5es_de_agrega%C3%A7%C3%A3o
 
 
 
 
 
 
 
 
 
FGV/MPE-SC/2022
João trabalha na migração para o MySQL de um sistema baseado originalmente no SQL Server.
Nesse contexto, nos comandos SQL que eventualmente utilizem o operador like, João:
A é obrigado a substituir o operador like pelo operador regexp;
B pode manter o comando como está, pois o MySQL interpreta o operador corretamente;
C pode manter o comando, mas deve substituir todas as ocorrências do caractere curinga “%” por “*”;
D pode manter o comando, mas deve substituir todas as ocorrências do caractere curinga “*” por “%”;
E pode manter o comando, mas deve substituir todas as ocorrências do caractere curinga “?” por “_”.
 
 
 
 
 
 
 
 
 
FGV/MPE-SC/2022
João trabalha na migração para o MySQL de um sistema baseado originalmente no SQL Server.
Nesse contexto, nos comandos SQL que eventualmente utilizem o operador like, João:
A é obrigado a substituir o operador like pelo operador regexp;
B pode manter o comando como está, pois o MySQL interpreta o operador corretamente;
C pode manter o comando, mas deve substituir todas as ocorrências do caractere curinga “%” por “*”;
D pode manter o comando, mas deve substituir todas as ocorrências do caractere curinga “*” por “%”;
E pode manter o comando, mas deve substituir todas as ocorrências do caractere curinga “?” por “_”.
 
 
 
 
 
 
 
 
 
FGV/2022
Considerando-se a instância da tabela T (descrita anteriormente), analise o comando SQL abaixo.
update T
set a = a + 32
where
exists (select * from T t2 where T.c > t2.D)
O número de registros da tabela T afetados pela execução desse comando é:
Alternativas
A zero;
B um;
C dois;
D três;
E quatro.
 
 
 
 
 
 
 
 
 
Lembrando
SELECT P.ID, P.nome FROM produto P WHERE
EXISTS (
 SELECT
 V.ID_PRODUTO
 FROM
 venda_produto V
 WHERE
 V.ID_PRODUTO = P.ID
)
https://www.devmedia.com.br/sql-e
xists/41176
https://www.devmedia.com.br/sql-exists/41176
https://www.devmedia.com.br/sql-exists/41176
#Normalização
Prof. Raphael Lacerda
1 forma 2 forma 3 forma
● valores 
atômicos
● sem atributos 
multivalorados
● não há 
dependência 
parcial
● não pode 
depender de 
parte da 
chave 
primária
● não há 
dependência 
transitiva
● deve 
depender 
única e 
exclusivamen
te da chave 
primária
Prof. Raphael Lacerda
Resumex!
Prof. Raphael Lacerda
e como ficaria a tabela?
https://www.luis.blog.br/segunda-forma-normal-2fn-normalizacao-de-dados.html
https://www.luis.blog.br/segunda-forma-normal-2fn-normalizacao-de-dados.html
Prof. Raphael Lacerda
BCNF
Todo determinante é 
chave candidata
FGV
Prof. Raphael Lacerda
FGV/2020
Durante o projeto de uma base de dados relacional, após o processo 
de normalização ter iniciado, se uma relação apresentar chave 
primária composta, é correto garantir que esta relação está na
A 1a Forma Normal.
B 2a Forma Normal.
C 3a Forma Normal.
D Forma Normal de Boyce-Codd.
E 4a Forma Normal.
Prof. Raphael Lacerda
FGV/2020
Durante o projeto de uma base de dados relacional, após o processo 
de normalização ter iniciado, se uma relação apresentar chave 
primária composta, é correto garantir que esta relação está na
A 1a Forma Normal.
B 2a Forma Normal.
C 3a Forma Normal.
D Forma Normal de Boyce-Codd.
E 4a Forma Normal.
 
 
 
 
 
 
 
 
 
Supondo-se que a tabela T (descrita anteriormente) esteja normalizada até a forma 
normal Boyce-Codd, a dependência funcional que NÃO se verifica nessa tabela é:
Alternativas
A A → B
B B → D
C C → B
D C → D
E A, D → B
FGV/TCE-AM/2021
 
 
 
 
 
 
 
 
 
Supondo-se que a tabela T (descrita anteriormente) esteja normalizada até a forma 
normal Boyce-Codd, a dependência funcional que NÃO se verifica nessa tabela é:
Alternativas
A A → B
B B → D
C C → B
D C → D
E A, D → B
FGV/TCE-AM/2021
#BI
TCE-RJ Análise de Informações
Prof. Raphael Lacerda
BI
 
 
 
 
 
 
 
 
 
Como usar os dados para tomar decisões?
Prof. Raphael Lacerda
organizados,limpos,
preenchidos, 
otimizados,
compliance, 
padronizados
Recuperar
Prof. Raphael Lacerda
ETL
ETL - 
● EXTRACT
● TRANSFORM
● LOAD
Prof. Raphael Lacerda
ELT
https://www.astera.com/pt/type/blog/etl-vs-e
lt-whats-the-difference/
Prof. Raphael Lacerda
ELT
● processo mais ágil para o 
carregamento e o 
processamento de dados
● reduz consideravelmente o 
tempo de carregamento de 
dados
● engenheiros de dados focam 
apenas nas etapas de extração e 
carregamento
● responsabilidade da 
transformação de dados fica nas 
mãos de profissionais próximos à 
empresa
● Dados brutos
TCE-RJ Análise de Informações
Prof. Raphael Lacerda
Modelando
TCE-RJ Análise de Informações
Prof. Raphael Lacerda
Modelando
operações
Prof. Raphael Lacerda
 
 
 
 
 
 
 
 
 
Cespe/2021
 
 
 
 
 
 
 
 
 
Cespe/2021
Todos os elementos descritos em FATO_FREQUÊNCIA fazem 
parte de uma única chave primária composta, sendo cada 
elemento uma chave estrangeira oriunda de cada dimensão a ela 
vinculada
 
 
 
 
 
 
 
 
 
Cespe/2021
Todos os elementos descritos em FATO_FREQUÊNCIA fazem 
parte de uma única chave primária composta, sendo cada 
elemento uma chave estrangeira oriunda de cada dimensão a ela 
vinculada
certa
Prof. Raphael Lacerda
como armazenar?
https://www.grazitti.com/blog/data-lake-vs-data-warehouse-which-one-should-you-go-for/
https://www.grazitti.com/blog/data-lake-vs-data-warehouse-which-one-should-you-go-for/
 
 
 
 
 
 
 
 
 
Cespe/CNMP/2023
Em data warehouse, o conceito de granularidade refere-se ao 
nível de detalhe ou resumo existente em uma unidade de dados, 
de forma que, quanto mais detalhes, mais alto o nível de 
granularidade. 
 
 
 
 
 
 
 
 
 
Cespe/CNMP/2023
Em data warehouse, o conceito de granularidade refere-se ao 
nível de detalhe ou resumo existente em uma unidade de dados, 
de forma que, quanto mais detalhes, mais alto o nível de 
granularidade. 
errada
 
 
 
 
 
 
 
 
 
Cespe/CNMP/2023
Fatos, dimensões e medidas são elementos essenciais de um data 
warehouse.
 
 
 
 
 
 
 
 
 
Cespe/CNMP/2023
Fatos, dimensões e medidas são elementos essenciais de um data 
warehouse.
certa
 
 
 
 
 
 
 
 
 
FGV/CGU/2021
Uma organização deseja implementar um pipeline de dados e está avaliando a opção mais adequada para o seu contexto de operação. Em torno de 40% dos dados 
consumidos pela organização se encontram em planilhas eletrônicas que contêm dados sensíveis, produzidas semanalmente por suas unidades de negócio. Os outros 
60% dos dados se encontram em alguns bancos de dados relacionais de sistemas de produção da organização. O tamanho da base é de moderado a pequeno, mas 
existe a necessidade de conformidade com normas de privacidade e confidencialidade dos dados. O objetivo do pipeline é fornecer insumos para um departamento 
que realiza análises de dados com métodos não supervisionados de aprendizagem de máquina para elaborar relatórios periódicos mensais. A organização está 
avaliando a construção de um Armazém de Dados (ETL) ou de um Lago de Dados (ELT).
A proposta de modelo adequada e corretamente justificada é
A Armazém de Dados. Ambos os modelos são adequados, mas Lago de Dados tem maior latência até a carga (L) e custo maior;
B Armazém de Dados. Esse modelo possui menor latência até a carga (L) e, ao contrário do Lago de Dados, opera de forma eficiente com dados relacionais; 
C Armazém de Dados. O processo ETL é mais adequado para o tratamento dos dados sensíveis e os casos de uso são bem conhecidos;
D Lago de Dados. Esse modelo possui menor latência até a carga (L) e permite a extração (E) de dados semiestruturados e não estruturados;
E Lago de Dados. Esse modelo não necessita de hardware especializado e, ao contrário do Armazém de Dados, possibilita tarefas de aprendizado de máquina. 
 
 
 
 
 
 
 
 
 
Cespe/2022
Em um data warehousing (DW), a ETL é considerada uma das 
fases mais simples, pois se resume à seleção dos dados que farão 
parte do DW.
 
 
 
 
 
 
 
 
 
FGV/TRT-13/2023
No contexto da implementação de tecnologias para data mining e 
apresentação de dados, a sigla ETL refere-se 
A ao processamento de transações on line em ambientes de produção.
B ao processo de identificação de dados e relacionamentos numa 
interface de exploração de dados.
C aos processos de criação de índices full text.
D aos processos de extração, transformação e carga de dados.
E às manobras para visualização de dados sobre cubos dimensionais. 
 
 
 
 
 
 
 
 
 
FGV/TRT-13/2023
No contexto da implementação de tecnologias para data mining e 
apresentação de dados, a sigla ETL refere-se 
A ao processamento de transações on line em ambientes de produção.
B ao processo de identificação de dados e relacionamentos numa 
interface de exploração de dados.
C aos processos de criação de índices full text.
D aos processos de extração, transformação e carga de dados.
E às manobras para visualização de dados sobre cubos dimensionais. 
 
 
 
 
 
 
 
 
 
FGV/CGE-SC/2023
Avalie se os componentes de um Data Warehouse incluem:
I. Sistemas de origem. II. Infraestrutura de ETL (Extraction-transformation-load). III. Data 
Warehouse. IV. Aplicações de Front-end para o usuário final.
Estão corretos os itens
A I e II, apenas.
B III e IV, apenas.
C I, II e III, apenas.
D II, III e IV, apenas.
E I, II, III e IV.
 
 
 
 
 
 
 
 
 
FGV/CGE-SC/2023
Avalie se os componentes de um Data Warehouse incluem:
I. Sistemas de origem. II. Infraestrutura de ETL (Extraction-transformation-load). III. Data 
Warehouse. IV. Aplicações de Front-end para o usuário final.
Estão corretos os itens
A I e II, apenas.
B III e IV, apenas.
C I, II e III, apenas.
D II, III e IV, apenas.
E I, II, III e IV.
 
 
 
 
 
 
 
 
 
Questão 110
https://cursos.alura.com.br/forum/topic
o-snow-flake-ou-star-schema-quando-
usar-110799
https://www.geeksforgeeks.org/fact-const
ellation-in-data-warehouse-modelling/
https://streamsets.com/blog/schemas-d
ata-warehouses-star-galaxy-snowflake/
#galaxy
https://cursos.alura.com.br/forum/topico-snow-flake-ou-star-schema-quando-usar-110799
https://cursos.alura.com.br/forum/topico-snow-flake-ou-star-schema-quando-usar-110799
https://cursos.alura.com.br/forum/topico-snow-flake-ou-star-schema-quando-usar-110799
https://www.geeksforgeeks.org/fact-constellation-in-data-warehouse-modelling/
https://www.geeksforgeeks.org/fact-constellation-in-data-warehouse-modelling/
https://streamsets.com/blog/schemas-data-warehouses-star-galaxy-snowflake/#galaxy
https://streamsets.com/blog/schemas-data-warehouses-star-galaxy-snowflake/#galaxy
https://streamsets.com/blog/schemas-data-warehouses-star-galaxy-snowflake/#galaxy
 
 
 
 
 
 
 
 
 
FGV/CGE-SC/2023
Observando o aumento na quantidade de reclamações dos clientes nas lojas, os analistas de BI resolveram incluir as informações 
analiticamente úteis da base de reclamações no Data Warehouse.
Para que a criação da constelação de fatos (também chamada de galáxia) contemple o fato RECLAMAÇÃO, os analistas devem adicionar
A uma tabela de fato RECLAMAÇÕES, contendo apenas um atributo descritivo, sem a necessidade de conectar a qualquer dimensão.
B uma tabela de fato RECLAMAÇÕES, contendo um atributo descritivo e três chaves estrangeiras, uma para cada uma das dimensões 
existentes.
C uma tabela de fato RECLAMAÇÕES, contendo um atributo descritivo e três atributos que receberão os valores das chaves estrangeiras de 
Loja, Cliente e RegistroReclamação diretamente do banco de dados operacional.
D três tabelas de dimensão (CalendárioReclamação, ClienteReclamação e LojaReclamação) mais uma tabela de fato RECLAMAÇÕES, 
contendo um atributo descritivo e três chaves estrangeiras, uma para cada uma das dimensões recém-criadas.
E duas tabelas de dimensão (ClienteReclamação e LojaReclamação) mais uma tabela de fato RECLAMAÇÕES, contendo um atributo 
descritivo e três chaves estrangeiras, duas para cada uma das dimensões recém-criadas e uma para referenciar o registro da reclamação 
diretamentedo banco de dados operacional.
 
 
 
 
 
 
 
 
 
FGV/CGE-SC/2023
Observando o aumento na quantidade de reclamações dos clientes nas lojas, os analistas de BI resolveram incluir as informações 
analiticamente úteis da base de reclamações no Data Warehouse.
Para que a criação da constelação de fatos (também chamada de galáxia) contemple o fato RECLAMAÇÃO, os analistas devem adicionar
A uma tabela de fato RECLAMAÇÕES, contendo apenas um atributo descritivo, sem a necessidade de conectar a qualquer dimensão.
B uma tabela de fato RECLAMAÇÕES, contendo um atributo descritivo e três chaves estrangeiras, uma para cada uma das dimensões 
existentes.
C uma tabela de fato RECLAMAÇÕES, contendo um atributo descritivo e três atributos que receberão os valores das chaves estrangeiras de 
Loja, Cliente e RegistroReclamação diretamente do banco de dados operacional.
D três tabelas de dimensão (CalendárioReclamação, ClienteReclamação e LojaReclamação) mais uma tabela de fato RECLAMAÇÕES, 
contendo um atributo descritivo e três chaves estrangeiras, uma para cada uma das dimensões recém-criadas.
E duas tabelas de dimensão (ClienteReclamação e LojaReclamação) mais uma tabela de fato RECLAMAÇÕES, contendo um atributo 
descritivo e três chaves estrangeiras, duas para cada uma das dimensões recém-criadas e uma para referenciar o registro da reclamação 
diretamente do banco de dados operacional.
 
 
 
 
 
 
 
 
 
FGV/CGE-SC/2023
Sobre a proposta geral do modelo dimensional em um Data Warehouse, não 
é correto afirmar que o modelo dimensional
A cobre tanto dados detalhados quanto dados sumarizados.
B cobre toda a empresa, e não apenas departamentos.
C é escalável, podendo entregar relatórios com trilhões de registros.
D é arquitetado apenas para um uso previsível, geralmente cobrindo os 10 
relatórios mais acessados.
E pode integrar diversas fontes de dados operacionais da empresa, inclusive 
fontes externas. 
 
 
 
 
 
 
 
 
 
FGV/CGE-SC/2023
Sobre a proposta geral do modelo dimensional em um Data Warehouse, não 
é correto afirmar que o modelo dimensional
A cobre tanto dados detalhados quanto dados sumarizados.
B cobre toda a empresa, e não apenas departamentos.
C é escalável, podendo entregar relatórios com trilhões de registros.
D é arquitetado apenas para um uso previsível, geralmente cobrindo os 10 
relatórios mais acessados.
E pode integrar diversas fontes de dados operacionais da empresa, inclusive 
fontes externas. 
 
 
 
 
 
 
 
 
 
FGV/TJDFT/2023
Observe o seguinte recorte de um relatório extraído do DataJud e um recorte do respectivo modelo multidimensional.
Quando a relação de hierarquia entre atributos de uma tabela dimensão é normalizada, os atributos de baixa 
cardinalidade são migrados para outra tabela, como exemplo: UF e Município.
Quando esse processo é repetido nas hierarquias de todas as dimensões de um modelo multidimensional, é criada a 
estrutura:
A CRISP-DM;
B Star Schema;
C Drill Throught;
D Snowflake Schema;
E Fact Constellation
 
 
 
 
 
 
 
 
 
FGV/TJDFT/2023
Observe o seguinte recorte de um relatório extraído do DataJud e um recorte do respectivo modelo multidimensional.
Quando a relação de hierarquia entre atributos de uma tabela dimensão é normalizada, os atributos de baixa 
cardinalidade são migrados para outra tabela, como exemplo: UF e Município.
Quando esse processo é repetido nas hierarquias de todas as dimensões de um modelo multidimensional, é criada a 
estrutura:
A CRISP-DM;
B Star Schema;
C Drill Throught;
D Snowflake Schema;
E Fact Constellation
 
 
 
 
 
 
 
 
 
FGV/TJDFT/2023
Lino precisa preparar um grande volume de dados para minerar realizando operações de 
limpeza, adequação de formato, exclusão de brancos e inclusão de novos atributos derivados.
Para realizar o pré-processamento dos dados, Lino deve usar uma ferramenta do tipo:
A ETL; 
B OLAP;
C Apriori;
D Data Mart; 
E Data Lake
 
 
 
 
 
 
 
 
 
FGV/TJDFT/2023
Ana foi contratada para desenvolver uma solução de Business 
Intelligence para a Justiça. Um dos requisitos analíticos é a 
quantidade de processos novos (QtdProcessosNovos) criados por 
Tribunal por trimestre ao longo dos anos.
Para atender ao requisito analítico, Ana deve usar o modelo 
multidimensional:
 
 
 
 
 
 
 
 
 
FGV/TJDFT/2023
 
 
 
 
 
 
 
 
 
FGV/TJDFT/2023
#datamining e I.A
Prof. Raphael Lacerda
Data Mining
Prof. Raphael Lacerda
Padrões
Prof. Raphael Lacerda
Padrões
Prof. Raphael Lacerda
KDD
https://data-flair.training/blogs/data-mining-and-knowledge-discovery/
https://data-flair.training/blogs/data-mining-and-knowledge-discovery/
Prof. Raphael Lacerda
Objetivos
https://fia.com.br/blog/data-mining/
https://fia.com.br/blog/data-mining/
Prof. Raphael Lacerda
CRISP-DM
Prof. Raphael Lacerda
que homem
Dado os três conceitos técnicos abaixo, assinale a alternativa que 
corresponda respectivamente à tecnologia referente a cada um 
desses conceitos.
1. processo de explorar grandes quantidades de dados à procura de 
padrões consistentes.
2. refere-se ao processo de coleta, organização, análise, 
compartilhamento e monitoramento de informações que oferecem 
suporte a gestão de negócios.
Prof. Raphael Lacerda
EBSERH/2020
3. depósito de dados digitais que serve para armazenar informações 
detalhadas relativamente a uma empresa.
a) 1.Data Warehouse - 2.Business Intelligence - 3.Data Mining
b) 1.Data Mining - 2.Data Warehouse - 3.Business Intelligence
c) 1.Business Intelligence - 2.Data Warehouse - 3.Data Mining
d) 1.Data Mining - 2.Business Intelligence - 3.Data Warehouse
e) 1.Business Intelligence - 2.Data Mining - 3.Data Warehouse
Prof. Raphael Lacerda
EBSERH/2020
3. depósito de dados digitais que serve para armazenar informações 
detalhadas relativamente a uma empresa.
a) 1.Data Warehouse - 2.Business Intelligence - 3.Data Mining
b) 1.Data Mining - 2.Data Warehouse - 3.Business Intelligence
c) 1.Business Intelligence - 2.Data Warehouse - 3.Data Mining
d) 1.Data Mining - 2.Business Intelligence - 3.Data Warehouse
e) 1.Business Intelligence - 2.Data Mining - 3.Data Warehouse
Prof. Raphael Lacerda
EBSERH/2020
Prof. Raphael Lacerda
Aprendizado de máquina
Machine Learning
https://www.ceros.com/originals/recaptcha-waymo-future-of-self-driving-cars/
https://www.youtube.com/watch?time_continue=358&v=R9OHn5ZF4Uo&feature=emb_logo
https://www.ceros.com/originals/recaptcha-waymo-future-of-self-driving-cars/
https://www.youtube.com/watch?time_continue=358&v=R9OHn5ZF4Uo&feature=emb_logo
Machine Learning
https://www1.folha.uol.com.br/podcasts/2020/02/podcast-explica-o-melhor-e-o-pior-da-inteligencia-artificial-ouca.shtml
https://www1.folha.uol.com.br/podcasts/2020/02/podcast-explica-o-melhor-e-o-pior-da-inteligencia-artificial-ouca.shtml
 
 
 
 
 
 
 
 
 
Tipos de I.A
● Fraca
○ problema limitados
● Forte
○ causa e efeito / pensamento abstrado / linguagem natural
● Superinteligente
○ poderes sobre-humanos (campo teórico)
● Explainable vs Responsible
○ Explainable AI versus Responsible AI | by Anand Tamboli® | tomorrow++ | Medium
○ What is Explainable AI (XAI)? | IBM
○ transparência, equidade, privacidade, segurança, confiabilidade, responsabilidade, 
sustentabilidade, integridade, inclusão, participação, explicabilidade, robustez
○ Os 3 Tipos de Inteligência 
Artificial (pucpr.br)
https://medium.com/tomorrow-plus-plus/explainable-ai-versus-responsible-ai-bb34f575d49e
https://www.ibm.com/watson/explainable-ai
https://posdigital.pucpr.br/blog/tipos-de-inteligencia-artificial
https://posdigital.pucpr.br/blog/tipos-de-inteligencia-artificial
 
 
 
 
 
 
 
 
 
O que está por vir?
https://chat.openai.com/auth/login
https://chat.openai.com/auth/login
 
 
 
 
 
 
 
 
 
O que está por vir?
ChatGPT: saiba tudo sobre o chatbot que usa IA para responder 
perguntas | Internet | TechTudo
Plataforma da OpenAI cria um "amigo virtual" 
- Olhar Digital
https://www.techtudo.com.br/listas/2022/12/chatgpt-saiba-tudo-sobre-o-chatbot-que-usa-ia-para-responder-perguntas.ghtmlhttps://www.techtudo.com.br/listas/2022/12/chatgpt-saiba-tudo-sobre-o-chatbot-que-usa-ia-para-responder-perguntas.ghtml
https://olhardigital.com.br/2022/12/02/pro/openai-cria-um-amigo-virtual/
https://olhardigital.com.br/2022/12/02/pro/openai-cria-um-amigo-virtual/
 
 
 
 
 
 
 
 
 
O que está por vir?
GPT-3: o mais poderoso sistema de 
inteligência artificial já criado - Olhar Digital
Uma IA vai roubar o seu emprego (e isso 
pode ser bom) – Tecnoblog
Google pode estar com seus dias contados - 
Olhar Digital
https://olhardigital.com.br/2020/08/25/noticias/gpt-3-o-mais-poderoso-sistema-de-inteligencia-artificial-ja-criado/
https://olhardigital.com.br/2020/08/25/noticias/gpt-3-o-mais-poderoso-sistema-de-inteligencia-artificial-ja-criado/
https://tecnoblog.net/tecnocast/uma-ia-vai-roubar-o-seu-emprego-e-isso-pode-ser-bom/
https://tecnoblog.net/tecnocast/uma-ia-vai-roubar-o-seu-emprego-e-isso-pode-ser-bom/
https://olhardigital.com.br/2022/12/12/pro/google-esta-com-seus-dias-contados-dizem-especialistas/
https://olhardigital.com.br/2022/12/12/pro/google-esta-com-seus-dias-contados-dizem-especialistas/
Prof. Raphael Lacerda
Será?
Will Robots Take My Job?
ChatGPT is a new AI chatbot that can answer 
questions and write essays (cnbc.com)
https://willrobotstakemyjob.com/
https://www.cnbc.com/2022/12/13/chatgpt-is-a-new-ai-chatbot-that-can-answer-questions-and-write-essays.html
https://www.cnbc.com/2022/12/13/chatgpt-is-a-new-ai-chatbot-that-can-answer-questions-and-write-essays.html
 
 
 
 
 
 
 
 
 
I.A generativa
● Textos, fotos
 
 
 
 
 
 
 
 
 
I.A generativa
● Textos, fotos, video, sons, GitHub Copilot
● redes neurais generativas adversativas, 
também chamadas de GAN
O que é IA Generativa? GPT, ChatGPT e 
Midjourney | Alura
https://openai.com/blog/openai-codex
https://github.com/features/copilot
https://aws.amazon.com/codewhisperer/
https://www.redhat.com/en/engage/project-wi
sdom
https://www.alura.com.br/artigos/inteligencia-artificial-ia-generativa-chatgpt-gpt-midjourney?gclid=CjwKCAjwge2iBhBBEiwAfXDBRyJ4T2X0c8iYKBtoLglWC1ekuEowYx1BLpAtTsHGeX9JPn5cY9sH-xoCuOwQAvD_BwE
https://www.alura.com.br/artigos/inteligencia-artificial-ia-generativa-chatgpt-gpt-midjourney?gclid=CjwKCAjwge2iBhBBEiwAfXDBRyJ4T2X0c8iYKBtoLglWC1ekuEowYx1BLpAtTsHGeX9JPn5cY9sH-xoCuOwQAvD_BwE
https://openai.com/blog/openai-codex
https://github.com/features/copilot
https://aws.amazon.com/codewhisperer/
https://www.redhat.com/en/engage/project-wisdom
https://www.redhat.com/en/engage/project-wisdom
 
 
 
 
 
 
 
 
 
como criar?
O que é IA Generativa? GPT, ChatGPT e 
Midjourney | Alura
https://www.alura.com.br/artigos/inteligencia-artificial-ia-generativa-chatgpt-gpt-midjourney?gclid=CjwKCAjwge2iBhBBEiwAfXDBRyJ4T2X0c8iYKBtoLglWC1ekuEowYx1BLpAtTsHGeX9JPn5cY9sH-xoCuOwQAvD_BwE
https://www.alura.com.br/artigos/inteligencia-artificial-ia-generativa-chatgpt-gpt-midjourney?gclid=CjwKCAjwge2iBhBBEiwAfXDBRyJ4T2X0c8iYKBtoLglWC1ekuEowYx1BLpAtTsHGeX9JPn5cY9sH-xoCuOwQAvD_BwE
@canetas.pretas
PLN
http://instagram.com/estrategiaconcursosti
 
 
 
 
 
 
 
 
 
Conceitos Gerais
●
DTE NLU Demo (ibm.com) i used a bat to kill a bat
i saw a bat inside a cave
https://www.ibm.com/demos/live/natural-language-understanding/self-service
 
 
 
 
 
 
 
 
 
Desafios
●
Prof. Raphael Lacerda
DEEP FAKE
Batman Movie Script Written By AI After 
Watching 1000 Hours Footage 
(techgrabyte.com)
GPT-3 – Wikipédia, a enciclopédia livre 
(wikipedia.org)
https://techgrabyte.com/batman-script-written-ai/
https://techgrabyte.com/batman-script-written-ai/
https://techgrabyte.com/batman-script-written-ai/
https://pt.wikipedia.org/wiki/GPT-3
https://pt.wikipedia.org/wiki/GPT-3
 
 
 
 
 
 
 
 
 
Bag Of Words / N-Gram
Bag-of-words model - Wikipedia n-gram - Wikipedia
https://en.wikipedia.org/wiki/Bag-of-words_model
https://en.wikipedia.org/wiki/N-gram
 
 
 
 
 
 
 
 
 
Cespe/SEFAZ-CE/2021
Um dos desafios do processamento de linguagem natural (PLN) é 
a polissemia, ou seja, a característica de palavras e frases poderem 
ter mais de um significado. 
1. A letra da música do Chico Buarque 
é incrível.
2. A letra daquele aluno é inteligível
 
 
 
 
 
 
 
 
 
FGV/RFB/2023
Em relação ao processamento de linguagem natural (PLN), analise as 
afirmativas a seguir.
I. O PLN envolve a compreensão e a geração de linguagem natural 
humana.
II. A tarefa principal do PLN é traduzir textos de uma língua para outra.
III. O PLN não é utilizado para tarefas de processamento de voz.
IV. O PLN é aplicado em sistemas de recuperação de informações e 
assistentes virtuais.
 
 
 
 
 
 
 
 
 
Cespe/CNMP/2023
O data mining é um processo usado para extrair e analisar 
informações que revelam padrões ou tendências estratégicas do 
negócio.
 
 
 
 
 
 
 
 
 
Cespe/CNMP/2023
O data mining é um processo usado para extrair e analisar 
informações que revelam padrões ou tendências estratégicas do 
negócio.
certa
 
 
 
 
 
 
 
 
 
IFMT/2023
Sobre as etapas do processo de descoberta de conhecimento e mineração de dados (KDD, 
Knowledge Discovery and Data Mining), numere a coluna da direita de acordo com a coluna da 
esquerda: 
1. Seleção de dados 2. Limpeza de dados 3.Mineração de dados 4. Avaliação 
( ) São aplicados algoritmos para extração de características dos dados. 
( ) O subconjunto objetivado dos dados e os atributos de interesse são identificados 
examinando-se o conjunto de dados bruto inteiro. 
( ) Os padrões são apresentados para os usuários em uma forma inteligível. 
( ) Ruído e exceções são removidos, valores de campo são transformados em unidades comuns 
e alguns campos são criados pela combinação de campos já existentes para facilitar a análise. 
Normalmente, os dados são colocados em um formato relacional, e várias tabelas podem ser 
combinadas em uma etapa de desnormalização. 
 
 
 
 
 
 
 
 
 
IFMT/2023
Sobre as etapas do processo de descoberta de conhecimento e mineração de dados (KDD, 
Knowledge Discovery and Data Mining), numere a coluna da direita de acordo com a coluna da 
esquerda: 
1. Seleção de dados 2. Limpeza de dados 3.Mineração de dados 4. Avaliação 
( 3 ) São aplicados algoritmos para extração de características dos dados. 
( 1 ) O subconjunto objetivado dos dados e os atributos de interesse são identificados 
examinando-se o conjunto de dados bruto inteiro. 
( 4 ) Os padrões são apresentados para os usuários em uma forma inteligível. 
( 2 ) Ruído e exceções são removidos, valores de campo são transformados em unidades 
comuns e alguns campos são criados pela combinação de campos já existentes para facilitar a 
análise. Normalmente, os dados são colocados em um formato relacional, e várias tabelas 
podem ser combinadas em uma etapa de desnormalização. 
 
 
 
 
 
 
 
 
 
FUNDATEC/2023
Qual é a etapa de modelagem da metodologia CRISP-DM na qual 
são tratados os valores nulos e pode ser necessário fazer fusão 
com outros dados? 
A Entendimento do Negócio. 
B Preparação de Dados.
C Modelagem. 
D Avaliação.
E Implementação. 
 
 
 
 
 
 
 
 
 
FUNDATEC/2023
Qual é a etapa de modelagem da metodologia CRISP-DM na qual 
são tratados os valores nulos e pode ser necessário fazer fusão 
com outros dados? 
A Entendimento do Negócio. 
B Preparação de Dados.
C Modelagem. 
D Avaliação.
E Implementação. 
 
 
 
 
 
 
 
 
 
Quadrix/2023
Modelagem e avaliação são algumas das fases do ciclo do 
CRISP-DM. 
 
 
 
 
 
 
 
 
 
Quadrix/2023
Modelagem e avaliação são algumas das fases do ciclo do 
CRISP-DM. 
certa
 
 
 
 
 
 
 
 
 
Quadrix/2023
A inteligência artificial refere-se a um campo de conhecimento 
que não está associado à aprendizagem, uma vez que esta é uma 
capacidade puramente humana; contudo, este campo está 
associado à linguagem e à inteligência, ao raciocínio e à resolução 
de problemas.
 
 
 
 
 
 
 
 
 
Quadrix/2023
A inteligência artificial refere-se a um campo de conhecimento 
que não está associado à aprendizagem, uma vez que esta é uma 
capacidade puramente humana;contudo, este campo está 
associado à linguagem e à inteligência, ao raciocínio e à resolução 
de problemas.
errada
Engenharia de Dados
#BigData, NoSQL
 
 
 
 
 
 
 
 
 
O que fazer com o dado?
Modern Data Architecture: An Overview of 
Lambda and Kappa Architectures | Credera
https://www.credera.com/insights/modern-data-architecture-an-overview-of-lambda-and-kappa-architectures
https://www.credera.com/insights/modern-data-architecture-an-overview-of-lambda-and-kappa-architectures
 
 
 
 
 
 
 
 
 
O que fazer com o dado?
CQM - Big data toepassing in de praktijk
https://cqm.nl/nl/nieuws/big-data-toepassing-in-de-praktijk
Prof. Raphael Lacerda
https://seedscientific.com/how-much-data-is-created-every-day/
https://blog.microfocus.com/how-much-data-is-created-on-the-internet-each-day/
"Data is the new oil"
https://seedscientific.com/how-much-data-is-created-every-day/
https://blog.microfocus.com/how-much-data-is-created-on-the-internet-each-day/
Prof. Raphael Lacerda
"Data is the new oil"
http://www.youtube.com/watch?v=VLAnBI2B4OY
Prof. Raphael Lacerda
"Data is the new oil"
https://www.weforum.org/agenda/2019/04/how-much-data-is-generated-each-day-cf4bddf29f/
https://www.weforum.org/agenda/2019/04/how-much-data-is-generated-each-day-cf4bddf29f/
 
 
 
 
 
 
 
 
 
5 v's
The 5 V’s of Big Data. Volume, 
Velocity, Variety, Veracity… | by 
Surya Gutta | Analytics Vidhya 
(medium.com)
https://medium.com/analytics-vidhya/the-5-vs-of-big-data-2758bfcc51d
https://medium.com/analytics-vidhya/the-5-vs-of-big-data-2758bfcc51d
https://medium.com/analytics-vidhya/the-5-vs-of-big-data-2758bfcc51d
https://medium.com/analytics-vidhya/the-5-vs-of-big-data-2758bfcc51d
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
No âmbito da ciência de dados na definição de Big Data, utilizam-se 
características ou atributos que alguns pesquisadores adotam como 
sendo os cinco Vs. Porém, a base necessária para o reconhecimento 
de Big Data é formada por três propriedades:
A valor, velocidade e volume.
B valor, veracidade e volume.
C variedade, velocidade e volume.
D variedade, valor e volume.
E velocidade, veracidade e volume.
Prof. Raphael Lacerda
Cespe/SEFAZ-BA/2019
 
 
 
 
 
 
 
 
 
“Atualmente, no contexto do Big Data e Data Analytics, faz-se referência às características enunciadas por pesquisadores 
e produtores de soluções como sendo um conjunto de cinco Vs. Originalmente, a definição clássica de Big Data fez 
referência a três Vs fundamentais: _____, _____ e _____ de dados que demandam formas inovadoras e rentáveis de 
processamento da informação, para melhor percepção e tomada de decisão.”
Assinale a opção cujos itens completam corretamente as lacunas do fragmento acima, na ordem apresentada.
A valor – variança – veracidade.
B validade – velocidade – vocabulário.
C valor – variabilidade – viscosidade.
D variedade – velocidade – volume. 
E valor – volatilidade – volume
FGV/SEFAZ-AM/2022
 
 
 
 
 
 
 
 
 
Cespe/SERPRO/2021
Big data caracteriza-se, principalmente, por volume, variedade e 
velocidade, o que se justifica devido ao fato de os dados serem 
provenientes de sistemas estruturados, que são maioria, e de 
sistemas não estruturados, os quais, embora ainda sejam minoria, 
vêm, ao longo dos anos, crescendo consideravelmente.
 
 
 
 
 
 
 
 
 
Cespe/SERPRO/2021
No que se refere aos três Vs do big data, o termo volume 
refere-se a dados que, atualmente, não são estruturados nem 
armazenados em tabelas relacionais, o que torna sua análise mais 
complexa.
@canetas.pretas
STORYTELLING
http://instagram.com/estrategiaconcursosti
 
 
 
 
 
 
 
 
 
Como uma história deve ser contada?
“o sucesso da visualização de dados não 
começa com a visualização de dados”. 
Antes disso, deve-se haver uma 
preocupação em entender o contexto e 
qual é a real necessidade do público-alvo
● Como sumarizar um conjunto de 
números muito grande?
○ Resposta: ver figuras desses números
 
 
 
 
 
 
 
 
 
Análise Exploratória
● resumir as características de um dataset usando meios visuais
● responsabilidade do profissional que faz a análise / 
intransferível
● Técnicas: histograma, pareto, PCA, dispersão
Análise Exploratória: primeiros passos | AluraAnálise exploratória de dados – Wikipédia, a enciclopédia 
livre (wikipedia.org)
https://www.alura.com.br/artigos/analise-exploratoria?gclid=CjwKCAjwsvujBhAXEiwA_UXnAIY4qQKs0msKcIadjS05_fsZSQZozIUnTCs0P7yu_EJrRfwTKHGGVxoCV-sQAvD_BwE
https://pt.wikipedia.org/wiki/An%C3%A1lise_explorat%C3%B3ria_de_dados
https://pt.wikipedia.org/wiki/An%C3%A1lise_explorat%C3%B3ria_de_dados
 
 
 
 
 
 
 
 
 
Análise Exploratória
“Quando fazemos uma 
análise exploratória, é como 
procurar pérolas em ostras. 
Talvez precisemos de 100 
ostras para encontrarmos 
duas pérolas”.
 
 
 
 
 
 
 
 
 
Explanatória
● transformar os dados em informações que possam ser 
consumidas por um público
●
Menos é mais: análise exploratória x análise explanatória | by Letícia Gerola | Joguei 
os Dados | Medium
Na hora de comunicar a análise, a história que você 
deseja contar não é sobre as 100 ostras — mas sim 
sobre as duas pérolas garimpadas no processo. 
Contar sobre as pérolas é explanar a sua análise
Análise Explanatória: Você não precisa 
contar sobre tudo que viu | by César 
Germano | Data Hackers | Medium
https://medium.com/joguei-os-dados/menos-%C3%A9-mais-an%C3%A1lise-explorat%C3%B3ria-x-an%C3%A1lise-explanat%C3%B3ria-6d6c491e70cc
https://medium.com/joguei-os-dados/menos-%C3%A9-mais-an%C3%A1lise-explorat%C3%B3ria-x-an%C3%A1lise-explanat%C3%B3ria-6d6c491e70cc
https://medium.com/data-hackers/an%C3%A1lise-explanat%C3%B3ria-voc%C3%AA-n%C3%A3o-precisa-contar-sobre-tudo-que-viu-ecb0255cc3ac
https://medium.com/data-hackers/an%C3%A1lise-explanat%C3%B3ria-voc%C3%AA-n%C3%A3o-precisa-contar-sobre-tudo-que-viu-ecb0255cc3ac
https://medium.com/data-hackers/an%C3%A1lise-explanat%C3%B3ria-voc%C3%AA-n%C3%A3o-precisa-contar-sobre-tudo-que-viu-ecb0255cc3ac
@canetas.pretas
NOSQL
http://instagram.com/estrategiaconcursosti
 
 
 
 
 
 
 
 
 
Bancos relacionais
● ACID
● Consistência / integridade referencial
● SQL
● Normalização
● Ferramentas
● Know How
● Atende à maioria dos problemas
● escalabilidade vertical
● fácil de gerencial
● backups facilitados
 
 
 
 
 
 
 
 
 
NoSQL, Por que?
● BigData
● dados distribuídos
● escalabilidade horizontal
● sharding por default
● diferentes formatos
● schema free
● ausência de SQL
● ACID vs escalabilidade
● iOT
● velocidade de acesso
● full text search
● cluster de dados
● integridade nem sempre será possível
● baixo know how
Prof. Raphael Lacerda
timeline
pages.di.unipi.it/turini/Basi di 
Dati/Slides/11.NoSQL-slides.pdf
Comprehensive NoSQL Tutorial For 
Beginners (digitalvidya.com)
SQL and NoSQL evolution | Mastering 
MongoDB 3.x (packtpub.com)
NoSQL Relational Database Management 
System: Home Page (strozzi.it)
http://pages.di.unipi.it/turini/Basi%20di%20Dati/Slides/11.NoSQL-slides.pdf
http://pages.di.unipi.it/turini/Basi%20di%20Dati/Slides/11.NoSQL-slides.pdf
https://www.digitalvidya.com/blog/nosql-tutorial/
https://www.digitalvidya.com/blog/nosql-tutorial/
https://subscription.packtpub.com/book/web-development/9781783982608/1/ch01lvl1sec03/sql-and-nosql-evolution
https://subscription.packtpub.com/book/web-development/9781783982608/1/ch01lvl1sec03/sql-and-nosql-evolution
http://www.strozzi.it/cgi-bin/CSA/tw7/I/en_US/NoSQL/Home%20Page
http://www.strozzi.it/cgi-bin/CSA/tw7/I/en_US/NoSQL/Home%20Page
Prof. Raphael Lacerda
NoSQL Ele pode ser interpretado de forma 
literal como “não SQL” (ausência 
de linguagem SQL) ou como “Not 
Only SQL” (Não Apenas SQL), 
apesar de Sadalage e Fowler 
(2019) recomendarem apenas o 
uso de NoSQL, pois até mesmo 
bancos de dados tradicionais, 
como Oracle e Postgres, poderiam 
se enquadrar nessa classificação.
B1806040612.pdf (iosrjournals.org)
NoSQL: What's in a name? | Blog 
(sym-link.com)
DB-Engines Ranking - popularity ranking of 
database management systems
A Brief History ofNoSQL - All About the Code 
(knuthaugen.no)
https://www.iosrjournals.org/iosr-jce/papers/Vol18-issue6/Version-4/B1806040612.pdf
https://blog.sym-link.com/posts/2009/30/nosql_whats_in_a_name/
https://blog.sym-link.com/posts/2009/30/nosql_whats_in_a_name/
https://db-engines.com/en/ranking
https://db-engines.com/en/ranking
http://blog.knuthaugen.no/2010/03/a-brief-history-of-nosql.html
http://blog.knuthaugen.no/2010/03/a-brief-history-of-nosql.html
Prof. Raphael Lacerda
NoSQL
https://micreiros.com/tipos-de-bancos-de-dados-nosql/
https://micreiros.com/tipos-de-bancos-de-dados-nosql/
Prof. Raphael Lacerda
 Teorema
 CAP
https://autociencia.blogspot.com/2020/01/scylladb-um-banco-de-dados-nosql-big-data.html
https://blog.caelum.com.br/nosql-do-teorema-cap-para-paccl/
https://autociencia.blogspot.com/2020/01/scylladb-um-banco-de-dados-nosql-big-data.html
https://blog.caelum.com.br/nosql-do-teorema-cap-para-paccl/
 
 
 
 
 
 
 
 
 
FGV/RFB/2023
No âmbito de bancos dados, especialmente NoSQL, o Teorema CAP sustenta 
que há três requerimentos básicos que existem numa relação especial quando 
se projeta uma aplicação com uma arquitetura distribuída. Basicamente, 
respalda a tese de que não se pode obter os três simultaneamente.
Esses três requerimentos são
(A) Consistency, Atomic transactions e Partition. (B) Concurrency Partition, 
Availability e Tolerance. (C) Consistency, Availability e Partition Tolerance. (D) 
Consistency, Atomic transactions e Persistency. (E) Caching, Availability e 
Persistency.
 
 
 
 
 
 
 
 
 
FGV/RFB/2023
Bancos de dados NoSQL são usualmente divididos em categorias de 
store.
Assinale a opção que apresenta o tipo de store que privilegia 
velocidade, capacidade de leitura e escrita e estruturas de dados 
flexíveis, sem a necessidade de esquemas estabelecidos previamente.
(A) Document. (B) Key Value.
(C) Wide-Column. (D) Graph.
(E) Full Text.
 
 
 
 
 
 
 
 
 
FGV/RFB/2023
Bancos de dados NoSQL são usualmente divididos em categorias de 
store.
Assinale a opção que apresenta o tipo de store que privilegia 
velocidade, capacidade de leitura e escrita e estruturas de dados 
flexíveis, sem a necessidade de esquemas estabelecidos previamente.
(A) Document. (B) Key Value.
(C) Wide-Column. (D) Graph.
(E) Full Text.
 
 
 
 
 
 
 
 
 
CESGRANRIO/BB/2023
Considere um cenário no qual uma empresa de investi- mentos financeiros tenha realizado uma campanha 
para que seus colaboradores indicassem outras pessoas que pudessem vir a estar interessadas em seus 
produtos e serviços. Esses colaboradores também foram estimula- dos a informar a sua ligação com as 
pessoas indicadas (ex: amigo, irmão, primo) e as eventuais ligações entre as pessoas indicadas. Estes 
relacionamentos são impor- tantes para a definição da próxima campanha dessa em- presa.
O banco de dados NoSQL mais indicado para representar esses dados é o que utiliza o modelo
(A) relacional
(B) chave/valor
(C) orientado a grafos
(D) orientado a documentos (E) orientado a colunas
 
 
 
 
 
 
 
 
 
CESGRANRIO/BB/2023
Considere um cenário no qual uma empresa de investi- mentos financeiros tenha realizado uma campanha 
para que seus colaboradores indicassem outras pessoas que pudessem vir a estar interessadas em seus 
produtos e serviços. Esses colaboradores também foram estimula- dos a informar a sua ligação com as 
pessoas indicadas (ex: amigo, irmão, primo) e as eventuais ligações entre as pessoas indicadas. Estes 
relacionamentos são impor- tantes para a definição da próxima campanha dessa em- presa.
O banco de dados NoSQL mais indicado para representar esses dados é o que utiliza o modelo
(A) relacional
(B) chave/valor
(C) orientado a grafos
(D) orientado a documentos (E) orientado a colunas
 
 
 
 
 
 
 
 
 
O Mongo DB é citado frequentemente como um dos bancos de 
dados não relacionais (NoSQL) mais utilizados no mundo.
Assinale a opção que apresenta o elemento disponível nesse 
sistema que mais se assemelha à ideia de tabela relacional.
(A) Cluster. (B) Collection. (C) Database. (D) Document. (E) Index.
FGV/SEFAZ-MT/2023
 
 
 
 
 
 
 
 
 
O Mongo DB é citado frequentemente como um dos bancos de 
dados não relacionais (NoSQL) mais utilizados no mundo.
Assinale a opção que apresenta o elemento disponível nesse 
sistema que mais se assemelha à ideia de tabela relacional.
(A) Cluster. (B) Collection. (C) Database. (D) Document. (E) Index.
FGV/SEFAZ-MT/2023
https://www.mongodb.com/docs/ma
nual/reference/sql-comparison/
https://www.mongodb.com/docs/manual/reference/sql-comparison/
https://www.mongodb.com/docs/manual/reference/sql-comparison/
Prof. Raphael Lacerda
FGV/CGU/2021
Sobre o MongoDB v5.0, considere as afirmativas a seguir.
I. Todos os documentos de uma coleção (collection) devem possuir o mesmo número de campos 
(fields).
II. Um campo presente em diferentes documentos de uma collection pode ter diferentes tipos de 
dados ao longo dos documentos.
III. MongoDB oferece a capacidade de validar esquemas durante operações de inserção (insertion) 
e atualização (update). Está correto o que se afirma em:
A somente I;
B somente III;
C somente I e II;
D somente II e III; 
E I, II e III.
Prof. Raphael Lacerda
FGV/CGU/2021
Sobre o MongoDB v5.0, considere as afirmativas a seguir.
I. Todos os documentos de uma coleção (collection) devem possuir o mesmo número de campos 
(fields).
II. Um campo presente em diferentes documentos de uma collection pode ter diferentes tipos de 
dados ao longo dos documentos.
III. MongoDB oferece a capacidade de validar esquemas durante operações de inserção (insertion) 
e atualização (update). Está correto o que se afirma em:
A somente I;
B somente III;
C somente I e II;
D somente II e III; 
E I, II e III.
 
 
 
 
 
 
 
 
 
Cespe/2022
Nos sistemas orientados a documentos NoSQL, como o 
MongoDB, os novos documentos devem ter elementos de dados 
que já existem em documentos atuais da coleção.
 
 
 
 
 
 
 
 
 
Cespe/2022
Nos sistemas orientados a documentos NoSQL, como o 
MongoDB, os novos documentos devem ter elementos de dados 
que já existem em documentos atuais da coleção.
ERRADA
 
 
 
 
 
 
 
 
 
Ecossistema
Hadoop Ecosystem and Their 
Components - A Complete Tutorial - 
DataFlair (data-flair.training)
https://data-flair.training/blogs/hadoop-ecosystem-components/
https://data-flair.training/blogs/hadoop-ecosystem-components/
https://data-flair.training/blogs/hadoop-ecosystem-components/
 
 
 
 
 
 
 
 
 
No contexto do Hadoop MapReduce Framework, assinale o ciclo típico de tipos de entradas e 
saídas (input and output) em uma tarefa.
a) (input) <k1, v1> -> filter -> <k2, v2> -> sort -> <k3, v3> -> mapreduce -> <k3, v3> (output)
b) (input) <k1, v1> -> map -> <k1, v1> -> reduce -><k2, v2> (output)
c) (input) <k1, v1> -> map -> <k2, v2> -> combine -> <k2, v2> -> reduce <k3, v3> (output)
d) (input) <k1, v1> -> map -> <k2, v2> -> filter -> <k3, v3> -> reduce -> <k4,v4> (output)
e) (input) <k1, v1> -> sort -> <k2, v2> -> map -> <k3, v3> -> reduce -> <k4, v4> (output)
FGV/SEFAZ-MT/2023
 
 
 
 
 
 
 
 
 
No contexto do Hadoop MapReduce Framework, assinale o ciclo típico de tipos de entradas e 
saídas (input and output) em uma tarefa.
a) (input) <k1, v1> -> filter -> <k2, v2> -> sort -> <k3, v3> -> mapreduce -> <k3, v3> (output)
b) (input) <k1, v1> -> map -> <k1, v1> -> reduce -><k2, v2> (output)
c) (input) <k1, v1> -> map -> <k2, v2> -> combine -> <k2, v2> -> reduce <k3, v3> (output)
d) (input) <k1, v1> -> map -> <k2, v2> -> filter -> <k3, v3> -> reduce -> <k4,v4> (output)
e) (input) <k1, v1> -> sort -> <k2, v2> -> map -> <k3, v3> -> reduce -> <k4, v4> (output)
FGV/SEFAZ-MT/2023
 
 
 
 
 
 
 
 
 
FGV/RFB/2023
Assinale a opção que melhor descreve a diferença entre os frameworks Apache Spark e Apache Hadoop, no contexto do 
processamento de Big Data.
(A) O processamento de dados no Spark é mais rápido do que no Hadoop, pois ele é baseado em memória e utiliza 
RDDs, enquanto o Hadoop é baseadoem disco e utiliza MapReduce.
(B) O processamento de dados no Hadoop é mais rápido do que no Spark, pois o Hadoop é mais escalável e utiliza 
clusters maiores, enquanto o Spark é limitado pelo tamanho do cluster.
(C) O Spark é mais adequado para cargas de trabalho mais pesadas, enquanto o Hadoop é melhor para cargas de 
trabalho mais leves e interativas.
(D) O Spark e o Hadoop utilizam as mesmas técnicas de processamento de dados, mas o Spark é mais adequado para 
casos de uso em que a latência é um fator crítico, enquanto o Hadoop é mais adequado para casos de uso em que a 
capacidade de processamento em lote é mais importante
(E) O Hadoop é uma tecnologia mais recente que oferece melhorias, em relação ao Spark, em termos de desempenho e 
velocidade de processamento.
 
 
 
 
 
 
 
 
 
FGV/RFB/2023
Assinale a opção que melhor descreve a diferença entre os frameworks Apache Spark e Apache Hadoop, no contexto do 
processamento de Big Data.
(A) O processamento de dados no Spark é mais rápido do que no Hadoop, pois ele é baseado em memória e utiliza 
RDDs, enquanto o Hadoop é baseado em disco e utiliza MapReduce.
(B) O processamento de dados no Hadoop é mais rápido do que no Spark, pois o Hadoop é mais escalável e utiliza 
clusters maiores, enquanto o Spark é limitado pelo tamanho do cluster.
(C) O Spark é mais adequado para cargas de trabalho mais pesadas, enquanto o Hadoop é melhor para cargas de 
trabalho mais leves e interativas.
(D) O Spark e o Hadoop utilizam as mesmas técnicas de processamento de dados, mas o Spark é mais adequado para 
casos de uso em que a latência é um fator crítico, enquanto o Hadoop é mais adequado para casos de uso em que a 
capacidade de processamento em lote é mais importante
(E) O Hadoop é uma tecnologia mais recente que oferece melhorias, em relação ao Spark, em termos de desempenho e 
velocidade de processamento.
 
 
 
 
 
 
 
 
 
FUNDATEC/2023
Sobre Apache Spark, analise as assertivas abaixo e assinale a alternativa correta.
I. De forma geral, o Spark é uma engine rápida, escrita em Scala, para processamento 
de grandes volumes de dados em um cluster de computadores.
II. Scala é uma linguagem funcional que roda na JVM.
III. O Spark, assim como o Hadoop, também foi pensado para ser escalável.
IV. Umas das grandes vantagens do Spark em relação ao Hadoop são as High Level 
API’s de programação. Enquanto que o Hadoop é nativamente apenas Java, no Spark, 
temos a disposição API ’s em Scala, Java e Python.
 
 
 
 
 
 
 
 
 
FUNDATEC/2023
Sobre Apache Spark, analise as assertivas abaixo e assinale a alternativa correta.
I. De forma geral, o Spark é uma engine rápida, escrita em Scala, para processamento 
de grandes volumes de dados em um cluster de computadores.
II. Scala é uma linguagem funcional que roda na JVM.
III. O Spark, assim como o Hadoop, também foi pensado para ser escalável.
IV. Umas das grandes vantagens do Spark em relação ao Hadoop são as High Level 
API’s de programação. Enquanto que o Hadoop é nativamente apenas Java, no 
Spark, temos a disposição API ’s em Scala, Java e Python.
 
 
 
 
 
 
 
 
 
SEFAZ-MG/2023
Matei Zaharia et al. propuseram o framework Spark como alternativa para processar workloads que reutilizam dados 
através de múltiplas operações paralelas.
As opções a seguir apresentam características do framework Spark, à exceção de uma. Assinale-a.
A Spark oferece suporte a dois tipos restritos de variáveis compartilhadas: broadcast e accumulators.
B Spark prove três principais abstrações para a programação paralela: RDDs, operações paralelas, e operações de 
comunicação.
C Os RDDs suportam tolerância a falhas por meio do conceito de linhagem (lineage).
D Os usuários podem explicitamente armazenar RDDs em cache na memória entre um conjunto de máquinas e 
reutilizá-lo em várias operações paralelas.
E RDDs (resilient distributed datasets) ou conjunto de dados distribuído resiliente é uma coleção de objetos de só leitura 
particionados em um conjunto de máquinas e pode ser reconstruído caso alguma partição for perdida.
 
 
 
 
 
 
 
 
 
SEFAZ-MG/2023
Matei Zaharia et al. propuseram o framework Spark como alternativa para processar workloads que reutilizam dados 
através de múltiplas operações paralelas.
As opções a seguir apresentam características do framework Spark, à exceção de uma. Assinale-a.
A Spark oferece suporte a dois tipos restritos de variáveis compartilhadas: broadcast e accumulators.
B Spark prove três principais abstrações para a programação paralela: RDDs, operações paralelas, e operações de 
comunicação.
C Os RDDs suportam tolerância a falhas por meio do conceito de linhagem (lineage).
D Os usuários podem explicitamente armazenar RDDs em cache na memória entre um conjunto de máquinas e 
reutilizá-lo em várias operações paralelas.
E RDDs (resilient distributed datasets) ou conjunto de dados distribuído resiliente é uma coleção de objetos de só leitura 
particionados em um conjunto de máquinas e pode ser reconstruído caso alguma partição for perdida.
 
 
 
 
 
 
 
 
 
CEspe/AGER/2023
O volume de informações digitais heterogêneas sobre processos judiciais está crescendo 
diariamente, especialmente quando correlações com bases de dados de outros contextos são 
criadas. Observe o seguinte exemplo de representação gráfica de uma pequena amostra do 
dataset ProcessosJudiciais, contendo nós, arestas e propriedades, armazenado em um banco 
de dados massivo. Imagem associada para resolução da questão
Para armazenar o dataset ProcessosJudiciais exemplificado, é necessário utilizar um banco de 
dados: 
A ágil;
B de grafos;
C chave-valor;
D orientado a objeto;
E orientado a documentos.
 
 
 
 
 
 
 
 
 
CEspe/AGER/2023
O volume de informações digitais heterogêneas sobre processos judiciais está crescendo 
diariamente, especialmente quando correlações com bases de dados de outros contextos são 
criadas. Observe o seguinte exemplo de representação gráfica de uma pequena amostra do 
dataset ProcessosJudiciais, contendo nós, arestas e propriedades, armazenado em um banco 
de dados massivo. Imagem associada para resolução da questão
Para armazenar o dataset ProcessosJudiciais exemplificado, é necessário utilizar um banco de 
dados: 
A ágil;
B de grafos;
C chave-valor;
D orientado a objeto;
E orientado a documentos.
Ciência de Dados
Prof. Raphael Lacerda
Árvores de Decisão
https://www.youtube.com/watch?v=E-gpSQQe3w8
Muthu Alagappan at 
TEDxSpokane
Prof. Raphael Lacerda
Classificação
https://www.youtube.com/watch?v=E-gpSQQe3w8
Técnicas - Classificação
Prof. Raphael Lacerda
https://bolapresa.com.br/as-13
-posicoes-do-basquete/
https://bolapresa.com.br/as-13-posicoes-do-basquete/
https://bolapresa.com.br/as-13-posicoes-do-basquete/
Prof. Raphael Lacerda
Regressão / Predição
https://shottracker.co
m/articles/the-3-point
-revolution
https://shottracker.com/articles/the-3-point-revolution
https://shottracker.com/articles/the-3-point-revolution
https://shottracker.com/articles/the-3-point-revolution
Prof. Raphael Lacerda
Regressão / Predição
Prof. Raphael Lacerda
Associação
Prof. Raphael Lacerda
Agrupamento
clusterização em SC
Prof. Raphael Lacerda
https://www.aquare.la/inteligencia-artificial-aplicada-as-obras-de-santa-catarina/
https://www.aquare.la/inteligencia-artificial-aplicada-as-obras-de-santa-catarina/
clusterização em SC
Prof. Raphael Lacerda
https://www.aquare.la/inteligencia-artificial-aplicada-as-obras-de-santa-catarina/
https://www.aquare.la/inteligencia-artificial-aplicada-as-obras-de-santa-catarina/
 
 
 
 
 
 
 
 
 
Cespe/DPE-RO/2022
Em um processo de data mining, na construção de relações sob a forma 
de regras entre itens de uma base de dados transacional, é usada a 
técnica denominada
A clustering. 
B regras de associação. 
C hierarquias de classificação.
D padrões sequenciais.
E padrões em séries temporais.
 
 
 
 
 
 
 
 
 
FGV/SEFAZ-AM/2022
O tipo de aprendizado máquina, que consiste em treinar um sistema a partirde dados que não 
estão rotulados e/ou classificados e utilizar algoritmos que buscam descobrir padrões ocultos 
que agrupam as informações de acordo com semelhanças ou diferenças, é denominado 
A dinâmico.
B sistêmico.
C por reforço.
D supervisionado.
E não supervisionado. 
Prof. Raphael Lacerda
FGV/SEFAZ-ES/2021
Maria está preparando um relatório sobre as empresas de serviços de um município, de 
modo a identificar e estudar o porte dessas empresas com vistas ao estabelecimento de 
políticas públicas e previsões de arrecadação. Maria pretende criar nove grupos de 
empresas, de acordo com os valores de faturamento, e recorreu às técnicas usualmente 
empregadas em procedimentos de data mining para estabelecer as faixas de valores de cada 
grupo. Assinale a opção que apresenta a técnica diretamente aplicável a esse tipo de 
classificação.
A Algoritmos de associação.
B Algoritmos de clusterização.
C Árvores de decisão.
D Modelagem de dados.
E Regressão linear.
 
 
 
 
 
 
 
 
 
FUNDATEC/2023
Relacione a Coluna 1 à Coluna 2, associando as categorias de aprendizado de máquina às suas 
características. 
Coluna 1 1. Aprendizado Supervisionado. 2. Aprendizado Não Supervisionado. 3. Aprendizado Profundo. 
Coluna 2 
( ) O algoritmo recebe um conjunto de dados rotulados e aprende comparando a saída do modelo com a 
saída esperada, reajustando seus parâmetros até chegar em um limiar aceitável e pré-determinado a priori. 
( ) Os algoritmos buscam encontrar padrões ou estruturas em conjuntos de dados não rotulados, por 
exemplo, gerando agrupamentos de dados. 
( ) Conjunto de algoritmos que modelam abstrações de alto nível de dados usando grafos com várias 
camadas de processamento, compostas de várias transformações lineares e não lineares. 
( ) Processo de aprendizado baseado em redes neurais com várias camadas (em geral, mais de cinco 
camadas): entrada, saída e oculta. 
A ordem correta de preenchimento dos parênteses, de cima para baixo, é:
 
 
 
 
 
 
 
 
 
FUNDATEC/2023
Relacione a Coluna 1 à Coluna 2, associando as categorias de aprendizado de máquina às suas 
características. 
Coluna 1 1. Aprendizado Supervisionado. 2. Aprendizado Não Supervisionado. 3. Aprendizado Profundo. 
Coluna 2 
( 1) O algoritmo recebe um conjunto de dados rotulados e aprende comparando a saída do modelo com a 
saída esperada, reajustando seus parâmetros até chegar em um limiar aceitável e pré-determinado a priori. 
(2 ) Os algoritmos buscam encontrar padrões ou estruturas em conjuntos de dados não rotulados, por 
exemplo, gerando agrupamentos de dados. 
( 3) Conjunto de algoritmos que modelam abstrações de alto nível de dados usando grafos com várias 
camadas de processamento, compostas de várias transformações lineares e não lineares. 
( 3) Processo de aprendizado baseado em redes neurais com várias camadas (em geral, mais de cinco 
camadas): entrada, saída e oculta. 
A ordem correta de preenchimento dos parênteses, de cima para baixo, é:
 
 
 
 
 
 
 
 
 
CEspe/AGER/2023
Em machine learning, quando algoritmos de aprendizado de 
máquina são usados para analisar e agrupar conjuntos de dados 
não rotulados, de forma tal que os algoritmos descobrem padrões 
ocultos sem a necessidade de intervenção humana, usa-se a forma 
de aprendizado do tipo 
A não supervisionado. 
B supervisionado. 
C over fitting. 
D under fitting. 
E classificação.
 
 
 
 
 
 
 
 
 
CESPE/AGER/2023
Em machine learning, quando algoritmos de aprendizado de 
máquina são usados para analisar e agrupar conjuntos de dados 
não rotulados, de forma tal que os algoritmos descobrem padrões 
ocultos sem a necessidade de intervenção humana, usa-se a forma 
de aprendizado do tipo 
A não supervisionado. 
B supervisionado. 
C over fitting. 
D under fitting. 
E classificação.
 
 
 
 
 
 
 
 
 
Cesngrario/BB/2023
Sabendo que existe, na organização em que trabalha, uma base de dados formada 
por uma grande tabela que contém apenas o id do cliente e colunas do tipo 
booleano indicando se um cliente possuía ou já tinha possuído cada produto da 
organização, um funcionário de TI resolveu dividir os clientes em grupos apenas com 
base nessa informação, utilizando aprendizado de máquina. 
Para essa tarefa, o funcionário de TI deve utilizar o aprendizado de máquina
A independente
B não supervisionado
C por recompensa 
D por reforço
E supervisionado
 
 
 
 
 
 
 
 
 
Cesngrario/BB/2023
Sabendo que existe, na organização em que trabalha, uma base de dados formada 
por uma grande tabela que contém apenas o id do cliente e colunas do tipo 
booleano indicando se um cliente possuía ou já tinha possuído cada produto da 
organização, um funcionário de TI resolveu dividir os clientes em grupos apenas com 
base nessa informação, utilizando aprendizado de máquina. 
Para essa tarefa, o funcionário de TI deve utilizar o aprendizado de máquina
A independente
B não supervisionado
C por recompensa 
D por reforço
E supervisionado
 
 
 
 
 
 
 
 
 
Fundatec/2023
__________ consiste em uma análise estatística que envolve duas variáveis: a de resposta e a preditiva, e considera que o 
valor da variável de resposta (ou dependente) pode ser estimado por uma combinação de variáveis explicativas 
(dependentes). Já quando a variável de resultado é de natureza categórica, __________ pode ser usada para prever a 
probabilidade de um resultado com base nas variáveis de entrada que podem ser explicativas, contínuas e/ou binárias. 
Assinale a alternativa que preenche, correta e respectivamente, as lacunas do trecho acima.
Alternativas
A
Rede Neural Recorrente – Rede Neural Convolucional
B
Random Forest – K-Means
C
Regressão Linear – Regressão Logística
D
k-Means – k-Nearest Neighbors
E
Suport Vector Machine – Radom Forest
 
 
 
 
 
 
 
 
 
Fundatec/2023
__________ consiste em uma análise estatística que envolve duas variáveis: a de resposta e a preditiva, e considera que o 
valor da variável de resposta (ou dependente) pode ser estimado por uma combinação de variáveis explicativas 
(dependentes). Já quando a variável de resultado é de natureza categórica, __________ pode ser usada para prever a 
probabilidade de um resultado com base nas variáveis de entrada que podem ser explicativas, contínuas e/ou binárias. 
Assinale a alternativa que preenche, correta e respectivamente, as lacunas do trecho acima.
Alternativas
A
Rede Neural Recorrente – Rede Neural Convolucional
B
Random Forest – K-Means
C
Regressão Linear – Regressão Logística
D
k-Means – k-Nearest Neighbors
E
Suport Vector Machine – Radom Forest
 
 
 
 
 
 
 
 
 
FGV/Sefaz-MT/2023
I. Os resultados de um algoritmo de clusterização baseados em grafo são 
normalmente mostrados como um dendrograma.
II. Os métodos baseados em densidade são adequados para descobrir 
clusters com forma arbitrária, tais como elíptica, cilíndrica ou espiralada.
III. K-Means e K-Medaids são algoritmos de clusterização aglomerativa que 
dividen a base de dados em k-grupos, onde o número k é dado pelo usuário.
 
 
 
 
 
 
 
 
 
FGV/Sefaz-MT/2023
I. Os resultados de um algoritmo de clusterização baseados em grafo são 
normalmente mostrados como um dendrograma.
II. Os métodos baseados em densidade são adequados para descobrir 
clusters com forma arbitrária, tais como elíptica, cilíndrica ou espiralada.
III. K-Means e K-Medaids são algoritmos de clusterização aglomerativa que 
dividen a base de dados em k-grupos, onde o número k é dado pelo usuário.
 
 
 
 
 
 
 
 
 
FUNDATEC/2023
__________ é um método de classificação binária que traça um hiperplano ótimo que maximiza a margem 
de separação entre duas classes de dados. A etapa principal do algoritmo é descobrir os vetores que são 
as instâncias equidistantes do hiperplano. 
Assinale a alternativa que preenche corretamente a lacuna do trecho acima.
Alternativas
A
Random Forest 
B
Support Vector Machine (SVM)
C
k-Nearest Neighbors
D
Naïve Bayes 
E
k-Means
 
 
 
 
 
 
 
 
 
FUNDATEC/2023
__________ é um método de classificação binária que traça um hiperplano ótimo

Continue navegando