Como estudar Análise de Dados do ZERO

Análise de Dados

•

Outros

0

Carlos Alexandre

23/08/2023

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 279 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 279 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 279 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Análise de Dados

8.598 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Como estudar Análise de Dados DO
ZERO para Concursos
Professor Raphael Lacerda
Prof. Raphael Lacerda
We have to go back

TCU elevou a barra!

Antes
depois
AGORA EM ÁUDIO TBM!
https://www.youtube.com/watch?v=
asZBepF9vyA
https://www.youtube.com/watch?v=asZBepF9vyA
https://www.youtube.com/watch?v=asZBepF9vyA
AGORA EM ÁUDIO TBM!
(392) Fluência de Dados para Receita
Federal: 5 assuntos que vão cair em prova! -
YouTube
https://www.youtube.com/watch?v=az6Fvctz7Hw&t=2081s
https://www.youtube.com/watch?v=az6Fvctz7Hw&t=2081s
https://www.youtube.com/watch?v=az6Fvctz7Hw&t=2081s
AGORA EM ÁUDIO TBM!
(392) FGV acertou no nível da prova da
RFB? - YouTube
https://www.youtube.com/watch?v=zphPaoINaoI&t=5283s
https://www.youtube.com/watch?v=zphPaoINaoI&t=5283s
AGORA EM ÁUDIO TBM!
https://www.youtube.com/watch?v=
oJ0UkXzlsjY&t=29331s
https://www.youtube.com/watch?v=oJ0UkXzlsjY&t=29331s
https://www.youtube.com/watch?v=oJ0UkXzlsjY&t=29331s
AGORA EM ÁUDIO TBM!
https://www.youtube.com/watch?v=
QTsbUv7ZXFU&t=11227s
https://www.youtube.com/watch?v=QTsbUv7ZXFU&t=11227s
https://www.youtube.com/watch?v=QTsbUv7ZXFU&t=11227s

Prof. Raphael Lacerda
O QUE A
RFB TE
ENSINOU?

Precisamos
elevar nosso "game"
Gestão do Conhecimento
Esquematizado
Prof. raphael lacerda
Dado
Informação
Conhecimento
Inteligência
contextualizado
aplicado/
combinado/
aprendizado
propósito/
ser humano
Prof. Raphael Lacerda
espiral
Prof. Raphael Lacerda
explícito x tácito
Prof. Raphael Lacerda
Dados Estruturados
Prof. Raphael Lacerda
Dados NÃO Estruturados
Prof. Raphael Lacerda
Dados SEMI Estruturados
● Nó raiz
● Toda tag
precisa ser
fechada
● aninhados
adequadame
nte
● atributos
entre ""
● tags case
"sensitive"
● sem tags
● representa as
informações
de forma
mais
compacta
● valor não
pode ser
function, date
e undefinied
● separado por
um
delimitador
● geralmente ,
● HEADER não
é obrigatório
Prof. Raphael Lacerda
Dados SEMI Estruturados
● formatado - basta o
arquivo xml
● & <> " - caracteres
especiais
● válido - externo
(DTD ou XSD)
● chave e valor
● + leve que XML
● não aceita
comentários
● Object ou Array
● todas as linhas
com o mesmo
número de valores
● ideal para dados
estruturados

FGV/2019
Sobre o processo conhecido por espiral do conhecimento, responsável pela gestão do conhecimento em
uma organização, assinale a afirmativa correta.
A Preocupa-se com o gerenciamento de ativos tangíveis da organização, que, apesar de gerar
aprendizado, não trazem benefício econômico para a organização.
B Estimula o conhecimento tácito que é transmitido em linguagem formal, codificada e sistemática.
C Possibilita a socialização, com o objetivo de criar a habilidade necessária para as tarefas e convertê-las
em competência, por meio de reuniões informais.
D Divulga o conjunto de dados e informações que passaram por um tratamento para serem dotados de
relevância e propósito.
E Afirma que o conhecimento explícito pode ser compartilhado por meio de manuais ou documentos,
possibilitando sua internalização pelos funcionários da organização.

FGV/2019
Uma organização iniciou seu processo de gestão do conhecimento. As primeiras ações estruturadas consistiram na
atualização dos manuais de apoio ao atendimento aos clientes, de acordo com a legislação vigente; e na gravação de
vídeos pelos funcionários mais experientes, relatando suas experiências, dando “dicas” sobre atendimento aos clientes,
como material de um treinamento a distância a ser futuramente ministrado aos novos funcionários.
Essas iniciativas representaram, respectivamente, processos de conversão do conhecimento conhecidos como:
A externalização; socialização;
B externalização; internalização;
C combinação; externalização;
D combinação; internalização;
E socialização; externalização.

Cespe/PF/2021
Considere que a Polícia Federal tenha registrado, em determinado período, a
prisão de 1.789 traficantes de drogas pertencentes a facções criminosas,
conforme faixas etárias mostradas no gráfico. Com referência às informações e
ao gráfico precedentes, julgue o item subsecutivo.
O número 1.789 sozinho caracteriza uma informação, independentemente do
contexto.

Considere que a Polícia Federal tenha registrado, em determinado
período, a prisão de 1.789 traficantes de drogas pertencentes a facções
criminosas, conforme faixas etárias mostradas no gráfico. Com
referência às informações e ao gráfico precedentes, julgue o item
subsecutivo.
O número 1.789 sozinho caracteriza uma informação,
independentemente do contexto.
errada
Cespe/PF/2021

Cespe/PF/2021
Os dados estruturados diferenciam-se dos dados não estruturados
pela rigidez em seu formato e pelo fato de poderem ser
armazenados em campos de tabelas de um banco de dados
relacional.

Os dados estruturados diferenciam-se dos dados não estruturados
pela rigidez em seu formato e pelo fato de poderem ser
armazenados em campos de tabelas de um banco de dados
relacional.
certa
Cespe/PF/2021

Cespe/PF/2021
Considere que a Polícia Federal tenha registrado, em determinado período, a
prisão de 1.789 traficantes de drogas pertencentes a facções criminosas,
conforme faixas etárias mostradas no gráfico. Com referência às informações e
ao gráfico precedentes, julgue o item subsecutivo.
Considerando-se a classificação dados, informação, conhecimento e
inteligência, é correto afirmar que o gráfico representa, por si só, a
inteligência.

Considere que a Polícia Federal tenha registrado, em determinado período, a
prisão de 1.789 traficantes de drogas pertencentes a facções criminosas,
conforme faixas etárias mostradas no gráfico. Com referência às informações e
ao gráfico precedentes, julgue o item subsecutivo.
Considerando-se a classificação dados, informação, conhecimento e
inteligência, é correto afirmar que o gráfico representa, por si só, a
inteligência.
errada
Cespe/PF/2021
Banco de Dados
Prof. Raphael Lacerda
De tudo um pouco
Banco de dados
transações, modelagem, normalização, SQL
Prof. Raphael Lacerda
First Things First!!!
Prof. Raphael Lacerda
Houston, wehave a problem!
Prof. Raphael Lacerda
e esses SGBD's?
Prof. Raphael Lacerda
Um banco de dados é uma coleção de registros normalmente
gerenciada por um sistema de busca. Os bancos de dados variam em
seu conteúdo (páginas web, patentes, dados estatísticos, normas
técnicas, periódicos científicos etc.).
EBSERH/2018
Prof. Raphael Lacerda
Um banco de dados é uma coleção de registros normalmente
gerenciada por um sistema de busca. Os bancos de dados variam em
seu conteúdo (páginas web, patentes, dados estatísticos, normas
técnicas, periódicos científicos etc.).
errada
EBSERH/2018
Prof. Raphael Lacerda
MP-AL/2018
O conjunto de programas responsável pelo gerenciamento de uma
base de dados e que, entre outras funções, suporta uma linguagem
de consulta, gera relatórios e disponibiliza uma interface para que os
seus clientes possam incluir, alterar ou consultar dados, é chamado de
A Banco de Dados Relacional (BDR).
B Dicionário de Dados (DD).
C Modelo Entidade Relacionamento (MER).
D Sistema de Suporte à Decisão (SSD).
E Sistema Gerenciador de Bancos de Dados (SGBD).
Prof. Raphael Lacerda
MP-AL/2018
O conjunto de programas responsável pelo gerenciamento de uma
base de dados e que, entre outras funções, suporta uma linguagem
de consulta, gera relatórios e disponibiliza uma interface para que os
seus clientes possam incluir, alterar ou consultar dados, é chamado de
A Banco de Dados Relacional (BDR).
B Dicionário de Dados (DD).
C Modelo Entidade Relacionamento (MER).
D Sistema de Suporte à Decisão (SSD).
E Sistema Gerenciador de Bancos de Dados (SGBD).
As funções de um sistema de gerenciamento de banco de dados
(SGBD) incluem
A gerenciar a integridade de dados, o dicionário e o armazenamento
de dados, bem como a memória do computador enquanto o SGBD
estiver em execução.
B transformar e apresentar dados, controlar o acesso de multiusuário
e prover interfaces de comunicação do banco de dados.
Prof. Raphael Lacerda
Sefaz-RS/2019
Prof. Raphael Lacerda
Sefaz-RS/2019
C gerenciar o becape e a recuperação dos dados, bem como o
escalonamento de processos no processador por meio do banco de
dados.
D gerenciar o sistema de arquivos e a segurança do banco de dados.
E gerenciar a entrada e saída de dispositivos, linguagens de acesso
ao banco de dados e interfaces de programação de aplicações.
Atores
Prof. Raphael Lacerda
Administrador do Banco de dados
Administradores de Dados
Equipe de Desenvolvimento
Usuários Finais
Prof. Raphael Lacerda
Após um banco de dados ser criado, o administrador executa uma
série de tarefas para dar permissão de acesso aos usuários que
necessitam ler e gravar informações na base de dados. A
responsabilidade de gerir os acessos ao banco de dados é do sistema
gerenciador de banco de dados (SGBD).
EBSERH/2018
Prof. Raphael Lacerda
Após um banco de dados ser criado, o administrador executa uma
série de tarefas para dar permissão de acesso aos usuários que
necessitam ler e gravar informações na base de dados. A
responsabilidade de gerir os acessos ao banco de dados é do sistema
gerenciador de banco de dados (SGBD).
certa
EBSERH/2018
Prof. Raphael Lacerda
TCE-ME/2018
Em uma organização, é atribuição da administração de dados
A definir e criar tabelas, índices e outros objetos.
B monitorar e ajustar a performance do banco de dados.
C manter o tempo de resposta do SGBD adequado às expectativas
dos usuários.
D conhecer as características de funcionamento e operação do SGBD
adotado.
E identificar, documentar e modelar os dados que serão armazenados
e gerenciados.
Prof. Raphael Lacerda
TCE-ME/2018
Em uma organização, é atribuição da administração de dados
A definir e criar tabelas, índices e outros objetos.
B monitorar e ajustar a performance do banco de dados.
C manter o tempo de resposta do SGBD adequado às expectativas
dos usuários.
D conhecer as características de funcionamento e operação do SGBD
adotado.
E identificar, documentar e modelar os dados que serão armazenados
e gerenciados.
Prof. Raphael Lacerda
Old, but GOLD
CM-SP/2019
Uma das propriedades básicas de uma transação em um banco de dados relacional
estabelece que cada transação não deve sofrer interferência de outras transações em
execução no banco de dados. Essa propriedade denomina-se
A durabilidade.
B isolamento.
C consistência.
D integridade.
E cardinalidade.
Prof. Raphael Lacerda

No contexto da implementação de bancos de dados, o acrônimo ACID
denota o conjunto de propriedades que devem ser observadas por
sistemas transacionais. Essas quatro propriedades são:
A Amorfabilidade, Concorrência, Integridade e Durabilidade;
B Atomicidade, Consistência, Isolamento e Durabilidade;
C Atualização, Coesão, Inserção e Deleção;
D Auditabilidade, Conformidade, Independência e Distribuição;
E Automação, Concorrência, Integridade e Distribuição.
FGV/TJ-RO/2021

Parte Física - Views, Triggers, Stored Procedures

FGV/CGE-SC/2023
Com relação à VIEW no Microsoft SQL Server, analise as afirmativas a seguir.
I. A view é utilizada para tornar a percepção do usuário mais simplificada e focalizada.
II. Visões são instrumentos de segurança, pois permitem restringir o acesso aos
dados, ou seja, usuários não possuem permissões para acessar as tabelas base.
III. O Objeto view é utilizado para simular versões anteriores de tabelas que teve seu
esquema transformado e assim garantir o pleno funcionamento dos sistemas.
IV. As instruções de SQL UPDATE, DELETE e INSERT são permitidas desde que
realizadas utilizando colunas de uma única tabela base.

FGV/RFB/2023
Considere um banco de dados relacional em que as operações de insert e update efetuadas numa certa
tabela devem ser monitoradas e anotadas, como subsídio aos procedimentos de auditoria da empresa.
Essa tabela é utilizada por uma série de aplicações, em diferentes tipos de transações, e iniciadas por um
número considerável de usuários.
Nesse cenário, assinale o mecanismo mais adequado para a implementação desse monitoramento.
A Cursores.
B Stored procedures.
C Triggers.
D Utilitários de exportação de dados.
E Views.

FGV/RFB/2023
Considere um banco de dados relacional em que as operações de insert e update efetuadas numa certa
tabela devem ser monitoradas e anotadas, como subsídio aos procedimentos de auditoria da empresa.
Essa tabela é utilizada por uma série de aplicações, em diferentes tipos de transações, e iniciadas por um
número considerável de usuários.
Nesse cenário, assinale o mecanismo mais adequado para a implementação desse monitoramento.
A Cursores.
B Stored procedures.
C Triggers.
D Utilitários de exportação de dados.
E Views.
#Modelagem
Prof. Raphael Lacerda
Conceitual(MER) Lógica (MR) Física
entidade, atributo,
relacionamento,
cardinalidade
tabelas, chaves
primárias, estrangeiras
NORMALIZAÇÃO
fisicamente
armazenados, SQL,
índices, views, triggers
Prof. Raphael Lacerda
+1
Modelando problemas
Prof. Raphael Lacerda
Arquitetura 3 esquemas
https://www.estrategiaconcursos.com.br/blog/conceitos-basicos-de-banco-de-dados/
https://www.estrategiaconcursos.com.br/blog/conceitos-basicos-de-banco-de-dados/
MPC-PA/2019
De acordo com as informações do texto 9A1-I, assinale a opção
correta, com relação à leitura das regras do negócio representadas no
modelo apresentado.
A Ao realizar uma reserva, o cliente pode escolher um ou vários
trechos de voo. Existem várias opções de aeronaves para o trecho
reservado.
B Ao realizar uma reserva, o cliente pode escolher um ou vários
trechos de voo, mas existe apenas uma aeronave alocada para o
trecho reservado.
MPC-PA/2019
MPC-PA/2019
C
Ao realizar uma reserva, o cliente pode escolher apenas um trecho de
voo, mas existem várias opções de aeronaves para o trecho
reservado.
D
Um trecho de voo está relacionado a apenas uma reserva.
E
Ao realizar uma reserva, o cliente recebe um único número de
assento, válido para todos os trechos que forem reservados.
De acordo com as informações do texto 9A1-I, assinale a opção
correta, com relação à leitura das regras do negócio representadas no
modelo apresentado.
A Ao realizar uma reserva, o cliente pode escolher um ou vários
trechos de voo. Existem várias opções de aeronaves para o trecho
reservado.
B Ao realizar uma reserva, o cliente pode escolher um ou vários
trechos de voo, mas existe apenas uma aeronave alocada para o
trecho reservado.
MPC-PA/2019

FGV/MPE-SC/2022
Num banco de dados relacional, considere as tabelas T1 e T2, criadas como descrito a seguir.
• T1 tem duas colunas, intituladas A e B, do tipo inteiro; a coluna A é declarada como primary key, e não aceita valores nulos.
• T2 tem duas colunas, intituladas C e A, do tipo inteiro; a coluna C é declarada como primary key, e não aceita valores nulos; a coluna A foi
declarada como UNIQUE, não aceita valores nulos e ainda foi declarada como uma foreign key que referencia a coluna A da tabela T1.
À luz dessa estrutura, é correto afirmar que o relacionamento entre T1 e T2:
A é do tipo 1:1;
B é do tipo 1:N;
C é do tipo N:1;
D é do tipo M:N;
E não pode ser categorizado, pois isso depende das instâncias de cada tabela.

FGV/MPE-SC/2022
Num banco de dados relacional, considere as tabelas T1 e T2, criadas como descrito a seguir.
• T1 tem duas colunas, intituladas A e B, do tipo inteiro; a coluna A é declarada como primary key, e não aceita valores nulos.
• T2 tem duas colunas, intituladas C e A, do tipo inteiro; a coluna C é declarada como primary key, e não aceita valores nulos; a coluna A foi
declarada como UNIQUE, não aceita valores nulos e ainda foi declarada como uma foreign key que referencia a coluna A da tabela T1.
À luz dessa estrutura, é correto afirmar que o relacionamento entre T1 e T2:
A é do tipo 1:1;
B é do tipo 1:N;
C é do tipo N:1;
D é do tipo M:N;
E não pode ser categorizado, pois isso depende das instâncias de cada tabela.
#SQL
Prof. Raphael Lacerda
SQL
TCE-RJ - Análise Informações
Prof. Raphael Lacerda
Operadores no WHERE
= | <> igualdade diferente
> | >= maior que maior igual
< | <= menor que menor igual
>= maior igual
BETWEEN entre datas por exemplos
LIKE padrão de pesquisa
IN múltiplos possíveis valores
SQL
Prof. Raphael Lacerda
Like
a% começa com a
%a termina com a
%a% tem a em qualquer lugar
_a% a na posição 2
a__% começa com a e tem no mínimo 3 posições
Prof. Raphael Lacerda
várias funções
https://pt.wikibooks.org/wiki/SQL/Funções_de_agrega
ção
https://pt.wikibooks.org/wiki/SQL/Fun%C3%A7%C3%B5es_de_agrega%C3%A7%C3%A3o
https://pt.wikibooks.org/wiki/SQL/Fun%C3%A7%C3%B5es_de_agrega%C3%A7%C3%A3o

FGV/MPE-SC/2022
João trabalha na migração para o MySQL de um sistema baseado originalmente no SQL Server.
Nesse contexto, nos comandos SQL que eventualmente utilizem o operador like, João:
A é obrigado a substituir o operador like pelo operador regexp;
B pode manter o comando como está, pois o MySQL interpreta o operador corretamente;
C pode manter o comando, mas deve substituir todas as ocorrências do caractere curinga “%” por “*”;
D pode manter o comando, mas deve substituir todas as ocorrências do caractere curinga “*” por “%”;
E pode manter o comando, mas deve substituir todas as ocorrências do caractere curinga “?” por “_”.

FGV/2022
Considerando-se a instância da tabela T (descrita anteriormente), analise o comando SQL abaixo.
update T
set a = a + 32
where
exists (select * from T t2 where T.c > t2.D)
O número de registros da tabela T afetados pela execução desse comando é:
Alternativas
A zero;
B um;
C dois;
D três;
E quatro.

Lembrando
SELECT P.ID, P.nome FROM produto P WHERE
EXISTS (
SELECT
V.ID_PRODUTO
FROM
venda_produto V
WHERE
V.ID_PRODUTO = P.ID
)
https://www.devmedia.com.br/sql-e
xists/41176
https://www.devmedia.com.br/sql-exists/41176
https://www.devmedia.com.br/sql-exists/41176
#Normalização
Prof. Raphael Lacerda
1 forma 2 forma 3 forma
● valores
atômicos
● sem atributos
multivalorados
● não há
dependência
parcial
● não pode
depender de
parte da
chave
primária
● não há
dependência
transitiva
● deve
depender
única e
exclusivamen
te da chave
primária
Prof. Raphael Lacerda
Resumex!
Prof. Raphael Lacerda
e como ficaria a tabela?
https://www.luis.blog.br/segunda-forma-normal-2fn-normalizacao-de-dados.html
https://www.luis.blog.br/segunda-forma-normal-2fn-normalizacao-de-dados.html
Prof. Raphael Lacerda
BCNF
Todo determinante é
chave candidata
FGV
Prof. Raphael Lacerda
FGV/2020
Durante o projeto de uma base de dados relacional, após o processo
de normalização ter iniciado, se uma relação apresentar chave
primária composta, é correto garantir que esta relação está na
A 1a Forma Normal.
B 2a Forma Normal.
C 3a Forma Normal.
D Forma Normal de Boyce-Codd.
E 4a Forma Normal.
Prof. Raphael Lacerda
FGV/2020
Durante o projeto de uma base de dados relacional, após o processo
de normalização ter iniciado, se uma relação apresentar chave
primária composta, é correto garantir que esta relação está na
A 1a Forma Normal.
B 2a Forma Normal.
C 3a Forma Normal.
D Forma Normal de Boyce-Codd.
E 4a Forma Normal.

Supondo-se que a tabela T (descrita anteriormente) esteja normalizada até a forma
normal Boyce-Codd, a dependência funcional que NÃO se verifica nessa tabela é:
Alternativas
A A → B
B B → D
C C → B
D C → D
E A, D → B
FGV/TCE-AM/2021

Supondo-se que a tabela T (descrita anteriormente) esteja normalizada até a forma
normal Boyce-Codd, a dependência funcional que NÃO se verifica nessa tabela é:
Alternativas
A A → B
B B → D
C C → B
D C → D
E A, D → B
FGV/TCE-AM/2021
#BI
TCE-RJ Análise de Informações
Prof. Raphael Lacerda
BI

Como usar os dados para tomar decisões?
Prof. Raphael Lacerda
organizados,limpos,
preenchidos,
otimizados,
compliance,
padronizados
Recuperar
Prof. Raphael Lacerda
ETL
ETL -
● EXTRACT
● TRANSFORM
● LOAD
Prof. Raphael Lacerda
ELT
https://www.astera.com/pt/type/blog/etl-vs-e
lt-whats-the-difference/
Prof. Raphael Lacerda
ELT
● processo mais ágil para o
carregamento e o
processamento de dados
● reduz consideravelmente o
tempo de carregamento de
dados
● engenheiros de dados focam
apenas nas etapas de extração e
carregamento
● responsabilidade da
transformação de dados fica nas
mãos de profissionais próximos à
empresa
● Dados brutos
TCE-RJ Análise de Informações
Prof. Raphael Lacerda
Modelando
TCE-RJ Análise de Informações
Prof. Raphael Lacerda
Modelando
operações
Prof. Raphael Lacerda

Cespe/2021

Cespe/2021
Todos os elementos descritos em FATO_FREQUÊNCIA fazem
parte de uma única chave primária composta, sendo cada
elemento uma chave estrangeira oriunda de cada dimensão a ela
vinculada

Cespe/2021
Todos os elementos descritos em FATO_FREQUÊNCIA fazem
parte de uma única chave primária composta, sendo cada
elemento uma chave estrangeira oriunda de cada dimensão a ela
vinculada
certa
Prof. Raphael Lacerda
como armazenar?
https://www.grazitti.com/blog/data-lake-vs-data-warehouse-which-one-should-you-go-for/
https://www.grazitti.com/blog/data-lake-vs-data-warehouse-which-one-should-you-go-for/

Cespe/CNMP/2023
Em data warehouse, o conceito de granularidade refere-se ao
nível de detalhe ou resumo existente em uma unidade de dados,
de forma que, quanto mais detalhes, mais alto o nível de
granularidade.

Cespe/CNMP/2023
Em data warehouse, o conceito de granularidade refere-se ao
nível de detalhe ou resumo existente em uma unidade de dados,
de forma que, quanto mais detalhes, mais alto o nível de
granularidade.
errada

Cespe/CNMP/2023
Fatos, dimensões e medidas são elementos essenciais de um data
warehouse.

Cespe/CNMP/2023
Fatos, dimensões e medidas são elementos essenciais de um data
warehouse.
certa

FGV/CGU/2021
Uma organização deseja implementar um pipeline de dados e está avaliando a opção mais adequada para o seu contexto de operação. Em torno de 40% dos dados
consumidos pela organização se encontram em planilhas eletrônicas que contêm dados sensíveis, produzidas semanalmente por suas unidades de negócio. Os outros
60% dos dados se encontram em alguns bancos de dados relacionais de sistemas de produção da organização. O tamanho da base é de moderado a pequeno, mas
existe a necessidade de conformidade com normas de privacidade e confidencialidade dos dados. O objetivo do pipeline é fornecer insumos para um departamento
que realiza análises de dados com métodos não supervisionados de aprendizagem de máquina para elaborar relatórios periódicos mensais. A organização está
avaliando a construção de um Armazém de Dados (ETL) ou de um Lago de Dados (ELT).
A proposta de modelo adequada e corretamente justificada é
A Armazém de Dados. Ambos os modelos são adequados, mas Lago de Dados tem maior latência até a carga (L) e custo maior;
B Armazém de Dados. Esse modelo possui menor latência até a carga (L) e, ao contrário do Lago de Dados, opera de forma eficiente com dados relacionais;
C Armazém de Dados. O processo ETL é mais adequado para o tratamento dos dados sensíveis e os casos de uso são bem conhecidos;
D Lago de Dados. Esse modelo possui menor latência até a carga (L) e permite a extração (E) de dados semiestruturados e não estruturados;
E Lago de Dados. Esse modelo não necessita de hardware especializado e, ao contrário do Armazém de Dados, possibilita tarefas de aprendizado de máquina.

Cespe/2022
Em um data warehousing (DW), a ETL é considerada uma das
fases mais simples, pois se resume à seleção dos dados que farão
parte do DW.

FGV/TRT-13/2023
No contexto da implementação de tecnologias para data mining e
apresentação de dados, a sigla ETL refere-se
A ao processamento de transações on line em ambientes de produção.
B ao processo de identificação de dados e relacionamentos numa
interface de exploração de dados.
C aos processos de criação de índices full text.
D aos processos de extração, transformação e carga de dados.
E às manobras para visualização de dados sobre cubos dimensionais.

FGV/CGE-SC/2023
Avalie se os componentes de um Data Warehouse incluem:
I. Sistemas de origem. II. Infraestrutura de ETL (Extraction-transformation-load). III. Data
Warehouse. IV. Aplicações de Front-end para o usuário final.
Estão corretos os itens
A I e II, apenas.
B III e IV, apenas.
C I, II e III, apenas.
D II, III e IV, apenas.
E I, II, III e IV.

Questão 110
https://cursos.alura.com.br/forum/topic
o-snow-flake-ou-star-schema-quando-
usar-110799
https://www.geeksforgeeks.org/fact-const
ellation-in-data-warehouse-modelling/
https://streamsets.com/blog/schemas-d
ata-warehouses-star-galaxy-snowflake/
#galaxy
https://cursos.alura.com.br/forum/topico-snow-flake-ou-star-schema-quando-usar-110799
https://cursos.alura.com.br/forum/topico-snow-flake-ou-star-schema-quando-usar-110799
https://cursos.alura.com.br/forum/topico-snow-flake-ou-star-schema-quando-usar-110799
https://www.geeksforgeeks.org/fact-constellation-in-data-warehouse-modelling/
https://www.geeksforgeeks.org/fact-constellation-in-data-warehouse-modelling/
https://streamsets.com/blog/schemas-data-warehouses-star-galaxy-snowflake/#galaxy
https://streamsets.com/blog/schemas-data-warehouses-star-galaxy-snowflake/#galaxy
https://streamsets.com/blog/schemas-data-warehouses-star-galaxy-snowflake/#galaxy

FGV/CGE-SC/2023
Observando o aumento na quantidade de reclamações dos clientes nas lojas, os analistas de BI resolveram incluir as informações
analiticamente úteis da base de reclamações no Data Warehouse.
Para que a criação da constelação de fatos (também chamada de galáxia) contemple o fato RECLAMAÇÃO, os analistas devem adicionar
A uma tabela de fato RECLAMAÇÕES, contendo apenas um atributo descritivo, sem a necessidade de conectar a qualquer dimensão.
B uma tabela de fato RECLAMAÇÕES, contendo um atributo descritivo e três chaves estrangeiras, uma para cada uma das dimensões
existentes.
C uma tabela de fato RECLAMAÇÕES, contendo um atributo descritivo e três atributos que receberão os valores das chaves estrangeiras de
Loja, Cliente e RegistroReclamação diretamente do banco de dados operacional.
D três tabelas de dimensão (CalendárioReclamação, ClienteReclamação e LojaReclamação) mais uma tabela de fato RECLAMAÇÕES,
contendo um atributo descritivo e três chaves estrangeiras, uma para cada uma das dimensões recém-criadas.
E duas tabelas de dimensão (ClienteReclamação e LojaReclamação) mais uma tabela de fato RECLAMAÇÕES, contendo um atributo
descritivo e três chaves estrangeiras, duas para cada uma das dimensões recém-criadas e uma para referenciar o registro da reclamação
diretamentedo banco de dados operacional.

FGV/CGE-SC/2023
Observando o aumento na quantidade de reclamações dos clientes nas lojas, os analistas de BI resolveram incluir as informações
analiticamente úteis da base de reclamações no Data Warehouse.
Para que a criação da constelação de fatos (também chamada de galáxia) contemple o fato RECLAMAÇÃO, os analistas devem adicionar
A uma tabela de fato RECLAMAÇÕES, contendo apenas um atributo descritivo, sem a necessidade de conectar a qualquer dimensão.
B uma tabela de fato RECLAMAÇÕES, contendo um atributo descritivo e três chaves estrangeiras, uma para cada uma das dimensões
existentes.
C uma tabela de fato RECLAMAÇÕES, contendo um atributo descritivo e três atributos que receberão os valores das chaves estrangeiras de
Loja, Cliente e RegistroReclamação diretamente do banco de dados operacional.
D três tabelas de dimensão (CalendárioReclamação, ClienteReclamação e LojaReclamação) mais uma tabela de fato RECLAMAÇÕES,
contendo um atributo descritivo e três chaves estrangeiras, uma para cada uma das dimensões recém-criadas.
E duas tabelas de dimensão (ClienteReclamação e LojaReclamação) mais uma tabela de fato RECLAMAÇÕES, contendo um atributo
descritivo e três chaves estrangeiras, duas para cada uma das dimensões recém-criadas e uma para referenciar o registro da reclamação
diretamente do banco de dados operacional.

FGV/CGE-SC/2023
Sobre a proposta geral do modelo dimensional em um Data Warehouse, não
é correto afirmar que o modelo dimensional
A cobre tanto dados detalhados quanto dados sumarizados.
B cobre toda a empresa, e não apenas departamentos.
C é escalável, podendo entregar relatórios com trilhões de registros.
D é arquitetado apenas para um uso previsível, geralmente cobrindo os 10
relatórios mais acessados.
E pode integrar diversas fontes de dados operacionais da empresa, inclusive
fontes externas.

FGV/TJDFT/2023
Observe o seguinte recorte de um relatório extraído do DataJud e um recorte do respectivo modelo multidimensional.
Quando a relação de hierarquia entre atributos de uma tabela dimensão é normalizada, os atributos de baixa
cardinalidade são migrados para outra tabela, como exemplo: UF e Município.
Quando esse processo é repetido nas hierarquias de todas as dimensões de um modelo multidimensional, é criada a
estrutura:
A CRISP-DM;
B Star Schema;
C Drill Throught;
D Snowflake Schema;
E Fact Constellation

FGV/TJDFT/2023
Lino precisa preparar um grande volume de dados para minerar realizando operações de
limpeza, adequação de formato, exclusão de brancos e inclusão de novos atributos derivados.
Para realizar o pré-processamento dos dados, Lino deve usar uma ferramenta do tipo:
A ETL;
B OLAP;
C Apriori;
D Data Mart;
E Data Lake

FGV/TJDFT/2023
Ana foi contratada para desenvolver uma solução de Business
Intelligence para a Justiça. Um dos requisitos analíticos é a
quantidade de processos novos (QtdProcessosNovos) criados por
Tribunal por trimestre ao longo dos anos.
Para atender ao requisito analítico, Ana deve usar o modelo
multidimensional:

FGV/TJDFT/2023

FGV/TJDFT/2023
#datamining e I.A
Prof. Raphael Lacerda
Data Mining
Prof. Raphael Lacerda
Padrões
Prof. Raphael Lacerda
Padrões
Prof. Raphael Lacerda
KDD
https://data-flair.training/blogs/data-mining-and-knowledge-discovery/
https://data-flair.training/blogs/data-mining-and-knowledge-discovery/
Prof. Raphael Lacerda
Objetivos
https://fia.com.br/blog/data-mining/
https://fia.com.br/blog/data-mining/
Prof. Raphael Lacerda
CRISP-DM
Prof. Raphael Lacerda
que homem
Dado os três conceitos técnicos abaixo, assinale a alternativa que
corresponda respectivamente à tecnologia referente a cada um
desses conceitos.
1. processo de explorar grandes quantidades de dados à procura de
padrões consistentes.
2. refere-se ao processo de coleta, organização, análise,
compartilhamento e monitoramento de informações que oferecem
suporte a gestão de negócios.
Prof. Raphael Lacerda
EBSERH/2020
3. depósito de dados digitais que serve para armazenar informações
detalhadas relativamente a uma empresa.
a) 1.Data Warehouse - 2.Business Intelligence - 3.Data Mining
b) 1.Data Mining - 2.Data Warehouse - 3.Business Intelligence
c) 1.Business Intelligence - 2.Data Warehouse - 3.Data Mining
d) 1.Data Mining - 2.Business Intelligence - 3.Data Warehouse
e) 1.Business Intelligence - 2.Data Mining - 3.Data Warehouse
Prof. Raphael Lacerda
EBSERH/2020
3. depósito de dados digitais que serve para armazenar informações
detalhadas relativamente a uma empresa.
a) 1.Data Warehouse - 2.Business Intelligence - 3.Data Mining
b) 1.Data Mining - 2.Data Warehouse - 3.Business Intelligence
c) 1.Business Intelligence - 2.Data Warehouse - 3.Data Mining
d) 1.Data Mining - 2.Business Intelligence - 3.Data Warehouse
e) 1.Business Intelligence - 2.Data Mining - 3.Data Warehouse
Prof. Raphael Lacerda
EBSERH/2020
Prof. Raphael Lacerda
Aprendizado de máquina
Machine Learning
https://www.ceros.com/originals/recaptcha-waymo-future-of-self-driving-cars/
https://www.youtube.com/watch?time_continue=358&v=R9OHn5ZF4Uo&feature=emb_logo
https://www.ceros.com/originals/recaptcha-waymo-future-of-self-driving-cars/
https://www.youtube.com/watch?time_continue=358&v=R9OHn5ZF4Uo&feature=emb_logo
Machine Learning
https://www1.folha.uol.com.br/podcasts/2020/02/podcast-explica-o-melhor-e-o-pior-da-inteligencia-artificial-ouca.shtml
https://www1.folha.uol.com.br/podcasts/2020/02/podcast-explica-o-melhor-e-o-pior-da-inteligencia-artificial-ouca.shtml

Tipos de I.A
● Fraca
○ problema limitados
● Forte
○ causa e efeito / pensamento abstrado / linguagem natural
● Superinteligente
○ poderes sobre-humanos (campo teórico)
● Explainable vs Responsible
○ Explainable AI versus Responsible AI | by Anand Tamboli® | tomorrow++ | Medium
○ What is Explainable AI (XAI)? | IBM
○ transparência, equidade, privacidade, segurança, confiabilidade, responsabilidade,
sustentabilidade, integridade, inclusão, participação, explicabilidade, robustez
○ Os 3 Tipos de Inteligência
Artificial (pucpr.br)
https://medium.com/tomorrow-plus-plus/explainable-ai-versus-responsible-ai-bb34f575d49e
https://www.ibm.com/watson/explainable-ai
https://posdigital.pucpr.br/blog/tipos-de-inteligencia-artificial
https://posdigital.pucpr.br/blog/tipos-de-inteligencia-artificial

O que está por vir?
https://chat.openai.com/auth/login
https://chat.openai.com/auth/login

O que está por vir?
ChatGPT: saiba tudo sobre o chatbot que usa IA para responder
perguntas | Internet | TechTudo
Plataforma da OpenAI cria um "amigo virtual"
- Olhar Digital
https://www.techtudo.com.br/listas/2022/12/chatgpt-saiba-tudo-sobre-o-chatbot-que-usa-ia-para-responder-perguntas.ghtmlhttps://www.techtudo.com.br/listas/2022/12/chatgpt-saiba-tudo-sobre-o-chatbot-que-usa-ia-para-responder-perguntas.ghtml
https://olhardigital.com.br/2022/12/02/pro/openai-cria-um-amigo-virtual/
https://olhardigital.com.br/2022/12/02/pro/openai-cria-um-amigo-virtual/

O que está por vir?
GPT-3: o mais poderoso sistema de
inteligência artificial já criado - Olhar Digital
Uma IA vai roubar o seu emprego (e isso
pode ser bom) – Tecnoblog
Google pode estar com seus dias contados -
Olhar Digital
https://olhardigital.com.br/2020/08/25/noticias/gpt-3-o-mais-poderoso-sistema-de-inteligencia-artificial-ja-criado/
https://olhardigital.com.br/2020/08/25/noticias/gpt-3-o-mais-poderoso-sistema-de-inteligencia-artificial-ja-criado/
https://tecnoblog.net/tecnocast/uma-ia-vai-roubar-o-seu-emprego-e-isso-pode-ser-bom/
https://tecnoblog.net/tecnocast/uma-ia-vai-roubar-o-seu-emprego-e-isso-pode-ser-bom/
https://olhardigital.com.br/2022/12/12/pro/google-esta-com-seus-dias-contados-dizem-especialistas/
https://olhardigital.com.br/2022/12/12/pro/google-esta-com-seus-dias-contados-dizem-especialistas/
Prof. Raphael Lacerda
Será?
Will Robots Take My Job?
ChatGPT is a new AI chatbot that can answer
questions and write essays (cnbc.com)
https://willrobotstakemyjob.com/
https://www.cnbc.com/2022/12/13/chatgpt-is-a-new-ai-chatbot-that-can-answer-questions-and-write-essays.html
https://www.cnbc.com/2022/12/13/chatgpt-is-a-new-ai-chatbot-that-can-answer-questions-and-write-essays.html

I.A generativa
● Textos, fotos

I.A generativa
● Textos, fotos, video, sons, GitHub Copilot
● redes neurais generativas adversativas,
também chamadas de GAN
O que é IA Generativa? GPT, ChatGPT e
Midjourney | Alura
https://openai.com/blog/openai-codex
https://github.com/features/copilot
https://aws.amazon.com/codewhisperer/
https://www.redhat.com/en/engage/project-wi
sdom
https://www.alura.com.br/artigos/inteligencia-artificial-ia-generativa-chatgpt-gpt-midjourney?gclid=CjwKCAjwge2iBhBBEiwAfXDBRyJ4T2X0c8iYKBtoLglWC1ekuEowYx1BLpAtTsHGeX9JPn5cY9sH-xoCuOwQAvD_BwE
https://www.alura.com.br/artigos/inteligencia-artificial-ia-generativa-chatgpt-gpt-midjourney?gclid=CjwKCAjwge2iBhBBEiwAfXDBRyJ4T2X0c8iYKBtoLglWC1ekuEowYx1BLpAtTsHGeX9JPn5cY9sH-xoCuOwQAvD_BwE
https://openai.com/blog/openai-codex
https://github.com/features/copilot
https://aws.amazon.com/codewhisperer/
https://www.redhat.com/en/engage/project-wisdom
https://www.redhat.com/en/engage/project-wisdom

como criar?
O que é IA Generativa? GPT, ChatGPT e
Midjourney | Alura
https://www.alura.com.br/artigos/inteligencia-artificial-ia-generativa-chatgpt-gpt-midjourney?gclid=CjwKCAjwge2iBhBBEiwAfXDBRyJ4T2X0c8iYKBtoLglWC1ekuEowYx1BLpAtTsHGeX9JPn5cY9sH-xoCuOwQAvD_BwE
https://www.alura.com.br/artigos/inteligencia-artificial-ia-generativa-chatgpt-gpt-midjourney?gclid=CjwKCAjwge2iBhBBEiwAfXDBRyJ4T2X0c8iYKBtoLglWC1ekuEowYx1BLpAtTsHGeX9JPn5cY9sH-xoCuOwQAvD_BwE
@canetas.pretas
PLN
http://instagram.com/estrategiaconcursosti

Conceitos Gerais
●
DTE NLU Demo (ibm.com) i used a bat to kill a bat
i saw a bat inside a cave
https://www.ibm.com/demos/live/natural-language-understanding/self-service

Desafios
●
Prof. Raphael Lacerda
DEEP FAKE
Batman Movie Script Written By AI After
Watching 1000 Hours Footage
(techgrabyte.com)
GPT-3 – Wikipédia, a enciclopédia livre
(wikipedia.org)
https://techgrabyte.com/batman-script-written-ai/
https://techgrabyte.com/batman-script-written-ai/
https://techgrabyte.com/batman-script-written-ai/
https://pt.wikipedia.org/wiki/GPT-3
https://pt.wikipedia.org/wiki/GPT-3

Bag Of Words / N-Gram
Bag-of-words model - Wikipedia n-gram - Wikipedia
https://en.wikipedia.org/wiki/Bag-of-words_model
https://en.wikipedia.org/wiki/N-gram

Cespe/SEFAZ-CE/2021
Um dos desafios do processamento de linguagem natural (PLN) é
a polissemia, ou seja, a característica de palavras e frases poderem
ter mais de um significado.
1. A letra da música do Chico Buarque
é incrível.
2. A letra daquele aluno é inteligível

FGV/RFB/2023
Em relação ao processamento de linguagem natural (PLN), analise as
afirmativas a seguir.
I. O PLN envolve a compreensão e a geração de linguagem natural
humana.
II. A tarefa principal do PLN é traduzir textos de uma língua para outra.
III. O PLN não é utilizado para tarefas de processamento de voz.
IV. O PLN é aplicado em sistemas de recuperação de informações e
assistentes virtuais.

Cespe/CNMP/2023
O data mining é um processo usado para extrair e analisar
informações que revelam padrões ou tendências estratégicas do
negócio.

Cespe/CNMP/2023
O data mining é um processo usado para extrair e analisar
informações que revelam padrões ou tendências estratégicas do
negócio.
certa

IFMT/2023
Sobre as etapas do processo de descoberta de conhecimento e mineração de dados (KDD,
Knowledge Discovery and Data Mining), numere a coluna da direita de acordo com a coluna da
esquerda:
1. Seleção de dados 2. Limpeza de dados 3.Mineração de dados 4. Avaliação
( ) São aplicados algoritmos para extração de características dos dados.
( ) O subconjunto objetivado dos dados e os atributos de interesse são identificados
examinando-se o conjunto de dados bruto inteiro.
( ) Os padrões são apresentados para os usuários em uma forma inteligível.
( ) Ruído e exceções são removidos, valores de campo são transformados em unidades comuns
e alguns campos são criados pela combinação de campos já existentes para facilitar a análise.
Normalmente, os dados são colocados em um formato relacional, e várias tabelas podem ser
combinadas em uma etapa de desnormalização.

IFMT/2023
Sobre as etapas do processo de descoberta de conhecimento e mineração de dados (KDD,
Knowledge Discovery and Data Mining), numere a coluna da direita de acordo com a coluna da
esquerda:
1. Seleção de dados 2. Limpeza de dados 3.Mineração de dados 4. Avaliação
( 3 ) São aplicados algoritmos para extração de características dos dados.
( 1 ) O subconjunto objetivado dos dados e os atributos de interesse são identificados
examinando-se o conjunto de dados bruto inteiro.
( 4 ) Os padrões são apresentados para os usuários em uma forma inteligível.
( 2 ) Ruído e exceções são removidos, valores de campo são transformados em unidades
comuns e alguns campos são criados pela combinação de campos já existentes para facilitar a
análise. Normalmente, os dados são colocados em um formato relacional, e várias tabelas
podem ser combinadas em uma etapa de desnormalização.

FUNDATEC/2023
Qual é a etapa de modelagem da metodologia CRISP-DM na qual
são tratados os valores nulos e pode ser necessário fazer fusão
com outros dados?
A Entendimento do Negócio.
B Preparação de Dados.
C Modelagem.
D Avaliação.
E Implementação.

Quadrix/2023
Modelagem e avaliação são algumas das fases do ciclo do
CRISP-DM.

Quadrix/2023
Modelagem e avaliação são algumas das fases do ciclo do
CRISP-DM.
certa

Quadrix/2023
A inteligência artificial refere-se a um campo de conhecimento
que não está associado à aprendizagem, uma vez que esta é uma
capacidade puramente humana; contudo, este campo está
associado à linguagem e à inteligência, ao raciocínio e à resolução
de problemas.

Quadrix/2023
A inteligência artificial refere-se a um campo de conhecimento
que não está associado à aprendizagem, uma vez que esta é uma
capacidade puramente humana;contudo, este campo está
associado à linguagem e à inteligência, ao raciocínio e à resolução
de problemas.
errada
Engenharia de Dados
#BigData, NoSQL

O que fazer com o dado?
Modern Data Architecture: An Overview of
Lambda and Kappa Architectures | Credera
https://www.credera.com/insights/modern-data-architecture-an-overview-of-lambda-and-kappa-architectures
https://www.credera.com/insights/modern-data-architecture-an-overview-of-lambda-and-kappa-architectures

O que fazer com o dado?
CQM - Big data toepassing in de praktijk
https://cqm.nl/nl/nieuws/big-data-toepassing-in-de-praktijk
Prof. Raphael Lacerda
https://seedscientific.com/how-much-data-is-created-every-day/
https://blog.microfocus.com/how-much-data-is-created-on-the-internet-each-day/
"Data is the new oil"
https://seedscientific.com/how-much-data-is-created-every-day/
https://blog.microfocus.com/how-much-data-is-created-on-the-internet-each-day/
Prof. Raphael Lacerda
"Data is the new oil"
http://www.youtube.com/watch?v=VLAnBI2B4OY
Prof. Raphael Lacerda
"Data is the new oil"
https://www.weforum.org/agenda/2019/04/how-much-data-is-generated-each-day-cf4bddf29f/
https://www.weforum.org/agenda/2019/04/how-much-data-is-generated-each-day-cf4bddf29f/

5 v's
The 5 V’s of Big Data. Volume,
Velocity, Variety, Veracity… | by
Surya Gutta | Analytics Vidhya
(medium.com)
https://medium.com/analytics-vidhya/the-5-vs-of-big-data-2758bfcc51d
https://medium.com/analytics-vidhya/the-5-vs-of-big-data-2758bfcc51d
https://medium.com/analytics-vidhya/the-5-vs-of-big-data-2758bfcc51d
https://medium.com/analytics-vidhya/the-5-vs-of-big-data-2758bfcc51d

No âmbito da ciência de dados na definição de Big Data, utilizam-se
características ou atributos que alguns pesquisadores adotam como
sendo os cinco Vs. Porém, a base necessária para o reconhecimento
de Big Data é formada por três propriedades:
A valor, velocidade e volume.
B valor, veracidade e volume.
C variedade, velocidade e volume.
D variedade, valor e volume.
E velocidade, veracidade e volume.
Prof. Raphael Lacerda
Cespe/SEFAZ-BA/2019

“Atualmente, no contexto do Big Data e Data Analytics, faz-se referência às características enunciadas por pesquisadores
e produtores de soluções como sendo um conjunto de cinco Vs. Originalmente, a definição clássica de Big Data fez
referência a três Vs fundamentais: _____, _____ e _____ de dados que demandam formas inovadoras e rentáveis de
processamento da informação, para melhor percepção e tomada de decisão.”
Assinale a opção cujos itens completam corretamente as lacunas do fragmento acima, na ordem apresentada.
A valor – variança – veracidade.
B validade – velocidade – vocabulário.
C valor – variabilidade – viscosidade.
D variedade – velocidade – volume.
E valor – volatilidade – volume
FGV/SEFAZ-AM/2022

Cespe/SERPRO/2021
Big data caracteriza-se, principalmente, por volume, variedade e
velocidade, o que se justifica devido ao fato de os dados serem
provenientes de sistemas estruturados, que são maioria, e de
sistemas não estruturados, os quais, embora ainda sejam minoria,
vêm, ao longo dos anos, crescendo consideravelmente.

Cespe/SERPRO/2021
No que se refere aos três Vs do big data, o termo volume
refere-se a dados que, atualmente, não são estruturados nem
armazenados em tabelas relacionais, o que torna sua análise mais
complexa.
@canetas.pretas
STORYTELLING
http://instagram.com/estrategiaconcursosti

Como uma história deve ser contada?
“o sucesso da visualização de dados não
começa com a visualização de dados”.
Antes disso, deve-se haver uma
preocupação em entender o contexto e
qual é a real necessidade do público-alvo
● Como sumarizar um conjunto de
números muito grande?
○ Resposta: ver figuras desses números

Análise Exploratória
● resumir as características de um dataset usando meios visuais
● responsabilidade do profissional que faz a análise /
intransferível
● Técnicas: histograma, pareto, PCA, dispersão
Análise Exploratória: primeiros passos | AluraAnálise exploratória de dados – Wikipédia, a enciclopédia
livre (wikipedia.org)
https://www.alura.com.br/artigos/analise-exploratoria?gclid=CjwKCAjwsvujBhAXEiwA_UXnAIY4qQKs0msKcIadjS05_fsZSQZozIUnTCs0P7yu_EJrRfwTKHGGVxoCV-sQAvD_BwE
https://pt.wikipedia.org/wiki/An%C3%A1lise_explorat%C3%B3ria_de_dados
https://pt.wikipedia.org/wiki/An%C3%A1lise_explorat%C3%B3ria_de_dados

Análise Exploratória
“Quando fazemos uma
análise exploratória, é como
procurar pérolas em ostras.
Talvez precisemos de 100
ostras para encontrarmos
duas pérolas”.

Explanatória
● transformar os dados em informações que possam ser
consumidas por um público
●
Menos é mais: análise exploratória x análise explanatória | by Letícia Gerola | Joguei
os Dados | Medium
Na hora de comunicar a análise, a história que você
deseja contar não é sobre as 100 ostras — mas sim
sobre as duas pérolas garimpadas no processo.
Contar sobre as pérolas é explanar a sua análise
Análise Explanatória: Você não precisa
contar sobre tudo que viu | by César
Germano | Data Hackers | Medium
https://medium.com/joguei-os-dados/menos-%C3%A9-mais-an%C3%A1lise-explorat%C3%B3ria-x-an%C3%A1lise-explanat%C3%B3ria-6d6c491e70cc
https://medium.com/joguei-os-dados/menos-%C3%A9-mais-an%C3%A1lise-explorat%C3%B3ria-x-an%C3%A1lise-explanat%C3%B3ria-6d6c491e70cc
https://medium.com/data-hackers/an%C3%A1lise-explanat%C3%B3ria-voc%C3%AA-n%C3%A3o-precisa-contar-sobre-tudo-que-viu-ecb0255cc3ac
https://medium.com/data-hackers/an%C3%A1lise-explanat%C3%B3ria-voc%C3%AA-n%C3%A3o-precisa-contar-sobre-tudo-que-viu-ecb0255cc3ac
https://medium.com/data-hackers/an%C3%A1lise-explanat%C3%B3ria-voc%C3%AA-n%C3%A3o-precisa-contar-sobre-tudo-que-viu-ecb0255cc3ac
@canetas.pretas
NOSQL
http://instagram.com/estrategiaconcursosti

Bancos relacionais
● ACID
● Consistência / integridade referencial
● SQL
● Normalização
● Ferramentas
● Know How
● Atende à maioria dos problemas
● escalabilidade vertical
● fácil de gerencial
● backups facilitados

NoSQL, Por que?
● BigData
● dados distribuídos
● escalabilidade horizontal
● sharding por default
● diferentes formatos
● schema free
● ausência de SQL
● ACID vs escalabilidade
● iOT
● velocidade de acesso
● full text search
● cluster de dados
● integridade nem sempre será possível
● baixo know how
Prof. Raphael Lacerda
timeline
pages.di.unipi.it/turini/Basi di
Dati/Slides/11.NoSQL-slides.pdf
Comprehensive NoSQL Tutorial For
Beginners (digitalvidya.com)
SQL and NoSQL evolution | Mastering
MongoDB 3.x (packtpub.com)
NoSQL Relational Database Management
System: Home Page (strozzi.it)
http://pages.di.unipi.it/turini/Basi%20di%20Dati/Slides/11.NoSQL-slides.pdf
http://pages.di.unipi.it/turini/Basi%20di%20Dati/Slides/11.NoSQL-slides.pdf
https://www.digitalvidya.com/blog/nosql-tutorial/
https://www.digitalvidya.com/blog/nosql-tutorial/
https://subscription.packtpub.com/book/web-development/9781783982608/1/ch01lvl1sec03/sql-and-nosql-evolution
https://subscription.packtpub.com/book/web-development/9781783982608/1/ch01lvl1sec03/sql-and-nosql-evolution
http://www.strozzi.it/cgi-bin/CSA/tw7/I/en_US/NoSQL/Home%20Page
http://www.strozzi.it/cgi-bin/CSA/tw7/I/en_US/NoSQL/Home%20Page
Prof. Raphael Lacerda
NoSQL Ele pode ser interpretado de forma
literal como “não SQL” (ausência
de linguagem SQL) ou como “Not
Only SQL” (Não Apenas SQL),
apesar de Sadalage e Fowler
(2019) recomendarem apenas o
uso de NoSQL, pois até mesmo
bancos de dados tradicionais,
como Oracle e Postgres, poderiam
se enquadrar nessa classificação.
B1806040612.pdf (iosrjournals.org)
NoSQL: What's in a name? | Blog
(sym-link.com)
DB-Engines Ranking - popularity ranking of
database management systems
A Brief History ofNoSQL - All About the Code
(knuthaugen.no)
https://www.iosrjournals.org/iosr-jce/papers/Vol18-issue6/Version-4/B1806040612.pdf
https://blog.sym-link.com/posts/2009/30/nosql_whats_in_a_name/
https://blog.sym-link.com/posts/2009/30/nosql_whats_in_a_name/
https://db-engines.com/en/ranking
https://db-engines.com/en/ranking
http://blog.knuthaugen.no/2010/03/a-brief-history-of-nosql.html
http://blog.knuthaugen.no/2010/03/a-brief-history-of-nosql.html
Prof. Raphael Lacerda
NoSQL
https://micreiros.com/tipos-de-bancos-de-dados-nosql/
https://micreiros.com/tipos-de-bancos-de-dados-nosql/
Prof. Raphael Lacerda
Teorema
CAP
https://autociencia.blogspot.com/2020/01/scylladb-um-banco-de-dados-nosql-big-data.html
https://blog.caelum.com.br/nosql-do-teorema-cap-para-paccl/
https://autociencia.blogspot.com/2020/01/scylladb-um-banco-de-dados-nosql-big-data.html
https://blog.caelum.com.br/nosql-do-teorema-cap-para-paccl/

FGV/RFB/2023
No âmbito de bancos dados, especialmente NoSQL, o Teorema CAP sustenta
que há três requerimentos básicos que existem numa relação especial quando
se projeta uma aplicação com uma arquitetura distribuída. Basicamente,
respalda a tese de que não se pode obter os três simultaneamente.
Esses três requerimentos são
(A) Consistency, Atomic transactions e Partition. (B) Concurrency Partition,
Availability e Tolerance. (C) Consistency, Availability e Partition Tolerance. (D)
Consistency, Atomic transactions e Persistency. (E) Caching, Availability e
Persistency.

FGV/RFB/2023
Bancos de dados NoSQL são usualmente divididos em categorias de
store.
Assinale a opção que apresenta o tipo de store que privilegia
velocidade, capacidade de leitura e escrita e estruturas de dados
flexíveis, sem a necessidade de esquemas estabelecidos previamente.
(A) Document. (B) Key Value.
(C) Wide-Column. (D) Graph.
(E) Full Text.

CESGRANRIO/BB/2023
Considere um cenário no qual uma empresa de investi- mentos financeiros tenha realizado uma campanha
para que seus colaboradores indicassem outras pessoas que pudessem vir a estar interessadas em seus
produtos e serviços. Esses colaboradores também foram estimula- dos a informar a sua ligação com as
pessoas indicadas (ex: amigo, irmão, primo) e as eventuais ligações entre as pessoas indicadas. Estes
relacionamentos são impor- tantes para a definição da próxima campanha dessa em- presa.
O banco de dados NoSQL mais indicado para representar esses dados é o que utiliza o modelo
(A) relacional
(B) chave/valor
(C) orientado a grafos
(D) orientado a documentos (E) orientado a colunas

O Mongo DB é citado frequentemente como um dos bancos de
dados não relacionais (NoSQL) mais utilizados no mundo.
Assinale a opção que apresenta o elemento disponível nesse
sistema que mais se assemelha à ideia de tabela relacional.
(A) Cluster. (B) Collection. (C) Database. (D) Document. (E) Index.
FGV/SEFAZ-MT/2023

O Mongo DB é citado frequentemente como um dos bancos de
dados não relacionais (NoSQL) mais utilizados no mundo.
Assinale a opção que apresenta o elemento disponível nesse
sistema que mais se assemelha à ideia de tabela relacional.
(A) Cluster. (B) Collection. (C) Database. (D) Document. (E) Index.
FGV/SEFAZ-MT/2023
https://www.mongodb.com/docs/ma
nual/reference/sql-comparison/
https://www.mongodb.com/docs/manual/reference/sql-comparison/
https://www.mongodb.com/docs/manual/reference/sql-comparison/
Prof. Raphael Lacerda
FGV/CGU/2021
Sobre o MongoDB v5.0, considere as afirmativas a seguir.
I. Todos os documentos de uma coleção (collection) devem possuir o mesmo número de campos
(fields).
II. Um campo presente em diferentes documentos de uma collection pode ter diferentes tipos de
dados ao longo dos documentos.
III. MongoDB oferece a capacidade de validar esquemas durante operações de inserção (insertion)
e atualização (update). Está correto o que se afirma em:
A somente I;
B somente III;
C somente I e II;
D somente II e III;
E I, II e III.
Prof. Raphael Lacerda
FGV/CGU/2021
Sobre o MongoDB v5.0, considere as afirmativas a seguir.
I. Todos os documentos de uma coleção (collection) devem possuir o mesmo número de campos
(fields).
II. Um campo presente em diferentes documentos de uma collection pode ter diferentes tipos de
dados ao longo dos documentos.
III. MongoDB oferece a capacidade de validar esquemas durante operações de inserção (insertion)
e atualização (update). Está correto o que se afirma em:
A somente I;
B somente III;
C somente I e II;
D somente II e III;
E I, II e III.

Cespe/2022
Nos sistemas orientados a documentos NoSQL, como o
MongoDB, os novos documentos devem ter elementos de dados
que já existem em documentos atuais da coleção.

Cespe/2022
Nos sistemas orientados a documentos NoSQL, como o
MongoDB, os novos documentos devem ter elementos de dados
que já existem em documentos atuais da coleção.
ERRADA

Ecossistema
Hadoop Ecosystem and Their
Components - A Complete Tutorial -
DataFlair (data-flair.training)
https://data-flair.training/blogs/hadoop-ecosystem-components/
https://data-flair.training/blogs/hadoop-ecosystem-components/
https://data-flair.training/blogs/hadoop-ecosystem-components/

No contexto do Hadoop MapReduce Framework, assinale o ciclo típico de tipos de entradas e
saídas (input and output) em uma tarefa.
a) (input) <k1, v1> -> filter -> <k2, v2> -> sort -> <k3, v3> -> mapreduce -> <k3, v3> (output)
b) (input) <k1, v1> -> map -> <k1, v1> -> reduce -><k2, v2> (output)
c) (input) <k1, v1> -> map -> <k2, v2> -> combine -> <k2, v2> -> reduce <k3, v3> (output)
d) (input) <k1, v1> -> map -> <k2, v2> -> filter -> <k3, v3> -> reduce -> <k4,v4> (output)
e) (input) <k1, v1> -> sort -> <k2, v2> -> map -> <k3, v3> -> reduce -> <k4, v4> (output)
FGV/SEFAZ-MT/2023

FGV/RFB/2023
Assinale a opção que melhor descreve a diferença entre os frameworks Apache Spark e Apache Hadoop, no contexto do
processamento de Big Data.
(A) O processamento de dados no Spark é mais rápido do que no Hadoop, pois ele é baseado em memória e utiliza
RDDs, enquanto o Hadoop é baseadoem disco e utiliza MapReduce.
(B) O processamento de dados no Hadoop é mais rápido do que no Spark, pois o Hadoop é mais escalável e utiliza
clusters maiores, enquanto o Spark é limitado pelo tamanho do cluster.
(C) O Spark é mais adequado para cargas de trabalho mais pesadas, enquanto o Hadoop é melhor para cargas de
trabalho mais leves e interativas.
(D) O Spark e o Hadoop utilizam as mesmas técnicas de processamento de dados, mas o Spark é mais adequado para
casos de uso em que a latência é um fator crítico, enquanto o Hadoop é mais adequado para casos de uso em que a
capacidade de processamento em lote é mais importante
(E) O Hadoop é uma tecnologia mais recente que oferece melhorias, em relação ao Spark, em termos de desempenho e
velocidade de processamento.

FGV/RFB/2023
Assinale a opção que melhor descreve a diferença entre os frameworks Apache Spark e Apache Hadoop, no contexto do
processamento de Big Data.
(A) O processamento de dados no Spark é mais rápido do que no Hadoop, pois ele é baseado em memória e utiliza
RDDs, enquanto o Hadoop é baseado em disco e utiliza MapReduce.
(B) O processamento de dados no Hadoop é mais rápido do que no Spark, pois o Hadoop é mais escalável e utiliza
clusters maiores, enquanto o Spark é limitado pelo tamanho do cluster.
(C) O Spark é mais adequado para cargas de trabalho mais pesadas, enquanto o Hadoop é melhor para cargas de
trabalho mais leves e interativas.
(D) O Spark e o Hadoop utilizam as mesmas técnicas de processamento de dados, mas o Spark é mais adequado para
casos de uso em que a latência é um fator crítico, enquanto o Hadoop é mais adequado para casos de uso em que a
capacidade de processamento em lote é mais importante
(E) O Hadoop é uma tecnologia mais recente que oferece melhorias, em relação ao Spark, em termos de desempenho e
velocidade de processamento.

FUNDATEC/2023
Sobre Apache Spark, analise as assertivas abaixo e assinale a alternativa correta.
I. De forma geral, o Spark é uma engine rápida, escrita em Scala, para processamento
de grandes volumes de dados em um cluster de computadores.
II. Scala é uma linguagem funcional que roda na JVM.
III. O Spark, assim como o Hadoop, também foi pensado para ser escalável.
IV. Umas das grandes vantagens do Spark em relação ao Hadoop são as High Level
API’s de programação. Enquanto que o Hadoop é nativamente apenas Java, no Spark,
temos a disposição API ’s em Scala, Java e Python.

FUNDATEC/2023
Sobre Apache Spark, analise as assertivas abaixo e assinale a alternativa correta.
I. De forma geral, o Spark é uma engine rápida, escrita em Scala, para processamento
de grandes volumes de dados em um cluster de computadores.
II. Scala é uma linguagem funcional que roda na JVM.
III. O Spark, assim como o Hadoop, também foi pensado para ser escalável.
IV. Umas das grandes vantagens do Spark em relação ao Hadoop são as High Level
API’s de programação. Enquanto que o Hadoop é nativamente apenas Java, no
Spark, temos a disposição API ’s em Scala, Java e Python.

SEFAZ-MG/2023
Matei Zaharia et al. propuseram o framework Spark como alternativa para processar workloads que reutilizam dados
através de múltiplas operações paralelas.
As opções a seguir apresentam características do framework Spark, à exceção de uma. Assinale-a.
A Spark oferece suporte a dois tipos restritos de variáveis compartilhadas: broadcast e accumulators.
B Spark prove três principais abstrações para a programação paralela: RDDs, operações paralelas, e operações de
comunicação.
C Os RDDs suportam tolerância a falhas por meio do conceito de linhagem (lineage).
D Os usuários podem explicitamente armazenar RDDs em cache na memória entre um conjunto de máquinas e
reutilizá-lo em várias operações paralelas.
E RDDs (resilient distributed datasets) ou conjunto de dados distribuído resiliente é uma coleção de objetos de só leitura
particionados em um conjunto de máquinas e pode ser reconstruído caso alguma partição for perdida.

CEspe/AGER/2023
O volume de informações digitais heterogêneas sobre processos judiciais está crescendo
diariamente, especialmente quando correlações com bases de dados de outros contextos são
criadas. Observe o seguinte exemplo de representação gráfica de uma pequena amostra do
dataset ProcessosJudiciais, contendo nós, arestas e propriedades, armazenado em um banco
de dados massivo. Imagem associada para resolução da questão
Para armazenar o dataset ProcessosJudiciais exemplificado, é necessário utilizar um banco de
dados:
A ágil;
B de grafos;
C chave-valor;
D orientado a objeto;
E orientado a documentos.

CEspe/AGER/2023
O volume de informações digitais heterogêneas sobre processos judiciais está crescendo
diariamente, especialmente quando correlações com bases de dados de outros contextos são
criadas. Observe o seguinte exemplo de representação gráfica de uma pequena amostra do
dataset ProcessosJudiciais, contendo nós, arestas e propriedades, armazenado em um banco
de dados massivo. Imagem associada para resolução da questão
Para armazenar o dataset ProcessosJudiciais exemplificado, é necessário utilizar um banco de
dados:
A ágil;
B de grafos;
C chave-valor;
D orientado a objeto;
E orientado a documentos.
Ciência de Dados
Prof. Raphael Lacerda
Árvores de Decisão
https://www.youtube.com/watch?v=E-gpSQQe3w8
Muthu Alagappan at
TEDxSpokane
Prof. Raphael Lacerda
Classificação
https://www.youtube.com/watch?v=E-gpSQQe3w8
Técnicas - Classificação
Prof. Raphael Lacerda
https://bolapresa.com.br/as-13
-posicoes-do-basquete/
https://bolapresa.com.br/as-13-posicoes-do-basquete/
https://bolapresa.com.br/as-13-posicoes-do-basquete/
Prof. Raphael Lacerda
Regressão / Predição
https://shottracker.co
m/articles/the-3-point
-revolution
https://shottracker.com/articles/the-3-point-revolution
https://shottracker.com/articles/the-3-point-revolution
https://shottracker.com/articles/the-3-point-revolution
Prof. Raphael Lacerda
Regressão / Predição
Prof. Raphael Lacerda
Associação
Prof. Raphael Lacerda
Agrupamento
clusterização em SC
Prof. Raphael Lacerda
https://www.aquare.la/inteligencia-artificial-aplicada-as-obras-de-santa-catarina/
https://www.aquare.la/inteligencia-artificial-aplicada-as-obras-de-santa-catarina/
clusterização em SC
Prof. Raphael Lacerda
https://www.aquare.la/inteligencia-artificial-aplicada-as-obras-de-santa-catarina/
https://www.aquare.la/inteligencia-artificial-aplicada-as-obras-de-santa-catarina/

Cespe/DPE-RO/2022
Em um processo de data mining, na construção de relações sob a forma
de regras entre itens de uma base de dados transacional, é usada a
técnica denominada
A clustering.
B regras de associação.
C hierarquias de classificação.
D padrões sequenciais.
E padrões em séries temporais.

FGV/SEFAZ-AM/2022
O tipo de aprendizado máquina, que consiste em treinar um sistema a partirde dados que não
estão rotulados e/ou classificados e utilizar algoritmos que buscam descobrir padrões ocultos
que agrupam as informações de acordo com semelhanças ou diferenças, é denominado
A dinâmico.
B sistêmico.
C por reforço.
D supervisionado.
E não supervisionado.
Prof. Raphael Lacerda
FGV/SEFAZ-ES/2021
Maria está preparando um relatório sobre as empresas de serviços de um município, de
modo a identificar e estudar o porte dessas empresas com vistas ao estabelecimento de
políticas públicas e previsões de arrecadação. Maria pretende criar nove grupos de
empresas, de acordo com os valores de faturamento, e recorreu às técnicas usualmente
empregadas em procedimentos de data mining para estabelecer as faixas de valores de cada
grupo. Assinale a opção que apresenta a técnica diretamente aplicável a esse tipo de
classificação.
A Algoritmos de associação.
B Algoritmos de clusterização.
C Árvores de decisão.
D Modelagem de dados.
E Regressão linear.

FUNDATEC/2023
Relacione a Coluna 1 à Coluna 2, associando as categorias de aprendizado de máquina às suas
características.
Coluna 1 1. Aprendizado Supervisionado. 2. Aprendizado Não Supervisionado. 3. Aprendizado Profundo.
Coluna 2
( ) O algoritmo recebe um conjunto de dados rotulados e aprende comparando a saída do modelo com a
saída esperada, reajustando seus parâmetros até chegar em um limiar aceitável e pré-determinado a priori.
( ) Os algoritmos buscam encontrar padrões ou estruturas em conjuntos de dados não rotulados, por
exemplo, gerando agrupamentos de dados.
( ) Conjunto de algoritmos que modelam abstrações de alto nível de dados usando grafos com várias
camadas de processamento, compostas de várias transformações lineares e não lineares.
( ) Processo de aprendizado baseado em redes neurais com várias camadas (em geral, mais de cinco
camadas): entrada, saída e oculta.
A ordem correta de preenchimento dos parênteses, de cima para baixo, é:

FUNDATEC/2023
Relacione a Coluna 1 à Coluna 2, associando as categorias de aprendizado de máquina às suas
características.
Coluna 1 1. Aprendizado Supervisionado. 2. Aprendizado Não Supervisionado. 3. Aprendizado Profundo.
Coluna 2
( 1) O algoritmo recebe um conjunto de dados rotulados e aprende comparando a saída do modelo com a
saída esperada, reajustando seus parâmetros até chegar em um limiar aceitável e pré-determinado a priori.
(2 ) Os algoritmos buscam encontrar padrões ou estruturas em conjuntos de dados não rotulados, por
exemplo, gerando agrupamentos de dados.
( 3) Conjunto de algoritmos que modelam abstrações de alto nível de dados usando grafos com várias
camadas de processamento, compostas de várias transformações lineares e não lineares.
( 3) Processo de aprendizado baseado em redes neurais com várias camadas (em geral, mais de cinco
camadas): entrada, saída e oculta.
A ordem correta de preenchimento dos parênteses, de cima para baixo, é:

CEspe/AGER/2023
Em machine learning, quando algoritmos de aprendizado de
máquina são usados para analisar e agrupar conjuntos de dados
não rotulados, de forma tal que os algoritmos descobrem padrões
ocultos sem a necessidade de intervenção humana, usa-se a forma
de aprendizado do tipo
A não supervisionado.
B supervisionado.
C over fitting.
D under fitting.
E classificação.

CESPE/AGER/2023
Em machine learning, quando algoritmos de aprendizado de
máquina são usados para analisar e agrupar conjuntos de dados
não rotulados, de forma tal que os algoritmos descobrem padrões
ocultos sem a necessidade de intervenção humana, usa-se a forma
de aprendizado do tipo
A não supervisionado.
B supervisionado.
C over fitting.
D under fitting.
E classificação.

Cesngrario/BB/2023
Sabendo que existe, na organização em que trabalha, uma base de dados formada
por uma grande tabela que contém apenas o id do cliente e colunas do tipo
booleano indicando se um cliente possuía ou já tinha possuído cada produto da
organização, um funcionário de TI resolveu dividir os clientes em grupos apenas com
base nessa informação, utilizando aprendizado de máquina.
Para essa tarefa, o funcionário de TI deve utilizar o aprendizado de máquina
A independente
B não supervisionado
C por recompensa
D por reforço
E supervisionado

Fundatec/2023
__________ consiste em uma análise estatística que envolve duas variáveis: a de resposta e a preditiva, e considera que o
valor da variável de resposta (ou dependente) pode ser estimado por uma combinação de variáveis explicativas
(dependentes). Já quando a variável de resultado é de natureza categórica, __________ pode ser usada para prever a
probabilidade de um resultado com base nas variáveis de entrada que podem ser explicativas, contínuas e/ou binárias.
Assinale a alternativa que preenche, correta e respectivamente, as lacunas do trecho acima.
Alternativas
A
Rede Neural Recorrente – Rede Neural Convolucional
B
Random Forest – K-Means
C
Regressão Linear – Regressão Logística
D
k-Means – k-Nearest Neighbors
E
Suport Vector Machine – Radom Forest

FGV/Sefaz-MT/2023
I. Os resultados de um algoritmo de clusterização baseados em grafo são
normalmente mostrados como um dendrograma.
II. Os métodos baseados em densidade são adequados para descobrir
clusters com forma arbitrária, tais como elíptica, cilíndrica ou espiralada.
III. K-Means e K-Medaids são algoritmos de clusterização aglomerativa que
dividen a base de dados em k-grupos, onde o número k é dado pelo usuário.

FUNDATEC/2023
__________ é um método de classificação binária que traça um hiperplano ótimo que maximiza a margem
de separação entre duas classes de dados. A etapa principal do algoritmo é descobrir os vetores que são
as instâncias equidistantes do hiperplano.
Assinale a alternativa que preenche corretamente a lacuna do trecho acima.
Alternativas
A
Random Forest
B
Support Vector Machine (SVM)
C
k-Nearest Neighbors
D
Naïve Bayes
E
k-Means

FUNDATEC/2023
__________ é um método de classificação binária que traça um hiperplano ótimo