Baixe o app para aproveitar ainda mais
Prévia do material em texto
Como estudar Análise de Dados DO ZERO para Concursos Professor Raphael Lacerda Prof. Raphael Lacerda We have to go back TCU elevou a barra! Antes depois AGORA EM ÁUDIO TBM! https://www.youtube.com/watch?v= asZBepF9vyA https://www.youtube.com/watch?v=asZBepF9vyA https://www.youtube.com/watch?v=asZBepF9vyA AGORA EM ÁUDIO TBM! (392) Fluência de Dados para Receita Federal: 5 assuntos que vão cair em prova! - YouTube https://www.youtube.com/watch?v=az6Fvctz7Hw&t=2081s https://www.youtube.com/watch?v=az6Fvctz7Hw&t=2081s https://www.youtube.com/watch?v=az6Fvctz7Hw&t=2081s AGORA EM ÁUDIO TBM! (392) FGV acertou no nível da prova da RFB? - YouTube https://www.youtube.com/watch?v=zphPaoINaoI&t=5283s https://www.youtube.com/watch?v=zphPaoINaoI&t=5283s AGORA EM ÁUDIO TBM! https://www.youtube.com/watch?v= oJ0UkXzlsjY&t=29331s https://www.youtube.com/watch?v=oJ0UkXzlsjY&t=29331s https://www.youtube.com/watch?v=oJ0UkXzlsjY&t=29331s AGORA EM ÁUDIO TBM! https://www.youtube.com/watch?v= QTsbUv7ZXFU&t=11227s https://www.youtube.com/watch?v=QTsbUv7ZXFU&t=11227s https://www.youtube.com/watch?v=QTsbUv7ZXFU&t=11227s Prof. Raphael Lacerda O QUE A RFB TE ENSINOU? Precisamos elevar nosso "game" Gestão do Conhecimento Esquematizado Prof. raphael lacerda Dado Informação Conhecimento Inteligência contextualizado aplicado/ combinado/ aprendizado propósito/ ser humano Prof. Raphael Lacerda espiral Prof. Raphael Lacerda explícito x tácito Prof. Raphael Lacerda Dados Estruturados Prof. Raphael Lacerda Dados NÃO Estruturados Prof. Raphael Lacerda Dados SEMI Estruturados ● Nó raiz ● Toda tag precisa ser fechada ● aninhados adequadame nte ● atributos entre "" ● tags case "sensitive" ● sem tags ● representa as informações de forma mais compacta ● valor não pode ser function, date e undefinied ● separado por um delimitador ● geralmente , ● HEADER não é obrigatório Prof. Raphael Lacerda Dados SEMI Estruturados ● formatado - basta o arquivo xml ● & <> " - caracteres especiais ● válido - externo (DTD ou XSD) ● chave e valor ● + leve que XML ● não aceita comentários ● Object ou Array ● todas as linhas com o mesmo número de valores ● ideal para dados estruturados FGV/2019 Sobre o processo conhecido por espiral do conhecimento, responsável pela gestão do conhecimento em uma organização, assinale a afirmativa correta. A Preocupa-se com o gerenciamento de ativos tangíveis da organização, que, apesar de gerar aprendizado, não trazem benefício econômico para a organização. B Estimula o conhecimento tácito que é transmitido em linguagem formal, codificada e sistemática. C Possibilita a socialização, com o objetivo de criar a habilidade necessária para as tarefas e convertê-las em competência, por meio de reuniões informais. D Divulga o conjunto de dados e informações que passaram por um tratamento para serem dotados de relevância e propósito. E Afirma que o conhecimento explícito pode ser compartilhado por meio de manuais ou documentos, possibilitando sua internalização pelos funcionários da organização. FGV/2019 Sobre o processo conhecido por espiral do conhecimento, responsável pela gestão do conhecimento em uma organização, assinale a afirmativa correta. A Preocupa-se com o gerenciamento de ativos tangíveis da organização, que, apesar de gerar aprendizado, não trazem benefício econômico para a organização. B Estimula o conhecimento tácito que é transmitido em linguagem formal, codificada e sistemática. C Possibilita a socialização, com o objetivo de criar a habilidade necessária para as tarefas e convertê-las em competência, por meio de reuniões informais. D Divulga o conjunto de dados e informações que passaram por um tratamento para serem dotados de relevância e propósito. E Afirma que o conhecimento explícito pode ser compartilhado por meio de manuais ou documentos, possibilitando sua internalização pelos funcionários da organização. FGV/2019 Uma organização iniciou seu processo de gestão do conhecimento. As primeiras ações estruturadas consistiram na atualização dos manuais de apoio ao atendimento aos clientes, de acordo com a legislação vigente; e na gravação de vídeos pelos funcionários mais experientes, relatando suas experiências, dando “dicas” sobre atendimento aos clientes, como material de um treinamento a distância a ser futuramente ministrado aos novos funcionários. Essas iniciativas representaram, respectivamente, processos de conversão do conhecimento conhecidos como: A externalização; socialização; B externalização; internalização; C combinação; externalização; D combinação; internalização; E socialização; externalização. FGV/2019 Uma organização iniciou seu processo de gestão do conhecimento. As primeiras ações estruturadas consistiram na atualização dos manuais de apoio ao atendimento aos clientes, de acordo com a legislação vigente; e na gravação de vídeos pelos funcionários mais experientes, relatando suas experiências, dando “dicas” sobre atendimento aos clientes, como material de um treinamento a distância a ser futuramente ministrado aos novos funcionários. Essas iniciativas representaram, respectivamente, processos de conversão do conhecimento conhecidos como: A externalização; socialização; B externalização; internalização; C combinação; externalização; D combinação; internalização; E socialização; externalização. Cespe/PF/2021 Considere que a Polícia Federal tenha registrado, em determinado período, a prisão de 1.789 traficantes de drogas pertencentes a facções criminosas, conforme faixas etárias mostradas no gráfico. Com referência às informações e ao gráfico precedentes, julgue o item subsecutivo. O número 1.789 sozinho caracteriza uma informação, independentemente do contexto. Considere que a Polícia Federal tenha registrado, em determinado período, a prisão de 1.789 traficantes de drogas pertencentes a facções criminosas, conforme faixas etárias mostradas no gráfico. Com referência às informações e ao gráfico precedentes, julgue o item subsecutivo. O número 1.789 sozinho caracteriza uma informação, independentemente do contexto. errada Cespe/PF/2021 Cespe/PF/2021 Os dados estruturados diferenciam-se dos dados não estruturados pela rigidez em seu formato e pelo fato de poderem ser armazenados em campos de tabelas de um banco de dados relacional. Os dados estruturados diferenciam-se dos dados não estruturados pela rigidez em seu formato e pelo fato de poderem ser armazenados em campos de tabelas de um banco de dados relacional. certa Cespe/PF/2021 Cespe/PF/2021 Considere que a Polícia Federal tenha registrado, em determinado período, a prisão de 1.789 traficantes de drogas pertencentes a facções criminosas, conforme faixas etárias mostradas no gráfico. Com referência às informações e ao gráfico precedentes, julgue o item subsecutivo. Considerando-se a classificação dados, informação, conhecimento e inteligência, é correto afirmar que o gráfico representa, por si só, a inteligência. Considere que a Polícia Federal tenha registrado, em determinado período, a prisão de 1.789 traficantes de drogas pertencentes a facções criminosas, conforme faixas etárias mostradas no gráfico. Com referência às informações e ao gráfico precedentes, julgue o item subsecutivo. Considerando-se a classificação dados, informação, conhecimento e inteligência, é correto afirmar que o gráfico representa, por si só, a inteligência. errada Cespe/PF/2021 Banco de Dados Prof. Raphael Lacerda De tudo um pouco Banco de dados transações, modelagem, normalização, SQL Prof. Raphael Lacerda First Things First!!! Prof. Raphael Lacerda Houston, wehave a problem! Prof. Raphael Lacerda e esses SGBD's? Prof. Raphael Lacerda Um banco de dados é uma coleção de registros normalmente gerenciada por um sistema de busca. Os bancos de dados variam em seu conteúdo (páginas web, patentes, dados estatísticos, normas técnicas, periódicos científicos etc.). EBSERH/2018 Prof. Raphael Lacerda Um banco de dados é uma coleção de registros normalmente gerenciada por um sistema de busca. Os bancos de dados variam em seu conteúdo (páginas web, patentes, dados estatísticos, normas técnicas, periódicos científicos etc.). errada EBSERH/2018 Prof. Raphael Lacerda MP-AL/2018 O conjunto de programas responsável pelo gerenciamento de uma base de dados e que, entre outras funções, suporta uma linguagem de consulta, gera relatórios e disponibiliza uma interface para que os seus clientes possam incluir, alterar ou consultar dados, é chamado de A Banco de Dados Relacional (BDR). B Dicionário de Dados (DD). C Modelo Entidade Relacionamento (MER). D Sistema de Suporte à Decisão (SSD). E Sistema Gerenciador de Bancos de Dados (SGBD). Prof. Raphael Lacerda MP-AL/2018 O conjunto de programas responsável pelo gerenciamento de uma base de dados e que, entre outras funções, suporta uma linguagem de consulta, gera relatórios e disponibiliza uma interface para que os seus clientes possam incluir, alterar ou consultar dados, é chamado de A Banco de Dados Relacional (BDR). B Dicionário de Dados (DD). C Modelo Entidade Relacionamento (MER). D Sistema de Suporte à Decisão (SSD). E Sistema Gerenciador de Bancos de Dados (SGBD). As funções de um sistema de gerenciamento de banco de dados (SGBD) incluem A gerenciar a integridade de dados, o dicionário e o armazenamento de dados, bem como a memória do computador enquanto o SGBD estiver em execução. B transformar e apresentar dados, controlar o acesso de multiusuário e prover interfaces de comunicação do banco de dados. Prof. Raphael Lacerda Sefaz-RS/2019 Prof. Raphael Lacerda Sefaz-RS/2019 C gerenciar o becape e a recuperação dos dados, bem como o escalonamento de processos no processador por meio do banco de dados. D gerenciar o sistema de arquivos e a segurança do banco de dados. E gerenciar a entrada e saída de dispositivos, linguagens de acesso ao banco de dados e interfaces de programação de aplicações. Atores Prof. Raphael Lacerda Administrador do Banco de dados Administradores de Dados Equipe de Desenvolvimento Usuários Finais Prof. Raphael Lacerda Após um banco de dados ser criado, o administrador executa uma série de tarefas para dar permissão de acesso aos usuários que necessitam ler e gravar informações na base de dados. A responsabilidade de gerir os acessos ao banco de dados é do sistema gerenciador de banco de dados (SGBD). EBSERH/2018 Prof. Raphael Lacerda Após um banco de dados ser criado, o administrador executa uma série de tarefas para dar permissão de acesso aos usuários que necessitam ler e gravar informações na base de dados. A responsabilidade de gerir os acessos ao banco de dados é do sistema gerenciador de banco de dados (SGBD). certa EBSERH/2018 Prof. Raphael Lacerda TCE-ME/2018 Em uma organização, é atribuição da administração de dados A definir e criar tabelas, índices e outros objetos. B monitorar e ajustar a performance do banco de dados. C manter o tempo de resposta do SGBD adequado às expectativas dos usuários. D conhecer as características de funcionamento e operação do SGBD adotado. E identificar, documentar e modelar os dados que serão armazenados e gerenciados. Prof. Raphael Lacerda TCE-ME/2018 Em uma organização, é atribuição da administração de dados A definir e criar tabelas, índices e outros objetos. B monitorar e ajustar a performance do banco de dados. C manter o tempo de resposta do SGBD adequado às expectativas dos usuários. D conhecer as características de funcionamento e operação do SGBD adotado. E identificar, documentar e modelar os dados que serão armazenados e gerenciados. Prof. Raphael Lacerda Old, but GOLD CM-SP/2019 Uma das propriedades básicas de uma transação em um banco de dados relacional estabelece que cada transação não deve sofrer interferência de outras transações em execução no banco de dados. Essa propriedade denomina-se A durabilidade. B isolamento. C consistência. D integridade. E cardinalidade. Prof. Raphael Lacerda No contexto da implementação de bancos de dados, o acrônimo ACID denota o conjunto de propriedades que devem ser observadas por sistemas transacionais. Essas quatro propriedades são: A Amorfabilidade, Concorrência, Integridade e Durabilidade; B Atomicidade, Consistência, Isolamento e Durabilidade; C Atualização, Coesão, Inserção e Deleção; D Auditabilidade, Conformidade, Independência e Distribuição; E Automação, Concorrência, Integridade e Distribuição. FGV/TJ-RO/2021 No contexto da implementação de bancos de dados, o acrônimo ACID denota o conjunto de propriedades que devem ser observadas por sistemas transacionais. Essas quatro propriedades são: A Amorfabilidade, Concorrência, Integridade e Durabilidade; B Atomicidade, Consistência, Isolamento e Durabilidade; C Atualização, Coesão, Inserção e Deleção; D Auditabilidade, Conformidade, Independência e Distribuição; E Automação, Concorrência, Integridade e Distribuição. FGV/TJ-RO/2021 Parte Física - Views, Triggers, Stored Procedures FGV/CGE-SC/2023 Com relação à VIEW no Microsoft SQL Server, analise as afirmativas a seguir. I. A view é utilizada para tornar a percepção do usuário mais simplificada e focalizada. II. Visões são instrumentos de segurança, pois permitem restringir o acesso aos dados, ou seja, usuários não possuem permissões para acessar as tabelas base. III. O Objeto view é utilizado para simular versões anteriores de tabelas que teve seu esquema transformado e assim garantir o pleno funcionamento dos sistemas. IV. As instruções de SQL UPDATE, DELETE e INSERT são permitidas desde que realizadas utilizando colunas de uma única tabela base. FGV/CGE-SC/2023 Com relação à VIEW no Microsoft SQL Server, analise as afirmativas a seguir. I. A view é utilizada para tornar a percepção do usuário mais simplificada e focalizada. II. Visões são instrumentos de segurança, pois permitem restringir o acesso aos dados, ou seja, usuários não possuem permissões para acessar as tabelas base. III. O Objeto view é utilizado para simular versões anteriores de tabelas que teve seu esquema transformado e assim garantir o pleno funcionamento dos sistemas. IV. As instruções de SQL UPDATE, DELETE e INSERT são permitidas desde que realizadas utilizando colunas de uma única tabela base. FGV/RFB/2023 Considere um banco de dados relacional em que as operações de insert e update efetuadas numa certa tabela devem ser monitoradas e anotadas, como subsídio aos procedimentos de auditoria da empresa. Essa tabela é utilizada por uma série de aplicações, em diferentes tipos de transações, e iniciadas por um número considerável de usuários. Nesse cenário, assinale o mecanismo mais adequado para a implementação desse monitoramento. A Cursores. B Stored procedures. C Triggers. D Utilitários de exportação de dados. E Views. FGV/RFB/2023 Considere um banco de dados relacional em que as operações de insert e update efetuadas numa certa tabela devem ser monitoradas e anotadas, como subsídio aos procedimentos de auditoria da empresa. Essa tabela é utilizada por uma série de aplicações, em diferentes tipos de transações, e iniciadas por um número considerável de usuários. Nesse cenário, assinale o mecanismo mais adequado para a implementação desse monitoramento. A Cursores. B Stored procedures. C Triggers. D Utilitários de exportação de dados. E Views. #Modelagem Prof. Raphael Lacerda Conceitual(MER) Lógica (MR) Física entidade, atributo, relacionamento, cardinalidade tabelas, chaves primárias, estrangeiras NORMALIZAÇÃO fisicamente armazenados, SQL, índices, views, triggers Prof. Raphael Lacerda +1 Modelando problemas Prof. Raphael Lacerda Arquitetura 3 esquemas https://www.estrategiaconcursos.com.br/blog/conceitos-basicos-de-banco-de-dados/ https://www.estrategiaconcursos.com.br/blog/conceitos-basicos-de-banco-de-dados/ MPC-PA/2019 De acordo com as informações do texto 9A1-I, assinale a opção correta, com relação à leitura das regras do negócio representadas no modelo apresentado. A Ao realizar uma reserva, o cliente pode escolher um ou vários trechos de voo. Existem várias opções de aeronaves para o trecho reservado. B Ao realizar uma reserva, o cliente pode escolher um ou vários trechos de voo, mas existe apenas uma aeronave alocada para o trecho reservado. MPC-PA/2019 MPC-PA/2019 C Ao realizar uma reserva, o cliente pode escolher apenas um trecho de voo, mas existem várias opções de aeronaves para o trecho reservado. D Um trecho de voo está relacionado a apenas uma reserva. E Ao realizar uma reserva, o cliente recebe um único número de assento, válido para todos os trechos que forem reservados. De acordo com as informações do texto 9A1-I, assinale a opção correta, com relação à leitura das regras do negócio representadas no modelo apresentado. A Ao realizar uma reserva, o cliente pode escolher um ou vários trechos de voo. Existem várias opções de aeronaves para o trecho reservado. B Ao realizar uma reserva, o cliente pode escolher um ou vários trechos de voo, mas existe apenas uma aeronave alocada para o trecho reservado. MPC-PA/2019 FGV/MPE-SC/2022 Num banco de dados relacional, considere as tabelas T1 e T2, criadas como descrito a seguir. • T1 tem duas colunas, intituladas A e B, do tipo inteiro; a coluna A é declarada como primary key, e não aceita valores nulos. • T2 tem duas colunas, intituladas C e A, do tipo inteiro; a coluna C é declarada como primary key, e não aceita valores nulos; a coluna A foi declarada como UNIQUE, não aceita valores nulos e ainda foi declarada como uma foreign key que referencia a coluna A da tabela T1. À luz dessa estrutura, é correto afirmar que o relacionamento entre T1 e T2: A é do tipo 1:1; B é do tipo 1:N; C é do tipo N:1; D é do tipo M:N; E não pode ser categorizado, pois isso depende das instâncias de cada tabela. FGV/MPE-SC/2022 Num banco de dados relacional, considere as tabelas T1 e T2, criadas como descrito a seguir. • T1 tem duas colunas, intituladas A e B, do tipo inteiro; a coluna A é declarada como primary key, e não aceita valores nulos. • T2 tem duas colunas, intituladas C e A, do tipo inteiro; a coluna C é declarada como primary key, e não aceita valores nulos; a coluna A foi declarada como UNIQUE, não aceita valores nulos e ainda foi declarada como uma foreign key que referencia a coluna A da tabela T1. À luz dessa estrutura, é correto afirmar que o relacionamento entre T1 e T2: A é do tipo 1:1; B é do tipo 1:N; C é do tipo N:1; D é do tipo M:N; E não pode ser categorizado, pois isso depende das instâncias de cada tabela. #SQL Prof. Raphael Lacerda SQL TCE-RJ - Análise Informações Prof. Raphael Lacerda Operadores no WHERE = | <> igualdade diferente > | >= maior que maior igual < | <= menor que menor igual >= maior igual BETWEEN entre datas por exemplos LIKE padrão de pesquisa IN múltiplos possíveis valores SQL Prof. Raphael Lacerda Like a% começa com a %a termina com a %a% tem a em qualquer lugar _a% a na posição 2 a__% começa com a e tem no mínimo 3 posições Prof. Raphael Lacerda várias funções https://pt.wikibooks.org/wiki/SQL/Funções_de_agrega ção https://pt.wikibooks.org/wiki/SQL/Fun%C3%A7%C3%B5es_de_agrega%C3%A7%C3%A3o https://pt.wikibooks.org/wiki/SQL/Fun%C3%A7%C3%B5es_de_agrega%C3%A7%C3%A3o FGV/MPE-SC/2022 João trabalha na migração para o MySQL de um sistema baseado originalmente no SQL Server. Nesse contexto, nos comandos SQL que eventualmente utilizem o operador like, João: A é obrigado a substituir o operador like pelo operador regexp; B pode manter o comando como está, pois o MySQL interpreta o operador corretamente; C pode manter o comando, mas deve substituir todas as ocorrências do caractere curinga “%” por “*”; D pode manter o comando, mas deve substituir todas as ocorrências do caractere curinga “*” por “%”; E pode manter o comando, mas deve substituir todas as ocorrências do caractere curinga “?” por “_”. FGV/MPE-SC/2022 João trabalha na migração para o MySQL de um sistema baseado originalmente no SQL Server. Nesse contexto, nos comandos SQL que eventualmente utilizem o operador like, João: A é obrigado a substituir o operador like pelo operador regexp; B pode manter o comando como está, pois o MySQL interpreta o operador corretamente; C pode manter o comando, mas deve substituir todas as ocorrências do caractere curinga “%” por “*”; D pode manter o comando, mas deve substituir todas as ocorrências do caractere curinga “*” por “%”; E pode manter o comando, mas deve substituir todas as ocorrências do caractere curinga “?” por “_”. FGV/2022 Considerando-se a instância da tabela T (descrita anteriormente), analise o comando SQL abaixo. update T set a = a + 32 where exists (select * from T t2 where T.c > t2.D) O número de registros da tabela T afetados pela execução desse comando é: Alternativas A zero; B um; C dois; D três; E quatro. Lembrando SELECT P.ID, P.nome FROM produto P WHERE EXISTS ( SELECT V.ID_PRODUTO FROM venda_produto V WHERE V.ID_PRODUTO = P.ID ) https://www.devmedia.com.br/sql-e xists/41176 https://www.devmedia.com.br/sql-exists/41176 https://www.devmedia.com.br/sql-exists/41176 #Normalização Prof. Raphael Lacerda 1 forma 2 forma 3 forma ● valores atômicos ● sem atributos multivalorados ● não há dependência parcial ● não pode depender de parte da chave primária ● não há dependência transitiva ● deve depender única e exclusivamen te da chave primária Prof. Raphael Lacerda Resumex! Prof. Raphael Lacerda e como ficaria a tabela? https://www.luis.blog.br/segunda-forma-normal-2fn-normalizacao-de-dados.html https://www.luis.blog.br/segunda-forma-normal-2fn-normalizacao-de-dados.html Prof. Raphael Lacerda BCNF Todo determinante é chave candidata FGV Prof. Raphael Lacerda FGV/2020 Durante o projeto de uma base de dados relacional, após o processo de normalização ter iniciado, se uma relação apresentar chave primária composta, é correto garantir que esta relação está na A 1a Forma Normal. B 2a Forma Normal. C 3a Forma Normal. D Forma Normal de Boyce-Codd. E 4a Forma Normal. Prof. Raphael Lacerda FGV/2020 Durante o projeto de uma base de dados relacional, após o processo de normalização ter iniciado, se uma relação apresentar chave primária composta, é correto garantir que esta relação está na A 1a Forma Normal. B 2a Forma Normal. C 3a Forma Normal. D Forma Normal de Boyce-Codd. E 4a Forma Normal. Supondo-se que a tabela T (descrita anteriormente) esteja normalizada até a forma normal Boyce-Codd, a dependência funcional que NÃO se verifica nessa tabela é: Alternativas A A → B B B → D C C → B D C → D E A, D → B FGV/TCE-AM/2021 Supondo-se que a tabela T (descrita anteriormente) esteja normalizada até a forma normal Boyce-Codd, a dependência funcional que NÃO se verifica nessa tabela é: Alternativas A A → B B B → D C C → B D C → D E A, D → B FGV/TCE-AM/2021 #BI TCE-RJ Análise de Informações Prof. Raphael Lacerda BI Como usar os dados para tomar decisões? Prof. Raphael Lacerda organizados,limpos, preenchidos, otimizados, compliance, padronizados Recuperar Prof. Raphael Lacerda ETL ETL - ● EXTRACT ● TRANSFORM ● LOAD Prof. Raphael Lacerda ELT https://www.astera.com/pt/type/blog/etl-vs-e lt-whats-the-difference/ Prof. Raphael Lacerda ELT ● processo mais ágil para o carregamento e o processamento de dados ● reduz consideravelmente o tempo de carregamento de dados ● engenheiros de dados focam apenas nas etapas de extração e carregamento ● responsabilidade da transformação de dados fica nas mãos de profissionais próximos à empresa ● Dados brutos TCE-RJ Análise de Informações Prof. Raphael Lacerda Modelando TCE-RJ Análise de Informações Prof. Raphael Lacerda Modelando operações Prof. Raphael Lacerda Cespe/2021 Cespe/2021 Todos os elementos descritos em FATO_FREQUÊNCIA fazem parte de uma única chave primária composta, sendo cada elemento uma chave estrangeira oriunda de cada dimensão a ela vinculada Cespe/2021 Todos os elementos descritos em FATO_FREQUÊNCIA fazem parte de uma única chave primária composta, sendo cada elemento uma chave estrangeira oriunda de cada dimensão a ela vinculada certa Prof. Raphael Lacerda como armazenar? https://www.grazitti.com/blog/data-lake-vs-data-warehouse-which-one-should-you-go-for/ https://www.grazitti.com/blog/data-lake-vs-data-warehouse-which-one-should-you-go-for/ Cespe/CNMP/2023 Em data warehouse, o conceito de granularidade refere-se ao nível de detalhe ou resumo existente em uma unidade de dados, de forma que, quanto mais detalhes, mais alto o nível de granularidade. Cespe/CNMP/2023 Em data warehouse, o conceito de granularidade refere-se ao nível de detalhe ou resumo existente em uma unidade de dados, de forma que, quanto mais detalhes, mais alto o nível de granularidade. errada Cespe/CNMP/2023 Fatos, dimensões e medidas são elementos essenciais de um data warehouse. Cespe/CNMP/2023 Fatos, dimensões e medidas são elementos essenciais de um data warehouse. certa FGV/CGU/2021 Uma organização deseja implementar um pipeline de dados e está avaliando a opção mais adequada para o seu contexto de operação. Em torno de 40% dos dados consumidos pela organização se encontram em planilhas eletrônicas que contêm dados sensíveis, produzidas semanalmente por suas unidades de negócio. Os outros 60% dos dados se encontram em alguns bancos de dados relacionais de sistemas de produção da organização. O tamanho da base é de moderado a pequeno, mas existe a necessidade de conformidade com normas de privacidade e confidencialidade dos dados. O objetivo do pipeline é fornecer insumos para um departamento que realiza análises de dados com métodos não supervisionados de aprendizagem de máquina para elaborar relatórios periódicos mensais. A organização está avaliando a construção de um Armazém de Dados (ETL) ou de um Lago de Dados (ELT). A proposta de modelo adequada e corretamente justificada é A Armazém de Dados. Ambos os modelos são adequados, mas Lago de Dados tem maior latência até a carga (L) e custo maior; B Armazém de Dados. Esse modelo possui menor latência até a carga (L) e, ao contrário do Lago de Dados, opera de forma eficiente com dados relacionais; C Armazém de Dados. O processo ETL é mais adequado para o tratamento dos dados sensíveis e os casos de uso são bem conhecidos; D Lago de Dados. Esse modelo possui menor latência até a carga (L) e permite a extração (E) de dados semiestruturados e não estruturados; E Lago de Dados. Esse modelo não necessita de hardware especializado e, ao contrário do Armazém de Dados, possibilita tarefas de aprendizado de máquina. Cespe/2022 Em um data warehousing (DW), a ETL é considerada uma das fases mais simples, pois se resume à seleção dos dados que farão parte do DW. FGV/TRT-13/2023 No contexto da implementação de tecnologias para data mining e apresentação de dados, a sigla ETL refere-se A ao processamento de transações on line em ambientes de produção. B ao processo de identificação de dados e relacionamentos numa interface de exploração de dados. C aos processos de criação de índices full text. D aos processos de extração, transformação e carga de dados. E às manobras para visualização de dados sobre cubos dimensionais. FGV/TRT-13/2023 No contexto da implementação de tecnologias para data mining e apresentação de dados, a sigla ETL refere-se A ao processamento de transações on line em ambientes de produção. B ao processo de identificação de dados e relacionamentos numa interface de exploração de dados. C aos processos de criação de índices full text. D aos processos de extração, transformação e carga de dados. E às manobras para visualização de dados sobre cubos dimensionais. FGV/CGE-SC/2023 Avalie se os componentes de um Data Warehouse incluem: I. Sistemas de origem. II. Infraestrutura de ETL (Extraction-transformation-load). III. Data Warehouse. IV. Aplicações de Front-end para o usuário final. Estão corretos os itens A I e II, apenas. B III e IV, apenas. C I, II e III, apenas. D II, III e IV, apenas. E I, II, III e IV. FGV/CGE-SC/2023 Avalie se os componentes de um Data Warehouse incluem: I. Sistemas de origem. II. Infraestrutura de ETL (Extraction-transformation-load). III. Data Warehouse. IV. Aplicações de Front-end para o usuário final. Estão corretos os itens A I e II, apenas. B III e IV, apenas. C I, II e III, apenas. D II, III e IV, apenas. E I, II, III e IV. Questão 110 https://cursos.alura.com.br/forum/topic o-snow-flake-ou-star-schema-quando- usar-110799 https://www.geeksforgeeks.org/fact-const ellation-in-data-warehouse-modelling/ https://streamsets.com/blog/schemas-d ata-warehouses-star-galaxy-snowflake/ #galaxy https://cursos.alura.com.br/forum/topico-snow-flake-ou-star-schema-quando-usar-110799 https://cursos.alura.com.br/forum/topico-snow-flake-ou-star-schema-quando-usar-110799 https://cursos.alura.com.br/forum/topico-snow-flake-ou-star-schema-quando-usar-110799 https://www.geeksforgeeks.org/fact-constellation-in-data-warehouse-modelling/ https://www.geeksforgeeks.org/fact-constellation-in-data-warehouse-modelling/ https://streamsets.com/blog/schemas-data-warehouses-star-galaxy-snowflake/#galaxy https://streamsets.com/blog/schemas-data-warehouses-star-galaxy-snowflake/#galaxy https://streamsets.com/blog/schemas-data-warehouses-star-galaxy-snowflake/#galaxy FGV/CGE-SC/2023 Observando o aumento na quantidade de reclamações dos clientes nas lojas, os analistas de BI resolveram incluir as informações analiticamente úteis da base de reclamações no Data Warehouse. Para que a criação da constelação de fatos (também chamada de galáxia) contemple o fato RECLAMAÇÃO, os analistas devem adicionar A uma tabela de fato RECLAMAÇÕES, contendo apenas um atributo descritivo, sem a necessidade de conectar a qualquer dimensão. B uma tabela de fato RECLAMAÇÕES, contendo um atributo descritivo e três chaves estrangeiras, uma para cada uma das dimensões existentes. C uma tabela de fato RECLAMAÇÕES, contendo um atributo descritivo e três atributos que receberão os valores das chaves estrangeiras de Loja, Cliente e RegistroReclamação diretamente do banco de dados operacional. D três tabelas de dimensão (CalendárioReclamação, ClienteReclamação e LojaReclamação) mais uma tabela de fato RECLAMAÇÕES, contendo um atributo descritivo e três chaves estrangeiras, uma para cada uma das dimensões recém-criadas. E duas tabelas de dimensão (ClienteReclamação e LojaReclamação) mais uma tabela de fato RECLAMAÇÕES, contendo um atributo descritivo e três chaves estrangeiras, duas para cada uma das dimensões recém-criadas e uma para referenciar o registro da reclamação diretamentedo banco de dados operacional. FGV/CGE-SC/2023 Observando o aumento na quantidade de reclamações dos clientes nas lojas, os analistas de BI resolveram incluir as informações analiticamente úteis da base de reclamações no Data Warehouse. Para que a criação da constelação de fatos (também chamada de galáxia) contemple o fato RECLAMAÇÃO, os analistas devem adicionar A uma tabela de fato RECLAMAÇÕES, contendo apenas um atributo descritivo, sem a necessidade de conectar a qualquer dimensão. B uma tabela de fato RECLAMAÇÕES, contendo um atributo descritivo e três chaves estrangeiras, uma para cada uma das dimensões existentes. C uma tabela de fato RECLAMAÇÕES, contendo um atributo descritivo e três atributos que receberão os valores das chaves estrangeiras de Loja, Cliente e RegistroReclamação diretamente do banco de dados operacional. D três tabelas de dimensão (CalendárioReclamação, ClienteReclamação e LojaReclamação) mais uma tabela de fato RECLAMAÇÕES, contendo um atributo descritivo e três chaves estrangeiras, uma para cada uma das dimensões recém-criadas. E duas tabelas de dimensão (ClienteReclamação e LojaReclamação) mais uma tabela de fato RECLAMAÇÕES, contendo um atributo descritivo e três chaves estrangeiras, duas para cada uma das dimensões recém-criadas e uma para referenciar o registro da reclamação diretamente do banco de dados operacional. FGV/CGE-SC/2023 Sobre a proposta geral do modelo dimensional em um Data Warehouse, não é correto afirmar que o modelo dimensional A cobre tanto dados detalhados quanto dados sumarizados. B cobre toda a empresa, e não apenas departamentos. C é escalável, podendo entregar relatórios com trilhões de registros. D é arquitetado apenas para um uso previsível, geralmente cobrindo os 10 relatórios mais acessados. E pode integrar diversas fontes de dados operacionais da empresa, inclusive fontes externas. FGV/CGE-SC/2023 Sobre a proposta geral do modelo dimensional em um Data Warehouse, não é correto afirmar que o modelo dimensional A cobre tanto dados detalhados quanto dados sumarizados. B cobre toda a empresa, e não apenas departamentos. C é escalável, podendo entregar relatórios com trilhões de registros. D é arquitetado apenas para um uso previsível, geralmente cobrindo os 10 relatórios mais acessados. E pode integrar diversas fontes de dados operacionais da empresa, inclusive fontes externas. FGV/TJDFT/2023 Observe o seguinte recorte de um relatório extraído do DataJud e um recorte do respectivo modelo multidimensional. Quando a relação de hierarquia entre atributos de uma tabela dimensão é normalizada, os atributos de baixa cardinalidade são migrados para outra tabela, como exemplo: UF e Município. Quando esse processo é repetido nas hierarquias de todas as dimensões de um modelo multidimensional, é criada a estrutura: A CRISP-DM; B Star Schema; C Drill Throught; D Snowflake Schema; E Fact Constellation FGV/TJDFT/2023 Observe o seguinte recorte de um relatório extraído do DataJud e um recorte do respectivo modelo multidimensional. Quando a relação de hierarquia entre atributos de uma tabela dimensão é normalizada, os atributos de baixa cardinalidade são migrados para outra tabela, como exemplo: UF e Município. Quando esse processo é repetido nas hierarquias de todas as dimensões de um modelo multidimensional, é criada a estrutura: A CRISP-DM; B Star Schema; C Drill Throught; D Snowflake Schema; E Fact Constellation FGV/TJDFT/2023 Lino precisa preparar um grande volume de dados para minerar realizando operações de limpeza, adequação de formato, exclusão de brancos e inclusão de novos atributos derivados. Para realizar o pré-processamento dos dados, Lino deve usar uma ferramenta do tipo: A ETL; B OLAP; C Apriori; D Data Mart; E Data Lake FGV/TJDFT/2023 Ana foi contratada para desenvolver uma solução de Business Intelligence para a Justiça. Um dos requisitos analíticos é a quantidade de processos novos (QtdProcessosNovos) criados por Tribunal por trimestre ao longo dos anos. Para atender ao requisito analítico, Ana deve usar o modelo multidimensional: FGV/TJDFT/2023 FGV/TJDFT/2023 #datamining e I.A Prof. Raphael Lacerda Data Mining Prof. Raphael Lacerda Padrões Prof. Raphael Lacerda Padrões Prof. Raphael Lacerda KDD https://data-flair.training/blogs/data-mining-and-knowledge-discovery/ https://data-flair.training/blogs/data-mining-and-knowledge-discovery/ Prof. Raphael Lacerda Objetivos https://fia.com.br/blog/data-mining/ https://fia.com.br/blog/data-mining/ Prof. Raphael Lacerda CRISP-DM Prof. Raphael Lacerda que homem Dado os três conceitos técnicos abaixo, assinale a alternativa que corresponda respectivamente à tecnologia referente a cada um desses conceitos. 1. processo de explorar grandes quantidades de dados à procura de padrões consistentes. 2. refere-se ao processo de coleta, organização, análise, compartilhamento e monitoramento de informações que oferecem suporte a gestão de negócios. Prof. Raphael Lacerda EBSERH/2020 3. depósito de dados digitais que serve para armazenar informações detalhadas relativamente a uma empresa. a) 1.Data Warehouse - 2.Business Intelligence - 3.Data Mining b) 1.Data Mining - 2.Data Warehouse - 3.Business Intelligence c) 1.Business Intelligence - 2.Data Warehouse - 3.Data Mining d) 1.Data Mining - 2.Business Intelligence - 3.Data Warehouse e) 1.Business Intelligence - 2.Data Mining - 3.Data Warehouse Prof. Raphael Lacerda EBSERH/2020 3. depósito de dados digitais que serve para armazenar informações detalhadas relativamente a uma empresa. a) 1.Data Warehouse - 2.Business Intelligence - 3.Data Mining b) 1.Data Mining - 2.Data Warehouse - 3.Business Intelligence c) 1.Business Intelligence - 2.Data Warehouse - 3.Data Mining d) 1.Data Mining - 2.Business Intelligence - 3.Data Warehouse e) 1.Business Intelligence - 2.Data Mining - 3.Data Warehouse Prof. Raphael Lacerda EBSERH/2020 Prof. Raphael Lacerda Aprendizado de máquina Machine Learning https://www.ceros.com/originals/recaptcha-waymo-future-of-self-driving-cars/ https://www.youtube.com/watch?time_continue=358&v=R9OHn5ZF4Uo&feature=emb_logo https://www.ceros.com/originals/recaptcha-waymo-future-of-self-driving-cars/ https://www.youtube.com/watch?time_continue=358&v=R9OHn5ZF4Uo&feature=emb_logo Machine Learning https://www1.folha.uol.com.br/podcasts/2020/02/podcast-explica-o-melhor-e-o-pior-da-inteligencia-artificial-ouca.shtml https://www1.folha.uol.com.br/podcasts/2020/02/podcast-explica-o-melhor-e-o-pior-da-inteligencia-artificial-ouca.shtml Tipos de I.A ● Fraca ○ problema limitados ● Forte ○ causa e efeito / pensamento abstrado / linguagem natural ● Superinteligente ○ poderes sobre-humanos (campo teórico) ● Explainable vs Responsible ○ Explainable AI versus Responsible AI | by Anand Tamboli® | tomorrow++ | Medium ○ What is Explainable AI (XAI)? | IBM ○ transparência, equidade, privacidade, segurança, confiabilidade, responsabilidade, sustentabilidade, integridade, inclusão, participação, explicabilidade, robustez ○ Os 3 Tipos de Inteligência Artificial (pucpr.br) https://medium.com/tomorrow-plus-plus/explainable-ai-versus-responsible-ai-bb34f575d49e https://www.ibm.com/watson/explainable-ai https://posdigital.pucpr.br/blog/tipos-de-inteligencia-artificial https://posdigital.pucpr.br/blog/tipos-de-inteligencia-artificial O que está por vir? https://chat.openai.com/auth/login https://chat.openai.com/auth/login O que está por vir? ChatGPT: saiba tudo sobre o chatbot que usa IA para responder perguntas | Internet | TechTudo Plataforma da OpenAI cria um "amigo virtual" - Olhar Digital https://www.techtudo.com.br/listas/2022/12/chatgpt-saiba-tudo-sobre-o-chatbot-que-usa-ia-para-responder-perguntas.ghtmlhttps://www.techtudo.com.br/listas/2022/12/chatgpt-saiba-tudo-sobre-o-chatbot-que-usa-ia-para-responder-perguntas.ghtml https://olhardigital.com.br/2022/12/02/pro/openai-cria-um-amigo-virtual/ https://olhardigital.com.br/2022/12/02/pro/openai-cria-um-amigo-virtual/ O que está por vir? GPT-3: o mais poderoso sistema de inteligência artificial já criado - Olhar Digital Uma IA vai roubar o seu emprego (e isso pode ser bom) – Tecnoblog Google pode estar com seus dias contados - Olhar Digital https://olhardigital.com.br/2020/08/25/noticias/gpt-3-o-mais-poderoso-sistema-de-inteligencia-artificial-ja-criado/ https://olhardigital.com.br/2020/08/25/noticias/gpt-3-o-mais-poderoso-sistema-de-inteligencia-artificial-ja-criado/ https://tecnoblog.net/tecnocast/uma-ia-vai-roubar-o-seu-emprego-e-isso-pode-ser-bom/ https://tecnoblog.net/tecnocast/uma-ia-vai-roubar-o-seu-emprego-e-isso-pode-ser-bom/ https://olhardigital.com.br/2022/12/12/pro/google-esta-com-seus-dias-contados-dizem-especialistas/ https://olhardigital.com.br/2022/12/12/pro/google-esta-com-seus-dias-contados-dizem-especialistas/ Prof. Raphael Lacerda Será? Will Robots Take My Job? ChatGPT is a new AI chatbot that can answer questions and write essays (cnbc.com) https://willrobotstakemyjob.com/ https://www.cnbc.com/2022/12/13/chatgpt-is-a-new-ai-chatbot-that-can-answer-questions-and-write-essays.html https://www.cnbc.com/2022/12/13/chatgpt-is-a-new-ai-chatbot-that-can-answer-questions-and-write-essays.html I.A generativa ● Textos, fotos I.A generativa ● Textos, fotos, video, sons, GitHub Copilot ● redes neurais generativas adversativas, também chamadas de GAN O que é IA Generativa? GPT, ChatGPT e Midjourney | Alura https://openai.com/blog/openai-codex https://github.com/features/copilot https://aws.amazon.com/codewhisperer/ https://www.redhat.com/en/engage/project-wi sdom https://www.alura.com.br/artigos/inteligencia-artificial-ia-generativa-chatgpt-gpt-midjourney?gclid=CjwKCAjwge2iBhBBEiwAfXDBRyJ4T2X0c8iYKBtoLglWC1ekuEowYx1BLpAtTsHGeX9JPn5cY9sH-xoCuOwQAvD_BwE https://www.alura.com.br/artigos/inteligencia-artificial-ia-generativa-chatgpt-gpt-midjourney?gclid=CjwKCAjwge2iBhBBEiwAfXDBRyJ4T2X0c8iYKBtoLglWC1ekuEowYx1BLpAtTsHGeX9JPn5cY9sH-xoCuOwQAvD_BwE https://openai.com/blog/openai-codex https://github.com/features/copilot https://aws.amazon.com/codewhisperer/ https://www.redhat.com/en/engage/project-wisdom https://www.redhat.com/en/engage/project-wisdom como criar? O que é IA Generativa? GPT, ChatGPT e Midjourney | Alura https://www.alura.com.br/artigos/inteligencia-artificial-ia-generativa-chatgpt-gpt-midjourney?gclid=CjwKCAjwge2iBhBBEiwAfXDBRyJ4T2X0c8iYKBtoLglWC1ekuEowYx1BLpAtTsHGeX9JPn5cY9sH-xoCuOwQAvD_BwE https://www.alura.com.br/artigos/inteligencia-artificial-ia-generativa-chatgpt-gpt-midjourney?gclid=CjwKCAjwge2iBhBBEiwAfXDBRyJ4T2X0c8iYKBtoLglWC1ekuEowYx1BLpAtTsHGeX9JPn5cY9sH-xoCuOwQAvD_BwE @canetas.pretas PLN http://instagram.com/estrategiaconcursosti Conceitos Gerais ● DTE NLU Demo (ibm.com) i used a bat to kill a bat i saw a bat inside a cave https://www.ibm.com/demos/live/natural-language-understanding/self-service Desafios ● Prof. Raphael Lacerda DEEP FAKE Batman Movie Script Written By AI After Watching 1000 Hours Footage (techgrabyte.com) GPT-3 – Wikipédia, a enciclopédia livre (wikipedia.org) https://techgrabyte.com/batman-script-written-ai/ https://techgrabyte.com/batman-script-written-ai/ https://techgrabyte.com/batman-script-written-ai/ https://pt.wikipedia.org/wiki/GPT-3 https://pt.wikipedia.org/wiki/GPT-3 Bag Of Words / N-Gram Bag-of-words model - Wikipedia n-gram - Wikipedia https://en.wikipedia.org/wiki/Bag-of-words_model https://en.wikipedia.org/wiki/N-gram Cespe/SEFAZ-CE/2021 Um dos desafios do processamento de linguagem natural (PLN) é a polissemia, ou seja, a característica de palavras e frases poderem ter mais de um significado. 1. A letra da música do Chico Buarque é incrível. 2. A letra daquele aluno é inteligível FGV/RFB/2023 Em relação ao processamento de linguagem natural (PLN), analise as afirmativas a seguir. I. O PLN envolve a compreensão e a geração de linguagem natural humana. II. A tarefa principal do PLN é traduzir textos de uma língua para outra. III. O PLN não é utilizado para tarefas de processamento de voz. IV. O PLN é aplicado em sistemas de recuperação de informações e assistentes virtuais. Cespe/CNMP/2023 O data mining é um processo usado para extrair e analisar informações que revelam padrões ou tendências estratégicas do negócio. Cespe/CNMP/2023 O data mining é um processo usado para extrair e analisar informações que revelam padrões ou tendências estratégicas do negócio. certa IFMT/2023 Sobre as etapas do processo de descoberta de conhecimento e mineração de dados (KDD, Knowledge Discovery and Data Mining), numere a coluna da direita de acordo com a coluna da esquerda: 1. Seleção de dados 2. Limpeza de dados 3.Mineração de dados 4. Avaliação ( ) São aplicados algoritmos para extração de características dos dados. ( ) O subconjunto objetivado dos dados e os atributos de interesse são identificados examinando-se o conjunto de dados bruto inteiro. ( ) Os padrões são apresentados para os usuários em uma forma inteligível. ( ) Ruído e exceções são removidos, valores de campo são transformados em unidades comuns e alguns campos são criados pela combinação de campos já existentes para facilitar a análise. Normalmente, os dados são colocados em um formato relacional, e várias tabelas podem ser combinadas em uma etapa de desnormalização. IFMT/2023 Sobre as etapas do processo de descoberta de conhecimento e mineração de dados (KDD, Knowledge Discovery and Data Mining), numere a coluna da direita de acordo com a coluna da esquerda: 1. Seleção de dados 2. Limpeza de dados 3.Mineração de dados 4. Avaliação ( 3 ) São aplicados algoritmos para extração de características dos dados. ( 1 ) O subconjunto objetivado dos dados e os atributos de interesse são identificados examinando-se o conjunto de dados bruto inteiro. ( 4 ) Os padrões são apresentados para os usuários em uma forma inteligível. ( 2 ) Ruído e exceções são removidos, valores de campo são transformados em unidades comuns e alguns campos são criados pela combinação de campos já existentes para facilitar a análise. Normalmente, os dados são colocados em um formato relacional, e várias tabelas podem ser combinadas em uma etapa de desnormalização. FUNDATEC/2023 Qual é a etapa de modelagem da metodologia CRISP-DM na qual são tratados os valores nulos e pode ser necessário fazer fusão com outros dados? A Entendimento do Negócio. B Preparação de Dados. C Modelagem. D Avaliação. E Implementação. FUNDATEC/2023 Qual é a etapa de modelagem da metodologia CRISP-DM na qual são tratados os valores nulos e pode ser necessário fazer fusão com outros dados? A Entendimento do Negócio. B Preparação de Dados. C Modelagem. D Avaliação. E Implementação. Quadrix/2023 Modelagem e avaliação são algumas das fases do ciclo do CRISP-DM. Quadrix/2023 Modelagem e avaliação são algumas das fases do ciclo do CRISP-DM. certa Quadrix/2023 A inteligência artificial refere-se a um campo de conhecimento que não está associado à aprendizagem, uma vez que esta é uma capacidade puramente humana; contudo, este campo está associado à linguagem e à inteligência, ao raciocínio e à resolução de problemas. Quadrix/2023 A inteligência artificial refere-se a um campo de conhecimento que não está associado à aprendizagem, uma vez que esta é uma capacidade puramente humana;contudo, este campo está associado à linguagem e à inteligência, ao raciocínio e à resolução de problemas. errada Engenharia de Dados #BigData, NoSQL O que fazer com o dado? Modern Data Architecture: An Overview of Lambda and Kappa Architectures | Credera https://www.credera.com/insights/modern-data-architecture-an-overview-of-lambda-and-kappa-architectures https://www.credera.com/insights/modern-data-architecture-an-overview-of-lambda-and-kappa-architectures O que fazer com o dado? CQM - Big data toepassing in de praktijk https://cqm.nl/nl/nieuws/big-data-toepassing-in-de-praktijk Prof. Raphael Lacerda https://seedscientific.com/how-much-data-is-created-every-day/ https://blog.microfocus.com/how-much-data-is-created-on-the-internet-each-day/ "Data is the new oil" https://seedscientific.com/how-much-data-is-created-every-day/ https://blog.microfocus.com/how-much-data-is-created-on-the-internet-each-day/ Prof. Raphael Lacerda "Data is the new oil" http://www.youtube.com/watch?v=VLAnBI2B4OY Prof. Raphael Lacerda "Data is the new oil" https://www.weforum.org/agenda/2019/04/how-much-data-is-generated-each-day-cf4bddf29f/ https://www.weforum.org/agenda/2019/04/how-much-data-is-generated-each-day-cf4bddf29f/ 5 v's The 5 V’s of Big Data. Volume, Velocity, Variety, Veracity… | by Surya Gutta | Analytics Vidhya (medium.com) https://medium.com/analytics-vidhya/the-5-vs-of-big-data-2758bfcc51d https://medium.com/analytics-vidhya/the-5-vs-of-big-data-2758bfcc51d https://medium.com/analytics-vidhya/the-5-vs-of-big-data-2758bfcc51d https://medium.com/analytics-vidhya/the-5-vs-of-big-data-2758bfcc51d No âmbito da ciência de dados na definição de Big Data, utilizam-se características ou atributos que alguns pesquisadores adotam como sendo os cinco Vs. Porém, a base necessária para o reconhecimento de Big Data é formada por três propriedades: A valor, velocidade e volume. B valor, veracidade e volume. C variedade, velocidade e volume. D variedade, valor e volume. E velocidade, veracidade e volume. Prof. Raphael Lacerda Cespe/SEFAZ-BA/2019 “Atualmente, no contexto do Big Data e Data Analytics, faz-se referência às características enunciadas por pesquisadores e produtores de soluções como sendo um conjunto de cinco Vs. Originalmente, a definição clássica de Big Data fez referência a três Vs fundamentais: _____, _____ e _____ de dados que demandam formas inovadoras e rentáveis de processamento da informação, para melhor percepção e tomada de decisão.” Assinale a opção cujos itens completam corretamente as lacunas do fragmento acima, na ordem apresentada. A valor – variança – veracidade. B validade – velocidade – vocabulário. C valor – variabilidade – viscosidade. D variedade – velocidade – volume. E valor – volatilidade – volume FGV/SEFAZ-AM/2022 Cespe/SERPRO/2021 Big data caracteriza-se, principalmente, por volume, variedade e velocidade, o que se justifica devido ao fato de os dados serem provenientes de sistemas estruturados, que são maioria, e de sistemas não estruturados, os quais, embora ainda sejam minoria, vêm, ao longo dos anos, crescendo consideravelmente. Cespe/SERPRO/2021 No que se refere aos três Vs do big data, o termo volume refere-se a dados que, atualmente, não são estruturados nem armazenados em tabelas relacionais, o que torna sua análise mais complexa. @canetas.pretas STORYTELLING http://instagram.com/estrategiaconcursosti Como uma história deve ser contada? “o sucesso da visualização de dados não começa com a visualização de dados”. Antes disso, deve-se haver uma preocupação em entender o contexto e qual é a real necessidade do público-alvo ● Como sumarizar um conjunto de números muito grande? ○ Resposta: ver figuras desses números Análise Exploratória ● resumir as características de um dataset usando meios visuais ● responsabilidade do profissional que faz a análise / intransferível ● Técnicas: histograma, pareto, PCA, dispersão Análise Exploratória: primeiros passos | AluraAnálise exploratória de dados – Wikipédia, a enciclopédia livre (wikipedia.org) https://www.alura.com.br/artigos/analise-exploratoria?gclid=CjwKCAjwsvujBhAXEiwA_UXnAIY4qQKs0msKcIadjS05_fsZSQZozIUnTCs0P7yu_EJrRfwTKHGGVxoCV-sQAvD_BwE https://pt.wikipedia.org/wiki/An%C3%A1lise_explorat%C3%B3ria_de_dados https://pt.wikipedia.org/wiki/An%C3%A1lise_explorat%C3%B3ria_de_dados Análise Exploratória “Quando fazemos uma análise exploratória, é como procurar pérolas em ostras. Talvez precisemos de 100 ostras para encontrarmos duas pérolas”. Explanatória ● transformar os dados em informações que possam ser consumidas por um público ● Menos é mais: análise exploratória x análise explanatória | by Letícia Gerola | Joguei os Dados | Medium Na hora de comunicar a análise, a história que você deseja contar não é sobre as 100 ostras — mas sim sobre as duas pérolas garimpadas no processo. Contar sobre as pérolas é explanar a sua análise Análise Explanatória: Você não precisa contar sobre tudo que viu | by César Germano | Data Hackers | Medium https://medium.com/joguei-os-dados/menos-%C3%A9-mais-an%C3%A1lise-explorat%C3%B3ria-x-an%C3%A1lise-explanat%C3%B3ria-6d6c491e70cc https://medium.com/joguei-os-dados/menos-%C3%A9-mais-an%C3%A1lise-explorat%C3%B3ria-x-an%C3%A1lise-explanat%C3%B3ria-6d6c491e70cc https://medium.com/data-hackers/an%C3%A1lise-explanat%C3%B3ria-voc%C3%AA-n%C3%A3o-precisa-contar-sobre-tudo-que-viu-ecb0255cc3ac https://medium.com/data-hackers/an%C3%A1lise-explanat%C3%B3ria-voc%C3%AA-n%C3%A3o-precisa-contar-sobre-tudo-que-viu-ecb0255cc3ac https://medium.com/data-hackers/an%C3%A1lise-explanat%C3%B3ria-voc%C3%AA-n%C3%A3o-precisa-contar-sobre-tudo-que-viu-ecb0255cc3ac @canetas.pretas NOSQL http://instagram.com/estrategiaconcursosti Bancos relacionais ● ACID ● Consistência / integridade referencial ● SQL ● Normalização ● Ferramentas ● Know How ● Atende à maioria dos problemas ● escalabilidade vertical ● fácil de gerencial ● backups facilitados NoSQL, Por que? ● BigData ● dados distribuídos ● escalabilidade horizontal ● sharding por default ● diferentes formatos ● schema free ● ausência de SQL ● ACID vs escalabilidade ● iOT ● velocidade de acesso ● full text search ● cluster de dados ● integridade nem sempre será possível ● baixo know how Prof. Raphael Lacerda timeline pages.di.unipi.it/turini/Basi di Dati/Slides/11.NoSQL-slides.pdf Comprehensive NoSQL Tutorial For Beginners (digitalvidya.com) SQL and NoSQL evolution | Mastering MongoDB 3.x (packtpub.com) NoSQL Relational Database Management System: Home Page (strozzi.it) http://pages.di.unipi.it/turini/Basi%20di%20Dati/Slides/11.NoSQL-slides.pdf http://pages.di.unipi.it/turini/Basi%20di%20Dati/Slides/11.NoSQL-slides.pdf https://www.digitalvidya.com/blog/nosql-tutorial/ https://www.digitalvidya.com/blog/nosql-tutorial/ https://subscription.packtpub.com/book/web-development/9781783982608/1/ch01lvl1sec03/sql-and-nosql-evolution https://subscription.packtpub.com/book/web-development/9781783982608/1/ch01lvl1sec03/sql-and-nosql-evolution http://www.strozzi.it/cgi-bin/CSA/tw7/I/en_US/NoSQL/Home%20Page http://www.strozzi.it/cgi-bin/CSA/tw7/I/en_US/NoSQL/Home%20Page Prof. Raphael Lacerda NoSQL Ele pode ser interpretado de forma literal como “não SQL” (ausência de linguagem SQL) ou como “Not Only SQL” (Não Apenas SQL), apesar de Sadalage e Fowler (2019) recomendarem apenas o uso de NoSQL, pois até mesmo bancos de dados tradicionais, como Oracle e Postgres, poderiam se enquadrar nessa classificação. B1806040612.pdf (iosrjournals.org) NoSQL: What's in a name? | Blog (sym-link.com) DB-Engines Ranking - popularity ranking of database management systems A Brief History ofNoSQL - All About the Code (knuthaugen.no) https://www.iosrjournals.org/iosr-jce/papers/Vol18-issue6/Version-4/B1806040612.pdf https://blog.sym-link.com/posts/2009/30/nosql_whats_in_a_name/ https://blog.sym-link.com/posts/2009/30/nosql_whats_in_a_name/ https://db-engines.com/en/ranking https://db-engines.com/en/ranking http://blog.knuthaugen.no/2010/03/a-brief-history-of-nosql.html http://blog.knuthaugen.no/2010/03/a-brief-history-of-nosql.html Prof. Raphael Lacerda NoSQL https://micreiros.com/tipos-de-bancos-de-dados-nosql/ https://micreiros.com/tipos-de-bancos-de-dados-nosql/ Prof. Raphael Lacerda Teorema CAP https://autociencia.blogspot.com/2020/01/scylladb-um-banco-de-dados-nosql-big-data.html https://blog.caelum.com.br/nosql-do-teorema-cap-para-paccl/ https://autociencia.blogspot.com/2020/01/scylladb-um-banco-de-dados-nosql-big-data.html https://blog.caelum.com.br/nosql-do-teorema-cap-para-paccl/ FGV/RFB/2023 No âmbito de bancos dados, especialmente NoSQL, o Teorema CAP sustenta que há três requerimentos básicos que existem numa relação especial quando se projeta uma aplicação com uma arquitetura distribuída. Basicamente, respalda a tese de que não se pode obter os três simultaneamente. Esses três requerimentos são (A) Consistency, Atomic transactions e Partition. (B) Concurrency Partition, Availability e Tolerance. (C) Consistency, Availability e Partition Tolerance. (D) Consistency, Atomic transactions e Persistency. (E) Caching, Availability e Persistency. FGV/RFB/2023 Bancos de dados NoSQL são usualmente divididos em categorias de store. Assinale a opção que apresenta o tipo de store que privilegia velocidade, capacidade de leitura e escrita e estruturas de dados flexíveis, sem a necessidade de esquemas estabelecidos previamente. (A) Document. (B) Key Value. (C) Wide-Column. (D) Graph. (E) Full Text. FGV/RFB/2023 Bancos de dados NoSQL são usualmente divididos em categorias de store. Assinale a opção que apresenta o tipo de store que privilegia velocidade, capacidade de leitura e escrita e estruturas de dados flexíveis, sem a necessidade de esquemas estabelecidos previamente. (A) Document. (B) Key Value. (C) Wide-Column. (D) Graph. (E) Full Text. CESGRANRIO/BB/2023 Considere um cenário no qual uma empresa de investi- mentos financeiros tenha realizado uma campanha para que seus colaboradores indicassem outras pessoas que pudessem vir a estar interessadas em seus produtos e serviços. Esses colaboradores também foram estimula- dos a informar a sua ligação com as pessoas indicadas (ex: amigo, irmão, primo) e as eventuais ligações entre as pessoas indicadas. Estes relacionamentos são impor- tantes para a definição da próxima campanha dessa em- presa. O banco de dados NoSQL mais indicado para representar esses dados é o que utiliza o modelo (A) relacional (B) chave/valor (C) orientado a grafos (D) orientado a documentos (E) orientado a colunas CESGRANRIO/BB/2023 Considere um cenário no qual uma empresa de investi- mentos financeiros tenha realizado uma campanha para que seus colaboradores indicassem outras pessoas que pudessem vir a estar interessadas em seus produtos e serviços. Esses colaboradores também foram estimula- dos a informar a sua ligação com as pessoas indicadas (ex: amigo, irmão, primo) e as eventuais ligações entre as pessoas indicadas. Estes relacionamentos são impor- tantes para a definição da próxima campanha dessa em- presa. O banco de dados NoSQL mais indicado para representar esses dados é o que utiliza o modelo (A) relacional (B) chave/valor (C) orientado a grafos (D) orientado a documentos (E) orientado a colunas O Mongo DB é citado frequentemente como um dos bancos de dados não relacionais (NoSQL) mais utilizados no mundo. Assinale a opção que apresenta o elemento disponível nesse sistema que mais se assemelha à ideia de tabela relacional. (A) Cluster. (B) Collection. (C) Database. (D) Document. (E) Index. FGV/SEFAZ-MT/2023 O Mongo DB é citado frequentemente como um dos bancos de dados não relacionais (NoSQL) mais utilizados no mundo. Assinale a opção que apresenta o elemento disponível nesse sistema que mais se assemelha à ideia de tabela relacional. (A) Cluster. (B) Collection. (C) Database. (D) Document. (E) Index. FGV/SEFAZ-MT/2023 https://www.mongodb.com/docs/ma nual/reference/sql-comparison/ https://www.mongodb.com/docs/manual/reference/sql-comparison/ https://www.mongodb.com/docs/manual/reference/sql-comparison/ Prof. Raphael Lacerda FGV/CGU/2021 Sobre o MongoDB v5.0, considere as afirmativas a seguir. I. Todos os documentos de uma coleção (collection) devem possuir o mesmo número de campos (fields). II. Um campo presente em diferentes documentos de uma collection pode ter diferentes tipos de dados ao longo dos documentos. III. MongoDB oferece a capacidade de validar esquemas durante operações de inserção (insertion) e atualização (update). Está correto o que se afirma em: A somente I; B somente III; C somente I e II; D somente II e III; E I, II e III. Prof. Raphael Lacerda FGV/CGU/2021 Sobre o MongoDB v5.0, considere as afirmativas a seguir. I. Todos os documentos de uma coleção (collection) devem possuir o mesmo número de campos (fields). II. Um campo presente em diferentes documentos de uma collection pode ter diferentes tipos de dados ao longo dos documentos. III. MongoDB oferece a capacidade de validar esquemas durante operações de inserção (insertion) e atualização (update). Está correto o que se afirma em: A somente I; B somente III; C somente I e II; D somente II e III; E I, II e III. Cespe/2022 Nos sistemas orientados a documentos NoSQL, como o MongoDB, os novos documentos devem ter elementos de dados que já existem em documentos atuais da coleção. Cespe/2022 Nos sistemas orientados a documentos NoSQL, como o MongoDB, os novos documentos devem ter elementos de dados que já existem em documentos atuais da coleção. ERRADA Ecossistema Hadoop Ecosystem and Their Components - A Complete Tutorial - DataFlair (data-flair.training) https://data-flair.training/blogs/hadoop-ecosystem-components/ https://data-flair.training/blogs/hadoop-ecosystem-components/ https://data-flair.training/blogs/hadoop-ecosystem-components/ No contexto do Hadoop MapReduce Framework, assinale o ciclo típico de tipos de entradas e saídas (input and output) em uma tarefa. a) (input) <k1, v1> -> filter -> <k2, v2> -> sort -> <k3, v3> -> mapreduce -> <k3, v3> (output) b) (input) <k1, v1> -> map -> <k1, v1> -> reduce -><k2, v2> (output) c) (input) <k1, v1> -> map -> <k2, v2> -> combine -> <k2, v2> -> reduce <k3, v3> (output) d) (input) <k1, v1> -> map -> <k2, v2> -> filter -> <k3, v3> -> reduce -> <k4,v4> (output) e) (input) <k1, v1> -> sort -> <k2, v2> -> map -> <k3, v3> -> reduce -> <k4, v4> (output) FGV/SEFAZ-MT/2023 No contexto do Hadoop MapReduce Framework, assinale o ciclo típico de tipos de entradas e saídas (input and output) em uma tarefa. a) (input) <k1, v1> -> filter -> <k2, v2> -> sort -> <k3, v3> -> mapreduce -> <k3, v3> (output) b) (input) <k1, v1> -> map -> <k1, v1> -> reduce -><k2, v2> (output) c) (input) <k1, v1> -> map -> <k2, v2> -> combine -> <k2, v2> -> reduce <k3, v3> (output) d) (input) <k1, v1> -> map -> <k2, v2> -> filter -> <k3, v3> -> reduce -> <k4,v4> (output) e) (input) <k1, v1> -> sort -> <k2, v2> -> map -> <k3, v3> -> reduce -> <k4, v4> (output) FGV/SEFAZ-MT/2023 FGV/RFB/2023 Assinale a opção que melhor descreve a diferença entre os frameworks Apache Spark e Apache Hadoop, no contexto do processamento de Big Data. (A) O processamento de dados no Spark é mais rápido do que no Hadoop, pois ele é baseado em memória e utiliza RDDs, enquanto o Hadoop é baseadoem disco e utiliza MapReduce. (B) O processamento de dados no Hadoop é mais rápido do que no Spark, pois o Hadoop é mais escalável e utiliza clusters maiores, enquanto o Spark é limitado pelo tamanho do cluster. (C) O Spark é mais adequado para cargas de trabalho mais pesadas, enquanto o Hadoop é melhor para cargas de trabalho mais leves e interativas. (D) O Spark e o Hadoop utilizam as mesmas técnicas de processamento de dados, mas o Spark é mais adequado para casos de uso em que a latência é um fator crítico, enquanto o Hadoop é mais adequado para casos de uso em que a capacidade de processamento em lote é mais importante (E) O Hadoop é uma tecnologia mais recente que oferece melhorias, em relação ao Spark, em termos de desempenho e velocidade de processamento. FGV/RFB/2023 Assinale a opção que melhor descreve a diferença entre os frameworks Apache Spark e Apache Hadoop, no contexto do processamento de Big Data. (A) O processamento de dados no Spark é mais rápido do que no Hadoop, pois ele é baseado em memória e utiliza RDDs, enquanto o Hadoop é baseado em disco e utiliza MapReduce. (B) O processamento de dados no Hadoop é mais rápido do que no Spark, pois o Hadoop é mais escalável e utiliza clusters maiores, enquanto o Spark é limitado pelo tamanho do cluster. (C) O Spark é mais adequado para cargas de trabalho mais pesadas, enquanto o Hadoop é melhor para cargas de trabalho mais leves e interativas. (D) O Spark e o Hadoop utilizam as mesmas técnicas de processamento de dados, mas o Spark é mais adequado para casos de uso em que a latência é um fator crítico, enquanto o Hadoop é mais adequado para casos de uso em que a capacidade de processamento em lote é mais importante (E) O Hadoop é uma tecnologia mais recente que oferece melhorias, em relação ao Spark, em termos de desempenho e velocidade de processamento. FUNDATEC/2023 Sobre Apache Spark, analise as assertivas abaixo e assinale a alternativa correta. I. De forma geral, o Spark é uma engine rápida, escrita em Scala, para processamento de grandes volumes de dados em um cluster de computadores. II. Scala é uma linguagem funcional que roda na JVM. III. O Spark, assim como o Hadoop, também foi pensado para ser escalável. IV. Umas das grandes vantagens do Spark em relação ao Hadoop são as High Level API’s de programação. Enquanto que o Hadoop é nativamente apenas Java, no Spark, temos a disposição API ’s em Scala, Java e Python. FUNDATEC/2023 Sobre Apache Spark, analise as assertivas abaixo e assinale a alternativa correta. I. De forma geral, o Spark é uma engine rápida, escrita em Scala, para processamento de grandes volumes de dados em um cluster de computadores. II. Scala é uma linguagem funcional que roda na JVM. III. O Spark, assim como o Hadoop, também foi pensado para ser escalável. IV. Umas das grandes vantagens do Spark em relação ao Hadoop são as High Level API’s de programação. Enquanto que o Hadoop é nativamente apenas Java, no Spark, temos a disposição API ’s em Scala, Java e Python. SEFAZ-MG/2023 Matei Zaharia et al. propuseram o framework Spark como alternativa para processar workloads que reutilizam dados através de múltiplas operações paralelas. As opções a seguir apresentam características do framework Spark, à exceção de uma. Assinale-a. A Spark oferece suporte a dois tipos restritos de variáveis compartilhadas: broadcast e accumulators. B Spark prove três principais abstrações para a programação paralela: RDDs, operações paralelas, e operações de comunicação. C Os RDDs suportam tolerância a falhas por meio do conceito de linhagem (lineage). D Os usuários podem explicitamente armazenar RDDs em cache na memória entre um conjunto de máquinas e reutilizá-lo em várias operações paralelas. E RDDs (resilient distributed datasets) ou conjunto de dados distribuído resiliente é uma coleção de objetos de só leitura particionados em um conjunto de máquinas e pode ser reconstruído caso alguma partição for perdida. SEFAZ-MG/2023 Matei Zaharia et al. propuseram o framework Spark como alternativa para processar workloads que reutilizam dados através de múltiplas operações paralelas. As opções a seguir apresentam características do framework Spark, à exceção de uma. Assinale-a. A Spark oferece suporte a dois tipos restritos de variáveis compartilhadas: broadcast e accumulators. B Spark prove três principais abstrações para a programação paralela: RDDs, operações paralelas, e operações de comunicação. C Os RDDs suportam tolerância a falhas por meio do conceito de linhagem (lineage). D Os usuários podem explicitamente armazenar RDDs em cache na memória entre um conjunto de máquinas e reutilizá-lo em várias operações paralelas. E RDDs (resilient distributed datasets) ou conjunto de dados distribuído resiliente é uma coleção de objetos de só leitura particionados em um conjunto de máquinas e pode ser reconstruído caso alguma partição for perdida. CEspe/AGER/2023 O volume de informações digitais heterogêneas sobre processos judiciais está crescendo diariamente, especialmente quando correlações com bases de dados de outros contextos são criadas. Observe o seguinte exemplo de representação gráfica de uma pequena amostra do dataset ProcessosJudiciais, contendo nós, arestas e propriedades, armazenado em um banco de dados massivo. Imagem associada para resolução da questão Para armazenar o dataset ProcessosJudiciais exemplificado, é necessário utilizar um banco de dados: A ágil; B de grafos; C chave-valor; D orientado a objeto; E orientado a documentos. CEspe/AGER/2023 O volume de informações digitais heterogêneas sobre processos judiciais está crescendo diariamente, especialmente quando correlações com bases de dados de outros contextos são criadas. Observe o seguinte exemplo de representação gráfica de uma pequena amostra do dataset ProcessosJudiciais, contendo nós, arestas e propriedades, armazenado em um banco de dados massivo. Imagem associada para resolução da questão Para armazenar o dataset ProcessosJudiciais exemplificado, é necessário utilizar um banco de dados: A ágil; B de grafos; C chave-valor; D orientado a objeto; E orientado a documentos. Ciência de Dados Prof. Raphael Lacerda Árvores de Decisão https://www.youtube.com/watch?v=E-gpSQQe3w8 Muthu Alagappan at TEDxSpokane Prof. Raphael Lacerda Classificação https://www.youtube.com/watch?v=E-gpSQQe3w8 Técnicas - Classificação Prof. Raphael Lacerda https://bolapresa.com.br/as-13 -posicoes-do-basquete/ https://bolapresa.com.br/as-13-posicoes-do-basquete/ https://bolapresa.com.br/as-13-posicoes-do-basquete/ Prof. Raphael Lacerda Regressão / Predição https://shottracker.co m/articles/the-3-point -revolution https://shottracker.com/articles/the-3-point-revolution https://shottracker.com/articles/the-3-point-revolution https://shottracker.com/articles/the-3-point-revolution Prof. Raphael Lacerda Regressão / Predição Prof. Raphael Lacerda Associação Prof. Raphael Lacerda Agrupamento clusterização em SC Prof. Raphael Lacerda https://www.aquare.la/inteligencia-artificial-aplicada-as-obras-de-santa-catarina/ https://www.aquare.la/inteligencia-artificial-aplicada-as-obras-de-santa-catarina/ clusterização em SC Prof. Raphael Lacerda https://www.aquare.la/inteligencia-artificial-aplicada-as-obras-de-santa-catarina/ https://www.aquare.la/inteligencia-artificial-aplicada-as-obras-de-santa-catarina/ Cespe/DPE-RO/2022 Em um processo de data mining, na construção de relações sob a forma de regras entre itens de uma base de dados transacional, é usada a técnica denominada A clustering. B regras de associação. C hierarquias de classificação. D padrões sequenciais. E padrões em séries temporais. FGV/SEFAZ-AM/2022 O tipo de aprendizado máquina, que consiste em treinar um sistema a partirde dados que não estão rotulados e/ou classificados e utilizar algoritmos que buscam descobrir padrões ocultos que agrupam as informações de acordo com semelhanças ou diferenças, é denominado A dinâmico. B sistêmico. C por reforço. D supervisionado. E não supervisionado. Prof. Raphael Lacerda FGV/SEFAZ-ES/2021 Maria está preparando um relatório sobre as empresas de serviços de um município, de modo a identificar e estudar o porte dessas empresas com vistas ao estabelecimento de políticas públicas e previsões de arrecadação. Maria pretende criar nove grupos de empresas, de acordo com os valores de faturamento, e recorreu às técnicas usualmente empregadas em procedimentos de data mining para estabelecer as faixas de valores de cada grupo. Assinale a opção que apresenta a técnica diretamente aplicável a esse tipo de classificação. A Algoritmos de associação. B Algoritmos de clusterização. C Árvores de decisão. D Modelagem de dados. E Regressão linear. FUNDATEC/2023 Relacione a Coluna 1 à Coluna 2, associando as categorias de aprendizado de máquina às suas características. Coluna 1 1. Aprendizado Supervisionado. 2. Aprendizado Não Supervisionado. 3. Aprendizado Profundo. Coluna 2 ( ) O algoritmo recebe um conjunto de dados rotulados e aprende comparando a saída do modelo com a saída esperada, reajustando seus parâmetros até chegar em um limiar aceitável e pré-determinado a priori. ( ) Os algoritmos buscam encontrar padrões ou estruturas em conjuntos de dados não rotulados, por exemplo, gerando agrupamentos de dados. ( ) Conjunto de algoritmos que modelam abstrações de alto nível de dados usando grafos com várias camadas de processamento, compostas de várias transformações lineares e não lineares. ( ) Processo de aprendizado baseado em redes neurais com várias camadas (em geral, mais de cinco camadas): entrada, saída e oculta. A ordem correta de preenchimento dos parênteses, de cima para baixo, é: FUNDATEC/2023 Relacione a Coluna 1 à Coluna 2, associando as categorias de aprendizado de máquina às suas características. Coluna 1 1. Aprendizado Supervisionado. 2. Aprendizado Não Supervisionado. 3. Aprendizado Profundo. Coluna 2 ( 1) O algoritmo recebe um conjunto de dados rotulados e aprende comparando a saída do modelo com a saída esperada, reajustando seus parâmetros até chegar em um limiar aceitável e pré-determinado a priori. (2 ) Os algoritmos buscam encontrar padrões ou estruturas em conjuntos de dados não rotulados, por exemplo, gerando agrupamentos de dados. ( 3) Conjunto de algoritmos que modelam abstrações de alto nível de dados usando grafos com várias camadas de processamento, compostas de várias transformações lineares e não lineares. ( 3) Processo de aprendizado baseado em redes neurais com várias camadas (em geral, mais de cinco camadas): entrada, saída e oculta. A ordem correta de preenchimento dos parênteses, de cima para baixo, é: CEspe/AGER/2023 Em machine learning, quando algoritmos de aprendizado de máquina são usados para analisar e agrupar conjuntos de dados não rotulados, de forma tal que os algoritmos descobrem padrões ocultos sem a necessidade de intervenção humana, usa-se a forma de aprendizado do tipo A não supervisionado. B supervisionado. C over fitting. D under fitting. E classificação. CESPE/AGER/2023 Em machine learning, quando algoritmos de aprendizado de máquina são usados para analisar e agrupar conjuntos de dados não rotulados, de forma tal que os algoritmos descobrem padrões ocultos sem a necessidade de intervenção humana, usa-se a forma de aprendizado do tipo A não supervisionado. B supervisionado. C over fitting. D under fitting. E classificação. Cesngrario/BB/2023 Sabendo que existe, na organização em que trabalha, uma base de dados formada por uma grande tabela que contém apenas o id do cliente e colunas do tipo booleano indicando se um cliente possuía ou já tinha possuído cada produto da organização, um funcionário de TI resolveu dividir os clientes em grupos apenas com base nessa informação, utilizando aprendizado de máquina. Para essa tarefa, o funcionário de TI deve utilizar o aprendizado de máquina A independente B não supervisionado C por recompensa D por reforço E supervisionado Cesngrario/BB/2023 Sabendo que existe, na organização em que trabalha, uma base de dados formada por uma grande tabela que contém apenas o id do cliente e colunas do tipo booleano indicando se um cliente possuía ou já tinha possuído cada produto da organização, um funcionário de TI resolveu dividir os clientes em grupos apenas com base nessa informação, utilizando aprendizado de máquina. Para essa tarefa, o funcionário de TI deve utilizar o aprendizado de máquina A independente B não supervisionado C por recompensa D por reforço E supervisionado Fundatec/2023 __________ consiste em uma análise estatística que envolve duas variáveis: a de resposta e a preditiva, e considera que o valor da variável de resposta (ou dependente) pode ser estimado por uma combinação de variáveis explicativas (dependentes). Já quando a variável de resultado é de natureza categórica, __________ pode ser usada para prever a probabilidade de um resultado com base nas variáveis de entrada que podem ser explicativas, contínuas e/ou binárias. Assinale a alternativa que preenche, correta e respectivamente, as lacunas do trecho acima. Alternativas A Rede Neural Recorrente – Rede Neural Convolucional B Random Forest – K-Means C Regressão Linear – Regressão Logística D k-Means – k-Nearest Neighbors E Suport Vector Machine – Radom Forest Fundatec/2023 __________ consiste em uma análise estatística que envolve duas variáveis: a de resposta e a preditiva, e considera que o valor da variável de resposta (ou dependente) pode ser estimado por uma combinação de variáveis explicativas (dependentes). Já quando a variável de resultado é de natureza categórica, __________ pode ser usada para prever a probabilidade de um resultado com base nas variáveis de entrada que podem ser explicativas, contínuas e/ou binárias. Assinale a alternativa que preenche, correta e respectivamente, as lacunas do trecho acima. Alternativas A Rede Neural Recorrente – Rede Neural Convolucional B Random Forest – K-Means C Regressão Linear – Regressão Logística D k-Means – k-Nearest Neighbors E Suport Vector Machine – Radom Forest FGV/Sefaz-MT/2023 I. Os resultados de um algoritmo de clusterização baseados em grafo são normalmente mostrados como um dendrograma. II. Os métodos baseados em densidade são adequados para descobrir clusters com forma arbitrária, tais como elíptica, cilíndrica ou espiralada. III. K-Means e K-Medaids são algoritmos de clusterização aglomerativa que dividen a base de dados em k-grupos, onde o número k é dado pelo usuário. FGV/Sefaz-MT/2023 I. Os resultados de um algoritmo de clusterização baseados em grafo são normalmente mostrados como um dendrograma. II. Os métodos baseados em densidade são adequados para descobrir clusters com forma arbitrária, tais como elíptica, cilíndrica ou espiralada. III. K-Means e K-Medaids são algoritmos de clusterização aglomerativa que dividen a base de dados em k-grupos, onde o número k é dado pelo usuário. FUNDATEC/2023 __________ é um método de classificação binária que traça um hiperplano ótimo que maximiza a margem de separação entre duas classes de dados. A etapa principal do algoritmo é descobrir os vetores que são as instâncias equidistantes do hiperplano. Assinale a alternativa que preenche corretamente a lacuna do trecho acima. Alternativas A Random Forest B Support Vector Machine (SVM) C k-Nearest Neighbors D Naïve Bayes E k-Means FUNDATEC/2023 __________ é um método de classificação binária que traça um hiperplano ótimo
Compartilhar