Baixe o app para aproveitar ainda mais
Prévia do material em texto
Análise de dados como suporte à tomada de decisão – Módulo 2UNIDADE 1o que é o pré-processamento de dados e para conhecer os principais tipos de fontes de dados, como os dados de processos organizacionais, dados de instituições de pesquisa e dados da internet e mídias sociais. SHARDA, Ramesh; DELEN, Dursun; TURBAN, Efraim. Business Intelligence e Análise de Dados para Gestão do Negócio, 4 ed. Porto Alegre: Bookman, 2019. Pré- processamento de dados:De onde vem os dados utilizados na análise de dados? Eles vêm de diferentes fontes, banco de dados, internet, etc..Eles não vêm prontos, por isso precisam ser trabalhados.ELES SÃO:* Sujos: Erros de preenchimento, duplicidades, vazios) * Desorganizados (variedades de fontes e formatos) * Excessivamente complexos: (Distribuídos em várias tabelas relacionadas, diferentes padrões de preenchimento) * Imprecisos: (Erros de digitação, ausência de regras de validação de entradas) O que é pré-processamento de dados? Pré-processamento consiste na realização da preparação dos dados para análise utilizando técnicas e ferramentas adequadas. Envolve as seguintes tarefas: * Consolidação de dados: Buscar as informações de diferentes fontes e integrá-las. - coletar dados - selecionar os dados - integrar os dados * Limpeza de dados - imputar valores - Reduzir ruído – Eliminar duplicidades * Transformação de dados – Normalizar dados – Discretizar Dados – Criar atributos * Redução de dados – Reduzir dimensão – Reduzir volume – Equilibrar dados Unidade 2: Fontes de dados do governo federal Concluindo esta unidade, você terá identificado os sistemas de informação e os serviços de dados do governo federal, que são as principais fontes de dados da administração pública. Os principais sistemas de informação do governo federal como o Siorg, Sigepe, Siape, SCDP, Siest, Siasg, Portal de Compras do Governo Federal (Comprasnet), e os principais serviços de dados do governo federal: Dados do IBGE, Dados do Ipea, Dados do Banco Central, Portal Brasileiro de Dados Abertos e o Portal da Transparência, da CGU. SIOP : Sistema Integrado de planejamento e Orçamento do governo (www.siop.planejamento.gov.br) Sistema responsável por auxiliar na elaboração do PPA, LDO, LOA SIAF: Sistema integrado de Administração Financeira (siaf.tesouro.gov.br) Esse sistema faz o acompanhamento dos gastos, da gestão financeira do planejamento executado na etapa anterior) SIGEPE: Sistema de gestão de pessoas do Governo (www.gov.br/servidor/pt.br) SIAPE: Sistema Integrado de Adminsitração de recursos humanos (www.siapenet.gov.br) SIAPE E SIGEPE: eles atuam juntos os dados dos servidores publicos, ativos, aposentados e pensionistas. SIEST: Sistema de Informações das empresas estatais (siest.planejamento.gov.br) SIASG: Sistema Integrado de administração de serviços gerais (www.comprasnet.gov.br) Comprasnet: Portal de compras do governo federal (www.comprasnt.gov.br) SITES DA RECEITA FEDERAL: CPF: Cadastro pessoa física CAEPF: Cadastro de atividade econômica da Pessoa Física CNO: Cadastro nacional de obras CNPJ: Cadastro nacional da pessoa jurídica INSS CEI: Cadastro específico do INSS CAFIR: Cadastro de imóveis Rurais; e CNIR: Cadastro Nacional de Imóveis Rurais. IBGE: API de Serviço de Dados. IBGE [s.d.]. Disponível em: servicodados.ibge.gov.br. Acesso em: 16 fev. 2021. IPEA: Instituto de Pesquisa Econômica aplicada Disponível em: www.ipeadata.gov.br. Acesso em: 16 fev. 2021. PORTAL BRASILEIRO DE DADOS ABERTOS: dados.gov.br CGU: Portal da transparência: www.portaltransparencia.gov.br 📚 Referências – API de Serviço de Dados. IBGE [s.d.]. Disponível em: servicodados.ibge.gov.br. Acesso em: 16 fev. 2021. Banco Central do Brasil. Dados Abertos. Página Inicial [s.d.]. Disponível em: dadosabertos.bcb.gov.br. Acesso em: 09 fev. 2021. COMPRASNET. Página inicial do portal de compras do governo federal [s.d.]. Disponível em: www.comprasnet.gov.br. Acesso em: 16 fev. 2021. DADOS.GOV. Página inicial [s.d.]. Disponível em: dados.gov.br. Acesso em: 16 fev. 2021. ESTATÍSTICAS. Banco Central do Brasil [s.d.]. Disponível em: www.bcb.gov.br/estatisticas. Acesso em: 09 fev. 2021. GOV.BR. Cadastros [s.d.]. Disponível em: receita.economia.gov.br/orientacao/tributaria/cadastros. Acesso em: 09 fev. 2021. GOV.BR. Portal do Servidor [s.d.]. Disponível em: www.gov.br/servidor/pt-br. Acesso em: 16 fev. 2021. GOV.BR. Portal de Compras do Governo Federal [s.d.]. Disponível em: www.comprasnet.gov.br. Acesso em: 16 fev. 2021. IBGE. Página inicial [s.d.]. Disponível em: www.ibge.gov.br. Acesso em: 16 fev. 2021. IPEADATA. Página inicial [s.d.]. Disponível em: www.ipeadata.gov.br. Acesso em: 16 fev. 2021. PORTAL DA TRANSPARÊNCIA. Página inicial, c2021. Disponível em: www.portaltransparencia.gov.br. Acesso em: 16 fev. 2021. PORTAL SIAPE. Apresentação, c2021. Disponível em: http://www.siapenet.gov.br. Acesso em: 16 fev. 2021. SCDP. Página inicial [s.d.]. Disponível em: www2.scdp.gov.br. Acesso em: 16 fev. 2021. SIAFI. Página inicial [s.d.]. Disponível em: https://siafi.tesouro.gov.br. Acesso em: 16 fev. 2021. SIDRA. Página inicial [s.d.]. Disponível em: sidra.ibge.gov.br. Acesso em: 16 fev. 2021. SIEST. Página inicial [s.d.]. Disponível em: siest.planejamento.gov.br. Acesso em: 16 fev. 2021. SIOP. Acesso ao sistema [s.d.]. Disponível em: www.siop.planejamento.gov.br. Acesso em: 16 fev. 2021. Unidade 3: Taxonomia dos dados Os tópicos abordados no vídeo a seguir são: dados estruturados, dados não estruturados/textuais, dados semiestruturados, dados categóricos e dados numéricos. DADO: Simples observação de uma realidade. INFORMAÇÃO: É o dado trabalhado. DADOS: * Estruturados: São aqueles disponibilizados em formatos tabulares (linhas e colunas) contendo uma coluna para cada variável ou atributo, e restrições de tipo e formatação de valores de cada coluna. Eles podem ser subdividos, e pode ser classificado com uma taxinomia. * Não estruturados: São aqueles cujo conteúdo NÃO apresenta estrutura rígida, como textos, áudios e vídeos. DADOS SEMI ESTRUTURADOS: São aqueles cujo conteúdo, embora NÃO apresente estrutura rígida, possui algum tipo de marcação que permita seu processamento automatizado, como HTML, XML E JSON. HTML: Utilizado para páginas de internet. XML: (Extensible markup language) Produzido para permitir a integração de diferentes sistemas. JSON – Java Script Object Notation: Formato de dados leve, fácil para humanos lerem e escreverem, e fácil para as máquinas analisarem e gerarem. Unidade 4: Consolidação de dadosVamos conhecer as operações acessar e coletar dados (arquivos, bancos de dados, web), selecionar e filtrar dados e integrar e unificar dados. Em geral precisamos pegar dados de diferentes fontes, então é necessário buscá-los para reuni-los e podermos trabalhá-los. O que é consolidação de dados? Consiste na coleta, seleção e integração dos dados necessários para análise de dados. FUJIMMOTO, Márcia Myuki Takenaka; CANEDO, Edna Dias. Modelo Conceitual de Dados Baseado em Ontologia: Estudo de Caso CGU, ONTOBRAS, p. 6, 2018. Disponível em: http://ceur-ws.org/Vol-2228/short7.pdf. Acesso em: 17 fev. 2021. SHARDA, Ramesh; DELEN, Dursun; TURBAN, Efraim. Business Intelligence e Análise de Dados para Gestão do Negócio, 4 ed. Porto Alegre: Bookman, 2019. AS PRINCIPAIS TAREFAS DA CONSOLIDAÇÃO DE DADOS, SÃO: Acessar e coletar dados, selecionar e filtrar os dados e integrar e unificar dados. Unidade 5: Limpeza de dadosSão apresentadas as operações: tratar dados nulos e vazios no conjunto de dados, identificar e reduzir ruídos nos dados e encontrar e eliminar dados errados. SHARDA, Ramesh; DELEN, Dursun; TURBAN, Efraim. Business Intelligence e Análise de Dados para Gestão do Negócio, 4 ed. Porto Alegre: Bookman, 2019. Unidade 6: Transformação de dadosNormalizar dados, discretizar os dados e construir novos atributos são as operações apresentadas na próxima videoaula. SHARDA, Ramesh; DELEN, Dursun; TURBAN, Efraim. Business Intelligence e Análise de Dados para Gestãodo Negócio, 4 ed. Porto Alegre: Bookman, 2019. COMO NORMALIZAR OS DADOS? * PADRONIZAR VALORES E FORMATOS DOS DADOS (DATAS, ESCALAS DE MEDIDAS, ETC) * PADRONIZAR CLASSES (CATEGORIAS, SEXO, FAIXA DE VALORES, ETC) * HARMONIZAR CADASTROS DE FONTES (CADASTROS DE PESSOAS, BONS, IMÓVEIS, ÓRGÃOS, ENTIDADES, LOCALIDADES, ETC) COMO DERIVAR NOVAS E MAIS INFORMATIVAS VARIÁVEIS? * USANDO FUNÇÕES MATEMÁTICAS (adições, multiplicações, divisões, etc) * FAZENDO AGREGAÇÕES(Totais, médias, proporções, posições, rankings, etc) *COMBINANDO OU JUNTANDO VARIÁVEIS (Concatenações, cálculo de índices e percentuais, normalizações por unidades de referência, etc) COMO DISCRETIZAR OS DADOS? * CONVERTER VARIÁVEIS NUMÉRICAS EM REPRESENTAÇÕES DISCRETAS: usando amplitudes ou técnicas de fragmentação por frequência * REDUZIR O NÚMERO DE VALORES DE VAIÁVEIS CATEGÓRICAS: Aplicando conceitos de hierarquias. Unidade 7: Redução de dadosOs tópicos abordados no vídeo a seguir são: reduzir o número de atributos e reduzir o número de registros. SHARDA, Ramesh; DELEN, Dursun; TURBAN, Efraim. Business Intelligence e Análise de Dados para Gestão do Negócio, 4 ed. Porto Alegre: Bookman, 2019. Procura reduzir o número de atributos. Aqui se busca uma redução no número de dados. Remover colunas: remoção/redução de atributos Redução de linhas: remoção/remoção de volume
Compartilhar