Baixe o app para aproveitar ainda mais
Prévia do material em texto
Material do curso. A Ciência de Dados é uma fusão de várias disciplinas, incluindo Estatística, Ciência da Computação, Tecnologia da Informação e outros campos de estudo mais específicos, como o da Inteligência Artificial e da Gestão de Negócios. Como resultado, vários termos diferentes podem ser usados para referenciar um determinado conceito, e são várias as habilidades exigidas a um profissional de Ciência de Dados – o que torna essa área de atuação tão atrativa e, ao mesmo tempo, com vagas tão difíceis de preencher. A mineração de dados é uma das etapas da Ciência de Dados que está relacionada ao contexto do Big Data e que iremos conhecer melhor ao longo deste roteiro de estudos. Caro(a) estudante, ao ler este roteiro você vai: compreender o contexto e a importância do Big Data; adquirir os conceitos básicos de Data Mining; aprender as etapas do processo de mineração e análise de dados; descobrir tendências e métodos associados à área; e conhecer as principais ferramentas associadas à prática de mineração de dados. Preparado(a) para este desafio? Então vamos lá! Introdução Novas profissões começaram a ganhar destaque com o aumento e a velocidade com que as informações são geradas, como o cientista de dados, o analista de BI – Business Intelligence – e o engenheiro de dados. Essas profissões foram surgindo de forma a acompanhar a evolução da internet e a forma como prestamos e recebemos produtos e serviços. Dentro disso, o que se tornou conhecido como Big Data está cada vez mais influente e fazendo sentido em nossas vidas, sendo que essas grandes inovações só foram possíveis pelo advento dos recursos de coleta de dados combinados à rápida melhoria das tecnologias da computação. Como exemplo dessa realidade, você pode localizar praticamente qualquer coisa usando um mecanismo de pesquisa como o Google. Mas como o Google funciona? Os buscadores não poderiam existir sem a capacidade de processar grandes quantidades de informação a uma velocidade extremamente rápida e um software eficiente. E o mesmo se dá com a área de comércio eletrônico, sendo a Amazon um clássico exemplo disso. As pessoas podem comprar ou vender praticamente todos os tipos de produtos e serviços diariamente em lojas virtuais como a Amazon. Frequentemente, os preços on-line são mais baixos do que nas lojas tradicionais e o leque de opções é maior. Outra grande vantagem das compras on-line é a possibilidade de fornecer análises de produtos e recomendações para compras futuras – comentários de outros compradores podem fornecer informações extremamente importantes que não estão disponíveis em uma descrição fornecida pelos fabricantes. E esse tipo de recomendação que você vê nas timelines de uma rede social ou uma indicação de série no Netflix são ativadas justamente por um recurso de Big Data. Isso é feito por meio do uso de programas altamente sofisticados que analisam dados de compras e/ou comportamento do usuário ao navegar em um site, identificando itens que tendem a ser comprados ou os assuntos mais buscados pelos mesmos consumidores. Mas como isso tudo se relaciona à mineração de dados e Big Data? Vamos entender essa relação. Um site como o da Amazon, para funcionar, precisa processar enormes quantidades de informação, algo que seria impensável há alguns anos atrás, uma vez que exige um servidor capaz de armazenar muitos gigas de dados e que consiga processar tudo isso de maneira rápida e eficiente, além de conseguir transmitir as informações por uma rede veloz. Tudo isso só é possível atualmente graças à rápida melhoria das tecnologias envolvidas. Voltando ao Big Data, além dos mecanismos de pesquisa e do comércio eletrônico, a análise de dados está causando um grande impacto em um número surpreendente de outras áreas que afetam nossa vida diária, como as mídias sociais, sites de leilão, área da saúde e da educação, decisões políticas, previsão do tempo, planejamento de viagens e finanças, entre outras. No primeiro capítulo, a seguir, vamos entender melhor como essas informações que temos disponíveis se relacionam com o processo de mineração de dados. Conceitos Básicos sobre Data Mining Para falar sobre Data Mining, é importante conceituar a área de Big Data. O Big Data refere-se a conjuntos de dados muito grandes que podem ser manipulados com uso de hardware tradicional. O Big Data também envolve uso de softwares de gerenciamento, como os sistemas gerenciadores de banco de dados (SGBDs), pacotes estatísticos, servidores e outros recursos. Dentro disso, nos últimos anos, os recursos de coleta de dados tiveram um crescimento explosivo, de modo que o armazenamento, a mineração e a análise dos dados resultantes se tornaram progressivamente mais desafiadores. Com isso, muitos campos foram afetados pela crescente disponibilidade de dados, incluindo finanças, marketing e comércio eletrônico. Além desses, o Big Data também revolucionou campos mais tradicionais, como Direito e Medicina (ANDERSON; SEMMELROTH, 2015). Para que as informações nas bases de dados possam ser aproveitadas, os dados são minerados em grande escala por mecanismos de pesquisa, como o Google, e sites de mídia social, como o Facebook. Sempre que falamos em Big Data e Ciência de Dados citamos “os cinco Vs”, fatores que distinguem o campo de Big Data de outros tipos de dados. Sobre os cinco “Vs”, Rosa (2018, p. 22) afirma que: A magnitude dos dados gerados, a rapidez com a qual os dados são gerados constantemente e a diversidade deles formam o que é chamado de três Vs: Volume, Velocidade e Variedade. Posteriormente, foram adicionados os conceitos de Veracidade e Valor, passando a formar os cincos V’s do Big Data. O esquema da Figura 1 ajuda a ilustrar essas diferentes dimensões e seus conceitos associados. Figura 1 - Analisando as cinco diferentes dimensões de Big Data Fonte: Rosa (2018, p. 23). Descrição da imagem: gráfico exibindo os “5 Vs” ao redor de Big Data, cada qual com suas características, sendo eles: Veracidade (relacionado à confiabilidade, autenticidade, origem / reputação, responsabilidade e disponibilidade); Valor (relacionado a eventos estatísticos, correlacionais e hipotéticos); Variedade (relacionado a dados estruturados, não estruturados, de origem multimídia ou probabilística); Volume (que se dá na ordem de terabytes e dados distribuídos em registros, transações, tabelas e arquivos); e, por fim, Velocidade (que diz respeito ao Batch, à coleta em tempo real ou quase real, aos processos e ao streaming de dados). Desse modo, temos que a mineração de dados é uma das principais etapas do processo da Ciência de Dados, que é uma forma de extrair conhecimento a partir de grandes conjuntos de dados. Diferentes técnicas são associadas à mineração de dados, podendo envolver inteligência artificial e aprendizado de máquina, e os procedimentos são sempre baseados em regras e padrões de análise científica, de modo a obter resultados precisos e confiáveis que possam ser aproveitados na tomada de decisões estratégicas, no gerenciamento de informações e no controle de processos (FRACALANZA, 2009). LIVRO Big Data Autor: Cezar Taurion Editora: Brasport Ano: 2019 Comentário: A partir da leitura dos capítulos 1, 2 e 3, páginas 31 a 54 do livro indicado, você irá aprofundar suas noções sobre aplicações e importância da Era da Informação e do Big Data. Os capítulos iniciais do livro, disponível no sistema da Biblioteca Pearson da instituição, permite uma visão geral sobre aplicações e impactos do Big Data na atualidade, de modo a ampliar o entendimento do contexto que envolve o uso da mineração de dados. Disponível em: Biblioteca Pearson. Etapas do Processo de Data Mining O processo tradicional de análise de dados envolvia uma equipe de especialistas que, após realizar um processamento manual das informações disponíveis,gerava relatórios com o resultado das análises. Contudo, o aumento exponencial do volume nas bases de dados praticamente inviabilizou qualquer processo de análise manual, de modo que novas técnicas e ferramentas surgiram para suprir essa necessidade. Uma das primeiras soluções para esse processo foi o KDD – Knowledge Discovery in Databases ou Descoberta de Conhecimento nas Bases de Dados. O método KDD consiste em um processo de descoberta de conhecimento envolvendo o Data Mining (mineração de dados) como uma das etapas. Dentro disso, o KDD pode ser subdividido em fases que envolvem a seleção dos dados, o pré-processamento dos dados, a transformação dos dados, a mineração dos dados e, por fim, a etapa de avaliação, conforme indica a Figura 2 (CAMILO; SILVA, 2009). Figura 2 - As etapas de análise de dados pelo método KDD Fonte: Camilo e Silva (2009, p. 3). Descrição da imagem: gráfico ascendente que inicia em uma base de dados e depois passa por seleção para chegar aos dados escolhidos, depois pela etapa de pré-processamento (onde são obtidos os dados pré-processados), procedendo-se, em sequência, à transformação desses dados (que ficam como transformados), à mineração de dados (com identificação de padrões) e, por fim, à etapa de avaliação, que permite gerar conhecimento. Já em relação à etapa de mineração de dados em si, há diferentes processos e técnicas envolvidos. Um dos procedimentos adotados como padrão é o CRISP- DM (Cross-Industry Standard Process of Data Mining, ou Processo Industrial Padrão de Mineração de Dados) que, de acordo com Camilo e Silva (2009, p. 3), “[...]apesar de ser composto por fases, tem um fluxo unidirecional [...]”, ou seja, que permite ir e voltar entre as fases. Esse ciclo envolve a fase de entendimento e pesquisa dos dados, que se alternam com a fase de implantação e a de preparação de dados, as quais, por sua vez, comunicam-se com as fases de avaliação e de modelagem. Para saber mais sobre a etapa de mineração de dados, leia o artigo indicado a seguir. ARTIGO Uso de Mineração de Dados e Inteligência Artificial para Classificar Opiniões nas Redes Sociais Autores: Matheus Ferreira Caetano, Renato Soares da Silva Gonçalez e Anderson Francisco Talon Ano: 2019 Este artigo explora o conceito de mineração de dados e as etapas envolvidas nesse processo diante de uma aplicação prática – o uso da mineração de dados e da inteligência artificial para classificar dados minerados em redes sociais. A CESSA R Tarefas de Data Mining Reunir e armazenar grandes quantidades de dados é um grande desafio, mas, em última análise, o maior e mais importante desafio do Big Data é saber como aproveitar a sua base de dados. Por exemplo, uma quantidade massiva de dados somente será útil ao departamento de pesquisa de marketing de uma empresa, se a equipe responsável pela análise dos dados puder identificar as principais demandas da empresa. As empresas que atuam com pesquisa política, por exemplo, têm acesso a grandes quantidades de dados demográficos sobre os eleitores; essas informações devem ser analisadas intensivamente para encontrar os principais fatores que podem levar a uma campanha política bem- sucedida (ANDERSON; SEMMELROTH, 2015). Um fundo de financiamento também pode desenvolver estratégias de negociação a partir de grandes quantidades de dados financeiros, encontrando padrões obscuros nos dados que podem ser transformados em estratégias lucrativas. Muitas técnicas estatísticas podem ser usadas para analisar dados e encontrar padrões úteis, como distribuições de probabilidade, análises de regressão, análise de séries temporais e técnicas de previsão. Essas modalidades fazem parte das diferentes tarefas ou objetivos assumidos pela mineração de dados. Nesse sentido, Castro e Ferrari (2016, p. 28) afirmam que essas tarefas podem ser classificadas em duas categorias: a. descritivas: caracterizadas por dados e suas propriedades gerais; e b. preditivas: caracterizadas por fazerem análise de inferência com os dados para prever tendências. Para saber mais detalhes sobre análise descritiva de dados, predição por classificação e estimação, clustering, análise por associação e detecção de anomalias, que são tarefas e/ou possíveis objetivos da mineração de dados, leia o capítulo do livro indicado a seguir. LIVRO Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplicações Autores: Leandro Nunes de Castro e Daniel Gomes Ferrari Editora: Saraiva Ano: 2016 Comentário: O primeiro capítulo do livro, disponível no sistema Minha Biblioteca da instituição, traz uma visão geral do funcionamento da mineração de dados, tarefas, nomenclaturas e exemplos de aplicação que irão aprofundar seu conhecimento antes de compreender melhor os métodos de Data Mining. Considera-se importante fazer a leitura do Capítulo 1: Introdução à Mineração de Dados, da página 1 a 24. Disponível em: Minha Biblioteca. Métodos de Data Mining Para chegar à etapa da mineração de dados, antes existe a preparação ou o pré- processamento dos dados, que consiste em realizar uma limpeza (ou triagem) dos dados seguida de integração e transformação dos dados para um padrão único, conforme a necessidade. Dentro da etapa de preparação dos dados, há diferentes métodos e técnicas para cada fase, e a escolha das ferramentas e técnicas que serão utilizadas também depende dos objetivos da mineração dos dados – se se pretende realizar Data Mining para descrição de padrões para fins de classificação, de agrupamento, de associação, de predição ou de estimativa – que, como vimos no capítulo anterior, são as diferentes tarefas ou objetivos de um projeto de mineração de dados. Os métodos que podem ser usados para a mineração de dados, em si, envolvem aprendizado supervisionado (preditivo) ou não supervisionado (descritivo), conforme explicação de Camilo e Silva (2009, p. 10): A diferença entre os métodos de aprendizado supervisionados e não supervisionados reside no fato de que os métodos não supervisionados não precisam de uma pré-categorização para os registros, ou seja, não é necessário um atributo alvo. Tais métodos geralmente usam alguma medida de similaridade entre os atributos. As tarefas de agrupamento e associação são consideradas como não supervisionadas. Já no aprendizado supervisionado, os métodos são providos com um conjunto de dados que possuem uma variável alvo pré-definida e os registros são categorizados em relação a ela. As tarefas mais comuns de aprendizado supervisionado são a classificação (que também pode ser não-supervisionado) e a regressão. As diferentes técnicas que podem ser combinadas durante a análise dos dados podem ser conferida na Figura 3. Figura 3 - As diferentes técnicas envolvidas na mineração de dados Fonte: Camilo e Silva (2009, p. 11). Descrição da imagem: gráfico com técnicas de mineração de dados colocadas em linha, iniciando com HMEQ, Agrupamento e Divisão de Dados, depois Árvore de Decisão, Indução de Regras e Redes Neurais (bifurcação ao centro), continuando a linha com a técnica de comparação de modelos, pontuação (que faz uma ligação com pontuação HMEQ) e, por fim, a técnica de lista de riscos. Como é possível observar pela Figura 3, a mineração de dados envolve desde métodos estatísticos até o uso de deep learning (com inteligência artificial e aprendizado de máquina). Na indicação de leitura a seguir, você poderá aprender sobre o modelo TAM, que é outro método usado em mineração de dados. ARTIGO Avaliação de Ferramentas de Mineração de Dados: Uma Abordagem com o Modelo TAM Autores: Gleidison Santos Hora, Jislane Silva Santos Menezes, Gilson Pereira dos Santos Júnior e Almerindo Nascimento Rehem Neto Ano: 2018 Comentário: Este artigo, publicado no periódico Interfaces Científicas, narra a abordagem de um método utilizado pelos autores como ferramentade mineração de dados: o Modelo de Aceitação Tecnológica ou Technology Acceptance Model (TAM). A CESSA R Ferramentas de Data Mining Conforme vimos em capítulo anterior deste roteiro, a análise de dados não é uma área nova. Os analistas de BI já usavam diversas técnicas para coleta, organização, análise e monitoramento de informações, de modo a oferecer suporte aos processos de negócios. Algumas das ferramentas usadas para isso incluem o Microsoft Excel, o SAS, o SPSS, estatística com R, Weka e Cognos (MARQUESONE, 2017). Contudo, com o aumento de volume dos bancos de dados, ficou praticamente impossível usar esses mesmos recursos para a análise de dados - ainda mais que os dados não são encontrados somente em formato estruturado e também dispersos como dados parcial ou totalmente não estruturados. Diante disso, Marquesone (2017) aponta que foram desenvolvidos novos algoritmos e frameworks específicos para a análise de dados, tais como o Hadoop, a ferramenta Spark e a linguagem Python. O autor Taurion (2019) também explica que, para tratar dados frente à nova escala de volume, variedade e velocidade do Big Data, foi necessário implementar novos modelos, como os bancos de dados NoSQL (que suportam imensos volumes de dados estruturados e não estruturados), a exemplo dos softwares MongoDB e Neo4j, além de outras ferramentas auxiliares para tratamento inicial e de visualização de dados, como o Microsoft Power BI. Esses novos softwares, associados à computação em nuvem, trouxeram inovações sem precedentes para a área da Ciência de Dados. A esse respeito, Taurion (2019, p. 100) afirma que o Hadoop é uma tecnologia que se destaca no cenário de Big Data: O Hadoop é um projeto da comunidade Apache, foi criado pelo Yahoo em 2005, inspirado no trabalho do Google em seu GFS (Google File System) e no paradigma de programação MapReduce, que basicamente divide o trabalho em tarefas como um mapeador (mapper) e um resumidor (reducer) que manipulam dados distribuídos em um cluster de servidores usados de forma massivamente paralela. Você pode ler o Capítulo 7 do livro Big Data, de Cezar Taurion, que está disponível na Biblioteca Pearson, para saber mais detalhes a respeito do Hadoop. Adicionalmente, indicamos a leitura de um trecho do trabalho de dissertação abaixo, que aborda outras ferramentas utilizadas em Data Mining. DISSERTAÇÃO Estudo sobre as Técnicas e Métodos de Análise de Dados no Contexto de Big Data Autora: Caroline Silvério Rosa Ano: 2018 Comentário: Este é um trabalho de dissertação que aborda diversas técnicas e métodos de análise e mineração de dados. Leia o Capítulo 3.3: Técnicas de Análise Big Data, da página 46 a 52, para conhecer diferentes ferramentas de análise usadas em Big Data. A CESSA R Conclusão Como pudemos observar ao longo dos tópicos deste roteiro, a mineração de dados não é uma área isolada da Ciência de Dados, e sim uma das etapas da busca de conhecimento a partir da análise de dados nas grandes bases dos bancos conhecidos como Big Data. A mineração de dados, assim, acaba se estendendo e sendo auxiliada por várias outras áreas, como Engenharia, Sistemas de Informação, Matemática, Estatística, Visualização, Bancos de Dados e Inteligência Artificial, sendo que as diferentes tarefas ou objetivos de análise da mineração de dados irão definir com qual intensidade cada uma dessas áreas do conhecimento interferirá no processo. Cabe ao profissional analista ter uma base de entendimento que cruze todas essas informações e que tenha objetivos de análise claros e alinhados com os propósitos da pesquisa, da empresa e/ou do negócio, de modo que seja possível determinar as melhores técnicas e ferramentas que serão usadas durante a mineração dos dados. 1ª Tentativa Revisar envio do teste: Teste Final Usuário Bruno Moreira de Araújo Curso DATA MINING Teste Teste Final Iniciado 02/06/20 19:28 Enviado 02/06/20 20:05 Status Completada Resultado da tentativa 5 em 10 pontos Tempo decorrido 36 minutos Resultados exibidos Respostas enviadas, Respostas corretas, Comentários Pergunta 1 0 em 1 pontos Considere a seguinte situação hipotética para responder a questão: Periodicamente, o auditor de um banco tem a necessidade de avaliar elementos que possam ajudar na identificação de fraudes como desvio de verba e balanceamento incorreto de caixa. Diante de uma denúncia anônima, o auditor agora deseja aplicar técnicas de mineração de dados para conseguir encontrar alguma inconsistência nos registros. Assim sendo, assinale a alternativa que apresenta a ação a ser tomada pelo auditor dessa instituição financeira. Resposta Selecionada: o auditor deverá analisar o percentual de movimentação total do caixa, comparando projeções atuais e futuras. Resposta Correta: o auditor deve valer-se de instrumentos preditivos de análise para comparar dados passados aos registros atuais. Feedback da resposta: Sua resposta está incorreta. A análise percentual, a informação média de movimentações e a varredura da base de dados não permitirão a comparação dos registros anteriores aos registros atuais, nem fornecerá um parâmetro para essa comparação. Para tanto, usar a análise preditiva favorecerá que o auditor localize o erro ou a possível fraude na movimentação ao gerar um gráfico com os registros atuais e um gráfico com as projeções de como as movimentações deveriam ter ocorrido, com base no histórico dos registros anteriores. Pergunta 2 0 em 1 pontos Em Ciência de Dados, há basicamente dois formatos de análise possível, em que a análise de dados pode recorrer tanto a procedimentos estatísticos quanto a algoritmos de aprendizado de máquina (ou análise preditiva) para descobrir padrões e extrair conhecimento de uma base de dados. A partir do exposto, associe as técnicas de análise dados a seguir às suas possíveis associações: (1) Análise exploratória. (2) Análise de estimação. (3) Análise de classificação. ( ) Regressão estatística. ( ) Cálculo do desvio padrão. ( ) Predição de valores discretos. Agora indique a ordenação correta entre os tipos de análise e seus respectivos métodos: Resposta Selecionada: 1, 3, 2. Resposta Correta: 2, 1, 3. Feedback da resposta: Sua resposta está incorreta. A análise descritiva faz uso da análise de dados exploratória para investigar uma base de dados, sendo que as medidas centrais e de dispersão, como Amplitude, Variância e Desvio Padrão, fazem parte desse método; já as análises de estimação e de classificação são da área da análise preditiva, sendo que a primeira lida com regressões estatísticas e valores contínuos, e a segunda lida com a previsão de valores discretos. Assim sendo, a associação correta entre as colunas é 2 (Análise de estimação - Regressão estatística), 1 (Análise exploratória - Cálculo do desvio padrão), 3 (Análise de classificação - Predição de valores discretos). Pergunta 3 1 em 1 pontos Leia o trecho a seguir: "A mineração de dados envolve conhecimento de áreas como banco de dados, estatística, aprendizagem de máquina, computação de alto desempenho, reconhecimento de padrões, computação natural, visualização de dados, recuperação de informação, processamento de imagens e de sinais, análise espacial de dados, inteligência artificial, entre outras." CASTRO, L. N. de; FERRARI, D. G. Introdução à mineração de dados: conceitos básicos, algoritmos e aplicações. São Paulo: Saraiva, 2016, pág. 28. Nesse sentido, há muitos conteúdos que se cruzam e que dão respaldo à mineração de dados, de modo que um bom cientista de dados ou analista de B.I. - Business Intelligence deve apresentar habilidades que vão desde a noção de mercado e negócios até estatística e programação. Com isso em mente, assinale a palavra que resumea condição desse campo de atuação de Big Data: Resposta Selecionada: Multidisciplinar e interdisciplinar. Resposta Correta: Multidisciplinar e interdisciplinar. Feedback da resposta: Resposta correta. A reunião dessas diversas áreas de conhecimento no campo de Big Data e mineração de dados faz com que essa seja uma disciplina multidisciplinar - uma vez que abrange conceitos de vários campos diferentes - e também interdisciplinar - uma vez que relaciona e interliga esses conceitos. Pergunta 4 0 em 1 pontos A prática de análise de dados não é uma novidade para as empresas. Desde o tempo de arquivos em papel, era necessário ter uma equipe ou um especialista dedicado a organizar, filtrar e analisar as informações contidas nas bases de dados físicas. Para tanto, foi desenvolvido o método KDD, que consiste em um processo de descoberta de conhecimento dividido em várias etapas. Sobre as etapas de análise de dados pelo método KDD, avalie os itens a seguir: I. Mineração de dados II. Avaliação III. Seleção IV. Pré-processamento V. Transformação Agora assinale a alternativa que representa a ordem correta dessas etapas: Resposta Selecionada: III, IV, I, V, II. Resposta Correta: IV, III, V, I, II. Feedback da resposta: Sua resposta está incorreta. Quando consideramos todas as etapas de processamento em uma análise de dados, a mineração é apenas uma parte desse processo. Isso significa que, inicialmente, os dados devem ser coletados e selecionados, para em seguida serem pré- processados e transformados em dados estruturados, de modo a permitir a transformação estatística e a mineração dos dados - ou seja, a busca pelas informações que se deseja obter, e cujo resultado será avaliado ao final. Pergunta 5 0 em 1 pontos Leia o trecho a seguir: “Após ter identificado o foco do projeto de Big Data e definido as respostas que deseja obter por meio de dados, você pode dar início à identificação de quais dados deverão ser capturados.” MARQUESONE, R. de F. P. Big Data: técnicas e tecnologias para extração de valor dos dados. São Paulo: Casa do Código, 2017, pág. 35. Nesse trecho é afirmado que saber identificar o foco de um projeto de Big Data, ou seja, os objetivos da mineração de dados, é um passo fundamental para obter as respostas procuradas em um conjunto de dados. Sobre os objetivos do data mining , avalie e assinale a alternativa correta: Resposta Selecionada: Encontrar padrões nos dados visando o aprimoramento estatístico das hipóteses. Resposta Correta: Descobrir novas regras e padrões visando a aquisição de conhecimento indutivo. Feedback da resposta: Sua resposta está incorreta. A mineração de dados não visa o aprimoramento estatístico, nem confirma ou refuta hipóteses, nem segrega informações por si só - a mineração de dados serve para detectar padrões em uma base desconhecida ou que já tenha sido visitada, de modo a fornecer informações que serão transformadas em conhecimento após a análise final dos dados. Aplicar novas regras a informações anteriormente analisadas, embora possa ser objeto de um projeto de análise de dados, também não faz parte dos objetivos da etapa de mineração de dados, em si. Pergunta 6 1 em 1 pontos A mineração de dados é um processo relacionado às áreas de Ciência de Dados e Big Data responsável por integrar um processamento maior dentro da análise de dados, que consiste em diferentes etapas. Esse processo permite que os dados sejam extraídos e trabalhados a partir de um dataset. Nesse sentido, assinale a alternativa que define a etapa imediatamente anterior à da mineração de dados. Resposta Selecionada: Transformar os dados conforme um padrão. Resposta Correta: Transformar os dados conforme um padrão. Feedback da resposta: Resposta correta. Após as etapas de seleção de de pré- processamento, será na fase da transformação dos dados que ocorrerá a conversão dos dados brutos em um formato padrão que seja possível de filtrar e utilizar para a análise estatística,, de forma que os dados estejam melhor relacionados entre si e que possam ser analisados posteriormente. Pergunta 7 1 em 1 pontos Leia o trecho a seguir sobre mineração de dados: "Uma das famosas frases relacionadas a Big Data é: 'Big Data é o novo petróleo'. Podemos pensar que isso é uma analogia coerente, dado que, assim como o petróleo, o maior valor é obtido após um processo de refinamento, ou seja, após a transição de dados brutos para um determinado produto." MARQUESONE, R. de F. P. Big Data: técnicas e tecnologias para extração de valor dos dados. São Paulo: Casa do Código, 2017, pág. 29. Sobre o termo data mining, analise as asserções a seguir e a relação proposta entre elas: I. O termo "mineração de dados" tem associação direta com a atividade de mineração de ouro, jazidas e pedras preciosas PORQUE II. encontrar os dados e a sua relação correta evoca informações que podem ser muito valiosas para as estratégias de uma empresa. Assinale a alternativa correta. Resposta Selecionada: As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. Resposta Correta: As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. Feedback da resposta: Resposta correta. Empresas se beneficiam com a análise de dados justamente porque a mineração de dados leva à descoberta de novos padrões, informações e conhecimentos, o que permite não apenas alterar um processo interno da empresa, como também pode evidenciar um erro ou um padrão que não havia sido notado antes. Pergunta 8 0 em 1 pontos Sobre as tecnologias relacionadas a mineração de dados e Big Data, leia o excerto a seguir: "Pesquisadores consideram que estamos vivenciando o início de uma nova revolução industrial, na qual os dados passam a ser elementos chaves dessa mudança. Podemos concluir, portanto, que esse é o momento ideal para criarmos oportunidades a partir dos dados." MARQUESONE, R. de F. P. Big Data: técnicas e tecnologias para extração de valor dos dados. São Paulo: Casa do Código, 2017, pág. 8. Com base nisso, analise as asserções a seguir e a relação proposta entre elas: I. Big Data é uma área de inovações voltada ao processamento de grandes volumes de dados PORQUE II. as tecnologias e arquiteturas envolvidas permitem alta velocidade de coleta, novas descobertas e diversos processos de análise. A seguir, assinale a alternativa correta. Resposta Selecionada: As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. Resposta Correta: As asserções I e II são proposições verdadeiras, mas a II não é uma justificativa correta da I. Feedback da resposta: Sua resposta está incorreta. Big Data é, de fato, uma área inovadora que lida com grandes volumes de dados; contudo, isso ocorre devido à expansão da internet e à evolução dos usuários e da Internet of Things, que gerou essa enorme torrente de dados. As tecnologias e arquiteturas envolvidas são apenas o meio pelo qual é possível registrar e processar todas essas informações em uma base de dados, portanto a I e a II são afirmações corretas, mas a II não justifica a I. Pergunta 9 1 em 1 pontos Leia o trecho a seguir: “É comum, ao ouvir pela primeira vez o termo Big Data, pensarmos que ele está unicamente relacionado a um grande volume de dados (o que é normal, já que o nome diz exatamente isso). Entretanto, o volume de dados não é sua única característica.”. MARQUESONE, R. de F. P. Big Data: técnicas e tecnologias para extração de valor dos dados. São Paulo: Casa do Código, 2017, pág. 8. Esse trecho é uma introdução da autora aos termos que designam os “5 Vs” de Big Data, sendo um deles o volume, que costuma sero mais associado a uma grande base de dados, por motivos óbvios. Entretanto, há outras características que devem ser consideradas. Nesse sentido, leia e relacione cada um dos termos dos “5 Vs” às suas características correspondentes: (1) Volume. (2) Velocidade. (3) Veracidade. (4) Variedade. (5) Valor. ( ) Confiabilidade. ( ) Eventos estatísticos. ( ) Tipos de dados. ( ) Registros. ( ) Coleta de dados. A partir das relações feitas anteriormente, assinale a alternativa que apresenta a sequência correta: Resposta Selecionada: 3, 5, 4, 1, 2. Resposta Correta: 3, 5, 4, 1, 2. Feedback da resposta: Resposta correta. A confiabilidade está associada à integridade e Veracidade dos dados, sendo um dos “5 Vs”; o Valor está associado a eventos estatísticos, que permitem confirmar ou refutar uma hipótese, por exemplo; já os tipos de dados, que podem ser estruturados ou não estruturados, configuram a Variedade; e a Velocidade está relacionada a quão rapidamente os dados são coletados e posteriormente registrados em suas bases de dados; esses registros dizem respeito, assim, ao Volume. Pergunta 10 1 em 1 pontos Sobre tomada de decisão estratégica, Provost e Fawcett explicam que a sigla DDD refere-se a Data-Driven Decision-making, ou seja, tomada de decisão com base nos dados, e consiste na prática de usar a análise de dados como suporte ao posicionamento estratégico em vez da gestão baseada na intuição pura. PROVOST, F.; FAWCETT, T. Data Science for Business: What you need to know about data mining and data-analytic thinking. Califórnia: O'Reilly, 2013. Pensando nisso, assinale a alternativa que reflete a prática de DDD: Resposta Selecionada: Usa a análise de dados para promover decisões mais assertivas. Resposta Correta: Usa a análise de dados para promover decisões mais assertivas. Feedback da resposta: Resposta correta. Uma vez que o gestor esteja com o resultado da análise de dados em mãos, ele consegue perceber detalhes que antes eram imperceptíveis, como um padrão ou uma tendência em relação a um tipo de serviço e/ou produto. A análise permite ao gestor, assim, pensar na melhor estratégia com base em fatores reais, e não somente em sua experiência e intuição como gestor. 2ª Tentativa 1. DATA MINING 2. Atividade e Certificado 3. Revisar envio do teste: Teste Final Revisar envio do teste: Teste Final Usuário Bruno Moreira de Araújo Curso DATA MINING Teste Teste Final Iniciado 02/06/20 20:07 Enviado 02/06/20 20:34 Status Completada Resultado da tentativa 8 em 10 pontos Tempo decorrido 27 minutos Resultados exibidos Respostas enviadas, Respostas corretas, Comentários Pergunta 1 1 em 1 pontos A prática de análise de dados não é uma novidade para as empresas. Desde o tempo de arquivos em papel, era necessário ter uma equipe ou um especialista dedicado a organizar, filtrar e analisar as informações contidas nas bases de dados físicas. Para tanto, foi desenvolvido o método KDD, que consiste em um processo de descoberta de conhecimento dividido em várias etapas. Sobre as etapas de análise de dados pelo método KDD, avalie os itens a seguir: I. Mineração de dados II. Avaliação III. Seleção IV. Pré-processamento V. Transformação Agora assinale a alternativa que representa a ordem correta dessas etapas: Resposta Selecionada: IV, III, V, I, II. Resposta Correta: IV, III, V, I, II. Feedback da resposta: Resposta correta. O KDD é um método que envolve a seleção dos dados, o pré-processamento, a transformação, a mineração dos dados e a avaliação dos resultados obtidos. Esse método funciona com qualquer quantidade de dados, e para qualquer finalidade. Sendo um padrão consistente, continua sendo adotado na Ciência de Dados. Pergunta 2 1 em 1 pontos Leia o trecho a seguir: "A mineração de dados envolve conhecimento de áreas como banco de dados, estatística, aprendizagem de máquina, computação de alto desempenho, reconhecimento de padrões, computação natural, visualização de dados, recuperação de informação, processamento de imagens e de sinais, análise espacial de dados, inteligência artificial, entre outras." CASTRO, L. N. de; FERRARI, D. G. Introdução à mineração de dados: conceitos básicos, algoritmos e aplicações. São Paulo: Saraiva, 2016, pág. 28. Nesse sentido, há muitos conteúdos que se cruzam e que dão respaldo à mineração de dados, de modo que um bom cientista de dados ou analista de B.I. - Business Intelligence deve apresentar habilidades que vão desde a noção de mercado e negócios até estatística e programação. Com isso em mente, assinale a palavra que resume a condição desse campo de atuação de Big Data: Resposta Selecionada: Multidisciplinar e interdisciplinar. Resposta Correta: Multidisciplinar e interdisciplinar. Feedback da resposta: Resposta correta. A reunião dessas diversas áreas de conhecimento no campo de Big Data e mineração de dados faz com que essa seja uma disciplina multidisciplinar - uma vez que abrange conceitos de vários campos diferentes - e também interdisciplinar - uma vez que relaciona e interliga esses conceitos. Pergunta 3 0 em 1 pontos Leia o excerto a seguir sobre métodos de treinamento e teste: "Na maioria das redes neurais esses parâmetros correspondem aos valores dos pesos da rede e à sua arquitetura (número de camadas e/ou neurônios); nas árvores de decisão esses parâmetros são os nós da árvore, sua arquitetura (profundidade e conexões) e as condições a serem associadas a cada arco; e nas regras de decisão os parâmetros são os antecedentes e consequentes de cada regra e o número total de regras." CASTRO, L. N. de; FERRARI, D. G. Introdução à mineração de dados: conceitos básicos, algoritmos e aplicações. São Paulo: Saraiva, 2016, pág. 175. Pensando nas possíveis aplicações das técnicas de treinamento, avalie as seguintes afirmações: I. Redes Neurais, Árvores de Decisão e Indução de Regras são técnicas que se utilizam de Inteligência Artificial. II. Agrupamento é o mesmo que classificação ou clustering, e serve para identificar subconjuntos de dados. III. A pontuação é uma técnica que pode variar a partir da integração com outro método - o HMEQ. IV. As Árvores de Decisão usam uma técnica estatística complexa, de modo que são pouco usadas em análise de dados. É correto o que se afirma em: Resposta Selecionada: II e III, apenas. Resposta Correta: I, II e III, apenas. Feedback da resposta: Sua resposta está incorreta. As diferentes técnicas envolvidas em mineração de dados envolvem HMEQ, Agrupamento e Divisão de Dados, Árvore de Decisão, Indução de Regras, Redes Neurais, comparação de modelos, pontuação, pontuação HMEQ e lista de riscos. Dessas, somente a Árvore de Decisão, a Indução de Regras e as Redes Neurais estão relacionadas à inteligência artificial, e as Árvores de Decisão utilizam cálculos estatísticos simples, sendo um método bastante utilizado em Ciência de Dados. Portanto, os itens corretos são I, II e III. Pergunta 4 1 em 1 pontos Sobre tomada de decisão estratégica, Provost e Fawcett explicam que a sigla DDD refere-se a Data-Driven Decision-making, ou seja, tomada de decisão com base nos dados, e consiste na prática de usar a análise de dados como suporte ao posicionamento estratégico em vez da gestão baseada na intuição pura. PROVOST, F.; FAWCETT, T. Data Science for Business: What you need to know about data mining and data-analytic thinking. Califórnia: O'Reilly, 2013. Pensando nisso, assinale a alternativa que reflete a prática de DDD: Resposta Selecionada: Usa a análise de dados para promover decisões mais assertivas. Resposta Correta:Usa a análise de dados para promover decisões mais assertivas. Feedback da resposta: Resposta correta. Uma vez que o gestor esteja com o resultado da análise de dados em mãos, ele consegue perceber detalhes que antes eram imperceptíveis, como um padrão ou uma tendência em relação a um tipo de serviço e/ou produto. A análise permite ao gestor, assim, pensar na melhor estratégia com base em fatores reais, e não somente em sua experiência e intuição como gestor. Pergunta 5 1 em 1 pontos Antigamente, as empresas mantinham grandes arquivos com dados de produtos, clientes, funcionários, relatórios de vendas, e assim por diante. Com o advento da internet, foi possível digitalizar e compartilhar essas informações. Contudo, o número de dados a serem arquivados também aumentou, o que gerou um problema de armazenamento e de processamento, exigindo que as empresas adequassem suas infraestruturas e aderissem a novas tecnologias. Esse é o início do Big Data. Nesse sentido, assinale a alternativa que apresenta as cinco características mais citadas do Big Data: Resposta Selecionada: Volume, Velocidade, Variedade, Valor e Veracidade. Resposta Correta: Volume, Velocidade, Variedade, Valor e Veracidade. Feedback da resposta: Resposta correta. Quando nos referimos a Big Data, algumas características mais óbvias se destacam, como o Volume de dados, a Velocidade com que os dados são coletados, a Variedade de dados coletados, o Valor agregado a esses dados e a Veracidade que esses dados devem representar. Pergunta 6 1 em 1 pontos Sobre bases de dados, leia o parágrafo a seguir: “Atualmente, grande parcela dos dados gerados por humanos é oriunda de mídias sociais, onde usuários podem publicar o que pensam sobre algo, gerar debates, publicar suas preferências e suas emoções. Essas informações são geradas em formatos de texto, imagem, áudio e vídeo, resultando em uma base de dados diversificada e volumosa.” MARQUESONE, R. de F. P. Big Data: técnicas e tecnologias para extração de valor dos dados. São Paulo: Casa do Código, 2017, pág. 18. Assinale a alternativa que representa o tipo de dado que estaria nessa base de dados diversificada e volumosa: Resposta Selecionada: Dados não-estruturados. Resposta Correta: Dados não-estruturados. Feedback da resposta: Resposta correta. Nas mídias sociais e nas páginas web é possível encontrar diversos tipos de dados, como textos, imagens, vídeos, áudios e outros formatos. Essa mistura de dados em uma organização precária configuram os dados não-estruturados, que precisarão passar por tratamento antes de poderem ser minerados e analisados. Pergunta 7 1 em 1 pontos Na atualidade, os dados são gerados continuamente pelas mais diversas fontes. Ao acessar um site, por exemplo, uma única pessoa gera dados relacionados aos cliques e movimentos do mouse, às palavras que escreve na tela, aos termos que busca no Google e aos conteúdos pelos quais se interessa. Pensando nos milhões de usuários que acessam a internet 24h por dia, o volume de dados gerado a cada segundo é impressionante. Com base nisso, assinale a alternativa correta. Resposta Selecionada: Big Data é a evolução das tecnologias e arquiteturas relacionadas às bases de dados. Resposta Correta: Big Data é a evolução das tecnologias e arquiteturas relacionadas às bases de dados. Feedback da resposta: Resposta correta. Não é à toa que um dos “5 Vs” de Big Data seja Velocidade. Para comportar grandes volumes de dados, as tecnologias envolvidas também precisaram melhorar em termos de processamento - só assim foi possível acompanhar e dar suporte à entrada contínua de dados na rede. Pergunta 8 0 em 1 pontos Leia o excerto a seguir: "Os algoritmos de aprendizagem de máquina são ferramentas poderosas para a descoberta de conhecimentos em bases de dados. Entretanto, uma etapa inicial do processo de mineração que não requer elevado nível de sofisticação é a análise descritiva dos dados, ou seja, o uso de ferramentas capazes de medir, explorar e descrever características intrínsecas aos dados." CASTRO, L. N. de; FERRARI, D. G. Introdução à mineração de dados: conceitos básicos, algoritmos e aplicações. São Paulo: Saraiva, 2016, pág. 29. Sobre os métodos usados em mineração de dados, analise as afirmativas a seguir e assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s). I. Para identificar grupos de dados de acordo com um padrão específico, é usada a técnica de agrupamento ou clustering. II. O mapeamento de um conjunto de dados com variáveis discretas é possível a partir da técnica de regressão. III. A classificação é usada para mapear os valores discretos de um conjunto de dados. IV. Regras de associação servem, unicamente, para identificar grupos de dados. V. Deep learning , ou aprendizado de máquina, é um recurso usado tanto em análises com aprendizado supervisionado quanto em análises de aprendizado não-supervisionado. Assinale a alternativa que apresenta a sequência correta: Resposta Selecionada: V, F, V, F, F. Resposta Correta: V, F, V, F, V. Feedback da resposta: Sua resposta está incorreta. A técnica de clusterização identifica grupos de dados a partir de aprendizado supervisionado, em que a máquina é treinada para localizar ou repetir um padrão a partir de um parâmetro predefinido, trabalhando, assim, com variáveis discretas, então as alternativas I e III são verdadeiras; já o mapeamento de dados pela regressão ou estimação usa variáveis contínuas, motivo pelo qual a alternativa II é falsa; as regras de associação servem, principalmente, para analisar a significância entre diferentes conjuntos de dados, e não para simplesmente identificar os dados, motivo pelo qual a alternativa IV também é falsa. E o aprendizado de máquina pode ser do tipo supervisionado, quando inserimos informações conhecidas, ou não-supervisionado, quando o sistema deverá trabalhar com dados desconhecidos - portanto a afirmação V é verdadeira. Pergunta 9 1 em 1 pontos Leia o trecho a seguir sobre mineração de dados: "Uma das famosas frases relacionadas a Big Data é: 'Big Data é o novo petróleo'. Podemos pensar que isso é uma analogia coerente, dado que, assim como o petróleo, o maior valor é obtido após um processo de refinamento, ou seja, após a transição de dados brutos para um determinado produto." MARQUESONE, R. de F. P. Big Data: técnicas e tecnologias para extração de valor dos dados. São Paulo: Casa do Código, 2017, pág. 29. Sobre o termo data mining, analise as asserções a seguir e a relação proposta entre elas: I. O termo "mineração de dados" tem associação direta com a atividade de mineração de ouro, jazidas e pedras preciosas PORQUE II. encontrar os dados e a sua relação correta evoca informações que podem ser muito valiosas para as estratégias de uma empresa. Assinale a alternativa correta. Resposta Selecionada: As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. Resposta Correta: As asserções I e II são proposições verdadeiras, e a II é uma justificativa correta da I. Feedback da resposta: Resposta correta. Empresas se beneficiam com a análise de dados justamente porque a mineração de dados leva à descoberta de novos padrões, informações e conhecimentos, o que permite não apenas alterar um processo interno da empresa, como também pode evidenciar um erro ou um padrão que não havia sido notado antes. Pergunta 10 1 em 1 pontos Dentre as possíveis metodologias existentes para proceder à análise de dados, o CRISP- DM ( Cross-Industry Standard Process of Data Mining , ou Processo Industrial Padrão de Mineração de Dados) é um método que diz respeito a um processo de fluxo unidirecional composto por ciclos ou etapas, assimcomo o método KDD. Sobre CRISP-DM, assinale a alternativa correta: Resposta Selecionada: Envolve preparação, implantação, pesquisa, modelagem e avaliação de dados. Resposta Correta: Envolve preparação, implantação, pesquisa, modelagem e avaliação de dados. Feedback da resposta: Resposta correta. o CRISP-DM possui diversas etapas, assim como o método KDD, contudo essas fases, embora tenham um fluxo unidirecional, possuem etapas cíclicas, ou seja, que permitem ir e voltar entre si. Por exemplo, a fase de entendimento e pesquisa de dados pode se alternar com a de implantação e preparação de dados, uma vez que se tenha localizado uma inconsistência no momento da implantação que traga a exigência de uma nova pesquisa ou de um novo entendimento sobre o dado com erro.
Compartilhar