Baixe o app para aproveitar ainda mais
Prévia do material em texto
Ferramentas de KDD 1. Aos processos nos quais ferramentas de KDD devem atuar dá-se o nome de CRISP-DM (Cross-Industry Standard Process of Data Mining, que pode ser adaptado para o português como "processo padrão interindústrias para mineração de dados"). Esses processos podem ser divididos em seis etapas: compreensão dos negócios, entendimento dos dados, preparação dos dados, modelagem, análise dos resultadose divulgação dos resultados. Qual é o objetivo da etapa de preparação de dados? Resposta correta. C. Realizar avaliação anterior ao processo de construção de modelos a fim de remover inconsistências. A alternativa correta corresponde à etapa anterior ao processo de construção de modelos. Ela tem por objetivo a remoção de inconsistências. As outras alternativas estão incorretas, pois correspondem a outras etapas do CRISP-DM. As etapas do CRISP-DM em que as ferramentas de KDD devem atuar são seis: (1) compreensão dos negócios, em que o cientista de dados deve compreender os objetivos de realizar a construção do modelo; (2) entendimento dos dados, em que o cientista deve buscar compreender como os dados estão estruturados; (3) preparação dos dados, em que há remoção de inconsistências; (4) modelagem, etapa na qual é construído o modelo preditivo; (5) análise dos resultados, etapa em que se avalia se o modelo construído é eficaz; e (6) divulgação dos resultados, etapa em que o modelo é implementado em ambiente de produção. 2. Ferramentas de busca de conhecimento em base de dados (KDD) podem ser classificadas em gratuitas ou proprietárias. Ferramentas gratuitas ou de código- fonte aberto são mais utilizadas pela comunidade acadêmica, enquanto as ferramentas proprietárias são mais adotadas por grandes empresas. São exemplos de ferramentas proprietárias: (I) WEKA (II) Orange (III) SAS (IV) Python (V) RStudio (VI) Oracle Data Mining Das opções apresentadas, quais podem ser consideradas verdadeiras? Você acertou! E. III e VI. Oracle Data Mining e SAS são as únicas ferramentas proprietárias listadas. WEKA, Orange, Python e RStudio são ferramentas gratuitas. 3. A análise de grandes bases de dados à procura de informações relevantes pode requerer grande poder computacional. Isso fazia com que empresas especializadas em soluções de processamento e análise de dados precisassem ter computadores de alta potência. No entanto, isso tem mudado recentemente, o que tem levado a uma evolução na área de mineração de dados. Qual motivo levou a essas evoluções? Você acertou! C. A adoção de computação na nuvem para processamento de grandes bases de dados. A adoção de computação na nuvem vem reduzindo os custos operacionais e a complexidade de lidar com grandes bases de dados. Apesar da redução de custos, servidores ainda custam valores elevados o bastante para não serem acessíveis à população em geral. A supremacia quântica ainda não está sendo utilizada em projetos comerciais. Ainda, é possível dizer que houve evoluções nos algoritmos, e, por fim, muitos softwares gratuitos e de código-fonte aberto são eficientes. 4. A computação na nuvem tem sido adotada para a realização de análises massivas de dados. Também referido como SaaS, nesse tipo de serviço, o cliente paga pelo uso de determinado software, que será executado em uma infraestrutura remota. O SaaS permite que usuários realizem processamentos que requerem grande poder computacional. Entretanto, muitos desenvolvedores ainda preferem construir aplicações locais. São vantagens de aplicações locais sobre aplicações realizadas na nuvem: Você acertou! B. menor tempo de latência para acesso aos dados. O tempo de latência ainda é um problema, apesar de estar sendo reduzido pela melhoria da infraestrutura das redes de telecomunicação. Custos para aquisição de computadores potentes podem ser muito grandes; portanto, em muitos casos, é preferível o aluguel de máquinas remotas. Em relação à segurança, não se pode descartar a possibilidade de invasões e roubos de dados; entretanto, nos últimos anos, os métodos de autenticação, transferência de dados e proteção em geral contra invasões melhoraram muito, o que tem garantido conexões cada vez mais seguras. O poder de processamento em datacenters é escalonável; portanto, se o usuário precisar de maior demanda, basta apenas fazer alterações no software. A computação na nuvem tem sido cada vez mais adotada, mas seu uso ainda depende dos requisitos do desenvolvedor, e, em alguns casos, é mais vantajoso o processamento de dados localmente. 5. O Google Colab é uma ferramenta de desenvolvimento de software que utiliza JuPyter e permite desenvolvimento de códigos em Python e em R. Ele tem sido adotado por muitos cientistas de dados. Qual destas é uma vantagem do Google Colab? Você acertou! A. Ambiente de desenvolvimento colaborativo e processamento remoto. O Colab permite a construção colaborativa de códigos, além do processamento remoto das aplicações na nuvem (o processamento é feito em back-end). Permite a construção de códigos usando Python e R, além da inclusão de bibliotecas de terceiros. Portanto, não tem algoritmos exclusivos de mineração. Além disso, não há suporte gratuito dos funcionários da Google para desenvolvimento de código. Por fim, não há integração nativa em back-end com o Microsoft Excel, mas há suporte para integração de códigos com a ferramenta de armazenamento Google Drive. Desafio A descoberta de conhecimento em bases de dados requer que cientistas de dados tenham, além do conhecimento das ferramentas de KDD, a noção dos requisitos de infraestrutura necessários para executá-las. Você foi contratado como responsável por gerenciar a infraestrutura de TI de uma empresa de tecnologia. A empresa promove soluções relacionadas à tomada de decisão, como, por exemplo, estratégias de marketing e definição de preços de produtos. Quais possíveis soluções poderiam ser aplicadas para o problema apresentado? Sua resposta : Uma opção seria a utilização do Cloud ( SaaS ) aonde os investimentos com hardware não seriam tão impactantes e o custo x benefício poderia suprir a demanda necessária sem preocupacões maiores. Caso a a latência seja um problema seria interessante investir na montagem de um outro servidor na própria rede local da empresa e esses dados serem incumbidos de serem copiados para esse computador e ali acontecerem tais analises para tanto nesse caso existe suas particulariedades. Contudo o Cloud ainda é boa opção. Enviado em: 30/11/2021 03:43 Padrão de resposta esperado A solução mais simples seria melhorar a infraestrutura da empresa adquirindo novos equipamentos. Entretanto, isso poderia implicar custo elevado. Além disso, quando as análises da nova empresa terminassem, muitos dos componentes recém-adquiridos ficariam ociosos, representando possíveis prejuízos para a empresa devidos a gastos desnecessários. Uma solução alternativa seria migrar as análises do cliente a serviços hospedados na nuvem. Empresas como Microsoft (Azure), Google (Cloud) e Amazon (AWS) oferecem serviços de processamento de dados na nuvem, denominados SaaS (Service as a Software, ou, na tradução, serviço como um software). Esses serviços podem ser adquiridos sob demanda, pagando-se apenas pelo que for consumido, i.e., processamento, armazenamento e tráfego de rede.
Compartilhar