Buscar

datamining Ferramentas de KDD

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Ferramentas de KDD 
1. 
Aos processos nos quais ferramentas de KDD devem atuar dá-se o nome de 
CRISP-DM (Cross-Industry Standard Process of Data Mining, que pode ser 
adaptado para o português como "processo padrão interindústrias para mineração 
de dados"). Esses processos podem ser divididos em seis etapas: compreensão dos 
negócios, entendimento dos dados, preparação dos dados, modelagem, análise dos 
resultadose divulgação dos resultados. 
Qual é o objetivo da etapa de preparação de dados? 
Resposta correta. 
C. 
Realizar avaliação anterior ao processo de construção de modelos a fim de remover 
inconsistências. 
A alternativa correta corresponde à etapa anterior ao processo de construção de 
modelos. Ela tem por objetivo a remoção de inconsistências. As outras alternativas 
estão incorretas, pois correspondem a outras etapas do CRISP-DM. As etapas do 
CRISP-DM em que as ferramentas de KDD devem atuar são seis: (1) compreensão dos 
negócios, em que o cientista de dados deve compreender os objetivos de realizar a 
construção do modelo; (2) entendimento dos dados, em que o cientista deve buscar 
compreender como os dados estão estruturados; (3) preparação dos dados, em que há 
remoção de inconsistências; (4) modelagem, etapa na qual é construído o modelo 
preditivo; (5) análise dos resultados, etapa em que se avalia se o modelo construído é 
eficaz; e (6) divulgação dos resultados, etapa em que o modelo é implementado em 
ambiente de produção. 
2. 
Ferramentas de busca de conhecimento em base de dados (KDD) podem ser 
classificadas em gratuitas ou proprietárias. Ferramentas gratuitas ou de código-
fonte aberto são mais utilizadas pela comunidade acadêmica, enquanto as 
ferramentas proprietárias são mais adotadas por grandes empresas. São exemplos 
de ferramentas proprietárias: 
(I) WEKA 
(II) Orange 
(III) SAS 
(IV) Python 
(V) RStudio 
(VI) Oracle Data Mining 
Das opções apresentadas, quais podem ser consideradas verdadeiras? 
Você acertou! 
E. 
III e VI. 
Oracle Data Mining e SAS são as únicas ferramentas proprietárias listadas. WEKA, 
Orange, Python e RStudio são ferramentas gratuitas. 
3. 
A análise de grandes bases de dados à procura de informações relevantes pode 
requerer grande poder computacional. Isso fazia com que empresas especializadas 
em soluções de processamento e análise de dados precisassem ter computadores de 
alta potência. No entanto, isso tem mudado recentemente, o que tem levado a uma 
evolução na área de mineração de dados. 
Qual motivo levou a essas evoluções? 
Você acertou! 
C. 
A adoção de computação na nuvem para processamento de grandes bases de dados. 
A adoção de computação na nuvem vem reduzindo os custos operacionais e a 
complexidade de lidar com grandes bases de dados. Apesar da redução de custos, 
servidores ainda custam valores elevados o bastante para não serem acessíveis à 
população em geral. A supremacia quântica ainda não está sendo utilizada em projetos 
comerciais. Ainda, é possível dizer que houve evoluções nos algoritmos, e, por fim, 
muitos softwares gratuitos e de código-fonte aberto são eficientes. 
4. 
A computação na nuvem tem sido adotada para a realização de análises massivas 
de dados. Também referido como SaaS, nesse tipo de serviço, o cliente paga pelo 
uso de determinado software, que será executado em uma infraestrutura remota. O 
SaaS permite que usuários realizem processamentos que requerem grande poder 
computacional. Entretanto, muitos desenvolvedores ainda preferem construir 
aplicações locais. 
São vantagens de aplicações locais sobre aplicações realizadas na nuvem: 
Você acertou! 
B. 
menor tempo de latência para acesso aos dados. 
O tempo de latência ainda é um problema, apesar de estar sendo reduzido pela melhoria 
da infraestrutura das redes de telecomunicação. Custos para aquisição de computadores 
potentes podem ser muito grandes; portanto, em muitos casos, é preferível o aluguel de 
máquinas remotas. Em relação à segurança, não se pode descartar a possibilidade de 
invasões e roubos de dados; entretanto, nos últimos anos, os métodos de autenticação, 
transferência de dados e proteção em geral contra invasões melhoraram muito, o que 
tem garantido conexões cada vez mais seguras. O poder de processamento em 
datacenters é escalonável; portanto, se o usuário precisar de maior demanda, basta 
apenas fazer alterações no software. A computação na nuvem tem sido cada vez mais 
adotada, mas seu uso ainda depende dos requisitos do desenvolvedor, e, em alguns 
casos, é mais vantajoso o processamento de dados localmente. 
5. 
O Google Colab é uma ferramenta de desenvolvimento de software que utiliza 
JuPyter e permite desenvolvimento de códigos em Python e em R. Ele tem sido 
adotado por muitos cientistas de dados. 
Qual destas é uma vantagem do Google Colab? 
Você acertou! 
A. 
Ambiente de desenvolvimento colaborativo e processamento remoto. 
O Colab permite a construção colaborativa de códigos, além do processamento remoto 
das aplicações na nuvem (o processamento é feito em back-end). Permite a construção 
de códigos usando Python e R, além da inclusão de bibliotecas de terceiros. Portanto, 
não tem algoritmos exclusivos de mineração. Além disso, não há suporte gratuito dos 
funcionários da Google para desenvolvimento de código. Por fim, não há integração 
nativa em back-end com o Microsoft Excel, mas há suporte para integração de códigos 
com a ferramenta de armazenamento Google Drive. 
 
Desafio 
A descoberta de conhecimento em bases de dados requer que cientistas de dados 
tenham, além do conhecimento das ferramentas de KDD, a noção dos requisitos de 
infraestrutura necessários para executá-las. 
Você foi contratado como responsável por gerenciar a infraestrutura de TI de uma 
empresa de tecnologia. A empresa promove soluções relacionadas à tomada de decisão, 
como, por exemplo, estratégias de marketing e definição de preços de produtos. 
 
Quais possíveis soluções poderiam ser aplicadas para o problema apresentado? 
Sua resposta : 
Uma opção seria a utilização do Cloud ( SaaS ) aonde os investimentos com hardware 
não seriam tão impactantes e o custo x benefício poderia suprir a demanda necessária 
sem preocupacões maiores. Caso a a latência seja um problema seria interessante 
investir na montagem de um outro servidor na própria rede local da empresa e esses 
dados serem incumbidos de serem copiados para esse computador e ali acontecerem tais 
analises para tanto nesse caso existe suas particulariedades. Contudo o Cloud ainda é 
boa opção. 
Enviado em: 30/11/2021 03:43 
Padrão de resposta esperado 
A solução mais simples seria melhorar a infraestrutura da empresa adquirindo novos 
equipamentos. Entretanto, isso poderia implicar custo elevado. Além disso, quando as 
análises da nova empresa terminassem, muitos dos componentes recém-adquiridos 
ficariam ociosos, representando possíveis prejuízos para a empresa devidos a gastos 
desnecessários. 
Uma solução alternativa seria migrar as análises do cliente a serviços hospedados na 
nuvem. Empresas como Microsoft (Azure), Google (Cloud) e Amazon (AWS) oferecem 
serviços de processamento de dados na nuvem, denominados SaaS (Service as a 
Software, ou, na tradução, serviço como um software). Esses serviços podem ser 
adquiridos sob demanda, pagando-se apenas pelo que for consumido, i.e., 
processamento, armazenamento e tráfego de rede.

Continue navegando