datamining Ferramentas de KDD

•

FASUL

0

Leonardo Maragno Graber

30/11/2021

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 5 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Data Mining

190 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Ferramentas de KDD
1.
Aos processos nos quais ferramentas de KDD devem atuar dá-se o nome de
CRISP-DM (Cross-Industry Standard Process of Data Mining, que pode ser
adaptado para o português como "processo padrão interindústrias para mineração
de dados"). Esses processos podem ser divididos em seis etapas: compreensão dos
negócios, entendimento dos dados, preparação dos dados, modelagem, análise dos
resultadose divulgação dos resultados.
Qual é o objetivo da etapa de preparação de dados?
Resposta correta.
C.
Realizar avaliação anterior ao processo de construção de modelos a fim de remover
inconsistências.
A alternativa correta corresponde à etapa anterior ao processo de construção de
modelos. Ela tem por objetivo a remoção de inconsistências. As outras alternativas
estão incorretas, pois correspondem a outras etapas do CRISP-DM. As etapas do
CRISP-DM em que as ferramentas de KDD devem atuar são seis: (1) compreensão dos
negócios, em que o cientista de dados deve compreender os objetivos de realizar a
construção do modelo; (2) entendimento dos dados, em que o cientista deve buscar
compreender como os dados estão estruturados; (3) preparação dos dados, em que há
remoção de inconsistências; (4) modelagem, etapa na qual é construído o modelo
preditivo; (5) análise dos resultados, etapa em que se avalia se o modelo construído é
eficaz; e (6) divulgação dos resultados, etapa em que o modelo é implementado em
ambiente de produção.
2.
Ferramentas de busca de conhecimento em base de dados (KDD) podem ser
classificadas em gratuitas ou proprietárias. Ferramentas gratuitas ou de código-
fonte aberto são mais utilizadas pela comunidade acadêmica, enquanto as
ferramentas proprietárias são mais adotadas por grandes empresas. São exemplos
de ferramentas proprietárias:
(I) WEKA
(II) Orange
(III) SAS
(IV) Python
(V) RStudio
(VI) Oracle Data Mining
Das opções apresentadas, quais podem ser consideradas verdadeiras?
Você acertou!
E.
III e VI.
Oracle Data Mining e SAS são as únicas ferramentas proprietárias listadas. WEKA,
Orange, Python e RStudio são ferramentas gratuitas.
3.
A análise de grandes bases de dados à procura de informações relevantes pode
requerer grande poder computacional. Isso fazia com que empresas especializadas
em soluções de processamento e análise de dados precisassem ter computadores de
alta potência. No entanto, isso tem mudado recentemente, o que tem levado a uma
evolução na área de mineração de dados.
Qual motivo levou a essas evoluções?
Você acertou!
C.
A adoção de computação na nuvem para processamento de grandes bases de dados.
A adoção de computação na nuvem vem reduzindo os custos operacionais e a
complexidade de lidar com grandes bases de dados. Apesar da redução de custos,
servidores ainda custam valores elevados o bastante para não serem acessíveis à
população em geral. A supremacia quântica ainda não está sendo utilizada em projetos
comerciais. Ainda, é possível dizer que houve evoluções nos algoritmos, e, por fim,
muitos softwares gratuitos e de código-fonte aberto são eficientes.
4.
A computação na nuvem tem sido adotada para a realização de análises massivas
de dados. Também referido como SaaS, nesse tipo de serviço, o cliente paga pelo
uso de determinado software, que será executado em uma infraestrutura remota. O
SaaS permite que usuários realizem processamentos que requerem grande poder
computacional. Entretanto, muitos desenvolvedores ainda preferem construir
aplicações locais.
São vantagens de aplicações locais sobre aplicações realizadas na nuvem:
Você acertou!
B.
menor tempo de latência para acesso aos dados.
O tempo de latência ainda é um problema, apesar de estar sendo reduzido pela melhoria
da infraestrutura das redes de telecomunicação. Custos para aquisição de computadores
potentes podem ser muito grandes; portanto, em muitos casos, é preferível o aluguel de
máquinas remotas. Em relação à segurança, não se pode descartar a possibilidade de
invasões e roubos de dados; entretanto, nos últimos anos, os métodos de autenticação,
transferência de dados e proteção em geral contra invasões melhoraram muito, o que
tem garantido conexões cada vez mais seguras. O poder de processamento em
datacenters é escalonável; portanto, se o usuário precisar de maior demanda, basta
apenas fazer alterações no software. A computação na nuvem tem sido cada vez mais
adotada, mas seu uso ainda depende dos requisitos do desenvolvedor, e, em alguns
casos, é mais vantajoso o processamento de dados localmente.
5.
O Google Colab é uma ferramenta de desenvolvimento de software que utiliza
JuPyter e permite desenvolvimento de códigos em Python e em R. Ele tem sido
adotado por muitos cientistas de dados.
Qual destas é uma vantagem do Google Colab?
Você acertou!
A.
Ambiente de desenvolvimento colaborativo e processamento remoto.
O Colab permite a construção colaborativa de códigos, além do processamento remoto
das aplicações na nuvem (o processamento é feito em back-end). Permite a construção
de códigos usando Python e R, além da inclusão de bibliotecas de terceiros. Portanto,
não tem algoritmos exclusivos de mineração. Além disso, não há suporte gratuito dos
funcionários da Google para desenvolvimento de código. Por fim, não há integração
nativa em back-end com o Microsoft Excel, mas há suporte para integração de códigos
com a ferramenta de armazenamento Google Drive.

Desafio
A descoberta de conhecimento em bases de dados requer que cientistas de dados
tenham, além do conhecimento das ferramentas de KDD, a noção dos requisitos de
infraestrutura necessários para executá-las.
Você foi contratado como responsável por gerenciar a infraestrutura de TI de uma
empresa de tecnologia. A empresa promove soluções relacionadas à tomada de decisão,
como, por exemplo, estratégias de marketing e definição de preços de produtos.

Quais possíveis soluções poderiam ser aplicadas para o problema apresentado?
Sua resposta :
Uma opção seria a utilização do Cloud ( SaaS ) aonde os investimentos com hardware
não seriam tão impactantes e o custo x benefício poderia suprir a demanda necessária
sem preocupacões maiores. Caso a a latência seja um problema seria interessante
investir na montagem de um outro servidor na própria rede local da empresa e esses
dados serem incumbidos de serem copiados para esse computador e ali acontecerem tais
analises para tanto nesse caso existe suas particulariedades. Contudo o Cloud ainda é
boa opção.
Enviado em: 30/11/2021 03:43
Padrão de resposta esperado
A solução mais simples seria melhorar a infraestrutura da empresa adquirindo novos
equipamentos. Entretanto, isso poderia implicar custo elevado. Além disso, quando as
análises da nova empresa terminassem, muitos dos componentes recém-adquiridos
ficariam ociosos, representando possíveis prejuízos para a empresa devidos a gastos
desnecessários.
Uma solução alternativa seria migrar as análises do cliente a serviços hospedados na
nuvem. Empresas como Microsoft (Azure), Google (Cloud) e Amazon (AWS) oferecem
serviços de processamento de dados na nuvem, denominados SaaS (Service as a
Software, ou, na tradução, serviço como um software). Esses serviços podem ser
adquiridos sob demanda, pagando-se apenas pelo que for consumido, i.e.,
processamento, armazenamento e tráfego de rede.