Laureate Brasil - Data Mining

•

Exatas

bruno araújo

02/06/2020

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 28 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 28 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 28 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Data Mining

175 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Material do curso.
A Ciência de Dados é uma fusão de várias disciplinas, incluindo Estatística,
Ciência da Computação, Tecnologia da Informação e outros campos de estudo
mais específicos, como o da Inteligência Artificial e da Gestão de Negócios.
Como resultado, vários termos diferentes podem ser usados para referenciar um
determinado conceito, e são várias as habilidades exigidas a um profissional de
Ciência de Dados – o que torna essa área de atuação tão atrativa e, ao mesmo
tempo, com vagas tão difíceis de preencher. A mineração de dados é uma das
etapas da Ciência de Dados que está relacionada ao contexto do Big Data e que
iremos conhecer melhor ao longo deste roteiro de estudos.
Caro(a) estudante, ao ler este roteiro você vai:
 compreender o contexto e a importância do Big Data;
 adquirir os conceitos básicos de Data Mining;
 aprender as etapas do processo de mineração e análise de dados;
 descobrir tendências e métodos associados à área; e
 conhecer as principais ferramentas associadas à prática de mineração de
dados.
Preparado(a) para este desafio? Então vamos lá!
Introdução
Novas profissões começaram a ganhar destaque com o aumento e a velocidade
com que as informações são geradas, como o cientista de dados, o analista de
BI – Business Intelligence – e o engenheiro de dados. Essas profissões foram
surgindo de forma a acompanhar a evolução da internet e a forma como
prestamos e recebemos produtos e serviços. Dentro disso, o que se tornou
conhecido como Big Data está cada vez mais influente e fazendo sentido em
nossas vidas, sendo que essas grandes inovações só foram possíveis pelo
advento dos recursos de coleta de dados combinados à rápida melhoria das
tecnologias da computação.
Como exemplo dessa realidade, você pode localizar praticamente qualquer coisa
usando um mecanismo de pesquisa como o Google. Mas como o Google
funciona? Os buscadores não poderiam existir sem a capacidade de processar
grandes quantidades de informação a uma velocidade extremamente rápida e
um software eficiente. E o mesmo se dá com a área de comércio eletrônico,
sendo a Amazon um clássico exemplo disso.
As pessoas podem comprar ou vender praticamente todos os tipos de produtos
e serviços diariamente em lojas virtuais como a Amazon. Frequentemente, os
preços on-line são mais baixos do que nas lojas tradicionais e o leque de opções
é maior. Outra grande vantagem das compras on-line é a possibilidade de
fornecer análises de produtos e recomendações para compras futuras –
comentários de outros compradores podem fornecer informações extremamente
importantes que não estão disponíveis em uma descrição fornecida pelos
fabricantes. E esse tipo de recomendação que você vê nas timelines de uma
rede social ou uma indicação de série no Netflix são ativadas justamente por um
recurso de Big Data.
Isso é feito por meio do uso de programas altamente sofisticados que analisam
dados de compras e/ou comportamento do usuário ao navegar em um site,
identificando itens que tendem a ser comprados ou os assuntos mais buscados
pelos mesmos consumidores. Mas como isso tudo se relaciona à mineração de
dados e Big Data? Vamos entender essa relação.
Um site como o da Amazon, para funcionar, precisa processar enormes
quantidades de informação, algo que seria impensável há alguns anos atrás,
uma vez que exige um servidor capaz de armazenar muitos gigas de dados e
que consiga processar tudo isso de maneira rápida e eficiente, além de conseguir
transmitir as informações por uma rede veloz. Tudo isso só é possível atualmente
graças à rápida melhoria das tecnologias envolvidas. Voltando ao Big Data, além
dos mecanismos de pesquisa e do comércio eletrônico, a análise de dados está
causando um grande impacto em um número surpreendente de outras áreas que
afetam nossa vida diária, como as mídias sociais, sites de leilão, área da saúde
e da educação, decisões políticas, previsão do tempo, planejamento de viagens
e finanças, entre outras. No primeiro capítulo, a seguir, vamos entender melhor
como essas informações que temos disponíveis se relacionam com o processo
de mineração de dados.
Conceitos Básicos
sobre Data Mining
Para falar sobre Data Mining, é importante conceituar a área de Big Data. O Big
Data refere-se a conjuntos de dados muito grandes que podem ser manipulados
com uso de hardware tradicional. O Big Data também envolve uso
de softwares de gerenciamento, como os sistemas gerenciadores de banco de
dados (SGBDs), pacotes estatísticos, servidores e outros recursos. Dentro disso,
nos últimos anos, os recursos de coleta de dados tiveram um crescimento
explosivo, de modo que o armazenamento, a mineração e a análise dos dados
resultantes se tornaram progressivamente mais desafiadores. Com isso, muitos
campos foram afetados pela crescente disponibilidade de dados, incluindo
finanças, marketing e comércio eletrônico. Além desses, o Big Data também
revolucionou campos mais tradicionais, como Direito e Medicina (ANDERSON;
SEMMELROTH, 2015).
Para que as informações nas bases de dados possam ser aproveitadas, os
dados são minerados em grande escala por mecanismos de pesquisa, como o
Google, e sites de mídia social, como o Facebook. Sempre que falamos em Big
Data e Ciência de Dados citamos “os cinco Vs”, fatores que distinguem o campo
de Big Data de outros tipos de dados. Sobre os cinco “Vs”, Rosa (2018, p. 22)
afirma que:
A magnitude dos dados gerados, a rapidez com a qual os dados são
gerados constantemente e a diversidade deles formam o que é
chamado de três Vs: Volume, Velocidade e Variedade. Posteriormente,
foram adicionados os conceitos de Veracidade e Valor, passando a
formar os cincos V’s do Big Data.
O esquema da Figura 1 ajuda a ilustrar essas diferentes dimensões e seus
conceitos associados.

Figura 1 - Analisando as cinco diferentes dimensões de Big Data
Fonte: Rosa (2018, p. 23).
Descrição da imagem: gráfico exibindo os “5 Vs” ao redor de Big Data, cada qual
com suas características, sendo eles: Veracidade (relacionado à confiabilidade,
autenticidade, origem / reputação, responsabilidade e disponibilidade); Valor
(relacionado a eventos estatísticos, correlacionais e hipotéticos); Variedade
(relacionado a dados estruturados, não estruturados, de origem multimídia ou
probabilística); Volume (que se dá na ordem de terabytes e dados distribuídos
em registros, transações, tabelas e arquivos); e, por fim, Velocidade (que diz
respeito ao Batch, à coleta em tempo real ou quase real, aos processos e
ao streaming de dados).
Desse modo, temos que a mineração de dados é uma das principais etapas do
processo da Ciência de Dados, que é uma forma de extrair conhecimento a partir
de grandes conjuntos de dados. Diferentes técnicas são associadas à mineração
de dados, podendo envolver inteligência artificial e aprendizado de máquina, e
os procedimentos são sempre baseados em regras e padrões de análise
científica, de modo a obter resultados precisos e confiáveis que possam ser
aproveitados na tomada de decisões estratégicas, no gerenciamento de
informações e no controle de processos (FRACALANZA, 2009).

LIVRO
Big Data
Autor: Cezar Taurion
Editora: Brasport
Ano: 2019
Comentário: A partir da leitura dos capítulos 1, 2 e 3, páginas 31 a 54 do livro
indicado, você irá aprofundar suas noções sobre aplicações e importância da
Era da Informação e do Big Data. Os capítulos iniciais do livro, disponível no
sistema da Biblioteca Pearson da instituição, permite uma visão geral sobre
aplicações e impactos do Big Data na atualidade, de modo a ampliar o
entendimento do contexto que envolve o uso da mineração de dados.
Disponível em: Biblioteca Pearson.
Etapas do Processo de Data
Mining
O processo tradicional de análise de dados envolvia uma equipe de especialistas
que, após realizar um processamento manual das informações disponíveis,gerava relatórios com o resultado das análises. Contudo, o aumento exponencial
do volume nas bases de dados praticamente inviabilizou qualquer processo de
análise manual, de modo que novas técnicas e ferramentas surgiram para suprir
essa necessidade.
Uma das primeiras soluções para esse processo foi o KDD – Knowledge
Discovery in Databases ou Descoberta de Conhecimento nas Bases de Dados.
O método KDD consiste em um processo de descoberta de conhecimento
envolvendo o Data Mining (mineração de dados) como uma das etapas. Dentro
disso, o KDD pode ser subdividido em fases que envolvem a seleção dos dados,
o pré-processamento dos dados, a transformação dos dados, a mineração dos
dados e, por fim, a etapa de avaliação, conforme indica a Figura 2 (CAMILO;
SILVA, 2009).

Figura 2 - As etapas de análise de dados pelo método KDD
Fonte: Camilo e Silva (2009, p. 3).
Descrição da imagem: gráfico ascendente que inicia em uma base de dados e
depois passa por seleção para chegar aos dados escolhidos, depois pela etapa
de pré-processamento (onde são obtidos os dados pré-processados),
procedendo-se, em sequência, à transformação desses dados (que ficam como
transformados), à mineração de dados (com identificação de padrões) e, por fim,
à etapa de avaliação, que permite gerar conhecimento.
Já em relação à etapa de mineração de dados em si, há diferentes processos e
técnicas envolvidos. Um dos procedimentos adotados como padrão é o CRISP-
DM (Cross-Industry Standard Process of Data Mining, ou Processo Industrial
Padrão de Mineração de Dados) que, de acordo com Camilo e Silva (2009, p. 3),
“[...]apesar de ser composto por fases, tem um fluxo unidirecional [...]”, ou seja,
que permite ir e voltar entre as fases. Esse ciclo envolve a fase de entendimento
e pesquisa dos dados, que se alternam com a fase de implantação e a de
preparação de dados, as quais, por sua vez, comunicam-se com as fases de
avaliação e de modelagem. Para saber mais sobre a etapa de mineração de
dados, leia o artigo indicado a seguir.
ARTIGO
Uso de Mineração de Dados e Inteligência Artificial para
Classificar Opiniões nas Redes Sociais
Autores: Matheus Ferreira Caetano, Renato Soares da Silva Gonçalez e
Anderson Francisco Talon
Ano: 2019
Este artigo explora o conceito de mineração de dados e as etapas envolvidas
nesse processo diante de uma aplicação prática – o uso da mineração de
dados e da inteligência artificial para classificar dados minerados em redes
sociais.

A CESSA R
Tarefas de Data Mining
Reunir e armazenar grandes quantidades de dados é um grande desafio, mas,
em última análise, o maior e mais importante desafio do Big Data é saber como
aproveitar a sua base de dados. Por exemplo, uma quantidade massiva de dados
somente será útil ao departamento de pesquisa de marketing de uma empresa,
se a equipe responsável pela análise dos dados puder identificar as principais
demandas da empresa. As empresas que atuam com pesquisa política, por
exemplo, têm acesso a grandes quantidades de dados demográficos sobre os
eleitores; essas informações devem ser analisadas intensivamente para
encontrar os principais fatores que podem levar a uma campanha política bem-
sucedida (ANDERSON; SEMMELROTH, 2015).
Um fundo de financiamento também pode desenvolver estratégias de
negociação a partir de grandes quantidades de dados financeiros, encontrando
padrões obscuros nos dados que podem ser transformados em estratégias
lucrativas. Muitas técnicas estatísticas podem ser usadas para analisar dados e
encontrar padrões úteis, como distribuições de probabilidade, análises de
regressão, análise de séries temporais e técnicas de previsão. Essas
modalidades fazem parte das diferentes tarefas ou objetivos assumidos pela
mineração de dados. Nesse sentido, Castro e Ferrari (2016, p. 28) afirmam que
essas tarefas podem ser classificadas em duas categorias:
a. descritivas: caracterizadas por dados e suas propriedades gerais; e
b. preditivas: caracterizadas por fazerem análise de inferência com os dados
para prever tendências.
Para saber mais detalhes sobre análise descritiva de dados, predição por
classificação e estimação, clustering, análise por associação e detecção de
anomalias, que são tarefas e/ou possíveis objetivos da mineração de dados, leia
o capítulo do livro indicado a seguir.

LIVRO
Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos
e Aplicações
Autores: Leandro Nunes de Castro e Daniel Gomes Ferrari
Editora: Saraiva
Ano: 2016
Comentário: O primeiro capítulo do livro, disponível no sistema Minha
Biblioteca da instituição, traz uma visão geral do funcionamento da mineração
de dados, tarefas, nomenclaturas e exemplos de aplicação que irão aprofundar
seu conhecimento antes de compreender melhor os métodos de Data Mining.
Considera-se importante fazer a leitura do Capítulo 1: Introdução à Mineração
de Dados, da página 1 a 24.
Disponível em: Minha Biblioteca.
Métodos de Data Mining
Para chegar à etapa da mineração de dados, antes existe a preparação ou o pré-
processamento dos dados, que consiste em realizar uma limpeza (ou triagem)
dos dados seguida de integração e transformação dos dados para um padrão
único, conforme a necessidade.
Dentro da etapa de preparação dos dados, há diferentes métodos e técnicas
para cada fase, e a escolha das ferramentas e técnicas que serão utilizadas
também depende dos objetivos da mineração dos dados – se se pretende
realizar Data Mining para descrição de padrões para fins de classificação, de
agrupamento, de associação, de predição ou de estimativa – que, como vimos
no capítulo anterior, são as diferentes tarefas ou objetivos de um projeto de
mineração de dados. Os métodos que podem ser usados para a mineração de
dados, em si, envolvem aprendizado supervisionado (preditivo) ou não
supervisionado (descritivo), conforme explicação de Camilo e Silva (2009, p. 10):
A diferença entre os métodos de aprendizado supervisionados e não
supervisionados reside no fato de que os métodos não supervisionados
não precisam de uma pré-categorização para os registros, ou seja, não
é necessário um atributo alvo. Tais métodos geralmente usam alguma
medida de similaridade entre os atributos. As tarefas de agrupamento e
associação são consideradas como não supervisionadas. Já no
aprendizado supervisionado, os métodos são providos com um
conjunto de dados que possuem uma variável alvo pré-definida e os
registros são categorizados em relação a ela. As tarefas mais comuns
de aprendizado supervisionado são a classificação (que também pode
ser não-supervisionado) e a regressão.
As diferentes técnicas que podem ser combinadas durante a análise dos dados
podem ser conferida na Figura 3.

Figura 3 - As diferentes técnicas envolvidas na mineração de dados
Fonte: Camilo e Silva (2009, p. 11).
Descrição da imagem: gráfico com técnicas de mineração de dados colocadas
em linha, iniciando com HMEQ, Agrupamento e Divisão de Dados, depois Árvore
de Decisão, Indução de Regras e Redes Neurais (bifurcação ao centro),
continuando a linha com a técnica de comparação de modelos, pontuação (que
faz uma ligação com pontuação HMEQ) e, por fim, a técnica de lista de riscos.
Como é possível observar pela Figura 3, a mineração de dados envolve desde
métodos estatísticos até o uso de deep learning (com inteligência artificial e
aprendizado de máquina). Na indicação de leitura a seguir, você poderá
aprender sobre o modelo TAM, que é outro método usado em mineração de
dados.
ARTIGO
Avaliação de Ferramentas de Mineração de Dados: Uma
Abordagem com o Modelo TAM
Autores: Gleidison Santos Hora, Jislane Silva Santos Menezes, Gilson Pereira
dos Santos Júnior e Almerindo Nascimento Rehem Neto
Ano: 2018
Comentário: Este artigo, publicado no periódico Interfaces Científicas, narra a
abordagem de um método utilizado pelos autores como ferramentade
mineração de dados: o Modelo de Aceitação Tecnológica ou Technology
Acceptance Model (TAM).

A CESSA R
Ferramentas de Data Mining
Conforme vimos em capítulo anterior deste roteiro, a análise de dados não é uma
área nova. Os analistas de BI já usavam diversas técnicas para coleta,
organização, análise e monitoramento de informações, de modo a oferecer
suporte aos processos de negócios. Algumas das ferramentas usadas para isso
incluem o Microsoft Excel, o SAS, o SPSS, estatística com R, Weka e Cognos
(MARQUESONE, 2017).
Contudo, com o aumento de volume dos bancos de dados, ficou praticamente
impossível usar esses mesmos recursos para a análise de dados - ainda mais
que os dados não são encontrados somente em formato estruturado e também
dispersos como dados parcial ou totalmente não estruturados. Diante disso,
Marquesone (2017) aponta que foram desenvolvidos novos algoritmos
e frameworks específicos para a análise de dados, tais como o Hadoop, a
ferramenta Spark e a linguagem Python.
O autor Taurion (2019) também explica que, para tratar dados frente à nova
escala de volume, variedade e velocidade do Big Data, foi necessário
implementar novos modelos, como os bancos de dados NoSQL (que suportam
imensos volumes de dados estruturados e não estruturados), a exemplo dos
softwares MongoDB e Neo4j, além de outras ferramentas auxiliares para
tratamento inicial e de visualização de dados, como o Microsoft Power BI. Esses
novos softwares, associados à computação em nuvem, trouxeram inovações
sem precedentes para a área da Ciência de Dados. A esse respeito, Taurion
(2019, p. 100) afirma que o Hadoop é uma tecnologia que se destaca no cenário
de Big Data:
O Hadoop é um projeto da comunidade Apache, foi criado pelo Yahoo
em 2005, inspirado no trabalho do Google em seu GFS (Google File
System) e no paradigma de programação MapReduce, que
basicamente divide o trabalho em tarefas como um mapeador (mapper)
e um resumidor (reducer) que manipulam dados distribuídos em um
cluster de servidores usados de forma massivamente paralela.
Você pode ler o Capítulo 7 do livro Big Data, de Cezar Taurion, que está
disponível na Biblioteca Pearson, para saber mais detalhes a respeito do
Hadoop. Adicionalmente, indicamos a leitura de um trecho do trabalho de
dissertação abaixo, que aborda outras ferramentas utilizadas em Data Mining.
DISSERTAÇÃO
Estudo sobre as Técnicas e Métodos de Análise de Dados no
Contexto de Big Data
Autora: Caroline Silvério Rosa
Ano: 2018
Comentário: Este é um trabalho de dissertação que aborda diversas técnicas
e métodos de análise e mineração de dados. Leia o Capítulo 3.3: Técnicas de
Análise Big Data, da página 46 a 52, para conhecer diferentes ferramentas de
análise usadas em Big Data.

A CESSA R
Conclusão
Como pudemos observar ao longo dos tópicos deste roteiro, a mineração de
dados não é uma área isolada da Ciência de Dados, e sim uma das etapas da
busca de conhecimento a partir da análise de dados nas grandes bases dos
bancos conhecidos como Big Data. A mineração de dados, assim, acaba se
estendendo e sendo auxiliada por várias outras áreas, como Engenharia,
Sistemas de Informação, Matemática, Estatística, Visualização, Bancos de
Dados e Inteligência Artificial, sendo que as diferentes tarefas ou objetivos de
análise da mineração de dados irão definir com qual intensidade cada uma
dessas áreas do conhecimento interferirá no processo. Cabe ao profissional
analista ter uma base de entendimento que cruze todas essas informações e que
tenha objetivos de análise claros e alinhados com os propósitos da pesquisa, da
empresa e/ou do negócio, de modo que seja possível determinar as melhores
técnicas e ferramentas que serão usadas durante a mineração dos dados.

1ª Tentativa
Revisar envio do teste: Teste Final

Usuário Bruno Moreira de Araújo
Curso DATA MINING
Teste Teste Final
Iniciado 02/06/20 19:28
Enviado 02/06/20 20:05
Status Completada
Resultado da tentativa 5 em 10 pontos
Tempo decorrido 36 minutos
Resultados exibidos Respostas enviadas, Respostas corretas, Comentários
 Pergunta 1
0 em 1 pontos

Considere a seguinte situação hipotética para responder a questão:

Periodicamente, o auditor de um banco tem a necessidade de avaliar elementos
que possam ajudar na identificação de fraudes como desvio de verba e
balanceamento incorreto de caixa. Diante de uma denúncia anônima, o auditor
agora deseja aplicar técnicas de mineração de dados para conseguir encontrar
alguma inconsistência nos registros.

Assim sendo, assinale a alternativa que apresenta a ação a ser tomada pelo
auditor dessa instituição financeira.

Resposta
Selecionada:

o auditor deverá analisar o percentual de movimentação total do
caixa, comparando projeções atuais e futuras.
Resposta
Correta:

o auditor deve valer-se de instrumentos preditivos de análise para
comparar dados passados aos registros atuais.
Feedback
da
resposta:
Sua resposta está incorreta. A análise percentual, a informação média
de movimentações e a varredura da base de dados não permitirão a
comparação dos registros anteriores aos registros atuais, nem
fornecerá um parâmetro para essa comparação. Para tanto, usar a
análise preditiva favorecerá que o auditor localize o erro ou a possível
fraude na movimentação ao gerar um gráfico com os registros atuais e
um gráfico com as projeções de como as movimentações deveriam ter
ocorrido, com base no histórico dos registros anteriores.

 Pergunta 2
0 em 1 pontos

Em Ciência de Dados, há basicamente dois formatos de análise possível, em que a análise
de dados pode recorrer tanto a procedimentos estatísticos quanto a algoritmos de
aprendizado de máquina (ou análise preditiva) para descobrir padrões e extrair
conhecimento de uma base de dados.

A partir do exposto, associe as técnicas de análise dados a seguir às suas possíveis
associações:

(1) Análise exploratória.
(2) Análise de estimação.
(3) Análise de classificação.

( ) Regressão estatística.
( ) Cálculo do desvio padrão.
( ) Predição de valores discretos.

Agora indique a ordenação correta entre os tipos de análise e seus respectivos métodos:

Resposta Selecionada:
1, 3, 2.
Resposta Correta:
2, 1, 3.
Feedback
da
resposta:
Sua resposta está incorreta. A análise descritiva faz uso da análise de
dados exploratória para investigar uma base de dados, sendo que as
medidas centrais e de dispersão, como Amplitude, Variância e Desvio
Padrão, fazem parte desse método; já as análises de estimação e de
classificação são da área da análise preditiva, sendo que a primeira
lida com regressões estatísticas e valores contínuos, e a segunda lida
com a previsão de valores discretos. Assim sendo, a associação
correta entre as colunas é 2 (Análise de estimação - Regressão
estatística), 1 (Análise exploratória - Cálculo do desvio padrão), 3
(Análise de classificação - Predição de valores discretos).

 Pergunta 3
1 em 1 pontos

Leia o trecho a seguir:

"A mineração de dados envolve conhecimento de áreas como banco de dados, estatística,
aprendizagem de máquina, computação de alto desempenho, reconhecimento de padrões,
computação natural, visualização de dados, recuperação de informação, processamento de
imagens e de sinais, análise espacial de dados, inteligência artificial, entre outras."

CASTRO, L. N. de; FERRARI, D. G. Introdução à mineração de dados: conceitos básicos,
algoritmos e aplicações. São Paulo: Saraiva, 2016, pág. 28.

até estatística e programação. Com isso em mente, assinale a palavra que resumea
condição desse campo de atuação de Big Data:
Resposta Selecionada:
Multidisciplinar e interdisciplinar.
Resposta Correta:
Multidisciplinar e interdisciplinar.
Feedback
da
resposta:
Resposta correta. A reunião dessas diversas áreas de conhecimento
no campo de Big Data e mineração de dados faz com que essa seja
uma disciplina multidisciplinar - uma vez que abrange conceitos de
vários campos diferentes - e também interdisciplinar - uma vez que
relaciona e interliga esses conceitos.

 Pergunta 4
0 em 1 pontos

A prática de análise de dados não é uma novidade para as empresas. Desde o tempo de
arquivos em papel, era necessário ter uma equipe ou um especialista dedicado a organizar,
filtrar e analisar as informações contidas nas bases de dados físicas. Para tanto, foi
desenvolvido o método KDD, que consiste em um processo de descoberta de
conhecimento dividido em várias etapas. Sobre as etapas de análise de dados pelo método
KDD, avalie os itens a seguir:

I. Mineração de dados
II. Avaliação
III. Seleção
IV. Pré-processamento
V. Transformação

Agora assinale a alternativa que representa a ordem correta dessas etapas:

Resposta Selecionada:
III, IV, I, V, II.
Resposta Correta:
IV, III, V, I, II.
Feedback
da
resposta:
Sua resposta está incorreta. Quando consideramos todas as etapas
de processamento em uma análise de dados, a mineração é apenas
uma parte desse processo. Isso significa que, inicialmente, os dados
devem ser coletados e selecionados, para em seguida serem pré-
processados e transformados em dados estruturados, de modo a
permitir a transformação estatística e a mineração dos dados - ou
seja, a busca pelas informações que se deseja obter, e cujo resultado
será avaliado ao final.

 Pergunta 5
0 em 1 pontos

Leia o trecho a seguir:

“Após ter identificado o foco do projeto de Big Data e definido as respostas que deseja
obter por meio de dados, você pode dar início à identificação de quais dados deverão ser
capturados.”

MARQUESONE, R. de F. P. Big Data: técnicas e tecnologias para extração de valor dos
dados. São Paulo: Casa do Código, 2017, pág. 35.

Nesse trecho é afirmado que saber identificar o foco de um projeto de Big Data, ou seja, os
objetivos da mineração de dados, é um passo fundamental para obter as respostas
procuradas em um conjunto de dados. Sobre os objetivos do data mining , avalie e assinale
a alternativa correta:

Resposta
Selecionada:

Encontrar padrões nos dados visando o aprimoramento
estatístico das hipóteses.
Resposta Correta:
Descobrir novas regras e padrões visando a aquisição de
conhecimento indutivo.
Feedback
da
resposta:
Sua resposta está incorreta. A mineração de dados não visa o
aprimoramento estatístico, nem confirma ou refuta hipóteses, nem
segrega informações por si só - a mineração de dados serve para
detectar padrões em uma base desconhecida ou que já tenha sido
visitada, de modo a fornecer informações que serão transformadas em
conhecimento após a análise final dos dados. Aplicar novas regras a
informações anteriormente analisadas, embora possa ser objeto de
um projeto de análise de dados, também não faz parte dos objetivos
da etapa de mineração de dados, em si.

 Pergunta 6
1 em 1 pontos

A mineração de dados é um processo relacionado às áreas de Ciência de Dados e
Big Data responsável por integrar um processamento maior dentro da análise de
dados, que consiste em diferentes etapas. Esse processo permite que os dados
sejam extraídos e trabalhados a partir de um dataset.

Nesse sentido, assinale a alternativa que define a etapa imediatamente anterior à
da mineração de dados.

Resposta Selecionada:
Transformar os dados conforme um padrão.
Resposta Correta:
Transformar os dados conforme um padrão.

Feedback
da
resposta:
Resposta correta. Após as etapas de seleção de de pré-
processamento, será na fase da transformação dos dados que
ocorrerá a conversão dos dados brutos em um formato padrão que
seja possível de filtrar e utilizar para a análise estatística,, de forma
que os dados estejam melhor relacionados entre si e que possam ser
analisados posteriormente.

 Pergunta 7
1 em 1 pontos

Leia o trecho a seguir sobre mineração de dados:

"Uma das famosas frases relacionadas a Big Data é: 'Big Data é o novo petróleo'. Podemos
pensar que isso é uma analogia coerente, dado que, assim como o petróleo, o maior valor é
obtido após um processo de refinamento, ou seja, após a transição de dados brutos para
um determinado produto."

MARQUESONE, R. de F. P. Big Data: técnicas e tecnologias para extração de valor dos
dados. São Paulo: Casa do Código, 2017, pág. 29.

Sobre o termo data mining, analise as asserções a seguir e a relação proposta entre elas:

I. O termo "mineração de dados" tem associação direta com a atividade de mineração de
ouro, jazidas e pedras preciosas
PORQUE
II. encontrar os dados e a sua relação correta evoca informações que podem ser muito
valiosas para as estratégias de uma empresa.

Assinale a alternativa correta.

Resposta
Selecionada:

As asserções I e II são proposições verdadeiras, e a II é uma
justificativa correta da I.
Resposta Correta:
As asserções I e II são proposições verdadeiras, e a II é uma
justificativa correta da I.
Feedback
da
resposta:
Resposta correta. Empresas se beneficiam com a análise de dados
justamente porque a mineração de dados leva à descoberta de novos
padrões, informações e conhecimentos, o que permite não apenas
alterar um processo interno da empresa, como também pode
evidenciar um erro ou um padrão que não havia sido notado antes.

 Pergunta 8
0 em 1 pontos

Sobre as tecnologias relacionadas a mineração de dados e Big Data, leia o excerto a
seguir:

"Pesquisadores consideram que estamos vivenciando o início de uma nova revolução
industrial, na qual os dados passam a ser elementos chaves dessa mudança. Podemos
concluir, portanto, que esse é o momento ideal para criarmos oportunidades a partir dos

dados."

MARQUESONE, R. de F. P. Big Data: técnicas e tecnologias para extração de valor dos
dados. São Paulo: Casa do Código, 2017, pág. 8.

Com base nisso, analise as asserções a seguir e a relação proposta entre elas:

I. Big Data é uma área de inovações voltada ao processamento de grandes volumes de
dados
PORQUE
II. as tecnologias e arquiteturas envolvidas permitem alta velocidade de coleta, novas
descobertas e diversos processos de análise.

A seguir, assinale a alternativa correta.
Resposta
Selecionada:

As asserções I e II são proposições verdadeiras, e a II é uma
justificativa correta da I.
Resposta Correta:
As asserções I e II são proposições verdadeiras, mas a II não é
uma justificativa correta da I.
Feedback
da
resposta:
Sua resposta está incorreta. Big Data é, de fato, uma área inovadora
que lida com grandes volumes de dados; contudo, isso ocorre devido
à expansão da internet e à evolução dos usuários e da Internet of
Things, que gerou essa enorme torrente de dados. As tecnologias e
arquiteturas envolvidas são apenas o meio pelo qual é possível
registrar e processar todas essas informações em uma base de
dados, portanto a I e a II são afirmações corretas, mas a II não
justifica a I.

 Pergunta 9
1 em 1 pontos

Leia o trecho a seguir:

“É comum, ao ouvir pela primeira vez o termo Big Data, pensarmos que ele está
unicamente relacionado a um grande volume de dados (o que é normal, já que o nome diz
exatamente isso). Entretanto, o volume de dados não é sua única característica.”.

MARQUESONE, R. de F. P. Big Data: técnicas e tecnologias para extração de valor dos
dados. São Paulo: Casa do Código, 2017, pág. 8.

Esse trecho é uma introdução da autora aos termos que designam os “5 Vs” de Big Data,
sendo um deles o volume, que costuma sero mais associado a uma grande base de
dados, por motivos óbvios. Entretanto, há outras características que devem ser
consideradas. Nesse sentido, leia e relacione cada um dos termos dos “5 Vs” às suas
características correspondentes:

(1) Volume.
(2) Velocidade.
(3) Veracidade.

(4) Variedade.
(5) Valor.

( ) Confiabilidade.
( ) Eventos estatísticos.
( ) Tipos de dados.
( ) Registros.
( ) Coleta de dados.

A partir das relações feitas anteriormente, assinale a alternativa que apresenta a sequência
correta:
Resposta Selecionada:
3, 5, 4, 1, 2.
Resposta Correta:
3, 5, 4, 1, 2.
Feedback
da
resposta:
Resposta correta. A confiabilidade está associada à integridade e
Veracidade dos dados, sendo um dos “5 Vs”; o Valor está associado a
eventos estatísticos, que permitem confirmar ou refutar uma hipótese,
por exemplo; já os tipos de dados, que podem ser estruturados ou não
estruturados, configuram a Variedade; e a Velocidade está
relacionada a quão rapidamente os dados são coletados e
posteriormente registrados em suas bases de dados; esses registros
dizem respeito, assim, ao Volume.

 Pergunta 10
1 em 1 pontos

Sobre tomada de decisão estratégica, Provost e Fawcett explicam que a sigla DDD
refere-se a Data-Driven Decision-making, ou seja, tomada de decisão com base
nos dados, e consiste na prática de usar a análise de dados como suporte ao
posicionamento estratégico em vez da gestão baseada na intuição pura.

PROVOST, F.; FAWCETT, T. Data Science for Business: What you need to know
about data mining and data-analytic thinking. Califórnia: O'Reilly, 2013.

Pensando nisso, assinale a alternativa que reflete a prática de DDD:

Resposta
Selecionada:

Usa a análise de dados para promover decisões mais
assertivas.
Resposta Correta:
Usa a análise de dados para promover decisões mais
assertivas.

Feedback
da
resposta:
Resposta correta. Uma vez que o gestor esteja com o resultado da
análise de dados em mãos, ele consegue perceber detalhes que antes
eram imperceptíveis, como um padrão ou uma tendência em relação a
um tipo de serviço e/ou produto. A análise permite ao gestor, assim,
pensar na melhor estratégia com base em fatores reais, e não
somente em sua experiência e intuição como gestor.

2ª Tentativa

1. DATA MINING

2. Atividade e Certificado

3. Revisar envio do teste: Teste Final
Revisar envio do teste: Teste Final

Usuário Bruno Moreira de Araújo
Curso DATA MINING
Teste Teste Final
Iniciado 02/06/20 20:07
Enviado 02/06/20 20:34
Status Completada
Resultado da tentativa 8 em 10 pontos
Tempo decorrido 27 minutos
Resultados exibidos Respostas enviadas, Respostas corretas, Comentários
 Pergunta 1
1 em 1 pontos

I. Mineração de dados
II. Avaliação
III. Seleção
IV. Pré-processamento
V. Transformação

Agora assinale a alternativa que representa a ordem correta dessas etapas:

Resposta Selecionada:
IV, III, V, I, II.
Resposta Correta:
IV, III, V, I, II.

Feedback
da
resposta:
Resposta correta. O KDD é um método que envolve a seleção dos
dados, o pré-processamento, a transformação, a mineração dos dados
e a avaliação dos resultados obtidos. Esse método funciona com
qualquer quantidade de dados, e para qualquer finalidade. Sendo um
padrão consistente, continua sendo adotado na Ciência de Dados.

 Pergunta 2
1 em 1 pontos

Leia o trecho a seguir:

CASTRO, L. N. de; FERRARI, D. G. Introdução à mineração de dados: conceitos básicos,
algoritmos e aplicações. São Paulo: Saraiva, 2016, pág. 28.

Nesse sentido, há muitos conteúdos que se cruzam e que dão respaldo à mineração de
dados, de modo que um bom cientista de dados ou analista de B.I. - Business
Intelligence deve apresentar habilidades que vão desde a noção de mercado e negócios
até estatística e programação. Com isso em mente, assinale a palavra que resume a
condição desse campo de atuação de Big Data:

Resposta Selecionada:
Multidisciplinar e interdisciplinar.
Resposta Correta:
Multidisciplinar e interdisciplinar.
Feedback
da
resposta:
Resposta correta. A reunião dessas diversas áreas de conhecimento
no campo de Big Data e mineração de dados faz com que essa seja
uma disciplina multidisciplinar - uma vez que abrange conceitos de
vários campos diferentes - e também interdisciplinar - uma vez que
relaciona e interliga esses conceitos.

 Pergunta 3
0 em 1 pontos

Leia o excerto a seguir sobre métodos de treinamento e teste:

"Na maioria das redes neurais esses parâmetros correspondem aos valores dos
pesos da rede e à sua arquitetura (número de camadas e/ou neurônios); nas
árvores de decisão esses parâmetros são os nós da árvore, sua arquitetura
(profundidade e conexões) e as condições a serem associadas a cada arco; e nas
regras de decisão os parâmetros são os antecedentes e consequentes de cada
regra e o número total de regras."

CASTRO, L. N. de; FERRARI, D. G. Introdução à mineração de dados: conceitos
básicos, algoritmos e aplicações. São Paulo: Saraiva, 2016, pág. 175.

Pensando nas possíveis aplicações das técnicas de treinamento, avalie as
seguintes afirmações:

I. Redes Neurais, Árvores de Decisão e Indução de Regras são técnicas que se
utilizam de Inteligência Artificial.
II. Agrupamento é o mesmo que classificação ou clustering, e serve para identificar
subconjuntos de dados.
III. A pontuação é uma técnica que pode variar a partir da integração com outro
método - o HMEQ.
IV. As Árvores de Decisão usam uma técnica estatística complexa, de modo que
são pouco usadas em análise de dados.

É correto o que se afirma em:
Resposta Selecionada:
II e III, apenas.
Resposta Correta:
I, II e III, apenas.
Feedback
da
resposta:
Sua resposta está incorreta. As diferentes técnicas envolvidas em
mineração de dados envolvem HMEQ, Agrupamento e Divisão de
Dados, Árvore de Decisão, Indução de Regras, Redes Neurais,
comparação de modelos, pontuação, pontuação HMEQ e lista de
riscos. Dessas, somente a Árvore de Decisão, a Indução de Regras e
as Redes Neurais estão relacionadas à inteligência artificial, e as
Árvores de Decisão utilizam cálculos estatísticos simples, sendo um
método bastante utilizado em Ciência de Dados. Portanto, os itens
corretos são I, II e III.

 Pergunta 4
1 em 1 pontos

PROVOST, F.; FAWCETT, T. Data Science for Business: What you need to know
about data mining and data-analytic thinking. Califórnia: O'Reilly, 2013.

Pensando nisso, assinale a alternativa que reflete a prática de DDD:

Resposta
Selecionada:

Usa a análise de dados para promover decisões mais
assertivas.
Resposta Correta:Usa a análise de dados para promover decisões mais
assertivas.
Feedback
da
resposta:
Resposta correta. Uma vez que o gestor esteja com o resultado da
análise de dados em mãos, ele consegue perceber detalhes que antes
eram imperceptíveis, como um padrão ou uma tendência em relação a
um tipo de serviço e/ou produto. A análise permite ao gestor, assim,
pensar na melhor estratégia com base em fatores reais, e não
somente em sua experiência e intuição como gestor.

 Pergunta 5
1 em 1 pontos

Antigamente, as empresas mantinham grandes arquivos com dados de produtos, clientes,
funcionários, relatórios de vendas, e assim por diante. Com o advento da internet, foi
possível digitalizar e compartilhar essas informações. Contudo, o número de dados a serem
arquivados também aumentou, o que gerou um problema de armazenamento e de
processamento, exigindo que as empresas adequassem suas infraestruturas e aderissem a
novas tecnologias. Esse é o início do Big Data.

Nesse sentido, assinale a alternativa que apresenta as cinco características mais citadas do
Big Data:

Resposta Selecionada:
Volume, Velocidade, Variedade, Valor e Veracidade.
Resposta Correta:
Volume, Velocidade, Variedade, Valor e Veracidade.
Feedback
da
resposta:
Resposta correta. Quando nos referimos a Big Data, algumas
características mais óbvias se destacam, como o Volume de dados, a
Velocidade com que os dados são coletados, a Variedade de dados
coletados, o Valor agregado a esses dados e a Veracidade que esses
dados devem representar.

 Pergunta 6
1 em 1 pontos

Sobre bases de dados, leia o parágrafo a seguir:

“Atualmente, grande parcela dos dados gerados por humanos é oriunda de mídias sociais,
onde usuários podem publicar o que pensam sobre algo, gerar debates, publicar suas
preferências e suas emoções. Essas informações são geradas em formatos de texto,
imagem, áudio e vídeo, resultando em uma base de dados diversificada e volumosa.”

MARQUESONE, R. de F. P. Big Data: técnicas e tecnologias para extração de valor dos
dados. São Paulo: Casa do Código, 2017, pág. 18.

Assinale a alternativa que representa o tipo de dado que estaria nessa base de dados
diversificada e volumosa:

Resposta Selecionada:
Dados não-estruturados.
Resposta Correta:
Dados não-estruturados.
Feedback
da
resposta:
Resposta correta. Nas mídias sociais e nas páginas web é possível
encontrar diversos tipos de dados, como textos, imagens, vídeos,
áudios e outros formatos. Essa mistura de dados em uma organização
precária configuram os dados não-estruturados, que precisarão
passar por tratamento antes de poderem ser minerados e analisados.

 Pergunta 7
1 em 1 pontos

Na atualidade, os dados são gerados continuamente pelas mais diversas fontes. Ao
acessar um site, por exemplo, uma única pessoa gera dados relacionados aos cliques e
movimentos do mouse, às palavras que escreve na tela, aos termos que busca no Google e
aos conteúdos pelos quais se interessa. Pensando nos milhões de usuários que acessam a
internet 24h por dia, o volume de dados gerado a cada segundo é impressionante.

Com base nisso, assinale a alternativa correta.

Resposta
Selecionada:

Big Data é a evolução das tecnologias e arquiteturas
relacionadas às bases de dados.
Resposta Correta:
Big Data é a evolução das tecnologias e arquiteturas
relacionadas às bases de dados.
Feedback
da
resposta:
Resposta correta. Não é à toa que um dos “5 Vs” de Big Data seja
Velocidade. Para comportar grandes volumes de dados, as
tecnologias envolvidas também precisaram melhorar em termos de
processamento - só assim foi possível acompanhar e dar suporte à
entrada contínua de dados na rede.

 Pergunta 8
0 em 1 pontos

Leia o excerto a seguir:

"Os algoritmos de aprendizagem de máquina são ferramentas poderosas para a descoberta
de conhecimentos em bases de dados. Entretanto, uma etapa inicial do processo de
mineração que não requer elevado nível de sofisticação é a análise descritiva dos dados,
ou seja, o uso de ferramentas capazes de medir, explorar e descrever características
intrínsecas aos dados."

CASTRO, L. N. de; FERRARI, D. G. Introdução à mineração de dados: conceitos básicos,
algoritmos e aplicações. São Paulo: Saraiva, 2016, pág. 29.

Sobre os métodos usados em mineração de dados, analise as afirmativas a seguir e
assinale V para a(s) Verdadeira(s) e F para a(s) Falsa(s).

I. Para identificar grupos de dados de acordo com um padrão específico, é usada a técnica
de agrupamento ou clustering.
II. O mapeamento de um conjunto de dados com variáveis discretas é possível a partir da
técnica de regressão.
III. A classificação é usada para mapear os valores discretos de um conjunto de dados.
IV. Regras de associação servem, unicamente, para identificar grupos de dados.
V. Deep learning , ou aprendizado de máquina, é um recurso usado tanto em análises com
aprendizado supervisionado quanto em análises de aprendizado não-supervisionado.

Assinale a alternativa que apresenta a sequência correta:
Resposta Selecionada:
V, F, V, F, F.
Resposta Correta:
V, F, V, F, V.
Feedback
da
resposta:
Sua resposta está incorreta. A técnica de clusterização identifica
grupos de dados a partir de aprendizado supervisionado, em que a
máquina é treinada para localizar ou repetir um padrão a partir de um
parâmetro predefinido, trabalhando, assim, com variáveis discretas,
então as alternativas I e III são verdadeiras; já o mapeamento de
dados pela regressão ou estimação usa variáveis contínuas, motivo
pelo qual a alternativa II é falsa; as regras de associação servem,
principalmente, para analisar a significância entre diferentes conjuntos
de dados, e não para simplesmente identificar os dados, motivo pelo
qual a alternativa IV também é falsa. E o aprendizado de máquina
pode ser do tipo supervisionado, quando inserimos informações
conhecidas, ou não-supervisionado, quando o sistema deverá
trabalhar com dados desconhecidos - portanto a afirmação V é
verdadeira.

 Pergunta 9
1 em 1 pontos

Leia o trecho a seguir sobre mineração de dados:

MARQUESONE, R. de F. P. Big Data: técnicas e tecnologias para extração de valor dos
dados. São Paulo: Casa do Código, 2017, pág. 29.

Sobre o termo data mining, analise as asserções a seguir e a relação proposta entre elas:

I. O termo "mineração de dados" tem associação direta com a atividade de mineração de
ouro, jazidas e pedras preciosas

PORQUE
II. encontrar os dados e a sua relação correta evoca informações que podem ser muito
valiosas para as estratégias de uma empresa.

Assinale a alternativa correta.
Resposta
Selecionada:

 Pergunta 10
1 em 1 pontos

Dentre as possíveis metodologias existentes para proceder à análise de dados, o CRISP-
DM ( Cross-Industry Standard Process of Data Mining , ou Processo Industrial Padrão de
Mineração de Dados) é um método que diz respeito a um processo de fluxo unidirecional
composto por ciclos ou etapas, assimcomo o método KDD.

Sobre CRISP-DM, assinale a alternativa correta:

Resposta
Selecionada:

Envolve preparação, implantação, pesquisa, modelagem e
avaliação de dados.
Resposta Correta:
Envolve preparação, implantação, pesquisa, modelagem e
avaliação de dados.
Feedback
da
resposta:
Resposta correta. o CRISP-DM possui diversas etapas, assim como o
método KDD, contudo essas fases, embora tenham um fluxo
unidirecional, possuem etapas cíclicas, ou seja, que permitem ir e
voltar entre si. Por exemplo, a fase de entendimento e pesquisa de
dados pode se alternar com a de implantação e preparação de dados,
uma vez que se tenha localizado uma inconsistência no momento da
implantação que traga a exigência de uma nova pesquisa ou de um
novo entendimento sobre o dado com erro.