Buscar

POS0776 INTELIGÊNCIA ANALÍTICA PG0968211 - 202112 ead-15437 01

Prévia do material em texto

12/05/2021 Roteiro de Estudos
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_665466_… 1/16
Neste roteiro de estudos, serão abordados os principais conceitos de mineração de dados, que
é o principal fundamento da inteligência analítica e que nos possibilita realizar análises
completas sobre os dados, com o objetivo de tomar decisões. Isso permitirá consolidar seus
conhecimentos sobre essas ferramentas, conhecer aplicações e diferenciá-las.
Caro(a) estudante, ao ler este roteiro você vai:
compreender o conceito de mineração de dados;
conhecer os processos de preparação de dados, tais como limpeza, redução,
normalização e discretização;
compreender os conceitos de análise descritiva e análise de grupos;
compreender o processo de classi�car dados utilizando algoritmos como árvore de
decisão, regras de classi�cação e Naive Bayes;
conhecer a aplicabilidade do algoritmo Apriori no processo de mineração de dados;
compreender os processos de detecção de anomalias em dados;utilizar os métodos
paramétricos e não
paramétricos para a detecção de anomalias.
Introdução
A mineração de dados é o principal fundamento da inteligência analítica para a leitura de
dados, permitindo que os usuários visualizem dados de diversos ângulos, categorizem e
Inteligência Analítica
Roteiro deRoteiro de 
EstudosEstudos
Autor: Me. Ariel da Silva Dias
Revisor: Jaime Gross
12/05/2021 Roteiro de Estudos
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_665466_… 2/16
sintetizem os relacionamentos identi�cados. O objetivo �nal da mineração de dados é a
previsão e a descoberta. O processo procura padrões consistentes e relacionamentos
sistemáticos entre variáveis e, em seguida, valida as descobertas ao aplicar os padrões a novos
subconjuntos de dados.
Para que seja possível realizar toda a análise, os dados necessitam estar agrupados ou
categorizados, sem ruídos e completos, de modo que tenhamos a melhor resposta possível em
relação a uma análise. Para isso, podemos utilizar diversos algoritmos e ferramentas da
estatística a nosso favor. Todos esses conceitos, bem como aplicações, exemplos e algoritmos
serão abordados na leitura deste roteiro.
Introdução à Mineração de Dados
e Pré-Processamento
A mineração de dados é o processo de analisar dados de diferentes fontes e resumi-los em
informações relevantes, as quais podem ser usadas para ajudar a aumentar a receita e
diminuir os custos. Seu principal objetivo é encontrar correlações ou padrões entre dezenas de
campos em grandes bancos de dados. (BRAGA, 2005)
A mineração de dados consiste em cinco elementos principais:
1. extraia, transforme e carregue dados da transação no Data Warehouse;
2. armazene e gerencie os dados em um sistema de banco de dados multidimensional;
3. forneça acesso a dados para analistas de negócios e pro�ssionais de TI;
4. analise os dados por software aplicativo;
5. apresente os dados em um formato útil (grá�co, tabela, etc.).
12/05/2021 Roteiro de Estudos
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_665466_… 3/16
A mineração de dados compreende um conjunto de técnicas para descrição e
"predição" a partir de grandes massas de dados. Por este motivo, ela está
geralmente associada a banco de dados especiais denominados data
warehouse. Esses bancos de dados viabilizam a integração rápida de dados
oriundos de diferentes fontes (BRAGA, 2005, p.12).
O Data Warehouse armazena dados em arquivos ou pastas, o que ajuda a organizar e usar os
dados para tomar decisões estratégicas. Esse sistema de armazenamento também oferece
uma visão multidimensional dos dados atômicos e resumidos. As funções importantes que são
necessárias para executar são:
extração de dados;
limpeza de dados;
transformação de dados.
LIVRO
Introdução à mineração de dados: conceitos básicos,
algoritmos e aplicações
Autores: Leandro Nunes de Castro e Daniel Gomes Ferrari
Editora: Saraiva
Ano: 2016
Comentário: a leitura do subcapítulo 1.2 ( e subcapítulos 1.2.1 e
1.2.2) irá ajudá-lo a compreender o conceito de mineração de
dados, bem como as principais tarefas que podem ser
descritivas e preditivas.
Esse título está disponível na Biblioteca Virtual da Laureate.
12/05/2021 Roteiro de Estudos
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_665466_… 4/16
Pré-Processamento
O pré-processamento de dados é uma técnica de mineração de dados que envolve a
transformação de dados brutos em um formato compreensível. Os dados do mundo real
geralmente são incompletos, inconsistentes e/ou carecem de certos comportamentos ou
tendências e provavelmente contêm muitos erros. O pré-processamento de dados, no entanto,
é um método comprovado para resolver esses problemas.
No mundo real, os dados geralmente são:
Incompletos: sem valores de atributos, sem determinados atributos de interesse ou
contendo apenas dados agregados;
Ruidosos: contendo erros ou outliers. Inconsistente: contendo discrepâncias em códigos
ou nomes.
LIVRO
Business Intelligence: tecnologias da informação na
gestão do conhecimento
Autoras: Maribel Santos e Isabel Ramos
Editora: FCA
Ano: 2006
Comentário: no Capítulo 5 desse livro, as autoras abordam os
conceitos de Data Warehouse e Data Mart. A diferença entre
esses dois tipos de armazenamento, bem como a aplicação, é
uma necessidade para quem deseja trabalhar com inteligência
analítica, a�nal, é a partir de um Data Mart ou de um Data
Warehouse que a empresa irá gerar conhecimento.
12/05/2021 Roteiro de Estudos
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_665466_… 5/16
Após a leitura deste tópico, você conhecerá e compreenderá como a mineração de dados
realiza a procura por padrões ocultos, válidos e potencialmente úteis em grandes conjuntos de
dados.
Análise Descritiva de Dados e
Análise de Grupos
As estatísticas descritivas são usadas para descrever os recursos básicos dos dados em um
estudo. De acordo com Silvestre (2007, p.11), “na análise estatística descritiva está-se
interessado na medida das características dos elementos de toda população”. Elas fornecem
resumos simples sobre a amostra e as medidas e, juntamente com a análise grá�ca simples,
eles formam a base de praticamente todas as análises quantitativas de dados.
LIVRO
Matemática discreta para ciência da computação
Autores: Cli�ord Stein, Robert L. Drysdale e Kennetg Bogart
Editora: Pearson
Ano: 2013
Comentário: a leitura do livro irá ajudá-lo a compreender as
etapas do pré-processamento de dados, como lidar com valores
ausentes ou incompletos. Você aprenderá, ainda, sobre o
processo de integração de dados e de transformação.
 
Onde encontrar?
Biblioteca Virtual da Laureate.
12/05/2021 Roteiro de Estudos
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_665466_… 6/16
Processo de Análise Descritiva e Agrupamento de Dados
A função básica da ciência de dados é organizar e resumir dados. Os dados coletados em
qualquer projeto de pesquisa são apresentados de forma bruta e desorganizada. Assim,
possuem pouco (ou nenhum) signi�cado, a menos que sejam organizados ou agrupados para
fornecer mais informações.
Suponha que você está realizando um estudo para identi�car o nível de �delidade do cliente
em sua empresa. Para coletar os dados, o entrevistador pode criar um questionário on-line e
distribuí-lo aleatoriamente entre os clientes. Depois de coletados, haverá uma grande massa de
dados que não faz sentido. Por isso, para descrever a lealdade do cliente, tirar conclusões ou
inferir sobre a �delidade do entrevistado, é necessário organizar os dados de alguma maneira
signi�cativa.
O método mais conveniente de organizar dados é construir uma distribuição de frequência,
pois ela informa o número de vezes que a observaçãode um dado ocorre.
LIVRO
Estatística
Autora: Fernanda Cesar Bona�ni
Editora: Pearson
Ano: 2016
Comentário: na unidade 1, é apresentada uma introdução
sobre o conceito de análise descritiva, trazendo uma base de
dados que é utilizada como modelo no capítulo 3 (que será
acompanhado no decorrer deste roteiro).
 
Onde encontrar?
Biblioteca Virtual da Laureate.
12/05/2021 Roteiro de Estudos
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_665466_… 7/16
Processo de Agrupamento de Dados
Classi�cação e agrupamento são os dois tipos de métodos de aprendizado que caracterizam
objetos em grupos por um ou mais recursos. Esses processos parecem ser semelhantes, mas
há uma diferença entre eles no contexto da mineração de dados. A diferença entre
classi�cação e agrupamento (em alguns momentos você poderá encontrar esse termo como
clustering) é que a classi�cação é usada na técnica de aprendizado supervisionado, em que
rótulos prede�nidos são atribuídos às instâncias por propriedades; por outro lado, o
agrupamento é usado no aprendizado não supervisionado em que instâncias semelhantes são
agrupadas, com base em seus recursos ou propriedades.
LIVRO
Inteligência arti�cial aplicada: uma abordagem
introdutória
Autor: Luciano Frontino de Medeiros
Editora: Intersaberes
Ano: 2018
Comentário: esse livro contribuirá para o seu entendimento a
respeito do processo de análise e agrupamento de dados. Desse
modo, você terá acesso ao conteúdo sobre resolução de
problemas por busca, sistemas especialistas e programação em
lógica.
 
Onde encontrar? 
Biblioteca Virtual da Laureate.
12/05/2021 Roteiro de Estudos
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_665466_… 8/16
Algoritmo K-médias
O agrupamento K-médias é um dos algoritmos de aprendizado de máquina não
supervisionados mais simples e populares.
Normalmente, algoritmos não supervisionados fazem inferências a partir de conjuntos de
dados usando apenas vetores de entrada sem se referir a resultados conhecidos ou rotulados.
O objetivo do K-means é simples: agrupar pontos de dados semelhantes e descobrir padrões
subjacentes. Para atingir esse objetivo, o K-means procura um número �xo (k) de clusters em
um conjunto de dados.
       
Algoritmo K-medoides
O termo medoide refere-se a um objeto dentro de um agrupamento para o qual a diferença
média entre ele e todos os outros membros do agrupamento é mínima. Corresponde ao ponto
mais centralmente localizado no agrupamento. Esses objetos (um por agrupamento) podem
ser considerados como um exemplo representativo dos membros desse agrupamento, o que
LIVRO
Inteligência arti�cial aplicada: uma abordagem
introdutória
Autor: Luciano Frontino de Medeiros
Editora: Intersaberes
Ano: 2018
Comentário: o capítulo 5 trata de um exemplo de redes neurais
arti�ciais, o capítulo 6 traz uma introdução do modo de
operação dos algoritmos genéticos, e, por �m, o capítulo 7
aborda as ontologias que representam a essência de um
determinado conhecimento.
 
Onde encontrar?
Biblioteca Virtual da Laureate.
12/05/2021 Roteiro de Estudos
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_665466_… 9/16
pode ser útil em algumas situações. Lembre-se de que, no agrupamento k-média, o centro de
um determinado agrupamento é calculado como o valor médio de todos os pontos de dados
no agrupamento.
O K-medoide é uma alternativa robusta ao agrupamento k-média. Isso signi�ca que o algoritmo
é menos sensível a ruídos e outliers quando comparado ao k-médias, já que usa o medoides
como centros de agrupamento em vez de média (usados em k-médias).
Classi�cação e Estimação de
Dados
O aprendizado supervisionado é onde você tem variáveis de entrada (x) e uma variável de saída
(Y), e usa um algoritmo para aprender a função de mapeamento da entrada para a saída, de
modo a ter: Y = f (X)
LIVRO
Estatística
Autora: Fernanda Cesar Bona�ni
Editora: Pearson
Ano: 2016
Comentário: na unidade 2, o livro destaca a probabilidade e as
distribuições de probabilidade, descrevendo o uso do
agrupamento estatístico entre objetos.
 
Onde encontrar?
Biblioteca Virtual da Laureate.
12/05/2021 Roteiro de Estudos
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_665466… 10/16
O objetivo é aproximar tão bem a função de mapeamento que, quando você tiver novos dados
de entrada (x), poderá prever as variáveis de saída (Y) para esses dados.
É chamado de “aprendizado supervisionado”, porque o processo de um algoritmo aprendendo
com o conjunto de dados de treinamento pode ser pensado como um professor
supervisionando o processo de aprendizado. Conhecendo as respostas corretas, o algoritmo
faz iterativamente previsões nos dados de treinamento e é corrigido pelo professor. O
aprendizado é para quando o algoritmo atinge um nível aceitável de desempenho.
Predição de Dados
A análise preditiva usa os dados e algoritmos estatísticos para prever um futuro evento ou
tendência de dados no futuro. O objetivo com a predição é muito além de apenas saber o que
acontecerá no futuro, permitindo que cientistas de dados avaliem o que acontecerá no futuro e
consiga tomar ações a partir desta predição.        
Embora a análise preditiva já exista há décadas, é uma tecnologia cuja hora e a vez chegaram.
Mais e mais organizações estão recorrendo à análise preditiva para aumentar seus resultados
�nanceiros e suas vantagens competitivas (PIERSON, 2019).
LIVRO
Estatística
Autora: Fernanda Cesar Bona�ni
Editora: Pearson
Ano: 2016
Comentário: a leitura da unidade 2, “Probabilidade e
distribuições de probabilidade”, permite compreender os
conceitos de probabilidade normal e os tipos de erros
associados.
 
Onde encontrar?
Biblioteca Virtual da Laureate.
12/05/2021 Roteiro de Estudos
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_665466… 11/16
A análise preditiva era executada por matemáticos e estatísticos, devido à sua especi�cidade e
complexidade. Entretanto, com o advento de ferramentas tecnológicas fáceis de usar e
intuitivas, a análise preditiva começou a ser utilizada também por analistas de negócio.
Algoritmos de Classi�cação
O objetivo dos algoritmos de classi�cação é bastante simples: você prevê a classe de destino,
analisando o conjunto de dados de treinamento. Esse é um dos conceitos mais importantes –
se não o mais essencial – que você estuda quando aprende ciência de dados e inteligência
analítica.
Os principais algoritmos de classi�cação são: árvore de decisão, k-vizinhos, Naive Bayes e
classi�cador one-ruler.
LIVRO
Big Data
Autores: CEZAR TAURION
Editora: Brasport
Ano: 2013
Comentário: Na página 95 temos a exempli�cação de como as
grandes empresas de tecnologias utilizam determinadas
ferramentas e arquiteturas para realizar a predição de grande
volume de dados.
 
Onde encontrar?
Biblioteca Virtual da Laureate.
12/05/2021 Roteiro de Estudos
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_665466… 12/16
LIVRO
Big Data
Autores: CEZAR TAURION
Editora: Brasport
Ano: 2013
Comentário: Na página 114 temos o modelo de construção de
aplicações para processamento de dados onde a arquitetura
evolui de modo que se possa tanto acomodar a quantidade,
natureza dos dados, como a distribuição da carga de trabalho
associada aos so�sticados algoritmos necessários para a análise
e classi�cação destes dados.
 
Onde encontrar?
Biblioteca Virtual da Laureate.
LIVRO
Big Data
Autores: CEZAR TAURION
Editora: Brasport
Ano: 2013
Comentário: A leitura da página 100 evidencia os modelos de
dados estruturados que utilizam tecnologia para processamento
massivo de dados com paralelismo ou stream computing.
 
Onde encontrar?
Biblioteca Virtual da Laureate.
12/05/2021Roteiro de Estudos
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_665466… 13/16
Regras de Associação
O aprendizado por regras de associação é um método de aprendizado de máquina baseado
em regras para descobrir relações interessantes entre variáveis em grandes bancos de dados.
Ele identi�ca associações se-então frequentes nas regras de associação, que consistem em um
antecedente (se) e um consequente (então) (REZENDE, 2015).
Por exemplo: “Se chá e leite e açúcar” (“Se chá e leite forem comprados, o açúcar também será
comprado pelo cliente”).
Antecedente: chá e leite.
Consequente: açúcar.
LIVRO
Big Data
Autores: CEZAR TAURION
Editora: Brasport
Ano: 2013
Comentário: Na página 57 é demonstrado um exemplo de
técnica de mineração de dados para fazer correlações. Esta
análise demonstra dezenas de combinações, pois é montada a
partir de um grande volume de dados para que seja possível
identi�car os relacionamentos que passariam despercebidos em
pequena escala.
 
Onde encontrar?
Biblioteca Virtual da Laureate.
12/05/2021 Roteiro de Estudos
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_665466… 14/16
Segundo Rezende (2015, p.105) na regra de associação “não existe uma de�nição explícita de
classe e qualquer atributo (ou atributos) pode ser usado como parte da conclusão da regra”. O
exemplo do chá e leite apresentado anteriormente também pode ser utilizado para
exempli�car esta citação. Outro exemplo:  “Se SIM e Masculino e serviço militar” (“Se SIM para
maior de idade e do sexo masculino, a pessoa irá para o serviço militar”).
Antecedente: SIM e Masculino.
Consequente: serviço militar.
Detecção de Anomalias
Diversos autores chamam anomalias por outras designações, tais como anormalidades,
contaminantes, desviantes, exceções, novidades, etc. Todos esses termos fazem referência a
outliers. De acordo com Hawkins (1980, p. 1) uma anomalia ou outliers pode ser de�nida como
“uma observação que desvia tanto das outras observações que levanta suspeita de que foi
gerada por um mecanismo diferenciado”.
Métodos Paramétricos e Não Paramétricos
LIVRO
Big Data
Autores: Douglas Eduardo Basso
Editora: Contentus
Ano: 2020
Comentário: A leitura da página 46 traz um conteúdo
complementar à leitura anterior, explicando os conceitos de
preparação de dados para classi�cação.
 
Onde encontrar?
Biblioteca Virtual da Laureate.
12/05/2021 Roteiro de Estudos
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_665466… 15/16
Existem algumas divisões de tópicos nas estatísticas. Uma divisão que vem à mente
rapidamente é a diferenciação entre estatística descritiva e inferencial. Existem outras
maneiras de separar a disciplina da estatística. Uma dessas maneiras é classi�car os métodos
estatísticos como paramétricos ou não paramétricos.
Na leitura sugerida a seguir, vamos descobrir qual a diferença entre métodos paramétricos e
métodos não paramétricos. A maneira como faremos isso é comparar diferentes instâncias
desses tipos de métodos.
Conclusão
A partir do nosso roteiro de estudos, pudemos trabalhar os principais assuntos relacionados à
mineração de dados, que é um dos fundamentos da inteligência analítica. Vimos que a
mineração de dados é um tema amplo e possui diversos métodos, por exemplo, a classi�cação
e agrupamento. A título de recordação, vimos que a classi�cação e o agrupamento são os
métodos usados para analisar os conjuntos de dados e dividi-los com base em algumas regras
LIVRO
Big Data
Autores: Douglas Eduardo Basso
Editora: Contentus
Ano: 2020
Comentário: A leitura do capítulo 3 traz um conteúdo
complementar à leitura anterior, explicando as boas práticas de
uso de mineração de dados e big data para a preparação de
dados para classi�cação.
 
Onde encontrar?
Biblioteca Virtual da Laureate.
12/05/2021 Roteiro de Estudos
https://anhembi.blackboard.com/webapps/late-course_content_soap-BBLEARN/Controller?ACTION=OPEN_PLAYER&COURSE_ID=_665466… 16/16
de classi�cação especí�cas ou na associação entre objetos. A classi�cação categoriza os dados
com a ajuda dos dados de treinamento fornecidos. Por outro lado, o agrupamento usa
diferentes medidas de similaridade para categorizar os dados.
Referências Bibliográ�cas
AMARAL, F. Aprenda mineração de dados: teoria e prática. AltaBooks, 2016.
AMARAL, F. Introdução à Ciência de Dados. Saraiva, 2016.
BONAFINI, F. C. Estatística. São Paulo: Pearson, 2016.
BRAGA, L. Introdução à mineração de dados. 2ª Edição. Rio de Janeiro: e-papers. 2005.
BRUCE, P.; BRUCE, A. Estatística prática para cientistas de dados. Rio de Janeiro: Alta Books.
2019.
CASTRO, L.; FERRARI, D. Introdução à Mineração de Dados: conceitos básicos, algoritmos e
aplicações. Saraiva, 2016.
HAWKINS, D. Identi�cation of outliers. Dordrecht: Springer, 1980.
MEDEIROS, L. F. de. Inteligência arti�cial aplicada: uma abordagem introdutória. Curitiba:
Intersaberes, 2018.
PIERSON, L. Data Science. 2. ed. Rio de Janeiro: Alta Books. 2019.
REZENDE, S. Sistemas inteligentes. Barueri: Manoele, 2015.
SANTOS, M; RAMOS, I. Business Intelligence: tecnologias da informação na gestão do
conhecimento. São Paulo: FCA, 2016.
SILVA, L.; PERES, S.; BOSCARIOLI, C.  Introdução à Mineração de Dados: com aplicações em R.
Elsevier, 2016.
SILVESTRE, A. Análise de dados e estatística descritiva. [S. l.]: Escolar Editora. 2007.
STEIN, C.; DRYSDALE, R. L.; BOGART, K. Matemática discreta para ciência da computação.
São Paulo: Pearson, 2013.

Continue navegando