Buscar

Material do Módulo 1 - Bootcamp Analista de dados

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 535 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 535 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 535 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Fundamentos em Análise de Dados
Capítulo 1. Conceitos fundamentais em Análise de Dados
Profª. Fernanda Farinelli
Fundamentos em Análise de Dados
Aula 1.1. Dados, fontes de dados e tipos de dados
Profª. Fernanda Farinelli
Nesta aula
❑ Entender alguns conceito fundamentais.
Dado, informação e conhecimento.
❑ Conhecer as diferentes tipos de dados.
❑ Conhecer as diferentes fontes de dados.
Dado
Representações de fatos sobre o mundo real.
Informação
Dados dotados de relevância e propósito.
Conhecimento
Informações contextualizadas pela experiência.
Tipos de dados
Estruturado
Estrutura pré-definida, 
prescritiva.
Estrutura independente 
dos dados.
Fracamente evolutiva.
Semiestruturado
Esquema heterogêneo, 
nem sempre 
pré-definido, descritiva.
Estrutura embutida nos 
dados.
Favorável a evolução.
Não estruturado
Sem esquema 
pré-definido, descritiva, 
nem sempre presente.
Indefinição do que é 
dado e estrutura.
Fortemente evolutiva.
Fontes de 
Dados
 Redes 
 sociais
 Artigos
 e
 jornais
Bancos
 de 
Dados
 Documentos 
 oficiais
Dados 
abertos
 
 Arquivos 
 de
 Integração
Planilhas Áudio e vídeo
Websites
 Sistemas de
 Informação
 Web de 
dados e 
LODInternet
das coisas
(IoT)
Conclusão
✔ Entendemos o conceito de dado, informação e 
conhecimento.
✔ Conhecemos os diferentes tipo de dados: Estruturados, 
semiestruturados e não estruturados.
✔ Entendemos o que são fontes de dados e conhecemos 
algumas destas fontes.
Próxima aula
❑ Entender o que o termo Big Data significa e 
conhecer as características que envolvem este 
termo.
Fundamentos em Análise de Dados
Aula 1.2. Conceito e características de Big Data
Profª. Fernanda Farinelli
Nesta aula
❑ Entender o significado do termo Big Data.
❑ Discutir as principais características do Big Data.
Datificação
Dados Digitalização
Datafication (Datificação ou dataficação)
❑ Tudo se torna dado…
Palavras, localizações, Compromissos, Diversão, Imagens, Vídeos, 
Interações, Compras, Tempo, …
Transformar as informações sobre todas as coisas em 
dados, em um formato que o torne possível de ser 
quantificado, permitindo assim monitoramento e análise.
Human Bits
Big data
Quantidade 
Massiva de 
Dados
Big Data remete ao...
 … problema ou desafio de…
processar volumes de dados cada vez maiores,
produzidos em múltiplos formatos (vídeo, imagem, texto etc.),
e em velocidades na casa dos segundos,
além de apresentar respostas em tempo real.
Características do Big Data
Variedade
Velocidade
Volume
Veracidade
Valor
Visualização
Virulência
Viscosidade
Big Data
Big Data versus Small Data
Dados gerados aleatoriamente
Fontes de dados desconhecidas
Dados não amigáveis
Validade ou veracidade questionável
Conclusão
✔ Entendemos o que é e o que não é Big Data. 
✔ Conhecemos as principais características do Big 
Data.
✔ Entendemos os desafios computacionais para 
lidar com dados. 
Próxima aula
❑ Entender o que é a Web Semântica e liked open 
data.
Fundamentos em Análise de Dados
Aula 1.3. Web semântica e dados abertos interligados
Profª. Fernanda Farinelli
Nesta aula
❑ Entender a evolução da World Wide Web.
❑ Explorar o que é a web semântica.
❑ Entender o que são dados abertos e dados interligados.
❑ Entender a relação dados abertos X dados interligados.
Evolução da World Wide Web
Web 1.0
Web 2.0
Web 3.0
Web 4.0
web unidirecional
“empurrada”
web bidirecional
“compartilhada”
web colaborativa
tempo real
Web cognitiva
(inteligência artificial, 
aprendizado de máquina, …)
Web Semântica (web 3.0 ou web de dados)
Hendler, J., Lassila, O., & Berners-Lee, T. (2001). The semantic web. Scientific American, 284(5), 34-43.
“A Web Semântica não é uma Web separada, mas sim uma 
extensão da Web atual onde à informação é atribuído 
significado bem definido, permitindo que pessoas e 
computadores trabalhem em cooperação”.
Web semântica
Semântica: representa o estudo do significado.
Conjunto de dados inter-relacionados 
semanticamente.
Visa interligar os significados das palavras, tornando 
perceptível tanto aos humanos quanto às máquinas.
Tanque
Web Semântica
estrutura significado
Disponibilidade e acesso
Reutilização e redistribuição
Participação universal
Dados abertos (open data)
Conteúdo aberto Disponível
Disponível para todos
Dados abertos
❑ Dados abertos são dados que podem ser usados livremente, 
reutilizados e redistribuídos por qualquer pessoa - sujeitos, no máximo, 
à exigência de atribuição da fonte e compartilhamento pelas mesmas 
regras.
❑ Se você está se perguntando por que é tão importante ser claro no que 
significa aberto e por que essa definição é usada, a resposta é 
simples: interoperabilidade.
Interoperabilidade significa a capacidade de diversos sistemas e 
organizações trabalharem juntos (interoperar). Neste caso, trata-se da 
capacidade de interoperar - ou combinar - diferentes conjuntos de dados.
Fonte: https://opendatahandbook.org/guide/pt_BR/what-is-open-data/
https://opendatahandbook.org/guide/pt_BR/what-is-open-data/
Dados abertos
❑ Disponibilidade e acesso: os dados devem estar disponíveis como um todo e sob 
custo não maior que um custo razoável de reprodução, preferencialmente possíveis de 
serem baixados pela internet. Os dados devem também estar disponíveis de uma 
forma conveniente e modificável.
❑ Reutilização e redistribuição: os dados devem ser fornecidos sob termos que 
permitam a reutilização e a redistribuição, inclusive a combinação com outros 
conjuntos de dados.
❑ Participação universal: todos devem ser capazes de usar, reutilizar e redistribuir, não 
deve haver discriminação contra áreas de atuação ou contra pessoas e grupos. Por 
exemplo, restrições de uso ‘não-comercial’, que impediriam o uso ‘comercial’, ou 
restrições de uso para certos fins (ex.: somente educativos) excluem determinados 
dados do conceito de ‘abertos’.
Fonte: https://opendatahandbook.org/guide/pt_BR/what-is-open-data/
https://opendatahandbook.org/guide/pt_BR/what-is-open-data/
Dados abertos
❑ Regulamentações:
Lei de Acesso à Informação.
Lei Geral de Proteção de Dados Pessoais (LGPDP).
Regulamento Geral sobre a Proteção de Dados (GDRP).
❑ Portal Brasileiro de Dados Abertos: http://dados.gov.br
❑ Portal da Transparência: 
http://www.portaltransparencia.gov.br/download-de-dados 
❑ Portal Dados Abertos Dataprev: 
https://dadosabertos.dataprev.gov.br/dataset 
❑ Dados abertos DATASUS: http://www2.datasus.gov.br/DATASUS/index.php 
❑ Portal Dados Abertos CVM: http://dados.cvm.gov.br/ 
❑ Global Open Data Index: https://index.okfn.org/dataset/.
Portais de dados abertos
http://dados.gov.br/
http://www.portaltransparencia.gov.br/download-de-dados
https://dadosabertos.dataprev.gov.br/dataset
http://www2.datasus.gov.br/DATASUS/index.php
http://dados.cvm.gov.br/
https://index.okfn.org/dataset/
Dados interligados (linked data)
Maria
João
Itália
Espanha
Países da 
comunidade
européiaConhece
Nasceu
Visitou
Trabalha
Conjunto de práticas para publicar e conectar (interligar) dados na web de forma tão fácil 
quanto o compartilhamento de documentos.
Ligar dados (semântica) e não documentos (estrutura).
Projeto aberto comunitário mundial, iniciado em 2007, que 
visa a publicação de vários conjuntos de dados (datasets) , 
de forma que as ligações sejam possíveis entre eles.
Construir uma rede de informações onde os nós (itens 
de diferentes fontes de dados) estejam semanticamente 
ligados, formando um grande grafo global.
Quanto mais um dado for interligado com outros dados, 
maior é o seu valor e sua utilidade.
Dados abertos ligados (linked open data)
Nuvem do linked open data
Fonte: https://lod-cloud.net/
https://lod-cloud.net/
Linked open data (contexto brasileiro)
Como publicar LOD
1. Analisar seus dados, selecionado aqueles que são úteis para serem publicados.
2. Limpar e formatar os dados,visto que uma vez que dados podem vir de várias fontes, 
alguns podem vir com informação a mais (desnecessária) para a publicação.
3. Modelar seus dados para convertê-los facilmente para RDF e criar URIs para cada objeto.
4. Escolher ou criar um vocabulário RDF apropriado.
5. Escolher ou criar sob qual licença ficarão os dados.
6. Converter os dados para RDF.
7. Ligar dados a outros dados antes de publicá-los.
8. Publicar e promover seu conjunto de dados.
Fonte: Floorian Bauer & Martin Kaltenböck. Linked Open Data: The Essentials
https://www.reeep.org/LOD-the-Essentials.pdf (pag. 33-35)
https://www.reeep.org/sites/default/files/LOD-TheEssentials2016.pdf (pag. 38-44)
Conclusão
✔ Entendemos o que é a Web Semântica e suas principais 
características.
✔ Conhecemos o que são dados abertos, dados interligados e 
dados abertos interligados (linked open data).
Próxima aula
❑ Conhecer o que são ontologias.
Fundamentos em Análise de Dados
Aula 1.4. Ontologias
Profª. Fernanda Farinelli
Nesta aula
❑ Entender o que são ontologias.
❑ Conhecer os tipos de ontologias.
O que são ontologias?
Ontologia como disciplina
▪ “Filosofia Primeira" de Aristóteles.
▪ Ciência do ser e das relações da 
existência. (Ser/Ente é tudo o que é.)
▪ Estudo da natureza e organização da 
realidade.
▪ Objeto de pesquisa é o ser enquanto 
tal.
Ontologia como artefato
 
▪ Sistemas de organização do 
conhecimento (CI e CC).
▪ Artefato de informação que visa 
representar algum domínio do 
conhecimento.
▪ Pela natureza filosófica, garante 
significado semântico uniforme. 
▪ As formais viabilizam as inferências.
Ontologia como disciplina
▪ “Filosofia Primeira" de Aristóteles.
▪ Ciência do ser e das relações da 
existência. (Ser/Ente é tudo o que é.)
▪ Estudo da natureza e organização da 
realidade.
▪ Objeto de pesquisa é o ser enquanto 
tal.
Ontologia como artefato
 
▪ Sistemas de organização do 
conhecimento (CI e CC).
▪ Artefato de informação que visa 
representar algum domínio do 
conhecimento.
▪ Pela natureza filosófica, garante 
significado semântico uniforme. 
▪ As formais viabilizam as inferências.
Ontologia como disciplina
❑ Origem na filosofia 🡪 “Filosofia Primeira" de Aristóteles.
❑ Objeto de pesquisa o ser enquanto tal. Ser/Ente é tudo o que é.
Diz respeito aquilo que existe: Ontos (ser) + logia (conhecimento).
❑ Ciência do ser e das relações da existência.
 Estudo da natureza e organização da realidade.
“Ontologia é a ciência do que é, dos tipos e estruturas de 
objetos, propriedades, eventos, processos e relações em 
todas as áreas da realidade (SMITH, 2003)".
Ontologia como artefato representacional
❑ Ontologia usada para: 
Representação do conhecimento.
Permitir o raciocínio computacional (Lógica descritiva/axiomas).
Permitir a integração da informação (relações entre os entes).
Garantir significado semântico (interoperabilidade semântica).
Promover aplicações de processamento de linguagem natural.
Expressividade dos artefatos
Fonte: Almeida, Souza e Fonseca (2011)
Ontologias realistas e não realistas
❑ Não-realismo: representação de conceitos, interpretações ou 
representações mentais das pessoas.
❑ Realismo: entidades da realidade e não interpretação ou 
representações mentais das pessoas.
Animal
é um
é 
um
é um
é um
Universais e Particulares
❑ Particulares ou indivíduos: ocorrências únicas de algo existente 
na realidade.
Exemplo: Cada um de nós é uma única ocorrência ou indivíduo 
de um "homo sapiens".
❑ Universais ou tipos: entidades reais que generalizam os 
particulares existentes no mundo. Existe apenas se existir pelo 
menos um particular desse universal.
Exemplo: "homo sapiens“ é uma entidade geral ou universal 
referente aos particulares que cada um de nós é.
Universais e Particulares
Classificação das ontologias
Classificação das ontologias
D
om
ín
io
 
E
sp
ec
ífi
co
D
om
ín
io
 
ne
ut
ro
Auguste Rodin
esculpindo La Danaïde
La Danaïde de 
Auguste Rodin (1889)
Auguste Rodin
Pa
rt
ic
ul
ar
es
 
 
 
 
 U
ni
ve
rs
ai
s entidade
objeto processo
pessoa escultura esculpir
Classificação das ontologias
Ontologia de alto nível
Ontologia de referência
Ontologia de domínio
Baixo
Alto
A
co
pl
am
en
to
 a
o 
do
m
ín
io
Alta
Baixa
R
eu
sa
bi
lid
ad
e
Canônico
Específico
P
ro
pó
si
to
 d
e 
re
pr
es
en
ta
çã
o
Amplo
Restrito
E
sc
op
o 
de
 u
so
Classificação das ontologias
Classificação de ontologias
entity
continuant Independent continuant
Material entity organism
Homo sapiens
Viruses coronavirus
Immaterial 
entity
site medical intervention site injection site
occurrent process
diagnostic 
process
coronavirus disease 
diagnostic process
immune 
response
coronaviral 
process to host
coronavirus entry 
to cell
coronavirus 
replication inside 
cell
Ontologia de alto nível
Ontologia de referência
Ontologia de domínio
Ontologia de alto-nível
Especificação completa: https://github.com/BFO-ontology/BFO/raw/master/docs/bfo2-reference/BFO2-Reference.pdf
Basic Formal Ontology - BFO v 2.0
Padrão internacional ISO/IEC 21838-2.3
Categorias básicas de modelagem
Entidade (Ente)
Continuante
Continuante independente Continuante dependente
Ocorrente
Cor vermelha 
da maçã
Processo de 
digestão da 
maçã
Categorias básicas de modelagem
Entidade 
(Ente)
Continuante
Continuante 
independente
Continuante 
dependente
Ocorrente
dependem de 
outras para 
existir
entidades que mantém identidade ao longo do tempo
Exemplo: pessoas, árvores, etc.
entidades que se alteram ao longo do tempo
Exemplo: Infância, Processo de digestão, etc.
maçã
vermelho 
da maçã
Exemplos de ontologia de referência
❑ Ontology for General Medical Science (OGMS)
Ontologia para representar o tratamento de doenças e diagnóstico.
Exemplos: Disease (doença), Symptom (Sintoma), diagnosis (diagnóstico), 
health care process (processo de cuidados de saúde).
❑ Ontology of Medically Related Social Entities (OMRSE)
Abrange o domínio de entidades sociais relacionadas à assistência à saúde.
Exemplos: Patient role (paciente), health care encounter (Encontro de 
cuidados de saúde - "consulta"), hospital facility (instalação hospitalar - 
"Hospital")
❑ Uberon multi-species anatomy ontology (UBERON)
Abrange anatomia dos seres vivos.
Exemplos de ontologia de domínio
❑ Obstetric and Neonatal Ontology (ONTONEO)
Representação dos dados dos prontuários eletrônicos de saúde 
(EHRs) envolvidos no atendimento à gestante e ao bebê.
Exemplo: prenatal encounter (Consulta prenatal), pregnant 
woman (grávida).
Elementos de uma ontologia
Entidade Atributos
Instância ou 
indivíduos
Relacionamento Cardinalidade Axioma
IRI
Elementos de uma ontologia
rdfs:label
Entidade Atributos
Instância ou 
indivíduos
Relacionamento Cardinalidade Axioma
Elementos de uma ontologia
Entidade Atributos
Instância ou 
indivíduos
Relacionamento Cardinalidade Axioma
Elementos de uma ontologia
❑ Entidades: É algo que você deseja representar em um domínio 
particular. Qualquer coisa que exista, existiu ou irá existir. Ex.: 
eventos, processos, objetos inanimados ou vivos, etc.
❑ Classes: Representam as entidades do domínio. O organizam 
as entidades de um domínio em uma taxonomia. Universais.
❑ Atributos de classe: Propriedades relevantes da classe que 
ajudam a descrevê-la.
Elementos de uma ontologia
❑ Instância: Representam uma unidade de objetos específicos de uma 
entidade, ou seja, indivíduos de um determinado universal.
❑ Atributos da instância: Essas são propriedades relevantes que 
descrevem as instâncias de uma entidade.
❑ Relacionamento: Descreve o tipo de interação entre duas classes, 
duas instâncias ou uma classe e uma instância.
❑ Cardinalidade: Uma medida do número de ocorrências de uma 
entidade associada a um número de ocorrências em outra.
Elementos de uma ontologia
❑ Axioma: Uma declaração ou proposição representada em um padrão 
lógico que é consideradoverdadeiro. Restringem a interpretação e o 
uso das classes envolvidas na ontologia.
Exemplo:
E
e
instanceOf
Onde:
• e , E são variáveis para instância e classe
• inst, p , u são funções para instância, particular e universal
• o símbolo ∧ significa conjunção
• o símbolo ∀ é o quantificador universal
• o símbolo → é uma implicação
Representação gráfica
Sujeito ObjetoPredicado
Conclusão
✔ Entendemos o que são ontologias e conhecemos os 
tipos de ontologias.
✔ Conhecemos os principais elementos que fazem 
parte de uma ontologia.
Próxima aula
❑ Entender o que são organizações orientadas por 
dados.
Fundamentos em Análise de Dados
Aula 1.5. Organizações orientadas por dados
Profª. Fernanda Farinelli
Nesta aula
❑ Entender o que são organizações orientadas por dados.
❑ Mercado organizado para negociação de ações de sociedades de 
capital aberto (públicas ou privadas) e outros valores mobiliários.
Preços das ações indicam o valor de mercado das empresas.
O valor de mercado sobre influência de diversas fontes:
• Taxa Selic, e outras taxas.
• Dados governamentais.
• Resultados financeiros da empresa.
• Mercado externo.
• Questões políticas e legislação.
Bolsa de Valores
Orientação a dados (data-driven)
A forma como uma atividade ou processo acontece depende dos 
dados que servem de entrada para que ela ocorra.
❑ United Parcel Service (UPS) 🡪 empresa de logística, 
distribuindo diariamente mais de 19 milhões de encomendas 
em mais de 100 países.
❑ A empresa economiza milhões de litros de combustível 
anualmente, e reduziu a emissão de gases poluentes apenas 
orientando seus motoristas a sempre virar a direita.
Motoristas da UPS raramente viram à 
esquerda
Data-driven organization
Organização que se baseia nas análises de dados para apoiar e balizar a 
gestão e suas decisões, visando atingir os objetivos estratégicos do 
negócio.
“Ser orientado a dados é, antes de mais nada, ter como meta nas decisões 
corporativas a objetividade e estar sempre baseado em evidências” (Kirk 
Borne).
Organização orientada a dados
Os dados norteiam, definem, 
permitem análise e possibilitam 
previsões.
Experiência anterior, vivência de 
negócio, tendências e padrões 
observados.
Incrementam as 
decisões que uma 
organização pode 
tomar, agregando 
maior valor ao 
negócio.
Organização orientada a dados
❑ Organizações orientada a dados desenvolvem uma cultura orientada por 
dados (data-driven culture).
Utilizam os dados gerados pela organização em todos os seus processos, 
como insumo para suas decisões.
Compartilham conhecimento.
Cultura orientada a dados
Dados Processos
Pessoas Ativos
Cultura 
orientada por 
dados
Cultura orientada a dados
• Pessoas:
• É preciso ter pessoas qualificadas para ajudar nesta transformação. Algumas profissões 
em alta para este tipo de tarefa como, por exemplo: o “cientistas de dados” (data 
Scientist) e o diretor de dados (CDO- Chief Data Officer).
• Processos:
• Empresas Data-driven possuem seus dados armazenados em repositório comum, 
nunca isolados. Como, por exemplo, o armazenamento em nuvem, permitindo que um 
mesmo relatório possa ser acessado de forma on-line por departamentos diferentes. O 
objetivo desta distribuição de acesso aos dados é trazer a inteligência coletiva para o 
negócio. Os insights podem vir de qualquer lugar.
Oportunidade de abertura de novos negócios.
Redução de custos e melhoria na produtividade
Melhor relacionamento com o cliente e funcionários. 
Otimização de processos, receitas e despesas.
Melhor definição de preços e produtos/serviços oferecidos.
Envolvimento da equipe na estratégia organizacional.
Assertividade, agilidade e facilidade no processo de tomada de 
decisão, respaldados pelo monitoramento de indicadores.
Vantagens da cultura orientada a dados
DMBok 2.0
Framework de apoio
❑ DMBoK – Data Management Body of Knowledge
DAMA – Data Management Association
DMBok 1.0
“In God we trust. All others must bring data” (Edwards Deming)
“Em Deus nós confiamos. Todos os outros devem apresentar dados.”
Tomada de decisões orientada por dados
Conclusão
✔ Conhecemos o que é uma organização orientada 
por dados e o que e a tomada de decisão baseada 
em dados.
✔ Entendemos as vantagens de adotar uma cultura 
orientada por dados.
Próxima aula
❑ Metodologias de mineração de dados.
Fundamentos em Análise de Dados
Aula 1.6. Metodologias de mineração de dados
Profª. Fernanda Farinelli
Nesta aula
❑ Conhecer as principais metodologias de mineração 
de dados.
Mineração de Dados
ConhecimentoDados
Transformar
❑ KDD - Knowledge Discovery in Databases
❑ SEMMA (by SAS) - Sample, Explore, Modify, Model and Assess
❑ CRISP-DM - Cross Industry Standard Process for Data Mining
Metodologias de Data Mining
Dados Conhecimento
KDD - Knowledge Discovery in Databases
Etapas gerais do processo KDD
Preparação Análise Interpretação
Especialistas 
do domínio
Especialista 
em KDD
Interação
Iteração
Descoberta de conhecimento em bases de dados
KDD envolve
Problema
Especialistas 
do domínio
Conjunto 
de dados
Objetivos da 
aplicação
Recursos
Especialista 
em KDD
Plataforma computacional
Algoritmos 
e técnicas
Resultados
Modelos KDD
Modelos 
Visualização
KDD - Knowledge Discovery in Databases
Dados
Transformados
Dados alvo
Dados
pré-processados
Padrões
Conhecimento
Sele
ção
Pré-
proc
essa
men
to
Tran
sform
açã
o
Mine
raçã
o de
 
dado
s
Inter
preta
ção 
e Av
aliaç
ão
Usuários
Visualiza
ção
Usuários
Dados das 
aplicações
KDD - Knowledge Discovery in Databases
Dados
Transformados
Dados 
alvo
Dados
pré-processados
Padrões
Conhecimento
Sele
ção
Pré-p
roce
ssam
ento
Tran
sform
açã
o
Mine
raçã
o de
 
dado
s
Inter
preta
ção 
e Av
aliaç
ão
Dados das 
aplicações
Prep
araçã
o
Descoberta de conhecimento em bases de dados
❑ KDD - Knowledge Discovery in Databases
❑ “É um processo, de várias etapas, não trivial, interativo e iterativo, para 
identificação de padrões compreensíveis, válidos, novos e 
potencialmente úteis a partir de grandes conjuntos de dados.” 
• (FAYYAD et al., 1996)
Etapas do KDD
❑ As etapas do KDD são:
• Seleção: considerada como a primeira etapa, nesta instância é criado um 
conjunto ou subconjunto de dados que será o foco da descoberta de novos 
conhecimentos. Ele deve conter as informações necessárias para que os 
algoritmos de mineração possam alcançar o objetivo do pesquisador.
• Pré-processamento: momento em que os dados passam por uma limpeza ou 
eliminação de ruídos, e que inclui operações básicas para remoção de 
inconsistências.
• Transformação: etapa da formatação necessária para agregar valor semântico 
às informações ou características úteis para representar os dados da base.
• Mineração de dados: aplicação das técnicas de MD usando algoritmos para 
alcançar os objetos definidos na etapa da seleção.
• Interpretação e avaliação: compreensão dos padrões obtidos, incluindo a 
visualização dos modelos que resumem a estrutura e as informações presentes 
nos dados juntamente com as medidas técnicas que avaliam.
Metodologia SEMMA
Etapas SEMMA
❑ Sample: seleção dos dados que se pretende minerar, obtendo uma amostra representativa do problema ou 
caso o conjunto de dados inicial seja menor que a totalidade dos dados. A especificação recomenda a divisão 
em conjunto de teste, validação e treino.
❑ Explore: exploração dos dados para encontrar padrões ou anomalias que possam mostrar um claro 
entendimento do conjunto de dados. Caso não seja possível encontrar padrões, então aplicam-se algoritmos 
de mineração para tentar encontrar uma relação.
❑ Modify: criação, transformação e seleção de características para modelar o conjunto de dados, agrupando e 
eliminando características. Pode-se, nesta fase, encontrar outliers e fazer a sua remoção, caso seja 
interessante. O processo de mineração é iterativo. Esta fase pode ser repetida sempre que osresultados não 
forem satisfatórios.
❑ Model: criação de um modelo utilizando um ou mais algoritmos de mineração de dados, incluindo ajustes nos 
parâmetros de configuração dos algoritmos.
❑ Assess: verificação dos resultados obtidos e teste do modelo para visualização dos resultados e das métricas 
de teste. Se não for satisfatório, deve-se retornar ao passo Modify.
Metodologia CRISP-DM
Cross Industry Standard Process 
for Data Mining
CRISP-DM
❑ As fases desse processo são:
1. Entendimento do negócio (business understanding): visa o entendimento 
dos objetivos e requisitos do projeto, do ponto de vista do negócio. Baseado no 
conhecimento adquirido, o problema de mineração de dados é definido e um 
plano preliminar é projetado para alcançar os objetivos.
2. Entendimento dos dados (data understanding): inicia com uma coleção de 
dados e prossegue com atividades que visam buscar familiaridade, identificar 
problemas de qualidade, descobrir os primeiros discernimentos nos dados ou 
detectar subconjuntos interessantes para formar hipóteses da informação 
escondida.
3. Preparação dos dados (data preparation): cobre todas as atividades de 
construção do dataset final. As tarefas de preparação de dados são, 
provavelmente, desempenhadas várias vezes e sem qualquer ordem prescrita. 
Essas tarefas incluem a seleção de tabelas, registros e atributos, bem como a 
transformação e limpeza dos dados para as ferramentas de modelagem.
CRISP-DM
4. Modelagem (modelling): várias técnicas de modelagem são selecionadas e aplicadas, e 
seus parâmetros são ajustados para valores ótimos. Geralmente existem várias técnicas 
para o mesmo tipo de problema de mineração de dados. Algumas delas têm requisitos 
específicos na formação de dados. Portanto, retornar à fase de preparação de dados é 
frequentemente necessário.
5. Avaliação (evaluation): o modelo (ou modelos), construído na fase anterior, é avaliado e 
os passos executados na sua construção são revistos, para se certificar que o modelo 
representa os objetivos do negócio. Seu principal objetivo é determinar se existe alguma 
questão de negócio importante que não foi suficientemente considerada. Nesta fase, uma 
decisão sobre o uso dos resultados de mineração de dados deverá ser obtida.
6. Implementação do modelo (deployment): após a construção e avaliação do modelo (ou 
modelos), ele pode ser utilizado de duas formas: em uma, o analista pode recomendar 
ações a serem tomadas baseando-se, simplesmente, na visão do modelo e de seus 
resultados; na outra, o modelo pode ser aplicado aos diferentes conjuntos de dados.
Conclusão
✔ Conhecemos algumas metodologias de referência para 
Mineração de Dados.
• KDD - Knowledge Discovery in Databases.
• SEMMA (by SAS) - Sample, Explore, Modify, Model and Assess.
• CRISP-DM - Cross Industry Standard Process for Data Mining.
Próxima aula
❑ Conhecer a cadeia de valor do Big Data.
Fundamentos em Análise de Dados
Aula 1.7. Cadeia de valor do Big Data
Profª. Fernanda Farinelli
Nesta aula
❑ Entender as etapas básicas existentes no pipeline 
de Big Data.
❑ KDD - Knowledge Discovery in Databases
❑ SEMMA (by SAS) - Sample, Explore, Modify, Model and Assess
❑ CRISP-DM - Cross Industry Standard Process for Data Mining
Metodologias de Data Mining
Cadeia de Valor do Big Data
Curry E. (2016) The Big Data Value Chain: Definitions, Concepts, and Theoretical Approaches. In: Cavanillas 
J., Curry E., Wahlster W. (eds) New Horizons for a Data-Driven Economy. Springer, Cham
Aquisição Análise Curadoria Armazenamento Uso
Coleta de dados
Modelagem de dados (design)
Armazenamento de dados
Pré-processamento
Integração de dados
Análise de dados (processamento)
Visualização de dados
Coleta de dados
Fontes de dados Tipos de dados
API’s Crawler
Scraper
SQL Aplicações
Data 
ingestion
Data 
acquisition
Data 
extraction
Data 
collection
Criar um modelo que explique as características 
de funcionamento e comportamento dos dados 
em um determinado sistema ou aplicação.
O modelo de dados visa facilitar o entendimento 
sobre os dados e o projeto de dados, ao 
representarem suas características principais.
Modelagem de dados
Armazenamento de dados
Sistemas de 
arquivos 
distribuídos
SGBDs
(SQL, NoSQL, 
NewSQL)
Persistência 
poliglota
Data Warehouse, 
Data Lake
Distribuição, 
escalabilidade, 
armazenamento 
na nuvem
Preparação de dados
Limpeza 
Enriquecimento
Integração
Transformação 
Combinação
Padronização e 
normalização
Visualização de dados
Representação gráfica de informações e dados.
Forma simplificada e direta de ver e entender exceções, tendências e padrões 
nos dados.
Elementos visuais: diagramas, gráficos e mapas.
Dashhboard
Conclusão
✔ Conhecemos a cadeia de valor do big data.
Próxima aula
❑ Conhecer tecnologias envolvidas na análise de 
dados.
Fundamentos em Análise de Dados
Capítulo 2. Tecnologias aplicadas à análise de dados
Profª. Fernanda Farinelli
Fundamentos em Análise de Dados
Aula 2.1. Fundamentos de Bancos de Dados
Profª. Fernanda Farinelli
Nesta aula
❑ Entender o que são sistemas gerenciadores de 
bancos de dados.
Usuários
Software e hardware
Banco de dados
SGBD
Banco de dados
Sistemas de banco 
de dados
Sistema 
Gerenciadores de 
Banco de Dados
Conjunto de dados armazenados (persistidos) e inter-relacionados.
Promove a abstração de dados e a independência dos dados em 
relação às aplicações, à estratégia de acesso e à forma de 
armazenamento.
Sistemas utilizados para gerir os bancos de dados: manter bases de 
dados e dados; garantir a segurança de acesso aos dados, 
integridade de dados, controle de concorrência e tolerância a falhas.
Sistemas gerenciadores de banco de dados
Bancos de dados relacionais
Bancos de dados NoSQL (Not Only SQL)
Bancos de dados NewSQL
SGBDs Relacionais
Chave-valor 
(key-value)
Colunar
Orientado a 
documentos
Orientados 
por grafos
Categorias de Bancos de Dados NoSQL
Se
u 
es
qu
em
a 
nã
o 
é 
or
ie
nt
ad
os
 a
 
ta
be
la
s
SGBDs NoSQL
❑ Chave-valor
❑ Orientado a documentos
❑ Colunar
❑ Orientado a grafos
SGBDs NewSQL
Conclusão
✔ Entendemos o que são bancos de dados e sistemas 
gerenciadores de bancos de dados.
✔ Conhecemos os principais paradigmas tecnológicos dos 
sistemas gerenciadores de bancos de dados.
Próxima aula
❑ Entender o que são APIs de coleta de dados.
Fundamentos em Análise de Dados
Aula 2.2.1. APIs de coleta de dados (Parte 1)
Profª. Fernanda Farinelli
Nesta aula
❑ Entender o que são APIs e para que servem as API’s de coleta de 
dados.
❑ Conhecer exemplos de API’s de coleta de dados.
O que são API’s?
❑ API – Application Programming Interface.
Interface de Programação de Aplicações.
❑ Pacote que consiste em um conjunto de definições e protocolos usado no 
desenvolvimento e na integração de software de aplicações.
Requisição/Request
Resposta/Reply
Requisição/Request
Resposta/Reply
API
Sistema/App
Sistema/Serviço
❑ Twitter - https://developer.twitter.com/en
❑ LinkedIn - https://www.linkedin.com/developers/apps
❑ Facebook - https://developers.facebook.com/docs/graph-api?locale=pt_BR
❑ Instagram - https://www.instagram.com/developer/register/
Necessário ter uma conta para criar aplicativos e chaves de acesso.
Principais API’s para redes sociais
https://developer.twitter.com/en
https://www.linkedin.com/developers/apps
https://developers.facebook.com/docs/graph-api?locale=pt_BR
https://www.instagram.com/developer/register/
API’s Governo
❑ API de serviços do Portal da Transparência do Governo Federal:
http://api.portaldatransparencia.gov.br/swagger-ui.html 
Cadastro de um e-mail:
❑ http://portaldatransparencia.gov.br/api-de-dados/cadastrar-email
❑ Conecta - APIs de Governo para Governo
https://www.gov.br/conecta/catalogo/ 
❑ APIs IBGE
https://servicodados.ibge.gov.br/api/docs/ 
http://api.portaldatransparencia.gov.br/swagger-ui.html
http://portaldatransparencia.gov.br/api-de-dados/cadastrar-emailhttps://www.gov.br/conecta/catalogo/
https://servicodados.ibge.gov.br/api/docs/
❑ The New York Times: https://developer.nytimes.com/
Exemplos de uso:
▪ https://code.tutsplus.com/pt/tutorials/using-the-new-york-times-api-to-scrape-metad
ata--cms-27894
▪ 
https://towardsdatascience.com/collecting-data-from-the-new-york-times-over-any-
period-of-time-3e365504004
❑ Google Data API - https://developers.google.com/gdata/docs/directory
❑ API do Portal Pubmed - https://www.ncbi.nlm.nih.gov/home/develop/api/
API’s diversas
https://developer.nytimes.com/
https://code.tutsplus.com/pt/tutorials/using-the-new-york-times-api-to-scrape-metadata--cms-27894
https://code.tutsplus.com/pt/tutorials/using-the-new-york-times-api-to-scrape-metadata--cms-27894
https://towardsdatascience.com/collecting-data-from-the-new-york-times-over-any-period-of-time-3e365504004
https://towardsdatascience.com/collecting-data-from-the-new-york-times-over-any-period-of-time-3e365504004
https://developers.google.com/gdata/docs/directory
https://www.ncbi.nlm.nih.gov/home/develop/api/
Conclusão
✔ Entendemos o que são APIs e conhecemos 
alguns exemplos.
Próxima aula
❑ Conhecer a API de acesso e coleta de dados do 
Twitter.
Fundamentos em Análise de Dados
Aula 2.2.2. APIs de coleta de dados (Parte 2)
Profª. Fernanda Farinelli
Nesta aula
❑ Vamos conhecer a API do Twitter e aprender a como obter o 
acesso para utilizá-la.
❑Necessário ter uma conta no Twitter.
https://apps.twitter.com/
❑Cadastrar como desenvolvedor (estudante).
https://developer.twitter.com/en
❑Dashboard Twitter Dev
https://developer.twitter.com/en/portal/dashboard 
Criar uma aplicação e obter as chaves de acesso.
Exemplo: API do Twitter
https://apps.twitter.com/
https://developer.twitter.com/en
https://developer.twitter.com/en/portal/dashboard
Twitter API: Cadastro
https://developer.twitter.com/en
Leitura recomendada: Como criar Apps e obter os tokens necessários para coletar dados do Twitter, Instagram, Linkedin e Facebook
Disponível em: 
https://medium.com/@marlessonsantana/como-criar-apps-e-obter-os-tokens-necess%C3%A1rios-para-coletar-dados-do-twitter-instagra
m-linkedin-e-8f36602ea92a - Acesso em: 12/04/2020
https://developer.twitter.com/en
https://medium.com/@marlessonsantana/como-criar-apps-e-obter-os-tokens-necess%C3%A1rios-para-coletar-dados-do-twitter-instagram-linkedin-e-8f36602ea92a
https://medium.com/@marlessonsantana/como-criar-apps-e-obter-os-tokens-necess%C3%A1rios-para-coletar-dados-do-twitter-instagram-linkedin-e-8f36602ea92a
Twitter API: Dashboard Twitter Dev
https://developer.twitter.com/en/portal/dashboard 
https://developer.twitter.com/en/portal/dashboard
https://developer.twitter.com/en/portal/dashboard
https://developer.twitter.com/en/portal/dashboard
Twitter API: Criar app
Twitter API: Criar app
Twitter API: Criar app
Twitter API: Criar app
C
ha
ve
s 
de
 
ac
es
so
(S
al
ve
 e
st
es
 
va
lo
re
s)
Twitter API: Criar app
Twitter API: Dados de acesso
Se não salvou as 
chaves, pode gerar 
novamente.
Gere os tokens 
de acesso
Conclusão
✔ Aprendemos como realizar o cadastro para utilizar 
a API do Twitter.
✔ Aprendemos a gerar a aplicação do Twitter para 
usarmos na nossa coleta de dados.
Próxima aula
❑ Apresentar algumas das tecnologias aplicadas na análise 
de dados.
Fundamentos em Análise de Dados
Aula 2.3. Visão geral de ferramentas para análise de dados
Profª. Fernanda Farinelli
Nesta aula
❑ Apresentar algumas das tecnologias aplicadas na análise de 
dados.
MS Excel
Open Refine
❑ Ferramenta que permite o tratamento e a manipulação de dados 
desorganizados ou com inconsistências.
❑ Permite executar tarefas como limpeza, transformação e formatação de 
dados para torná-los mais adequados para análise e exploração.
❑ Permite recuperação de dados em serviços da Web.
❑ Ele suporta arquivos SV, CSV, Microsoft Excel (.xls e .xlsx), JSON, XML, 
RDF, XML e documentos do Google Data, e oferece como opção para 
exportação os formatos TSV, CSV, Microsoft Excel e HTML. 
❑ Disponível em: http://openrefine.org/
http://openrefine.org/
Orange
❑ Ferramenta de análise e visualização de dados de código aberto desenvolvida 
na Universidade de Ljubljana, na Eslovênia.
❑ Funcionalidades de Aprendizado de Máquina e Visualização de Dados, além 
da construção de Fluxos de trabalho (Pipelines, workflows).
❑ Permite realizar análise exploratória de dados sem necessidade de 
codificação, e execução de processamento de linguagem natural, mineração 
de texto, mineração de dados e outros.
❑ Disponível em: https://orange.biolab.si/
❑ Exemplo: https://minerandodados.com.br/agrupamento-de-dados-orange/
Acesso em 01/04/2021
https://orange.biolab.si/
https://minerandodados.com.br/agrupamento-de-dados-orange/
❑ Ferramenta de análise e visualização de dados que permite publicar 
dados via dashboards e data storytelling.
❑ Permite limpeza e preparação de dados sem necessidade de 
codificação.
❑ Suporta a coleta de dados em Planilhas Google, Microsoft Excel, 
arquivos CSV, arquivos JSON e bancos de dados.
❑ Disponível em: https://www.tableau.com/pt-br/products/desktop
❑ Exemplo: 
https://help.tableau.com/current/guides/get-started-tutorial/pt-br/get-starte
d-tutorial-home.htm 
Tableau
https://www.tableau.com/pt-br/products/desktop
https://help.tableau.com/current/guides/get-started-tutorial/pt-br/get-started-tutorial-home.htm
https://help.tableau.com/current/guides/get-started-tutorial/pt-br/get-started-tutorial-home.htm
Ferramenta WEKA
❑ Waikato Environment for Knowledge Analysis (WEKA)
❑ Desenvolvida pela Universidade de Waikato, NZ.
❑ Usa a GNU General Public License (GPL).
❑ Ferramenta para mineração de dados sem a necessidade de 
codificação e também trabalha com o conceito de workflow. 
❑ Coleção de algoritmos de aprendizado de máquina de última geração 
e ferramentas de processamento de dados. 
❑ Muito usada nos meios acadêmicos.
❑ Ferramenta projetada para coleta, manipulação, análise e modelagem de 
pipelines de dados por meio de programação visual.
❑ Permite análises preditivas com técnicas de aprendizado de máquina. 
❑ Oferece vários exemplos prontos para uso que podem ser facilmente 
parametrizados.
❑ Suporta a combinação de dados entre arquivos de texto simples, bancos 
de dados, documentos, imagens, redes e dados baseados no Hadoop 
em um único fluxo de trabalho visual.
❑ Disponível em: https://www.knime.com/knime-analytics-platform
KNIME Analytics Platform
https://www.knime.com/knime-analytics-platform
Linguagem
❑ Foi criada em 1995 por estatísticos a partir da linguagem S da Bell Labs (Lucent 
Technologies).
❑ É uma linguagem simples que permite escrever programas para realizar tarefas 
computacionalmente complexas derivadas da estatística e análises gráfica .
Fornece uma grande variedade de estatísticas (modelagem linear e não-linear, testes 
estatísticos clássicos, análise de séries temporais, classificação, agrupamento,…) e 
técnicas gráficas.
❑ Vem se especializando na manipulação, análise e visualização de dados. 
❑ É de distribuição gratuita disponível na página do projeto: R-Project
http://www.r-project.org 
http://www.r-project.org/
Outras ferramentas
❑ RapidMiner
❑ DataMelt
❑ Power BI
❑ Google Analytics
❑ Watson Analytics (IBM)
❑ QlikView 
❑ SAS
❑ Matlab
❑ Minitab e SPSS
Conclusão
✔ Conhecemos algumas ferramentas que podem ser 
usadas para fazer análise de dados e dashboards.
Próxima aula
❑ Conhecer a Plataforma Knime Analytics.
Análise Exploratória de Dados
❑ Aula 1.7.1 - Plataforma Knime Analytics (Parte 1) 16:03
❑ Aula 1.7.2 - Plataforma Knime Analytics (Parte 2) 22:16
❑ Aula 1.7.3 - Plataforma Knime Analytics (Parte 3) 18:19
❑ Aula 1.7.4 - Plataforma Knime Analytics (Parte 4) 6:29
Fundamentos em Análise de Dados
Aula 2.4.1. Knime Analytics Platform (Parte 1)
Profª. Fernanda Farinelli
Nesta aula
❑ Conhecer a plataforma KNIME Analytics.
❑ Aprender comoinstalar o Knime.
KNIME Analytics Platform
❑ Plataforma de código aberto para análise, relatórios e integração de dados.
❑ Integra vários componentes para aprendizagem de máquinas e mineração 
de dados através do conceito de pipelining de dados modular. 
❑ Sua interface gráfica permite a montagem de pipelines de processamento 
de dados (ETL) para análise e visualização de dados.
❑ Oferece vários exemplos prontos para uso que podem ser facilmente 
parametrizados.
❑ Suporta diversos formatos de dados e coleta dados de diferentes fontes de 
dados.
❑ O conceito de pipelining de dados modular:
KNIME Analytics Platform
❑ Link para download:
https://www.knime.com/downloads
❑ Vídeo com tutorial de como instalar (vídeo em Inglês):
https://www.youtube.com/watch?v=yeHblDxakLk
❑ Tutorial de instalação (em inglês):
❑ https://docs.knime.com/latest/analytics_platform_installation_guide/index.html
Knime: Download e Instalação
https://www.knime.com/downloads
https://www.youtube.com/watch?v=yeHblDxakLk
https://docs.knime.com/latest/analytics_platform_installation_guide/index.html
Demonstração prática
KNIME Analytics Platform
✔ Conhecemos a Plataforme Knime Analytics em detalhes.
✔ Aprendemos como instalar a Plataforme Knime Analytics no 
sistema operacional Windows.
Conclusão
Próxima aula
❑ Aprender a instalar as extensões e integrações na Plataforma 
Knime Analytics.
❑ Conhecer algumas funcionalidades existentes na plataforma.
Fundamentos em Análise de Dados
Aula 2.4.2. Knime Analytics Platform (Parte 2)
Profª. Fernanda Farinelli
Nesta aula
❑ Aprender a instalar as extensões e integrações na Plataforma 
Knime Analytics.
❑ Conhecer algumas funcionalidades existentes na plataforma.
❑ As extensões e integração são funcionalidades criadas que podem ser 
acopladas ao Knime para incorporar novas funcionalidades.
Extensões open source.
Extensões da comunidade.
Extensões de parceiros.
❑ Como realizar a instalação das extensões e integração?
Knime: Extensões e Integrações
Demonstração prática
✔ Aprendemos a instalar as extensões e integração na 
Plataforma Knime Analytics.
✔ Conhecemos os exemplos disponíveis na plataforma.
Conclusão
Próxima aula
❑ Criar nosso primeiro workflow utilizando a Plataforma Knime 
Analytics.
Fundamentos em Análise de Dados
Aula 2.4.3. Knime Analytics Platform (Parte 3)
Profª. Fernanda Farinelli
❑ Criar nosso primeiro workflow utilizando a Plataforma Knime 
Analytics.
Nesta aula
Demonstração prática
✔ Criamos um pipeline simples para análise de dados na 
Plataforma Knime Analytics.
Conclusão
Próxima aula
❑ Criar um workflow na Plataforma Knime Analytics para coletar 
dados da rede social Twitter por meio de sua API.
Fundamentos em Análise de Dados
Aula 2.4.4. Knime Analytics Platform (Parte 4)
Profª. Fernanda Farinelli
❑ Criar um workflow na Plataforma Knime Analytics para coletar 
dados da rede social Twitter por meio de sua API.
Nesta aula
Demonstração prática
✔ Criamos um workflow simples para coletar dados da rede 
social Twitter por meio de sua API utilizando a Plataforma 
Knime Analytics.
Conclusão
Próxima aula
❑ Conhecer o ambiente de trabalho da linguagem R.
Fundamentos em Análise de Dados
Aula 2.5.1. Linguagem R (Parte 1)
Profª. Fernanda Farinelli
❑ Conhecer o ambiente de trabalho da linguagem R.
Nesta aula
Linguagem
❑ Utilizada para coleta, manipulação, análise e visualização de dados.
❑ Possui pacotes que lidam com técnicas estatísticas e gráficos. Vem se 
especializando na manipulação, análise e visualização de dados. 
❑ Página do projeto R-Project: http://www.r-project.org 
❑ O R possui código aberto e foi criado nos anos 90.
❑ É utilizada por cientistas, estatísticos, analistas e cientistas de dados 
como um meio conveniente para a análise exploratória de dados. 
http://www.r-project.org/
Linguagem
❑ Podemos utilizar o R de várias formas:
RStudio é um software com uma interface amigável para desenvolvimento 
integrado com a linguagem R.
Google Colaboratory, conhecido como Google Colab ou Colab, serviço em 
nuvem que pode ser usados para ler, desenvolver e executar programas nas 
linguagens R e Python.
Framework Anaconda.
❑ Uso local:
Para utilizar o R no seu desktop, faça o download da linguagem R:
▪ Acesse: https://cran.r-project.org/
 Após instalação da linguagem R, faça download do instalador do 
RStudio:
▪ Acesse: https://www.rstudio.com/products/rstudio/download/ 
❑ Uso em nuvem:
Acesse o Google Colab: https://colab.to/r 
Download e Instalação
https://cran.r-project.org/
https://www.rstudio.com/products/rstudio/download/
https://colab.to/r
Interface de trabalho do R Studio
Apresenta as 
variáveis e seus 
valores durante 
a execução de 
um código
Área para 
escrita de 
código
Console com 
a saída dos 
comandos 
executados
Gráficos 
plotados
Pacotes 
instalados
Executa o(s) 
comando(s) 
selecionado(s
Google Colab
https://colab.research.google.com/#create=true&language=r 
ou 
https://colab.to/r 
https://colab.research.google.com/#create=true&language=r
https://colab.to/r
Conclusão
✔ Conhecemos as possibilidades de ambiente de trabalho da 
Linguagem R.
Próxima aula
❑ Coleta de dados no Twitter utilizando a API e a Linguagem R.
Fundamentos em Análise de Dados
Aula 2.5.2. Linguagem R (Parte 2)
Profª. Fernanda Farinelli
❑ Conhecer um exemplo de como coletar dados no Twitter 
utilizando a API e a Linguagem R.
Nesta aula
❑ As informações que serão necessárias para a autorização na utilização da API do 
Twitter são:
Consumer Key (API Key)
Consumer Secret (API Secret)
Access Token
Access Token Secret
❑ Estas informações não devem ser disponibilizadas a terceiros.
❑ A versão grátis da API impõe limitações, como, por exemplo, o número de tweets 
que pode ser recuperados por chamada e dentro de 15 minutos, só buscamos 
tweets por palavra chave dos últimos 7 dias.
Credenciais da API do Twitter
❑ Existem 2 bibliotecas no R para isso:
Rtweet: https://cran.r-project.org/web/packages/rtweet/index.html
twitteR: https://cran.r-project.org/web/packages/twitteR/index.html
• Está sendo descontinuado
❑ Instalar os pacotes no R Studio usando os comandos abaixo:
install.packages("rtweet")
install.packages("twitteR")
Coleta de dados no Twitter com R
https://cran.r-project.org/web/packages/rtweet/index.html
https://cran.r-project.org/web/packages/twitteR/index.html
Coleta de Dados no Twitter por usuário
Coleta de Dados no Twitter por usuário
Coleta de Dados no Twitter por hashtags
Coleta de Dados no Twitter com R (por 
hashtags)
❑ Para mais detalhes, sugiro a leitura da seguinte série de posts:
Conectando o R com o Twitter — Parte 1 — Instalando
• https://medium.com/meumesmo/conectando-o-r-com-o-twitter-parte-1-instalando-788610
a0f8aa
Conectando o R com o Twitter — Parte 2— Funcionalidades do Pacote rtweet
• https://medium.com/meumesmo/conectando-o-r-com-o-twitter-parte-2-funcionalidades-do
-pacote-5b6d8fe500ac
Conectando o R com o Twitter — Parte 3 — Funcionalidades do pacote rtweet
• https://medium.com/meumesmo/conectando-o-r-com-o-twitter-parte-3-funcionalidades-do
-pacote-rtweet-7d4ef7aafbe
Conectando o R com o Twitter — Parte Final
• https://medium.com/meumesmo/conectando-o-r-com-o-twitter-parte-final-c2338b6d6e01
API Coleta de Dados – Twitter com R
https://medium.com/meumesmo/conectando-o-r-com-o-twitter-parte-1-instalando-788610a0f8aa
https://medium.com/meumesmo/conectando-o-r-com-o-twitter-parte-1-instalando-788610a0f8aa
https://medium.com/meumesmo/conectando-o-r-com-o-twitter-parte-2-funcionalidades-do-pacote-5b6d8fe500ac
https://medium.com/meumesmo/conectando-o-r-com-o-twitter-parte-2-funcionalidades-do-pacote-5b6d8fe500ac
https://medium.com/meumesmo/conectando-o-r-com-o-twitter-parte-3-funcionalidades-do-pacote-rtweet-7d4ef7aafbe
https://medium.com/meumesmo/conectando-o-r-com-o-twitter-parte-3-funcionalidades-do-pacote-rtweet-7d4ef7aafbehttps://medium.com/meumesmo/conectando-o-r-com-o-twitter-parte-final-c2338b6d6e01
Demonstração prática
✔ Aprendemos como coletar dados no Twitter utilizando a API 
e a Linguagem R.
Conclusão
Próxima aula
❑ Conhecer a Ferramenta WEKA.
Fundamentos em Análise de Dados
Aula 2.6.1. Ferramenta Weka (Parte 1)
Profª. Fernanda Farinelli
Nesta aula
❑ Conhecer a ferramenta Weka que é usada para análise de 
dados.
Ferramenta WEKA
❑ Waikato Environment for Knowledge Analysis (WEKA)
❑ Coleção de algoritmos aplicáveis à mineração e processamento de 
dados.
Não é necessário codificação;
Possui uma funcionalidade para construção de workflows.
❑ Disponível em: http://www.cs.waikato.ac.nz/ml/weka/
http://www.cs.waikato.ac.nz/ml/weka/
❑ Parametrização dos algoritmos por atributos e filtros.
❑ Permite consultar dados de diversas fontes de dados.
❑ Possui um conjunto de gráficos para visualização dos resultados.
❑ Algoritmos para preparação e transformação de dados.
49 opções de pré-processamento de dados.
❑ Algoritmos de mineração:
76 algoritmos de classificação / regressão;
8 algoritmos de clustering;
3 algoritmos para encontrar regras de associação;
15 avaliadores de atributo / subconjunto;
10 algoritmos de pesquisa para seleção de recursos.
Funcionalidades WEKA
Fonte de dados para o WEKA
❑ Arquivo local (formatos .arff, csv).
❑ Arquivo em URL (formatos .arff, csv).
Viabiliza acesso direto aos Dados Abertos.
❑ Tabelas de Banco de Dados via JDBC.
Exemplo de arquivo .arff 
https://www.cs.waikato.ac.nz/ml/weka/
https://www.cs.waikato.ac.nz/ml/weka/
Instalação do Weka
❑ Explorer: Trabalha de forma interativa, onde você pode explorar as funções da ferramenta.
❑ Experimenter: Automatização de processos.
❑ KnowledgeFlow: Criar workflows por uma interface baseada em fluxo de dados.
❑ Workbench: Console integrada, combina todas as outras aplicações.
❑ Simple CLI: é uma interface de linha de comando que permite criar scripts shell para usar 
a API do Weka.
Ferramenta WEKA
✔ Conhecer a ferramenta Weka e suas principais 
características.
✔ Aprendemos a instalar a ferramenta.
Conclusão
Próxima aula
❑ Realizar uma prática na Ferramenta WEKA.
Fundamentos em Análise de Dados
Aula 2.6.2. Ferramenta Weka (Parte 2)
Profª. Fernanda Farinelli
Nesta aula
❑ Executar uma prática utilizando a ferramenta Weka.
Ferramenta WEKA
Ferramenta WEKA – Explorer
Ferramenta WEKA – Explorer
Ferramenta WEKA – Explorer - Classificação
Ferramenta WEKA – KnowledgeFlow
Demonstração prática
✔ Aprendemos como coletar, preparar e analisar dados 
usando a ferramenta WEKA.
Conclusão
Próxima aula
❑ Análise Exploratória de Dados.
Fundamentos em Análise de Dados
Capítulo 3. Análise exploratória de dados
Profª. Fernanda Farinelli
Fundamentos em Análise de Dados
Aula 3.1. Fundamentos da Análise exploratória de dados
Profª. Fernanda Farinelli
Nesta aula
❑ Entender o que é a análise exploratória de dados.
O que fazer com os dados coletados?
Como são meus dados?
• maximizar a percepção de um conjunto de dados
• descobrir como é a estrutura dos seus dados
• identificar e extrair variáveis importantes
• detectar padrões
• detectar outliers e anomalias
• resumir a informação contida nos dados
• testar e validar premissas
• apresentar os resultados de modo conveniente e adequado.
Analisar e entender um conjunto de dados visando 
Análise Exploratória de Dados
Análise Exploratória de Dados
❑ Conjunto de técnicas aplicadas com o intuito de resumir e organizar os 
dados coletados através de tabelas, gráficos ou medidas numéricas, e, a 
partir dos dados resumidos, procurando interpretar os dados e identificar 
alguma regularidade ou padrão nas observações.
Interesse tanto no comportamento individual das variáveis quanto no 
relacionamento entre variáveis.
• População
• Amostra
• Variável
• Tipos de variáveis
• Escalas de mensuração
Conceitos pré-liminares:
Análise Exploratória de Dados
População
• Universo do estudo.
• Conjunto de elementos que 
têm em comum determinada 
característica.
• Conjunto global sobre o qual 
se deseja chegar a 
conclusões
Amostra
• Qualquer conjunto de 
elementos retirado da 
população, não vazio e tenha 
um menor número de 
elementos que a população.
• Subconjunto finito de uma 
população sobre o qual são 
feitas observações.
População e amostra
Finita
O número de elementos de um grupo não é muito grande.
Exemplo: Todos os alunos de uma escola 
Infinita
O número de elementos nesse caso é muito elevado
Exemplo: População Brasileira
População
Amostra
❑ Por que estudar uma amostra, ao invés de toda a população?
O tamanho de uma população é impossível ou impraticável estudá-la na sua 
totalidade.
O custo envolver todos os elementos de uma população pode ser elevado e 
inviabilizar o trabalho.
Nem todos elementos da população podem ser analisados.
A técnica de análise empregada pode ser destruir ou corromper a população.
Não-Probabilística
Há uma escolha deliberada dos elementos da amostra. 
Os critérios dependem do pesquisador. Pode ser por acessibilidade ou 
conveniência; intencional; por cotas.
Probabilística
Seleção é aleatória onde cada elemento da população tem uma 
probabilidade conhecida de fazer parte da amostra. 
Segue métodos científicos: Aleatória Simples; Sistemática; Estratificada; 
por Conglomerados..
Amostragem
Tamanho da Amostra
❑ Sofre influência de:
Nível de confiança: quanto maior o nível de confiança, maior o tamanho da 
amostra.
Erro máximo permitido: quanto menor o erro permitido, maior o tamanho da 
amostra.
Variabilidade do fenômeno investigado: quanto maior a variabilidade, maior o 
tamanho da amostra. 
❑ Qualquer característica de interesse associada aos elementos de uma 
população.
Variável
Va
riá
ve
l
Quantitativa
Discreta
Contínua
Qualitativa
Nominal
Ordinal
Variável Quantitativa (numéricos)
Discreta
• Apenas valores inteiros.
• Exemplos: número de irmãos, número de passageiros
Contínua
• Qualquer valor no intervalo dos números reais. 
• Exemplo: peso, altura, pressão
Variável Qualitativa (categóricos)
Nominal
• As categorias não possuem uma ordem natural.
• Exemplos: nomes, cores, sexo
Ordinal
• As categorias podem ser ordenadas. 
• Exemplo: tamanho (pequeno, médio, grande), classe social, 
grau de instrução.
Escalas de mensuração
••As variáveis são medidas em classes discretas, mas não é possível estabelecer ordem.
••Qualquer conjunto de números pode ser utilizado para substituir os “valores” originais, desde que se mantenha a relação unívoca entre os 
valores originais e os substitutos. 
••Exemplo: 1-Masculino, 2-Feminino.
Nominal
••As variáveis são medidas em classes discretas entre as quais é possível definir uma ordem, segundo uma relação descritível mas não 
quantificável.
••Qualquer conjunto numérico pode ser utilizado para substituir o conjunto original de valores associados a cada categoria, desde que a ordem 
original das categorias seja mantida.
••Exemplo: Tamanho: 1-Pequeno, 2-Médio, 3-Grande. Escolaridade: Sem Formação < Fundamental < Médio < Superior.
Ordinal
••As variáveis assumem valores quantitativos, não possuem zero absoluto, ou seja, não possuem uma medida de ausência de atributo. Os 
dados não possuem um ponto inicial zero natural.
••Por exemplo, considere as escalas de mensuração de temperaturas Fahrenheit (F) e Centígrados (C). Uma temperatura de 0ºC não 
representa ausência de calor, ou seja, nessa escala não existe um zero absoluto (ou zero natural). Ademais, 0º na escala Centígrado 
corresponde a 32º na escala Fahrenheit
Intervalar
••As variáveis assumem valores quantitativos, cuja relação exata entre estes é possível definir porque esta escala possui um zero absoluto.
••Como há um zero que indica nenhuma quantidade, é possível dizer que uma quantidade é maior que outra
••em X vezes (razões significativas). 
••Por exemplo, 30 anos de idade é 6 vezesmaior do que 5 anos de idade.
Razão
Conclusão
✔ Entendemos o que é análise exploratória de dados.
✔ Conhecemos alguns conceitos fundamentais para 
entender como fazer uma análise exploratória de dados.
Próxima aula
❑ Conhecer as medidas de resumo.
Fundamentos em Análise de Dados
Aula 3.2. Medidas de resumo
Profª. Fernanda Farinelli
Nesta aula
❑ Conhecer as principais medidas de resumos de dados usadas 
para melhor conhecer seus dados.
Medidas de tendência 
central
Média, Mediana, Moda
Medidas de dispersão
Desvio Padrão, Variância, 
Amplitude, intervalo interquartil
Máximo, mínimo,
Quartil, Decil, Percentil
Medidas de posição
Assimetria da distribuição e grau de 
achatamento
Medidas de Assimetria e 
Curtose
Medidas
Medidas de tendência central
• Calculada pela soma dos dados de uma variável, dividida pelo total de 
observações no banco.
• Medida sensível aos valores da amostra, assim é mais adequada quando 
os dados são distribuídos de forma uniforme.
Média 
aritmética
• É o atributo do meio na distribuição, a qual deve estar ordenada pelos 
atributos observados.
• Quando o número elementos de um conjunto é par, a mediana é 
encontrada pela média dos dois valores centrais. 
Mediana
• É o valor em que a frequência dos seus dados é maior. 
• Pode ser bimodal quando apresenta duas modas, ou seja, dois valores são 
mais frequentes.
Moda
É um valor no centro, ou meio, do conjunto de dados.
Medidas de Posição
• O maior e o menor valor da observação no 
conjunto de dados.
Máximo e 
Mínimo
• Dividem um conjunto de dados em quatro 
partes iguais, isto é, 25% por parte.Quartis
• Dividem o conjunto de dados em dez partes 
iguais, isto é, 10% por parte. Decis
• Dividem o conjunto de dados em 100 partes, 
sendo e 1% em cada parte. Percentis 
Medidas de dispersão
• Diferença entre o valor máximo e o valor mínimo. (A = Max – Min)Amplitude
• É a diferença entre o terceiro quartil e o primeiro quartil (Q3 - Q1)Intervalo-Interquartil
• Média dos quadrados dos desvios em relação à média aritméticaVariância
• Mede a variabilidade independente do número de observações e com a 
mesma unidade de medida da média. É a raiz quadrada da variância.Desvio Padrão
• Mede a variabilidade em relação à média.Coeficiente de Variação
Visam encontrar um valor que resuma a variabilidade de um 
conjunto de dados.
❑ As medidas de assimetria possibilitam analisar uma distribuição de 
acordo com as relações entre suas medidas de moda, média e mediana, 
quando observadas graficamente ou analisando apenas os valores.
Distribuição simétrica 🡪 o valor da moda = média = mediana.
Distribuição assimétrica 🡪 quando essa igualdade não ocorre.
Medidas de Assimetria
Medidas de Assimetria
❑ Curtose é o grau de achatamento da distribuição. Ou o quanto uma curva 
de frequência será achatada em relação a uma curva normal de 
referência.
Mesocúrtica: achatamento da curva normal, curtose = 0.
Leptocúrtica: curva afilada, com pico elevado, curtose > 0.
Platicúrtica: curva bem achatada, curtose < 0.
Curtose
Conclusão
✔ Conhecemos as principais medidas de resumo de 
dados usadas para melhor conhecer seus dados.
✔ Medidas tendência central
✔ Medidas de posição e dispersão
✔ Medidas de assimetria
✔ Grau de achatamento da frequência de 
distribuição.
Próxima aula
❑ Entender o que é Análise univariada de dados.
Fundamentos em Análise de Dados
Aula 3.3. Análise univariada
Profª. Fernanda Farinelli
Nesta aula
❑ Entender o que é a análise univariada.
Análise univariada
❑ Analisar cada uma das variáveis individualmente:
Classificar a variável quanto a seu tipo: qualitativa (nominal ou ordinal) ou 
quantitativa (discreta ou contínua).
Obter tabelas, gráficos e/ou medidas que resumam a variável.
❑ Conhecer o comportamento dessa variável, analisando a ocorrência de seus 
possíveis valores.
A distribuição de frequência é um dos principais recurso para resumir uma única 
variável.
Fr
eq
uê
nc
ia
Absoluta
Relativa
Percentual
Distribuição de frequência
Número total de elementos em cada ocorrência de 
valor. Contagem simples
Razão entre cada valor da frequência absoluta e o 
total de observações. Frequência absoluta de cada 
ocorrência, dividida pelo total de ocorrências.
Frequência relativa expressa em porcentagem
variável qualitativa 
Dados de exemplo
Classificação das variáveis
❑ "Estado civil" é uma variável qualitativa nominal. 
Tabela de frequências (absolutas e/ou relativas):
❑ Um gráfico de barras ou de setores:
❑ A “moda”, i.e. o valor que ocorre com maior frequência
Análise univariada
❑ "Estado civil" é uma variável qualitativa nominal. 
Tabela de frequências (absolutas e/ou relativas):
Um gráfico de barras ou de setores:
Análise univariada
A moda é a 
categoria de 
maior frequência
❑ “Instrução" é uma variável qualitativa ordinal. 
Tabela de frequências (absolutas e/ou relativas):
Um gráfico de barras, o de setores não mostra a ordem:
Análise univariada
A moda é a 
categoria de 
maior frequência
Fr
eq
uê
nc
ia
Absoluta Acumulada
Relativa Acumulada
Percentual
Distribuição de frequência
Variável Quantitativa
Soma das frequências simples de uma classe 
com a frequência simples da classe anterior
Frequência acumulada da classe dividida pelo 
total de observações
❑ “Filhos" é uma variável quantitativa discreta. 
Tabela de frequências (absolutas e/ou relativas):
Um gráfico tipo o de barras, mas com linhas:
Análise univariada
• 
Análise univariada
• 
Análise univariada
Menor ou igual 
ao valor 
mínimo
Maior ou igual 
ao valor 
máximo
❑ “Salário" é uma variável quantitativa contínua. 
Tabela de frequências (absolutas e/ou relativas):
Análise univariada
❑ “Salário" é uma variável quantitativa contínua. 
Gráficos para variáveis contínuas: o de dispersão e o histograma.
Análise univariada
Conclusão
✔ Entendemos o que é a análise univariada e 
aprendemos como fazer.
Próxima aula
❑ Realizar uma análise univariada utilizando a 
linguagem R.
Fundamentos em Análise de Dados
Aula 3.4. Análise univariada com R
Profª. Fernanda Farinelli
Nesta aula
❑ Utilizar a linguagem R para realizar uma análise univariada.
Demonstração prática
Conclusão
✔ Aprendemos como realizar a análise univariada 
utilizando a linguagem R.
Próxima aula
❑ Entender o que é Análise bivariada de dados.
Fundamentos em Análise de Dados
Aula 3.5. Análise bivariada
Profª. Fernanda Farinelli
Nesta aula
❑ Entender o que é a análise bivariada.
Análise bivariada
❑ Permite observar como duas variáveis se comportam na presença uma da outra. 
❑ Pode ser feita em termos de distribuição (para duas variáveis ordinais) ou em termos 
de frequências para variáveis nominais.
❑ Tipos de análises conforme a classificação das variáveis envolvidas:
Qualitativa vs qualitativa
Qualitativa vs quantitativa
Quantitativa vs quantitativa
Base de dados
Qualitativa vs qualitativa
❑ "Estado civil" versus "grau de instrução"
Qualitativa vs qualitativa
❑ "Estado civil" versus "grau de instrução"
Qualitativa vs qualitativa
❑ "Estado civil" versus "grau de instrução"
Qualitativa vs qualitativa
❑ "Estado civil" versus "grau de instrução"
Qualitativa vs quantitativa
❑ "grau de instrução“ versus “salário”
Gerar faixas de salários
Qualitativa vs quantitativa
❑ "grau de instrução“ versus “salário”
Qualitativa vs quantitativa
❑ "grau de instrução“ versus “salário”
Qualitativa vs quantitativa
❑ "grau de instrução“ versus “salário”
Quantitativa vs quantitativa
❑ “salário” versus “idade”
é necessário agrupar as variáveis em classes
Quantitativa vs quantitativa
❑ “salário” versus “idade”
é necessário agrupar as variáveis em classes
Quantitativa vs quantitativa
❑ “salário” versus “idade”
Quantitativa vs quantitativa
❑ “salário” versus “idade”
Conclusão
✔ Entendemos o que é a análise Bivariada e 
aprendemos como fazer.
Próxima aula
❑ Realizar uma análiseBivariada utilizando a 
linguagem R.
Fundamentos em Análise de Dados
Aula 3.6. Análise Bivariada com R
Profª. Fernanda Farinelli
Nesta aula
❑ Utilizar a linguagem R para realizar uma análise Bivariada.
Demonstração prática
Conclusão
✔ Aprendemos como realizar a análise Bivariada 
utilizando a linguagem R.
Próxima aula
❑ Realizar análises exploratória utilizando o Knime 
Analytics Platform.
Fundamentos em Análise de Dados
Aula 3.7. Análise exploratória de dados com Knime
Profª. Fernanda Farinelli
Nesta aula
❑ Utilizar o Knime para realizar análise exploratória de dados.
Demonstração prática
Conclusão
✔ Aprendemos como realizar a análise exploratória 
de dados no Knime.
Próxima aula
❑ Fundamentos de Análise de dados.
Fundamentos em Análise de Dados
Capítulo 4. Fundamentos em análise de dados
Profª. Fernanda Farinelli
Fundamentos em Análise de Dados
Aula 4.1. Visão geral dos principais tipos de análise de dados
Profª. Fernanda Farinelli
Nesta aula
❑ Entender os principais tipos de análise de dados.
Análise de Dados
Permite a extração de informações valiosas a partir dos dados. 
Estudar princípios, métodos 
e sistemas computacionais 
para extrair conhecimento 
de dados
Identificar as possibilidades 
de converter dados brutos 
em conhecimento
Visa encontrar um padrão 
(conhecimento) em grandes 
volumes de dados
Aumentar a compreensão 
sobre o comportamento das 
pessoas e do negócio.
Fomentar a identificação de 
novas oportunidades de 
negócio
Análise
descritiva
Análise
diagnóstica
Análise
preditiva
Análise
prescritiva
Tipos de Análise de Dados
O que aconteceu?
Qual é a situação?
Por que aconteceu?
O que acontecerá?
Se acontecer, o que 
devo fazer?
Futuro
Passado
Análise 
descritiva
Análise 
diagnóstica
Análise 
preditiva
Análise 
prescritiva
VA
LO
R
 (R
O
I)
COMPLEXIDADE
 R
etro
spe
ctiv
a 
Pre
visã
o
Conclusão
✔ Entendemos a importância da análise de dados.
✔ Conhecemos os principais tipos de análise de dados.
Próxima aula
❑ Entender o que é mineração de dados.
Fundamentos em Análise de Dados
Aula 4.2. Introdução à Mineração de Dados
Profª. Fernanda Farinelli
Nesta aula
❑ Entender o que é data mining ou mineração de dados.
KDD - Knowledge Discovery in Databases
Dados
Transformados
Dados 
alvo
Dados
pré-processados
Padrões
Conhecimento
Sele
ção
Pré-p
roce
ssam
ento
Tran
sform
açã
o
Mine
raçã
o de
 
dado
s
Inter
preta
ção 
e Av
aliaç
ão
Dados das 
aplicações
Prep
araçã
o
Mineração de Dados (Data Mining)
Frequentemente existe informação “escondida” nos dados que não é 
evidente de ser encontrada utilizando linguagens de consultas tradicionais.
Mineração de dados visa identificar conhecimento novo escondido em 
grandes bases de dados.
Consiste na aplicação de algoritmos de análise de dados que infere regras 
e descobrem padrões e/ou tendências significativas sobre os dados.
Utiliza várias técnicas da estatística, recuperação de informação, 
inteligência artificial e reconhecimento de padrões.
• Chamada de teste de hipótese, o usuário parte do 
princípio que existe uma hipótese, uma ideia 
pré-concebida e que mesmo deseja confirmá-la ou 
refutá-la.
Abordagem 
top-down
• Chamada de busca de conhecimento, o usuário inicia o 
processo de exploração dos dados na tentativa de 
descobrir alguma coisa que ainda não é de seu 
conhecimento
Abordagem 
bottom-up
Abordagens da Mineração de Dados
Planejamento 
estratégico
• Qual o objetivo da mineração de 
dados? 
• Que perguntas eu desejo 
responder?
Seleção de 
dados
• Quais dados e fontes podem 
trazer insumos para 
responder estas pergunta?
Modelagem 
de dados
• Definição e execução das 
técnicas de mineração de 
dados conforme a natureza da 
pergunta.
Avaliação dos 
resultados
• Considerando o objetivo, a 
pergunta, você obteve suas 
respostas?
Processo de mineração de dados
Técnicas de Mineração de dados
Conclusão
✔ Entendemos a importância da mineração de 
dados.
Próxima aula
❑ Entender o que é mineração de dados na web.
Fundamentos em Análise de Dados
Aula 4.3. Visão geral: Web mining
Profª. Fernanda Farinelli
Nesta aula
❑ Entender o que é a mineração de dados na web ou web mining.
Dados 
Interligados
Enorme volume 
de acesso
Enorme 
quantidade de 
informação
Documentos 
sem 
padronização
Distribuído e 
em constante 
evolução
Dados não 
estruturado e 
semiestruturado
Web de dados
Mineração de Dados na Web: Aplicação de técnicas de Mineração de 
Dados para descoberta de padrões na Web
Web Mining
Encontrar 
informação 
relevante
Gerar novos 
conhecimentos
Personalizar a 
informação
Aprender sobre 
comportamento 
dos usuários
Taxonomia do Web Mining
Mineração de 
dados na Web
Mineração 
de Conteúdo 
da Web
Mineração de 
Conteúdo de 
Página da Web
Mineração de 
Resultados da 
Pesquisa
Mineração 
da estrutura 
da Web
Mineração 
de uso da 
Web
Mineração de 
Padrão de 
Acesso Geral
Rastreamento 
de uso 
personalizado
Abordagens de Web Mining
Extração de conhecimento do conteúdo de páginas 🡪 informações 
contidas dentro dos documentos disponíveis na web.01
Mineração de conteúdo
❑ Exemplos de aplicação:
Máquinas de busca (Google, Bing, etc.).
Classificação de textos.
Identificação de spams.
Detecção e acompanhamento de evento.
Extração de regras.
Abordagens de Web Mining
Obtenção de conhecimento a partir da organização da web, as 
informações contidas entre os documentos disponíveis na web.02
Mineração de estrutura
❑ Exemplo de informação extraída:
Volume de links apontando para um documento podem indicar sua popularidade.
Volume de links saindo de um documento podem indicar a riqueza ou variedade de 
tópicos tratados pelo documento.
Autoridade de uma página.
Ranking de páginas.
Número de exibições ou retorno em buscas.
Busca padrões relacionados ao uso e acesso, as informações contidas 
na utilização ou interação com documentos disponíveis na web.03
Mineração de uso
Abordagens de Web Mining
❑ Fontes de dados para análises:
Web server log, cookies, dados de consultas, dados do proxy.
❑ Exemplo de uso:
Extração de padrão geral de acesso para descobrir padrões e tendências de 
acesso.
Localizar pontos para propaganda mais efetiva.
Direcionar campanhas específicas para usuários específicos.
Customização ou personalização dinâmica da experiência do usuário.
Conclusão
✔ Entendemos o que é Web mining e quais são 
seus subtipos.
Próxima aula
❑ Entender o que é mineração de texto.
Fundamentos em Análise de Dados
Aula 4.4. Visão geral: Text mining
Profª. Fernanda Farinelli
Nesta aula
❑ Entender o que é mineração de texto ou text mining.
Mineração de texto: Extrair informação relevante de uma 
grande base de dados textuais sem precisar de intervenção 
humana na leitura de cada documento.
Text mining
❑ Trabalha com análise de dados não estruturados.
Text mining
Blogs e 
Microblogs
Documentos
Redes 
sociais
Comentários 
e-commerce
Conteúdo 
on-line
Tipos de abordagens
Extração de conhecimento 
morfológico, sintático, semântico, 
pragmático, do discurso e do 
mundo.
Análise Semântica
Aprendizado estatístico a partir de 
dados, codificação dos dados, 
estimativa dos dados e modelos 
de representação.
Análise Estatística
Exemplo: New York Times
Exemplo Semântica
É a mesma pessoa:
• Diego Maradona
• Mr. Maradona
• He, His, Him
Referência a pessoas:
• Diego Maradona
• Che Guevara
• Fidel Castro
Exemplo Semântica
Mesmo significado:
• Huge, biggest, vastly, most.
Conteúdo informacional
Exemplo Estatística
Frequência de palavras:
• He, Him, His: 8
• Maradona: 2
• Huge, biggest, vastly, most: 4
❑ Considere o texto a seguir:
José da Silva é funcionário da Empresa XYZ, mora na Rua X, número 31, 
tem 35 anos de idade, e ...
❑ Com a mineração semântica é possível identificar os seguintes dados:
Exemplo de extração de conhecimento
Nome
José da Silva
EmpresaXYZ
Endereço
Rua X, 31
Idade
35 anos
• knowledge discovery in texts (KDT)
Processo de descoberta de conhecimento 
em textos (KDT)
38
Fonte: https://www.devmedia.com.br/mineracao-de-texto-analise-comparativa-de-algoritmos-revista-sql-magazine-138/34013
Processo de Text Mining (simplificado)
Escolha/definição 
dos documentos 
relevantes
Transformar o 
documento no 
formato de análise 
Identificação de 
padrões nos 
documentos
Utilização do 
conhecimento 
extraído
❑ Tem como objetivo formar a base de documentos (corpus) que irá 
ser analisada.
❑ A base pode ser adquirida de forma:
Manual, realizada por um ser humano.
Automática, por meio de API ou Web Crawler/Scrap:
• Crawler (Rastreamento): Software que visa localização de informações na web.
• Scraper (Raspagem): Software que coleta automaticamente os 
dados/documentos na web.
Seleção ou Coleta de documentos (dados)
❑ Objetiva transformar os textos em uma representação 
estruturada adequada, aumentando sua qualidade.
❑ Consiste em um conjunto de transformações realizadas no 
texto para torná-lo apto a ser analisado.
Pré-Processamento
Indexação
Normalização 
de sinônimos
Normalização 
morfológica
Limpeza do 
texto.
Pré-processamento em text mining
Remoção de 
caracteres especiais
Remoção de 
stopwords 
(pontuação e 
palavras de ligação)
Tokenization 
(Atomização) 
Identificação de 
Abreviações e 
acrônimos
Correção Ortográfica 
(inserção, 
eliminação e 
substituição de 
caracteres)
Redução do Léxico 
- Stemming (obtida a 
raiz do termo)
Normalização - 
Lemmatization 
(forma primitiva da 
palavra)
Identificação de 
Sinônimos, 
Hierarquias e 
Relacionamentos 
Associativos
Etiquetagem POS (part 
of speech) - 
identificação sintática: 
verbos, substantivos, 
adjetivos, advérbios, 
pronomes, etc.
Análise Sintática - 
Definição da estrutura 
observando a função 
sintática de cada token 
em uma sentença 
(Árvore de Derivação)
Identificação de 
Palavras 
Combinadas 
(n-gramas)
❑ Organiza todos os termos para facilitar o acesso aos documentos
❑ Abordagens comuns:
Representação de Documentos:
• “saco de palavras” (do inglês, bag of words) 🡪 documento é visto como um 
container de tokens, 
Medidas de Similaridade entre Documentos: 
• dois documentos são idênticos se compartilham do mesmo conjunto de tokens
Listas Invertidas (abordagem de máquinas de busca): 
• Tokens indicando (apontando) em quais documentos estes estão contidos, e não 
documentos apontando para tokens
Indexação
❑ É uma representação simplificada usada no processamento de linguagem 
natural (PLN) e na recuperação de informações (RI).
❑ Neste modelo, um texto (como uma frase ou um documento) é 
representado como o saco (bag) de suas palavras, desconsiderando a 
gramática e mesmo a ordem das palavras, mas mantendo a 
multiplicidade.
❑ Um uso clássico do BoW é para filtragem de spam.
Bag of Words (BOW)
❑ Considere os seguintes documentos:
❑ Cria-se, uma lista com as palavras que aparece 
no texto dos documentos.
❑ Calcula-se a frequência de aparecimento das 
palavras.
Exemplo de Bag of Words
José gosta de assistir filmes. Maria 
também gosta de filmes.
José também gosta de assistir 
jogos de futebol.
❑ Conforme o objetivo, definir a técnica de mineração que será usada para 
extrair conhecimento dos textos pré-processados.
❑ Exemplos:
Clusterização: identificar relacionamento entre documentos, conforme o grau 
de similaridade.
Classificação: classificar em qual grupo o documento novo se encaixa.
Associação: identificar tópicos correlatos.
Mineração
❑ Latent Dirichlet Allocation (LDA) é o método padrão para modelagem de 
tópicos.
❑ Leva em consideração que:
Cada documento é uma mistura de tópicos.
Cada tópico é uma mistura de termos.
❑ Reorganiza a distribuição de tópicos nos documentos e a distribuição de 
palavras-chave nos tópicos para obter uma boa composição da 
distribuição de palavras-chave de tópico.
Técnica: Modelagem de tópicos
Latent Dirichlet Allocation (LDA)
 Tópicos Documentos Proporções da base 
de treinamento
Inferindo tópicos a partir das palavras chave
❑ Cloud of words (Nuvem de palavras)
Modelo de visualização
Palavras usadas pela imprensa durante a campanha eleitoral Norte Americana de 2016
Conclusão
✔ Entendemos o que é Text mining e algumas 
de suas aplicações.
Próxima aula
❑ Conhecer a Análise de Sentimentos.
Fundamentos em Análise de Dados
Aula 4.5. Análise de Sentimentos
Profª. Fernanda Farinelli
Nesta aula
❑ Entender o que é Análise de sentimentos.
Por que saber a opinião das outras pessoas?
Conhecer a satisfação dos clientes 
com o produtos/serviços adquiridos.
Entender o comportamento de 
um determinado grupo.
Conhecer crenças, 
valores, gostos, questões 
culturais e políticas.
Análise de sentimentos
 Mineração da opinião
 Foco em relacionar as emoções ao assunto (ou tópico) de que se trata o documento.
 Visa estudar opiniões, sentimentos, avaliações e emoções que possam ser expressas em forma de texto.
Análise de Sentimento
Positivo
•O produto X tem ótima qualidade.
•Eu adorei o filme.
Negativo
•O produto X quebrou no primeiro uso.
•Este filme não representa a essência do livro.
Neutro
•Vou pesquisar sobre o produto X depois.
•Eu vi o trailer deste filme.
Opinião
Regular
Direta Indireta
Comparativa
Opinião comum a 
um determinado alvo
Possui relação de 
similaridade ou 
diferença entre dois ou 
mais alvos
O vestido é lindo! Comecei a coçar depois que vesti o vestido
Prefiro usar calça do 
que saia.
❑ Subjetividades das opiniões e sentimentos.
❑ Palavras com sentido adverso dependendo do contexto.
❑ Palavras com duplo sentido.
❑ Abreviações, erros ortográficos e gramaticais.
❑ Linguagem informal, gírias, hashtags e emoticons.
Desafios da análise de sentimentos
Fluxo de Análise de sentimentos
Conclusão
✔ Entendemos o que é Análise de sentimentos e 
seus principais objetivos e desafios.
Próxima aula
❑ Realizar prática de Análise de Sentimentos 
utilizando o Knime.
Fundamentos em Análise de Dados
Aula 4.6. Prática: Análise de Sentimentos utilizando o Knime
Profª. Fernanda Farinelli
Nesta aula
❑ Exemplo prático de Análise de sentimentos utilizando Knime.
Exemplo de workflow
Fonte: 
https://hub.knime.com/knime/spaces/Examples/latest/08_Other_Analytics_Types/01_Text_Processing/26_Sentiment
_Analysis_Lexicon_Based_Approach~zp_hhUROHNXToZHX
Demonstração prática
Conclusão
✔ Aprendemos como fazer uma análise de 
sentimentos utilizando o Knime.
Próxima aula
❑ Realizar prática utilizando a linguagem R para tratar 
partes da mineração de textos.
Fundamentos em Análise de Dados
Aula 4.7. Prática: Análise de textos utilizando a linguagem R
Profª. Fernanda Farinelli
Nesta aula
❑ Exemplo prático de Análise de textos utilizando a linguagem R.
Demonstração prática
Conclusão
✔ Aprendemos como fazer uma análise de 
textos utilizando a linguagem R.
Próxima aula
❑ Conhecer as etapas de coleta e preparação de 
dados.
Fundamentos em Análise de Dados
Capítulo 5. Coleta e Preparação de dados
Profª. Fernanda Farinelli
Fundamentos em Análise de Dados
Aula 5.1. Fundamentos em coleta de dados
Profª. Fernanda Farinelli
Nesta aula
❑ Entender os desafios da etapa de coleta de dados.
Coleta de dados
Obtenção (recuperação e extração) dos dados de diversas fontes e carga 
no conjunto de dados a ser analisado.
Dados 
externos
SGBDs
relacionais
DW & Data Lake
SGBDs 
NoSQL
Conjunto de dados
Web 
de dados
Documentos
IOT
E-commerce
❑ A base pode ser adquirida de forma:
Manual, realizada por um ser humano.
Automática
o Acesso ao banco de dados, por exemplo, com linguagem SQL.
o Via APIs, como por exemplo, API do Twitter.
o Web Crawler/Scrap:
• Crawler (Rastreamento): Software que visa localização de informações na 
web.
• Scraper (Raspagem): Software que coleta automaticamente os 
dados/documentos

Continue navegando