Material do Módulo 1 - Bootcamp Analista de dados

•

Gaviao Peixoto Brigadeiro

Vinicius Nati

15/06/2022

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 535 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 535 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 535 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Cálculo I

182.167 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

Fundamentos em Análise de Dados
Capítulo 1. Conceitos fundamentais em Análise de Dados
Profª. Fernanda Farinelli
Fundamentos em Análise de Dados
Aula 1.1. Dados, fontes de dados e tipos de dados
Profª. Fernanda Farinelli
Nesta aula
❑ Entender alguns conceito fundamentais.
Dado, informação e conhecimento.
❑ Conhecer as diferentes tipos de dados.
❑ Conhecer as diferentes fontes de dados.
Dado
Representações de fatos sobre o mundo real.
Informação
Dados dotados de relevância e propósito.
Conhecimento
Informações contextualizadas pela experiência.
Tipos de dados
Estruturado
Estrutura pré-definida,
prescritiva.
Estrutura independente
dos dados.
Fracamente evolutiva.
Semiestruturado
Esquema heterogêneo,
nem sempre
pré-definido, descritiva.
Estrutura embutida nos
dados.
Favorável a evolução.
Não estruturado
Sem esquema
pré-definido, descritiva,
nem sempre presente.
Indefinição do que é
dado e estrutura.
Fortemente evolutiva.
Fontes de
Dados
Redes
sociais
Artigos
e
jornais
Bancos
de
Dados
Documentos
oficiais
Dados
abertos

Arquivos
de
Integração
Planilhas Áudio e vídeo
Websites
Sistemas de
Informação
Web de
dados e
LODInternet
das coisas
(IoT)
Conclusão
✔ Entendemos o conceito de dado, informação e
conhecimento.
✔ Conhecemos os diferentes tipo de dados: Estruturados,
semiestruturados e não estruturados.
✔ Entendemos o que são fontes de dados e conhecemos
algumas destas fontes.
Próxima aula
❑ Entender o que o termo Big Data significa e
conhecer as características que envolvem este
termo.
Fundamentos em Análise de Dados
Aula 1.2. Conceito e características de Big Data
Profª. Fernanda Farinelli
Nesta aula
❑ Entender o significado do termo Big Data.
❑ Discutir as principais características do Big Data.
Datificação
Dados Digitalização
Datafication (Datificação ou dataficação)
❑ Tudo se torna dado…
Palavras, localizações, Compromissos, Diversão, Imagens, Vídeos,
Interações, Compras, Tempo, …
Transformar as informações sobre todas as coisas em
dados, em um formato que o torne possível de ser
quantificado, permitindo assim monitoramento e análise.
Human Bits
Big data
Quantidade
Massiva de
Dados
Big Data remete ao...
… problema ou desafio de…
processar volumes de dados cada vez maiores,
produzidos em múltiplos formatos (vídeo, imagem, texto etc.),
e em velocidades na casa dos segundos,
além de apresentar respostas em tempo real.
Características do Big Data
Variedade
Velocidade
Volume
Veracidade
Valor
Visualização
Virulência
Viscosidade
Big Data
Big Data versus Small Data
Dados gerados aleatoriamente
Fontes de dados desconhecidas
Dados não amigáveis
Validade ou veracidade questionável
Conclusão
✔ Entendemos o que é e o que não é Big Data.
✔ Conhecemos as principais características do Big
Data.
✔ Entendemos os desafios computacionais para
lidar com dados.
Próxima aula
❑ Entender o que é a Web Semântica e liked open
data.
Fundamentos em Análise de Dados
Aula 1.3. Web semântica e dados abertos interligados
Profª. Fernanda Farinelli
Nesta aula
❑ Entender a evolução da World Wide Web.
❑ Explorar o que é a web semântica.
❑ Entender o que são dados abertos e dados interligados.
❑ Entender a relação dados abertos X dados interligados.
Evolução da World Wide Web
Web 1.0
Web 2.0
Web 3.0
Web 4.0
web unidirecional
“empurrada”
web bidirecional
“compartilhada”
web colaborativa
tempo real
Web cognitiva
(inteligência artificial,
aprendizado de máquina, …)
Web Semântica (web 3.0 ou web de dados)
Hendler, J., Lassila, O., & Berners-Lee, T. (2001). The semantic web. Scientific American, 284(5), 34-43.
“A Web Semântica não é uma Web separada, mas sim uma
extensão da Web atual onde à informação é atribuído
significado bem definido, permitindo que pessoas e
computadores trabalhem em cooperação”.
Web semântica
Semântica: representa o estudo do significado.
Conjunto de dados inter-relacionados
semanticamente.
Visa interligar os significados das palavras, tornando
perceptível tanto aos humanos quanto às máquinas.
Tanque
Web Semântica
estrutura significado
Disponibilidade e acesso
Reutilização e redistribuição
Participação universal
Dados abertos (open data)
Conteúdo aberto Disponível
Disponível para todos
Dados abertos
❑ Dados abertos são dados que podem ser usados livremente,
reutilizados e redistribuídos por qualquer pessoa - sujeitos, no máximo,
à exigência de atribuição da fonte e compartilhamento pelas mesmas
regras.
❑ Se você está se perguntando por que é tão importante ser claro no que
significa aberto e por que essa definição é usada, a resposta é
simples: interoperabilidade.
Interoperabilidade significa a capacidade de diversos sistemas e
organizações trabalharem juntos (interoperar). Neste caso, trata-se da
capacidade de interoperar - ou combinar - diferentes conjuntos de dados.
Fonte: https://opendatahandbook.org/guide/pt_BR/what-is-open-data/
https://opendatahandbook.org/guide/pt_BR/what-is-open-data/
Dados abertos
❑ Disponibilidade e acesso: os dados devem estar disponíveis como um todo e sob
custo não maior que um custo razoável de reprodução, preferencialmente possíveis de
serem baixados pela internet. Os dados devem também estar disponíveis de uma
forma conveniente e modificável.
❑ Reutilização e redistribuição: os dados devem ser fornecidos sob termos que
permitam a reutilização e a redistribuição, inclusive a combinação com outros
conjuntos de dados.
❑ Participação universal: todos devem ser capazes de usar, reutilizar e redistribuir, não
deve haver discriminação contra áreas de atuação ou contra pessoas e grupos. Por
exemplo, restrições de uso ‘não-comercial’, que impediriam o uso ‘comercial’, ou
restrições de uso para certos fins (ex.: somente educativos) excluem determinados
dados do conceito de ‘abertos’.
Fonte: https://opendatahandbook.org/guide/pt_BR/what-is-open-data/
https://opendatahandbook.org/guide/pt_BR/what-is-open-data/
Dados abertos
❑ Regulamentações:
Lei de Acesso à Informação.
Lei Geral de Proteção de Dados Pessoais (LGPDP).
Regulamento Geral sobre a Proteção de Dados (GDRP).
❑ Portal Brasileiro de Dados Abertos: http://dados.gov.br
❑ Portal da Transparência:
http://www.portaltransparencia.gov.br/download-de-dados
❑ Portal Dados Abertos Dataprev:
https://dadosabertos.dataprev.gov.br/dataset
❑ Dados abertos DATASUS: http://www2.datasus.gov.br/DATASUS/index.php
❑ Portal Dados Abertos CVM: http://dados.cvm.gov.br/
❑ Global Open Data Index: https://index.okfn.org/dataset/.
Portais de dados abertos
http://dados.gov.br/
http://www.portaltransparencia.gov.br/download-de-dados
https://dadosabertos.dataprev.gov.br/dataset
http://www2.datasus.gov.br/DATASUS/index.php
http://dados.cvm.gov.br/
https://index.okfn.org/dataset/
Dados interligados (linked data)
Maria
João
Itália
Espanha
Países da
comunidade
européiaConhece
Nasceu
Visitou
Trabalha
Conjunto de práticas para publicar e conectar (interligar) dados na web de forma tão fácil
quanto o compartilhamento de documentos.
Ligar dados (semântica) e não documentos (estrutura).
Projeto aberto comunitário mundial, iniciado em 2007, que
visa a publicação de vários conjuntos de dados (datasets) ,
de forma que as ligações sejam possíveis entre eles.
Construir uma rede de informações onde os nós (itens
de diferentes fontes de dados) estejam semanticamente
ligados, formando um grande grafo global.
Quanto mais um dado for interligado com outros dados,
maior é o seu valor e sua utilidade.
Dados abertos ligados (linked open data)
Nuvem do linked open data
Fonte: https://lod-cloud.net/
https://lod-cloud.net/
Linked open data (contexto brasileiro)
Como publicar LOD
1. Analisar seus dados, selecionado aqueles que são úteis para serem publicados.
2. Limpar e formatar os dados,visto que uma vez que dados podem vir de várias fontes,
alguns podem vir com informação a mais (desnecessária) para a publicação.
3. Modelar seus dados para convertê-los facilmente para RDF e criar URIs para cada objeto.
4. Escolher ou criar um vocabulário RDF apropriado.
5. Escolher ou criar sob qual licença ficarão os dados.
6. Converter os dados para RDF.
7. Ligar dados a outros dados antes de publicá-los.
8. Publicar e promover seu conjunto de dados.
Fonte: Floorian Bauer & Martin Kaltenböck. Linked Open Data: The Essentials
https://www.reeep.org/LOD-the-Essentials.pdf (pag. 33-35)
https://www.reeep.org/sites/default/files/LOD-TheEssentials2016.pdf (pag. 38-44)
Conclusão
✔ Entendemos o que é a Web Semântica e suas principais
características.
✔ Conhecemos o que são dados abertos, dados interligados e
dados abertos interligados (linked open data).
Próxima aula
❑ Conhecer o que são ontologias.
Fundamentos em Análise de Dados
Aula 1.4. Ontologias
Profª. Fernanda Farinelli
Nesta aula
❑ Entender o que são ontologias.
❑ Conhecer os tipos de ontologias.
O que são ontologias?
Ontologia como disciplina
▪ “Filosofia Primeira" de Aristóteles.
▪ Ciência do ser e das relações da
existência. (Ser/Ente é tudo o que é.)
▪ Estudo da natureza e organização da
realidade.
▪ Objeto de pesquisa é o ser enquanto
tal.
Ontologia como artefato

▪ Sistemas de organização do
conhecimento (CI e CC).
▪ Artefato de informação que visa
representar algum domínio do
conhecimento.
▪ Pela natureza filosófica, garante
significado semântico uniforme.
▪ As formais viabilizam as inferências.
Ontologia como disciplina
❑ Origem na filosofia 🡪 “Filosofia Primeira" de Aristóteles.
❑ Objeto de pesquisa o ser enquanto tal. Ser/Ente é tudo o que é.
Diz respeito aquilo que existe: Ontos (ser) + logia (conhecimento).
❑ Ciência do ser e das relações da existência.
Estudo da natureza e organização da realidade.
“Ontologia é a ciência do que é, dos tipos e estruturas de
objetos, propriedades, eventos, processos e relações em
todas as áreas da realidade (SMITH, 2003)".
Ontologia como artefato representacional
❑ Ontologia usada para:
Representação do conhecimento.
Permitir o raciocínio computacional (Lógica descritiva/axiomas).
Permitir a integração da informação (relações entre os entes).
Garantir significado semântico (interoperabilidade semântica).
Promover aplicações de processamento de linguagem natural.
Expressividade dos artefatos
Fonte: Almeida, Souza e Fonseca (2011)
Ontologias realistas e não realistas
❑ Não-realismo: representação de conceitos, interpretações ou
representações mentais das pessoas.
❑ Realismo: entidades da realidade e não interpretação ou
representações mentais das pessoas.
Animal
é um
é
um
é um
é um
Universais e Particulares
❑ Particulares ou indivíduos: ocorrências únicas de algo existente
na realidade.
Exemplo: Cada um de nós é uma única ocorrência ou indivíduo
de um "homo sapiens".
❑ Universais ou tipos: entidades reais que generalizam os
particulares existentes no mundo. Existe apenas se existir pelo
menos um particular desse universal.
Exemplo: "homo sapiens“ é uma entidade geral ou universal
referente aos particulares que cada um de nós é.
Universais e Particulares
Classificação das ontologias
Classificação das ontologias
D
om
ín
io

E
sp
ec
ífi
co
D
om
ín
io

ne
ut
ro
Auguste Rodin
esculpindo La Danaïde
La Danaïde de
Auguste Rodin (1889)
Auguste Rodin
Pa
rt
ic
ul
ar
es

U
ni
ve
rs
ai
s entidade
objeto processo
pessoa escultura esculpir
Classificação das ontologias
Ontologia de alto nível
Ontologia de referência
Ontologia de domínio
Baixo
Alto
A
co
pl
am
en
to
a
o
do
m
ín
io
Alta
Baixa
R
eu
sa
bi
lid
ad
e
Canônico
Específico
P
ro
pó
si
to
d
e
re
pr
es
en
ta
çã
o
Amplo
Restrito
E
sc
op
o
de
u
so
Classificação das ontologias
Classificação de ontologias
entity
continuant Independent continuant
Material entity organism
Homo sapiens
Viruses coronavirus
Immaterial
entity
site medical intervention site injection site
occurrent process
diagnostic
process
coronavirus disease
diagnostic process
immune
response
coronaviral
process to host
coronavirus entry
to cell
coronavirus
replication inside
cell
Ontologia de alto nível
Ontologia de referência
Ontologia de domínio
Ontologia de alto-nível
Especificação completa: https://github.com/BFO-ontology/BFO/raw/master/docs/bfo2-reference/BFO2-Reference.pdf
Basic Formal Ontology - BFO v 2.0
Padrão internacional ISO/IEC 21838-2.3
Categorias básicas de modelagem
Entidade (Ente)
Continuante
Continuante independente Continuante dependente
Ocorrente
Cor vermelha
da maçã
Processo de
digestão da
maçã
Categorias básicas de modelagem
Entidade
(Ente)
Continuante
Continuante
independente
Continuante
dependente
Ocorrente
dependem de
outras para
existir
entidades que mantém identidade ao longo do tempo
Exemplo: pessoas, árvores, etc.
entidades que se alteram ao longo do tempo
Exemplo: Infância, Processo de digestão, etc.
maçã
vermelho
da maçã
Exemplos de ontologia de referência
❑ Ontology for General Medical Science (OGMS)
Ontologia para representar o tratamento de doenças e diagnóstico.
Exemplos: Disease (doença), Symptom (Sintoma), diagnosis (diagnóstico),
health care process (processo de cuidados de saúde).
❑ Ontology of Medically Related Social Entities (OMRSE)
Abrange o domínio de entidades sociais relacionadas à assistência à saúde.
Exemplos: Patient role (paciente), health care encounter (Encontro de
cuidados de saúde - "consulta"), hospital facility (instalação hospitalar -
"Hospital")
❑ Uberon multi-species anatomy ontology (UBERON)
Abrange anatomia dos seres vivos.
Exemplos de ontologia de domínio
❑ Obstetric and Neonatal Ontology (ONTONEO)
Representação dos dados dos prontuários eletrônicos de saúde
(EHRs) envolvidos no atendimento à gestante e ao bebê.
Exemplo: prenatal encounter (Consulta prenatal), pregnant
woman (grávida).
Elementos de uma ontologia
Entidade Atributos
Instância ou
indivíduos
Relacionamento Cardinalidade Axioma
IRI
Elementos de uma ontologia
rdfs:label
Entidade Atributos
Instância ou
indivíduos
Relacionamento Cardinalidade Axioma
Elementos de uma ontologia
Entidade Atributos
Instância ou
indivíduos
Relacionamento Cardinalidade Axioma
Elementos de uma ontologia
❑ Entidades: É algo que você deseja representar em um domínio
particular. Qualquer coisa que exista, existiu ou irá existir. Ex.:
eventos, processos, objetos inanimados ou vivos, etc.
❑ Classes: Representam as entidades do domínio. O organizam
as entidades de um domínio em uma taxonomia. Universais.
❑ Atributos de classe: Propriedades relevantes da classe que
ajudam a descrevê-la.
Elementos de uma ontologia
❑ Instância: Representam uma unidade de objetos específicos de uma
entidade, ou seja, indivíduos de um determinado universal.
❑ Atributos da instância: Essas são propriedades relevantes que
descrevem as instâncias de uma entidade.
❑ Relacionamento: Descreve o tipo de interação entre duas classes,
duas instâncias ou uma classe e uma instância.
❑ Cardinalidade: Uma medida do número de ocorrências de uma
entidade associada a um número de ocorrências em outra.
Elementos de uma ontologia
❑ Axioma: Uma declaração ou proposição representada em um padrão
lógico que é consideradoverdadeiro. Restringem a interpretação e o
uso das classes envolvidas na ontologia.
Exemplo:
E
e
instanceOf
Onde:
• e , E são variáveis para instância e classe
• inst, p , u são funções para instância, particular e universal
• o símbolo ∧ significa conjunção
• o símbolo ∀ é o quantificador universal
• o símbolo → é uma implicação
Representação gráfica
Sujeito ObjetoPredicado
Conclusão
✔ Entendemos o que são ontologias e conhecemos os
tipos de ontologias.
✔ Conhecemos os principais elementos que fazem
parte de uma ontologia.
Próxima aula
❑ Entender o que são organizações orientadas por
dados.
Fundamentos em Análise de Dados
Aula 1.5. Organizações orientadas por dados
Profª. Fernanda Farinelli
Nesta aula
❑ Entender o que são organizações orientadas por dados.
❑ Mercado organizado para negociação de ações de sociedades de
capital aberto (públicas ou privadas) e outros valores mobiliários.
Preços das ações indicam o valor de mercado das empresas.
O valor de mercado sobre influência de diversas fontes:
• Taxa Selic, e outras taxas.
• Dados governamentais.
• Resultados financeiros da empresa.
• Mercado externo.
• Questões políticas e legislação.
Bolsa de Valores
Orientação a dados (data-driven)
A forma como uma atividade ou processo acontece depende dos
dados que servem de entrada para que ela ocorra.
❑ United Parcel Service (UPS) 🡪 empresa de logística,
distribuindo diariamente mais de 19 milhões de encomendas
em mais de 100 países.
❑ A empresa economiza milhões de litros de combustível
anualmente, e reduziu a emissão de gases poluentes apenas
orientando seus motoristas a sempre virar a direita.
Motoristas da UPS raramente viram à
esquerda
Data-driven organization
Organização que se baseia nas análises de dados para apoiar e balizar a
gestão e suas decisões, visando atingir os objetivos estratégicos do
negócio.
“Ser orientado a dados é, antes de mais nada, ter como meta nas decisões
corporativas a objetividade e estar sempre baseado em evidências” (Kirk
Borne).
Organização orientada a dados
Os dados norteiam, definem,
permitem análise e possibilitam
previsões.
Experiência anterior, vivência de
negócio, tendências e padrões
observados.
Incrementam as
decisões que uma
organização pode
tomar, agregando
maior valor ao
negócio.
Organização orientada a dados
❑ Organizações orientada a dados desenvolvem uma cultura orientada por
dados (data-driven culture).
Utilizam os dados gerados pela organização em todos os seus processos,
como insumo para suas decisões.
Compartilham conhecimento.
Cultura orientada a dados
Dados Processos
Pessoas Ativos
Cultura
orientada por
dados
Cultura orientada a dados
• Pessoas:
• É preciso ter pessoas qualificadas para ajudar nesta transformação. Algumas profissões
em alta para este tipo de tarefa como, por exemplo: o “cientistas de dados” (data
Scientist) e o diretor de dados (CDO- Chief Data Officer).
• Processos:
• Empresas Data-driven possuem seus dados armazenados em repositório comum,
nunca isolados. Como, por exemplo, o armazenamento em nuvem, permitindo que um
mesmo relatório possa ser acessado de forma on-line por departamentos diferentes. O
objetivo desta distribuição de acesso aos dados é trazer a inteligência coletiva para o
negócio. Os insights podem vir de qualquer lugar.
Oportunidade de abertura de novos negócios.
Redução de custos e melhoria na produtividade
Melhor relacionamento com o cliente e funcionários.
Otimização de processos, receitas e despesas.
Melhor definição de preços e produtos/serviços oferecidos.
Envolvimento da equipe na estratégia organizacional.
Assertividade, agilidade e facilidade no processo de tomada de
decisão, respaldados pelo monitoramento de indicadores.
Vantagens da cultura orientada a dados
DMBok 2.0
Framework de apoio
❑ DMBoK – Data Management Body of Knowledge
DAMA – Data Management Association
DMBok 1.0
“In God we trust. All others must bring data” (Edwards Deming)
“Em Deus nós confiamos. Todos os outros devem apresentar dados.”
Tomada de decisões orientada por dados
Conclusão
✔ Conhecemos o que é uma organização orientada
por dados e o que e a tomada de decisão baseada
em dados.
✔ Entendemos as vantagens de adotar uma cultura
orientada por dados.
Próxima aula
❑ Metodologias de mineração de dados.
Fundamentos em Análise de Dados
Aula 1.6. Metodologias de mineração de dados
Profª. Fernanda Farinelli
Nesta aula
❑ Conhecer as principais metodologias de mineração
de dados.
Mineração de Dados
ConhecimentoDados
Transformar
❑ KDD - Knowledge Discovery in Databases
❑ SEMMA (by SAS) - Sample, Explore, Modify, Model and Assess
❑ CRISP-DM - Cross Industry Standard Process for Data Mining
Metodologias de Data Mining
Dados Conhecimento
KDD - Knowledge Discovery in Databases
Etapas gerais do processo KDD
Preparação Análise Interpretação
Especialistas
do domínio
Especialista
em KDD
Interação
Iteração
Descoberta de conhecimento em bases de dados
KDD envolve
Problema
Especialistas
do domínio
Conjunto
de dados
Objetivos da
aplicação
Recursos
Especialista
em KDD
Plataforma computacional
Algoritmos
e técnicas
Resultados
Modelos KDD
Modelos
Visualização
KDD - Knowledge Discovery in Databases
Dados
Transformados
Dados alvo
Dados
pré-processados
Padrões
Conhecimento
Sele
ção
Pré-
proc
essa
men
to
Tran
sform
açã
o
Mine
raçã
o de

dado
s
Inter
preta
ção
e Av
aliaç
ão
Usuários
Visualiza
ção
Usuários
Dados das
aplicações
KDD - Knowledge Discovery in Databases
Dados
Transformados
Dados
alvo
Dados
pré-processados
Padrões
Conhecimento
Sele
ção
Pré-p
roce
ssam
ento
Tran
sform
açã
o
Mine
raçã
o de

dado
s
Inter
preta
ção
e Av
aliaç
ão
Dados das
aplicações
Prep
araçã
o
Descoberta de conhecimento em bases de dados
❑ KDD - Knowledge Discovery in Databases
❑ “É um processo, de várias etapas, não trivial, interativo e iterativo, para
identificação de padrões compreensíveis, válidos, novos e
potencialmente úteis a partir de grandes conjuntos de dados.”
• (FAYYAD et al., 1996)
Etapas do KDD
❑ As etapas do KDD são:
• Seleção: considerada como a primeira etapa, nesta instância é criado um
conjunto ou subconjunto de dados que será o foco da descoberta de novos
conhecimentos. Ele deve conter as informações necessárias para que os
algoritmos de mineração possam alcançar o objetivo do pesquisador.
• Pré-processamento: momento em que os dados passam por uma limpeza ou
eliminação de ruídos, e que inclui operações básicas para remoção de
inconsistências.
• Transformação: etapa da formatação necessária para agregar valor semântico
às informações ou características úteis para representar os dados da base.
• Mineração de dados: aplicação das técnicas de MD usando algoritmos para
alcançar os objetos definidos na etapa da seleção.
• Interpretação e avaliação: compreensão dos padrões obtidos, incluindo a
visualização dos modelos que resumem a estrutura e as informações presentes
nos dados juntamente com as medidas técnicas que avaliam.
Metodologia SEMMA
Etapas SEMMA
❑ Sample: seleção dos dados que se pretende minerar, obtendo uma amostra representativa do problema ou
caso o conjunto de dados inicial seja menor que a totalidade dos dados. A especificação recomenda a divisão
em conjunto de teste, validação e treino.
❑ Explore: exploração dos dados para encontrar padrões ou anomalias que possam mostrar um claro
entendimento do conjunto de dados. Caso não seja possível encontrar padrões, então aplicam-se algoritmos
de mineração para tentar encontrar uma relação.
❑ Modify: criação, transformação e seleção de características para modelar o conjunto de dados, agrupando e
eliminando características. Pode-se, nesta fase, encontrar outliers e fazer a sua remoção, caso seja
interessante. O processo de mineração é iterativo. Esta fase pode ser repetida sempre que osresultados não
forem satisfatórios.
❑ Model: criação de um modelo utilizando um ou mais algoritmos de mineração de dados, incluindo ajustes nos
parâmetros de configuração dos algoritmos.
❑ Assess: verificação dos resultados obtidos e teste do modelo para visualização dos resultados e das métricas
de teste. Se não for satisfatório, deve-se retornar ao passo Modify.
Metodologia CRISP-DM
Cross Industry Standard Process
for Data Mining
CRISP-DM
❑ As fases desse processo são:
1. Entendimento do negócio (business understanding): visa o entendimento
dos objetivos e requisitos do projeto, do ponto de vista do negócio. Baseado no
conhecimento adquirido, o problema de mineração de dados é definido e um
plano preliminar é projetado para alcançar os objetivos.
2. Entendimento dos dados (data understanding): inicia com uma coleção de
dados e prossegue com atividades que visam buscar familiaridade, identificar
problemas de qualidade, descobrir os primeiros discernimentos nos dados ou
detectar subconjuntos interessantes para formar hipóteses da informação
escondida.
3. Preparação dos dados (data preparation): cobre todas as atividades de
construção do dataset final. As tarefas de preparação de dados são,
provavelmente, desempenhadas várias vezes e sem qualquer ordem prescrita.
Essas tarefas incluem a seleção de tabelas, registros e atributos, bem como a
transformação e limpeza dos dados para as ferramentas de modelagem.
CRISP-DM
4. Modelagem (modelling): várias técnicas de modelagem são selecionadas e aplicadas, e
seus parâmetros são ajustados para valores ótimos. Geralmente existem várias técnicas
para o mesmo tipo de problema de mineração de dados. Algumas delas têm requisitos
específicos na formação de dados. Portanto, retornar à fase de preparação de dados é
frequentemente necessário.
5. Avaliação (evaluation): o modelo (ou modelos), construído na fase anterior, é avaliado e
os passos executados na sua construção são revistos, para se certificar que o modelo
representa os objetivos do negócio. Seu principal objetivo é determinar se existe alguma
questão de negócio importante que não foi suficientemente considerada. Nesta fase, uma
decisão sobre o uso dos resultados de mineração de dados deverá ser obtida.
6. Implementação do modelo (deployment): após a construção e avaliação do modelo (ou
modelos), ele pode ser utilizado de duas formas: em uma, o analista pode recomendar
ações a serem tomadas baseando-se, simplesmente, na visão do modelo e de seus
resultados; na outra, o modelo pode ser aplicado aos diferentes conjuntos de dados.
Conclusão
✔ Conhecemos algumas metodologias de referência para
Mineração de Dados.
• KDD - Knowledge Discovery in Databases.
• SEMMA (by SAS) - Sample, Explore, Modify, Model and Assess.
• CRISP-DM - Cross Industry Standard Process for Data Mining.
Próxima aula
❑ Conhecer a cadeia de valor do Big Data.
Fundamentos em Análise de Dados
Aula 1.7. Cadeia de valor do Big Data
Profª. Fernanda Farinelli
Nesta aula
❑ Entender as etapas básicas existentes no pipeline
de Big Data.
❑ KDD - Knowledge Discovery in Databases
❑ SEMMA (by SAS) - Sample, Explore, Modify, Model and Assess
❑ CRISP-DM - Cross Industry Standard Process for Data Mining
Metodologias de Data Mining
Cadeia de Valor do Big Data
Curry E. (2016) The Big Data Value Chain: Definitions, Concepts, and Theoretical Approaches. In: Cavanillas
J., Curry E., Wahlster W. (eds) New Horizons for a Data-Driven Economy. Springer, Cham
Aquisição Análise Curadoria Armazenamento Uso
Coleta de dados
Modelagem de dados (design)
Armazenamento de dados
Pré-processamento
Integração de dados
Análise de dados (processamento)
Visualização de dados
Coleta de dados
Fontes de dados Tipos de dados
API’s Crawler
Scraper
SQL Aplicações
Data
ingestion
Data
acquisition
Data
extraction
Data
collection
Criar um modelo que explique as características
de funcionamento e comportamento dos dados
em um determinado sistema ou aplicação.
O modelo de dados visa facilitar o entendimento
sobre os dados e o projeto de dados, ao
representarem suas características principais.
Modelagem de dados
Armazenamento de dados
Sistemas de
arquivos
distribuídos
SGBDs
(SQL, NoSQL,
NewSQL)
Persistência
poliglota
Data Warehouse,
Data Lake
Distribuição,
escalabilidade,
armazenamento
na nuvem
Preparação de dados
Limpeza
Enriquecimento
Integração
Transformação
Combinação
Padronização e
normalização
Visualização de dados
Representação gráfica de informações e dados.
Forma simplificada e direta de ver e entender exceções, tendências e padrões
nos dados.
Elementos visuais: diagramas, gráficos e mapas.
Dashhboard
Conclusão
✔ Conhecemos a cadeia de valor do big data.
Próxima aula
❑ Conhecer tecnologias envolvidas na análise de
dados.
Fundamentos em Análise de Dados
Capítulo 2. Tecnologias aplicadas à análise de dados
Profª. Fernanda Farinelli
Fundamentos em Análise de Dados
Aula 2.1. Fundamentos de Bancos de Dados
Profª. Fernanda Farinelli
Nesta aula
❑ Entender o que são sistemas gerenciadores de
bancos de dados.
Usuários
Software e hardware
Banco de dados
SGBD
Banco de dados
Sistemas de banco
de dados
Sistema
Gerenciadores de
Banco de Dados
Conjunto de dados armazenados (persistidos) e inter-relacionados.
Promove a abstração de dados e a independência dos dados em
relação às aplicações, à estratégia de acesso e à forma de
armazenamento.
Sistemas utilizados para gerir os bancos de dados: manter bases de
dados e dados; garantir a segurança de acesso aos dados,
integridade de dados, controle de concorrência e tolerância a falhas.
Sistemas gerenciadores de banco de dados
Bancos de dados relacionais
Bancos de dados NoSQL (Not Only SQL)
Bancos de dados NewSQL
SGBDs Relacionais
Chave-valor
(key-value)
Colunar
Orientado a
documentos
Orientados
por grafos
Categorias de Bancos de Dados NoSQL
Se
u
es
qu
em
a
nã
o
é
or
ie
nt
ad
os
a

ta
be
la
s
SGBDs NoSQL
❑ Chave-valor
❑ Orientado a documentos
❑ Colunar
❑ Orientado a grafos
SGBDs NewSQL
Conclusão
✔ Entendemos o que são bancos de dados e sistemas
gerenciadores de bancos de dados.
✔ Conhecemos os principais paradigmas tecnológicos dos
sistemas gerenciadores de bancos de dados.
Próxima aula
❑ Entender o que são APIs de coleta de dados.
Fundamentos em Análise de Dados
Aula 2.2.1. APIs de coleta de dados (Parte 1)
Profª. Fernanda Farinelli
Nesta aula
❑ Entender o que são APIs e para que servem as API’s de coleta de
dados.
❑ Conhecer exemplos de API’s de coleta de dados.
O que são API’s?
❑ API – Application Programming Interface.
Interface de Programação de Aplicações.
❑ Pacote que consiste em um conjunto de definições e protocolos usado no
desenvolvimento e na integração de software de aplicações.
Requisição/Request
Resposta/Reply
Requisição/Request
Resposta/Reply
API
Sistema/App
Sistema/Serviço
❑ Twitter - https://developer.twitter.com/en
❑ LinkedIn - https://www.linkedin.com/developers/apps
❑ Facebook - https://developers.facebook.com/docs/graph-api?locale=pt_BR
❑ Instagram - https://www.instagram.com/developer/register/
Necessário ter uma conta para criar aplicativos e chaves de acesso.
Principais API’s para redes sociais
https://developer.twitter.com/en
https://www.linkedin.com/developers/apps
https://developers.facebook.com/docs/graph-api?locale=pt_BR
https://www.instagram.com/developer/register/
API’s Governo
❑ API de serviços do Portal da Transparência do Governo Federal:
http://api.portaldatransparencia.gov.br/swagger-ui.html
Cadastro de um e-mail:
❑ http://portaldatransparencia.gov.br/api-de-dados/cadastrar-email
❑ Conecta - APIs de Governo para Governo
https://www.gov.br/conecta/catalogo/
❑ APIs IBGE
https://servicodados.ibge.gov.br/api/docs/
http://api.portaldatransparencia.gov.br/swagger-ui.html
http://portaldatransparencia.gov.br/api-de-dados/cadastrar-emailhttps://www.gov.br/conecta/catalogo/
https://servicodados.ibge.gov.br/api/docs/
❑ The New York Times: https://developer.nytimes.com/
Exemplos de uso:
▪ https://code.tutsplus.com/pt/tutorials/using-the-new-york-times-api-to-scrape-metad
ata--cms-27894
▪
https://towardsdatascience.com/collecting-data-from-the-new-york-times-over-any-
period-of-time-3e365504004
❑ Google Data API - https://developers.google.com/gdata/docs/directory
❑ API do Portal Pubmed - https://www.ncbi.nlm.nih.gov/home/develop/api/
API’s diversas
https://developer.nytimes.com/
https://code.tutsplus.com/pt/tutorials/using-the-new-york-times-api-to-scrape-metadata--cms-27894
https://code.tutsplus.com/pt/tutorials/using-the-new-york-times-api-to-scrape-metadata--cms-27894
https://towardsdatascience.com/collecting-data-from-the-new-york-times-over-any-period-of-time-3e365504004
https://towardsdatascience.com/collecting-data-from-the-new-york-times-over-any-period-of-time-3e365504004
https://developers.google.com/gdata/docs/directory
https://www.ncbi.nlm.nih.gov/home/develop/api/
Conclusão
✔ Entendemos o que são APIs e conhecemos
alguns exemplos.
Próxima aula
❑ Conhecer a API de acesso e coleta de dados do
Twitter.
Fundamentos em Análise de Dados
Aula 2.2.2. APIs de coleta de dados (Parte 2)
Profª. Fernanda Farinelli
Nesta aula
❑ Vamos conhecer a API do Twitter e aprender a como obter o
acesso para utilizá-la.
❑Necessário ter uma conta no Twitter.
https://apps.twitter.com/
❑Cadastrar como desenvolvedor (estudante).
https://developer.twitter.com/en
❑Dashboard Twitter Dev
https://developer.twitter.com/en/portal/dashboard
Criar uma aplicação e obter as chaves de acesso.
Exemplo: API do Twitter
https://apps.twitter.com/
https://developer.twitter.com/en
https://developer.twitter.com/en/portal/dashboard
Twitter API: Cadastro
https://developer.twitter.com/en
Leitura recomendada: Como criar Apps e obter os tokens necessários para coletar dados do Twitter, Instagram, Linkedin e Facebook
Disponível em:
https://medium.com/@marlessonsantana/como-criar-apps-e-obter-os-tokens-necess%C3%A1rios-para-coletar-dados-do-twitter-instagra
m-linkedin-e-8f36602ea92a - Acesso em: 12/04/2020
https://developer.twitter.com/en
https://medium.com/@marlessonsantana/como-criar-apps-e-obter-os-tokens-necess%C3%A1rios-para-coletar-dados-do-twitter-instagram-linkedin-e-8f36602ea92a
https://medium.com/@marlessonsantana/como-criar-apps-e-obter-os-tokens-necess%C3%A1rios-para-coletar-dados-do-twitter-instagram-linkedin-e-8f36602ea92a
Twitter API: Dashboard Twitter Dev
https://developer.twitter.com/en/portal/dashboard
https://developer.twitter.com/en/portal/dashboard
https://developer.twitter.com/en/portal/dashboard
https://developer.twitter.com/en/portal/dashboard
Twitter API: Criar app
Twitter API: Criar app
Twitter API: Criar app
Twitter API: Criar app
C
ha
ve
s
de

ac
es
so
(S
al
ve
e
st
es

va
lo
re
s)
Twitter API: Criar app
Twitter API: Dados de acesso
Se não salvou as
chaves, pode gerar
novamente.
Gere os tokens
de acesso
Conclusão
✔ Aprendemos como realizar o cadastro para utilizar
a API do Twitter.
✔ Aprendemos a gerar a aplicação do Twitter para
usarmos na nossa coleta de dados.
Próxima aula
❑ Apresentar algumas das tecnologias aplicadas na análise
de dados.
Fundamentos em Análise de Dados
Aula 2.3. Visão geral de ferramentas para análise de dados
Profª. Fernanda Farinelli
Nesta aula
❑ Apresentar algumas das tecnologias aplicadas na análise de
dados.
MS Excel
Open Refine
❑ Ferramenta que permite o tratamento e a manipulação de dados
desorganizados ou com inconsistências.
❑ Permite executar tarefas como limpeza, transformação e formatação de
dados para torná-los mais adequados para análise e exploração.
❑ Permite recuperação de dados em serviços da Web.
❑ Ele suporta arquivos SV, CSV, Microsoft Excel (.xls e .xlsx), JSON, XML,
RDF, XML e documentos do Google Data, e oferece como opção para
exportação os formatos TSV, CSV, Microsoft Excel e HTML.
❑ Disponível em: http://openrefine.org/
http://openrefine.org/
Orange
❑ Ferramenta de análise e visualização de dados de código aberto desenvolvida
na Universidade de Ljubljana, na Eslovênia.
❑ Funcionalidades de Aprendizado de Máquina e Visualização de Dados, além
da construção de Fluxos de trabalho (Pipelines, workflows).
❑ Permite realizar análise exploratória de dados sem necessidade de
codificação, e execução de processamento de linguagem natural, mineração
de texto, mineração de dados e outros.
❑ Disponível em: https://orange.biolab.si/
❑ Exemplo: https://minerandodados.com.br/agrupamento-de-dados-orange/
Acesso em 01/04/2021
https://orange.biolab.si/
https://minerandodados.com.br/agrupamento-de-dados-orange/
❑ Ferramenta de análise e visualização de dados que permite publicar
dados via dashboards e data storytelling.
❑ Permite limpeza e preparação de dados sem necessidade de
codificação.
❑ Suporta a coleta de dados em Planilhas Google, Microsoft Excel,
arquivos CSV, arquivos JSON e bancos de dados.
❑ Disponível em: https://www.tableau.com/pt-br/products/desktop
❑ Exemplo:
https://help.tableau.com/current/guides/get-started-tutorial/pt-br/get-starte
d-tutorial-home.htm
Tableau
https://www.tableau.com/pt-br/products/desktop
https://help.tableau.com/current/guides/get-started-tutorial/pt-br/get-started-tutorial-home.htm
https://help.tableau.com/current/guides/get-started-tutorial/pt-br/get-started-tutorial-home.htm
Ferramenta WEKA
❑ Waikato Environment for Knowledge Analysis (WEKA)
❑ Desenvolvida pela Universidade de Waikato, NZ.
❑ Usa a GNU General Public License (GPL).
❑ Ferramenta para mineração de dados sem a necessidade de
codificação e também trabalha com o conceito de workflow.
❑ Coleção de algoritmos de aprendizado de máquina de última geração
e ferramentas de processamento de dados.
❑ Muito usada nos meios acadêmicos.
❑ Ferramenta projetada para coleta, manipulação, análise e modelagem de
pipelines de dados por meio de programação visual.
❑ Permite análises preditivas com técnicas de aprendizado de máquina.
❑ Oferece vários exemplos prontos para uso que podem ser facilmente
parametrizados.
❑ Suporta a combinação de dados entre arquivos de texto simples, bancos
de dados, documentos, imagens, redes e dados baseados no Hadoop
em um único fluxo de trabalho visual.
❑ Disponível em: https://www.knime.com/knime-analytics-platform
KNIME Analytics Platform
https://www.knime.com/knime-analytics-platform
Linguagem
❑ Foi criada em 1995 por estatísticos a partir da linguagem S da Bell Labs (Lucent
Technologies).
❑ É uma linguagem simples que permite escrever programas para realizar tarefas
computacionalmente complexas derivadas da estatística e análises gráfica .
Fornece uma grande variedade de estatísticas (modelagem linear e não-linear, testes
estatísticos clássicos, análise de séries temporais, classificação, agrupamento,…) e
técnicas gráficas.
❑ Vem se especializando na manipulação, análise e visualização de dados.
❑ É de distribuição gratuita disponível na página do projeto: R-Project
http://www.r-project.org
http://www.r-project.org/
Outras ferramentas
❑ RapidMiner
❑ DataMelt
❑ Power BI
❑ Google Analytics
❑ Watson Analytics (IBM)
❑ QlikView
❑ SAS
❑ Matlab
❑ Minitab e SPSS
Conclusão
✔ Conhecemos algumas ferramentas que podem ser
usadas para fazer análise de dados e dashboards.
Próxima aula
❑ Conhecer a Plataforma Knime Analytics.
Análise Exploratória de Dados
❑ Aula 1.7.1 - Plataforma Knime Analytics (Parte 1) 16:03
❑ Aula 1.7.2 - Plataforma Knime Analytics (Parte 2) 22:16
❑ Aula 1.7.3 - Plataforma Knime Analytics (Parte 3) 18:19
❑ Aula 1.7.4 - Plataforma Knime Analytics (Parte 4) 6:29
Fundamentos em Análise de Dados
Aula 2.4.1. Knime Analytics Platform (Parte 1)
Profª. Fernanda Farinelli
Nesta aula
❑ Conhecer a plataforma KNIME Analytics.
❑ Aprender comoinstalar o Knime.
KNIME Analytics Platform
❑ Plataforma de código aberto para análise, relatórios e integração de dados.
❑ Integra vários componentes para aprendizagem de máquinas e mineração
de dados através do conceito de pipelining de dados modular.
❑ Sua interface gráfica permite a montagem de pipelines de processamento
de dados (ETL) para análise e visualização de dados.
❑ Oferece vários exemplos prontos para uso que podem ser facilmente
parametrizados.
❑ Suporta diversos formatos de dados e coleta dados de diferentes fontes de
dados.
❑ O conceito de pipelining de dados modular:
KNIME Analytics Platform
❑ Link para download:
https://www.knime.com/downloads
❑ Vídeo com tutorial de como instalar (vídeo em Inglês):
https://www.youtube.com/watch?v=yeHblDxakLk
❑ Tutorial de instalação (em inglês):
❑ https://docs.knime.com/latest/analytics_platform_installation_guide/index.html
Knime: Download e Instalação
https://www.knime.com/downloads
https://www.youtube.com/watch?v=yeHblDxakLk
https://docs.knime.com/latest/analytics_platform_installation_guide/index.html
Demonstração prática
KNIME Analytics Platform
✔ Conhecemos a Plataforme Knime Analytics em detalhes.
✔ Aprendemos como instalar a Plataforme Knime Analytics no
sistema operacional Windows.
Conclusão
Próxima aula
❑ Aprender a instalar as extensões e integrações na Plataforma
Knime Analytics.
❑ Conhecer algumas funcionalidades existentes na plataforma.
Fundamentos em Análise de Dados
Aula 2.4.2. Knime Analytics Platform (Parte 2)
Profª. Fernanda Farinelli
Nesta aula
❑ Aprender a instalar as extensões e integrações na Plataforma
Knime Analytics.
❑ Conhecer algumas funcionalidades existentes na plataforma.
❑ As extensões e integração são funcionalidades criadas que podem ser
acopladas ao Knime para incorporar novas funcionalidades.
Extensões open source.
Extensões da comunidade.
Extensões de parceiros.
❑ Como realizar a instalação das extensões e integração?
Knime: Extensões e Integrações
Demonstração prática
✔ Aprendemos a instalar as extensões e integração na
Plataforma Knime Analytics.
✔ Conhecemos os exemplos disponíveis na plataforma.
Conclusão
Próxima aula
❑ Criar nosso primeiro workflow utilizando a Plataforma Knime
Analytics.
Fundamentos em Análise de Dados
Aula 2.4.3. Knime Analytics Platform (Parte 3)
Profª. Fernanda Farinelli
❑ Criar nosso primeiro workflow utilizando a Plataforma Knime
Analytics.
Nesta aula
Demonstração prática
✔ Criamos um pipeline simples para análise de dados na
Plataforma Knime Analytics.
Conclusão
Próxima aula
❑ Criar um workflow na Plataforma Knime Analytics para coletar
dados da rede social Twitter por meio de sua API.
Fundamentos em Análise de Dados
Aula 2.4.4. Knime Analytics Platform (Parte 4)
Profª. Fernanda Farinelli
❑ Criar um workflow na Plataforma Knime Analytics para coletar
dados da rede social Twitter por meio de sua API.
Nesta aula
Demonstração prática
✔ Criamos um workflow simples para coletar dados da rede
social Twitter por meio de sua API utilizando a Plataforma
Knime Analytics.
Conclusão
Próxima aula
❑ Conhecer o ambiente de trabalho da linguagem R.
Fundamentos em Análise de Dados
Aula 2.5.1. Linguagem R (Parte 1)
Profª. Fernanda Farinelli
❑ Conhecer o ambiente de trabalho da linguagem R.
Nesta aula
Linguagem
❑ Utilizada para coleta, manipulação, análise e visualização de dados.
❑ Possui pacotes que lidam com técnicas estatísticas e gráficos. Vem se
especializando na manipulação, análise e visualização de dados.
❑ Página do projeto R-Project: http://www.r-project.org
❑ O R possui código aberto e foi criado nos anos 90.
❑ É utilizada por cientistas, estatísticos, analistas e cientistas de dados
como um meio conveniente para a análise exploratória de dados.
http://www.r-project.org/
Linguagem
❑ Podemos utilizar o R de várias formas:
RStudio é um software com uma interface amigável para desenvolvimento
integrado com a linguagem R.
Google Colaboratory, conhecido como Google Colab ou Colab, serviço em
nuvem que pode ser usados para ler, desenvolver e executar programas nas
linguagens R e Python.
Framework Anaconda.
❑ Uso local:
Para utilizar o R no seu desktop, faça o download da linguagem R:
▪ Acesse: https://cran.r-project.org/
Após instalação da linguagem R, faça download do instalador do
RStudio:
▪ Acesse: https://www.rstudio.com/products/rstudio/download/
❑ Uso em nuvem:
Acesse o Google Colab: https://colab.to/r
Download e Instalação
https://cran.r-project.org/
https://www.rstudio.com/products/rstudio/download/
https://colab.to/r
Interface de trabalho do R Studio
Apresenta as
variáveis e seus
valores durante
a execução de
um código
Área para
escrita de
código
Console com
a saída dos
comandos
executados
Gráficos
plotados
Pacotes
instalados
Executa o(s)
comando(s)
selecionado(s
Google Colab
https://colab.research.google.com/#create=true&language=r
ou
https://colab.to/r
https://colab.research.google.com/#create=true&language=r
https://colab.to/r
Conclusão
✔ Conhecemos as possibilidades de ambiente de trabalho da
Linguagem R.
Próxima aula
❑ Coleta de dados no Twitter utilizando a API e a Linguagem R.
Fundamentos em Análise de Dados
Aula 2.5.2. Linguagem R (Parte 2)
Profª. Fernanda Farinelli
❑ Conhecer um exemplo de como coletar dados no Twitter
utilizando a API e a Linguagem R.
Nesta aula
❑ As informações que serão necessárias para a autorização na utilização da API do
Twitter são:
Consumer Key (API Key)
Consumer Secret (API Secret)
Access Token
Access Token Secret
❑ Estas informações não devem ser disponibilizadas a terceiros.
❑ A versão grátis da API impõe limitações, como, por exemplo, o número de tweets
que pode ser recuperados por chamada e dentro de 15 minutos, só buscamos
tweets por palavra chave dos últimos 7 dias.
Credenciais da API do Twitter
❑ Existem 2 bibliotecas no R para isso:
Rtweet: https://cran.r-project.org/web/packages/rtweet/index.html
twitteR: https://cran.r-project.org/web/packages/twitteR/index.html
• Está sendo descontinuado
❑ Instalar os pacotes no R Studio usando os comandos abaixo:
install.packages("rtweet")
install.packages("twitteR")
Coleta de dados no Twitter com R
https://cran.r-project.org/web/packages/rtweet/index.html
https://cran.r-project.org/web/packages/twitteR/index.html
Coleta de Dados no Twitter por usuário
Coleta de Dados no Twitter por usuário
Coleta de Dados no Twitter por hashtags
Coleta de Dados no Twitter com R (por
hashtags)
❑ Para mais detalhes, sugiro a leitura da seguinte série de posts:
Conectando o R com o Twitter — Parte 1 — Instalando
• https://medium.com/meumesmo/conectando-o-r-com-o-twitter-parte-1-instalando-788610
a0f8aa
Conectando o R com o Twitter — Parte 2— Funcionalidades do Pacote rtweet
• https://medium.com/meumesmo/conectando-o-r-com-o-twitter-parte-2-funcionalidades-do
-pacote-5b6d8fe500ac
Conectando o R com o Twitter — Parte 3 — Funcionalidades do pacote rtweet
• https://medium.com/meumesmo/conectando-o-r-com-o-twitter-parte-3-funcionalidades-do
-pacote-rtweet-7d4ef7aafbe
Conectando o R com o Twitter — Parte Final
• https://medium.com/meumesmo/conectando-o-r-com-o-twitter-parte-final-c2338b6d6e01
API Coleta de Dados – Twitter com R
https://medium.com/meumesmo/conectando-o-r-com-o-twitter-parte-1-instalando-788610a0f8aa
https://medium.com/meumesmo/conectando-o-r-com-o-twitter-parte-1-instalando-788610a0f8aa
https://medium.com/meumesmo/conectando-o-r-com-o-twitter-parte-2-funcionalidades-do-pacote-5b6d8fe500ac
https://medium.com/meumesmo/conectando-o-r-com-o-twitter-parte-2-funcionalidades-do-pacote-5b6d8fe500ac
https://medium.com/meumesmo/conectando-o-r-com-o-twitter-parte-3-funcionalidades-do-pacote-rtweet-7d4ef7aafbe
https://medium.com/meumesmo/conectando-o-r-com-o-twitter-parte-3-funcionalidades-do-pacote-rtweet-7d4ef7aafbehttps://medium.com/meumesmo/conectando-o-r-com-o-twitter-parte-final-c2338b6d6e01
Demonstração prática
✔ Aprendemos como coletar dados no Twitter utilizando a API
e a Linguagem R.
Conclusão
Próxima aula
❑ Conhecer a Ferramenta WEKA.
Fundamentos em Análise de Dados
Aula 2.6.1. Ferramenta Weka (Parte 1)
Profª. Fernanda Farinelli
Nesta aula
❑ Conhecer a ferramenta Weka que é usada para análise de
dados.
Ferramenta WEKA
❑ Waikato Environment for Knowledge Analysis (WEKA)
❑ Coleção de algoritmos aplicáveis à mineração e processamento de
dados.
Não é necessário codificação;
Possui uma funcionalidade para construção de workflows.
❑ Disponível em: http://www.cs.waikato.ac.nz/ml/weka/
http://www.cs.waikato.ac.nz/ml/weka/
❑ Parametrização dos algoritmos por atributos e filtros.
❑ Permite consultar dados de diversas fontes de dados.
❑ Possui um conjunto de gráficos para visualização dos resultados.
❑ Algoritmos para preparação e transformação de dados.
49 opções de pré-processamento de dados.
❑ Algoritmos de mineração:
76 algoritmos de classificação / regressão;
8 algoritmos de clustering;
3 algoritmos para encontrar regras de associação;
15 avaliadores de atributo / subconjunto;
10 algoritmos de pesquisa para seleção de recursos.
Funcionalidades WEKA
Fonte de dados para o WEKA
❑ Arquivo local (formatos .arff, csv).
❑ Arquivo em URL (formatos .arff, csv).
Viabiliza acesso direto aos Dados Abertos.
❑ Tabelas de Banco de Dados via JDBC.
Exemplo de arquivo .arff
https://www.cs.waikato.ac.nz/ml/weka/
https://www.cs.waikato.ac.nz/ml/weka/
Instalação do Weka
❑ Explorer: Trabalha de forma interativa, onde você pode explorar as funções da ferramenta.
❑ Experimenter: Automatização de processos.
❑ KnowledgeFlow: Criar workflows por uma interface baseada em fluxo de dados.
❑ Workbench: Console integrada, combina todas as outras aplicações.
❑ Simple CLI: é uma interface de linha de comando que permite criar scripts shell para usar
a API do Weka.
Ferramenta WEKA
✔ Conhecer a ferramenta Weka e suas principais
características.
✔ Aprendemos a instalar a ferramenta.
Conclusão
Próxima aula
❑ Realizar uma prática na Ferramenta WEKA.
Fundamentos em Análise de Dados
Aula 2.6.2. Ferramenta Weka (Parte 2)
Profª. Fernanda Farinelli
Nesta aula
❑ Executar uma prática utilizando a ferramenta Weka.
Ferramenta WEKA
Ferramenta WEKA – Explorer
Ferramenta WEKA – Explorer
Ferramenta WEKA – Explorer - Classificação
Ferramenta WEKA – KnowledgeFlow
Demonstração prática
✔ Aprendemos como coletar, preparar e analisar dados
usando a ferramenta WEKA.
Conclusão
Próxima aula
❑ Análise Exploratória de Dados.
Fundamentos em Análise de Dados
Capítulo 3. Análise exploratória de dados
Profª. Fernanda Farinelli
Fundamentos em Análise de Dados
Aula 3.1. Fundamentos da Análise exploratória de dados
Profª. Fernanda Farinelli
Nesta aula
❑ Entender o que é a análise exploratória de dados.
O que fazer com os dados coletados?
Como são meus dados?
• maximizar a percepção de um conjunto de dados
• descobrir como é a estrutura dos seus dados
• identificar e extrair variáveis importantes
• detectar padrões
• detectar outliers e anomalias
• resumir a informação contida nos dados
• testar e validar premissas
• apresentar os resultados de modo conveniente e adequado.
Analisar e entender um conjunto de dados visando
Análise Exploratória de Dados
Análise Exploratória de Dados
❑ Conjunto de técnicas aplicadas com o intuito de resumir e organizar os
dados coletados através de tabelas, gráficos ou medidas numéricas, e, a
partir dos dados resumidos, procurando interpretar os dados e identificar
alguma regularidade ou padrão nas observações.
Interesse tanto no comportamento individual das variáveis quanto no
relacionamento entre variáveis.
• População
• Amostra
• Variável
• Tipos de variáveis
• Escalas de mensuração
Conceitos pré-liminares:
Análise Exploratória de Dados
População
• Universo do estudo.
• Conjunto de elementos que
têm em comum determinada
característica.
• Conjunto global sobre o qual
se deseja chegar a
conclusões
Amostra
• Qualquer conjunto de
elementos retirado da
população, não vazio e tenha
um menor número de
elementos que a população.
• Subconjunto finito de uma
população sobre o qual são
feitas observações.
População e amostra
Finita
O número de elementos de um grupo não é muito grande.
Exemplo: Todos os alunos de uma escola
Infinita
O número de elementos nesse caso é muito elevado
Exemplo: População Brasileira
População
Amostra
❑ Por que estudar uma amostra, ao invés de toda a população?
O tamanho de uma população é impossível ou impraticável estudá-la na sua
totalidade.
O custo envolver todos os elementos de uma população pode ser elevado e
inviabilizar o trabalho.
Nem todos elementos da população podem ser analisados.
A técnica de análise empregada pode ser destruir ou corromper a população.
Não-Probabilística
Há uma escolha deliberada dos elementos da amostra.
Os critérios dependem do pesquisador. Pode ser por acessibilidade ou
conveniência; intencional; por cotas.
Probabilística
Seleção é aleatória onde cada elemento da população tem uma
probabilidade conhecida de fazer parte da amostra.
Segue métodos científicos: Aleatória Simples; Sistemática; Estratificada;
por Conglomerados..
Amostragem
Tamanho da Amostra
❑ Sofre influência de:
Nível de confiança: quanto maior o nível de confiança, maior o tamanho da
amostra.
Erro máximo permitido: quanto menor o erro permitido, maior o tamanho da
amostra.
Variabilidade do fenômeno investigado: quanto maior a variabilidade, maior o
tamanho da amostra.
❑ Qualquer característica de interesse associada aos elementos de uma
população.
Variável
Va
riá
ve
l
Quantitativa
Discreta
Contínua
Qualitativa
Nominal
Ordinal
Variável Quantitativa (numéricos)
Discreta
• Apenas valores inteiros.
• Exemplos: número de irmãos, número de passageiros
Contínua
• Qualquer valor no intervalo dos números reais.
• Exemplo: peso, altura, pressão
Variável Qualitativa (categóricos)
Nominal
• As categorias não possuem uma ordem natural.
• Exemplos: nomes, cores, sexo
Ordinal
• As categorias podem ser ordenadas.
• Exemplo: tamanho (pequeno, médio, grande), classe social,
grau de instrução.
Escalas de mensuração
••As variáveis são medidas em classes discretas, mas não é possível estabelecer ordem.
••Qualquer conjunto de números pode ser utilizado para substituir os “valores” originais, desde que se mantenha a relação unívoca entre os
valores originais e os substitutos.
••Exemplo: 1-Masculino, 2-Feminino.
Nominal
••As variáveis são medidas em classes discretas entre as quais é possível definir uma ordem, segundo uma relação descritível mas não
quantificável.
••Qualquer conjunto numérico pode ser utilizado para substituir o conjunto original de valores associados a cada categoria, desde que a ordem
original das categorias seja mantida.
••Exemplo: Tamanho: 1-Pequeno, 2-Médio, 3-Grande. Escolaridade: Sem Formação < Fundamental < Médio < Superior.
Ordinal
••As variáveis assumem valores quantitativos, não possuem zero absoluto, ou seja, não possuem uma medida de ausência de atributo. Os
dados não possuem um ponto inicial zero natural.
••Por exemplo, considere as escalas de mensuração de temperaturas Fahrenheit (F) e Centígrados (C). Uma temperatura de 0ºC não
representa ausência de calor, ou seja, nessa escala não existe um zero absoluto (ou zero natural). Ademais, 0º na escala Centígrado
corresponde a 32º na escala Fahrenheit
Intervalar
••As variáveis assumem valores quantitativos, cuja relação exata entre estes é possível definir porque esta escala possui um zero absoluto.
••Como há um zero que indica nenhuma quantidade, é possível dizer que uma quantidade é maior que outra
••em X vezes (razões significativas).
••Por exemplo, 30 anos de idade é 6 vezesmaior do que 5 anos de idade.
Razão
Conclusão
✔ Entendemos o que é análise exploratória de dados.
✔ Conhecemos alguns conceitos fundamentais para
entender como fazer uma análise exploratória de dados.
Próxima aula
❑ Conhecer as medidas de resumo.
Fundamentos em Análise de Dados
Aula 3.2. Medidas de resumo
Profª. Fernanda Farinelli
Nesta aula
❑ Conhecer as principais medidas de resumos de dados usadas
para melhor conhecer seus dados.
Medidas de tendência
central
Média, Mediana, Moda
Medidas de dispersão
Desvio Padrão, Variância,
Amplitude, intervalo interquartil
Máximo, mínimo,
Quartil, Decil, Percentil
Medidas de posição
Assimetria da distribuição e grau de
achatamento
Medidas de Assimetria e
Curtose
Medidas
Medidas de tendência central
• Calculada pela soma dos dados de uma variável, dividida pelo total de
observações no banco.
• Medida sensível aos valores da amostra, assim é mais adequada quando
os dados são distribuídos de forma uniforme.
Média
aritmética
• É o atributo do meio na distribuição, a qual deve estar ordenada pelos
atributos observados.
• Quando o número elementos de um conjunto é par, a mediana é
encontrada pela média dos dois valores centrais.
Mediana
• É o valor em que a frequência dos seus dados é maior.
• Pode ser bimodal quando apresenta duas modas, ou seja, dois valores são
mais frequentes.
Moda
É um valor no centro, ou meio, do conjunto de dados.
Medidas de Posição
• O maior e o menor valor da observação no
conjunto de dados.
Máximo e
Mínimo
• Dividem um conjunto de dados em quatro
partes iguais, isto é, 25% por parte.Quartis
• Dividem o conjunto de dados em dez partes
iguais, isto é, 10% por parte. Decis
• Dividem o conjunto de dados em 100 partes,
sendo e 1% em cada parte. Percentis
Medidas de dispersão
• Diferença entre o valor máximo e o valor mínimo. (A = Max – Min)Amplitude
• É a diferença entre o terceiro quartil e o primeiro quartil (Q3 - Q1)Intervalo-Interquartil
• Média dos quadrados dos desvios em relação à média aritméticaVariância
• Mede a variabilidade independente do número de observações e com a
mesma unidade de medida da média. É a raiz quadrada da variância.Desvio Padrão
• Mede a variabilidade em relação à média.Coeficiente de Variação
Visam encontrar um valor que resuma a variabilidade de um
conjunto de dados.
❑ As medidas de assimetria possibilitam analisar uma distribuição de
acordo com as relações entre suas medidas de moda, média e mediana,
quando observadas graficamente ou analisando apenas os valores.
Distribuição simétrica 🡪 o valor da moda = média = mediana.
Distribuição assimétrica 🡪 quando essa igualdade não ocorre.
Medidas de Assimetria
Medidas de Assimetria
❑ Curtose é o grau de achatamento da distribuição. Ou o quanto uma curva
de frequência será achatada em relação a uma curva normal de
referência.
Mesocúrtica: achatamento da curva normal, curtose = 0.
Leptocúrtica: curva afilada, com pico elevado, curtose > 0.
Platicúrtica: curva bem achatada, curtose < 0.
Curtose
Conclusão
✔ Conhecemos as principais medidas de resumo de
dados usadas para melhor conhecer seus dados.
✔ Medidas tendência central
✔ Medidas de posição e dispersão
✔ Medidas de assimetria
✔ Grau de achatamento da frequência de
distribuição.
Próxima aula
❑ Entender o que é Análise univariada de dados.
Fundamentos em Análise de Dados
Aula 3.3. Análise univariada
Profª. Fernanda Farinelli
Nesta aula
❑ Entender o que é a análise univariada.
Análise univariada
❑ Analisar cada uma das variáveis individualmente:
Classificar a variável quanto a seu tipo: qualitativa (nominal ou ordinal) ou
quantitativa (discreta ou contínua).
Obter tabelas, gráficos e/ou medidas que resumam a variável.
❑ Conhecer o comportamento dessa variável, analisando a ocorrência de seus
possíveis valores.
A distribuição de frequência é um dos principais recurso para resumir uma única
variável.
Fr
eq
uê
nc
ia
Absoluta
Relativa
Percentual
Distribuição de frequência
Número total de elementos em cada ocorrência de
valor. Contagem simples
Razão entre cada valor da frequência absoluta e o
total de observações. Frequência absoluta de cada
ocorrência, dividida pelo total de ocorrências.
Frequência relativa expressa em porcentagem
variável qualitativa
Dados de exemplo
Classificação das variáveis
❑ "Estado civil" é uma variável qualitativa nominal.
Tabela de frequências (absolutas e/ou relativas):
❑ Um gráfico de barras ou de setores:
❑ A “moda”, i.e. o valor que ocorre com maior frequência
Análise univariada
❑ "Estado civil" é uma variável qualitativa nominal.
Tabela de frequências (absolutas e/ou relativas):
Um gráfico de barras ou de setores:
Análise univariada
A moda é a
categoria de
maior frequência
❑ “Instrução" é uma variável qualitativa ordinal.
Tabela de frequências (absolutas e/ou relativas):
Um gráfico de barras, o de setores não mostra a ordem:
Análise univariada
A moda é a
categoria de
maior frequência
Fr
eq
uê
nc
ia
Absoluta Acumulada
Relativa Acumulada
Percentual
Distribuição de frequência
Variável Quantitativa
Soma das frequências simples de uma classe
com a frequência simples da classe anterior
Frequência acumulada da classe dividida pelo
total de observações
❑ “Filhos" é uma variável quantitativa discreta.
Tabela de frequências (absolutas e/ou relativas):
Um gráfico tipo o de barras, mas com linhas:
Análise univariada
•
Análise univariada
•
Análise univariada
Menor ou igual
ao valor
mínimo
Maior ou igual
ao valor
máximo
❑ “Salário" é uma variável quantitativa contínua.
Tabela de frequências (absolutas e/ou relativas):
Análise univariada
❑ “Salário" é uma variável quantitativa contínua.
Gráficos para variáveis contínuas: o de dispersão e o histograma.
Análise univariada
Conclusão
✔ Entendemos o que é a análise univariada e
aprendemos como fazer.
Próxima aula
❑ Realizar uma análise univariada utilizando a
linguagem R.
Fundamentos em Análise de Dados
Aula 3.4. Análise univariada com R
Profª. Fernanda Farinelli
Nesta aula
❑ Utilizar a linguagem R para realizar uma análise univariada.
Demonstração prática
Conclusão
✔ Aprendemos como realizar a análise univariada
utilizando a linguagem R.
Próxima aula
❑ Entender o que é Análise bivariada de dados.
Fundamentos em Análise de Dados
Aula 3.5. Análise bivariada
Profª. Fernanda Farinelli
Nesta aula
❑ Entender o que é a análise bivariada.
Análise bivariada
❑ Permite observar como duas variáveis se comportam na presença uma da outra.
❑ Pode ser feita em termos de distribuição (para duas variáveis ordinais) ou em termos
de frequências para variáveis nominais.
❑ Tipos de análises conforme a classificação das variáveis envolvidas:
Qualitativa vs qualitativa
Qualitativa vs quantitativa
Quantitativa vs quantitativa
Base de dados
Qualitativa vs qualitativa
❑ "Estado civil" versus "grau de instrução"
Qualitativa vs qualitativa
❑ "Estado civil" versus "grau de instrução"
Qualitativa vs qualitativa
❑ "Estado civil" versus "grau de instrução"
Qualitativa vs qualitativa
❑ "Estado civil" versus "grau de instrução"
Qualitativa vs quantitativa
❑ "grau de instrução“ versus “salário”
Gerar faixas de salários
Qualitativa vs quantitativa
❑ "grau de instrução“ versus “salário”
Qualitativa vs quantitativa
❑ "grau de instrução“ versus “salário”
Qualitativa vs quantitativa
❑ "grau de instrução“ versus “salário”
Quantitativa vs quantitativa
❑ “salário” versus “idade”
é necessário agrupar as variáveis em classes
Quantitativa vs quantitativa
❑ “salário” versus “idade”
é necessário agrupar as variáveis em classes
Quantitativa vs quantitativa
❑ “salário” versus “idade”
Quantitativa vs quantitativa
❑ “salário” versus “idade”
Conclusão
✔ Entendemos o que é a análise Bivariada e
aprendemos como fazer.
Próxima aula
❑ Realizar uma análiseBivariada utilizando a
linguagem R.
Fundamentos em Análise de Dados
Aula 3.6. Análise Bivariada com R
Profª. Fernanda Farinelli
Nesta aula
❑ Utilizar a linguagem R para realizar uma análise Bivariada.
Demonstração prática
Conclusão
✔ Aprendemos como realizar a análise Bivariada
utilizando a linguagem R.
Próxima aula
❑ Realizar análises exploratória utilizando o Knime
Analytics Platform.
Fundamentos em Análise de Dados
Aula 3.7. Análise exploratória de dados com Knime
Profª. Fernanda Farinelli
Nesta aula
❑ Utilizar o Knime para realizar análise exploratória de dados.
Demonstração prática
Conclusão
✔ Aprendemos como realizar a análise exploratória
de dados no Knime.
Próxima aula
❑ Fundamentos de Análise de dados.
Fundamentos em Análise de Dados
Capítulo 4. Fundamentos em análise de dados
Profª. Fernanda Farinelli
Fundamentos em Análise de Dados
Aula 4.1. Visão geral dos principais tipos de análise de dados
Profª. Fernanda Farinelli
Nesta aula
❑ Entender os principais tipos de análise de dados.
Análise de Dados
Permite a extração de informações valiosas a partir dos dados.
Estudar princípios, métodos
e sistemas computacionais
para extrair conhecimento
de dados
Identificar as possibilidades
de converter dados brutos
em conhecimento
Visa encontrar um padrão
(conhecimento) em grandes
volumes de dados
Aumentar a compreensão
sobre o comportamento das
pessoas e do negócio.
Fomentar a identificação de
novas oportunidades de
negócio
Análise
descritiva
Análise
diagnóstica
Análise
preditiva
Análise
prescritiva
Tipos de Análise de Dados
O que aconteceu?
Qual é a situação?
Por que aconteceu?
O que acontecerá?
Se acontecer, o que
devo fazer?
Futuro
Passado
Análise
descritiva
Análise
diagnóstica
Análise
preditiva
Análise
prescritiva
VA
LO
R
(R
O
I)
COMPLEXIDADE
R
etro
spe
ctiv
a
Pre
visã
o
Conclusão
✔ Entendemos a importância da análise de dados.
✔ Conhecemos os principais tipos de análise de dados.
Próxima aula
❑ Entender o que é mineração de dados.
Fundamentos em Análise de Dados
Aula 4.2. Introdução à Mineração de Dados
Profª. Fernanda Farinelli
Nesta aula
❑ Entender o que é data mining ou mineração de dados.
KDD - Knowledge Discovery in Databases
Dados
Transformados
Dados
alvo
Dados
pré-processados
Padrões
Conhecimento
Sele
ção
Pré-p
roce
ssam
ento
Tran
sform
açã
o
Mine
raçã
o de

dado
s
Inter
preta
ção
e Av
aliaç
ão
Dados das
aplicações
Prep
araçã
o
Mineração de Dados (Data Mining)
Frequentemente existe informação “escondida” nos dados que não é
evidente de ser encontrada utilizando linguagens de consultas tradicionais.
Mineração de dados visa identificar conhecimento novo escondido em
grandes bases de dados.
Consiste na aplicação de algoritmos de análise de dados que infere regras
e descobrem padrões e/ou tendências significativas sobre os dados.
Utiliza várias técnicas da estatística, recuperação de informação,
inteligência artificial e reconhecimento de padrões.
• Chamada de teste de hipótese, o usuário parte do
princípio que existe uma hipótese, uma ideia
pré-concebida e que mesmo deseja confirmá-la ou
refutá-la.
Abordagem
top-down
• Chamada de busca de conhecimento, o usuário inicia o
processo de exploração dos dados na tentativa de
descobrir alguma coisa que ainda não é de seu
conhecimento
Abordagem
bottom-up
Abordagens da Mineração de Dados
Planejamento
estratégico
• Qual o objetivo da mineração de
dados?
• Que perguntas eu desejo
responder?
Seleção de
dados
• Quais dados e fontes podem
trazer insumos para
responder estas pergunta?
Modelagem
de dados
• Definição e execução das
técnicas de mineração de
dados conforme a natureza da
pergunta.
Avaliação dos
resultados
• Considerando o objetivo, a
pergunta, você obteve suas
respostas?
Processo de mineração de dados
Técnicas de Mineração de dados
Conclusão
✔ Entendemos a importância da mineração de
dados.
Próxima aula
❑ Entender o que é mineração de dados na web.
Fundamentos em Análise de Dados
Aula 4.3. Visão geral: Web mining
Profª. Fernanda Farinelli
Nesta aula
❑ Entender o que é a mineração de dados na web ou web mining.
Dados
Interligados
Enorme volume
de acesso
Enorme
quantidade de
informação
Documentos
sem
padronização
Distribuído e
em constante
evolução
Dados não
estruturado e
semiestruturado
Web de dados
Mineração de Dados na Web: Aplicação de técnicas de Mineração de
Dados para descoberta de padrões na Web
Web Mining
Encontrar
informação
relevante
Gerar novos
conhecimentos
Personalizar a
informação
Aprender sobre
comportamento
dos usuários
Taxonomia do Web Mining
Mineração de
dados na Web
Mineração
de Conteúdo
da Web
Mineração de
Conteúdo de
Página da Web
Mineração de
Resultados da
Pesquisa
Mineração
da estrutura
da Web
Mineração
de uso da
Web
Mineração de
Padrão de
Acesso Geral
Rastreamento
de uso
personalizado
Abordagens de Web Mining
Extração de conhecimento do conteúdo de páginas 🡪 informações
contidas dentro dos documentos disponíveis na web.01
Mineração de conteúdo
❑ Exemplos de aplicação:
Máquinas de busca (Google, Bing, etc.).
Classificação de textos.
Identificação de spams.
Detecção e acompanhamento de evento.
Extração de regras.
Abordagens de Web Mining
Obtenção de conhecimento a partir da organização da web, as
informações contidas entre os documentos disponíveis na web.02
Mineração de estrutura
❑ Exemplo de informação extraída:
Volume de links apontando para um documento podem indicar sua popularidade.
Volume de links saindo de um documento podem indicar a riqueza ou variedade de
tópicos tratados pelo documento.
Autoridade de uma página.
Ranking de páginas.
Número de exibições ou retorno em buscas.
Busca padrões relacionados ao uso e acesso, as informações contidas
na utilização ou interação com documentos disponíveis na web.03
Mineração de uso
Abordagens de Web Mining
❑ Fontes de dados para análises:
Web server log, cookies, dados de consultas, dados do proxy.
❑ Exemplo de uso:
Extração de padrão geral de acesso para descobrir padrões e tendências de
acesso.
Localizar pontos para propaganda mais efetiva.
Direcionar campanhas específicas para usuários específicos.
Customização ou personalização dinâmica da experiência do usuário.
Conclusão
✔ Entendemos o que é Web mining e quais são
seus subtipos.
Próxima aula
❑ Entender o que é mineração de texto.
Fundamentos em Análise de Dados
Aula 4.4. Visão geral: Text mining
Profª. Fernanda Farinelli
Nesta aula
❑ Entender o que é mineração de texto ou text mining.
Mineração de texto: Extrair informação relevante de uma
grande base de dados textuais sem precisar de intervenção
humana na leitura de cada documento.
Text mining
❑ Trabalha com análise de dados não estruturados.
Text mining
Blogs e
Microblogs
Documentos
Redes
sociais
Comentários
e-commerce
Conteúdo
on-line
Tipos de abordagens
Extração de conhecimento
morfológico, sintático, semântico,
pragmático, do discurso e do
mundo.
Análise Semântica
Aprendizado estatístico a partir de
dados, codificação dos dados,
estimativa dos dados e modelos
de representação.
Análise Estatística
Exemplo: New York Times
Exemplo Semântica
É a mesma pessoa:
• Diego Maradona
• Mr. Maradona
• He, His, Him
Referência a pessoas:
• Diego Maradona
• Che Guevara
• Fidel Castro
Exemplo Semântica
Mesmo significado:
• Huge, biggest, vastly, most.
Conteúdo informacional
Exemplo Estatística
Frequência de palavras:
• He, Him, His: 8
• Maradona: 2
• Huge, biggest, vastly, most: 4
❑ Considere o texto a seguir:
José da Silva é funcionário da Empresa XYZ, mora na Rua X, número 31,
tem 35 anos de idade, e ...
❑ Com a mineração semântica é possível identificar os seguintes dados:
Exemplo de extração de conhecimento
Nome
José da Silva
EmpresaXYZ
Endereço
Rua X, 31
Idade
35 anos
• knowledge discovery in texts (KDT)
Processo de descoberta de conhecimento
em textos (KDT)
38
Fonte: https://www.devmedia.com.br/mineracao-de-texto-analise-comparativa-de-algoritmos-revista-sql-magazine-138/34013
Processo de Text Mining (simplificado)
Escolha/definição
dos documentos
relevantes
Transformar o
documento no
formato de análise
Identificação de
padrões nos
documentos
Utilização do
conhecimento
extraído
❑ Tem como objetivo formar a base de documentos (corpus) que irá
ser analisada.
❑ A base pode ser adquirida de forma:
Manual, realizada por um ser humano.
Automática, por meio de API ou Web Crawler/Scrap:
• Crawler (Rastreamento): Software que visa localização de informações na web.
• Scraper (Raspagem): Software que coleta automaticamente os
dados/documentos na web.
Seleção ou Coleta de documentos (dados)
❑ Objetiva transformar os textos em uma representação
estruturada adequada, aumentando sua qualidade.
❑ Consiste em um conjunto de transformações realizadas no
texto para torná-lo apto a ser analisado.
Pré-Processamento
Indexação
Normalização
de sinônimos
Normalização
morfológica
Limpeza do
texto.
Pré-processamento em text mining
Remoção de
caracteres especiais
Remoção de
stopwords
(pontuação e
palavras de ligação)
Tokenization
(Atomização)
Identificação de
Abreviações e
acrônimos
Correção Ortográfica
(inserção,
eliminação e
substituição de
caracteres)
Redução do Léxico
- Stemming (obtida a
raiz do termo)
Normalização -
Lemmatization
(forma primitiva da
palavra)
Identificação de
Sinônimos,
Hierarquias e
Relacionamentos
Associativos
Etiquetagem POS (part
of speech) -
identificação sintática:
verbos, substantivos,
adjetivos, advérbios,
pronomes, etc.
Análise Sintática -
Definição da estrutura
observando a função
sintática de cada token
em uma sentença
(Árvore de Derivação)
Identificação de
Palavras
Combinadas
(n-gramas)
❑ Organiza todos os termos para facilitar o acesso aos documentos
❑ Abordagens comuns:
Representação de Documentos:
• “saco de palavras” (do inglês, bag of words) 🡪 documento é visto como um
container de tokens,
Medidas de Similaridade entre Documentos:
• dois documentos são idênticos se compartilham do mesmo conjunto de tokens
Listas Invertidas (abordagem de máquinas de busca):
• Tokens indicando (apontando) em quais documentos estes estão contidos, e não
documentos apontando para tokens
Indexação
❑ É uma representação simplificada usada no processamento de linguagem
natural (PLN) e na recuperação de informações (RI).
❑ Neste modelo, um texto (como uma frase ou um documento) é
representado como o saco (bag) de suas palavras, desconsiderando a
gramática e mesmo a ordem das palavras, mas mantendo a
multiplicidade.
❑ Um uso clássico do BoW é para filtragem de spam.
Bag of Words (BOW)
❑ Considere os seguintes documentos:
❑ Cria-se, uma lista com as palavras que aparece
no texto dos documentos.
❑ Calcula-se a frequência de aparecimento das
palavras.
Exemplo de Bag of Words
José gosta de assistir filmes. Maria
também gosta de filmes.
José também gosta de assistir
jogos de futebol.
❑ Conforme o objetivo, definir a técnica de mineração que será usada para
extrair conhecimento dos textos pré-processados.
❑ Exemplos:
Clusterização: identificar relacionamento entre documentos, conforme o grau
de similaridade.
Classificação: classificar em qual grupo o documento novo se encaixa.
Associação: identificar tópicos correlatos.
Mineração
❑ Latent Dirichlet Allocation (LDA) é o método padrão para modelagem de
tópicos.
❑ Leva em consideração que:
Cada documento é uma mistura de tópicos.
Cada tópico é uma mistura de termos.
❑ Reorganiza a distribuição de tópicos nos documentos e a distribuição de
palavras-chave nos tópicos para obter uma boa composição da
distribuição de palavras-chave de tópico.
Técnica: Modelagem de tópicos
Latent Dirichlet Allocation (LDA)
Tópicos Documentos Proporções da base
de treinamento
Inferindo tópicos a partir das palavras chave
❑ Cloud of words (Nuvem de palavras)
Modelo de visualização
Palavras usadas pela imprensa durante a campanha eleitoral Norte Americana de 2016
Conclusão
✔ Entendemos o que é Text mining e algumas
de suas aplicações.
Próxima aula
❑ Conhecer a Análise de Sentimentos.
Fundamentos em Análise de Dados
Aula 4.5. Análise de Sentimentos
Profª. Fernanda Farinelli
Nesta aula
❑ Entender o que é Análise de sentimentos.
Por que saber a opinião das outras pessoas?
Conhecer a satisfação dos clientes
com o produtos/serviços adquiridos.
Entender o comportamento de
um determinado grupo.
Conhecer crenças,
valores, gostos, questões
culturais e políticas.
Análise de sentimentos
Mineração da opinião
Foco em relacionar as emoções ao assunto (ou tópico) de que se trata o documento.
Visa estudar opiniões, sentimentos, avaliações e emoções que possam ser expressas em forma de texto.
Análise de Sentimento
Positivo
•O produto X tem ótima qualidade.
•Eu adorei o filme.
Negativo
•O produto X quebrou no primeiro uso.
•Este filme não representa a essência do livro.
Neutro
•Vou pesquisar sobre o produto X depois.
•Eu vi o trailer deste filme.
Opinião
Regular
Direta Indireta
Comparativa
Opinião comum a
um determinado alvo
Possui relação de
similaridade ou
diferença entre dois ou
mais alvos
O vestido é lindo! Comecei a coçar depois que vesti o vestido
Prefiro usar calça do
que saia.
❑ Subjetividades das opiniões e sentimentos.
❑ Palavras com sentido adverso dependendo do contexto.
❑ Palavras com duplo sentido.
❑ Abreviações, erros ortográficos e gramaticais.
❑ Linguagem informal, gírias, hashtags e emoticons.
Desafios da análise de sentimentos
Fluxo de Análise de sentimentos
Conclusão
✔ Entendemos o que é Análise de sentimentos e
seus principais objetivos e desafios.
Próxima aula
❑ Realizar prática de Análise de Sentimentos
utilizando o Knime.
Fundamentos em Análise de Dados
Aula 4.6. Prática: Análise de Sentimentos utilizando o Knime
Profª. Fernanda Farinelli
Nesta aula
❑ Exemplo prático de Análise de sentimentos utilizando Knime.
Exemplo de workflow
Fonte:
https://hub.knime.com/knime/spaces/Examples/latest/08_Other_Analytics_Types/01_Text_Processing/26_Sentiment
_Analysis_Lexicon_Based_Approach~zp_hhUROHNXToZHX
Demonstração prática
Conclusão
✔ Aprendemos como fazer uma análise de
sentimentos utilizando o Knime.
Próxima aula
❑ Realizar prática utilizando a linguagem R para tratar
partes da mineração de textos.
Fundamentos em Análise de Dados
Aula 4.7. Prática: Análise de textos utilizando a linguagem R
Profª. Fernanda Farinelli
Nesta aula
❑ Exemplo prático de Análise de textos utilizando a linguagem R.
Demonstração prática
Conclusão
✔ Aprendemos como fazer uma análise de
textos utilizando a linguagem R.
Próxima aula
❑ Conhecer as etapas de coleta e preparação de
dados.
Fundamentos em Análise de Dados
Capítulo 5. Coleta e Preparação de dados
Profª. Fernanda Farinelli
Fundamentos em Análise de Dados
Aula 5.1. Fundamentos em coleta de dados
Profª. Fernanda Farinelli
Nesta aula
❑ Entender os desafios da etapa de coleta de dados.
Coleta de dados
Obtenção (recuperação e extração) dos dados de diversas fontes e carga
no conjunto de dados a ser analisado.
Dados
externos
SGBDs
relacionais
DW & Data Lake
SGBDs
NoSQL
Conjunto de dados
Web
de dados
Documentos
IOT
E-commerce
❑ A base pode ser adquirida de forma:
Manual, realizada por um ser humano.
Automática
o Acesso ao banco de dados, por exemplo, com linguagem SQL.
o Via APIs, como por exemplo, API do Twitter.
o Web Crawler/Scrap:
• Crawler (Rastreamento): Software que visa localização de informações na
web.
• Scraper (Raspagem): Software que coleta automaticamente os
dados/documentos