Buscar

Ciências_de_Dados_teorico(04)

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 24 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 24 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 24 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

Ciência de Dados
Material Teórico
Responsável pelo Conteúdo:
Profa. Esp. Lucia Contente Mós
Revisão Textual:
Prof.ª Dr.ª Luciene Oliveira da Costa Granadeiro
Análise de Dados
• Introdução;
• Tipos de Análises de Dados;
• Análise Preditiva.
• Conhecer e identifi car os Tipos de Análises de Dados;
• Defi nir a Análise Descritiva, conhecer suas características e exemplos de uso;
• Defi nir a Análise Preditiva, conhecer suas características e exemplos de uso;
• Defi nir a Análise Prescritiva, conhecer suas características e exemplos de uso;
• Defi nir a Análise Diagnóstica, conhecer suas características e exemplos de uso.
OBJETIVOS DE APRENDIZADO
Análise de Dados
Orientações de estudo
Para que o conteúdo desta Disciplina seja bem 
aproveitado e haja maior aplicabilidade na sua 
formação acadêmica e atuação profissional, siga 
algumas recomendações básicas: 
Assim:
Organize seus estudos de maneira que passem a fazer parte 
da sua rotina. Por exemplo, você poderá determinar um dia e 
horário fixos como seu “momento do estudo”;
Procure se alimentar e se hidratar quando for estudar; lembre-se de que uma 
alimentação saudável pode proporcionar melhor aproveitamento do estudo;
No material de cada Unidade, há leituras indicadas e, entre elas, artigos científicos, livros, vídeos 
e sites para aprofundar os conhecimentos adquiridos ao longo da Unidade. Além disso, você tam-
bém encontrará sugestões de conteúdo extra no item Material Complementar, que ampliarão sua 
interpretação e auxiliarão no pleno entendimento dos temas abordados;
Após o contato com o conteúdo proposto, participe dos debates mediados em fóruns de discus-
são, pois irão auxiliar a verificar o quanto você absorveu de conhecimento, além de propiciar o 
contato com seus colegas e tutores, o que se apresenta como rico espaço de troca de ideias e de 
aprendizagem.
Organize seus estudos de maneira que passem a fazer parte 
Mantenha o foco! 
Evite se distrair com 
as redes sociais.
Mantenha o foco! 
Evite se distrair com 
as redes sociais.
Determine um 
horário fixo 
para estudar.
Aproveite as 
indicações 
de Material 
Complementar.
Procure se alimentar e se hidratar quando for estudar; lembre-se de que uma 
Não se esqueça 
de se alimentar 
e de se manter 
hidratado.
Aproveite as 
Conserve seu 
material e local de 
estudos sempre 
organizados.
Procure manter 
contato com seus 
colegas e tutores 
para trocar ideias! 
Isso amplia a 
aprendizagem.
Seja original! 
Nunca plagie 
trabalhos.
UNIDADE Análise de Dados
Introdução
A otimização de decisão preocupa-se em resolver problemas de tomada de decisão 
onde há um objetivo a ser atingido (como maximizar o lucro ou minimizar o custo), 
mas onde também há restrições (como recursos limitados, orçamento ou tempo).
A otimização de decisão aplica técnicas avançadas de inteligência artificial e 
matemática para encontrar as melhores soluções e mais viáveis. Através da combi-
nação de modelos matemáticos que representam problemas de tomada de decisão 
do mundo real com grandes conjuntos de dados. 
Tipos de Análises de Dados
As análises de dados podem ser classificadas como: descritiva, preditiva, pres-
critiva e diagnóstica. 
Análise Descritiva
É considerada como o primeiro nível de análise, onde é possível entender o que 
está acontecendo no negócio atualmente. Tem como principal objetivo resumir, 
sumarizar e explorar o comportamento dos dados. Permite saber o que aconteceu 
no passado. Ela permite tomar decisões com base em estatísticas obtidas a partir 
de dados históricos. 
Essa análise busca trazer uma fotografia do presente, para que decisões possam 
ser tomadas com segurança, o que torna esse modelo muito útil para análise de 
crédito, por exemplo. A análise descritiva trabalha com histórico de dados, cruzan-
do informações com o objetivo de gerar um panorama claro e preciso dos temas 
relevantes para a empresa no presente momento. A diferença entre a análise des-
critiva e a mineração propriamente dita é que a ADD visa descrever e encontrar o 
que há nos dados, ao passo que os algoritmos de mineração buscam conclusões 
que extrapolam os dados e permitem inferir algo a partir deles.
Por exemplo:
• Quantos clientes têm reclamado ou desistiram devido a atrito nas últimas 
seis semanas?
• Quanto dinheiro foi perdido devido à fraude nos últimos três meses?
• Com que frequência os chamados de suporte estão sendo criados?
• Onde estão localizados os clientes (talvez mostrados por meio do Google Maps)?
8
9
Figura 1 – Análise Descritiva
Fonte: Reprodução
A análise descritiva percorre um longo caminho para a viabilização de decisões 
de negócio baseadas em fatos e não em sentimentos. 
Por exemplo, em uma base de dados de câncer de mama, uma análise descritiva 
pode ser usada para se conhecer a média de idade das mulheres que sofrem dessa 
doença, ao passo que um algoritmo de mineração pode ser usado para predizer, 
com determinada margem de erro, se uma mulher terá ou não câncer, baseado em 
um conjunto de exames e características dessa mulher.
Análise Descritiva dos Dados x Algoritmos de Mineração
A mineração de dados pode ser usada em análises mais gerais dos dados, enquan-
to que a análise descritiva simplesmente descreve suas características. É importante 
ressaltar que descrever um conjunto de dados por meio de alguns índices pode gerar 
interpretações distorcidas ou perda de detalhes importantes. Por exemplo, a média 
de idade das mulheres que têm câncer não traz informação alguma sobre a forma 
ou o contorno das massas medidas em um exame de mamografia, aspectos que 
são importantes na predição do câncer. De maneira geral, as análises descritivas 
são univariadas ou bivariadas, ou seja, envolvem a descrição da distribuição de um 
único atributo ou a descrição de relações entre pares de atributos. Como os dados 
univariados envolvem um único atributo, as análises descritivas têm como objetivo 
principal organizar os dados em distribuições de frequência, visualizar o atributo 
usando gráficos e determinar a tendência central e variação. Em contrapartida, a 
análise bivariada trata causas e relações entre atributos, buscando explicá-las.
O Processo de Análise Descritiva de Dados
A análise descritiva de dados é um processo que pode ser desmembrado em três 
passos principais:
• 1º Passo: organizar os dados usando distribuições de frequência; 
• 2º Passo: apresentar os dados usando técnicas de visualização; 
• 3º Passo: calcular medidas de tendência central, variação e associação.
9
UNIDADE Análise de Dados
Organizar os dados
usando distribuições
de frequência
Apresentar os dados
usando técnicas de
visualização
Calcular medidas de
tendência central,
variação e associação
Figura 2 – Processo de Análise Descritiva dos Dados
1º Passo – Estatística Descritiva
• Frequência: é a quantidade de vezes que um mesmo valor de um dado é re-
petido;
• Dados Brutos: são os dados originais que ainda não foram numericamente 
organizados após a coleta;
• Rol: é a ordenação dos valores obtidos em ordem crescente ou descrente de 
grandeza numérica ou qualitativa.
No quadro abaixo, temos um exemplo de dados de idades de crianças que fre-
quentam um acampamento. 
Tabela 1 – Exemplo de Dados Brutos
6 10 9 14 7 4
8 11 12 5 9 13
9 10 8 6 7 14
11 6 12 11 15 13
10 9 8 12 13 7
Analisando os dados brutos, é muito difícil estabelecer em torno de qual valor 
tendem a se concentrar as idades das crianças, ou ainda as que se encontram acima 
ou abaixo de determinada idade. Daí a necessidade de criar o rol, ou seja, organizar 
os dados.
No quadro abaixo, temos o rol com os dados das idades das crianças que fre-
quentam o acampamento, organizados.
Tabela 2 – Rol: Dados Organizados
4 6 8 10 11 13
4 7 8 10 12 13
4 7 8 10 12 13
5 7 9 10 12 14
6 7 9 11 12 14
6 8 9 11 13 15
Com base no rol, podemos, então, calcular a frequência. 
Tabela 3 – Exemplo de Frequência
Idade Frequência
4 3
10
11
Idade Frequência
5 1
6 3
7 4
8 4
9 410 4
11 3
12 4
13 4
14 2
15 1
É necessário organizar e resumir os dados com a construção de uma tabela que 
liste os diferentes possíveis valores dos atributos (individualmente ou por grupos), 
com as frequências correspondentes, que representam o número de vezes que 
aqueles valores ocorrem. Uma distribuição de frequências mostra um resumo dos 
dados agrupados em classes mutuamente exclusivas e o número de ocorrências 
(frequência) em cada faixa, e pode ser utilizada tanto com dados numéricos quan-
to categóricos.
As distribuições de frequências permitem a sumarização de grandes conjuntos 
de dados, ajudam a entender a natureza desses dados e fornecem uma base para a 
construção de gráficos importantes, como os histogramas, gráficos de barra e do 
tipo torta. 
Elementos de uma Distribuição de Frequência
Classes: caso as colunas da tabela de distribuição de frequência contenham 
muitos valores elencados, podemos reduzir a quantidade desses valores elenca-
dos agrupando-os em intervalos. Esses agrupamentos de valores num intervalo de 
abrangência são chamados de classes.
Tabela 4 – Exemplo de Classes
Idade Frequência
4-6 4
6-8 7
8-10 8
10-12 7
12-14 8
14-16 3
15 1
• Classes: grupos ou intervalos entre os quais se deseja dividir os valores 
dos atributos; 
11
UNIDADE Análise de Dados
• Limites inferiores de classe: menores números que podem pertencer às dife-
rentes classes. O número menor é o limite inferior da classe (4-6) em que l1 = 4.
• Limites superiores de classe: maiores números que podem pertencer às dife-
rentes classes. O número maior é o limite superior da classe (4-6) em que L1 = 6;
• Fronteiras de classes: números usados para separar as classes, mas sem os 
saltos criados pelos limites de classe. São obtidos da seguinte maneira: en-
contre o tamanho do salto entre o limite superior de uma classe e o limite 
inferior da classe seguinte. Acrescente a metade dessa quantidade a cada limite 
superior de classe para encontrar as fronteiras superiores de classe; e subtraia 
metade daquela mesma quantidade de cada um dos limites inferiores de classe 
para encontrar as fronteiras inferiores de classe;
• Pontos médios das classes: são os pontos médios dos intervalos que 
determinam cada classe (soma dos limites superior e inferior da classe dividida 
por dois). Ponto médio de uma classe (xi) é o ponto que, por situar-se numa 
posição média da distribuição de valores do intervalo de classe, divide o inter-
valo em duas partes iguais;
Xi = li + Li/2
O ponto médio da primeira classe: x1 = 4+6/2 = 5;
• Amplitude de classes: diferença entre dois limites inferiores de classe conse-
cutivos ou duas fronteiras inferiores de classes consecutivas. A amplitude de 
um intervalo de classe (hi) é a diferença entre o limite superior e inferior de 
uma classe:
 » hi = Li – li
 » h1= 6 – 4 = 2 anos;
 » h2= 8 – 6 = 2 anos;
 » h3= 10 – 8 = 2 anos;
 » h4= 12 – 10 = 2 anos;
 » h5= 14 – 12 = 2 anos;
 » h6= 16 – 14 = 2 anos;
• Frequência absoluta (de uma classe): é o número de vezes em que ela ocorre, 
ou seja, é o número de observações de um valor individual (ou de uma classe);
Tabela 5 – Exemplo de Frequência Simples ou Absoluta
Idade
Frequência 
(Quantidade de crianças 
por faixa etária)
4I-6 4
6I-8 7
8I-10 8
12
13
Idade
Frequência
(Quantidade de crianças 
por faixa etária)
10I-12 7
12I-14 8
14I-16 3
• Frequência relativa (de uma classe): corresponde a quanto ela ocorre em 
relação a toda a distribuição de frequências, ou seja, representa a proporção 
de observações de um valor (ou de uma classe) em relação ao número total 
de observações, o que facilita a observação. A frequência relativa é obtida 
através da frequência absoluta de classe dividida pela soma de todas as fre-
quências absolutas.
Tabela 6 – Frequência Relativa
Idade
Frequência
(fi)
4I-6 4
6I-8 7
8I-10 8
10I-12 7
12I-14 8
14I-16 3
Total 37
Aplicando a fórmula de frequência relativa Fr = fi/∑fi *100
Fr2= 7/37*100 = 18,9% essa classe representa 18,9% do número total de ob-
servações.
• Frequência acumulada: soma de uma frequência e todas que a antecedem na 
distribuição de frequências, ou seja, é a soma de todas as frequências abaixo 
do limite superior de uma classe considerada.
F4 = f1 + f2 + f3 + f4 = 4 + 7 + 8 + 7 = 26
F4 =26 
Existem 30 crianças abaixo de 12 anos.
Tabela 7 – Frequência Acumulada
Idade
Frequência
(fi)
4I-6 4
6I-8 7
8I-10 8
10I-12 7
13
UNIDADE Análise de Dados
Idade
Frequência 
(fi)
12I-14 8
14I-16 3
Total 37
Outro Exemplo: A construção de uma distribuição de frequências, para as idades 
das mulheres das classes “benigno” e “maligno”, utilizando a base de dados abaixo.
Atributo Idade para os primeiros 80 objetos
67, 43, 58, 28, 74, 65, 70, 42, 57, 60, 76, 42, 64, 36, 60, 54, 52, 59, 54, 40, 
66, 56, 43, 42, 59, 75, 66, 63, 45, 55, 46, 54, 57, 39, 81, 77, 60, 67, 48, 55, 
59, 78, 50, 61, 62, 44, 64, 23, 42, 67, 74, 80, 23, 63, 53, 43, 49, 51, 45, 59, 
52, 60, 57, 57, 74, 25, 49, 72, 45, 64, 73, 68, 52, 66, 70, 25, 74, 64, 60, 67.
• Passo 1: Número de classes escolhido: 5; 
• Passo 2: Amplitude de classe: (81 – 23)/5  ceil(11,6)  12.5 Passo 3: Limite 
inferior inicial: 23; 
• Passo 4: Limites inferiores das classes: 23, 35, 47, 59, 71; 
• Passo 5: Limites superiores das classes: 34, 46, 58, 70, 82;
• Passo 6: Rótulos para os valores do atributo: 4, 2, 3, 1, 5, 4, 4, 2, 3, 4, 5, 2, 
4, 2, 4, 3, 3, 4, 3, 2, 4, 3, 2, 2, 4, 5, 4, 4, 2, 3, 2, 3, 3, 2, 5, 5, 4, 4, 3, 3, 4, 
5, 3, 4, 4, 2, 4, 1, 2, 4, 5, 5, 1, 4, 3, 2, 3, 3, 2, 4, 3, 4, 3, 3, 5, 1, 3, 5, 2, 4, 
5, 4, 3, 4, 4, 1, 5, 4, 4, 4.
Tabela 8 – Distribuição de frequência do atributo idade das mulheres
Classe
Limite 
Inferior
Ponto 
Médio
Limite 
Superior
Fronteira
Frequência 
absoluta
Frequência 
relativa
Frequência 
acumulada
1 23 28,5 34 34,5 5 6,25% 5 6,25%
2 35 40,5 46 15 18,75% 20 25%46,5
3 47 52,5 58 20 25% 40 50%58,5
4 59 64,5 70 28 35% 68 85%
70,5
5 71 76,5 82 12 15% 80 100%
2º Passo – Visualização dos Dados
A visualização dos dados corresponde à apresentação de dados em forma pictó-
rica ou gráfica (representações visuais) com o objetivo de se entender a natureza das 
distribuições dos dados, extrair conhecimento mais fácil e rapidamente e permitir 
o compartilhamento desse conhecimento de maneira mais direta entre diferentes 
pessoas e entidades. As técnicas de visualização ajudam na descoberta de conheci-
mento que não é óbvio apenas ao olhar os dados. 
• Técnica de Visualização de Dados – Gráfico de Barras: Apresenta a frequ-
ência absoluta ou relativa (NÃO cumulativa), ou seja, quantas observações, ou a 
fração de observações para um dado valor da variável em estudo (ou classe de 
valores). A altura das barras representa o que foi mais observado;
14
15
Anos de estudo das pessoas de 10 anos e mais - 2005
Sem instrução e
menos de 1 ano
1 a 3 anos
%
35
30
25
20
15
10
5
0
4 a 7 anos
Homens Mulheres
8 a 10 anos 11 anos e mais
Figura 3 – Técnica de Visualização de Dados – Gráfi co de Barras
Fonte:Adaptado de IBGE
• Técnica de Visualização de Dados – Gráfico de Setores ou Pizza: utilizado 
para representar uma série categórica. Nesse tipo de gráfico, todo o conjunto 
de dados é representado por um círculo, e cada categoria é representada por 
parte desse círculo (isto é, um setor);
Figura 4 – Técnica de Visualização de Dados – Gráfi co de Setores ou Pizza
• Técnica de Visualização de Dados – Gráfico de Dispersão: mostra as rela-
ções entre os valores numéricos em várias sequências de dados ou plotam dois 
grupos de números como uma sequência de coordenadas XY; 
15
UNIDADE Análise de Dados
5,00
4,50
4,00
3,50
10/09 17/09 24/09 01/10 05/10
3,00
2,50
2,00
Figura 5 – Técnica de Visualização de Dados – Gráfico de Dispersão
• Técnica de Visualização de Dados – Histograma: é a representação de 
uma distribuição de frequências, por meio de um gráfico de barras, normal-
mente de um ou mais atributos da base. O histograma é uma representaçãodas frequências tabuladas;
Histograma do Ruído Branco
120
100
80
60
40
20
0
-4 -2 0 2 4
Amplitude do ruído
Co
nt
ag
em
Figura 6 – Exemplo de histograma
Na figura acima, aproximadamente, 20 elementos com amplitude de ruído igual a 2.
Ferramentas para visualização de dados
Existem várias ferramentas que permitem a visualização de dados. Algumas 
mais simples, como, por exemplo, a ferramenta do pacote Office, o Excel, que é 
simples, fácil de manusear e de conhecimento da maioria dos usuários. Mas tam-
bém podemos encontrar outro tipo de ferramenta muito mais potente, no entanto, 
mais complexa também, como o Tableau. Essa ferramenta provê mais segurança 
no compartilhamento dos dados, permite a implantação local e/ou na nuvem e 
permite a geração de novos gráficos e painéis de apresentação de dados a qualquer 
momento, inclusive on-line.
16
17
Análise Preditiva
Na sociedade atual, é imprescindível que as decisões sejam altamente precisas e 
repetidas. Para isso, as empresas estão usando análise preditiva para literalmente 
tocar para o futuro e, com isso, definir decisões de negócio e processos.
Sua relevância no segmento de mercado cresceu juntamente com a quantidade 
de dados sendo capturados pelas pessoas (por exemplo, a partir de transações on-
line e redes sociais) e sensores (por exemplo, a partir de dispositivos móveis GPS), 
bem como a disponibilidade do poder de processamento com custo reduzido, seja 
baseado em Hadoop ou na Nuvem.
Esse tipo de análise é o mais indicado para quem precisa prever algum tipo de 
comportamento ou resultado. Essa técnica procura analisar dados relevantes ao 
longo do tempo, buscando padrões comportamentais e suas variações de acordo 
com cada contexto, a fim de prever como será o comportamento de seu público ou 
mercado no futuro, dadas as condições atuais. É muito útil para avaliar tendências 
de consumo e flutuações econômicas. 
A análise preditiva é o uso de dados, algoritmos estatísticos e técnicas de 
machine learning para identificar a probabilidade de resultados futuros com base 
em dados históricos.
O objetivo é ir além da estatística descritiva e dos relatórios sobre o que aconteceu 
para fornecer uma melhor avaliação sobre o que vai acontecer no futuro. O resultado 
final é a simplificação da tomada de decisão e a geração de novos insights que levem 
a melhores ações.
Os modelos preditivos utilizam os resultados conhecidos para desenvolver (ou 
treinar) um modelo que possa ser usado para prever valores para dados diferentes 
ou novos. Os resultados da modelagem em previsões que representam a probabili-
dade da variável-alvo (por exemplo, a receita) com base na importância estimada a 
partir de um conjunto de variáveis de entrada. Isso é diferente dos modelos descri-
tivos, que ajudam a entender o que aconteceu, ou dos modelos de diagnóstico, que 
ajudam a entender as principais relações e a determinar por que algo aconteceu. 
Cada vez mais organizações estão se voltando para a análise preditiva visando au-
mentar seu lucro e sua vantagem competitiva. 
Isso ocorre, nesse momento, porque:
• Crescentes volumes e tipos de dados e mais interesse na utilização de dados 
para produzir informações valiosas;
• Computadores mais rápidos e mais baratos e softwares mais fáceis de usar;
• Agravamento das condições econômicas e uma necessidade de diferencia-
ção competitiva.
Com o software interativo e fácil de usar se tornando cada vez mais predomi-
nante, a análise preditiva não é mais apenas o domínio de matemáticos e estatís-
ticos. Os analistas de negócios e especialistas na linha de negócios também estão 
usando essas tecnologias.
17
UNIDADE Análise de Dados
A análise é capaz de produzir estatísticas confiáveis, previsões e contagens. É 
até um sistema baseado em regras, no entanto, para decidir sobre o que fazer com 
todo o conhecimento que é voltado para dados. Por exemplo, pode-se usar uma 
série de regras para acionar decisões de negócios, dependendo do resultado obtido 
por um modelo preditivo.
Por exemplo, se um modelo existe para prever o risco de perda de clientes ou 
deserção, podemos colocar regras conhecidas para reduzir a rotatividade no local 
a fim de definir as decisões de negócios específicas de acordo com diferentes níveis 
de risco. Portanto, se o risco for alto, podemos dar a um cliente um desconto de 
20% em sua próxima compra, mas se o risco for muito alto, podemos, então, dar 
um desconto de 50%.
Benefícios da Análise Preditiva
Um relatório de 2014 do TDWI descobriu que a análise preditiva é utilizada ba-
sicamente para realizar cinco tarefas:
1. Identificar tendências;
2. Entender os clientes;
3. Melhorar o desempenho dos negócios;
4. Promover a tomada de decisão estratégica;
5. Prever o comportamento.
Algumas das aplicações mais comuns das análises preditivas incluem:
• Operações: O analytics desempenha um papel importante nas operações 
para muitas organizações, permitindo que elas operem sem problemas e de 
forma eficiente. Muitas empresas utilizam modelos preditivos para prever o es-
toque e gerenciar os recursos das fábricas. Outras os usam para necessidades 
mais especializadas. Companhias aéreas usam a análise preditiva para decidir 
quantos bilhetes devem ser vendidos por cada preço para um voo. Hotéis ten-
tam prever o número de hóspedes esperado em qualquer noite para ajustar os 
preços para maximizar a ocupação e aumentar a receita. A análise preditiva 
de dados também é usada em recursos humanos, manutenção de ativos, no 
governo e ciências da vida e saúde;
• Risco: Um dos exemplos mais conhecidos de análise preditiva é a pontuação 
de crédito. As pontuações de crédito são usadas de modo onipresente para 
avaliar a probabilidade de inadimplência de um comprador para as compras 
que vão desde casas até carros e seguros. A pontuação de crédito é um núme-
ro gerado por um modelo preditivo que incorpora todos os dados relevantes 
para a capacidade de crédito de uma pessoa. A análise preditiva de dados tem 
outros usos relacionados aos riscos, incluindo reclamações e cobranças; 
• Detecção de fraude e segurança: A análise preditiva pode ajudar a pôr um 
fim às perdas ocorridas por atividades fraudulentas antes que elas ocorram. 
Ao combinar vários métodos de detecção, regras empresariais, detecção de 
18
19
anomalias, análises preditivas, link analytics etc. É possível obter maior pre-
cisão e melhor desempenho preditivo. E, no mundo de hoje, a ciberseguran-
ça é uma preocupação crescente. A análise comportamental de alto desem-
penho examina todas as ações em uma rede em tempo real para detectar 
anormalidades que podem indicar fraude ocupacional, vulnerabilidades no 
dia zero e ameaças persistentes avançadas; 
• Marketing: O uso da análise preditiva pode ajudar a entender melhor os 
clientes. A maioria das organizações modernas usa a análise de dados para 
determinar as respostas ou compras dos clientes, bem como para promover 
oportunidades de vendas cruzadas. Os modelos preditivos ajudam as empresas 
a atrair, reter e desenvolver os clientes mais rentáveis e maximizar seus gastos 
com marketing.
Modelo Preditivo
A análise preditiva é o uso de dados e algoritmos para identificar a probabili-
dade de resultados futuros com base em dados históricos. Os modelos preditivos 
utilizam os resultados conhecidos para desenvolver e treinar um modelo que possa 
ser usado para prever valores para dados diferentes ou novos, usando para isso um 
algoritmo preditivo de Data Mining.
Um algoritmo preditivo é uma função que, dado um conjunto de exemplos rotu-
lados, constrói um estimador. Se o domínio dos rótulos for um conjunto de valores 
nominais, estamos perante um problema de classificação, e o estimador criado 
é um classificador. Se o domínio for um conjunto infinito e ordenado de valores, 
estamos perante um problema de regressão e é criado um regressor. Os principais 
algoritmos, de classificação e regressão, foram vistos na Unidade 3.
Um estimador (classificador ou regressor)é uma função que atribui a uma das 
classes, ou um valor real, a um exemplo não rotulado.
Figura 7 – Análise Preditiva
Fonte: Reprodução
19
UNIDADE Análise de Dados
Análise Prescritiva
Segue um modelo similar à análise preditiva, porém, com objetivos ligeiramente 
diferentes; ao invés de tentar prever um determinado acontecimento, essa análise 
busca trazer informações de consequências desse acontecimento. Para efeitos de 
comparação, enquanto o modelo preditivo focaria em tendências de consumo do 
seu público, por exemplo, a análise prescritiva busca trazer um panorama dos tipos 
de produto que serão mais desejados ou o impacto que essas tendências terão no 
montante de vendas. Modelo muito útil, principalmente se aliado com o anterior. 
A análise prescritiva fornece às empresas recomendações sobre ações ideais 
para atingir objetivos de negócios, como atendimento ao cliente, lucros e eficiência 
operacional. As soluções de análise prescritiva usam a tecnologia de otimização 
para resolver decisões complexas com milhões de variáveis de decisão e restrições. 
As análises prescritivas permitem melhores decisões sobre o que fazer. A deci-
são pode ser enviar uma tarefa automatizada para um tomador de decisões huma-
no junto com um conjunto de próximas recomendações de ação, ou para enviar um 
próximo comando de ação para outro sistema.
Figura 8 – Análise Prescritiva
Fonte: Reprodução
A análise prescritiva, juntamente com a análise preditiva, ajuda a criar uma es-
tratégia e tomada de decisão baseada em dados.
A diferença entre análise preditiva e prescritiva é que a análise preditiva ajuda a 
prever o que vai acontecer no futuro, enquanto a análise prescritiva oferece opções 
estratégicas para realizar alterações do futuro.
Exemplo do uso da junção da análise preditiva com a análise prescritiva: vamos 
pensar em um loja de varejo, que comercializa roupas e oferece trocas grátis em 
casa a clientes fiéis para que eles experimentem os produtos.
Um modelo preditivo, que analisa o comportamento do consumidor, supõe que 
os clientes ficarão com todas roupas, no entanto, um cliente compra nove roupas e 
fica somente com uma.
20
21
A empresa pagou pela troca supondo que o cliente ficaria com nove peças de 
roupa, mas o algoritmo não levou em consideração o comportamento do cliente, 
fazendo com que a empresa tivesse uma perda nessa transação.
A análise prescritiva, pode evitar essa perda, por exemplo apontando que a 
empresa ofertasse opções de troca na loja para clientes que fazem devoluções, 
incentivando outra compra ou notificando clientes sobre a necessidade de pagar 
pela devolução.
Análise Diagnóstica
Essa análise é feita após o trabalho, de coleta de dados e outros tipos de análises, 
serem realizados.  Perguntas importantes fundamentais para esse tipo de análise 
são: Quem fez? Quando fez? Onde fez? Por que fez?  Seu objetivo é responder à 
pergunta “Por que aconteceu?”. Nesse modelo, o foco está na relação de causas 
e consequências percebidas ao longo do tempo, dentro de um determinado tema. 
Assim, a análise diagnóstica funciona baseada na coleta de dados relacionados a 
um determinado assunto, cruzando informações com o objetivo de entender quais 
fatores influenciaram o resultado atual. Bastante utilizado em vendas, esse modelo 
funciona bem em conjunto com análises preditivas, servindo de base para as pro-
jeções futuras. Análises diagnósticas também são úteis para entender quais fatores 
devem ser ajustados em determinadas ações, a fim de obter os resultados desejados.
Figura 9 – Análise Diagnóstica
Fonte: Reprodução
Exemplo do Uso de Análise Diagnóstica: um mercado precisa vender um 
determinado produto que está no estoque, pode utilizar a análise diagnóstica para 
compreender o perfil do cliente que pode vir a comprar esse produto, criando cam-
panhas direcionadas e aumentando o ROI (retorno sobre o investimento).
Outro exemplo é que, através desse tipo de análise, pode-se chegar à conclusão 
de que a perda de clientes ocorreu porque os preços dos produtos do mercado es-
tavam altos quando comparados com a concorrência.
21
UNIDADE Análise de Dados
Material Complementar
Indicações para saber mais sobre os assuntos abordados nesta Unidade:
 Livros
Banco de dados: Projeto e Implementação
MACHADO, F. N. R. Banco de dados: projeto e implementação. São Paulo: Érica, 
2004. 398 p.
Projeto de Banco de Dados: Uma Visão Prática
MACHADO, F. N. R.; ABREU, M. P. de. Projeto de banco de dados: uma visão 
prática. 15 ed. São Paulo: Érica, 2007. 300 p.
OCA Oracle Database 11g – Administração I
WATSON, J. OCA Oracle Database 11g – Administração I. São Paulo: Bookman 
Companhia, 2009.
OCP Oracle Database 11g – Administração II
BRYLA, B. OCP Oracle Database 11g – Administração II. São Paulo: Bookman 
Companhia, 2009.
OCA Oracle Database 11g – Fundamentos I ao SQL
RAMKLASS, R.; WATSON, J. Oca Oracle Database 11g – Fundamentos I ao SQL. 
Rio de Janeiro: Alta Books, 2010
Projetando e Administrando Banco de Dados SQL Server 2000 .net: Como Servidor Enterprise
PATTON, R.; OGLE, J. Projetando e Administrando Banco de Dados SQL Server 
2000 .net: Como Servidor Enterprise. Tradução de Andréa Barbosa Bento; Cláudia 
Reali; Lineu Carneiro de Castro. Rio de Janeiro: Alta Books, 2002. 792 p.
22
23
Referências
CASTRO, L. N. de. Introdução à mineração de dados: conceitos básicos, algo-
ritmos e aplicações. São Paulo: Saraiva 2016.
BECKER, J. L. Estatística básica:  transformando dados em informação. Porto 
Alegre: Bookman, 2015.
DATE, C. J. Introdução a sistemas de bancos de dados. Tradução [8th. ed. 
Americana] de Daniel Vieira. Revisão técnica Sérgio Lifschitz. Rio de Janeiro: 
Elsevier, 2003. 865 p.
ELMASRI, R.; NAVATHE, S. B. Sistemas de banco de dados. 6.ed. São Paulo: 
Pearson, 2011.
ELMASRI, R.; NAVATHE, S. B. Sistemas de Banco de Dados. Tradução de Ma-
rília Guimarães Pinheiro et al. Revisão técnica Luis Ricardo de Figueiredo. 4. ed. 
São Paulo: Pearson Addison Wesley, 2005. 724 p.
GILLENSON, M. L. Fundamentos de sistemas de gerência de banco de dados. 
Tradução de Acauan Fernandes; Elvira Maria Antunes Uchoa. Rio de Janeiro: LTC, 
2006. 304 p.
KWECKO, V. et al. Ciência de dados aplicada na análise de processos cognitivos em 
grupos sociais: um estudo de caso. In: Brazilian Symposium on Computers in 
Education (Simpósio Brasileiro de Informática na Educação – SBIE). 2018. p. 1543.
SILBERSCHATZ, A., KORTH, H. F.; SUDARSHAN, S. Sistema de Banco de 
Dados. Tradução de Daniel Vieira. Revisão técnica Luis Ricardo de Figueiredo; 
Caetano Traina Junior. 3. ed. São Paulo: Pearson Makron Books, 2007. 778 p.
23

Continue navegando