Webaula Fundamentos erm Data Science e Análise Estatístrica de Dados- Unidade III - 20231

•

ESTÁCIO

leandro melo

11/05/2023

Prévia do material em texto

Fundamentos em Data 
Science e Análise 
Estatística de Dados
Fundamentos em Data 
Science e Análise 
Estatística de Dados
Terce i ra Unidade
Professor Adi l son da S i lva
D A T A 2 1 / 0 4 / 2 0 2 3
Objetivos 
• Pensamento analítico de dados
• Regressão logística
• Vizinho e similaridade: classificação
• Agrupamento e similaridade: clusterização
• Pensamento analítico de decisão
D A T A 2 1 / 0 4 / 2 0 2 3
D A T A 2 8 / 0 3 / 2 0 2 3
O que faz a Data Science ?
● Faz a transformação de dados em
conhecimento.
● Engloba, entre outros :
● Estatística
● Analytics
● Mineração de dados
● Descoberta de conhecimento em bases de 
dados
Conceitos iniciais
D A T A 2 8 / 0 3 / 2 0 2 3
O que faz a Data Science ?
● Possibilita a criação de produtos de dados
● “Enxerga mais do que o que está aparente”
● Busca agregar valor aos dados e permitir 
novas formas de uso
● Tecnologia e tamanho não são suficientes
● É preciso aplicar tecnologias para obter 
respostas sobre os dados
Conceitos iniciais
D A T A 2 8 / 0 3 / 2 0 2 3
O que faz a Data Science ?
● Usa estatística, mas não somente ela;
● Baseada em prototipagem e
programação(R, Python);
● Necessita de conhecimentos de
combinação de dados de diversas fontes;
● Demanda análise exploratória de dados;
● Trata de situações do mundo real;
● Descobre relações entre dados.
Conceitos iniciais
D A T A 2 8 / 0 3 / 2 0 2 3
O que é necessário saber / fazer para ser um
cientista de dados ?
● Conhecer estatística
● Trabalhar bem com matemática
● Ter acesso a dados temáticos em vários 
graus de organização
● Entender de linguagens como R, Python;
● Entender tecnologias de banco de dados 
com SQL e noSQL;
Conceitos iniciais
D A T A 2 8 / 0 3 / 2 0 2 3
O que é necessário saber / fazer para ser um
cientista de dados ?
● Conhecer sistemas distribuídos
● Ter um olhar analítico (olhar sobre os dados,
não apenas olhar os dados)
● Entender o que se pode obter com dados 
adequados
● Entender o problema é fundamental
Conceitos iniciais
D A T A 2 8 / 0 3 / 2 0 2 3
Um grande volume de dados
● Ter um volume grande de dados nem sempre
significa ter
o melhor volume de dados
● Na verdade, são 3 “V” : volume, velocidade e
variedade
● Volume : quanto de armazenamento preciso ?
● Velocidade : qual o grau de rapidez na 
recuperação/processamento/ análise?
● Variedade: quão heterogeneos os dados são?
Big data : o que é ?
D A T A 2 8 / 0 3 / 2 0 2 3
Os dados devem atender alguns requisitos:
● Valor : os dados valem a pena
● Validade/ veracidade : os dados são
válidos/verdadeiros
● Variabilidade : os conceitos permanecem
constantes?
● Vocabulário :o que eu necessito saber pra 
entender esses dados ?
● Vantagem : qual a vantagem competitiva que 
posso obter com o correto processamento e 
análise dos dados ?
Tem mais alguns “V”s !!!!!
D A T A 2 8 / 0 3 / 2 0 2 3
Estamos vivenciando a era digital
● Internet das Coisas (IOT)
● Câmeras, sensores, dispositivos diversos;
● Geram um alto volume de dados;
● Esse conjunto enorme de dados pode ser
valioso para o marketing das empresas;
O que motivou o surgimento do
data science ?
D A T A 2 8 / 0 3 / 2 0 2 3
• Melhoria de relacionamento com
clientes
• Liberação de crédito em bancos
através de análise de dados
• Detecção de fraude através de
dados e cliques suspeitos
• Busca gerar vantagem competitiva
Muitas aplicações
D A T A 2 8 / 0 3 / 2 0 2 3
Ambiente atual
• Michael Porter, professor de Harvard, 
introduziu conceitos sobre a 
vantagem competitiva. O diagrama 
mostra que as empresas precisam 
l idar com rivalidade de concorrentes, 
poder de negociação de clientes, 
poder de negociação de 
fornecedores (alguns de fato têm 
mais poder por apresentarem 
melhores condições de 
prazo/preço/qualidade, deixando a 
empresa dependente), ameaça de 
novos concorrentes e de produtos 
substitutos.
D A T A 2 8 / 0 3 / 2 0 2 3
Ambiente atual
• Sabendo das forças de Porter e 
da necessidade de vantagem 
competitiva e de qualidade, a 
aplicação de Data Science deve 
contemplar não só os clientes, 
mas deve analisar 
estrategicamente os dados 
associados a fornecedores, 
processos e clientes, bem como 
tendências macro e 
microeconômicas.
D A T A 2 8 / 0 3 / 2 0 2 3
• Classificação de pesquisa
• Recomendações
• Proposta de ofertas estratégicas 
Detecção de fraudes
• Prevenção de furacões 
Prevenção de epidemias 
Reconhecimento de voz 
Roteamento e logística
Aplicações Típicas
D A T A 2 8 / 0 3 / 2 0 2 3
• Analisar oportunidades de tornar o
negócio mais qualitativo e mais
benéfico para o cliente
Ex:
Netflix, que indica filmes através de 
cálculos probabilísticos;
Google, que possui corretor 
automático.
Aplicações Típicas
D A T A 2 8 / 0 3 / 2 0 2 3
• Big Data é uma ciência que analisa
dados exorbitantes
• Recomendações
• Data Mining realiza a mineração de
dados por meio deTecnologias
• Data Science é a ciência que aplica
análises de dados para construção de
análises preditivas, análises sociais e de
negócios.
Transformando dados em 
oportunidades
D A T A 2 8 / 0 3 / 2 0 2 3
• Conhecimento de Programação
• Conhecimento estatístico
• Habilidade para leitura de dados
• Decisões orientadas a dados
• Tempo de experiência de 
aplicação
Composição do pensamento 
analítico em data science
D A T A 2 8 / 0 3 / 2 0 2 3
D A T A 2 8 / 0 3 / 2 0 2 3
D A T A 2 8 / 0 3 / 2 0 2 3
• As técnicas de regressão, 
classificação e 
clusterização citadas 
anteriormente podem ser 
utilizadas em dois tipos de 
mineração: método 
supervisionado e não 
supervisionado. 
Aplicação de correlações em métodos 
supervisionados e não supervisionados
D A T A 2 8 / 0 3 / 2 0 2 3
• O método supervisionado é 
agir com resultados, por 
exemplo, analisar o valor de 
um carro por marca ou 
analisar a expectativa de 
vida pelo nível de 
analfabetismo. 
Aplicação de correlações em métodos 
supervisionados e não supervisionados
D A T A 2 8 / 0 3 / 2 0 2 3
• Já o não supervisionado se baseia 
em criar opiniões depois de analisar 
dados, por exemplo, após a análise 
de dados, criar clusters. Cada tipo 
de técnica de correlação (regressão, 
classificação etc.) aplica a um 
método (supervisionado e não 
supervisionado) conforme diagrama, 
que mostra alguns exemplos. 
• Cabe citar que semelhanças e 
análises de links podem utilizar os dois 
métodos.
Aplicação de correlações em métodos 
supervisionados e não supervisionados
D A T A 2 8 / 0 3 / 2 0 2 3
Processo 
de 
análise 
de 
dados
D A T A 2 8 / 0 3 / 2 0 2 3
Sistemas e 
forma de 
pensamento
D A T A 2 8 / 0 3 / 2 0 2 3
Python
● Python é uma linguagem de programação relativamente
simples que foi criada por Guido
Van Rossum em 1991, ela é de alto nível, interpretada e de alta
produtividade
• Simples
o Elegante - Menos linhas de código comparando
como Java, C, C++
o Documentação Gratuita e de fácil acesso
• Alto nível
o Abstração elevada
o Longe do código de máquina
o Próximo à linguagem humana – É como escrever
D A T A 2 8 / 0 3 / 2 0 2 3
Aplicações
D A T A 2 8 / 0 3 / 2 0 2 3
Python
D A T A 2 8 / 0 3 / 2 0 2 3
Python
D A T A 2 8 / 0 3 / 2 0 2 3
Python
D A T A 2 8 / 0 3 / 2 0 2 3
Instalando Python
Entrar no site do desenvolvedor do Python: www.python.org
http://www.python.org/
D A T A 2 8 / 0 3 / 2 0 2 3
● O código fonte é executado por um programa de
computador, evita “codif ica-compila-roda”
● Alta Produtividade:
- Imperativa
- Orientada a objetos
- Funcional
Interpletada
D A T A 2 8 / 0 3 / 2 0 2 3
Ide
D A T A 2 8 / 0 3 / 2 0 2 3
Quem usa?
D A T A 2 8 / 0 3 / 2 0 2 3
• Difficulty in Using Other Languages
: Talvez, ao se aprender python a
pessoa pode ficar “mal 
acostumada”.
• Weak in Mobile Computing :
Python tem forte presença em 
aplicações desktop e server
platforms, mas é pouco visto em
Desvantagens...
D A T A 2 8 / 03 / 2 0 2 3
Desvantagens...
• Gets Slow in Speed: Se velocidade 
é um requisito muito importante 
para determinada aplicação,
então python não é a melhor
opção. Isso se deve ao fato de ser
uma linguagem interpretada.
• Run-time Errors :
Devido ao fato de ser uma 
linguagem digitada 
dinamicamente, podem existir 
algumas restrições relatadas 
por alguns desenvolvedores em 
algumas áreas.
• Underdeveloped Database
Access Layers :
O acesso ao banco de
dados Python é considerada
primitiva, em relação a
tecnologias atuais
D A T A 2 8 / 0 3 / 2 0 2 3
Vantagens...
• Extensas bibliotecas de suporte;
• Recursos de integração;
• Grande produtividade ao programador;
• Ampla gama de aplicações;
• Programa~]ap orientada a objetos e
programação funcional;
• Completamente gratuita e open Source
• Extensível
• Simples e fácil (Writing and Reading)
• Portável
• Grande comunidade ao redor do 
mundo.
D A T A 2 8 / 0 3 / 2 0 2 3
● É o processo de traçar uma reta através
dos dados em um diagrama de dispersão
● A reta resume esses dados
● É útil quando fazemos previsões.
Regressão linear
D A T A 2 8 / 0 3 / 2 0 2 3
● Quando vemos uma relação em um
diagrama de dispersão, podemos usar
uma reta para resumir essa relação nos 
dados.
● Também podemos usar essa reta para
fazer previsões a partir dos dados.
● Este processo é chamado de regressão
linear.
Regressão linear
D A T A 2 8 / 0 3 / 2 0 2 3
Regressão linear
● Como ajustar uma reta
aos dados ?
D A T A 2 8 / 0 3 / 2 0 2 3
● Etapa 1: encontre o
coeficiente angular.
● Etapa 2: encontre a
interceptação em y.
● Etapa 3: escreva a equação
na forma y=mx+b.
Encontrando a reta apropriada
D A T A 2 8 / 0 3 / 2 0 2 3
Encontrando a reta apropriada
D A T A 2 8 / 0 3 / 2 0 2 3
Encontrando a reta apropriada
D A T A 2 8 / 0 3 / 2 0 2 3
Regressão logística
• É um recurso que noe permite 
estimar a probabilidade associada 
à ocorrência de determinado 
evento em face de um conjunto 
de variáveis explanatórias.
D A T A 2 8 / 0 3 / 2 0 2 3
• Busca estimar a probabilidade da
variável dependente assumir um
determinado valor em função dos 
valores conhecidos de outras 
variáveis
Regressão logística
D A T A 2 8 / 0 3 / 2 0 2 3
● Previsão de risco
● Classificações (exemplo : se uma
empresa está dando sinais de que 
ficará sem pagar)
● Determinação de características
● Diversas outras aplicações
Aplicações da regressão logística
D A T A 2 8 / 0 3 / 2 0 2 3
● Fornece resultados em termos de
probabilidade
● Facilita a classificação de indivíduos em
categorias
● É confiável
● Requer um número pequeno de 
suposições
● Extrai informações interessantes da massa
de dados disponíveis
Vantagens da regressão logística
D A T A 2 8 / 0 3 / 2 0 2 3
• É um termo usado em estatística
para descrever quando um modelo
estatístico se ajusta muito bem ao
conjunto de dados anteriormente
observado, mas se mostra ineficaz
para prever novos resultados.
• É comum que a amostra apresente
desvios causados por erros de medição
ou fatores aleatórios
O que é sobreajuste ?
D A T A 2 8 / 0 3 / 2 0 2 3
• Normalmente ocorre quanto 
tentamos explicar/justifica o 
máximo de observações 
possíveis com uma hipótese 
extremamente complexa – r 
possivelmente incorreta.
Ex : você resolveu contar os 4 carros que 
passaram na sua rua nos últimos 5 
minutos. Passaram 4 mercedes. Significa 
que todos são mercedes ?
O que é sobreajuste ?
D A T A 2 8 / 0 3 / 2 0 2 3
• Generalização é a capacidade de 
aplicar um molde com êxito em 
outros dados.
• Como fazer análises que levem a 
generalizações úteis?
• Em uma tabela, é preciso fazer 
treinos com um conjunto de linhas e 
aplicar em outro conjunto de linhas, 
para ver quão eficaz foi a análise 
preditiva.
O que é generalização ?
D A T A 2 8 / 0 3 / 2 0 2 3
• Análise preditiva é prever, por
exemplo, ao analisar (treinar)
cinco compras, que existe um
padrão, e se este padrão ocorre
em outras cinco linhas (testar o
treino ).
O que é análise preditiva ?
D A T A 2 8 / 0 3 / 2 0 2 3
• Dado um conjunto de dados, a
variância é uma medida de
dispersão que mostra o quão
distante cada valor desse
conjunto está do valor central 
(médio).
• Quanto menor é a variância, mais
próximos os valores estão da
média; mas quanto maior ela é, 
mais os valores estão distantes da
média.
O que é variância ?
D A T A 2 8 / 0 3 / 2 0 2 3
• O cálculo da variância é obtido 
através da soma dos quadrados 
da diferença entre cada valor e a 
média aritmética, dividida pela 
quantidade de elementos 
observados.
Como calcular a variância ?
D A T A 2 8 / 0 3 / 2 0 2 3
Ficou com alguma dúvida?
• Fale com o tutor
• adilson.silva@sereducacional.com
Apresentação baseada na aplicação criada pela professora 
Laura Alves Pacífico
CREDITS: This presentation template was created by 
Slidesgo, including icons by Flaticon, infographics & images
by Freepik
OBRIGADO!
mailto:adilson.silva@sereducacional.com
http://bit.ly/2Tynxth
http://bit.ly/2TyoMsr
http://bit.ly/2TtBDfr
Próximos Passos
• Visualização do desempenho do 
modelo.
• Evidências e probabilidades
• Representação e mineração de textos.
• Engenharia analítica
• Outras técnicas em data science
• Estratégias de negócios aplicadas a 
data science
• Mineração de dispositivos móveis
• Ética em mineração de dados
Adilson da Silva
Obrigado
adilson.silva@sereducacional.com
	MODELO DE ENTRADA
	Slide 1
	MODELO DE TÍTULO
	Slide 2
	MODELO TEXTO
	Slide 3
	Slide 4: Conceitos iniciais
	Slide 5: Conceitos iniciais
	Slide 6
	Slide 7
	Slide 8
	Slide 9: Big data : o que é ?
	Slide 10: Tem mais alguns “V”s !!!!!
	Slide 11
	Slide 12: Muitas aplicações
	Slide 13: Ambiente atual
	Slide 14: Ambiente atual
	Slide 15
	Slide 16: Aplicações Típicas
	Slide 17: Transformando dados em oportunidades
	Slide 18: Composição do pensamento analítico em data science
	Slide 19
	Slide 20
	Slide 21: Aplicação de correlações em métodos supervisionados e não supervisionados 
	Slide 22: Aplicação de correlações em métodos supervisionados e não supervisionados 
	Slide 23: Aplicação de correlações em métodos supervisionados e não supervisionados 
	Slide 24
	Slide 25
	Slide 26: Python
	Slide 27: Aplicações
	Slide 28: Python
	Slide 29: Python
	Slide 30: Python
	Slide 31: Instalando Python
	Slide 32
	Slide 33
	Slide 34
	Slide 35
	Slide 36: Desvantagens...
	Slide 37: Vantagens...
	Slide 38: Regressão linear
	Slide 39
	Slide 40
	Slide 41: Encontrando a reta apropriada
	Slide 42: Encontrando a reta apropriada
	Slide 43: Encontrando a reta apropriada
	Slide 44: Regressão logística
	Slide 45
	Slide 46: Aplicações da regressão logística
	Slide 47: Vantagens da regressão logística
	Slide 48: O que é sobreajuste ?
	Slide 49: O que é sobreajuste ?
	Slide 50: O que é generalização ?
	Slide 51: O que é análise preditiva ?
	Slide 52: O que é variância ?
	Slide 53: Como calcular a variância ?
	Slide 54: OBRIGADO!
	MODELO FINAL
	Slide 55
	Slide 56
	Slide 57