Buscar

Fundamentos de Data Science e Análise Estatística

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 55 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 55 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 55 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

FUNDAMENTOS DE 
DATA SCIENCE E 
ANALISE ESTATISTICA 
DE DADOS
Profª. Laura Alves Pacifico
Web 03
UNIDADE 01
O que faz a Data Science ?
●
● Faz a transformação de dados em conhecimento. 
Engloba, entre outros :
●
●
●
● Estatística 
Analytics
Mineração de dados
Descoberta de conhecimento em bases de dados
Conceitos iniciais
O que faz a Data Science ?
●
●
●
● Possibilita a criação de produtos de dados 
“Enxerga mais do que o que está aparente”
Busca agregar valor aos dados e permitir novas formas 
de uso
Tecnologia e tamanho não são suficientes
● É preciso aplicar tecnologias para obter respostas sobre 
os dados
Conceitos iniciais
O que faz a Data Science ?
●
●
●
●
●
● Usa estatística, mas não somente ela
Baseada em prototipagem e programação(R, Python)
Necessita de conhecimentos de combinação de dados de 
diversas fontes
Demanda análise exploratória de dados 
Trata de situações do mundo real
Descobre relações entre os dados
Conceitos iniciais
O que é necessário saber / fazer para ser um cientista de 
dados ?
●
●
●
●
● Conhecer estatística
Trabalhar bem com matemática
Ter acesso a dados temáticos em vários graus de 
organização
Entender de linguagens como R, Python
Entender tecnologias de banco de dados como SQL e 
noSql
Conceitos iniciais
O que é necessário saber / fazer para ser um cientista de 
dados ?
●
●
● Conhecer sistemas distribuídos
Ter um olhar analítico (olhar sobre os dados, não apenas 
olhar os dados)
Entender o que se pode obter com dados adequados
● Entender o problema é fundamental
Conceitos iniciais
Um grande volume de dados
●
● Ter um volume grande de dados nem sempre significa ter 
o melhor volume de dados
Na verdade, são 3 “V” : volume, velocidade e variedade
●
●
● Volume : quanto de armazenamento preciso ?
Velocidade : qual o grau de rapidez na 
recuperação/processamento/análise?
Variedade : quão heterogêneos os dados são?
Big data : o que é ?
Os dados devem atender alguns requisitos:
●
●
●
●
● Valor : os dados valem a pena
Validade/ veracidade : os dados são válidos/verdadeiros 
Variabilidade : os conceitos permanecem constantes?
Vocabulário :o que eu necessito saber pra entender 
esses dados ?
Vantagem : qual a vantagem competitiva que posso obter 
com o correto processamento e análise dos dados ?
Tem mais alguns “V”s !!!!!
Estamos vivenciando a era digital
● Internet das Coisas (IOT)
● Câmeras, sensores, dispositivos diversos
●
● Geram um alto volume de dados
Esse conjunto enorme de dados pode ser valioso para o 
marketing das empresas
O que motivou o surgimento do data science ?
● Melhoria de relacionamento com clientes
● Liberação de crédito em bancos através de análise de 
dados
● Detecção de fraude através de dados e cliques 
suspeitos
● Busca gerar vantagem competitiva
Muitas aplicações
Ambiente atual
● Analisar oportunidades de tornar o negócio mais 
qualitativo e mais benéfico para o cliente
● Ex: Netflix, que indica filmes através de cálculos 
probabilísticos
● Google, que possui corretor automático.
Aplicações Típicas
●
●
●
●
●
●
●
●
Classificação de pesquisa 
Recomendações
Proposta de ofertas estratégicas 
Detecção de fraudes
Prevenção de furacões 
Prevenção de epidemias 
Reconhecimento de voz 
Roteamento e logística
Aplicações Típicas
Transformandodadosemoportunidades
●
●
Big Data é uma ciência que analisa dados exorbitantes 
Recomendações
● Data Mining realiza a mineração de dados por meio de 
tecnologias
● Data Science é a ciência que aplica análises de dados 
para construção de análises preditivas, análises 
sociais e de negócios.
Transformando dados em oportunidades
● Programação
● Conhecimento estatístico
● Habilidade para leitura de dados
● Decisões orientadas a dados
Composição do pensamento analítico em data 
science
Análisededados
Análise de dados
Processo de análise de dados
Python
● Python é uma linguagem de programação relativamente simples que foi criada por Guido 
Van Rossum em 1991, ela é de alto nível, interpretada e de alta produtividade
• Simples
o Elegante - Menos linhas de código comparando como Java, C, C++
o Documentação Gratuita e de fácil acesso
• Alto nível
o Abstração elevada
o Longe do código de máquina
o Próximo à linguagem humana – É como escrever uma carta
Aplicações
Aplicações
Aplicações
Aplicações
Aplicações
Instalando o Python
Entrar no site do desenvolvedor do Python: www.python.org
No rodapé do site clicar em Download
Escolher a versão do Python desejada
http://www.python.org/
Interpretada
● O código fonte é executado por um programa de computador, evita
“codifica-compila-roda”
● Alta Produtividade:
- Imperativa
- Orientada a objetos
- Funcional
IDE
Quem usa Python?
Motivação
FONTE:
Stackoverflow.
Desvantagens...
• Difficulty in Using Other
Languages :: : Talvez, ao se
aprender python a pessoa
pode ficar “mal 
acostumada”.
• Weak in Mobile 
Computing : Python tem
forte presença em 
aplicações desktop e
server platforms, mas é 
pouco visto em 
aplicações mobile.
• Gets Slow in Speed: Se velocidade
é um requisito muito importante
para determinada aplicação, então
python não é a melhor opção. Isso 
se deve ao fato de ser uma 
linguagem interpretada.
• Run-time Errors : 
Devido ao fato de ser uma
linguagem digitada
dinamicamente, podem existir 
algumas restrições relatadas 
por alguns desenvolvedores em
algumas áreas.
• Underdeveloped
Database Access
Layers : 
O acesso ao banco
de dados do
Python é
considerada
primitiva, em
relação a
tecnologias atuais.
FONTE: https://medium.com/.
– Medium Corporation.
Vantagens
Regressão Linear
● É o processo de traçar uma reta através dos dados 
em um diagrama de dispersão
● A reta resume esses dados
● É útil quando fazemos previsões.
Regressão linear
● Quando vemos uma relação em um diagrama de 
dispersão, podemos usar uma reta para resumir 
essa relação nos dados.
● Também podemos usar essa reta para fazer 
previsões a partir dos dados.
● Este processo é chamado de regressão linear.
Regressão linear
● Como ajustar uma reta aos dados ?
Regressão linear
● Etapa 1: encontre o coeficiente angular.
● Etapa 2: encontre a interceptação em y.
● Etapa 3: escreva a equação na forma y=mx+b.
Encontrando a reta apropriada
Exemplo
Encontrando a reta apropriada
Encontrando a reta apropriada
Encontrando a reta apropriada
é um recurso que nos permite estimar a
probabilidade associada à ocorrência de
determinado evento em face de um conjunto de
variáveis explanatórias
Regressão logística
Busca estimar a probabilidade da variável 
dependente assumir um determinado valor 
em função dos valores conhecidos de outras 
variáveis
Regressão logística
● Previsão de risco
● Classificações (exemplo : se uma empresa está 
dando sinais de que ficará sem pagar)
● Determinação de características
● Diversas outras aplicações
Aplicações da regressão logística
● Fornece resultados em termos de probabilidade
● Facilita a classificação de indivíduos em categorias
● É confiável
● Requer um número pequeno de suposições
● Extrai informações interessantes da massa de dados 
disponíveis
Vantagens da regressão logística
•É um termo usado em estatística para descrever 
quando um modelo estatístico se ajusta muito bem 
ao conjunto de dados anteriormente observado, 
mas se mostra ineficaz para prever novos 
resultados.
• É comum que a amostra apresente desvios causados 
por erros de medição ou fatores aleatórios
O que é sobreajuste ?
O que é sobreajuste ?
•Normalmente ocorre quanto tentamos
explicar/justificar o máximo de observações
possíveis com uma hipótese extremamente
complexa – e possivelmente incorreta.
•Ex : você resolveu contar os 4 carros que passaram na
sua rua nos últimos 5 minutos. Passaram 4 mercedes.
Significa que todos são mercedes ?
O que é sobreajuste ?
•Generalização é a capacidade deaplicar um molde 
com êxito em outros dados.
•Como fazer análises que levem a generalizações 
úteis?
•Em uma tabela, é preciso fazer treinos com um 
conjunto de linhas e aplicar em outro conjunto de 
linhas, para ver quão eficaz foi a análise preditiva.
O que é generalização ?
•Análise preditiva é prever, por exemplo, ao analisar 
(treinar) cinco compras, que existe um padrão, e se 
este padrão ocorre em outras cinco linhas (testar o 
treino ).
O que é análise preditiva ?
•Dado um conjunto de dados, a variância é uma 
medida de dispersão que mostra o quão distante 
cada valor desse conjunto está do valor central 
(médio).
• Quanto menor é a variância, mais próximos os 
valores estão da média; mas quanto maior ela é, 
mais os valores estão distantes da média.
O que é variância ?
•O cálculo da variância é obtido através da soma dos 
quadrados da diferença entre cada valor e a média 
aritmética, dividida pela quantidade de elementos 
observados.
Como calcular a variância ?
OBRIGADA :)
Ficou com alguma dúvida?
✓Fale com o tutor
✓laura.alves@sereducacional.com
mailto:laura.alves@sereducacional.com
	Slide 1
	Slide 2: UNIDADE 01
	Slide 3: Conceitos iniciais
	Slide 4: Conceitos iniciais
	Slide 5: Conceitos iniciais
	Slide 6: Conceitos iniciais
	Slide 7: Conceitos iniciais
	Slide 8: Big data : o que é ?
	Slide 9: Tem mais alguns “V”s !!!!!
	Slide 10: O que motivou o surgimento do data science ?
	Slide 11: Muitas aplicações
	Slide 12: Ambiente atual
	Slide 13: Aplicações Típicas
	Slide 14: Aplicações Típicas
	Slide 15: Transformando dados em oportunidades
	Slide 16: Transformando dados em oportunidades
	Slide 17: Composição do pensamento analítico em data science
	Slide 18: Análise de dados
	Slide 19: Análise de dados
	Slide 20
	Slide 21: Processo de análise de dados
	Slide 22: Python
	Slide 23: Aplicações
	Slide 24: Aplicações
	Slide 25: Aplicações
	Slide 26: Aplicações
	Slide 27: Aplicações
	Slide 28: Instalando o Python
	Slide 29
	Slide 30: IDE
	Slide 31: Quem usa Python?
	Slide 32: Motivação
	Slide 33: Desvantagens...
	Slide 34: Vantagens 
	Slide 35: Regressão Linear
	Slide 36: Regressão linear
	Slide 37: Regressão linear
	Slide 38: Regressão linear
	Slide 39: Encontrando a reta apropriada
	Slide 40: Exemplo
	Slide 41: Encontrando a reta apropriada
	Slide 42: Encontrando a reta apropriada
	Slide 43: Encontrando a reta apropriada
	Slide 44: Regressão logística
	Slide 45: Regressão logística
	Slide 46: Aplicações da regressão logística
	Slide 47: Vantagens da regressão logística
	Slide 48: O que é sobreajuste ?
	Slide 49: O que é sobreajuste ?
	Slide 50: O que é sobreajuste ?
	Slide 51: O que é generalização ?
	Slide 52: O que é análise preditiva ?
	Slide 53: O que é variância ?
	Slide 54: Como calcular a variância ?
	Slide 55: OBRIGADA :)

Continue navegando