Baixe o app para aproveitar ainda mais
Prévia do material em texto
FUNDAMENTOS DE DATA SCIENCE E ANALISE ESTATISTICA DE DADOS Profª. Laura Alves Pacifico Web 03 UNIDADE 01 O que faz a Data Science ? ● ● Faz a transformação de dados em conhecimento. Engloba, entre outros : ● ● ● ● Estatística Analytics Mineração de dados Descoberta de conhecimento em bases de dados Conceitos iniciais O que faz a Data Science ? ● ● ● ● Possibilita a criação de produtos de dados “Enxerga mais do que o que está aparente” Busca agregar valor aos dados e permitir novas formas de uso Tecnologia e tamanho não são suficientes ● É preciso aplicar tecnologias para obter respostas sobre os dados Conceitos iniciais O que faz a Data Science ? ● ● ● ● ● ● Usa estatística, mas não somente ela Baseada em prototipagem e programação(R, Python) Necessita de conhecimentos de combinação de dados de diversas fontes Demanda análise exploratória de dados Trata de situações do mundo real Descobre relações entre os dados Conceitos iniciais O que é necessário saber / fazer para ser um cientista de dados ? ● ● ● ● ● Conhecer estatística Trabalhar bem com matemática Ter acesso a dados temáticos em vários graus de organização Entender de linguagens como R, Python Entender tecnologias de banco de dados como SQL e noSql Conceitos iniciais O que é necessário saber / fazer para ser um cientista de dados ? ● ● ● Conhecer sistemas distribuídos Ter um olhar analítico (olhar sobre os dados, não apenas olhar os dados) Entender o que se pode obter com dados adequados ● Entender o problema é fundamental Conceitos iniciais Um grande volume de dados ● ● Ter um volume grande de dados nem sempre significa ter o melhor volume de dados Na verdade, são 3 “V” : volume, velocidade e variedade ● ● ● Volume : quanto de armazenamento preciso ? Velocidade : qual o grau de rapidez na recuperação/processamento/análise? Variedade : quão heterogêneos os dados são? Big data : o que é ? Os dados devem atender alguns requisitos: ● ● ● ● ● Valor : os dados valem a pena Validade/ veracidade : os dados são válidos/verdadeiros Variabilidade : os conceitos permanecem constantes? Vocabulário :o que eu necessito saber pra entender esses dados ? Vantagem : qual a vantagem competitiva que posso obter com o correto processamento e análise dos dados ? Tem mais alguns “V”s !!!!! Estamos vivenciando a era digital ● Internet das Coisas (IOT) ● Câmeras, sensores, dispositivos diversos ● ● Geram um alto volume de dados Esse conjunto enorme de dados pode ser valioso para o marketing das empresas O que motivou o surgimento do data science ? ● Melhoria de relacionamento com clientes ● Liberação de crédito em bancos através de análise de dados ● Detecção de fraude através de dados e cliques suspeitos ● Busca gerar vantagem competitiva Muitas aplicações Ambiente atual ● Analisar oportunidades de tornar o negócio mais qualitativo e mais benéfico para o cliente ● Ex: Netflix, que indica filmes através de cálculos probabilísticos ● Google, que possui corretor automático. Aplicações Típicas ● ● ● ● ● ● ● ● Classificação de pesquisa Recomendações Proposta de ofertas estratégicas Detecção de fraudes Prevenção de furacões Prevenção de epidemias Reconhecimento de voz Roteamento e logística Aplicações Típicas Transformandodadosemoportunidades ● ● Big Data é uma ciência que analisa dados exorbitantes Recomendações ● Data Mining realiza a mineração de dados por meio de tecnologias ● Data Science é a ciência que aplica análises de dados para construção de análises preditivas, análises sociais e de negócios. Transformando dados em oportunidades ● Programação ● Conhecimento estatístico ● Habilidade para leitura de dados ● Decisões orientadas a dados Composição do pensamento analítico em data science Análisededados Análise de dados Processo de análise de dados Python ● Python é uma linguagem de programação relativamente simples que foi criada por Guido Van Rossum em 1991, ela é de alto nível, interpretada e de alta produtividade • Simples o Elegante - Menos linhas de código comparando como Java, C, C++ o Documentação Gratuita e de fácil acesso • Alto nível o Abstração elevada o Longe do código de máquina o Próximo à linguagem humana – É como escrever uma carta Aplicações Aplicações Aplicações Aplicações Aplicações Instalando o Python Entrar no site do desenvolvedor do Python: www.python.org No rodapé do site clicar em Download Escolher a versão do Python desejada http://www.python.org/ Interpretada ● O código fonte é executado por um programa de computador, evita “codifica-compila-roda” ● Alta Produtividade: - Imperativa - Orientada a objetos - Funcional IDE Quem usa Python? Motivação FONTE: Stackoverflow. Desvantagens... • Difficulty in Using Other Languages :: : Talvez, ao se aprender python a pessoa pode ficar “mal acostumada”. • Weak in Mobile Computing : Python tem forte presença em aplicações desktop e server platforms, mas é pouco visto em aplicações mobile. • Gets Slow in Speed: Se velocidade é um requisito muito importante para determinada aplicação, então python não é a melhor opção. Isso se deve ao fato de ser uma linguagem interpretada. • Run-time Errors : Devido ao fato de ser uma linguagem digitada dinamicamente, podem existir algumas restrições relatadas por alguns desenvolvedores em algumas áreas. • Underdeveloped Database Access Layers : O acesso ao banco de dados do Python é considerada primitiva, em relação a tecnologias atuais. FONTE: https://medium.com/. – Medium Corporation. Vantagens Regressão Linear ● É o processo de traçar uma reta através dos dados em um diagrama de dispersão ● A reta resume esses dados ● É útil quando fazemos previsões. Regressão linear ● Quando vemos uma relação em um diagrama de dispersão, podemos usar uma reta para resumir essa relação nos dados. ● Também podemos usar essa reta para fazer previsões a partir dos dados. ● Este processo é chamado de regressão linear. Regressão linear ● Como ajustar uma reta aos dados ? Regressão linear ● Etapa 1: encontre o coeficiente angular. ● Etapa 2: encontre a interceptação em y. ● Etapa 3: escreva a equação na forma y=mx+b. Encontrando a reta apropriada Exemplo Encontrando a reta apropriada Encontrando a reta apropriada Encontrando a reta apropriada é um recurso que nos permite estimar a probabilidade associada à ocorrência de determinado evento em face de um conjunto de variáveis explanatórias Regressão logística Busca estimar a probabilidade da variável dependente assumir um determinado valor em função dos valores conhecidos de outras variáveis Regressão logística ● Previsão de risco ● Classificações (exemplo : se uma empresa está dando sinais de que ficará sem pagar) ● Determinação de características ● Diversas outras aplicações Aplicações da regressão logística ● Fornece resultados em termos de probabilidade ● Facilita a classificação de indivíduos em categorias ● É confiável ● Requer um número pequeno de suposições ● Extrai informações interessantes da massa de dados disponíveis Vantagens da regressão logística •É um termo usado em estatística para descrever quando um modelo estatístico se ajusta muito bem ao conjunto de dados anteriormente observado, mas se mostra ineficaz para prever novos resultados. • É comum que a amostra apresente desvios causados por erros de medição ou fatores aleatórios O que é sobreajuste ? O que é sobreajuste ? •Normalmente ocorre quanto tentamos explicar/justificar o máximo de observações possíveis com uma hipótese extremamente complexa – e possivelmente incorreta. •Ex : você resolveu contar os 4 carros que passaram na sua rua nos últimos 5 minutos. Passaram 4 mercedes. Significa que todos são mercedes ? O que é sobreajuste ? •Generalização é a capacidade deaplicar um molde com êxito em outros dados. •Como fazer análises que levem a generalizações úteis? •Em uma tabela, é preciso fazer treinos com um conjunto de linhas e aplicar em outro conjunto de linhas, para ver quão eficaz foi a análise preditiva. O que é generalização ? •Análise preditiva é prever, por exemplo, ao analisar (treinar) cinco compras, que existe um padrão, e se este padrão ocorre em outras cinco linhas (testar o treino ). O que é análise preditiva ? •Dado um conjunto de dados, a variância é uma medida de dispersão que mostra o quão distante cada valor desse conjunto está do valor central (médio). • Quanto menor é a variância, mais próximos os valores estão da média; mas quanto maior ela é, mais os valores estão distantes da média. O que é variância ? •O cálculo da variância é obtido através da soma dos quadrados da diferença entre cada valor e a média aritmética, dividida pela quantidade de elementos observados. Como calcular a variância ? OBRIGADA :) Ficou com alguma dúvida? ✓Fale com o tutor ✓laura.alves@sereducacional.com mailto:laura.alves@sereducacional.com Slide 1 Slide 2: UNIDADE 01 Slide 3: Conceitos iniciais Slide 4: Conceitos iniciais Slide 5: Conceitos iniciais Slide 6: Conceitos iniciais Slide 7: Conceitos iniciais Slide 8: Big data : o que é ? Slide 9: Tem mais alguns “V”s !!!!! Slide 10: O que motivou o surgimento do data science ? Slide 11: Muitas aplicações Slide 12: Ambiente atual Slide 13: Aplicações Típicas Slide 14: Aplicações Típicas Slide 15: Transformando dados em oportunidades Slide 16: Transformando dados em oportunidades Slide 17: Composição do pensamento analítico em data science Slide 18: Análise de dados Slide 19: Análise de dados Slide 20 Slide 21: Processo de análise de dados Slide 22: Python Slide 23: Aplicações Slide 24: Aplicações Slide 25: Aplicações Slide 26: Aplicações Slide 27: Aplicações Slide 28: Instalando o Python Slide 29 Slide 30: IDE Slide 31: Quem usa Python? Slide 32: Motivação Slide 33: Desvantagens... Slide 34: Vantagens Slide 35: Regressão Linear Slide 36: Regressão linear Slide 37: Regressão linear Slide 38: Regressão linear Slide 39: Encontrando a reta apropriada Slide 40: Exemplo Slide 41: Encontrando a reta apropriada Slide 42: Encontrando a reta apropriada Slide 43: Encontrando a reta apropriada Slide 44: Regressão logística Slide 45: Regressão logística Slide 46: Aplicações da regressão logística Slide 47: Vantagens da regressão logística Slide 48: O que é sobreajuste ? Slide 49: O que é sobreajuste ? Slide 50: O que é sobreajuste ? Slide 51: O que é generalização ? Slide 52: O que é análise preditiva ? Slide 53: O que é variância ? Slide 54: Como calcular a variância ? Slide 55: OBRIGADA :)
Compartilhar