Prévia do material em texto
Fundamentos em Data Science e Análise Estatística de Dados Fundamentos em Data Science e Análise Estatística de Dados Terce i ra Unidade Professor Adi l son da S i lva D A T A 2 1 / 0 4 / 2 0 2 3 Objetivos • Pensamento analítico de dados • Regressão logística • Vizinho e similaridade: classificação • Agrupamento e similaridade: clusterização • Pensamento analítico de decisão D A T A 2 1 / 0 4 / 2 0 2 3 D A T A 2 8 / 0 3 / 2 0 2 3 O que faz a Data Science ? ● Faz a transformação de dados em conhecimento. ● Engloba, entre outros : ● Estatística ● Analytics ● Mineração de dados ● Descoberta de conhecimento em bases de dados Conceitos iniciais D A T A 2 8 / 0 3 / 2 0 2 3 O que faz a Data Science ? ● Possibilita a criação de produtos de dados ● “Enxerga mais do que o que está aparente” ● Busca agregar valor aos dados e permitir novas formas de uso ● Tecnologia e tamanho não são suficientes ● É preciso aplicar tecnologias para obter respostas sobre os dados Conceitos iniciais D A T A 2 8 / 0 3 / 2 0 2 3 O que faz a Data Science ? ● Usa estatística, mas não somente ela; ● Baseada em prototipagem e programação(R, Python); ● Necessita de conhecimentos de combinação de dados de diversas fontes; ● Demanda análise exploratória de dados; ● Trata de situações do mundo real; ● Descobre relações entre dados. Conceitos iniciais D A T A 2 8 / 0 3 / 2 0 2 3 O que é necessário saber / fazer para ser um cientista de dados ? ● Conhecer estatística ● Trabalhar bem com matemática ● Ter acesso a dados temáticos em vários graus de organização ● Entender de linguagens como R, Python; ● Entender tecnologias de banco de dados com SQL e noSQL; Conceitos iniciais D A T A 2 8 / 0 3 / 2 0 2 3 O que é necessário saber / fazer para ser um cientista de dados ? ● Conhecer sistemas distribuídos ● Ter um olhar analítico (olhar sobre os dados, não apenas olhar os dados) ● Entender o que se pode obter com dados adequados ● Entender o problema é fundamental Conceitos iniciais D A T A 2 8 / 0 3 / 2 0 2 3 Um grande volume de dados ● Ter um volume grande de dados nem sempre significa ter o melhor volume de dados ● Na verdade, são 3 “V” : volume, velocidade e variedade ● Volume : quanto de armazenamento preciso ? ● Velocidade : qual o grau de rapidez na recuperação/processamento/ análise? ● Variedade: quão heterogeneos os dados são? Big data : o que é ? D A T A 2 8 / 0 3 / 2 0 2 3 Os dados devem atender alguns requisitos: ● Valor : os dados valem a pena ● Validade/ veracidade : os dados são válidos/verdadeiros ● Variabilidade : os conceitos permanecem constantes? ● Vocabulário :o que eu necessito saber pra entender esses dados ? ● Vantagem : qual a vantagem competitiva que posso obter com o correto processamento e análise dos dados ? Tem mais alguns “V”s !!!!! D A T A 2 8 / 0 3 / 2 0 2 3 Estamos vivenciando a era digital ● Internet das Coisas (IOT) ● Câmeras, sensores, dispositivos diversos; ● Geram um alto volume de dados; ● Esse conjunto enorme de dados pode ser valioso para o marketing das empresas; O que motivou o surgimento do data science ? D A T A 2 8 / 0 3 / 2 0 2 3 • Melhoria de relacionamento com clientes • Liberação de crédito em bancos através de análise de dados • Detecção de fraude através de dados e cliques suspeitos • Busca gerar vantagem competitiva Muitas aplicações D A T A 2 8 / 0 3 / 2 0 2 3 Ambiente atual • Michael Porter, professor de Harvard, introduziu conceitos sobre a vantagem competitiva. O diagrama mostra que as empresas precisam l idar com rivalidade de concorrentes, poder de negociação de clientes, poder de negociação de fornecedores (alguns de fato têm mais poder por apresentarem melhores condições de prazo/preço/qualidade, deixando a empresa dependente), ameaça de novos concorrentes e de produtos substitutos. D A T A 2 8 / 0 3 / 2 0 2 3 Ambiente atual • Sabendo das forças de Porter e da necessidade de vantagem competitiva e de qualidade, a aplicação de Data Science deve contemplar não só os clientes, mas deve analisar estrategicamente os dados associados a fornecedores, processos e clientes, bem como tendências macro e microeconômicas. D A T A 2 8 / 0 3 / 2 0 2 3 • Classificação de pesquisa • Recomendações • Proposta de ofertas estratégicas Detecção de fraudes • Prevenção de furacões Prevenção de epidemias Reconhecimento de voz Roteamento e logística Aplicações Típicas D A T A 2 8 / 0 3 / 2 0 2 3 • Analisar oportunidades de tornar o negócio mais qualitativo e mais benéfico para o cliente Ex: Netflix, que indica filmes através de cálculos probabilísticos; Google, que possui corretor automático. Aplicações Típicas D A T A 2 8 / 0 3 / 2 0 2 3 • Big Data é uma ciência que analisa dados exorbitantes • Recomendações • Data Mining realiza a mineração de dados por meio deTecnologias • Data Science é a ciência que aplica análises de dados para construção de análises preditivas, análises sociais e de negócios. Transformando dados em oportunidades D A T A 2 8 / 0 3 / 2 0 2 3 • Conhecimento de Programação • Conhecimento estatístico • Habilidade para leitura de dados • Decisões orientadas a dados • Tempo de experiência de aplicação Composição do pensamento analítico em data science D A T A 2 8 / 0 3 / 2 0 2 3 D A T A 2 8 / 0 3 / 2 0 2 3 D A T A 2 8 / 0 3 / 2 0 2 3 • As técnicas de regressão, classificação e clusterização citadas anteriormente podem ser utilizadas em dois tipos de mineração: método supervisionado e não supervisionado. Aplicação de correlações em métodos supervisionados e não supervisionados D A T A 2 8 / 0 3 / 2 0 2 3 • O método supervisionado é agir com resultados, por exemplo, analisar o valor de um carro por marca ou analisar a expectativa de vida pelo nível de analfabetismo. Aplicação de correlações em métodos supervisionados e não supervisionados D A T A 2 8 / 0 3 / 2 0 2 3 • Já o não supervisionado se baseia em criar opiniões depois de analisar dados, por exemplo, após a análise de dados, criar clusters. Cada tipo de técnica de correlação (regressão, classificação etc.) aplica a um método (supervisionado e não supervisionado) conforme diagrama, que mostra alguns exemplos. • Cabe citar que semelhanças e análises de links podem utilizar os dois métodos. Aplicação de correlações em métodos supervisionados e não supervisionados D A T A 2 8 / 0 3 / 2 0 2 3 Processo de análise de dados D A T A 2 8 / 0 3 / 2 0 2 3 Sistemas e forma de pensamento D A T A 2 8 / 0 3 / 2 0 2 3 Python ● Python é uma linguagem de programação relativamente simples que foi criada por Guido Van Rossum em 1991, ela é de alto nível, interpretada e de alta produtividade • Simples o Elegante - Menos linhas de código comparando como Java, C, C++ o Documentação Gratuita e de fácil acesso • Alto nível o Abstração elevada o Longe do código de máquina o Próximo à linguagem humana – É como escrever D A T A 2 8 / 0 3 / 2 0 2 3 Aplicações D A T A 2 8 / 0 3 / 2 0 2 3 Python D A T A 2 8 / 0 3 / 2 0 2 3 Python D A T A 2 8 / 0 3 / 2 0 2 3 Python D A T A 2 8 / 0 3 / 2 0 2 3 Instalando Python Entrar no site do desenvolvedor do Python: www.python.org http://www.python.org/ D A T A 2 8 / 0 3 / 2 0 2 3 ● O código fonte é executado por um programa de computador, evita “codif ica-compila-roda” ● Alta Produtividade: - Imperativa - Orientada a objetos - Funcional Interpletada D A T A 2 8 / 0 3 / 2 0 2 3 Ide D A T A 2 8 / 0 3 / 2 0 2 3 Quem usa? D A T A 2 8 / 0 3 / 2 0 2 3 • Difficulty in Using Other Languages : Talvez, ao se aprender python a pessoa pode ficar “mal acostumada”. • Weak in Mobile Computing : Python tem forte presença em aplicações desktop e server platforms, mas é pouco visto em Desvantagens... D A T A 2 8 / 03 / 2 0 2 3 Desvantagens... • Gets Slow in Speed: Se velocidade é um requisito muito importante para determinada aplicação, então python não é a melhor opção. Isso se deve ao fato de ser uma linguagem interpretada. • Run-time Errors : Devido ao fato de ser uma linguagem digitada dinamicamente, podem existir algumas restrições relatadas por alguns desenvolvedores em algumas áreas. • Underdeveloped Database Access Layers : O acesso ao banco de dados Python é considerada primitiva, em relação a tecnologias atuais D A T A 2 8 / 0 3 / 2 0 2 3 Vantagens... • Extensas bibliotecas de suporte; • Recursos de integração; • Grande produtividade ao programador; • Ampla gama de aplicações; • Programa~]ap orientada a objetos e programação funcional; • Completamente gratuita e open Source • Extensível • Simples e fácil (Writing and Reading) • Portável • Grande comunidade ao redor do mundo. D A T A 2 8 / 0 3 / 2 0 2 3 ● É o processo de traçar uma reta através dos dados em um diagrama de dispersão ● A reta resume esses dados ● É útil quando fazemos previsões. Regressão linear D A T A 2 8 / 0 3 / 2 0 2 3 ● Quando vemos uma relação em um diagrama de dispersão, podemos usar uma reta para resumir essa relação nos dados. ● Também podemos usar essa reta para fazer previsões a partir dos dados. ● Este processo é chamado de regressão linear. Regressão linear D A T A 2 8 / 0 3 / 2 0 2 3 Regressão linear ● Como ajustar uma reta aos dados ? D A T A 2 8 / 0 3 / 2 0 2 3 ● Etapa 1: encontre o coeficiente angular. ● Etapa 2: encontre a interceptação em y. ● Etapa 3: escreva a equação na forma y=mx+b. Encontrando a reta apropriada D A T A 2 8 / 0 3 / 2 0 2 3 Encontrando a reta apropriada D A T A 2 8 / 0 3 / 2 0 2 3 Encontrando a reta apropriada D A T A 2 8 / 0 3 / 2 0 2 3 Regressão logística • É um recurso que noe permite estimar a probabilidade associada à ocorrência de determinado evento em face de um conjunto de variáveis explanatórias. D A T A 2 8 / 0 3 / 2 0 2 3 • Busca estimar a probabilidade da variável dependente assumir um determinado valor em função dos valores conhecidos de outras variáveis Regressão logística D A T A 2 8 / 0 3 / 2 0 2 3 ● Previsão de risco ● Classificações (exemplo : se uma empresa está dando sinais de que ficará sem pagar) ● Determinação de características ● Diversas outras aplicações Aplicações da regressão logística D A T A 2 8 / 0 3 / 2 0 2 3 ● Fornece resultados em termos de probabilidade ● Facilita a classificação de indivíduos em categorias ● É confiável ● Requer um número pequeno de suposições ● Extrai informações interessantes da massa de dados disponíveis Vantagens da regressão logística D A T A 2 8 / 0 3 / 2 0 2 3 • É um termo usado em estatística para descrever quando um modelo estatístico se ajusta muito bem ao conjunto de dados anteriormente observado, mas se mostra ineficaz para prever novos resultados. • É comum que a amostra apresente desvios causados por erros de medição ou fatores aleatórios O que é sobreajuste ? D A T A 2 8 / 0 3 / 2 0 2 3 • Normalmente ocorre quanto tentamos explicar/justifica o máximo de observações possíveis com uma hipótese extremamente complexa – r possivelmente incorreta. Ex : você resolveu contar os 4 carros que passaram na sua rua nos últimos 5 minutos. Passaram 4 mercedes. Significa que todos são mercedes ? O que é sobreajuste ? D A T A 2 8 / 0 3 / 2 0 2 3 • Generalização é a capacidade de aplicar um molde com êxito em outros dados. • Como fazer análises que levem a generalizações úteis? • Em uma tabela, é preciso fazer treinos com um conjunto de linhas e aplicar em outro conjunto de linhas, para ver quão eficaz foi a análise preditiva. O que é generalização ? D A T A 2 8 / 0 3 / 2 0 2 3 • Análise preditiva é prever, por exemplo, ao analisar (treinar) cinco compras, que existe um padrão, e se este padrão ocorre em outras cinco linhas (testar o treino ). O que é análise preditiva ? D A T A 2 8 / 0 3 / 2 0 2 3 • Dado um conjunto de dados, a variância é uma medida de dispersão que mostra o quão distante cada valor desse conjunto está do valor central (médio). • Quanto menor é a variância, mais próximos os valores estão da média; mas quanto maior ela é, mais os valores estão distantes da média. O que é variância ? D A T A 2 8 / 0 3 / 2 0 2 3 • O cálculo da variância é obtido através da soma dos quadrados da diferença entre cada valor e a média aritmética, dividida pela quantidade de elementos observados. Como calcular a variância ? D A T A 2 8 / 0 3 / 2 0 2 3 Ficou com alguma dúvida? • Fale com o tutor • adilson.silva@sereducacional.com Apresentação baseada na aplicação criada pela professora Laura Alves Pacífico CREDITS: This presentation template was created by Slidesgo, including icons by Flaticon, infographics & images by Freepik OBRIGADO! mailto:adilson.silva@sereducacional.com http://bit.ly/2Tynxth http://bit.ly/2TyoMsr http://bit.ly/2TtBDfr Próximos Passos • Visualização do desempenho do modelo. • Evidências e probabilidades • Representação e mineração de textos. • Engenharia analítica • Outras técnicas em data science • Estratégias de negócios aplicadas a data science • Mineração de dispositivos móveis • Ética em mineração de dados Adilson da Silva Obrigado adilson.silva@sereducacional.com MODELO DE ENTRADA Slide 1 MODELO DE TÍTULO Slide 2 MODELO TEXTO Slide 3 Slide 4: Conceitos iniciais Slide 5: Conceitos iniciais Slide 6 Slide 7 Slide 8 Slide 9: Big data : o que é ? Slide 10: Tem mais alguns “V”s !!!!! Slide 11 Slide 12: Muitas aplicações Slide 13: Ambiente atual Slide 14: Ambiente atual Slide 15 Slide 16: Aplicações Típicas Slide 17: Transformando dados em oportunidades Slide 18: Composição do pensamento analítico em data science Slide 19 Slide 20 Slide 21: Aplicação de correlações em métodos supervisionados e não supervisionados Slide 22: Aplicação de correlações em métodos supervisionados e não supervisionados Slide 23: Aplicação de correlações em métodos supervisionados e não supervisionados Slide 24 Slide 25 Slide 26: Python Slide 27: Aplicações Slide 28: Python Slide 29: Python Slide 30: Python Slide 31: Instalando Python Slide 32 Slide 33 Slide 34 Slide 35 Slide 36: Desvantagens... Slide 37: Vantagens... Slide 38: Regressão linear Slide 39 Slide 40 Slide 41: Encontrando a reta apropriada Slide 42: Encontrando a reta apropriada Slide 43: Encontrando a reta apropriada Slide 44: Regressão logística Slide 45 Slide 46: Aplicações da regressão logística Slide 47: Vantagens da regressão logística Slide 48: O que é sobreajuste ? Slide 49: O que é sobreajuste ? Slide 50: O que é generalização ? Slide 51: O que é análise preditiva ? Slide 52: O que é variância ? Slide 53: Como calcular a variância ? Slide 54: OBRIGADO! MODELO FINAL Slide 55 Slide 56 Slide 57