Baixe o app para aproveitar ainda mais
Prévia do material em texto
Nome: Fernando Tomi Yamashita Matrícula: 2020321845 Matéria: PROGRAMAÇÃO ESTATÍSTICA Resolução de Caso N1: Atendendo as necessidades do Banco BHC De acordo com a necessidade de reestruturar a área de informação e modelos operacionais do Banco BHC, é necessário um sistema mais eficaz para a classificação de novos clientes assim a empresa precisará relacionar o uso da Programação R com o machine learning. Programação R é semelhante a programação S, é uma linguagem e ambiente para análise estatística e produção de gráficos, possuindo modelagem linear e não- linear, agrupamentos, entre outros, além de possuir como diferencial a facilidade no aprendizado, ou seja, mesmo que nunca teve contato com programação antes, vai conseguir aprender facilmente. Partindo na melhoria de um sistema eficaz para a classificação de novos clientes, é necessário transformar dados iniciais em uma base de dados analítica, assim a programação R será a mais adequada na manipulação de conjuntos de dados de tamanho médio, análises estatísticas e produção de documentos e apresentações centradas em dados. Para o armazenamento de dados de dados previamente coletados, estes passaram por processo de extração, transformação e carregamento. Esse processo é conhecido como ETL – Extract, Transform and Load. Algumas vantagens de sua utilização na otimização e integração de dados, tem condições de solucionar problemas de maior complexidade, facilidade e rapidez para codificação, os metadados (informações úteis para identificar, localizar, entender e gerenciar os dados) são gerados e mantidos de forma automática com a ferramenta, e grandes volumes conseguem extrair, transformar e carregar dados com maior velocidade e menos recursos. “E – Extract O processo de Extração de dados consiste em se comunicar com outros sistemas ou bancos de dados para capturar os dados que serão inseridos no destino, seja uma Staging Area ou outro sistema. T – Transform O processo de Transformação de Dados é composto por várias etapas: padronização, limpeza, qualidade. Dados vindos de sistemas diferentes tem padrões diferentes seja de nomenclatura ou mesmo de tipos de dados. Existem também operações de Qualidade de Dados que precisam ser feitas para que os dados sejam utilizados em análises L – Load O processo de Load é a etapa final onde os dados são lidos das áreas de staging e preparação de dados, carregados no Data Warehouse ou Data Mart Final.” Além disso, é importante ter a limpeza de dados para preparar a análise, e deste usaremos o componente tidy data (organização de dados). “Quando os conjuntos de dados estão organizados, apresentando uma estrutura específica, a manipulação é facilitada, a modelagem e a visualização, de modo que cada variável representa uma coluna, cada observação é uma linha e cada tipo de unidade de observação é uma tabela.” A linguagem R, ao passar do tempo teve melhorias, se tornando uma das ferramentas com maior utilização na análise de grandes quantidades de dados , uma vez que análise de dados é necessário para que se conheça linguagens de programação ou ferramentas, essencial em virtude que diversas empresas e setores têm o que chamamos de Big Data (uma estratégia de gerenciamento de informações abrangentes que envolvem e integram muitos tipos de dados e gerenciamentos de dados em conjunto com os dados tradicionais). O Big Data possuí características denominadas “3V” que se resumem em grandes quantidades de dados, porém com qualidade. https://www.cetax.com.br/blog/o-que-e-data-warehouse/ https://www.cetax.com.br/blog/o-que-e-data-warehouse/ “Volume – com o crescimento exponencial de dados gerados, estes sistemas conseguem armazenar esse crescimento de forma sustentada. Velocidade – a forma como as organizações olham para os dados e o impacto que os mesmos têm no seu dia a dia, a informação tem de ser trabalhada num tempo reduzido, no limite, mostrar resultados em tempo real. Variedade – os dados armazenados podem estar nos mais diversos formatos. Desde dados em estruturas tabulares, passando por estruturas como XML ou até ficheiros binários, como um vídeo ou uma música.” Portanto com a análise de dados conseguiremos aperfeiçoar os processos de trabalho com métodos para coletar, organizar e analisar os dados. Dentro da análise teremos quatro principais tipos que são: Análise Preditiva (descobrir possibilidades futuras nos dados, identificando padrões através dos dados que passaram pela base de dados); Análise Prescritiva (traçar as possíveis consequências de cada ação); Análise Descritiva (proporciona a compreensão dos dados e dos acontecimentos, de preferência, em tempo real); Análise Diagnóstica (visa compreender o que, quando, como, onde e por que das situações, permitindo avaliar os impactos e definir qual a melhor opção entre as possibilidades). Além da linguagem R, teremos em conjunto o aprendizado de máquina (machine learning) o qual conseguimos programar computadores para aprender de acordo com os dados disponíveis em seu banco de dados, já que o mesmo ajuda facilitar as soluções complexas (simplificando códigos e melhorando o desempenho), produz uma boa solução fugindo da abordagem tradicional, possui um ambiente dinâmico que se adapta a novos dados e consegue extrair informações sobre problemas complexos ou que envolvam grandes quantidades de dados. O aprendizado de máquina pode ser classificado de acordo com a quantidade e o tipo de supervisão que recebe durante o treinamento. Temos o aprendizado supervisionado que possui algumas tarefas típicas como a “classificação”, na qual a máquina é exposta em um ambiente e começa a distinguir um padrão de ações que deve realizar, além disso, a máquina realizará o ajuste do modelo (model fit) para que seja possível fazer as previsões. Já a outra tarefa é a “regressão” na qual a máquina é capaz de prever valores e dados a partir da característica do produto. Além disso também temos o aprendizado não-supervisionado, em que sua vez este não rotula em classes e é descritivo (descreve de forma concisa os dados disponíveis). Portanto a linguagem em R buscará identificar padrões ou correlações dos dados e o Machine Learning faz uso dos dados para aprender a fazer predições, e somada às mais diversas possibilidades de desenvolvimento de modelos estatísticos que oferecem resultados melhores e de forma mais rápida. Referência Bibliográfica Associação Brasileira de Normas Técnicas. “Normas Técnicas”. http://www.abnt.org.br/normas-tecnicas/normas-abnt. Acessado em 14.08.2021 BARROS, P. “Aprendizagem de Maquina: Supervisionada ou Não Supervisionada”.https://medium.com/opensanca/aprendizagem-de-maquina- supervisionada-ou-n%C3%A3o-supervisionada 7d01f78cd80a#:~:text=APRENDIZAGEM%20SUPERVISIONADA,- Nos%20%C3%A9%20dado&text=Em%20um%20problema%20de%20regress%C3% A3o,resultados%20em%20uma%20sa%C3%ADda%20discreta. Acessado em 14.08.2021 CORCOVIA, L. “90APRENDIZAGEM DE MÁQUINA E MINERAÇÃO DE DADOS: avaliação de métodos de aprendizagem”. https://revista.fatectq.edu.br/index.php/interfacetecnologica/article/view/562/357. Acessado em 14.08.2021 BIANCHI, A. “As classificações dos algoritmos de Machine Learning”. https://www.viceri.com.br/insights/as-classificacoes-dos-algoritmos-de-machine- learning Acessado em 14.08.2021 CEGATTA, I. “O conceito tidy data”. https://italocegatta.github.io/o-conceito-tidy-data/. Acessado em 14.08.2021 Autor Desconhecido. “O que é Programação ou Linguagem em R?”. https://www.ibpad.com.br/blog/comunicacao-digital/o-que-e-programacao-ou- linguagem-em-r/ . Acessado em 14.08.2021 Autor Desconhecido. “A linguagem R”. https://didatica.tech/a-linguagem-r/. Acessado em 14.08.2021 https://medium.com/opensanca/aprendizagem-de-maquina-supervisionada-ou-n%C3%A3o-supervisionada%207d01f78cd80a#:~:text=APRENDIZAGEM%20SUPERVISIONADA,-Nos%20%C3%A9%20dado&text=Em%20um%20problema%20de%20regress%C3%A3o,resultados%20em%20uma%20sa%C3%ADda%20discretahttps://medium.com/opensanca/aprendizagem-de-maquina-supervisionada-ou-n%C3%A3o-supervisionada%207d01f78cd80a#:~:text=APRENDIZAGEM%20SUPERVISIONADA,-Nos%20%C3%A9%20dado&text=Em%20um%20problema%20de%20regress%C3%A3o,resultados%20em%20uma%20sa%C3%ADda%20discreta https://medium.com/opensanca/aprendizagem-de-maquina-supervisionada-ou-n%C3%A3o-supervisionada%207d01f78cd80a#:~:text=APRENDIZAGEM%20SUPERVISIONADA,-Nos%20%C3%A9%20dado&text=Em%20um%20problema%20de%20regress%C3%A3o,resultados%20em%20uma%20sa%C3%ADda%20discreta https://medium.com/opensanca/aprendizagem-de-maquina-supervisionada-ou-n%C3%A3o-supervisionada%207d01f78cd80a#:~:text=APRENDIZAGEM%20SUPERVISIONADA,-Nos%20%C3%A9%20dado&text=Em%20um%20problema%20de%20regress%C3%A3o,resultados%20em%20uma%20sa%C3%ADda%20discreta https://medium.com/opensanca/aprendizagem-de-maquina-supervisionada-ou-n%C3%A3o-supervisionada%207d01f78cd80a#:~:text=APRENDIZAGEM%20SUPERVISIONADA,-Nos%20%C3%A9%20dado&text=Em%20um%20problema%20de%20regress%C3%A3o,resultados%20em%20uma%20sa%C3%ADda%20discreta
Compartilhar