Buscar

N1 - PROGRAMAÇÃO ESTATÍSTICA

Prévia do material em texto

Nome: Fernando Tomi Yamashita 
Matrícula: 2020321845 
Matéria: PROGRAMAÇÃO ESTATÍSTICA 
Resolução de Caso N1: 
 
 
Atendendo as necessidades do Banco BHC 
 
De acordo com a necessidade de reestruturar a área de informação e modelos 
operacionais do Banco BHC, é necessário um sistema mais eficaz para a classificação 
de novos clientes assim a empresa precisará relacionar o uso da Programação R com 
o machine learning. 
Programação R é semelhante a programação S, é uma linguagem e ambiente 
para análise estatística e produção de gráficos, possuindo modelagem linear e não-
linear, agrupamentos, entre outros, além de possuir como diferencial a facilidade no 
aprendizado, ou seja, mesmo que nunca teve contato com programação antes, vai 
conseguir aprender facilmente. 
Partindo na melhoria de um sistema eficaz para a classificação de novos 
clientes, é necessário transformar dados iniciais em uma base de dados analítica, 
assim a programação R será a mais adequada na manipulação de conjuntos de dados 
de tamanho médio, análises estatísticas e produção de documentos e apresentações 
centradas em dados. 
Para o armazenamento de dados de dados previamente coletados, estes 
passaram por processo de extração, transformação e carregamento. Esse processo 
é conhecido como ETL – Extract, Transform and Load. Algumas vantagens de sua 
utilização na otimização e integração de dados, tem condições de solucionar 
problemas de maior complexidade, facilidade e rapidez para codificação, os 
metadados (informações úteis para identificar, localizar, entender e gerenciar os 
dados) são gerados e mantidos de forma automática com a ferramenta, e grandes 
volumes conseguem extrair, transformar e carregar dados com maior velocidade e 
menos recursos. 
 
 
“E – Extract 
O processo de Extração de dados consiste em se comunicar 
com outros sistemas ou bancos de dados para capturar os 
dados que serão inseridos no destino, seja uma Staging Area ou 
outro sistema. 
T – Transform 
O processo de Transformação de Dados é composto por várias 
etapas: padronização, limpeza, qualidade. Dados vindos de 
sistemas diferentes tem padrões diferentes seja de 
nomenclatura ou mesmo de tipos de dados. 
Existem também operações de Qualidade de Dados que 
precisam ser feitas para que os dados sejam utilizados em 
análises 
L – Load 
O processo de Load é a etapa final onde os dados são lidos das 
áreas de staging e preparação de dados, carregados no Data 
Warehouse ou Data Mart Final.” 
 
Além disso, é importante ter a limpeza de dados para preparar a análise, e 
deste usaremos o componente tidy data (organização de dados). 
“Quando os conjuntos de dados estão organizados, apresentando uma 
estrutura específica, a manipulação é facilitada, a modelagem e a visualização, de 
modo que cada variável representa uma coluna, cada observação é uma linha e cada 
tipo de unidade de observação é uma tabela.” 
A linguagem R, ao passar do tempo teve melhorias, se tornando uma das 
ferramentas com maior utilização na análise de grandes quantidades de dados , uma 
vez que análise de dados é necessário para que se conheça linguagens de 
programação ou ferramentas, essencial em virtude que diversas empresas e setores 
têm o que chamamos de Big Data (uma estratégia de gerenciamento de informações 
abrangentes que envolvem e integram muitos tipos de dados e gerenciamentos de 
dados em conjunto com os dados tradicionais). O Big Data possuí características 
denominadas “3V” que se resumem em grandes quantidades de dados, porém com 
qualidade. 
 
https://www.cetax.com.br/blog/o-que-e-data-warehouse/
https://www.cetax.com.br/blog/o-que-e-data-warehouse/
“Volume – com o crescimento exponencial de dados gerados, 
estes sistemas conseguem armazenar esse crescimento de 
forma sustentada. 
Velocidade – a forma como as organizações olham para os 
dados e o impacto que os mesmos têm no seu dia a dia, a 
informação tem de ser trabalhada num tempo reduzido, no limite, 
mostrar resultados em tempo real. 
Variedade – os dados armazenados podem estar nos mais 
diversos formatos. Desde dados em estruturas tabulares, 
passando por estruturas como XML ou até ficheiros binários, 
como um vídeo ou uma música.” 
 
Portanto com a análise de dados conseguiremos aperfeiçoar os processos de 
trabalho com métodos para coletar, organizar e analisar os dados. Dentro da análise 
teremos quatro principais tipos que são: Análise Preditiva (descobrir possibilidades 
futuras nos dados, identificando padrões através dos dados que passaram pela base 
de dados); Análise Prescritiva (traçar as possíveis consequências de cada ação); 
Análise Descritiva (proporciona a compreensão dos dados e dos acontecimentos, de 
preferência, em tempo real); Análise Diagnóstica (visa compreender o que, quando, 
como, onde e por que das situações, permitindo avaliar os impactos e definir qual a 
melhor opção entre as possibilidades). 
Além da linguagem R, teremos em conjunto o aprendizado de máquina 
(machine learning) o qual conseguimos programar computadores para aprender de 
acordo com os dados disponíveis em seu banco de dados, já que o mesmo ajuda 
facilitar as soluções complexas (simplificando códigos e melhorando o desempenho), 
produz uma boa solução fugindo da abordagem tradicional, possui um ambiente 
dinâmico que se adapta a novos dados e consegue extrair informações sobre 
problemas complexos ou que envolvam grandes quantidades de dados. 
O aprendizado de máquina pode ser classificado de acordo com a quantidade 
e o tipo de supervisão que recebe durante o treinamento. Temos o aprendizado 
supervisionado que possui algumas tarefas típicas como a “classificação”, na qual a 
máquina é exposta em um ambiente e começa a distinguir um padrão de ações que 
deve realizar, além disso, a máquina realizará o ajuste do modelo (model fit) para que 
seja possível fazer as previsões. Já a outra tarefa é a “regressão” na qual a máquina 
é capaz de prever valores e dados a partir da característica do produto. Além disso 
também temos o aprendizado não-supervisionado, em que sua vez este não rotula 
em classes e é descritivo (descreve de forma concisa os dados disponíveis). 
Portanto a linguagem em R buscará identificar padrões ou correlações dos 
dados e o Machine Learning faz uso dos dados para aprender a fazer predições, e 
somada às mais diversas possibilidades de desenvolvimento de modelos estatísticos 
que oferecem resultados melhores e de forma mais rápida. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Referência Bibliográfica 
 
Associação Brasileira de Normas Técnicas. “Normas Técnicas”. 
http://www.abnt.org.br/normas-tecnicas/normas-abnt. Acessado em 14.08.2021 
 
BARROS, P. “Aprendizagem de Maquina: Supervisionada ou Não 
Supervisionada”.https://medium.com/opensanca/aprendizagem-de-maquina-
supervisionada-ou-n%C3%A3o-supervisionada 
7d01f78cd80a#:~:text=APRENDIZAGEM%20SUPERVISIONADA,-
Nos%20%C3%A9%20dado&text=Em%20um%20problema%20de%20regress%C3%
A3o,resultados%20em%20uma%20sa%C3%ADda%20discreta. Acessado em 
14.08.2021 
 
CORCOVIA, L. “90APRENDIZAGEM DE MÁQUINA E MINERAÇÃO DE DADOS: 
avaliação de métodos de aprendizagem”. 
https://revista.fatectq.edu.br/index.php/interfacetecnologica/article/view/562/357. 
Acessado em 14.08.2021 
 
BIANCHI, A. “As classificações dos algoritmos de Machine Learning”. 
https://www.viceri.com.br/insights/as-classificacoes-dos-algoritmos-de-machine-
learning Acessado em 14.08.2021 
 
CEGATTA, I. “O conceito tidy data”. https://italocegatta.github.io/o-conceito-tidy-data/. 
Acessado em 14.08.2021 
 
Autor Desconhecido. “O que é Programação ou Linguagem em R?”. 
https://www.ibpad.com.br/blog/comunicacao-digital/o-que-e-programacao-ou-
linguagem-em-r/ . Acessado em 14.08.2021 
 
Autor Desconhecido. “A linguagem R”. https://didatica.tech/a-linguagem-r/. Acessado 
em 14.08.2021 
https://medium.com/opensanca/aprendizagem-de-maquina-supervisionada-ou-n%C3%A3o-supervisionada%207d01f78cd80a#:~:text=APRENDIZAGEM%20SUPERVISIONADA,-Nos%20%C3%A9%20dado&text=Em%20um%20problema%20de%20regress%C3%A3o,resultados%20em%20uma%20sa%C3%ADda%20discretahttps://medium.com/opensanca/aprendizagem-de-maquina-supervisionada-ou-n%C3%A3o-supervisionada%207d01f78cd80a#:~:text=APRENDIZAGEM%20SUPERVISIONADA,-Nos%20%C3%A9%20dado&text=Em%20um%20problema%20de%20regress%C3%A3o,resultados%20em%20uma%20sa%C3%ADda%20discreta
https://medium.com/opensanca/aprendizagem-de-maquina-supervisionada-ou-n%C3%A3o-supervisionada%207d01f78cd80a#:~:text=APRENDIZAGEM%20SUPERVISIONADA,-Nos%20%C3%A9%20dado&text=Em%20um%20problema%20de%20regress%C3%A3o,resultados%20em%20uma%20sa%C3%ADda%20discreta
https://medium.com/opensanca/aprendizagem-de-maquina-supervisionada-ou-n%C3%A3o-supervisionada%207d01f78cd80a#:~:text=APRENDIZAGEM%20SUPERVISIONADA,-Nos%20%C3%A9%20dado&text=Em%20um%20problema%20de%20regress%C3%A3o,resultados%20em%20uma%20sa%C3%ADda%20discreta
https://medium.com/opensanca/aprendizagem-de-maquina-supervisionada-ou-n%C3%A3o-supervisionada%207d01f78cd80a#:~:text=APRENDIZAGEM%20SUPERVISIONADA,-Nos%20%C3%A9%20dado&text=Em%20um%20problema%20de%20regress%C3%A3o,resultados%20em%20uma%20sa%C3%ADda%20discreta

Continue navegando