Prévia do material em texto
Introdução à Análise Multivariada UNIVERSIDADE DE SÃO PAULO FACULDADE DE ECONOMIA, ADMINISTRAÇÃO E CONTABILIDADE DE RIBEIRÃO PRETO DEPARTAMENTO DE CONTABILIDADE Prof. Fabiano Guasti Lima fabianoguastilima@gmail.com Pós-Graduação – 2023 1 mailto:fabianoguastilima@gmail.com Programa da Disciplina 2 Referências 3 Calendário 4 Calendário 5 Avaliações 6 Fonte: Fávero, Belfiore (2017, p. xiv), https://medium.com/omixdata DATA SCIENCE 7 Softwares Gretl http://gretl.sourceforge.net/ https://www.r-project.org/ https://www.knime.com/ 8 E para onde vamos??? https://www.youtube.com/watch?v=URbeuHzDjUM 9 https://www.youtube.com/watch?v=URbeuHzDjUM Vídeo: O prazer da estatística 10 https://www.youtube.com/watch?v=U5Q9zdIHbRU https://www.youtube.com/watch?v=U5Q9zdIHbRU ESTATÍSTICA Contabilometria Econometria Sociedade Brasileira de Econometria – SBE https://www.sbe.org.br Jurimetria Associação Brasileira de Jurimetria – ABJ https://abj.org.br 11 https://www.sbe.org.br https://abj.org.br/ Estatística Descritiva - Corresponde à coleta, organização, apresentação e resumo de dados(com diagramas e gráficos ou utilizando- se um valor resumo numérico). Inferência Estatística - Refere-se a generalizar resultados de uma amostra para uma população, estimar parâmetros desconhecidos, chegar a conclusões e tomar decisões. 12 ESTATÍSTICA AMOSTRA POPULAÇÃO P R O B A B I L I D A D E Erro Inferência 13 ESTATÍSTICA Slide Prof. Fávero 14 Não Supervisionados Supervisionados Nível de Mensuração - QUALITATIVAS - Elaboração de análises de frequência, SEM o cálculo de médias e desvios 15 ESTATÍSTICA - Qualitativa Nominal (ausência de ordenamento) - Qualitativa Ordinal Nível de Mensuração 16 ESTATÍSTICA - QUANTITATIVAS - Elaboração de análises COM a utilização de médias, variâncias, desvios, entre outras medidas. ESTATÍSTICA Slide Prof. Fávero 17 Porque a Estatística Funciona ? 18 Cuidado com as formas de apresentar os dados 19 Fonte: www.global-rates.com -500,00% 0,00% 500,00% 1000,00% 1500,00% 2000,00% 2500,00% 3000,00% 1939 1949 1959 1969 1979 1989 1999 2009 2019 Inflação - IPCA - 1940 - 2019 Fonte: IPEADATA Inflação. . . 20 -1 0 1 2 3 4 5 6 7 8 9 1939 1949 1959 1969 1979 1989 1999 2009 2019 Inflação - IPCA - 1940 - 2019 Plano Cruzado Plano Collor Plano Real Industrialização Populismo Regime Militar Democratização Estaginflação Fonte: IPEADATA – Escala Logaritmica Inflação. . . 21 Sugestão!!! 22 Parâmetro X Estatística 23 24 Conceitos e Técnicas ANÁLISE MULTIVARIADA 25 O que é análise multivariada? “De um modo geral, refere-se a todos os métodos estatísticos que simultaneamente analisam múltiplas medidas sobre cada indivíduo ou objeto sob investigação. Qualquer análise simultânea de mais de duas variáveis de certo modo pode ser considerada análise multivariada.” (HAIR et al., 2005, p.26) 26 Principais Técnicas de Análise Multivariada Técnicas de Dependência: Regressão múltipla Análise discriminante Regressão logística Técnicas de Interdependência: Análise fatorial Análise de Cluster MDS 27 Regressão múltipla Sua idéia-chave é a dependência estatística de uma variável em relação a duas ou mais variáveis independentes. Seus principais objetivos podem ser descritos como: – Encontrar a relação causal entre as variáveis. – Estimar os valores da variável dependente a partir dos valores conhecidos ou fixados das variáveis independentes. 28 Análise discriminante A variável dependente é qualitativa, podendo ser dicotômica (sim-não) ou multicotômica (alto-médio-baixo), e as variáveis independentes podem ser quantitativa ou qualitativa. Esta técnica estatística auxilia na identificação de quais variáveis conseguem diferenciar grupos ou categorias. 29 Regressão logística Técnica de análise multivariada que permite estabelecer a probabilidade de ocorrência de determinado evento para situações em que a variável dependente é qualitativa e de natureza dicotômica. Pode ser utilizada mesmo quando alguns dos pressupostos da análise discriminante não forem atendidos. 30 Análise fatorial É uma técnica multivariada de interdependência em que todas as variáveis são simultaneamente consideradas. Cada variável é relacionada com as demais, a fim de estudar as inter-relações existentes entre elas, buscando a redução ou sumarização dos dados. 31 Análise de Cluster É o nome dado ao grupo de técnicas multivariadas cuja finalidade primária é agregar objetos com base nas características que eles possuem. O objetivo é classificar uma amostra de indivíduos ou objetos em um pequeno número de grupos mutuamente excludentes, com base nas similaridades entre eles. 32 MDS O Escalonamento Multidimensional (MDS) é um procedimento que permite determinar a imagem relativa percebida de um conjunto de objetos, transformando os julgamentos de similaridade ou preferência em distâncias representadas no espaço multidimensional. 33 Examine seus dados!!! Existe algum problema com meu banco de dados? Como solucionar esses problemas? Antes de Qualquer Coisa... 34 DATA WRANGLING O Data Wrangling (manipulação de dados) é pré-requisito para o processo de visualização de dados, agregação e modelagem estatística. STATA 35 STATA * Comandos sempre em letras minúsculas 36 • Importância e aplicação do log using • Descrição da base de dados (desc) • Comandos preserve e restore • Exclusão e manutenção condicional de variáveis (keep if, drop if) • Organização de bases de dados (sort, gsort, order, duplicates) • Criação e tratamento de variáveis (bysort e suas funções, gen, egen, rename, xtile, replace) • Manipulação de variáveis (tostring, destring, encode) • Alteração do nível da base de dados (collapse) DATA WRANGLING 37 BASE DE DADOS – Data set Produtos Financeiros.dta 38 Score de Credito 2018-2020.dta Empresas.dta