Prévia do material em texto
Departamento de Estatística - Universidade de Brasília Regressão Linear Assimétrica para a Modelagem do Preço de Jogadores no Jogo FIFA 19 Filipi Brito dos Santos Orientador: Dro. Leandro Tavares Correia Brasília, 6 de Dezembro de 2019 Filipi Brito dos Santos Regressão Linear Assimétrica para a Modelagem do Preço de Jogadores no Jogo FIFA 19 Dissertação apresentada ao corpo docente do Programa de graduação, como requisito par- cial para obtenção do grau de Bacharel em Estatística Brasília, 6 de Dezembro de 2019 Lista de Figuras Figura 1 – Distribuição Half-Normal . . . . . . . . . . . . . . . . . . . . . . . . . 11 Figura 2 – Histograma de amostras simuladas da Skew-normal (µ, σ2, λ) . . . . . . 13 Figura 3 – Boxplot de amostras simuladas da Skew-Normal (µ, σ2, λ) . . . . . . . 14 Figura 4 – Distribuições da Família SMSN . . . . . . . . . . . . . . . . . . . . . . 18 Figura 5 – Modelo Y sob � ∼ SN(0, 5,−9) . . . . . . . . . . . . . . . . . . . . . . 23 Figura 6 – Categorização de Posicionamento dos Jogadores . . . . . . . . . . . . . 26 Figura 7 – Distribuição de Preço dos Jogadores . . . . . . . . . . . . . . . . . . . 28 Figura 8 – Distribuição de Preço dos Jogadores por Posicionamento . . . . . . . . 29 Figura 9 – Matriz de Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Figura 10 – Atributos dos Jogadores por Posicionamento . . . . . . . . . . . . . . . 31 Figura 11 – Diagrama de Dispersão: ln(preço) versus Atributos por Posicionamento 32 Figura 12 – Distribuição do ln(preço) por Nível de Reputação Internacional . . . . 33 Figura 13 – Distribuição do Salário por Posicionamento . . . . . . . . . . . . . . . 33 Figura 14 – Distribuição do Overall por Posicionamento . . . . . . . . . . . . . . . 34 Figura 15 – Distribuição de Idade por Posicionamento . . . . . . . . . . . . . . . . 35 Figura 16 – Distribuição dos Resíduos - Abordagem Clássica . . . . . . . . . . . . . 39 Figura 17 – Distribuição dos Resíduos I - Família SMSN . . . . . . . . . . . . . . . 40 Figura 18 – Distribuição dos Resíduos II - Família SMSN . . . . . . . . . . . . . . 41 Figura 19 – Gráfico de dispersão dos Resíduos . . . . . . . . . . . . . . . . . . . . . 42 Lista de Tabelas Tabela 1 – Estimativas do Estudo Simulado . . . . . . . . . . . . . . . . . . . . . 24 Tabela 2 – Agrupamento de Atributos dos Jogadores . . . . . . . . . . . . . . . . 27 Tabela 3 – Medidas Descritivas: Preço do Jogador . . . . . . . . . . . . . . . . . . 29 Tabela 4 – Coeficiente de Pearson: ln(preço) versus Atributos por Posicionamento 32 Tabela 5 – Ajuste de Modelos I - Abordagem Clássica . . . . . . . . . . . . . . . . 36 Tabela 6 – Ajuste de Modelos II - Abordagem Clássica . . . . . . . . . . . . . . . 38 Tabela 7 – Ajuste de Modelos - Família SMSN . . . . . . . . . . . . . . . . . . . . 39 Tabela 8 – Medidas Descritivas dos Resíduos . . . . . . . . . . . . . . . . . . . . . 40 Tabela 9 – Medidas de Informação dos Modelos . . . . . . . . . . . . . . . . . . . 42 Resumo Atualmente, para diversos fenômenos não é razoável assumir o pressuposto de normalidade da variável resposta. Nesses casos, a transformação de variáveis é o método mais comumente utilizado na modelagem preditiva, porém uma série de desvantagens estão atreladas ao trabalhar-se dessa forma. Tendo isso em vista, Azzalini desenvolveu em 1985 uma fórmula capaz de gerar a versão perturbada de distribuições simétricas, por meio do parâmetro de assimetria λ. Para tanto, o presente trabalho visa estudar e aplicar a um conjunto de dados a família de modelos da skew-normal, uma versão assimétrica da distribuição normal clássica. Para isso, o conjunto de dados do fantasy game FIFA 19 foi escolhido, pois busca-se elaborar uma ferramenta capaz de prever o valor médio do jogador, com base em um perfil conhecido. Palavras-Chave: skew-normal, Azzalini, assimetria, fifa, família SMSN Sumário 1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 3 DISTRIBUIÇÕES ASSIMÉTRICAS . . . . . . . . . . . . . . . . . . 10 3.1 Fórmula de Azzalini . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3.2 Distribuição Skew-Normal . . . . . . . . . . . . . . . . . . . . . . . . . 10 3.2.1 Distribuição Half-Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.2.2 Forma Estocástica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.2.3 Abordagem de Henze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.2.4 Propriedades da Skew-Normal . . . . . . . . . . . . . . . . . . . . . . . . 15 4 MISTURAS DE ESCALA DA NORMAL ASSIMÉTRICA . . . . . . 16 4.1 Forma Estocástica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 4.2 Propriedades da Família SMSN . . . . . . . . . . . . . . . . . . . . . 18 5 O MODELO DE REGRESSÃO LINEAR . . . . . . . . . . . . . . . . 19 5.1 Modelo de Regressão Linear SMSN . . . . . . . . . . . . . . . . . . . 19 5.2 Estimação via Algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . 19 5.2.1 Forma Estocástica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 5.2.2 Passo E . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 5.2.3 Passo M . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 5.2.4 Abordagem CM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 6 ESTUDO SIMULADO . . . . . . . . . . . . . . . . . . . . . . . . . . 23 7 BANCO DE DADOS . . . . . . . . . . . . . . . . . . . . . . . . . . 25 7.1 Perfil do Jogador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 7.2 Posicionamento em Campo . . . . . . . . . . . . . . . . . . . . . . . . 25 7.3 Atributos do Jogador . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 8 ANÁLISE DESCRITIVA . . . . . . . . . . . . . . . . . . . . . . . . . 28 8.1 Preço do Jogador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 8.2 Variáveis Explicativas . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 8.2.1 Atributos do Jogador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 8.2.2 Reputação Internacional . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 8.2.3 Salário . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 8.2.4 Overall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 8.2.5 Idade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 9 ANÁLISE DE MODELAGEM . . . . . . . . . . . . . . . . . . . . . . 36 9.1 Abordagem via Modelo com Erro Normal . . . . . . . . . . . . . . . 36 9.2 Abordagem SMSN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 9.3 Análise de Diagnóstico . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 9.4 Seleção de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 9.5 Interpretação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 10 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 A PROGRAMAÇÃO IMPLEMENTADA . . . . . . . . . . . . . . . . . 48 7 1 Introdução "Inferência estatística consiste no ramo que tem por objetivo realizar conclusões para a população por meio de amostras"(MORETTIN;BUSSAB, 2017). Tal fato torna-se necessário por diversos motivos: Recursos financeiros e humanos limitados, população inacessível, tempo disponível para pesquisa insuficiente, dentre outros. Com isso, o desenvolvimento de modelagens preditivas torna-se indispensável. Pois segundo Montgomery e Peck (1992), tais técnicas consistem em um conjunto de um ou mais modelos probabilísticos, cuja finalidade é representar sistemas de interesse em termos de suas características, a partir de amostras. Nesse contexto, a distribuição normal destaca-se por ser bastante utilizada como suposição necessária na modelagem preditiva de dados e desenvolvimento de técnicas estatísticas, devido a suaspropriedades probabilísticas. Uma característica primordial dessa distribuição é a simetria. Com isso, surge a necessidade de que os dados também possuam uma distribuição simétrica para que a suposição de normalidade seja aceita e os resultados obtidos na modelagem sejam efetivos e confiáveis. Porém, de acordo com Garay (2013), por motivos de sua própria natureza, em diversas aplicações não é razoável assumir esse pressuposto. A renda em países com alto índice de desigualdade ou qualquer outro fenômeno que apresente valores discrepantes são exemplos que certamente possuem dados distribuídos assimetricamente. Com o intuito de aproximar dados assimétricos da normalidade, a transformação de variáveis é o método mais comumente utilizado. Embora estes procedimentos possam ser aplicados com sucesso em algumas situações, de acordo com Azzalini e Capitanio (1999), existem algumas desvantagens em trabalhar com essas transformações. A citar: • A transformação não fornece informação útil para entender o mecanismo de geração dos dados; • Dificulta a interpretação, especialmente quando temos diversas variáveis de interesse e cada uma é transformada usando diferentes funções; • A transformação para um conjunto de dados pode frequentemente não ser aplicável a outros conjuntos de dados; • Quando a suposição de homocedasticidade é necessária, algumas vezes a transforma- ção requerida difere da transformação para alcançar a normalidade. Capítulo 1. Introdução 8 Com base na literatura estatística, diversos estudiosos buscaram desenvolver modelos mais flexíveis que contornassem o problema de assimetria dos dados e fossem menos suscetíveis a caudas pesadas. O trabalho que despertou maior interesse na comunidade científica deste tema foi o artigo de Azzalini em 1985 que propôs uma extensão para o modelo normal univariado e em 1996, para a normal multivariada. A sua principal proposta para a classe de modelos específicos da distribuição normal assimétrica ou skew-normal, é uma generalização da distribuição normal tradicional, em que existe um parâmetro de controle λ para o nível de assimetria. Conforme Garay et al. (2013), atualmente essa classe de modelos assimétricos tem sido bastante utilizada com o objetivo de estender técnicas estatísticas tradicionais, baseados na suposição de normalidade. A citar: Arellano-Valle et al. (2005) propuseram um modelo de regressão com erros nas variáveis, com covariável latente e erros de observação normais assimétricos e Bazán et al. (2006) estenderam o modelo de teoria da resposta ao item com função de ligação probit, substituindo-a por uma função de ligação linear skew-probit. Essas aplicações também foram realizadas em diferentes subáreas: para modelar dados psiquiátricos por Counsell et al. (2011), misturas de densidades por Lin et al. (2007) e diversas outras. Com base no cenário apresentado acima, busca-se estudar e ajustar os modelos de regressão linear skew-normal e clássico a um conjunto de dados do jogo FIFA 19, com o intuito de verificar a melhor adequabilidade. Isso é razoável, pois espera-se criar uma ferramenta capaz de prever o valor médio do jogador, com base em um perfil definido pelo usuário. Com isso, o processo de busca no game seria melho- rado significativamente. Para isso, este trabalho será desenvolvido à luz dos estudos desenvolvidos por Azzalini (1985, 2013), Garay et al. (2011, 2013) e diversos outros autores. Uma breve revisão bibliográfica da classe de modelos skew-normal e algumas de suas misturas de escala (Família SMSN) poderão ser vistas nos Capítulos 3 e 4. O Capítulo 5 destina-se a definição do modelo linear e ao método de estimação dos parâmetros via algoritmo EM. Após isso, um estudo simulado é abordado no Capítulo 6 com o intuito de ilustrar o mecanismo de geração de dados e o processo de estimação pela Máxima Verossimilhança. Por fim, será acompanhado nos capítulos restantes, a descrição do banco de dados, sua análise descritiva, a modelagem preditiva e interpretação do melhor modelo ajustado. 9 2 Metodologia O desenvolvimento do presente trabalho consiste em estudar e aplicar a classe de modelos skew-normal a um conjunto de dados do jogo FIFA 19, extraído do portal Kaggle. Nele, podem ser encontrados os principais atributos, posicionamento, preço e salário de jogadores profissionais do futebol internacional. Simplificadamente, busca-se promover um estudo comparativo entre os ajustes de métodos convencionais, contendo a distribuição do erro normal e da Família Scale Mixture of Skew-Normal (SMSN), a fim de identificar suas principais vantagens, desvantagens e elucidar o modelo de melhor capacidade explicativa da variável resposta "Preço do jogador". Utilizado como instrumento de auxílio, o software livre R 3.6 desempenhou papel primordial, do ponto de vista computacional, no desenvolvimento do relatório proposto. Azzalini e Garay desenvolveram pacotes que já abordam o tema trabalhado e estão disponíveis na biblioteca CRAN. sn e nlsmsn são alguns exemplos de funções que serão utilizadas para o ajuste dos modelos. 10 3 Distribuições Assimétricas 3.1 Fórmula de Azzalini Seja uma função de probabilidade simétrica f0 denominada Densidade Base. A fór- mula elaborada por Azzalini (1985) permite gerar uma versão perturbada ou modulada (assimétrica) de f0, e é expressa por: h(z) = 2f0(z)G0 {w(z)} (−∞ < z <∞), (3.1) onde: • h(z) é a densidade de probabilidade assimétrica gerada; • f0(z) é uma densidade de probabilidade simétrica em torno da origem; • G0(y) é uma função de distribuição acumulada (fda) de outra função de distribuição simétrica em torno de uma origem qualquer; • w(z) é uma função ímpar qualquer. Ao adotar distribuições normal padrão N(0, 1) à função de probabilidade f0(·) = φ(·) e à fda G0(·) = Φ(·), respectivamente. E ainda, w(z) = λz, com λ ∈ R, é obtida a classe de distribuições skew-normal (normal assimétrica). A demonstração pode ser acompanhada em Azzalini (2013) e discutiremos melhor a respeito de suas propriedades a seguir: 3.2 Distribuição Skew-Normal Como citado anteriormente, entre as várias famílias de distribuição que podem ser geradas a partir da equação (3.1), uma importante aplicação é à normal. Segundo Garay et al. (2013), uma variável aleatória Z tem distribuição skew-normal, com parâmetro de locação µ, parâmetro de escala σ2 > 0 e parâmetro de forma λ ∈ R, sob notação Z ∼ SN(µ, σ2, λ), se sua densidade é dada por SN(z|µ, σ2, λ) = 2φ(z|µ, σ2)Φ ( λ(z − µ) σ ) (3.2) onde φ(z|µ, σ2) = 1 σ √ 2πe − 12 ( z−µ σ )2 e Φ(·) trata-se da sua fda associada. Observe que para λ = 0, obtém-se Φ(0) = 12 . Dessa forma, a distribuição perturbada é reduzida à normal usual. Capítulo 3. Distribuições Assimétricas 11 Existem outras formas de definir a distribuição skew-normal. As representações por forma estocástica e abordagem probabilística de Henze são algumas delas. Verificar características com maior facilidade, propriedades da distribuição e gerar observações para uma variável aleatória são exemplos de benefícios proporcionados por essas representações, e a seguir, será tratado mais detalhadamente cada uma delas. 3.2.1 Distribuição Half-Normal Antes de apresentar as diferentes formas de expressar a skew-normal, deve-se introduzir a distribuição Half-Normal Generalizada (HNG), com o intuito de compreender um caso particular, a Half-Normal (HN). Cooray e Ananda (2008) definem uma variável aleatória X não negativa que segue a distribuição HNG com parâmetro de escala σ > 0 e de forma λ > 0 quando tem a sua densidade dada por: f(x|λ, σ) = 2λ σ ( x σ )(λ−1) φ [( x σ )λ] (3.3) onde, x > 0 e φ(·) trata-se de uma distribuição Normal Padrão. Ao anexar λ = 1, obtém-se a distribuição HN(µ, σ) de nosso interesse. Veja no gráfico abaixo o seu comportamento para diferentes valores de σ > 0. Figura 1 – Distribuição Half-Normal Fonte: Página Mathworks Capítulo 3. Distribuições Assimétricas 12 3.2.2 Forma Estocástica Segundo Garay et al. (2013), seja (Z,X) um vetor aleatório com distribuição normalbivariada dada por Z X ∼ N2 µ 0 , σ2 σδ σδ 1 (3.4) onde: • δ = λ√1+λ2 ; • Marginalmente, Z ∼ N(µ, σ2) e X ∼ N(0, 1); • δ é o Coeficiente de Correlação entre X e Z. Dessa forma, a distribuição de Z|(X > 0) tem densidade f(z) = P (X > 0)−1P (X > 0|Z = z)φ(z|µ, σ2) O cálculo da probabilidade P (X > 0|Z = z) pode ser obtido através da teoria de distribuição condicional para vetores aleatórios com distribuição normal bivariada. Uma demonstração pode ser vista no livro Johnson & Wichern (2007, Cap. 4). Assim, a distribuição condicional de X|Z = z é dada por X|Z = z ∼ N ( δ(z−µ) σ , 1− δ2 ) Implicando em P (X > 0|Z = z) = 1− Φ ( −δ(z−µ) σ √ 1−δ2 ) = Φ ( λ(z−µ) σ ) pois, λ = δ√1−δ2 Dessa forma, verifica-se que a distribuição Z|(X > 0) é SN(µ, σ2, λ). 3.2.3 Abordagem de Henze Segundo Henze (1986), sejam T ∼ HN(0, 1) e V ∼ N(0, 1) variáveis aleatórias independentes. Considere ainda a seguinte escrita para a variável aleatória Z: Z = µ+ σδT + σ(1− δ2) 12V, onde δ ∈ (−1, 1) (3.5) Então, Z ∼ SN(µ, σ2, λ), onde λ = δ√1−δ2 Capítulo 3. Distribuições Assimétricas 13 A demonstração, bem como a prova podem ser acompanhadas em Henze (1986). A Figura 1, representa histogramas de duas amostras de tamanho n = 100 e n = 1000 que seguem distribuiçao skew-normal e foram simuladas a partir da abordagem de Henze. No painel superior foi assumido (µ, σ2, λ) = (0, 5, 13) e inferior (µ, σ2, λ) = (1, 4,−15), com n = 100 à esquerda e n = 1000, à direita. Perceba que à medida que o tamanho amostral cresce, a forma assimétrica da distribuião torna-se mais bem definida. Figura 2 – Histograma de amostras simuladas da Skew-normal (µ, σ2, λ) Veja também pela Figura 2, que para os casos de n = 1000, cresce consideravelmente o número de observações discrepantes. Capítulo 3. Distribuições Assimétricas 14 Figura 3 – Boxplot de amostras simuladas da Skew-Normal (µ, σ2, λ) Garay et al. (2013), trata uma forma mais interessante de escrever a representação (3.5). Pois, através dela, uma série de propriedades da distribuição skew-normal podem ser obtidas. Essa reparametrização pode ser escrita como: ∆ = σδ e Γ = σ2(1− δ2) Ou seja, se Z ∼ SN(µ, σ2, λ), então pode-se escrever Z = µ+ ∆T + ΓV, onde T ∼ HN(0, 1) e V ∼ N(0, 1) são independentes. (3.6) Com essa reparametrização, Z ∼ SN(µ,Γ,∆) admite a seginte representação estocás- tica Z|T = t ∼ N(µ+ ∆t,Γ), T ∼ HN(0, 1) (3.7) Onde por definição, os parâmetros originais podem ser obtidos pela relação λ = ∆√Γ e σ 2 = Γ + ∆2 Capítulo 3. Distribuições Assimétricas 15 3.2.4 Propriedades da Skew-Normal As propriedades da distribuição skew-normal foram amplamente exploradas por Azzalini (1985) e abaixo podemos verificar, simplificadamente, algumas delas. Considere Z ∼ SN(µ,Γ,∆) • SN(µ,Γ, 0) = N(µ,Γ); • Mx(t) = 2e t2 2 Φ(δt); • E[Z] = µ+ √ 2 π ∆; • V ar[Z] = ∆2(1− 2 π ) + Γ; • γ1 = a1δ 3 (1− 2 π δ2) 3 2 ; • γ2 = 3− 2 π δ2[6−a2δ2] (1− 2 π δ2)2 − 3. onde, a1 = 2( 2π ) 3 2 − √ 2 π e a2 = (4− 6π ) Para acompanhar detalhadamente os resultados expostos em 3.2.4, ver Azzalini (2013). 16 4 Misturas de Escala da Normal Assimétrica No caso normal simétrico, é possível gerar uma classe de distribuições que acomodem observações discrepantes ou caudas pesadas a partir da mistura de densidades de probabilidade de diferentes distribuições independentes (Ver Andrews e Mallows, 1974). Essas misturas de escala geram uma classe de distribuição conhecida como Família SMN (Scale Mixture of Normal). Basicamente, busca-se gerar Y , uma mistura de escala da normal a partir do fator de escala U e sua densidade misturadora h(·|v). Distribuições t-student, normal contaminada e slash são alguns exemplos bastante conhecidos gerados a partir dessas misturas. Nesse contexto, Branco e Dey (2001) estenderam o trabalho de Andrews e Mallows (1974), ao substituir a suposição de normalidade simétrica pela assimétrica. Assim, foi criada a classe das distribuições normais assimétricas independentes, a Família SMSN (Scale Mixture of Skew-Normal) que tem o objetivo de acomodar os outliers, analogamente ao caso simétrico. Dessa forma, Branco e Dey (2001) definem que a distribuição da variável aleató- ria Y está na família das distribuições normais assimétricas independentes quando Y = µ + U− 12X, onde µ ∈ R, X ∼ SN(0, σ2, λ), U é uma variável aleatória positiva, independente de X, com densidade h(·|v) e Y |U = u ∼ SN(µ, u−1σ2, λ). Assim, Prates et al. (2013) denotam uma Y ∼ SMSN(µ, σ2, λ, v), com v graus de liberdade (gl) se sua densidade é dada por Y = 2 ∫ ∞ 0 φ(y|µ, u−1σ2)Φ(u 12λ′σ−1(y − µ))h(u|v)du. (4.1) Abaixo veremos a utilização de alguns fatores de escala apresentados por Ferreira et al. (2011), com o intuito de gerar versões assimétricas das distribuições que estão na família Scale Mixture of Normal (SMN) a partir de (4.1): • Se P (U = 1) = 1, obtém-se a distribuição skew-normal, • Para U ∼ Γ(v2 , v 2) com v > 0, obtém-se a skew-t com densidade: ST (y) = t(y|µ,2 , v)Tv ( λ(y−µ) σ √ v+1 d2(y)+v ) , onde d2(y) = (y−µ) 2 σ2 e Tv(·) é a função de distribuição da t-Student com v g.l Capítulo 4. Misturas de Escala da Normal Assimétrica 17 • Se U ∼ β(v, 1) com v > 0, obtém-se a distribuição skew-slash, com densidade dada por SSL(y) = 2v ∫ 1 0 u v−1φ(y|µ, u−1σ2)Φ(u 12λσ−1(y − µ))du • Se U é binária com P (U = τ) = ρ = 1− P (U = 1), onde 0 < τ , ρ < 1 (e portanto v = (τ, ρ)′), obtém-se a distribuição skew-normal contaminada com densidade SCN(y) = 2[ρφ(y|µ, τ−1σ2)Φ(τ 12λσ−1(y − µ)) + (1− ρ)φ(y|µ, σ2)Φ(λσ−1(y − µ))] Evidentemente, se fizermos λ = 0, obteremos para cada uma das misturas a sua respectiva versão simétrica da Família SMN. 4.1 Forma Estocástica Assim como na forma apresentada para a skew-normal na subseção 3.2.3, será apresentada uma representação estocástica para as variáveis aleatórias com distribuição na família SMSN. Ela é muito importante, pois fornece um mecanismo eficiente para a ge- ração de observações e possibilita a criação de algoritmos de estimação para o modelo linear. Segundo Garay et al. (2011), seja Y ∼ SMSN(µ, σ2, λ, v). Então Y possui a seguinte representação estocástica Y |T = t, U = u ∼ N(µ+ ∆t, u−1Γ); T |U = u ∼ HN(0, u−1); U ∼ h(·|v); onde, ∆ = σδ e Γ = σ2(1− δ2), com δ = λ√1+λ2 . A Figura 3 ilustra e compara a forma de cada uma das distribuições definidas anteriormente. Para gerá-las sob σ2 = 1 e λ = 15, os parâmetros adotados foram: N(4) para Normal, SN(4) para a skew-normal, ST (4, 1) para a skew-t, SSL(4, 1) para a skew-slash e SCN(4; 0.8, 0.2) para a normal contaminada. Note que todas as distribuições assimétricas possuem como característica o achatamento Leptocúrtico. O que indica a presença de caudas mais pesadas. Entretanto, é perceptível que a skew-slash e skew-normal contaminada são mais apropriadas para acomodar valores discrepantes. Capítulo 4. Misturas de Escala da Normal Assimétrica 18 Figura 4 – Distribuições da Família SMSN 4.2 Propriedades da Família SMSN Assim, Lachos et. al (2014) encontraram os seguintes resultados para os momentos da forma estocástica: • Se E[U− 12 ] <∞, então E[Y ] = µ+ ( 2 π ) 12E[U− 12 ]∆; • Se E[U−1] <∞, então V ar[Y ] = σ2(E[U−1]− ( 2 π )E2[U− 12 ]δ2); • Se E[U− 12 ] <∞, então γ1 = δ(a1+a2δ 2) (k2− 2π k 2 1δ 2) 3 2 • Se E[U− 12 ] <∞, então γ2 = 3k4− 2π k1δ 2[a3−a4δ2] (k2− 2π k 2 1δ 2)2 − 3 onde, km = E[U− m 2 ]; a1 = 3( 2π ) 1 2 (k3 − k1k2) a2 = 2( 2π ) 3 2k31 − ( 2π ) 1 2k3; a3 = 6(2k3 − k1k2); a4 = 4k3 − 6πk 3 1 Com isso, verificamos que o cáculo desses coeficientes dependem somente dos momentos de U− 12 . 19 5 O Modelo de Regressão Linear A partir de agora, será tratado a respeito da estimação dos parâmetros para um modelo de regressão linear do ponto de vista clássico, sob erros de observação com distribuição na Família SMSN, onde a forma estocástica tratada na subseção 4.1, desempenhará papel primordial no processo de determinação do algoritmo iterativo. 5.1 Modelo de Regressão Linear SMSN O modelo de regressão linearSMSN aqui utilizado, possui erros de mensuração com distribuição SMSN e é difinido por Garay et al. (2011) como Yi = xTi β + �i, i = 1, ..., n, (5.1) onde: • �i ∼ SMSN((− 2π ) 1 2k1∆, σ2, λ,v), com �i = 1, ..., n e k1 = E[U− 1 2 ] variáveis aleatórias independentes. O parâmetro de locação dos erros provém da Seção 4.2, onde E[�i] = 0, de tal forma que E[Yi] = xTi β, como no modelo de regressão usual, • Yi consiste na variável resposta para i = 1, ..., n, • x = (xi1, ..., xip)T é um vetor com valores de p variáveis explicativas para o i-ésimo elemento, com i = 1, ..., n, • β = (β1, ..., βp)T é o vetor dos coeficientes de regressão. 5.2 Estimação via Algoritmo EM O método de estimação dos parâmetros do modelo de regressão linear SMSN se baseará numa adaptação da proposição original feita por Dempster et al. (1977) e elucidada por Garay et al. (2011, 2013) em trabalhos que tratam do caso não linear. Consiste em realizar a estimação por máxima verossimilhança por meio de um algoritmo EM (Expectation-Maximization), considerando a representação do modelo em "dados aumentados". Uma representação estocástica em termos de distribuições mais tratáveis, que em geral, dependem de quantidades não observáveis, chamados de "missing values". A estrutura para a Família SMSN deste tipo foi tratada na seção 4.1 deste relatório, onde T e U são variáveis não observáveis. Capítulo 5. O Modelo de Regressão Linear 20 De acordo com Garay et al. (2011, 2013), A ideia do procedimento é obter uma log-verossimilhança aumentada - chamada de log-verossimilhança completa. Ou seja, supondo que T e U fossem de fato observadas, amostras Ti e Ui seriam geradas. No passo E substitui-se os valores das "observações"de Ti e Ui (ti e ui) por E[Ti|Y = y] e E[Ui|Y = y], onde Y é o vetor de amostras efetivamente observáveis. E no passo M, a função resultante deste processo é maximizada nos parâmetros do modelo. 5.2.1 Forma Estocástica Então, seja Y = (Y1, ..., Yn)T uma amostra aleatória proveniente do modelo de regressão SMSN. Pela representação dada em 4.1, dado Ui = ui temos que Yi = xTi β + b+ u − 12 i Ti + u 1 2 i Γ 1 2Vi, i=1,...,n. onde, • b = (− 2 π ) 12k1; • Ti ∼ HN(0, 1) e V ∼ N(0, 1) independentes, para cada i = 1, ...n; • b+ u− 1 2 i Ti ∼ TN(b, u−1i ; (b,∞)), i = 1, ...n. Dessa forma, Garay et al. (2011) define que representação estocástica do modelo pode ser escrita como Yi|Ui = ui, Ti = ti ∼ N(xTi β + ∆ti, u−1i Γ); Ti|Ui = ui ∼ TN(b, u−1i ; (b,∞)); Ui ∼ h(·|v). 5.2.2 Passo E Sejam y = (y1, ..., yn)T um vetor observado, t = (t1, ..., tn)T e u = (u1, ..., un)T vetores não observáveis. A menos de constantes não importantes, a função de log-verossimilhança completa para θ = (βT , σ2, λ)T associada a (yT , tT , uT ) é dada por: lc(θ|y, t, u) = n 2 log Γ− 1 2Γ n∑ i=1 ui(yi − xTi β −∆ti)2. (5.2) A partir daqui, ξ̂ ≡ g(θ̂) será denotado um estimador de ξ ≡ g(θ) e E[·|θ, yi] é o valor esperado, supondo que o vetor θ contém os verdadeiros paramâmetros, dado Y = yi. Seja ξ̂(k) uma atualização da estimativa gerada pelo EM no passo k. As seguintes esperanças são importantes Capítulo 5. O Modelo de Regressão Linear 21 ûi (k) = E[Ui|θ̂(k), yi]; ûti (k) = E[UiTi|θ̂(k), yi] ; ût2i (k) = E[UiT 2i |θ̂(k), yi]. Utilizando propriedades de esperança condicional, obtém-se ûti (k) = ûi(k)(µ̂T i(k) + b) + M̂T (k) τ̂1 (k), ût2i (k) = ûi(k)(µ̂T i(k) + b)2 + M̂T 2(k) + M̂T (k)(µ̂T i(k) + 2b)τ̂1(k). onde, τ̂1 (k) = E[U 1 2 i WΦ(U 1 2 i ˆµTi M̂T )|θ̂(k), yi] e WΦ(x) = φ(x)Φ(x) , x ∈ R. Assim, é necessário o cálculo das quantidades ûi(k) e τ̂i(k) para que o passo E seja efetuado. A definição realizada por Lachos et al. (2010) é bastante importante para a obtenção desses valores. Sejam Y ∼ SMSN(µ, σ2, λ, v), Y0 ∼ SMN(µ, σ2, v) ambas com o mesmo fator de escala U ∼ h(·|v) e Uy uma variável aleatória com a mesma distribuição de U |(Y0 = y). Então, para toda função mensurável g : R→ R E[g(U)|Y = y] = 2γ(y)E[g(Uy)Φ(U 1 2 y λσ−1(y − µ))]. onde, γ(y) = SMN(y|µ,σ 2,v) SMSN(y|µ,σ2,λ,v) . Observe que ûi(k) e a esperança de τ̂i(k) podem ser obtidos ao fazer g(u) = u e g(u) = u 12WΦ(u 1 2 ˆµTi M̂T ), respectivamente. Para os demais casos de distribuições, ver BASSO et al. (2010). 5.2.3 Passo M Consiste em maximizar a função Q, definida por Q(θ|θ̂(k)) = E[lc(θ|y, t, u)|y, θ̂(k)], (5.3) que, a menos de constantes não importantes, é dada por Q(θ|θ̂(k)) = −n2 log(Γ)− 1 2Γ n∑ i=1 [ûi(k)(yi − xTi β)2 − 2∆(yi − xTi β)ûti (k) + ∆2ût2i (k) ]. (5.4) Capítulo 5. O Modelo de Regressão Linear 22 5.2.4 Abordagem CM Geralmente, a maximização simultânea de todas as componentes do vetor θ é extremamente complicada. Por isso, o processo de maximização condicional (CM) estudado por Meng e Rubin (1993) é adotado. Consiste em maximizar as coordenadas marginalmente e possui os seguintes passos: Passo E: Dada uma estimativa atualizada de θ̂(k), calcula-se ûi(k), ûti (k) e ût2i (k) para i = 1, .., n. Passo CM: Atualize θ̂(k) maximizando Q(θ|θ̂(k)) em θ, aplicando seus resultados às seguintes expressões: β̂(k+1) = (XT Û (k)X)−1XT Û (k)z(k), ∆̂(k+1) = ∑n i=1 ûti (k)(yi−xTi β̂ (k))∑n i=1 ût 2 i (k) , Γ̂(k+1) = 1 n ∑n i=1[(yi − xTi β̂(k))2ûi(k) − 2∆(k+1)(yi − xTi β̂(k)) ˆ ui (k) i + (∆2)(k+1)ût2i (k) ], onde, X é uma matriz com i-ésima linha, xTi a matriz planejamento, Û (k) = diag(ûi(k), ..., ûn(k)) e z(k) é a resposta observada corrigida, dada por z(k) = y − ∆̂(k)τ̂ (k) , com τ̂ (k) = (τ̂1(k), ..., τ̂n(k))T e τ̂i(k) = ûti (k) ûi (k) , i = 1, ..., n. O processo iterativo é repetido até que uma regra de convergência seja satisfeita. 23 6 Estudo Simulado Com o objetivo de entender o mecanismo de geração de dados e a estimação de parâmetros por máxima verossimilhança, foi realizado um breve estudo simulado, onde uma variável explicativa X ∼ U [2, 5] e um � ∼ SN(n, 0, 5,−9) foram gerados de maneira randômica, sob diferentes tamanhos de amostra. Basicamente, será observado o comportamento e a adequabilidade das estimativas de parâmetros conhecidos para uma função linear, ao adotar-se distribuições da família assimétrica como método de ajuste. Para isso, os parâmetros adotados são β0 = 6 e β1 = 1.5, sob um modelo linear expresso da seguinte forma: Yi = 6 + 1.5Xi + �i, com i = 1, 2, ...n. (6.1) A Figura 4 apresenta o comportamento das amostras geradas assimetricamente. À esquerda, verifica-se a forma de �i quando n = 500 e n = 5000, respectivamente. Já à direita, a forma correspondente do Yi. Figura 5 – Modelo Y sob � ∼ SN(0, 5,−9) A Tabela 1 sumariza as estimativas encontradas na simulação do modelo ajustado. Note que, em geral, o ajuste de melhor adequabilidade é o skew-normal, pois além dos valores encontrados serem bem próximos dos parâmetros reais, o modelo obteve o menor Capítulo 6. Estudo Simulado 24 índice de AIC. Em contrapartida, o modelo normal apresentou ajuste mais distante da realidade, apesar de seu β1 ter sido bem estimado. Ao aumentar o tamanho amostral, um resultado semelhante ao anterior é obtido. Perceba que os modelos assimétricos apresentaram uma melhora. Mais especificamente: • β̂0 e β̂1 foram melhor estimados pela skew-normal e skew-t (3 gl), quando n grande; • σ̂ foi bem estimado pela skew-normal; • λ̂ foi melhor estimado pela skew-normal, quando n grande. Tabela 1 – Estimativas do Estudo Simulado Amostra Estimador Normal Skew-normal Skew-t n = 500 β̂0 4.253 5.825 5.708 β̂1 1.48 1.532 1.518 σ̂2 - 5.058 2.524 λ̂ - -7.145 -4.343 AIC 1768.736 1642.532 1666.633 n = 5000 β̂0 4.397 5.985 5.891 β̂1 1.446 1.493 1.486 σ̂2 - 4.879 2.729 λ̂ - -8.377 -5.476 AIC 17136.96 16048.07 16455.74 Dessa forma, para esse banco de dados gerado sob o modelo skew-normal, conclui-se que os modelos da família skew foram mais vantajosos, em relação aos métodos convencionais. Pois, é perceptível a sua capacidade e melhor adequabilidade em acomodar dados distribuídos assimetricamente. Nas próximas seções, uma abordagem semelhante será aplicada a um conjuntode dados reais. Além de estender o ajuste a outras misturas de escala, também será realizada uma análise de diagnóstico dos resíduos. 25 7 Banco de Dados Conforme menciondo anteriormente, foi adotado neste projeto um conjunto de dados do fantasy game FIFA 19 que contempla informações a respeito de jogadores profissionais do futebol internacional. Nele, podem ser encontradas as principais características de um jogador. O processo de extração dos dados se deu a partir do portal www.sofifa.com, por meio de técnicas Web Scraping e que posteriormente foram disponibilizados no portal www.kaggle.com. O conjunto de dados contempla 18.207 jogadores de diferentes ligas internacionais. Porém, com o intuito de adotar um grupo homogêneo de observações, o presente trabalho considera somente os atletas pertencentas à Liga Inglesa, totalizando 581 registros. 7.1 Perfil do Jogador O quadro abaixo detalha as principais informações de perfil dos jogadores que podem ser encontrados no banco de dados. Variável Descrição ID Código de Identificação Name Nome Completo Age Idade (em anos) Nationality Nacionalidade Overall Média Geral de Qualidade do jogador (0 a 100) Club Clube Value Preço do Jogador (em e) Wage Salário anual do jogador (em e) Preferred Foot Perna de Preferência International Reputation Reputação Internacional (1 a 4) Position Posicionamento em campo 7.2 Posicionamento em Campo Conforme De Melo et al. (2007), o campo de jogo pode ser dividido em três setores: defesa, meio-campo (armação) e ataque. Essa divisão é importante, pois a variável posicionamento em campo assume 27 diferentes categorias e essa definição será de extrema importância na aplicação de uma recategorização, caso a informação seja inserida no modelo proposto. www.sofifa.com www.kaggle.com Capítulo 7. Banco de Dados 26 Uma discussão a respeito dos objetivos e habilidades inerentes aos jogadores de cada setor é discutida por Guimarães et al. (2014). Para eles, o setor de defesa é ocupado por jogadores de elevada altura, força física e bom poder defensivo. Seu principal objetivo é evitar as ações ofensivas da equipe adversária. O setor de meio-campo é onde ocorrem as primeiras ações para a recuperação da posse de bola e início de ações ofensivas. Para a posição, jogadores com boa capacidade técnica e elevada inteligência de jogo são primordiais. Por fim, o ataque é a área onde as ações ofensivas são frequentes, pois busca-se o gol. Para desempenhar a função dessa posição, jogadores de habilidade, criatividade e poder de finalização são essenciais. A Figura 5 ilustra como se deu a recategorização dos posicionamentos em cada um dos setores apresentados acima. Figura 6 – Categorização de Posicionamento dos Jogadores Como os atributos dos jogadores que detém a posição de goleiro são específicos e exclusivos, optou-se por desconsiderá-los na análise de dados tratada nesse trabalho. Capítulo 7. Banco de Dados 27 7.3 Atributos do Jogador Entender a natureza e qual tipo de informação é mensurada por cada um dos atributos de qualidade dos jogadores é extremamente importante para a sua implementação nos modelos a serem elaborados. O banco de dados apresenta 29 diferentes variáveis que variam de 0 a 100. Porém, devido a essa grande quantidade, se fez necessário agrupá-las em atributos comuns, por meio de uma média simples, com o intuito de realizar uma redução de dimensionalidade, mas preservando o valor observado em todos os registros. Veja abaixo, uma breve descrição de cada um desses 6 novos atributos. Tabela 2 – Agrupamento de Atributos dos Jogadores Atributo Variável Descrição Ofensivo Crossing Precisão nos cruzamentos Finishing Precisão no chute dentro da área Heading Accuracy Precisão da cabeçada Short Passing Precisão dos passes rasteiros Volleys Técnica para chute de primeira Habilidade Dribbling Drible Curve Efeito em Finalizações Free Kick Accuracy Precisão das cobranças de falta Long Passing Precisão de passes pelo alto Ball Control Controle de bola Movimentação Acceleration Tempo para atingir a velocidade máxima Sprint Speed Velocidade máxima de Corrida Agility Agilidade física do jogador Reactions Tempo de resposta a alguma situação Balance Habilidade de manter ou retomar o equilíbrio Potência Shot Power Força do chute Jumping Salto do jogador Stamina Resistência ao cansaço do jogador. Strength Mede a força do jogador Long Shots Precisão do chute fora da área Mentalidade Aggression Vigor e agressividade na disputa física Interceptations Habilidade de antecipação Positioning Habilidade de buscar bom posicionamento Vision Habilidade de ver o posicionamento Penalties Precisão na cobrança de pênaltis Composure Tomada de decisões sob pressão Defensivo Marking Habilidade de marcação Standing Tackle Desarme do adversário sem falta Sliding Tackle Carrinho sem cometer falta 28 8 Análise Descritiva Este capítulo possui o enfoque em apresentar uma análise descritiva das variáveis que serão introduzidas no modelo proposto. O intuito é de fato, entender e explorar os comportamentos univariado e bivariado de cada uma delas, a fim de desenvolver um prognóstico que auxilie na seleção das variáveis regressoras que explicarão a variável resposta, ln(preço do Jogador). 8.1 Preço do Jogador Conforme citado anteriormente, a variável preço do jogador desemepenhará um papel primordial no modelo proposto, pois trata-se da variável resposta adotada. Com base nas Figuras 6 e 7 e na Tabela 3, nota-se que o seu comportamento é altamente assimétrico à direita. Cerca de 75% dos jogadores custam até e12,000,000 e há uma elevada variação e apresenta diversos outliers, onde o valor máximo é de e102,000,000. Para essas condições, a estimação dos parâmetros não seria razoável. Assim, fez-se necessário aplicar a transfor- mação logarítimica, com intuito de reduzir o nível de assimetria e conter a alta variabilidade. Figura 7 – Distribuição de Preço dos Jogadores Capítulo 8. Análise Descritiva 29 Figura 8 – Distribuição de Preço dos Jogadores por Posicionamento Após a transformação, percebe-se uma alteração significativa no comportamento gráfico da variável: leve assimetria à esquerda, redução na variabilidade e inexistência de outliers. Veja que a distribuição entre os diferentes posicionamentos é semelhante. Tabela 3 – Medidas Descritivas: Preço do Jogador Medida Preço do Jogador (e) ln(Preço do Jogador) Mínimo 60,000 11,00 1o Quartil 1,000,000 13.82 Mediana 6,500,000 15.69 Média 9,783,141 15.16 3o Quartil 12,000,000 16.30 Máximo 102,000,000 18.44 Desvio Padrão 13,238,096 1.61 É notório que será necessário utilizar a transformação logarítmica do preço do jogador como variável resposta, para uma obtenção razoável de estimadores. Porém, o cenário descrito é exatamente o procurado para o ajuste do modelo clássico e da família SMSN. 8.2 Variáveis Explicativas Preliminarmente, a matriz de correlação vista na Figura 8 foi elaborada com o intuito de identificar o sentido e a intensidade de associação entre todas as variáveis que serão inseridas no modelo proposto. Em geral, nota-se uma correlação linear positiva de intensidade moderada/alta entre todas as variáveis explicativas versus a variável resposta. Embora, o Coeficiente de Capítulo 8. Análise Descritiva 30 Pearson r para ln(preço) versus atributos de defesa apresente um valor baixo, suspeita-se que esse resultado dependa da posição exercida pelo jogador. A apuração será realizada mais a frente, na seção 8.2.1. Note que somente o par atributos de defesa versus movimentação/ataque possuem r negativo, indicando a associação indireta. De fato, espera-se que jogadores com índices mais elevados de capacidade defensiva, tenham uma menor mobilidade e poder ofensivo, pois são habilidades inerentes aos setores de meio-campo e ataque. Veja que a correlação máxima encontrada é 0.86, presente no par habilidade versus ataque. A fim, de verificar a presença de colinearidade, foram obtidos os valores de V IF < 10, o que descarta indícios de que exista multicolinearidade entreas variáveis explicativas. Figura 9 – Matriz de Correlação 8.2.1 Atributos do Jogador A análise descritiva dessas variáveis terá uma abordagem concentrada no estudo do comportamento dos níveis de associação entre cada um dos atributos e o ln(preço do jogador) para os diferentes posicionamentos, pois suspeita-se que cada posição possua uma relação de atributos mais relevantes na determinação do valor final do jogador. Capítulo 8. Análise Descritiva 31 Esse cenário é bastante razoável, pois jogadores de defesa podem não apresentar um bom poder de finalização, domínio de bola e/ou drible, mas podem ter o preço tão elevado quanto jogadores de ataque que não possuem boas características defensivas. Perceba que para cada um dos casos, diferentes variáveis possuem uma relevância maior na determinação do valor do passe. Inicialmente, a Figura 9 tem o intuito de ilustrar a distribuição de cada uma das variáveis por posicionamento em campo. Figura 10 – Atributos dos Jogadores por Posicionamento Graficamente, percebe-se que a caixa referente a cada posicionamento possui a sua concentração semelhante para a maioria dos atributos, exceto para os que tratam de características defensivas. Veja que neste caso, a caixa referente aos jogadores de defesa é bastante deslocada verticalmente, em relação aos demais. Capítulo 8. Análise Descritiva 32 Figura 11 – Diagrama de Dispersão: ln(preço) versus Atributos por Posicionamento Tabela 4 – Coeficiente de Pearson: ln(preço) versus Atributos por Posicionamento Posicionamento Ataque Defesa Mentalidade Movimentação Potência Habilidade Ataque 0.91 0.53 0.89 0.55 0.78 0.85 Defesa 0.72 0.92 0.78 0.40 0.74 0.62 Meio-Campo 0.86 0.36 0.86 0.52 0.82 0.87 Com o auxílio da Figura 10 e Tabela 4, a constatação inicial confirma-se. Veja que o coeficiente r do ln(preço) versus atributos defensivos para a posição de defesa é r = 0.92, enquanto as demais posições apresentam r = 0.53 e r = 0.36. Para os atributos de habilidade, veja que os posicionamentos de ataque e meio-campo apresentam valores de correlação superiores: r = 0.85 e r = 0.87, respectivamente. Enquanto que o de defesa, r = 0.62. Sendo assim, serão inseridas uma variável dummy que identifica o posicionamento, sob referência meio-campo. Isso porque, trata-se de uma posição em que os jogadores devam apresentar características comuns às demais áreas do campo e um parâmetro de interação entre o posicionamento e os atributos de ataque e defesa. 8.2.2 Reputação Internacional A Figura 11 tem o intuito de verificar o comportamento do preço do jogador por nível de reputação internacional. Note no boxplot os sucessivos deslocamentos verticais da caixa, à medida que o nível de reputação aumenta. Tal fato, indica uma possível valorização sob níveis mais altos de reputação. Com isso, será inserida uma variável categórica sob nivel de referência 1. Capítulo 8. Análise Descritiva 33 Figura 12 – Distribuição do ln(preço) por Nível de Reputação Internacional 8.2.3 Salário A Figura 12 apresenta o comportamento da variável ln(preço) versus salário. Apesar da correlação 0.78 encontrada, o diagrama de dispersão à esquerda não evidencia um comportamento linear entre as variáveis estudadas. Figura 13 – Distribuição do Salário por Posicionamento 8.2.4 Overall A Figura 13 trata do comportamento da variável Overall. Veja no boxplot que apesar dos diferentes posicionamentos, em geral, a distribuição é bastante semelhante, com média 72.63 e σ = 8.52. Capítulo 8. Análise Descritiva 34 Já no diagrama de dispersão, é corroborado o elevado grau de associação encontrado para ln(preço) versus overall. Perceba que a correlação entre ambas as variáveis é praticamente perfeita, com valor r = 0.98. Um nível tão elevado pode indicar a existência de colinearidade entre ambas, visto que uma tem a alta capacidade explicar a variabilidade da outra. Além disso, é importante ressaltar que o overall trata-se de um indicador resumo para todas as variáveis de atributos. Portanto, a sua inserção deverá ser bastante avaliada durante a modelagem preditiva, pois o objetivo é construir um modelo em que necessariamente, os atributos estejam presentes. Figura 14 – Distribuição do Overall por Posicionamento 8.2.5 Idade A Figura 14 tem o intuito de apresentar o comportamento do ln(preço) segundo a idade. Apesar da correlação 0.55 encontrada, no diagrama à direita, nenhuma nuvem concentrada de pontos é identificada. Tal fato não apresenta indícios de que exista uma relação linear entre as variáveis estudadas. Já à esquerda, a distribuição de idade é semelhante entre os três diferentes posicionamentos. A sua média está em torno de 24 anos com σ = 4.38. Capítulo 8. Análise Descritiva 35 Figura 15 – Distribuição de Idade por Posicionamento 36 9 Análise de Modelagem Este capítulo possui o enfoque em apresentar o ajuste dos modelos lineares ao conjunto de dados proposto. Será abordada a estimação dos coeficientes de regressão βi, a análise de diagnóstico e a seleção do melhor ajuste. 9.1 Abordagem via Modelo com Erro Normal Como ponto de partida, o modelo que contém todas as variáveis explicativas é adotado. A Tabela 5, elenca as variáveis inseridas nos modelos 1 e 2, sumariza as estimativas para cada parâmetro e seu respectivo p-valor para o teste t. Tabela 5 – Ajuste de Modelos I - Abordagem Clássica Modelo Variável Parâmetro Estimativa Pr( >|t| ) Modelo 1 Intercepto β0 9.563 ∗ 10−1 3.87 ∗ 10−15 Salário β1 −1.730 ∗ 10−6 5.33 ∗ 10−7 Overall β2 2.210 ∗ 10−1 < 2 ∗ 10−16 Idade β3 −6.586 ∗ 10−2 < 2 ∗ 10−16 Ataque β4 3.026 ∗ 10−3 0.211 Habilidade β5 −1.821 ∗ 10−3 0.261 Movimentação β6 −8.343 ∗ 10−4 0.486 Potência β7 3.936 ∗ 10−4 0.823 Mentalidade β8 1.176 ∗ 10−3 0.649 Defensivo β9 −2.691 ∗ 10−3 0.0039 Posição(Ataque) β10.1 −2.440 ∗ 10−2 0.410 Posição(Defesa) β10.2 −9.380 ∗ 10−2 0.0002 Reputação Internacional (2) β11.1 −2.340 ∗ 10−2 0.304 Reputação Internacional (3) β11.2 −9.729 ∗ 10−2 0.006 Reputação Internacional (4) β11.3 1.503 ∗ 10−11 0.062 Modelo 2 Intercepto β0 7.262 < 2 ∗ 10−16 Salário β1 1.388 ∗ 10−5 < 2 ∗ 10−16 Idade β2 −8.058 ∗ 10−3 0.395 Ataque β3 2.088 ∗ 10−2 0.023 Habilidade β4 7.037 ∗ 10−3 0.253 Movimentação β5 1.106 ∗ 10−2 0.015 Potência β6 3.011 ∗ 10−2 5.63 ∗ 10−6 Mentalidade β7 3.905 ∗ 10−2 6.69 ∗ 10−5 Defensivo β8 7.320 ∗ 10−3 0.0378 Posição(Ataque) β9.1 2.252 ∗ 10−1 0.045 Posição(Defesa) β9.2 2.999 ∗ 10−1 0.001 Reputação Internacional (2) β10.1 8.519 ∗ 10−2 0.325 Reputação Internacional (3) β10.2 −3.677 ∗ 10−1 0.006 Reputação Internacional (4) β10.3 −1.293 2.32 ∗ 10−5 Capítulo 9. Análise de Modelagem 37 Antes de analisar os modelos ajustados acima, é importante salientar que optou-se pela retirada dos parâmetros de interação relatados na subseção 8.2.1, pois ao inserí-los, a medida V IF apresentou uma alta intensidade de colinearidade associada à variável dummy de posicionamento. Além disso, o p − valor associado apontava para a mesma conclusão. Sendo assim, note que para o Modelo 1, os βi associados aos atributos de ataque, habilidade, movimentação, potência e mentalidade não são considerados significantes, sob 5% de significância. Tal fato pode ser explicado, pois o overall trata-se de uma medida resumo para todas as variáveis de atributos, conforme relatado em 8.2.4. Isso não é interessante para o estudo, pois o intuito é de que as diferentes variáveis características sejam necessariamente incluídas. Veja também que os β̂i associados às variáveis de reputação internacional apresentam sinal distinto do esperado. Ocorre que à medida que o seu nível aumenta, a esperança do ln(preço do jogador) sofre um decréscimo. Por fim, os resíduos para este modelo apresentaram uma distribuição diferente da normal. Tais fatos levam a conclusão de que a variável overall deve ser retirada e os parâmetros re-estimados, a fim de observar-se o comportamento do novo ajuste. Ao retirar-se a variável overall, o Modelo 2 foi ajustado. Perceba que a maior parte das variáveis de atributos são consideradas significativas. Porém, os β̂iassociados às variáveis de reputação internacional permanecem com o sinal distinto do teoricamente esperado. Além disso, também não foi razoável assumir a normalidade na distribui- ção dos resíduos associados. Sendo assim, também optou-se pela retirada da variável salário. Após a exclusão das variáveis overall e salário por motivos teóricos, o Modelo 3 foi ajustado. Veja na Tabela 6 que a estimativa dos parâmetros estão condizentes com o esperado. Porém, as variáveis idade e atributos de habilidade não foram consideradas siginificantes para o modelo, sob nível de 5%. Assim, optou-se por também retirá-las com o objetivo de obter um modelo mais parcimonioso. Por fim, o Modelo 4 trata-se do ajuste final. Veja ainda na Tabela 6 que todos os βi são considerados significativos. Além disso, note que possuem o sinal condizente com o esperado e estimativas totalmente diferentes do ajustado pelo modelo 1. Capítulo 9. Análise de Modelagem 38 Tabela 6 – Ajuste de Modelos II - Abordagem Clássica Modelo Variável Parâmetro Estimativa Pr( >|t| ) Modelo 3 Intercepto β0 5.283 < 2 ∗ 10−16 Idade β1 −0.007 0.465 Ataque β2 0.027 0.007 Habilidade β3 0.004 0.492 Movimentação β4 0.023 2 ∗ 10−6 Potência β5 0.036 7.04 ∗ 10−6 Mentalidade β6 0.049 0.005 Defensivo β7 0.011 0.006 Posição(Ataque) β8.1 0.346 0.001 Posição(Defesa) β8.2 0.350 0.0002 Reputação Internacional (2) β9.1 0.441 2.17 ∗ 10−6 Reputação Internacional (3) β9.2 0.679 2.94 ∗ 10−8 Reputação Internacional (4) β9.3 1.109 3.30 ∗ 10−5 Modelo 4 Intercepto β0 5.169 < 2 ∗ 10−16 Ataque β1 0.030 0.001 Movimentação β2 0.026 1.81 ∗ 10−9 Potência β3 0.034 1.66 ∗ 10−6 Mentalidade β4 0.050 1.55 ∗ 10−6 Defensivo β5 0.011 0.004 Posição(Ataque) β6.1 0.323 0.007 Posição(Defesa) β6.2 0.313 0.002 Reputação Internacional (2) β7.1 0.433 2.66 ∗ 10−6 Reputação Internacional (3) β7.2 0.665 4.19 ∗ 10−8 Reputação Internacional (4) β7.3 1.104 3.07 ∗ 10−5 9.2 Abordagem SMSN O Modelo 4 que considera os erros distribuídos normalmente desempenhará um papel primordial na estimação dos βi sob ótica SMSN, pois será ajustada a sua versão assimétrica por meio das distribuições skew-normal, skew-t, skew-slash e skew- normal contaminada. Para isso, será mantida a transformação logarítmica da variável preço do jogador, pois a facilidade de interpretação dos parâmetros associados é preservada. Como a estimação dos parâmetros se dá pelo algoritmo EM, um chute inicial é necessário. Para isso, as estimativas do modelo clássico serão utilizadas. Além disso, como visto no Capítulo 3 algumas das distribuições citadas acima possuem graus de liberdade. Para a skew-t e skew-slash, o valor fixado em 5 foi adotado, pois nessas circunstâncias o modelo apresentou os melhores valores de AIC, BIC e LogLik. De maneira análoga, para a skew-normal contaminada adotou-se o par (0.2, 0.8). Acompanhe na Tabela 7 os valores ajustados. Inicialmente, verifica-se que o modelo Capítulo 9. Análise de Modelagem 39 skew-normal convergiu à estimação final no menor número de iterações, enquanto a skew-slash necessitou da maior quantidade de repetições do processo. Note também que a maioria dos parâmetros possuem um ajuste próximo, exceto para β0 e β6.2 que destoam bastante entre as distribuições. Tabela 7 – Ajuste de Modelos - Família SMSN Parâmetro SN ST SS SNC β0 5.106 4.836 5.073 5.099 β1 0.029 0.028 0.029 0.029 β2 0.026 0.027 0.026 0.026 β3 0.036 0.037 0.036 0.036 β4 0.050 0.057 0.051 0.050 β5 0.010 0.007 0.010 0.010 β6.1 0.328 0.274 0.321 0.326 β6.2 0.263 0.343 0.277 0.266 β7.1 0.434 0.382 0.431 0.433 β7.2 0.674 0.683 0.679 0.675 β7.3 1.116 1.016 1.102 1.113 λ 1.222 0.594 1.123 1.201 Iterações 148 156 164 151 9.3 Análise de Diagnóstico A análise de diagnóstico desempenha um importante papel na modelagem preditiva, pois trata-se do estudo inicial que realiza a validação do modelo ajustado. Sendo assim, o histograma e um qqplot dos resíduos para cada uma das distribuições foram construídos. Figura 16 – Distribuição dos Resíduos - Abordagem Clássica Capítulo 9. Análise de Modelagem 40 Com base na Figura 15, é possível verificar no histograma como os resíduos estão distribuídos. Nota-se que a distribuição é simétrica em torno de zero, mas existe leve assimetria à esquerda. Com base no qqplot, perceba que apesar de alguns pequenos desvios na calda, há indícios de normalidade dos resíduos. Uma análise mais enxuta pode ser feita com o auxílio da Tabela 8, pois traz o resumo dos resíduos. Veja que a média é bem próxima de 0, a sua variância está em torno de 0.587 e o p-valor apresentado pelo teste de Shapiro Wilk é 0.252. Sob 5% de significância, não há evidências para rejeitar-se a hipótese H0: Os resíduos seguem uma distribuição normal. Tabela 8 – Medidas Descritivas dos Resíduos Medida Normal SN ST SS SCN Média −1.550 ∗ 10−06 −1.07 ∗ 10−4 -0.057 7.935 ∗ 10−4 −1.417 ∗ 10−4 Variância 0.587 0.588 0.591 0.588 0.588 Shapiro Wilk 0.252 0.09 0.036 0.087 0.091 Ao analisar os resíduos dos modelos da família SMSN, um comportamento semelhante ao da abordagem clássica é encontrado. Porém, veja que a skew-normal e skew-slash apresentam um discreto e suave alongamento caudal. Veja que a média residual dessas distribuições é bem próxima de 0, possuem variância próxima de 0.6 e não há evidências para rejeitar-se a hipótese nula. Figura 17 – Distribuição dos Resíduos I - Família SMSN Capítulo 9. Análise de Modelagem 41 Figura 18 – Distribuição dos Resíduos II - Família SMSN A Figura 18 apresenta a dispersão dos resíduos para cada um dos ajustes. É perceptível o seu comportamento linear em torno de zero com uma leve tendência de decaimento nas últimas observações. Conforme observado nos histogramas da Figura 17, os modelos clássico e skew-normal apresentaram a menor quantidade de resíduos além dos limites traçados em (−2, 2). Eles podem se tratar de pontos influentes, porém ao ajustar todos os β̂i sem a sua presença, não constatou-se uma alteração significativa, optando-se por manter o banco completo no estudo. Capítulo 9. Análise de Modelagem 42 Figura 19 – Gráfico de dispersão dos Resíduos 9.4 Seleção de Modelos A Tabela 9 sumariza as medidas de informação para todos os modelos ajustados, pois o intuito é utiliza-las como instrumento de auxílio na determinação da melhor adequabilidade. Veja que o resultado sugere uma discreta vantagem das estimativas da skew-normal como modelo mais eficiente, em relação aos demais. Porém, o ajuste da distribuição normal apresentou o menor valor de BIC. Isso ocorre pois trata-se de um ajuste com menor número de parâmetros a se estimar. Portanto, a distribuição normal se apresenta como a opção mais parcimoniosa, podendo ser selecionada como melhor opção, dada a sua menor complexidade. Tabela 9 – Medidas de Informação dos Modelos Critério Normal SN ST SS SNC LogLik -669.138 -667.594 -673.974 -667.782 -667.585 AIC 1362.276 1361.189 1375.948 1363.564 1365.171 BIC 1414.653 1417.931 1437.054 1424.671 1430.642 Capítulo 9. Análise de Modelagem 43 9.5 Interpretação Após a análise de diagnóstico e verificação das medidas de informação, o modelo skew-normal foi escolhido como a melhor opção. A interpretação desse ajuste deve ser cuidadosa, pois a variável preço do jogador sofreu uma transformação logarítmica. Isso faz com que o modelo configure-se como log-nível (semi-elasticidade). De maneira análoga ao modelo nível-nível, ao interpretar-se uma variável específica, as demais devem ser consideradas constantes. Porém, para o log-nível, o aumento de uma unidade em um determinado Xi está associado à variação em média de (100 ∗ βi)% do preço do jogador em sua escala original. Com base na Tabela 7, podemos inferir que caso o jogador seja da posição de ataque ou defesa, existe uma valorização média no preço do Jogador de 32.8% e 26.8%, respectivamente, quando contrastada à posição de meio-campo. Veja também que para os jogadores de reputação internacional com nível 2, 3 ou 4, ocorre uma valorização de 43.4%, 67.4% e 111.6% respectivamente, em relação ao nível 1. Tais resultadoscorroboram o cenário observado na análise descritiva. Entre os atributos, a mentalidade destacou-se como a variável que realiza a maior contribuição marginal na estimação do preço do jogador. Em resumo, a cada unidade acrescida nessa variável, ocorre uma valorização média de 5% no preço do jogador. Já para os atributos de ataque, movimentação, potência e defensivos, a contribuição média é de 2.9%, 2.6%, 3.6% e 1%, respectivamente a cada unidade acrescida, quando as demais são consideradas constantes. Para ilustrar a aplicação, serão escolhidos dois jogadores: o primeiro trata-se do defensor Zinchenko, jogador que possui o ln(preço)= 15.89 pertencente ao 1o quartil. Suas características são dadas por: X1 = 66.8, X2 = 73.2, X3 = 66.6, X4 = 68.3, X5 = 68, X6.1 = 0, X6.2 = 1, X7.1 = 0, X7.2 = 0 e X7.3 = 0. Nessas condições, o valor ̂ln(preço) = 15.009 é estimado pelo modelo, com resíduo associado de ê394 = −0.880. Ao realizar a transformação para observar o valor em sua escala original, o preço fixado em e 3,298,571 é encontrado. Agora será vista a estimação do modelo para o jogador de valor máximo no banco de dados. Trata-se do meio-campista De Bruyne, com passe fixado em ln(preço)= 18.443. Ao aplicar suas características X1 = 80.8, X2 = 80.2, X3 = 82, X4 = 80.83, X5 = 59, X6.1 = 0, X6.2 = 0, X7.1 = 0, X7.2 = 0 e X7.3 = 1 no modelo ajustado, o preço ̂ln(preço) = 18.440 é estimado, com o resíduo ê1 = 0.006. O preço encontrado na escala original é e 101,950,708. 44 10 Conclusão O presente trabalho teve como objetivo apresentar um estudo a respeito da família de modelos skew-normal. Uma versão perturbada da distribuição normal simétrica, controlada por um parâmetro de assimetria λ, cuja premissa é acomodar eventuais perturbações existentes na variável resposta que deseja-se estimar. Para o estudo, além de uma extensa revisão bibliográfica elaborada à luz dos trabalhos de Azzalini e Garay, duas aplicações foram realizadas: uma simulação feita no Capítulo 6 e um ajuste ao conjunto de dados do jogo FIFA 19, no Capítulo 9. Para a simulação, verificou-se que os modelos skew-normal possuem uma boa capacidade de estimar os parâ- metros do modelo linear simples, quando a variável resposta é distribuída assimetricamente. Já para o conjunto de dados reais, a vantagem apresentada pelos modelos skew-normal, em relação à abordagem clássica foi discreta. Embora essa margem de vantagem tenha sido pequena, a classe de modelos demonstrou-se uma boa alternativa para mo- mentos em que a abordagem clássica não consegue ajustar boas estimativas dos parâmetros. Contextualizadamente, o modelo ajustado nesse projeto possui uma importante aplicabilidade à franquia de games FIFA, onde a busca por jogadores específicos é bastante onerosa. Com esta ferramenta, seria possível prever o valor médio de um jogador, dado um perfil específico procurado pelo usuário, o que facilitaria bastante o processo de contratações no modo carreira. Além de permitir a identificação de jogadores subvalorizados. Devido à limitação de tempo para a execução do projeto, um leque de outros estudos poderiam ser realizados como forma de extensão ao presente trabalho. Inserção dos jogado- res pertencentes às demais ligas do fantasy game, inserção de outras variáveis explicativas e o estudo aprofundado de pontos influentes são alguns exemplos para a temática abordada. No campo teórico, ainda podem ser explorados os diversos estudos de extensão realizados por Azzalini, Garay, Lachos, Cabral e Abanto-Valle. Tratam-se dos modelos não-lineares, a chamada família NL-SMSN que são estimados sob ótica frequentista e bayesiana. O pacote nlsmsn, utilizado nesse trabalho conta com a implementação dessa classe e é atualizado regularmente. Enfim, a classe de modelos assimétricos são um vasto campo de estudo e aplicabilidade que foi brevemente exposto nesse projeto, mas apresentam-se como uma boa alternativa na inferência estatística, onde uma série de outros estudos ainda podem ser realizados. 45 Referências [1] ANDREWS, D. F.; MALLOWS, C. L. Scale mixtures of normal distributions. Journal of the Royal Statistical Society. Series B (Methodological), p. 99-102, 1974. [2] ARELLANO-VALLE, R. B. et al. Skew normal measurement error models. Journal of Multivariate Analysis, v. 96, n. 2, p. 265-281, 2005 [3] AZZALINI, A. A class of distributions which includes the normal ones. Scandinavian journal of statistics, p. 171-178, 1985. [4] AZZALINI, A.; VALLE, A. D. The multivariate skew-normal distribution. Biometrika, v. 83, n. 4, p. 715-726, 1996. [5] AZZALINI, A; CAPITANIO, A. Statistical applications of the multivariate skew normal distribution. Journal of the Royal Statistical Society: Series B (Statistical Methodology), v. 61, n. 3, p. 579-602, 1999. [6] AZZALINI, A. The skew-normal and related families. Cambridge University Press, 2013. [7] BASSO, R. M. et al. Robust mixture modeling based on scale mixtures of skew-normal distributions. Computational Statistics Data Analysis, v. 54, n. 12, p. 2926-2941, 2010. [8] PRATES, Marcos Oliveira; LACHOS, Victor Hugo; BARBOSA CABRAL, Celso Rô- mulo. mixsmsn: Fitting Finite Mixture of Scale Mixture of Skew-Normal Distributions. Journal of Statistical Software, [S.l.], v. 54, Issue 12, p. 1 - 20, [9] BAZÁN, J. L. et al. A skew item response model. Bayesian analysis, v. 1, n. 4, p. 861-892, 2006. [10] BRANCO, M. D.; DEY, D. K. A general class of multivariate skew-elliptical distribu- tions. Journal of Multivariate Analysis, v. 79, n. 1, p. 99-113, 2001. [11] COUNSELL, N. et al. Modelling psychiatric measures using Skew-Normal distributions. European Psychiatry, v. 26, n. 2, p. 112-114, 2011. [12] DA SILVA FERREIRA, C.; BOLFARINE, H.; LACHOS, V, H. Skew scale mixtures of normal distributions: properties and estimation. Statistical Methodology, v. 8, n. 2, p. 154-171, 2011. Referências 46 [13] COORAY, K., ANANDA, M. M. A. A generalization of the Half-Normal distribution with applications to lifetime data. Communications in Statistics - Theory and Methods, p. 1323–1337, 2008. [14] DEMPSTER, A. P.; LAIRD, N. M.; RUBIN, D. B. Maximum likelihood from incomplete data via the EM algorithm. Journal of the royal statistical society. Series B (methodological), p. 1-38, 1977. [15] GARAY, A. M.; LACHOS, V. H.; ABANTO-VALLE, C. A. Nonlinear regression models based on scale mixtures of skew-normal distributions. Journal of the Korean Statistical Society, v. 40, n. 1, p. 115-124, 2011. [16] GARAY, A. M.; LACHOS, V. H. . Análise de dados censurados sob distribuições simétricas com aplicações no R. São Paulo: Associação Brasileira de Estatística, 2013 (Livros em Eventos). [17] HENZE, N. A probabilistic representation of the’skew-normal’distribution. Scandina- vian journal of statistics, p. 271-275, 1986. [18] HUTTON, J. L.; STANGHELLINI, E. Modelling bounded health scores with censored skew-normal distributions. Statistics in medicine, v. 30, n. 4, p. 368-376, 2011. [19] LACHOS, V. H.; GHOSH, P.; ARELLANO-VALLE, R. B. Likelihood based inference for skew-normal independent linear mixed models. Statistica Sinica, p. 303-322, 2010. [20] LACHOS, V. H.; LABRA, F. V.; GHOSH, P. Multivariate skew-normal/independent distributions: properties and inference. Pro Mathematica, v. 28, n. 56, p. 11-53, 2014. [21] LIN, T. I.; LEE, J. C.; YEN, S. Y. Finite mixture modelling using the skew normal distribution. Statistica Sinica, p. 909-927, 2007. [22] MENG, X. L.; RUBIN, D. B. Maximum likelihood estimation via the ECM algorithm: A general framework. Biometrika, v. 80, n. 2, p. 267-278, 1993. [23] MONTGOMERY, D. C.; PECK, E. A.; VINING, G. G. Introduction to linear regression analysis. John Wiley Sons, 2012. [24] MORETTIN, P. A.; BUSSAB, W. O. Estatística básica. Editora Saraiva, 2017. [25] GUIMARÃES, M.B.; CALDAS, G.F.S.;LIMA, R.C.; PAOLI, P.B. As posições no futebol e suas especificidades. Revista Brasileira de Futebol, v. 7, n. 2, p. 71-83, 2014. [26] DE MELO V.P., PAOLI P.B., DA SILVA C.D. O desenvolvimento do processode trei- namento das ações táticas ofensivas no futebol na categoria infantil. EFDeportes.com, Rev Digital. Buenos Aires: 2007;11(104). Referências 47 [27] Half Normal Distribution. Mathworks, 2019. Disponível em: <https://www. mathworks.com/help/stats/half-normal-distribution.html>. Acesso em: 11 de dez. de 2019. https://www.mathworks.com/help/stats/half-normal-distribution.html https://www.mathworks.com/help/stats/half-normal-distribution.html 48 A Programação Implementada Para a geração de amostras assimétricas e representação gráfica foi utilizado o algoritmo abaixo. #Função geradora de observações para uma variável aleatória com distr. SN. #n: Tamanho da amostra #mu: Locação #sigma2: Escala #lambda: Assimetria ou Forma rSkewNormal<-function(n,mu,sigma2,lambda){ delta<-lambda/sqrt(1+lambda^2) y<-mu*rep(1,n)+sqrt(sigma2)*(delta*abs(rnorm(n))+ (1-delta^2)^(1/2)*rnorm(n)) return(y) } #Gerando e graficando (2x2) os dados de acordo com parâmetros escolhidos par(mfrow=c(2,2)) y<-rSkewNormal(100,0,5,13) hist(y,breaks=16, main="",probability=T, ylab="Densidade", xlab="") lines(density(y),type="l") Na estimação de parâmetros do estudo simulado, foi utilizado o algoritmo abaixo. set.seed(46) rSkewNormal<-function(n,mu,sigma2,lambda){ delta<-lambda/sqrt(1+lambda^2) y<-mu*rep(1,n)+sqrt(sigma2)*(delta*abs(rnorm(n))+ (1-delta^2)^(1/2)*rnorm(n)) return(y) } #library(sn) #Gerando amostra de distribuições do erro(skew-normal) e #da variável explicativa x(Uniforme) e2<-rSkewNormal(5000,0,5,-9) x2 = runif(5000,2,5) Apêndice A. Programação Implementada 49 #Construção do modelo y2 = 6 + 1.5*x2 + e2 #Estimação tradicional modelo_n <- lm(y2~x2) summary(modelo_n,param.type="DP") AIC(modelo_n) #Estimação pela skew-normal modelo_sn <- selm(y2~x2, family="SN") summary(modelo_sn,param.type="DP") AIC(modelo_sn) #Estimação pela skew-t (nu=1 trata-se da Skew Cauchy) modelo_st = selm(y2~x2, family="ST",fixed.param = list(nu=3)) summary(modelo_st,param.type="DP") AIC(modelo_st) #Grafica os histogramas das distribuições geradas. par(mfrow=c(2,2)) hist(e1,breaks=23, main="Distribuição de e",probability=T, ylab="Densidade", xlab="",adj=0) hist(y1,breaks=23, main="Distribuição de Y",probability=T, ylab="Densidade", xlab="",adj=0) hist(e2,breaks=23, main="",probability=T, ylab="Densidade", xlab="") hist(y2,breaks=23, main="",probability=T, ylab="Densidade", xlab="") Algortimo utilizado para gerar as distribuições da Família SMSN. set.seed(44) #Constroi o vetor de quantis quantis <- seq(2, 11, by = .05) #densidade da normal N <- dnorm(quantis,4,1) Apêndice A. Programação Implementada 50 #densidade da skew-normal require(sn) SN <- dsn(quantis,xi=4,omega=1,alpha=15) #densidade da skew-t #y é um vetor de quantis (utilizar uma uniforme) dST <- function(y,mu,sigma2,shape,nu){ d <- (y-mu)/sqrt(sigma2) dens <- 2*dt(d, df=nu)*pt(sqrt((1+nu)/(d^2+nu))*d*shape,1+nu)/sqrt(sigma2) return(dens) } ST <- dST(quantis,4,1,15,1) #densidade da skew-slash dSS <- function(y,mu,sigma2,shape,nu){ resp <- vector(mode="numeric",length = length(y)) for(i in 1:length(y)){ f <- function(u) 2*nu*u^(nu-1)*dnorm(y[i],mu,sqrt(sigma2/u))*pnorm(u^(1/2)* shape*(sigma2^(-1/2))*(y[i]-mu)) resp[i] <- integrate(f,0,1)$value } return(resp) } SSL <- dSS(quantis,4,1,15,1) #densidade skew-normal contaminada dSCN <- function(y,mu,sigma2,shape,nu){ dens <- 2*(nu[1]*dnorm(y,mu,sqrt(sigma2/nu[2]))* pnorm(sqrt(nu[2])*shape*sigma2^(-1/2)*(y-mu))+(1-nu[1])* dnorm(y,mu,sqrt(sigma2))*pnorm(shape*sigma2^(-1/2)*(y-mu))) return(dens) } SCN <- dSCN(quantis,4,1,15,c(.8,.2)) distr <- cbind(N,SN,ST,SSL,SCN) nn <- ncol(distr) matplot (quantis, distr, type="l",pch=19,ylab="Densidade",xlab="X") legend("center",colnames(distr),col=seq_len(nn),cex=0.8,fill=seq_len(nn)) Algoritmo utilizado na estimação dos parâmetros do modelo. #X: variáveis regressoras Apêndice A. Programação Implementada 51 #y: variável resposta #Cria a função linear nlf<-function(x,betas){ resp<-X%*%betas + return(resp)} #Ajuste do modelo clássico modelo_n<-smsn.nl(y=y,x=X,beta =c(5.169654,0.030046,0.026368,0.034903, 0.050025,0.011249,0.323834,0.313954,0.433659,0.665232,1.104565), sigma2=1,shape=1,nlf=nlf,family="Normal",criteria = TRUE, iter.max = 1000) #Ajuste do modelo skew-normal modelo_sn<-smsn.nl(y=y,x=X,beta =c(5.169654,0.030046,0.026368,0.034903, 0.050025,0.011249,0.323834,0.313954,0.433659,0.665232, 1.104565),sigma2=1,shape=1,nlf=nlf,family="Skew.normal", criteria = TRUE,iter.max = 3000) #Ajuste do modelo skew-t modelo_st <- smsn.nl(y=y, x=X,betas=c(5.169654,0.030046,0.026368,0.034903, 0.050025,0.011249,0.323834,0.313954,0.433659, 0.665232,1.104565),sigma2=1, shape = 1,nu = 5, nlf = nlf, criteria = TRUE,family = "Skew.t", iter.max = 3000) #Ajuste do modelo skew-slash modelo_ss <- smsn.nl(y=y,x=X,betas=c(5.169654,0.030046,0.026368, 0.034903,0.050025,0.011249,0.323834,0.313954,0.433659,0.665232, 1.104565), sigma2=1, shape = 1,nu = 5, nlf = nlf, criteria = TRUE, family = "Skew.slash",iter.max = 3000) #Ajuste do modelo skew-normal contaminada modelo_cn <- smsn.nl(y=y, x=X,betas=c(5.169654,0.030046,0.026368,0.034903, 0.050025,0.011249,0.323834,0.313954,0.433659, 0.665232,1.104565), sigma2=1, shape = 1,nu = c(0.2,0.8), nlf = nlf, criteria = TRUE,family = "Skew.cn",iter.max = 3000) Folha de rosto Sumário Introdução Metodologia Distribuições Assimétricas Fórmula de Azzalini Distribuição Skew-Normal Distribuição Half-Normal Forma Estocástica Abordagem de Henze Propriedades da Skew-Normal Misturas de Escala da Normal Assimétrica Forma Estocástica Propriedades da Família SMSN O Modelo de Regressão Linear Modelo de Regressão Linear SMSN Estimação via Algoritmo EM Forma Estocástica Passo E Passo M Abordagem CM Estudo Simulado Banco de Dados Perfil do Jogador Posicionamento em Campo Atributos do Jogador Análise Descritiva Preço do Jogador Variáveis Explicativas Atributos do Jogador Reputação Internacional Salário Overall Idade Análise de Modelagem Abordagem via Modelo com Erro Normal Abordagem SMSN Análise de Diagnóstico Seleção de Modelos Interpretação Conclusão Referências Programação Implementada