Buscar

2019-FilipiBritoDosSantos-tcc

Prévia do material em texto

Departamento de Estatística - Universidade de Brasília
Regressão Linear Assimétrica para a
Modelagem do Preço de Jogadores no Jogo
FIFA 19
Filipi Brito dos Santos
Orientador: Dro. Leandro Tavares Correia
Brasília, 6 de Dezembro de 2019
Filipi Brito dos Santos
Regressão Linear Assimétrica para a Modelagem do
Preço de Jogadores no Jogo FIFA 19
Dissertação apresentada ao corpo docente do
Programa de graduação, como requisito par-
cial para obtenção do grau de Bacharel em
Estatística
Brasília,
6 de Dezembro de 2019
Lista de Figuras
Figura 1 – Distribuição Half-Normal . . . . . . . . . . . . . . . . . . . . . . . . . 11
Figura 2 – Histograma de amostras simuladas da Skew-normal (µ, σ2, λ) . . . . . . 13
Figura 3 – Boxplot de amostras simuladas da Skew-Normal (µ, σ2, λ) . . . . . . . 14
Figura 4 – Distribuições da Família SMSN . . . . . . . . . . . . . . . . . . . . . . 18
Figura 5 – Modelo Y sob � ∼ SN(0, 5,−9) . . . . . . . . . . . . . . . . . . . . . . 23
Figura 6 – Categorização de Posicionamento dos Jogadores . . . . . . . . . . . . . 26
Figura 7 – Distribuição de Preço dos Jogadores . . . . . . . . . . . . . . . . . . . 28
Figura 8 – Distribuição de Preço dos Jogadores por Posicionamento . . . . . . . . 29
Figura 9 – Matriz de Correlação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Figura 10 – Atributos dos Jogadores por Posicionamento . . . . . . . . . . . . . . . 31
Figura 11 – Diagrama de Dispersão: ln(preço) versus Atributos por Posicionamento 32
Figura 12 – Distribuição do ln(preço) por Nível de Reputação Internacional . . . . 33
Figura 13 – Distribuição do Salário por Posicionamento . . . . . . . . . . . . . . . 33
Figura 14 – Distribuição do Overall por Posicionamento . . . . . . . . . . . . . . . 34
Figura 15 – Distribuição de Idade por Posicionamento . . . . . . . . . . . . . . . . 35
Figura 16 – Distribuição dos Resíduos - Abordagem Clássica . . . . . . . . . . . . . 39
Figura 17 – Distribuição dos Resíduos I - Família SMSN . . . . . . . . . . . . . . . 40
Figura 18 – Distribuição dos Resíduos II - Família SMSN . . . . . . . . . . . . . . 41
Figura 19 – Gráfico de dispersão dos Resíduos . . . . . . . . . . . . . . . . . . . . . 42
Lista de Tabelas
Tabela 1 – Estimativas do Estudo Simulado . . . . . . . . . . . . . . . . . . . . . 24
Tabela 2 – Agrupamento de Atributos dos Jogadores . . . . . . . . . . . . . . . . 27
Tabela 3 – Medidas Descritivas: Preço do Jogador . . . . . . . . . . . . . . . . . . 29
Tabela 4 – Coeficiente de Pearson: ln(preço) versus Atributos por Posicionamento 32
Tabela 5 – Ajuste de Modelos I - Abordagem Clássica . . . . . . . . . . . . . . . . 36
Tabela 6 – Ajuste de Modelos II - Abordagem Clássica . . . . . . . . . . . . . . . 38
Tabela 7 – Ajuste de Modelos - Família SMSN . . . . . . . . . . . . . . . . . . . . 39
Tabela 8 – Medidas Descritivas dos Resíduos . . . . . . . . . . . . . . . . . . . . . 40
Tabela 9 – Medidas de Informação dos Modelos . . . . . . . . . . . . . . . . . . . 42
Resumo
Atualmente, para diversos fenômenos não é razoável assumir o pressuposto de
normalidade da variável resposta. Nesses casos, a transformação de variáveis é o método
mais comumente utilizado na modelagem preditiva, porém uma série de desvantagens
estão atreladas ao trabalhar-se dessa forma. Tendo isso em vista, Azzalini desenvolveu em
1985 uma fórmula capaz de gerar a versão perturbada de distribuições simétricas, por
meio do parâmetro de assimetria λ. Para tanto, o presente trabalho visa estudar e aplicar
a um conjunto de dados a família de modelos da skew-normal, uma versão assimétrica da
distribuição normal clássica. Para isso, o conjunto de dados do fantasy game FIFA 19
foi escolhido, pois busca-se elaborar uma ferramenta capaz de prever o valor médio do
jogador, com base em um perfil conhecido.
Palavras-Chave: skew-normal, Azzalini, assimetria, fifa, família SMSN
Sumário
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3 DISTRIBUIÇÕES ASSIMÉTRICAS . . . . . . . . . . . . . . . . . . 10
3.1 Fórmula de Azzalini . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.2 Distribuição Skew-Normal . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.2.1 Distribuição Half-Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.2.2 Forma Estocástica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2.3 Abordagem de Henze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2.4 Propriedades da Skew-Normal . . . . . . . . . . . . . . . . . . . . . . . . 15
4 MISTURAS DE ESCALA DA NORMAL ASSIMÉTRICA . . . . . . 16
4.1 Forma Estocástica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.2 Propriedades da Família SMSN . . . . . . . . . . . . . . . . . . . . . 18
5 O MODELO DE REGRESSÃO LINEAR . . . . . . . . . . . . . . . . 19
5.1 Modelo de Regressão Linear SMSN . . . . . . . . . . . . . . . . . . . 19
5.2 Estimação via Algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . 19
5.2.1 Forma Estocástica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5.2.2 Passo E . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5.2.3 Passo M . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.2.4 Abordagem CM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
6 ESTUDO SIMULADO . . . . . . . . . . . . . . . . . . . . . . . . . . 23
7 BANCO DE DADOS . . . . . . . . . . . . . . . . . . . . . . . . . . 25
7.1 Perfil do Jogador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
7.2 Posicionamento em Campo . . . . . . . . . . . . . . . . . . . . . . . . 25
7.3 Atributos do Jogador . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
8 ANÁLISE DESCRITIVA . . . . . . . . . . . . . . . . . . . . . . . . . 28
8.1 Preço do Jogador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
8.2 Variáveis Explicativas . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
8.2.1 Atributos do Jogador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
8.2.2 Reputação Internacional . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
8.2.3 Salário . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
8.2.4 Overall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
8.2.5 Idade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
9 ANÁLISE DE MODELAGEM . . . . . . . . . . . . . . . . . . . . . . 36
9.1 Abordagem via Modelo com Erro Normal . . . . . . . . . . . . . . . 36
9.2 Abordagem SMSN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
9.3 Análise de Diagnóstico . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
9.4 Seleção de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
9.5 Interpretação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
10 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
A PROGRAMAÇÃO IMPLEMENTADA . . . . . . . . . . . . . . . . . 48
7
1 Introdução
"Inferência estatística consiste no ramo que tem por objetivo realizar conclusões
para a população por meio de amostras"(MORETTIN;BUSSAB, 2017). Tal fato
torna-se necessário por diversos motivos: Recursos financeiros e humanos limitados,
população inacessível, tempo disponível para pesquisa insuficiente, dentre outros. Com
isso, o desenvolvimento de modelagens preditivas torna-se indispensável. Pois segundo
Montgomery e Peck (1992), tais técnicas consistem em um conjunto de um ou mais
modelos probabilísticos, cuja finalidade é representar sistemas de interesse em termos de
suas características, a partir de amostras.
Nesse contexto, a distribuição normal destaca-se por ser bastante utilizada como
suposição necessária na modelagem preditiva de dados e desenvolvimento de técnicas
estatísticas, devido a suaspropriedades probabilísticas. Uma característica primordial
dessa distribuição é a simetria. Com isso, surge a necessidade de que os dados também
possuam uma distribuição simétrica para que a suposição de normalidade seja aceita e
os resultados obtidos na modelagem sejam efetivos e confiáveis. Porém, de acordo com
Garay (2013), por motivos de sua própria natureza, em diversas aplicações não é razoável
assumir esse pressuposto. A renda em países com alto índice de desigualdade ou qualquer
outro fenômeno que apresente valores discrepantes são exemplos que certamente possuem
dados distribuídos assimetricamente.
Com o intuito de aproximar dados assimétricos da normalidade, a transformação de
variáveis é o método mais comumente utilizado. Embora estes procedimentos possam ser
aplicados com sucesso em algumas situações, de acordo com Azzalini e Capitanio (1999),
existem algumas desvantagens em trabalhar com essas transformações. A citar:
• A transformação não fornece informação útil para entender o mecanismo de geração
dos dados;
• Dificulta a interpretação, especialmente quando temos diversas variáveis de interesse
e cada uma é transformada usando diferentes funções;
• A transformação para um conjunto de dados pode frequentemente não ser aplicável
a outros conjuntos de dados;
• Quando a suposição de homocedasticidade é necessária, algumas vezes a transforma-
ção requerida difere da transformação para alcançar a normalidade.
Capítulo 1. Introdução 8
Com base na literatura estatística, diversos estudiosos buscaram desenvolver modelos
mais flexíveis que contornassem o problema de assimetria dos dados e fossem menos
suscetíveis a caudas pesadas. O trabalho que despertou maior interesse na comunidade
científica deste tema foi o artigo de Azzalini em 1985 que propôs uma extensão para
o modelo normal univariado e em 1996, para a normal multivariada. A sua principal
proposta para a classe de modelos específicos da distribuição normal assimétrica ou
skew-normal, é uma generalização da distribuição normal tradicional, em que existe um
parâmetro de controle λ para o nível de assimetria.
Conforme Garay et al. (2013), atualmente essa classe de modelos assimétricos tem sido
bastante utilizada com o objetivo de estender técnicas estatísticas tradicionais, baseados
na suposição de normalidade. A citar: Arellano-Valle et al. (2005) propuseram um modelo
de regressão com erros nas variáveis, com covariável latente e erros de observação normais
assimétricos e Bazán et al. (2006) estenderam o modelo de teoria da resposta ao item com
função de ligação probit, substituindo-a por uma função de ligação linear skew-probit.
Essas aplicações também foram realizadas em diferentes subáreas: para modelar dados
psiquiátricos por Counsell et al. (2011), misturas de densidades por Lin et al. (2007) e
diversas outras.
Com base no cenário apresentado acima, busca-se estudar e ajustar os modelos
de regressão linear skew-normal e clássico a um conjunto de dados do jogo FIFA 19,
com o intuito de verificar a melhor adequabilidade. Isso é razoável, pois espera-se
criar uma ferramenta capaz de prever o valor médio do jogador, com base em um
perfil definido pelo usuário. Com isso, o processo de busca no game seria melho-
rado significativamente. Para isso, este trabalho será desenvolvido à luz dos estudos
desenvolvidos por Azzalini (1985, 2013), Garay et al. (2011, 2013) e diversos outros autores.
Uma breve revisão bibliográfica da classe de modelos skew-normal e algumas de suas
misturas de escala (Família SMSN) poderão ser vistas nos Capítulos 3 e 4. O Capítulo
5 destina-se a definição do modelo linear e ao método de estimação dos parâmetros via
algoritmo EM. Após isso, um estudo simulado é abordado no Capítulo 6 com o intuito
de ilustrar o mecanismo de geração de dados e o processo de estimação pela Máxima
Verossimilhança. Por fim, será acompanhado nos capítulos restantes, a descrição do banco
de dados, sua análise descritiva, a modelagem preditiva e interpretação do melhor modelo
ajustado.
9
2 Metodologia
O desenvolvimento do presente trabalho consiste em estudar e aplicar a classe de
modelos skew-normal a um conjunto de dados do jogo FIFA 19, extraído do portal Kaggle.
Nele, podem ser encontrados os principais atributos, posicionamento, preço e salário de
jogadores profissionais do futebol internacional.
Simplificadamente, busca-se promover um estudo comparativo entre os ajustes de
métodos convencionais, contendo a distribuição do erro normal e da Família Scale Mixture
of Skew-Normal (SMSN), a fim de identificar suas principais vantagens, desvantagens e
elucidar o modelo de melhor capacidade explicativa da variável resposta "Preço do jogador".
Utilizado como instrumento de auxílio, o software livre R 3.6 desempenhou papel
primordial, do ponto de vista computacional, no desenvolvimento do relatório proposto.
Azzalini e Garay desenvolveram pacotes que já abordam o tema trabalhado e estão
disponíveis na biblioteca CRAN. sn e nlsmsn são alguns exemplos de funções que serão
utilizadas para o ajuste dos modelos.
10
3 Distribuições Assimétricas
3.1 Fórmula de Azzalini
Seja uma função de probabilidade simétrica f0 denominada Densidade Base. A fór-
mula elaborada por Azzalini (1985) permite gerar uma versão perturbada ou modulada
(assimétrica) de f0, e é expressa por:
h(z) = 2f0(z)G0 {w(z)} (−∞ < z <∞), (3.1)
onde:
• h(z) é a densidade de probabilidade assimétrica gerada;
• f0(z) é uma densidade de probabilidade simétrica em torno da origem;
• G0(y) é uma função de distribuição acumulada (fda) de outra função de distribuição
simétrica em torno de uma origem qualquer;
• w(z) é uma função ímpar qualquer.
Ao adotar distribuições normal padrão N(0, 1) à função de probabilidade f0(·) = φ(·) e
à fda G0(·) = Φ(·), respectivamente. E ainda, w(z) = λz, com λ ∈ R, é obtida a classe de
distribuições skew-normal (normal assimétrica). A demonstração pode ser acompanhada
em Azzalini (2013) e discutiremos melhor a respeito de suas propriedades a seguir:
3.2 Distribuição Skew-Normal
Como citado anteriormente, entre as várias famílias de distribuição que podem ser
geradas a partir da equação (3.1), uma importante aplicação é à normal. Segundo Garay
et al. (2013), uma variável aleatória Z tem distribuição skew-normal, com parâmetro
de locação µ, parâmetro de escala σ2 > 0 e parâmetro de forma λ ∈ R, sob notação
Z ∼ SN(µ, σ2, λ), se sua densidade é dada por
SN(z|µ, σ2, λ) = 2φ(z|µ, σ2)Φ
(
λ(z − µ)
σ
)
(3.2)
onde φ(z|µ, σ2) = 1
σ
√
2πe
− 12 (
z−µ
σ
)2 e Φ(·) trata-se da sua fda associada.
Observe que para λ = 0, obtém-se Φ(0) = 12 . Dessa forma, a distribuição perturbada é
reduzida à normal usual.
Capítulo 3. Distribuições Assimétricas 11
Existem outras formas de definir a distribuição skew-normal. As representações por
forma estocástica e abordagem probabilística de Henze são algumas delas. Verificar
características com maior facilidade, propriedades da distribuição e gerar observações para
uma variável aleatória são exemplos de benefícios proporcionados por essas representações,
e a seguir, será tratado mais detalhadamente cada uma delas.
3.2.1 Distribuição Half-Normal
Antes de apresentar as diferentes formas de expressar a skew-normal, deve-se introduzir
a distribuição Half-Normal Generalizada (HNG), com o intuito de compreender um caso
particular, a Half-Normal (HN). Cooray e Ananda (2008) definem uma variável aleatória
X não negativa que segue a distribuição HNG com parâmetro de escala σ > 0 e de forma
λ > 0 quando tem a sua densidade dada por:
f(x|λ, σ) = 2λ
σ
(
x
σ
)(λ−1)
φ
[(
x
σ
)λ]
(3.3)
onde, x > 0 e φ(·) trata-se de uma distribuição Normal Padrão. Ao anexar λ = 1,
obtém-se a distribuição HN(µ, σ) de nosso interesse. Veja no gráfico abaixo o seu
comportamento para diferentes valores de σ > 0.
Figura 1 – Distribuição Half-Normal
Fonte: Página Mathworks
Capítulo 3. Distribuições Assimétricas 12
3.2.2 Forma Estocástica
Segundo Garay et al. (2013), seja (Z,X) um vetor aleatório com distribuição normalbivariada dada por
Z
X
 ∼ N2
µ
0
 ,
σ2 σδ
σδ 1
 (3.4)
onde:
• δ = λ√1+λ2 ;
• Marginalmente, Z ∼ N(µ, σ2) e X ∼ N(0, 1);
• δ é o Coeficiente de Correlação entre X e Z.
Dessa forma, a distribuição de Z|(X > 0) tem densidade
f(z) = P (X > 0)−1P (X > 0|Z = z)φ(z|µ, σ2)
O cálculo da probabilidade P (X > 0|Z = z) pode ser obtido através da teoria de
distribuição condicional para vetores aleatórios com distribuição normal bivariada. Uma
demonstração pode ser vista no livro Johnson & Wichern (2007, Cap. 4). Assim, a
distribuição condicional de X|Z = z é dada por
X|Z = z ∼ N
(
δ(z−µ)
σ
, 1− δ2
)
Implicando em
P (X > 0|Z = z) = 1− Φ
(
−δ(z−µ)
σ
√
1−δ2
)
= Φ
(
λ(z−µ)
σ
)
pois, λ = δ√1−δ2
Dessa forma, verifica-se que a distribuição Z|(X > 0) é SN(µ, σ2, λ).
3.2.3 Abordagem de Henze
Segundo Henze (1986), sejam T ∼ HN(0, 1) e V ∼ N(0, 1) variáveis aleatórias
independentes. Considere ainda a seguinte escrita para a variável aleatória Z:
Z = µ+ σδT + σ(1− δ2) 12V, onde δ ∈ (−1, 1) (3.5)
Então,
Z ∼ SN(µ, σ2, λ), onde λ = δ√1−δ2
Capítulo 3. Distribuições Assimétricas 13
A demonstração, bem como a prova podem ser acompanhadas em Henze (1986).
A Figura 1, representa histogramas de duas amostras de tamanho n = 100 e n = 1000
que seguem distribuiçao skew-normal e foram simuladas a partir da abordagem de Henze.
No painel superior foi assumido (µ, σ2, λ) = (0, 5, 13) e inferior (µ, σ2, λ) = (1, 4,−15),
com n = 100 à esquerda e n = 1000, à direita. Perceba que à medida que o tamanho
amostral cresce, a forma assimétrica da distribuião torna-se mais bem definida.
Figura 2 – Histograma de amostras simuladas da Skew-normal (µ, σ2, λ)
Veja também pela Figura 2, que para os casos de n = 1000, cresce consideravelmente o
número de observações discrepantes.
Capítulo 3. Distribuições Assimétricas 14
Figura 3 – Boxplot de amostras simuladas da Skew-Normal (µ, σ2, λ)
Garay et al. (2013), trata uma forma mais interessante de escrever a representação
(3.5). Pois, através dela, uma série de propriedades da distribuição skew-normal podem
ser obtidas. Essa reparametrização pode ser escrita como:
∆ = σδ e Γ = σ2(1− δ2)
Ou seja, se Z ∼ SN(µ, σ2, λ), então pode-se escrever
Z = µ+ ∆T + ΓV, onde T ∼ HN(0, 1) e V ∼ N(0, 1) são independentes. (3.6)
Com essa reparametrização, Z ∼ SN(µ,Γ,∆) admite a seginte representação estocás-
tica
Z|T = t ∼ N(µ+ ∆t,Γ), T ∼ HN(0, 1) (3.7)
Onde por definição, os parâmetros originais podem ser obtidos pela relação
λ = ∆√Γ e σ
2 = Γ + ∆2
Capítulo 3. Distribuições Assimétricas 15
3.2.4 Propriedades da Skew-Normal
As propriedades da distribuição skew-normal foram amplamente exploradas por
Azzalini (1985) e abaixo podemos verificar, simplificadamente, algumas delas.
Considere Z ∼ SN(µ,Γ,∆)
• SN(µ,Γ, 0) = N(µ,Γ);
• Mx(t) = 2e
t2
2 Φ(δt);
• E[Z] = µ+
√
2
π
∆;
• V ar[Z] = ∆2(1− 2
π
) + Γ;
• γ1 = a1δ
3
(1− 2
π
δ2)
3
2
;
• γ2 =
3− 2
π
δ2[6−a2δ2]
(1− 2
π
δ2)2 − 3.
onde, a1 = 2( 2π )
3
2 −
√
2
π
e a2 = (4− 6π )
Para acompanhar detalhadamente os resultados expostos em 3.2.4, ver Azzalini (2013).
16
4 Misturas de Escala da Normal Assimétrica
No caso normal simétrico, é possível gerar uma classe de distribuições que acomodem
observações discrepantes ou caudas pesadas a partir da mistura de densidades de
probabilidade de diferentes distribuições independentes (Ver Andrews e Mallows, 1974).
Essas misturas de escala geram uma classe de distribuição conhecida como Família SMN
(Scale Mixture of Normal). Basicamente, busca-se gerar Y , uma mistura de escala da
normal a partir do fator de escala U e sua densidade misturadora h(·|v). Distribuições
t-student, normal contaminada e slash são alguns exemplos bastante conhecidos gerados a
partir dessas misturas.
Nesse contexto, Branco e Dey (2001) estenderam o trabalho de Andrews e Mallows
(1974), ao substituir a suposição de normalidade simétrica pela assimétrica. Assim, foi
criada a classe das distribuições normais assimétricas independentes, a Família SMSN
(Scale Mixture of Skew-Normal) que tem o objetivo de acomodar os outliers, analogamente
ao caso simétrico.
Dessa forma, Branco e Dey (2001) definem que a distribuição da variável aleató-
ria Y está na família das distribuições normais assimétricas independentes quando
Y = µ + U− 12X, onde µ ∈ R, X ∼ SN(0, σ2, λ), U é uma variável aleatória positiva,
independente de X, com densidade h(·|v) e Y |U = u ∼ SN(µ, u−1σ2, λ).
Assim, Prates et al. (2013) denotam uma Y ∼ SMSN(µ, σ2, λ, v), com v graus de
liberdade (gl) se sua densidade é dada por
Y = 2
∫ ∞
0
φ(y|µ, u−1σ2)Φ(u 12λ′σ−1(y − µ))h(u|v)du. (4.1)
Abaixo veremos a utilização de alguns fatores de escala apresentados por Ferreira et al.
(2011), com o intuito de gerar versões assimétricas das distribuições que estão na família
Scale Mixture of Normal (SMN) a partir de (4.1):
• Se P (U = 1) = 1, obtém-se a distribuição skew-normal,
• Para U ∼ Γ(v2 ,
v
2) com v > 0, obtém-se a skew-t com densidade:
ST (y) = t(y|µ,2 , v)Tv
(
λ(y−µ)
σ
√
v+1
d2(y)+v
)
,
onde d2(y) = (y−µ)
2
σ2
e Tv(·) é a função de distribuição da t-Student com v g.l
Capítulo 4. Misturas de Escala da Normal Assimétrica 17
• Se U ∼ β(v, 1) com v > 0, obtém-se a distribuição skew-slash, com densidade dada
por
SSL(y) = 2v
∫ 1
0 u
v−1φ(y|µ, u−1σ2)Φ(u 12λσ−1(y − µ))du
• Se U é binária com P (U = τ) = ρ = 1− P (U = 1), onde 0 < τ , ρ < 1 (e portanto
v = (τ, ρ)′), obtém-se a distribuição skew-normal contaminada com densidade
SCN(y) = 2[ρφ(y|µ, τ−1σ2)Φ(τ 12λσ−1(y − µ)) + (1− ρ)φ(y|µ, σ2)Φ(λσ−1(y − µ))]
Evidentemente, se fizermos λ = 0, obteremos para cada uma das misturas a sua
respectiva versão simétrica da Família SMN.
4.1 Forma Estocástica
Assim como na forma apresentada para a skew-normal na subseção 3.2.3, será
apresentada uma representação estocástica para as variáveis aleatórias com distribuição
na família SMSN. Ela é muito importante, pois fornece um mecanismo eficiente para a ge-
ração de observações e possibilita a criação de algoritmos de estimação para o modelo linear.
Segundo Garay et al. (2011), seja Y ∼ SMSN(µ, σ2, λ, v). Então Y possui a seguinte
representação estocástica
Y |T = t, U = u ∼ N(µ+ ∆t, u−1Γ);
T |U = u ∼ HN(0, u−1);
U ∼ h(·|v);
onde, ∆ = σδ e Γ = σ2(1− δ2), com δ = λ√1+λ2 .
A Figura 3 ilustra e compara a forma de cada uma das distribuições definidas
anteriormente. Para gerá-las sob σ2 = 1 e λ = 15, os parâmetros adotados foram: N(4)
para Normal, SN(4) para a skew-normal, ST (4, 1) para a skew-t, SSL(4, 1) para a
skew-slash e SCN(4; 0.8, 0.2) para a normal contaminada.
Note que todas as distribuições assimétricas possuem como característica o achatamento
Leptocúrtico. O que indica a presença de caudas mais pesadas. Entretanto, é perceptível
que a skew-slash e skew-normal contaminada são mais apropriadas para acomodar valores
discrepantes.
Capítulo 4. Misturas de Escala da Normal Assimétrica 18
Figura 4 – Distribuições da Família SMSN
4.2 Propriedades da Família SMSN
Assim, Lachos et. al (2014) encontraram os seguintes resultados para os momentos da
forma estocástica:
• Se E[U− 12 ] <∞, então
E[Y ] = µ+ ( 2
π
) 12E[U− 12 ]∆;
• Se E[U−1] <∞, então
V ar[Y ] = σ2(E[U−1]− ( 2
π
)E2[U− 12 ]δ2);
• Se E[U− 12 ] <∞, então
γ1 = δ(a1+a2δ
2)
(k2− 2π k
2
1δ
2)
3
2
• Se E[U− 12 ] <∞, então
γ2 =
3k4− 2π k1δ
2[a3−a4δ2]
(k2− 2π k
2
1δ
2)2 − 3
onde, km = E[U−
m
2 ]; a1 = 3( 2π )
1
2 (k3 − k1k2) a2 = 2( 2π )
3
2k31 − ( 2π )
1
2k3;
a3 = 6(2k3 − k1k2); a4 = 4k3 − 6πk
3
1
Com isso, verificamos que o cáculo desses coeficientes dependem somente dos momentos
de U− 12 .
19
5 O Modelo de Regressão Linear
A partir de agora, será tratado a respeito da estimação dos parâmetros para um modelo
de regressão linear do ponto de vista clássico, sob erros de observação com distribuição na
Família SMSN, onde a forma estocástica tratada na subseção 4.1, desempenhará papel
primordial no processo de determinação do algoritmo iterativo.
5.1 Modelo de Regressão Linear SMSN
O modelo de regressão linearSMSN aqui utilizado, possui erros de mensuração com
distribuição SMSN e é difinido por Garay et al. (2011) como
Yi = xTi β + �i, i = 1, ..., n, (5.1)
onde:
• �i ∼ SMSN((− 2π )
1
2k1∆, σ2, λ,v), com �i = 1, ..., n e k1 = E[U−
1
2 ] variáveis aleatórias
independentes. O parâmetro de locação dos erros provém da Seção 4.2, onde E[�i] = 0,
de tal forma que E[Yi] = xTi β, como no modelo de regressão usual,
• Yi consiste na variável resposta para i = 1, ..., n,
• x = (xi1, ..., xip)T é um vetor com valores de p variáveis explicativas para o i-ésimo
elemento, com i = 1, ..., n,
• β = (β1, ..., βp)T é o vetor dos coeficientes de regressão.
5.2 Estimação via Algoritmo EM
O método de estimação dos parâmetros do modelo de regressão linear SMSN se
baseará numa adaptação da proposição original feita por Dempster et al. (1977) e
elucidada por Garay et al. (2011, 2013) em trabalhos que tratam do caso não linear.
Consiste em realizar a estimação por máxima verossimilhança por meio de um algoritmo
EM (Expectation-Maximization), considerando a representação do modelo em "dados
aumentados". Uma representação estocástica em termos de distribuições mais tratáveis,
que em geral, dependem de quantidades não observáveis, chamados de "missing values". A
estrutura para a Família SMSN deste tipo foi tratada na seção 4.1 deste relatório, onde T
e U são variáveis não observáveis.
Capítulo 5. O Modelo de Regressão Linear 20
De acordo com Garay et al. (2011, 2013), A ideia do procedimento é obter uma
log-verossimilhança aumentada - chamada de log-verossimilhança completa. Ou seja,
supondo que T e U fossem de fato observadas, amostras Ti e Ui seriam geradas. No
passo E substitui-se os valores das "observações"de Ti e Ui (ti e ui) por E[Ti|Y = y] e
E[Ui|Y = y], onde Y é o vetor de amostras efetivamente observáveis. E no passo M, a
função resultante deste processo é maximizada nos parâmetros do modelo.
5.2.1 Forma Estocástica
Então, seja Y = (Y1, ..., Yn)T uma amostra aleatória proveniente do modelo de regressão
SMSN. Pela representação dada em 4.1, dado Ui = ui temos que
Yi = xTi β + b+ u
− 12
i Ti + u
1
2
i Γ
1
2Vi, i=1,...,n.
onde,
• b = (− 2
π
) 12k1;
• Ti ∼ HN(0, 1) e V ∼ N(0, 1) independentes, para cada i = 1, ...n;
• b+ u−
1
2
i Ti ∼ TN(b, u−1i ; (b,∞)), i = 1, ...n.
Dessa forma, Garay et al. (2011) define que representação estocástica do modelo pode
ser escrita como
Yi|Ui = ui, Ti = ti ∼ N(xTi β + ∆ti, u−1i Γ);
Ti|Ui = ui ∼ TN(b, u−1i ; (b,∞));
Ui ∼ h(·|v).
5.2.2 Passo E
Sejam y = (y1, ..., yn)T um vetor observado, t = (t1, ..., tn)T e u = (u1, ..., un)T vetores
não observáveis. A menos de constantes não importantes, a função de log-verossimilhança
completa para θ = (βT , σ2, λ)T associada a (yT , tT , uT ) é dada por:
lc(θ|y, t, u) =
n
2 log Γ−
1
2Γ
n∑
i=1
ui(yi − xTi β −∆ti)2. (5.2)
A partir daqui, ξ̂ ≡ g(θ̂) será denotado um estimador de ξ ≡ g(θ) e E[·|θ, yi] é
o valor esperado, supondo que o vetor θ contém os verdadeiros paramâmetros, dado Y = yi.
Seja ξ̂(k) uma atualização da estimativa gerada pelo EM no passo k. As seguintes
esperanças são importantes
Capítulo 5. O Modelo de Regressão Linear 21
ûi
(k) = E[Ui|θ̂(k), yi]; ûti
(k) = E[UiTi|θ̂(k), yi] ; ût2i
(k)
= E[UiT 2i |θ̂(k), yi].
Utilizando propriedades de esperança condicional, obtém-se
ûti
(k) = ûi(k)(µ̂T i(k) + b) + M̂T
(k)
τ̂1
(k),
ût2i
(k)
= ûi(k)(µ̂T i(k) + b)2 + M̂T
2(k) + M̂T
(k)(µ̂T i(k) + 2b)τ̂1(k).
onde,
τ̂1
(k) = E[U
1
2
i WΦ(U
1
2
i
ˆµTi
M̂T
)|θ̂(k), yi] e WΦ(x) = φ(x)Φ(x) , x ∈ R.
Assim, é necessário o cálculo das quantidades ûi(k) e τ̂i(k) para que o passo E seja
efetuado. A definição realizada por Lachos et al. (2010) é bastante importante para a
obtenção desses valores.
Sejam Y ∼ SMSN(µ, σ2, λ, v), Y0 ∼ SMN(µ, σ2, v) ambas com o mesmo fator de
escala U ∼ h(·|v) e Uy uma variável aleatória com a mesma distribuição de U |(Y0 = y).
Então, para toda função mensurável g : R→ R
E[g(U)|Y = y] = 2γ(y)E[g(Uy)Φ(U
1
2
y λσ−1(y − µ))].
onde, γ(y) = SMN(y|µ,σ
2,v)
SMSN(y|µ,σ2,λ,v) .
Observe que ûi(k) e a esperança de τ̂i(k) podem ser obtidos ao fazer g(u) = u e
g(u) = u 12WΦ(u
1
2 ˆµTi
M̂T
), respectivamente. Para os demais casos de distribuições, ver BASSO
et al. (2010).
5.2.3 Passo M
Consiste em maximizar a função Q, definida por
Q(θ|θ̂(k)) = E[lc(θ|y, t, u)|y, θ̂(k)], (5.3)
que, a menos de constantes não importantes, é dada por
Q(θ|θ̂(k)) = −n2 log(Γ)−
1
2Γ
n∑
i=1
[ûi(k)(yi − xTi β)2 − 2∆(yi − xTi β)ûti
(k) + ∆2ût2i
(k)
]. (5.4)
Capítulo 5. O Modelo de Regressão Linear 22
5.2.4 Abordagem CM
Geralmente, a maximização simultânea de todas as componentes do vetor θ é
extremamente complicada. Por isso, o processo de maximização condicional (CM)
estudado por Meng e Rubin (1993) é adotado. Consiste em maximizar as coordenadas
marginalmente e possui os seguintes passos:
Passo E: Dada uma estimativa atualizada de θ̂(k), calcula-se ûi(k), ûti
(k) e ût2i
(k)
para
i = 1, .., n.
Passo CM: Atualize θ̂(k) maximizando Q(θ|θ̂(k)) em θ, aplicando seus resultados às
seguintes expressões:
β̂(k+1) = (XT Û (k)X)−1XT Û (k)z(k),
∆̂(k+1) =
∑n
i=1 ûti
(k)(yi−xTi β̂
(k))∑n
i=1 ût
2
i
(k) ,
Γ̂(k+1) = 1
n
∑n
i=1[(yi − xTi β̂(k))2ûi(k) − 2∆(k+1)(yi − xTi β̂(k))
ˆ
ui
(k)
i + (∆2)(k+1)ût2i
(k)
],
onde, X é uma matriz com i-ésima linha, xTi a matriz planejamento, Û (k) =
diag(ûi(k), ..., ûn(k)) e z(k) é a resposta observada corrigida, dada por
z(k) = y − ∆̂(k)τ̂ (k) , com τ̂ (k) = (τ̂1(k), ..., τ̂n(k))T e τ̂i(k) = ûti
(k)
ûi
(k) , i = 1, ..., n.
O processo iterativo é repetido até que uma regra de convergência seja satisfeita.
23
6 Estudo Simulado
Com o objetivo de entender o mecanismo de geração de dados e a estimação de
parâmetros por máxima verossimilhança, foi realizado um breve estudo simulado,
onde uma variável explicativa X ∼ U [2, 5] e um � ∼ SN(n, 0, 5,−9) foram gerados de
maneira randômica, sob diferentes tamanhos de amostra. Basicamente, será observado
o comportamento e a adequabilidade das estimativas de parâmetros conhecidos para
uma função linear, ao adotar-se distribuições da família assimétrica como método de ajuste.
Para isso, os parâmetros adotados são β0 = 6 e β1 = 1.5, sob um modelo linear expresso
da seguinte forma:
Yi = 6 + 1.5Xi + �i, com i = 1, 2, ...n. (6.1)
A Figura 4 apresenta o comportamento das amostras geradas assimetricamente. À
esquerda, verifica-se a forma de �i quando n = 500 e n = 5000, respectivamente. Já à
direita, a forma correspondente do Yi.
Figura 5 – Modelo Y sob � ∼ SN(0, 5,−9)
A Tabela 1 sumariza as estimativas encontradas na simulação do modelo ajustado.
Note que, em geral, o ajuste de melhor adequabilidade é o skew-normal, pois além dos
valores encontrados serem bem próximos dos parâmetros reais, o modelo obteve o menor
Capítulo 6. Estudo Simulado 24
índice de AIC. Em contrapartida, o modelo normal apresentou ajuste mais distante da
realidade, apesar de seu β1 ter sido bem estimado.
Ao aumentar o tamanho amostral, um resultado semelhante ao anterior é obtido.
Perceba que os modelos assimétricos apresentaram uma melhora. Mais especificamente:
• β̂0 e β̂1 foram melhor estimados pela skew-normal e skew-t (3 gl), quando n grande;
• σ̂ foi bem estimado pela skew-normal;
• λ̂ foi melhor estimado pela skew-normal, quando n grande.
Tabela 1 – Estimativas do Estudo Simulado
Amostra Estimador Normal Skew-normal Skew-t
n = 500
β̂0 4.253 5.825 5.708
β̂1 1.48 1.532 1.518
σ̂2 - 5.058 2.524
λ̂ - -7.145 -4.343
AIC 1768.736 1642.532 1666.633
n = 5000
β̂0 4.397 5.985 5.891
β̂1 1.446 1.493 1.486
σ̂2 - 4.879 2.729
λ̂ - -8.377 -5.476
AIC 17136.96 16048.07 16455.74
Dessa forma, para esse banco de dados gerado sob o modelo skew-normal, conclui-se que
os modelos da família skew foram mais vantajosos, em relação aos métodos convencionais.
Pois, é perceptível a sua capacidade e melhor adequabilidade em acomodar dados
distribuídos assimetricamente.
Nas próximas seções, uma abordagem semelhante será aplicada a um conjuntode
dados reais. Além de estender o ajuste a outras misturas de escala, também será realizada
uma análise de diagnóstico dos resíduos.
25
7 Banco de Dados
Conforme menciondo anteriormente, foi adotado neste projeto um conjunto de dados
do fantasy game FIFA 19 que contempla informações a respeito de jogadores profissionais
do futebol internacional. Nele, podem ser encontradas as principais características de um
jogador. O processo de extração dos dados se deu a partir do portal www.sofifa.com,
por meio de técnicas Web Scraping e que posteriormente foram disponibilizados no portal
www.kaggle.com.
O conjunto de dados contempla 18.207 jogadores de diferentes ligas internacionais.
Porém, com o intuito de adotar um grupo homogêneo de observações, o presente trabalho
considera somente os atletas pertencentas à Liga Inglesa, totalizando 581 registros.
7.1 Perfil do Jogador
O quadro abaixo detalha as principais informações de perfil dos jogadores que podem
ser encontrados no banco de dados.
Variável Descrição
ID Código de Identificação
Name Nome Completo
Age Idade (em anos)
Nationality Nacionalidade
Overall Média Geral de Qualidade do jogador (0 a 100)
Club Clube
Value Preço do Jogador (em e)
Wage Salário anual do jogador (em e)
Preferred Foot Perna de Preferência
International Reputation Reputação Internacional (1 a 4)
Position Posicionamento em campo
7.2 Posicionamento em Campo
Conforme De Melo et al. (2007), o campo de jogo pode ser dividido em três setores:
defesa, meio-campo (armação) e ataque. Essa divisão é importante, pois a variável
posicionamento em campo assume 27 diferentes categorias e essa definição será de extrema
importância na aplicação de uma recategorização, caso a informação seja inserida no
modelo proposto.
www.sofifa.com
www.kaggle.com
Capítulo 7. Banco de Dados 26
Uma discussão a respeito dos objetivos e habilidades inerentes aos jogadores de cada
setor é discutida por Guimarães et al. (2014). Para eles, o setor de defesa é ocupado por
jogadores de elevada altura, força física e bom poder defensivo. Seu principal objetivo é
evitar as ações ofensivas da equipe adversária.
O setor de meio-campo é onde ocorrem as primeiras ações para a recuperação da
posse de bola e início de ações ofensivas. Para a posição, jogadores com boa capacidade
técnica e elevada inteligência de jogo são primordiais.
Por fim, o ataque é a área onde as ações ofensivas são frequentes, pois busca-se o gol.
Para desempenhar a função dessa posição, jogadores de habilidade, criatividade e poder
de finalização são essenciais.
A Figura 5 ilustra como se deu a recategorização dos posicionamentos em cada um dos
setores apresentados acima.
Figura 6 – Categorização de Posicionamento dos Jogadores
Como os atributos dos jogadores que detém a posição de goleiro são específicos e
exclusivos, optou-se por desconsiderá-los na análise de dados tratada nesse trabalho.
Capítulo 7. Banco de Dados 27
7.3 Atributos do Jogador
Entender a natureza e qual tipo de informação é mensurada por cada um dos atributos
de qualidade dos jogadores é extremamente importante para a sua implementação nos
modelos a serem elaborados. O banco de dados apresenta 29 diferentes variáveis que
variam de 0 a 100. Porém, devido a essa grande quantidade, se fez necessário agrupá-las
em atributos comuns, por meio de uma média simples, com o intuito de realizar uma
redução de dimensionalidade, mas preservando o valor observado em todos os registros.
Veja abaixo, uma breve descrição de cada um desses 6 novos atributos.
Tabela 2 – Agrupamento de Atributos dos Jogadores
Atributo Variável Descrição
Ofensivo
Crossing Precisão nos cruzamentos
Finishing Precisão no chute dentro da área
Heading Accuracy Precisão da cabeçada
Short Passing Precisão dos passes rasteiros
Volleys Técnica para chute de primeira
Habilidade
Dribbling Drible
Curve Efeito em Finalizações
Free Kick Accuracy Precisão das cobranças de falta
Long Passing Precisão de passes pelo alto
Ball Control Controle de bola
Movimentação
Acceleration Tempo para atingir a velocidade máxima
Sprint Speed Velocidade máxima de Corrida
Agility Agilidade física do jogador
Reactions Tempo de resposta a alguma situação
Balance Habilidade de manter ou retomar o equilíbrio
Potência
Shot Power Força do chute
Jumping Salto do jogador
Stamina Resistência ao cansaço do jogador.
Strength Mede a força do jogador
Long Shots Precisão do chute fora da área
Mentalidade
Aggression Vigor e agressividade na disputa física
Interceptations Habilidade de antecipação
Positioning Habilidade de buscar bom posicionamento
Vision Habilidade de ver o posicionamento
Penalties Precisão na cobrança de pênaltis
Composure Tomada de decisões sob pressão
Defensivo
Marking Habilidade de marcação
Standing Tackle Desarme do adversário sem falta
Sliding Tackle Carrinho sem cometer falta
28
8 Análise Descritiva
Este capítulo possui o enfoque em apresentar uma análise descritiva das variáveis
que serão introduzidas no modelo proposto. O intuito é de fato, entender e explorar
os comportamentos univariado e bivariado de cada uma delas, a fim de desenvolver um
prognóstico que auxilie na seleção das variáveis regressoras que explicarão a variável
resposta, ln(preço do Jogador).
8.1 Preço do Jogador
Conforme citado anteriormente, a variável preço do jogador desemepenhará um papel
primordial no modelo proposto, pois trata-se da variável resposta adotada. Com base nas
Figuras 6 e 7 e na Tabela 3, nota-se que o seu comportamento é altamente assimétrico à
direita. Cerca de 75% dos jogadores custam até e12,000,000 e há uma elevada variação e
apresenta diversos outliers, onde o valor máximo é de e102,000,000. Para essas condições,
a estimação dos parâmetros não seria razoável. Assim, fez-se necessário aplicar a transfor-
mação logarítimica, com intuito de reduzir o nível de assimetria e conter a alta variabilidade.
Figura 7 – Distribuição de Preço dos Jogadores
Capítulo 8. Análise Descritiva 29
Figura 8 – Distribuição de Preço dos Jogadores por Posicionamento
Após a transformação, percebe-se uma alteração significativa no comportamento gráfico
da variável: leve assimetria à esquerda, redução na variabilidade e inexistência de outliers.
Veja que a distribuição entre os diferentes posicionamentos é semelhante.
Tabela 3 – Medidas Descritivas: Preço do Jogador
Medida Preço do Jogador (e) ln(Preço do Jogador)
Mínimo 60,000 11,00
1o Quartil 1,000,000 13.82
Mediana 6,500,000 15.69
Média 9,783,141 15.16
3o Quartil 12,000,000 16.30
Máximo 102,000,000 18.44
Desvio Padrão 13,238,096 1.61
É notório que será necessário utilizar a transformação logarítmica do preço do jogador
como variável resposta, para uma obtenção razoável de estimadores. Porém, o cenário
descrito é exatamente o procurado para o ajuste do modelo clássico e da família SMSN.
8.2 Variáveis Explicativas
Preliminarmente, a matriz de correlação vista na Figura 8 foi elaborada com o intuito
de identificar o sentido e a intensidade de associação entre todas as variáveis que serão
inseridas no modelo proposto.
Em geral, nota-se uma correlação linear positiva de intensidade moderada/alta entre
todas as variáveis explicativas versus a variável resposta. Embora, o Coeficiente de
Capítulo 8. Análise Descritiva 30
Pearson r para ln(preço) versus atributos de defesa apresente um valor baixo, suspeita-se
que esse resultado dependa da posição exercida pelo jogador. A apuração será realizada
mais a frente, na seção 8.2.1.
Note que somente o par atributos de defesa versus movimentação/ataque possuem r
negativo, indicando a associação indireta. De fato, espera-se que jogadores com índices
mais elevados de capacidade defensiva, tenham uma menor mobilidade e poder ofensivo,
pois são habilidades inerentes aos setores de meio-campo e ataque.
Veja que a correlação máxima encontrada é 0.86, presente no par habilidade versus
ataque. A fim, de verificar a presença de colinearidade, foram obtidos os valores de
V IF < 10, o que descarta indícios de que exista multicolinearidade entreas variáveis
explicativas.
Figura 9 – Matriz de Correlação
8.2.1 Atributos do Jogador
A análise descritiva dessas variáveis terá uma abordagem concentrada no estudo do
comportamento dos níveis de associação entre cada um dos atributos e o ln(preço do
jogador) para os diferentes posicionamentos, pois suspeita-se que cada posição possua
uma relação de atributos mais relevantes na determinação do valor final do jogador.
Capítulo 8. Análise Descritiva 31
Esse cenário é bastante razoável, pois jogadores de defesa podem não apresentar
um bom poder de finalização, domínio de bola e/ou drible, mas podem ter o preço tão
elevado quanto jogadores de ataque que não possuem boas características defensivas.
Perceba que para cada um dos casos, diferentes variáveis possuem uma relevância maior
na determinação do valor do passe.
Inicialmente, a Figura 9 tem o intuito de ilustrar a distribuição de cada uma das
variáveis por posicionamento em campo.
Figura 10 – Atributos dos Jogadores por Posicionamento
Graficamente, percebe-se que a caixa referente a cada posicionamento possui a sua
concentração semelhante para a maioria dos atributos, exceto para os que tratam de
características defensivas. Veja que neste caso, a caixa referente aos jogadores de defesa é
bastante deslocada verticalmente, em relação aos demais.
Capítulo 8. Análise Descritiva 32
Figura 11 – Diagrama de Dispersão: ln(preço) versus Atributos por Posicionamento
Tabela 4 – Coeficiente de Pearson: ln(preço) versus Atributos por Posicionamento
Posicionamento Ataque Defesa Mentalidade Movimentação Potência Habilidade
Ataque 0.91 0.53 0.89 0.55 0.78 0.85
Defesa 0.72 0.92 0.78 0.40 0.74 0.62
Meio-Campo 0.86 0.36 0.86 0.52 0.82 0.87
Com o auxílio da Figura 10 e Tabela 4, a constatação inicial confirma-se. Veja que o
coeficiente r do ln(preço) versus atributos defensivos para a posição de defesa é r = 0.92,
enquanto as demais posições apresentam r = 0.53 e r = 0.36.
Para os atributos de habilidade, veja que os posicionamentos de ataque e meio-campo
apresentam valores de correlação superiores: r = 0.85 e r = 0.87, respectivamente.
Enquanto que o de defesa, r = 0.62.
Sendo assim, serão inseridas uma variável dummy que identifica o posicionamento, sob
referência meio-campo. Isso porque, trata-se de uma posição em que os jogadores devam
apresentar características comuns às demais áreas do campo e um parâmetro de interação
entre o posicionamento e os atributos de ataque e defesa.
8.2.2 Reputação Internacional
A Figura 11 tem o intuito de verificar o comportamento do preço do jogador por nível
de reputação internacional. Note no boxplot os sucessivos deslocamentos verticais da caixa,
à medida que o nível de reputação aumenta. Tal fato, indica uma possível valorização sob
níveis mais altos de reputação. Com isso, será inserida uma variável categórica sob nivel
de referência 1.
Capítulo 8. Análise Descritiva 33
Figura 12 – Distribuição do ln(preço) por Nível de Reputação Internacional
8.2.3 Salário
A Figura 12 apresenta o comportamento da variável ln(preço) versus salário. Apesar
da correlação 0.78 encontrada, o diagrama de dispersão à esquerda não evidencia um
comportamento linear entre as variáveis estudadas.
Figura 13 – Distribuição do Salário por Posicionamento
8.2.4 Overall
A Figura 13 trata do comportamento da variável Overall. Veja no boxplot que apesar
dos diferentes posicionamentos, em geral, a distribuição é bastante semelhante, com média
72.63 e σ = 8.52.
Capítulo 8. Análise Descritiva 34
Já no diagrama de dispersão, é corroborado o elevado grau de associação encontrado
para ln(preço) versus overall. Perceba que a correlação entre ambas as variáveis é
praticamente perfeita, com valor r = 0.98. Um nível tão elevado pode indicar a existência
de colinearidade entre ambas, visto que uma tem a alta capacidade explicar a variabilidade
da outra. Além disso, é importante ressaltar que o overall trata-se de um indicador
resumo para todas as variáveis de atributos. Portanto, a sua inserção deverá ser bastante
avaliada durante a modelagem preditiva, pois o objetivo é construir um modelo em que
necessariamente, os atributos estejam presentes.
Figura 14 – Distribuição do Overall por Posicionamento
8.2.5 Idade
A Figura 14 tem o intuito de apresentar o comportamento do ln(preço) segundo a idade.
Apesar da correlação 0.55 encontrada, no diagrama à direita, nenhuma nuvem concentrada
de pontos é identificada. Tal fato não apresenta indícios de que exista uma relação linear
entre as variáveis estudadas. Já à esquerda, a distribuição de idade é semelhante entre os
três diferentes posicionamentos. A sua média está em torno de 24 anos com σ = 4.38.
Capítulo 8. Análise Descritiva 35
Figura 15 – Distribuição de Idade por Posicionamento
36
9 Análise de Modelagem
Este capítulo possui o enfoque em apresentar o ajuste dos modelos lineares ao conjunto
de dados proposto. Será abordada a estimação dos coeficientes de regressão βi, a análise
de diagnóstico e a seleção do melhor ajuste.
9.1 Abordagem via Modelo com Erro Normal
Como ponto de partida, o modelo que contém todas as variáveis explicativas é adotado.
A Tabela 5, elenca as variáveis inseridas nos modelos 1 e 2, sumariza as estimativas para
cada parâmetro e seu respectivo p-valor para o teste t.
Tabela 5 – Ajuste de Modelos I - Abordagem Clássica
Modelo Variável Parâmetro Estimativa Pr( >|t| )
Modelo 1
Intercepto β0 9.563 ∗ 10−1 3.87 ∗ 10−15
Salário β1 −1.730 ∗ 10−6 5.33 ∗ 10−7
Overall β2 2.210 ∗ 10−1 < 2 ∗ 10−16
Idade β3 −6.586 ∗ 10−2 < 2 ∗ 10−16
Ataque β4 3.026 ∗ 10−3 0.211
Habilidade β5 −1.821 ∗ 10−3 0.261
Movimentação β6 −8.343 ∗ 10−4 0.486
Potência β7 3.936 ∗ 10−4 0.823
Mentalidade β8 1.176 ∗ 10−3 0.649
Defensivo β9 −2.691 ∗ 10−3 0.0039
Posição(Ataque) β10.1 −2.440 ∗ 10−2 0.410
Posição(Defesa) β10.2 −9.380 ∗ 10−2 0.0002
Reputação Internacional (2) β11.1 −2.340 ∗ 10−2 0.304
Reputação Internacional (3) β11.2 −9.729 ∗ 10−2 0.006
Reputação Internacional (4) β11.3 1.503 ∗ 10−11 0.062
Modelo 2
Intercepto β0 7.262 < 2 ∗ 10−16
Salário β1 1.388 ∗ 10−5 < 2 ∗ 10−16
Idade β2 −8.058 ∗ 10−3 0.395
Ataque β3 2.088 ∗ 10−2 0.023
Habilidade β4 7.037 ∗ 10−3 0.253
Movimentação β5 1.106 ∗ 10−2 0.015
Potência β6 3.011 ∗ 10−2 5.63 ∗ 10−6
Mentalidade β7 3.905 ∗ 10−2 6.69 ∗ 10−5
Defensivo β8 7.320 ∗ 10−3 0.0378
Posição(Ataque) β9.1 2.252 ∗ 10−1 0.045
Posição(Defesa) β9.2 2.999 ∗ 10−1 0.001
Reputação Internacional (2) β10.1 8.519 ∗ 10−2 0.325
Reputação Internacional (3) β10.2 −3.677 ∗ 10−1 0.006
Reputação Internacional (4) β10.3 −1.293 2.32 ∗ 10−5
Capítulo 9. Análise de Modelagem 37
Antes de analisar os modelos ajustados acima, é importante salientar que optou-se
pela retirada dos parâmetros de interação relatados na subseção 8.2.1, pois ao inserí-los,
a medida V IF apresentou uma alta intensidade de colinearidade associada à variável
dummy de posicionamento. Além disso, o p − valor associado apontava para a mesma
conclusão.
Sendo assim, note que para o Modelo 1, os βi associados aos atributos de ataque,
habilidade, movimentação, potência e mentalidade não são considerados significantes, sob
5% de significância. Tal fato pode ser explicado, pois o overall trata-se de uma medida
resumo para todas as variáveis de atributos, conforme relatado em 8.2.4. Isso não é
interessante para o estudo, pois o intuito é de que as diferentes variáveis características
sejam necessariamente incluídas.
Veja também que os β̂i associados às variáveis de reputação internacional apresentam
sinal distinto do esperado. Ocorre que à medida que o seu nível aumenta, a esperança do
ln(preço do jogador) sofre um decréscimo.
Por fim, os resíduos para este modelo apresentaram uma distribuição diferente da
normal. Tais fatos levam a conclusão de que a variável overall deve ser retirada e os
parâmetros re-estimados, a fim de observar-se o comportamento do novo ajuste.
Ao retirar-se a variável overall, o Modelo 2 foi ajustado. Perceba que a maior parte
das variáveis de atributos são consideradas significativas. Porém, os β̂iassociados às
variáveis de reputação internacional permanecem com o sinal distinto do teoricamente
esperado. Além disso, também não foi razoável assumir a normalidade na distribui-
ção dos resíduos associados. Sendo assim, também optou-se pela retirada da variável salário.
Após a exclusão das variáveis overall e salário por motivos teóricos, o Modelo 3 foi
ajustado. Veja na Tabela 6 que a estimativa dos parâmetros estão condizentes com o
esperado. Porém, as variáveis idade e atributos de habilidade não foram consideradas
siginificantes para o modelo, sob nível de 5%. Assim, optou-se por também retirá-las com
o objetivo de obter um modelo mais parcimonioso.
Por fim, o Modelo 4 trata-se do ajuste final. Veja ainda na Tabela 6 que todos os βi
são considerados significativos. Além disso, note que possuem o sinal condizente com o
esperado e estimativas totalmente diferentes do ajustado pelo modelo 1.
Capítulo 9. Análise de Modelagem 38
Tabela 6 – Ajuste de Modelos II - Abordagem Clássica
Modelo Variável Parâmetro Estimativa Pr( >|t| )
Modelo 3
Intercepto β0 5.283 < 2 ∗ 10−16
Idade β1 −0.007 0.465
Ataque β2 0.027 0.007
Habilidade β3 0.004 0.492
Movimentação β4 0.023 2 ∗ 10−6
Potência β5 0.036 7.04 ∗ 10−6
Mentalidade β6 0.049 0.005
Defensivo β7 0.011 0.006
Posição(Ataque) β8.1 0.346 0.001
Posição(Defesa) β8.2 0.350 0.0002
Reputação Internacional (2) β9.1 0.441 2.17 ∗ 10−6
Reputação Internacional (3) β9.2 0.679 2.94 ∗ 10−8
Reputação Internacional (4) β9.3 1.109 3.30 ∗ 10−5
Modelo 4
Intercepto β0 5.169 < 2 ∗ 10−16
Ataque β1 0.030 0.001
Movimentação β2 0.026 1.81 ∗ 10−9
Potência β3 0.034 1.66 ∗ 10−6
Mentalidade β4 0.050 1.55 ∗ 10−6
Defensivo β5 0.011 0.004
Posição(Ataque) β6.1 0.323 0.007
Posição(Defesa) β6.2 0.313 0.002
Reputação Internacional (2) β7.1 0.433 2.66 ∗ 10−6
Reputação Internacional (3) β7.2 0.665 4.19 ∗ 10−8
Reputação Internacional (4) β7.3 1.104 3.07 ∗ 10−5
9.2 Abordagem SMSN
O Modelo 4 que considera os erros distribuídos normalmente desempenhará um
papel primordial na estimação dos βi sob ótica SMSN, pois será ajustada a sua
versão assimétrica por meio das distribuições skew-normal, skew-t, skew-slash e skew-
normal contaminada. Para isso, será mantida a transformação logarítmica da variável
preço do jogador, pois a facilidade de interpretação dos parâmetros associados é preservada.
Como a estimação dos parâmetros se dá pelo algoritmo EM, um chute inicial
é necessário. Para isso, as estimativas do modelo clássico serão utilizadas. Além
disso, como visto no Capítulo 3 algumas das distribuições citadas acima possuem
graus de liberdade. Para a skew-t e skew-slash, o valor fixado em 5 foi adotado,
pois nessas circunstâncias o modelo apresentou os melhores valores de AIC, BIC
e LogLik. De maneira análoga, para a skew-normal contaminada adotou-se o par (0.2, 0.8).
Acompanhe na Tabela 7 os valores ajustados. Inicialmente, verifica-se que o modelo
Capítulo 9. Análise de Modelagem 39
skew-normal convergiu à estimação final no menor número de iterações, enquanto a
skew-slash necessitou da maior quantidade de repetições do processo. Note também que a
maioria dos parâmetros possuem um ajuste próximo, exceto para β0 e β6.2 que destoam
bastante entre as distribuições.
Tabela 7 – Ajuste de Modelos - Família SMSN
Parâmetro SN ST SS SNC
β0 5.106 4.836 5.073 5.099
β1 0.029 0.028 0.029 0.029
β2 0.026 0.027 0.026 0.026
β3 0.036 0.037 0.036 0.036
β4 0.050 0.057 0.051 0.050
β5 0.010 0.007 0.010 0.010
β6.1 0.328 0.274 0.321 0.326
β6.2 0.263 0.343 0.277 0.266
β7.1 0.434 0.382 0.431 0.433
β7.2 0.674 0.683 0.679 0.675
β7.3 1.116 1.016 1.102 1.113
λ 1.222 0.594 1.123 1.201
Iterações 148 156 164 151
9.3 Análise de Diagnóstico
A análise de diagnóstico desempenha um importante papel na modelagem preditiva,
pois trata-se do estudo inicial que realiza a validação do modelo ajustado. Sendo assim, o
histograma e um qqplot dos resíduos para cada uma das distribuições foram construídos.
Figura 16 – Distribuição dos Resíduos - Abordagem Clássica
Capítulo 9. Análise de Modelagem 40
Com base na Figura 15, é possível verificar no histograma como os resíduos estão
distribuídos. Nota-se que a distribuição é simétrica em torno de zero, mas existe leve
assimetria à esquerda. Com base no qqplot, perceba que apesar de alguns pequenos
desvios na calda, há indícios de normalidade dos resíduos.
Uma análise mais enxuta pode ser feita com o auxílio da Tabela 8, pois traz o resumo
dos resíduos. Veja que a média é bem próxima de 0, a sua variância está em torno de 0.587
e o p-valor apresentado pelo teste de Shapiro Wilk é 0.252. Sob 5% de significância, não
há evidências para rejeitar-se a hipótese H0: Os resíduos seguem uma distribuição normal.
Tabela 8 – Medidas Descritivas dos Resíduos
Medida Normal SN ST SS SCN
Média −1.550 ∗ 10−06 −1.07 ∗ 10−4 -0.057 7.935 ∗ 10−4 −1.417 ∗ 10−4
Variância 0.587 0.588 0.591 0.588 0.588
Shapiro Wilk 0.252 0.09 0.036 0.087 0.091
Ao analisar os resíduos dos modelos da família SMSN, um comportamento semelhante
ao da abordagem clássica é encontrado. Porém, veja que a skew-normal e skew-slash
apresentam um discreto e suave alongamento caudal. Veja que a média residual dessas
distribuições é bem próxima de 0, possuem variância próxima de 0.6 e não há evidências
para rejeitar-se a hipótese nula.
Figura 17 – Distribuição dos Resíduos I - Família SMSN
Capítulo 9. Análise de Modelagem 41
Figura 18 – Distribuição dos Resíduos II - Família SMSN
A Figura 18 apresenta a dispersão dos resíduos para cada um dos ajustes. É perceptível
o seu comportamento linear em torno de zero com uma leve tendência de decaimento
nas últimas observações. Conforme observado nos histogramas da Figura 17, os modelos
clássico e skew-normal apresentaram a menor quantidade de resíduos além dos limites
traçados em (−2, 2). Eles podem se tratar de pontos influentes, porém ao ajustar todos
os β̂i sem a sua presença, não constatou-se uma alteração significativa, optando-se por
manter o banco completo no estudo.
Capítulo 9. Análise de Modelagem 42
Figura 19 – Gráfico de dispersão dos Resíduos
9.4 Seleção de Modelos
A Tabela 9 sumariza as medidas de informação para todos os modelos ajustados, pois o
intuito é utiliza-las como instrumento de auxílio na determinação da melhor adequabilidade.
Veja que o resultado sugere uma discreta vantagem das estimativas da skew-normal como
modelo mais eficiente, em relação aos demais. Porém, o ajuste da distribuição normal
apresentou o menor valor de BIC. Isso ocorre pois trata-se de um ajuste com menor
número de parâmetros a se estimar. Portanto, a distribuição normal se apresenta como a
opção mais parcimoniosa, podendo ser selecionada como melhor opção, dada a sua menor
complexidade.
Tabela 9 – Medidas de Informação dos Modelos
Critério Normal SN ST SS SNC
LogLik -669.138 -667.594 -673.974 -667.782 -667.585
AIC 1362.276 1361.189 1375.948 1363.564 1365.171
BIC 1414.653 1417.931 1437.054 1424.671 1430.642
Capítulo 9. Análise de Modelagem 43
9.5 Interpretação
Após a análise de diagnóstico e verificação das medidas de informação, o modelo
skew-normal foi escolhido como a melhor opção. A interpretação desse ajuste deve ser
cuidadosa, pois a variável preço do jogador sofreu uma transformação logarítmica. Isso faz
com que o modelo configure-se como log-nível (semi-elasticidade).
De maneira análoga ao modelo nível-nível, ao interpretar-se uma variável específica, as
demais devem ser consideradas constantes. Porém, para o log-nível, o aumento de uma
unidade em um determinado Xi está associado à variação em média de (100 ∗ βi)% do
preço do jogador em sua escala original.
Com base na Tabela 7, podemos inferir que caso o jogador seja da posição de
ataque ou defesa, existe uma valorização média no preço do Jogador de 32.8% e 26.8%,
respectivamente, quando contrastada à posição de meio-campo. Veja também que para os
jogadores de reputação internacional com nível 2, 3 ou 4, ocorre uma valorização de 43.4%,
67.4% e 111.6% respectivamente, em relação ao nível 1. Tais resultadoscorroboram o
cenário observado na análise descritiva.
Entre os atributos, a mentalidade destacou-se como a variável que realiza a maior
contribuição marginal na estimação do preço do jogador. Em resumo, a cada unidade
acrescida nessa variável, ocorre uma valorização média de 5% no preço do jogador. Já
para os atributos de ataque, movimentação, potência e defensivos, a contribuição média é
de 2.9%, 2.6%, 3.6% e 1%, respectivamente a cada unidade acrescida, quando as demais
são consideradas constantes.
Para ilustrar a aplicação, serão escolhidos dois jogadores: o primeiro trata-se do
defensor Zinchenko, jogador que possui o ln(preço)= 15.89 pertencente ao 1o quartil.
Suas características são dadas por: X1 = 66.8, X2 = 73.2, X3 = 66.6, X4 = 68.3,
X5 = 68, X6.1 = 0, X6.2 = 1, X7.1 = 0, X7.2 = 0 e X7.3 = 0. Nessas condições, o valor
̂ln(preço) = 15.009 é estimado pelo modelo, com resíduo associado de ê394 = −0.880. Ao
realizar a transformação para observar o valor em sua escala original, o preço fixado em e
3,298,571 é encontrado.
Agora será vista a estimação do modelo para o jogador de valor máximo no banco de
dados. Trata-se do meio-campista De Bruyne, com passe fixado em ln(preço)= 18.443. Ao
aplicar suas características X1 = 80.8, X2 = 80.2, X3 = 82, X4 = 80.83, X5 = 59, X6.1 = 0,
X6.2 = 0, X7.1 = 0, X7.2 = 0 e X7.3 = 1 no modelo ajustado, o preço ̂ln(preço) = 18.440 é
estimado, com o resíduo ê1 = 0.006. O preço encontrado na escala original é e 101,950,708.
44
10 Conclusão
O presente trabalho teve como objetivo apresentar um estudo a respeito da família
de modelos skew-normal. Uma versão perturbada da distribuição normal simétrica,
controlada por um parâmetro de assimetria λ, cuja premissa é acomodar eventuais
perturbações existentes na variável resposta que deseja-se estimar.
Para o estudo, além de uma extensa revisão bibliográfica elaborada à luz dos trabalhos
de Azzalini e Garay, duas aplicações foram realizadas: uma simulação feita no Capítulo 6
e um ajuste ao conjunto de dados do jogo FIFA 19, no Capítulo 9. Para a simulação,
verificou-se que os modelos skew-normal possuem uma boa capacidade de estimar os parâ-
metros do modelo linear simples, quando a variável resposta é distribuída assimetricamente.
Já para o conjunto de dados reais, a vantagem apresentada pelos modelos skew-normal,
em relação à abordagem clássica foi discreta. Embora essa margem de vantagem
tenha sido pequena, a classe de modelos demonstrou-se uma boa alternativa para mo-
mentos em que a abordagem clássica não consegue ajustar boas estimativas dos parâmetros.
Contextualizadamente, o modelo ajustado nesse projeto possui uma importante
aplicabilidade à franquia de games FIFA, onde a busca por jogadores específicos é
bastante onerosa. Com esta ferramenta, seria possível prever o valor médio de um
jogador, dado um perfil específico procurado pelo usuário, o que facilitaria bastante o
processo de contratações no modo carreira. Além de permitir a identificação de jogadores
subvalorizados.
Devido à limitação de tempo para a execução do projeto, um leque de outros estudos
poderiam ser realizados como forma de extensão ao presente trabalho. Inserção dos jogado-
res pertencentes às demais ligas do fantasy game, inserção de outras variáveis explicativas
e o estudo aprofundado de pontos influentes são alguns exemplos para a temática abordada.
No campo teórico, ainda podem ser explorados os diversos estudos de extensão
realizados por Azzalini, Garay, Lachos, Cabral e Abanto-Valle. Tratam-se dos modelos
não-lineares, a chamada família NL-SMSN que são estimados sob ótica frequentista e
bayesiana. O pacote nlsmsn, utilizado nesse trabalho conta com a implementação dessa
classe e é atualizado regularmente.
Enfim, a classe de modelos assimétricos são um vasto campo de estudo e aplicabilidade
que foi brevemente exposto nesse projeto, mas apresentam-se como uma boa alternativa
na inferência estatística, onde uma série de outros estudos ainda podem ser realizados.
45
Referências
[1] ANDREWS, D. F.; MALLOWS, C. L. Scale mixtures of normal distributions. Journal
of the Royal Statistical Society. Series B (Methodological), p. 99-102, 1974.
[2] ARELLANO-VALLE, R. B. et al. Skew normal measurement error models. Journal
of Multivariate Analysis, v. 96, n. 2, p. 265-281, 2005
[3] AZZALINI, A. A class of distributions which includes the normal ones. Scandinavian
journal of statistics, p. 171-178, 1985.
[4] AZZALINI, A.; VALLE, A. D. The multivariate skew-normal distribution. Biometrika,
v. 83, n. 4, p. 715-726, 1996.
[5] AZZALINI, A; CAPITANIO, A. Statistical applications of the multivariate skew
normal distribution. Journal of the Royal Statistical Society: Series B (Statistical
Methodology), v. 61, n. 3, p. 579-602, 1999.
[6] AZZALINI, A. The skew-normal and related families. Cambridge University Press,
2013.
[7] BASSO, R. M. et al. Robust mixture modeling based on scale mixtures of skew-normal
distributions. Computational Statistics Data Analysis, v. 54, n. 12, p. 2926-2941,
2010.
[8] PRATES, Marcos Oliveira; LACHOS, Victor Hugo; BARBOSA CABRAL, Celso Rô-
mulo. mixsmsn: Fitting Finite Mixture of Scale Mixture of Skew-Normal Distributions.
Journal of Statistical Software, [S.l.], v. 54, Issue 12, p. 1 - 20,
[9] BAZÁN, J. L. et al. A skew item response model. Bayesian analysis, v. 1, n. 4, p.
861-892, 2006.
[10] BRANCO, M. D.; DEY, D. K. A general class of multivariate skew-elliptical distribu-
tions. Journal of Multivariate Analysis, v. 79, n. 1, p. 99-113, 2001.
[11] COUNSELL, N. et al. Modelling psychiatric measures using Skew-Normal distributions.
European Psychiatry, v. 26, n. 2, p. 112-114, 2011.
[12] DA SILVA FERREIRA, C.; BOLFARINE, H.; LACHOS, V, H. Skew scale mixtures
of normal distributions: properties and estimation. Statistical Methodology, v. 8, n.
2, p. 154-171, 2011.
Referências 46
[13] COORAY, K., ANANDA, M. M. A. A generalization of the Half-Normal distribution
with applications to lifetime data. Communications in Statistics - Theory and Methods,
p. 1323–1337, 2008.
[14] DEMPSTER, A. P.; LAIRD, N. M.; RUBIN, D. B. Maximum likelihood from
incomplete data via the EM algorithm. Journal of the royal statistical society. Series
B (methodological), p. 1-38, 1977.
[15] GARAY, A. M.; LACHOS, V. H.; ABANTO-VALLE, C. A. Nonlinear regression
models based on scale mixtures of skew-normal distributions. Journal of the Korean
Statistical Society, v. 40, n. 1, p. 115-124, 2011.
[16] GARAY, A. M.; LACHOS, V. H. . Análise de dados censurados sob distribuições
simétricas com aplicações no R. São Paulo: Associação Brasileira de Estatística, 2013
(Livros em Eventos).
[17] HENZE, N. A probabilistic representation of the’skew-normal’distribution. Scandina-
vian journal of statistics, p. 271-275, 1986.
[18] HUTTON, J. L.; STANGHELLINI, E. Modelling bounded health scores with censored
skew-normal distributions. Statistics in medicine, v. 30, n. 4, p. 368-376, 2011.
[19] LACHOS, V. H.; GHOSH, P.; ARELLANO-VALLE, R. B. Likelihood based inference
for skew-normal independent linear mixed models. Statistica Sinica, p. 303-322, 2010.
[20] LACHOS, V. H.; LABRA, F. V.; GHOSH, P. Multivariate skew-normal/independent
distributions: properties and inference. Pro Mathematica, v. 28, n. 56, p. 11-53, 2014.
[21] LIN, T. I.; LEE, J. C.; YEN, S. Y. Finite mixture modelling using the skew normal
distribution. Statistica Sinica, p. 909-927, 2007.
[22] MENG, X. L.; RUBIN, D. B. Maximum likelihood estimation via the ECM algorithm:
A general framework. Biometrika, v. 80, n. 2, p. 267-278, 1993.
[23] MONTGOMERY, D. C.; PECK, E. A.; VINING, G. G. Introduction to linear
regression analysis. John Wiley Sons, 2012.
[24] MORETTIN, P. A.; BUSSAB, W. O. Estatística básica. Editora Saraiva, 2017.
[25] GUIMARÃES, M.B.; CALDAS, G.F.S.;LIMA, R.C.; PAOLI, P.B. As posições no
futebol e suas especificidades. Revista Brasileira de Futebol, v. 7, n. 2, p. 71-83, 2014.
[26] DE MELO V.P., PAOLI P.B., DA SILVA C.D. O desenvolvimento do processode trei-
namento das ações táticas ofensivas no futebol na categoria infantil. EFDeportes.com,
Rev Digital. Buenos Aires: 2007;11(104).
Referências 47
[27] Half Normal Distribution. Mathworks, 2019. Disponível em: <https://www.
mathworks.com/help/stats/half-normal-distribution.html>. Acesso em: 11
de dez. de 2019.
https://www.mathworks.com/help/stats/half-normal-distribution.html
https://www.mathworks.com/help/stats/half-normal-distribution.html
48
A Programação Implementada
Para a geração de amostras assimétricas e representação gráfica foi utilizado o algoritmo
abaixo.
#Função geradora de observações para uma variável aleatória com distr. SN.
#n: Tamanho da amostra
#mu: Locação
#sigma2: Escala
#lambda: Assimetria ou Forma
rSkewNormal<-function(n,mu,sigma2,lambda){
delta<-lambda/sqrt(1+lambda^2)
y<-mu*rep(1,n)+sqrt(sigma2)*(delta*abs(rnorm(n))+
(1-delta^2)^(1/2)*rnorm(n))
return(y)
}
#Gerando e graficando (2x2) os dados de acordo com parâmetros escolhidos
par(mfrow=c(2,2))
y<-rSkewNormal(100,0,5,13)
hist(y,breaks=16, main="",probability=T, ylab="Densidade", xlab="")
lines(density(y),type="l")
Na estimação de parâmetros do estudo simulado, foi utilizado o algoritmo abaixo.
set.seed(46)
rSkewNormal<-function(n,mu,sigma2,lambda){
delta<-lambda/sqrt(1+lambda^2)
y<-mu*rep(1,n)+sqrt(sigma2)*(delta*abs(rnorm(n))+
(1-delta^2)^(1/2)*rnorm(n))
return(y)
}
#library(sn)
#Gerando amostra de distribuições do erro(skew-normal) e
#da variável explicativa x(Uniforme)
e2<-rSkewNormal(5000,0,5,-9)
x2 = runif(5000,2,5)
Apêndice A. Programação Implementada 49
#Construção do modelo
y2 = 6 + 1.5*x2 + e2
#Estimação tradicional
modelo_n <- lm(y2~x2)
summary(modelo_n,param.type="DP")
AIC(modelo_n)
#Estimação pela skew-normal
modelo_sn <- selm(y2~x2, family="SN")
summary(modelo_sn,param.type="DP")
AIC(modelo_sn)
#Estimação pela skew-t (nu=1 trata-se da Skew Cauchy)
modelo_st = selm(y2~x2, family="ST",fixed.param = list(nu=3))
summary(modelo_st,param.type="DP")
AIC(modelo_st)
#Grafica os histogramas das distribuições geradas.
par(mfrow=c(2,2))
hist(e1,breaks=23, main="Distribuição de e",probability=T, ylab="Densidade",
xlab="",adj=0)
hist(y1,breaks=23, main="Distribuição de Y",probability=T, ylab="Densidade",
xlab="",adj=0)
hist(e2,breaks=23, main="",probability=T, ylab="Densidade", xlab="")
hist(y2,breaks=23, main="",probability=T, ylab="Densidade", xlab="")
Algortimo utilizado para gerar as distribuições da Família SMSN.
set.seed(44)
#Constroi o vetor de quantis
quantis <- seq(2, 11, by = .05)
#densidade da normal
N <- dnorm(quantis,4,1)
Apêndice A. Programação Implementada 50
#densidade da skew-normal
require(sn)
SN <- dsn(quantis,xi=4,omega=1,alpha=15)
#densidade da skew-t
#y é um vetor de quantis (utilizar uma uniforme)
dST <- function(y,mu,sigma2,shape,nu){
d <- (y-mu)/sqrt(sigma2)
dens <- 2*dt(d, df=nu)*pt(sqrt((1+nu)/(d^2+nu))*d*shape,1+nu)/sqrt(sigma2)
return(dens)
}
ST <- dST(quantis,4,1,15,1)
#densidade da skew-slash
dSS <- function(y,mu,sigma2,shape,nu){
resp <- vector(mode="numeric",length = length(y))
for(i in 1:length(y)){
f <- function(u) 2*nu*u^(nu-1)*dnorm(y[i],mu,sqrt(sigma2/u))*pnorm(u^(1/2)*
shape*(sigma2^(-1/2))*(y[i]-mu))
resp[i] <- integrate(f,0,1)$value
}
return(resp)
}
SSL <- dSS(quantis,4,1,15,1)
#densidade skew-normal contaminada
dSCN <- function(y,mu,sigma2,shape,nu){
dens <- 2*(nu[1]*dnorm(y,mu,sqrt(sigma2/nu[2]))*
pnorm(sqrt(nu[2])*shape*sigma2^(-1/2)*(y-mu))+(1-nu[1])*
dnorm(y,mu,sqrt(sigma2))*pnorm(shape*sigma2^(-1/2)*(y-mu)))
return(dens)
}
SCN <- dSCN(quantis,4,1,15,c(.8,.2))
distr <- cbind(N,SN,ST,SSL,SCN)
nn <- ncol(distr)
matplot (quantis, distr, type="l",pch=19,ylab="Densidade",xlab="X")
legend("center",colnames(distr),col=seq_len(nn),cex=0.8,fill=seq_len(nn))
Algoritmo utilizado na estimação dos parâmetros do modelo.
#X: variáveis regressoras
Apêndice A. Programação Implementada 51
#y: variável resposta
#Cria a função linear
nlf<-function(x,betas){ resp<-X%*%betas
+ return(resp)}
#Ajuste do modelo clássico
modelo_n<-smsn.nl(y=y,x=X,beta =c(5.169654,0.030046,0.026368,0.034903,
0.050025,0.011249,0.323834,0.313954,0.433659,0.665232,1.104565),
sigma2=1,shape=1,nlf=nlf,family="Normal",criteria = TRUE,
iter.max = 1000)
#Ajuste do modelo skew-normal
modelo_sn<-smsn.nl(y=y,x=X,beta =c(5.169654,0.030046,0.026368,0.034903,
0.050025,0.011249,0.323834,0.313954,0.433659,0.665232,
1.104565),sigma2=1,shape=1,nlf=nlf,family="Skew.normal",
criteria = TRUE,iter.max = 3000)
#Ajuste do modelo skew-t
modelo_st <- smsn.nl(y=y, x=X,betas=c(5.169654,0.030046,0.026368,0.034903,
0.050025,0.011249,0.323834,0.313954,0.433659,
0.665232,1.104565),sigma2=1, shape = 1,nu = 5,
nlf = nlf, criteria = TRUE,family = "Skew.t",
iter.max = 3000)
#Ajuste do modelo skew-slash
modelo_ss <- smsn.nl(y=y,x=X,betas=c(5.169654,0.030046,0.026368,
0.034903,0.050025,0.011249,0.323834,0.313954,0.433659,0.665232,
1.104565), sigma2=1, shape = 1,nu = 5, nlf = nlf, criteria = TRUE,
family = "Skew.slash",iter.max = 3000)
#Ajuste do modelo skew-normal contaminada
modelo_cn <- smsn.nl(y=y, x=X,betas=c(5.169654,0.030046,0.026368,0.034903,
0.050025,0.011249,0.323834,0.313954,0.433659,
0.665232,1.104565), sigma2=1, shape = 1,nu = c(0.2,0.8),
nlf = nlf, criteria = TRUE,family = "Skew.cn",iter.max = 3000)
	Folha de rosto
	Sumário
	Introdução
	Metodologia
	Distribuições Assimétricas
	Fórmula de Azzalini
	Distribuição Skew-Normal
	Distribuição Half-Normal
	Forma Estocástica
	Abordagem de Henze
	Propriedades da Skew-Normal
	Misturas de Escala da Normal Assimétrica
	Forma Estocástica
	Propriedades da Família SMSN
	O Modelo de Regressão Linear
	Modelo de Regressão Linear SMSN
	Estimação via Algoritmo EM
	Forma Estocástica
	Passo E
	Passo M
	Abordagem CM
	Estudo Simulado
	Banco de Dados
	Perfil do Jogador
	Posicionamento em Campo
	Atributos do Jogador
	Análise Descritiva
	Preço do Jogador
	Variáveis Explicativas
	Atributos do Jogador
	Reputação Internacional
	Salário
	Overall
	Idade
	Análise de Modelagem
	Abordagem via Modelo com Erro Normal
	Abordagem SMSN
	Análise de Diagnóstico
	Seleção de Modelos
	Interpretação
	Conclusão
	Referências
	Programação Implementada

Mais conteúdos dessa disciplina