Buscar

Trabalho_2_ISI


Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 15 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

SUMÁRIO
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 IDENTIFICAÇÃO DA BASE DE DADOS . . . . . . . . . . . . . . . . . . . . . 5
2.1 Descrição dos dados coletados . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2 Amostra de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.3 Descrição da preparação/pré-processamento dos dados . . . . . . . . . . . . . 7
3 MODELAGEM DESCRITIVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.1 Regras de Associação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.1.1 Quais colunas serão utilizadas? . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.1.2 Qual o potencial das associações identificadas na base de dados? . . . . . . . . 8
3.1.3 Quais valores mı́nimos de suporte e confiança fazem mais sentido? . . . . . . . . 8
3.1.4 Exemplos de ações práticas que poderiam ser tomadas diante de regras identifi-
cadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.1.5 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.1.6 Parâmetros adotados: suporte, confiança lift . . . . . . . . . . . . . . . . . . . 10
4 MODELO PREDITIVO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4.1 Colunas que serão utilizadas na análise . . . . . . . . . . . . . . . . . . . . . . 11
4.2 Atributo chave . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4.3 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.3.1 Árvore 1 - usuários únicos por atributo . . . . . . . . . . . . . . . . . . . . . . 12
4.3.2 Árvore 2 - distribuição de retenções . . . . . . . . . . . . . . . . . . . . . . . . 12
4.3.3 Árvore 3 - distribuição de retenções gate 30 . . . . . . . . . . . . . . . . . . . . 13
4.3.4 Árvore 4 - distribuição de retenções gate 40 . . . . . . . . . . . . . . . . . . . . 13
4.3.5 Workflow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.3.6 Parâmetros utilizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.3.7 Informações sobre a precisão do modelo . . . . . . . . . . . . . . . . . . . . . . 15
4.3.8 Exemplo de dado novo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
5 REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4
1 INTRODUÇÃO
O setor de jogos para celular está crescendo e inovando rapiadamente, com isso um
dos desafios é encontrar a forma de monetização ideal para o jogo que retenha o jogador e
não tenha um impacto negativo na sua experiência. A retenção dos jogadores é essencial para
lucratividade e continuidade dos jogos e para montar estratégias de retenção (e monetização)
mais aprimoradas, e que não causem impactos negativos aos jogadores, várias empresas coletam
estatı́sticas sobre a retenção de seus jogadores justamente pra testar engajamento, e decidir qual
o melhor momento para monetizar seu jogo.
Nesse trabalho trazemos dados sobre a retenção de jogadores do jogo Cookie Cats (dis-
ponı́vel para download na Play Store e APP Store).
5
2 IDENTIFICAÇÃO DA BASE DE DADOS
Escolhemos usar uma base de dados sobre a retenção de jogadores no jogo Cookie Cats. O
jogo é do tipo quebra cabeças, no estilo Candy Crush. A medida que os jogadores vão passando
os nı́veis no jogo eles encontram portões (bloqueios) que os forçam a parar de jogar por um
perı́odo de tempo considerável, ou a pagar para remover o bloqueio e continuar jogando.
A base de dados separa os jogadores em dois grupos de controle gate 30 e gate 40, que impu-
tam a necessidade de se pagar para progredir mais rapidamente no jogo a partir dos nı́veis 30 e
40, respectivamente, e nos mostra os dados sobre a retenção de jogadores que jogaram nesses
grupos de controle.
Exemplo de fase do jogo:
6
2.1 Descrição dos dados coletados
O dataset é um arquivo .csv que possui dados sobre a retenção dos jogadores. O dataset
não se encontra atualizado. Os atributos dessa base de dados são:
Formato original do banco de dados:
• userid - número único que identifica cada jogador.
• version - grupo de controle que o jogador foi colocado.
• sum gamerounds - número de rodadas jogadas durante os 14 dias após a instalação.
• retention 1 - se o jogador voltou a jogar 1 dia apos a instalação.
• retention 7 - se o jogador voltou a jogar 7 dias apos a instalação.
2.2 Amostra de dados
7
2.3 Descrição da preparação/pré-processamento dos dados
Não se fez necessária a limpeza dos dados, então, utilizamos a base de dados original,
ou seja, não foi realizada nenhuma alteração além da separação dos dados em colunas. Em
algumas das etapas seguintes ocorreu apenas de desconsideramos algumas colunas em alguns
cálculos e adicionarmos uma nova coluna e algumas tabelas.
8
3 MODELAGEM DESCRITIVA
Para a modelagem descritiva nós optamos por usar Regras de Associação. Vamos associar as co-
lunas version e retention 1 (version → retention 1) e version e retention 7 (version →retention 7).
3.1 Regras de Associação
3.1.1 Quais colunas serão utilizadas?
Faremos uso das colunas: version (grupo de controle ao qual o jogador pertence),
sum gamerounds (número total de rodadas jogadas durante o perı́odo de teste), retention 1(se
o jogador voltou a jogar 1 dia apos instalar o jogo) e retention 7 (se o jogador voltou a jogar 7
dias apos instalar o jogo).
3.1.2 Qual o potencial das associações identificadas na base de dados?
As associações tem potencial de nos mostrar em qual nı́vel do jogo a inserção de blo-
queios causa menos impacto negativo na retenção dos jogadores.
3.1.3 Quais valores mı́nimos de suporte e confiança fazem mais sentido?
Definimos o Suporte para retenção 1 como 20%, pois o jogo precisa captar uma quantia
minı́ma de jogadores para lucrar mais tarde e sendo um jogo free to play, é utilizada uma
combinação do princı́pio de Paretto, o qual afirma que 80% dos resultados vem de 20% das
causas, e da atração de um numero considerável de jogadores com a oferta parcialmente gratuita
do jogo. A maior parte do lucro em jogos é gerada por uma pequena fração(por volta de 5%) dos
jogadores apelidados de ”Whales”, dessa forma, um suporte no caso de retenção 7 fica definido
9
como 5% pois atende às necessidades. Definimos a confiança ideal para retenção 1 como 30%
e a confiança ideal para retenção 7 como 15%.
3.1.4 Exemplos de ações práticas que poderiam ser tomadas diante de regras identificadas.
O jogo poderia alterar os gates para um nı́vel mais adequado, mantendo uma retenção
maior de jogadores após uma semana.
3.1.5 Resultados
Analisamos dados de 90189 jogadores dos quais 44700 estavam no grupo de jogadores
com bloqueio no gate 30 e 45489 com bloqueio no gate 40. No gate 30, 22.2% do total de
jogadores tiveram retention 1, ou seja, voltaram a jogar 1 dia apos a instalação do jogo, e os
jogadores deste mesmo grupo tem retenção de 44.8% dentro dos 44700 jogadores avaliados
no gate 30. No gate 40, 22.3% do total de jogadores tiveram retention 1, ou seja, voltaram a
jogar 1 dia após a instalação do jogo, e os jogadores deste mesmo grupo tem retenção de 44.2%
dentro dos 45489 jogadores avaliados no gate 40.
Agora analisando os resultados do grupo de retention 7 temos que no gate 30, 9.4% do
total de jogadores tiveram retention 7, ou seja, voltaram a jogar 7 dias apos a instalação do jogo,
e os jogadores deste mesmo grupo tem retenção de 19% dentro dos 44700 jogadores avaliados
no gate 30. No gate 40, 9.2% do total de jogadores tiveram retention 7, ou seja, voltaram a
jogar 7 dias após a instalação do jogo, e os jogadores deste mesmo grupo tem retenção de
18.2% dentro dos 45489 jogadores avaliados no gate 40.
Além disso, podemos concluirobservando o lift que jogadores com bloqueio no gate 30
têm uma chance 1.007 vezes maior de ter retention 1 = true e os com bloqueio no gate 40 têm
uma chance de 0.993 vezes de ter retention 1 = true. No caso de retention 7, os jogadores com
bloqueio no gate 30 têm uma chance de 1.022 vezes de ter retention 7 = true e os com bloqueio
no gate 40 têm uma chance de 0.978 vezes de ter retention 7 = true. Com esses dados podemos
concluir que, tanto nos casos de retention 1 e retention 7, a retenção de jogadores é maior no
grupo de bloqueio no gate 30.
10
3.1.6 Parâmetros adotados: suporte, confiança lift
Regras de associação version → retention 1:
Regras de associação version → retention 7:
11
4 MODELO PREDITIVO
4.1 Colunas que serão utilizadas na análise
Foram utilizadas as colunas userid, version, retention 1, retention 7 na análise.
4.2 Atributo chave
Na primeira árvore foi utilizado como atributo chave a coluna userid, que demonstra
quantos usuários únicos cada atributo em análise tem, com a contagem no modelo. Na segunda
árvore usamos como atributo chave a coluna version e ela mostra a distribuição percentual das
retenções em cada versão de bloqueio. A terceira a a quarta árvore fazem referência a segunda,
e assim como ela usam o atributo version como chave, porém elas mostram a distribuição per-
centual de retenções no gate 30 e no gate 40 separadamente. Todas as arvores estão ilustradas
em ordem na seção a seguir.
12
4.3 Resultados
4.3.1 Árvore 1 - usuários únicos por atributo
4.3.2 Árvore 2 - distribuição de retenções
13
4.3.3 Árvore 3 - distribuição de retenções gate 30
4.3.4 Árvore 4 - distribuição de retenções gate 40
14
4.3.5 Workflow
4.3.6 Parâmetros utilizados
Utilizamos o algoritmo de classificação por regras a priori em árvore da base de dados,
e utilizamos um percentual da base de 70% para treinar e validar o aprendizado de máquina.
15
4.3.7 Informações sobre a precisão do modelo
Fizemos um cálculo de acurácia por classe do modelo de dados, utilizando a coluna
version, que determina em qual nı́vel de jogo o jogo começa a ser parcialmente pago, associada
com a coluna retention 1 para determinar a retenção em cada versão. A acurácia no gate 30 foi
de, 50,18%, enquanto a no gate 40 foi de 49,81%.
4.3.8 Exemplo de dado novo
O dado sum gamerounds maior media que adicionamos na planilha tratada, permite
analisar se os jogadores mantiveram um nı́vel considerável de partidas, possibilitando a relação
entre quantidade de partidas jogadas e retenção.
Realizamos o calculo da quantidade de jogadores que tiveram mais partidas que a média
(51 partidas), e observamos que 24.9% dos jogadores da amostra, chegaram a essa quantidade
de partidas e 75.10% não. E dentro destes 24.9% de jogadores 48% deles tiveram retention 1 =
true e número de partidas acima da média. E, também, dentro destes 48% de jogadores 82.2%
tiveram retention 1 = true e retention 7 = true, ou seja, voltaram a jogar 1 e 7 dias após a
instalação do jogo, e tiveram número de partidas acima da média. Isso pode ser observado na
árvore abaixo:
16
Do total da amostra de jogadores também geramos uma árvore que usa como atributo
chave a coluna sum gamerounds, e mostra a porcentagem de jogadores que tiveram partidas
acima da média total de partidas. Podemos observar que do total da amostra apenas 24.9%
dos jogadores tiveram partidas acima da média total. No gate 30 24.6% dos jogadores tiveram
partidas acima da média total, e no gate 40 25.2% tiveram partidas acima da média total.
17
5 REFERÊNCIAS
KAGGLE. Dataset: dados sobre retenção de jogadores, 2020. Disponı́vel em: https://www.
kaggle.com/yufengsui/mobile-games-ab-testing. Acesso em: 01 nov. 2020.
ORANGE DATA MINING Orange3 Versão 3.27.0: Orange, 2020. Software de visualização
de dados, aprendizado de máquina e mineração de dados de código aberto. Disponı́vel em:
https://orange.biolab.si/. Acesso em: 01 nov, 2020.

Continue navegando