Buscar

Exemplo TRABALHO FINAL

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 19 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 19 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 19 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

UNIVERSIDADE DE SÃO PAULO
FACULDADE DE ECONOMIA, ADMINISTRAÇÃO E CONTABILIDADE
FERNANDO TOSHIO YTO
DIEGO HIDEKI TAIRA
TÉCNICAS ESTATÍSTICAS DE AGRUPAMENTO – EAD0351
Profª. Drª. Alessandra de Ávila Montini
SÃO PAULO
2014
Objetivos da análise da base de dados
Este trabalho tem como objetivo aplicar os conceitos aprendidos na matéria EAD 351 – Técnicas Estatísticas de Agrupamentos em um caso real. Para tal, o tema escolhido foi Copa do Mundo FIFA de 2002. Para compor o devido banco de dados, foram usados cartas de um jogo em que se apresentam dados acerca de cada seleção, que irão compor as variáveis do banco de dados a ser analisado. 
Aliado a esse banco de dados completo de informações oficiais do órgão FIFA, será possível analisar a característica da amostragem de forma geral e em seguida, aglomera-los em diferentes grupos chamados de clusters, em que as características semelhantes de determinada variável irá garantir a proximidade dos dois elementos e a maior possibilidade de ambos comporem o mesmo cluster. Deve ser deixado bem claro que os 32 elementos da base de dados são apenas as seleções que participaram da Copa de 2002.
Diversas aplicações podem ser vistas para tal trabalho. Uma delas é a aplicação na organização dos campeonatos futuros, em que podem ser divididos grupos de acordo com suas competências mais fortes ou fracas ou mesmo seu histórico. Dessa forma, seriam identificados os chamados “cabeças-de-chave”, que são os participantes mais fortes.
Poderia usar os resultados dessa pesquisa em uma ação de reconhecimento do público e do mercado em diferentes países, para reconhecer o aproach ideal para o público desse país, e de que forma deverá ser mostrado sua seleção para o público.
Há dezenas de outras aplicações práticas dessa pesquisa, porém o enfoque desse trabalho não será dado a esse aspecto, mas sim a análise dos elementos da base de dados.
	
Descrição das variáveis
As variáveis usadas para caracterizar os elementos da base de dados são:
Títulos: quantas vezes cada seleções participantes sagrou-se campeã da Copa do Mundo;
Participações em copas: quantas vezes cada seleções participantes já conseguiu a classificação para jogar a Copa do Mundo;
Partidas disputadas: quantas partidas, considerando a primeira e segunda fases, cada seleção já disputou ao longo de suas participações em copas;
Vitórias: quantas partidas cada seleção conseguiu derrotar seu adversário;
Gols marcados: quantos gols cada uma das seleções já fez, levando em conta todas as edições que participou;
Posição na Copa de 2002: posição final atingida na Copa do Mundo de 2002.
É legal notar que o resultado da pesquisa será avaliar quais são as melhores seleções, em relação à seu passado. Todas as variáveis tem característica por ser histórica. Logo, cabe ressaltar que nas 5 primeiras variáveis (títulos, participações em copas, partidas disputadas, vitórias e gols marcados) um número mais alto representa uma melhor qualidade dessa seleção; enquanto que para a Posição na Copa de 2002, um número menor significa melhor qualidade do elemento. A Posição na Copa de 2002 é a variável que mais retrata o momento presente das seleções, no entanto já pode ser considerada como passado, pois o lançamento desse jogo foram alguns meses após a copa.
Análise exploratória das variáveis e comentários
Para ser feito uma análise exploratória ideal, foram feitos inicialmente box-plots e histogramas para cada uma das variáveis. Com isso, é possível dar uma analisada geral na carcterística da base de dados. Por último, foram calculados média, mediana, 1º quartil e 3º quartil para entender de forma mais ampla os padrões de cada variável.
Títulos: até 2002, tinham sido realizadas apenas 17 edições da Copa do Mundo FIFA. Por isso, a grande maioria das seleções não possui nenhum título. Tal característica é facilmente vista tanto no histograma como no box-plot. Na realidade, a estrutura do box-plot nem aparece na figura, pois tanto o 1º como o 3º quartil são iguais a zero. Logo, as seleções que já possuem algum título são considerados outliers.
Participações em copas: nessa variável, o que justifica a boa distribuição no histograma é o fato da participação ser muito acirrada; muitos países disputam a participação na copa, mas apenas 32 conseguem. Dessa forma, o número de participantes que foram poucas vezes (até 5) é muito alto. Entretanto, ainda há muitas seleções que participaram mais de 10 vezes; essas são as seleções mais tradicionais do futebol, que costumam sempre se classificar para a Copa.
Partidas disputadas: tal variável tem forte correlação com a variável Participações em Copas, dessa forma o formato do histograma e do box-plot. Entretanto, como em cada Copa (no formato atual) cada seleção joga no mínimo 3 jogos e no máximo 9 jogos, a variável tem uma variabilidade maior, representada pelo desvio padrão (Desvio padrão de participações = 4,88; desvio padrão de partidas disputadas = 23,8);
Vitórias: forte correlação com partidas disputadas. Como muitas seleções tiveram a edição de 2002 como a primeira (ou uma das primeiras), estas não participaram tantas partidas, o que explica a concentração no histograma de poucas vitórias. Consequentemente, as seleções com muitas vitórias são minorias, e são outliers.
Gols marcados: tal variável chave tem forte correlação com participações, partidas disputadas e vitórias. No entanto, seu desvio padrão é muito superior (48,27), pelo simples fato de ser a variável que tem a maior capacidade de flexibilidade dentro do conjunto de variáveis analisadas. 
Posição na copa de 2002: é uma variável diferente, pois cada valor é exclusivo, de 1 a 30. Dessa forma, nem há tanto sentido na análise do dendograma e do box-plot.Todavia, cabe salientar que é o indicador mais objetivo e talvez mais preciso em relação à qualidade da seleção, pois não leva em conta tanto o fato histórico, mais sim o passado mais recente.
Dendrograma pelo método da centroide:
O seguinte dendograma foi feito sendo usado o método da centroide, que simplificadamente representa uma diferente forma de se calcular a nova distância de um grupo com outros elementos, após a ocorrência de um agrupamento. Foi usado ainda o método da distância euclidiana, e variáveis padronizadas, que visam, assim como dito pelo nome, normalizar as diferentes grandezas das variáveis. 
O objetivo de construir um dendograma é facilitar a visualização das interações entre os elementos. Com isso, enxerga-se mais facilmente os grupos parecidos, que no caso representa seleções mais fortes e mais fracas. Uma análise superficial aponta a existência de 3 grupos maiores, em que 2 deles têm poucos elementos, por serem as seleções mais fortes.
O que provavelmente explica essa divisão tão desigual é a dita tradição. Apenas poucas seleções estiveram em praticamente todas as copas. Isso é um caso do Brasil e da Alemanha (que não participou de apenas 1 edição). Como as variáveis tem forte correlação, acabam alavancando a diferença entre as outras seleções. Entre as seleções tradicionais (Brasil e Alemanha) e as não tradicionais, há duas que se tentam sair do grupo dos fracos, mas caminham para uma tradição (que tende a cada vez segmentar a tradição). Esse grupo é formado por Itália e Argentina, que, apesar de não serem tão tradicionais como Brasil e Alemanha (não terem participado de tantas copas, por exemplo), também diferenciam-se das outras seleções
Clusters pelo método das K-médias e análise exploratória das variáveis
No método das k-médias, é necessário definir a priori o número de clusters a dividr. Apesar da visualização de 3 grandes clusters no método da centroide, para a divisão em clusters pelo método das K-médias, optamos por dividir em 4 clusters, para buscar segmentar o grupo das seleções não tradicionais, pois havia ainda muita heterogeneidade em tal grupo. Os resultadosobtidos foram esses.
	
Na regra de decisão em relação a viabilidade do uso das variáveis, levando em conta a distribuição de F, temos duas hipóteses:
H0: a média da variável é igual para todos os grupo
H1: a média da variável é diferente em pelo menos um grupo
Usando α 0,10 em geral, comparando com o Sig. (nível descritivo), Sig. < α, logo rejeitamos Ho.
Em seguida, realizaremos uma análise de cada variável para os clusters. O nosso principal trabalho será entender de que forma ele segmentou as seleções não tradicionais.
Títulos: em uma análise rápida já é possível perceber que o cluster 4 representa a elite e 3 as seleções diferenciadas. Logo, 1 e 2 são as seleções não tradicionais. Mas a primeira forma viável de se analisar a semelhança é o número de títulos. No grupo 1, buscou-se valorizar um grupo que provavelmente já tenha algum membro com títulos, enquanto que em 2, nenhum dos membros possui título (por isso não foi gerado histograma para o cluster 2).
Participações em copas: o 2º aspecto a ser valorizado na diferença das seleções não tradicionais é a participação em copas. Percebe-se que os membros de 1 já participaram de muitas edições (quase similar a 3), no entanto não foram bem sucedidas o suficiente para se conglomerarem com 3 ou 4. Começa-se a perceber a valorização do fato histórico para diferenciação. Uma consideração final, é que nessa variável, há um número razoável de outliers, o que mostra que é uma variável importante, mas não necessariamente chave.
Partidas disputadas: a forte correlação com a variável anterior, já explica a caracterização e a disposição dos box-plots e dos histogramas para essa variável.
Vitorias: os box-plots dos clusters da variável vitória é ainda muito parecida com as duas anteriores. Isso comprova duas coisas: a forte correlação das variáveis, e a segmentação básica feita no grupo dos não tradicionais.
Gols marcados: em tal variável, é a única que os números pertencem a uma grandeza levemente diferente. Os motivos para isso já foram explicados anteriormente pelo desvio-padrão. O legal de notar no box-plot é a distancia entre as caixas dos clusters, mas ao mesmo tempo, o pequeno tamanho das caixas, mostrando que a variação dentro do grupo é bem menor (com exceção do grupo 1, em que pode ser visto até como uma consequência do fato da dificuldade de construi-lo).
Posição na copa 2002: a posição na copa de 2002 é o que vai ter resultado mais irregular em relação às outras variáveis. O esperado era que o posicionamento das caixas fossem inversos. Mas analisando os box-plots, não é o que necessariamente acontece. A explicação para isso é simples. Para as outras variáveis, o trabalho era feito em relação a toda história, das 17 edições anteriores da copa. No entanto, o passado não necessariamente representa o presente. Isso é perceptível com o grupo 3, em que apesar seu passado fosse glorioso, as posição de seus membros na Copa de 2002 não foi nada positivo (Itália em 15º, Argentina em 18º e França em 28º).
Caracterização dos grupos
Para finalizar este trabalho, é interessante encontrar uma forma de que seja possível diferenciar tais grupos para permitir mais aplicabilidade para ações em cima de grupos específicos. É viável então nomear os grupos e descrever um pouco de suas características. 
O cluster de número 2 é o mais abrangente. Neste grupo todas as seleções presentes jamais conquistaram um título de Copa do Mundo ou então chegaram a uma final. São seleções que possuem dados ruins em todas as variáveis analisadas quando comparados aos outros clusters. E principalmente, são seleções que participaram poucas vezes da Copa do Mundo, que estão buscando ganhar seu espaço agora no futebol. Por isso, será batizado de Cluster dos Entrantes.
O segundo cluster mais numeroso é o 1. Nele temos duas seleções que conquistaram pelo menos um título até 2002 (Inglaterra com um título e Uruguai com dois), enquanto que as demais jamais conseguiram vencer uma Copa do Mundo. No entanto, diferentemente do grupo 2, uma das seleções do grupo 1 já disputou uma final de copa, a Suécia. Como já foi apontado, é um grupo com resultados melhores, número de participações razoáveis. No entanto, ainda não conseguiu se afirmar como uma grande potencia futebolística. Algumas estão ativas em busca dessa posição, e outras estão em decadência, pois já tiveram oportunidades e potencial, mas não souberam aproveitar. Dessa forma, chamaremos de Cluster dos Emergentes, para fins didáticos e de facilitação. 
O cluster de número 3 tem apenas três integrantes: Argentina, França e Itália. Essas três seleções já conquistaram ao menos um título de Copa do Mundo (França um, Argentina dois e Itália três títulos até 2002). A diferença deste cluster para o cluster dos emergentes reside pelo estabelecimento e reconhecimento por serem seleções boas, de qualidade, sendo identificados nas variáveis participações, títulos, vitórias e gols marcados. Dessa forma, será chamado de Cluster dos Tradicionais.
Por último, o cluster de número 4 tem dois integrantes: Brasil e Alemanha, tendo, respectivamente, cinco e três títulos em copas após o termino da Copa de 2002. Essas duas seleções estão em um grupo separado das demais trinta seleções pelo fato de possuírem muitos títulos e um excelente histórico recente em copas. Mesmo tendo o mesmo número de títulos que a Itália, a Alemanha está em um grupo diferente pelo histórico, em que teve mais participações ainda, que foram mais marcantes, com mais gols, mais vitórias. Esse será o Cluster da Elite.
QUALIDADE
Cluster da Elite
Cluster dos Tradicionais
Cluster dos Emergentes
Cluster dos EntrantesConcluímos então com a construção de uma matriz que relaciona os clusters criados com a questão da qualidade da seleção, apontado no início. 
Fonte da base de dados
FONTE: Grow Jogos e Brinquedos S.A. – Super Trunfo 
Bibliografia
Material da Profª. Drª. Alessandra de Ávila Montini
Johnson, R. A. e Wichern, D. W. Applied Multivariate Statistical Analysis. Prentice-Hall Inc., 6th ed. 2007
pt.wikipedia.org
http://www.anacom.pt/streaming/anexo2_analise_clusters.pdf?contentId=1070331&field=ATTACHED_FILE

Outros materiais