Baixe o app para aproveitar ainda mais
Prévia do material em texto
Profa. Dra. Alessandra de Ávila Montini Disciplina: EAD 351 Técnicas Estatísticas de Agrupamento Faculdade de Economia, Administração e Contabilidade da Universidade de São Paulo Profa. Dra. Alessandra de Ávila Montini Avisos Profa. Dra. Alessandra de Ávila Montini 3 Prova 1 – 5 de Outubro Trabalho – Entrega até 25 de novembro – Atividade em dupla Prova 2 – Unificada 30 de novembro ou 7 de dezembro Prova 1 – 30 % ; Prova 2 – 50 % ; Exercícios – 10 % ; Trabalhos – 10 % Pesos das Avaliações Profa. Dra. Alessandra de Ávila Montini Trabalho As duplas devem obter uma base de dados com pelo menos 4 variáveis e 20 elementos. A entrega será feita por envio do trabalho até as 23:00 hs do dia 25 de novembro para um por email a ser definido. Deverá ser enviada a base de dados em Excel e o trabalho em Word. Profa. Dra. Alessandra de Ávila Montini As faltas serão abonadas somente com atestado médico do HU. O atestado será aceito desde que entregue ao professor até 7 dias após o retorno às aulas. Faltas 5 Profa. Dra. Alessandra de Ávila Montini Horário de atendimento – quinta-feira das 17:00 às 18:00 hs Horário de Atendimento 6 Turma 2 - 13h30 – 15h10 Turma 1 - 15h20 – 17h00 Para a entrada na aula será considerada uma tolerância de 15 minutos. Após a tolerância não será permitida a entrada. Horário das Aulas Profa. Dra. Alessandra de Ávila Montini Programa da Disciplina Profa. Dra. Alessandra de Ávila Montini Programa da Disciplina • Introdução • Revisão – análise exploratória de dados • Análise de Cluster • Análise Fatorial Profa. Dra. Alessandra de Ávila Montini Análise de Cluster Profa. Dra. Alessandra de Ávila Montini Introdução Profa. Dra. Alessandra de Ávila Montini O que significa fazer um agrupamento ? Profa. Dra. Alessandra de Ávila Montini Por que fazer agrupamento ? • Atender melhor as necessidades dos clientes / consumidores; • Lançar produtos de acordo com a necessidade dos clientes / consumidores; • Redução de custo; • Controle de estoque; • Controle de logística; Profa. Dra. Alessandra de Ávila Montini Análise estratégica para tomada de decisão • Definição do Problema • Análise Exploratória da Base de Dados • Padronização das Variáveis • Análise de Cluster •Tomada de Decisão Empresarial Profa. Dra. Alessandra de Ávila Montini Objetivo Profa. Dra. Alessandra de Ávila Montini O objetivo da análise de cluster é agrupar as observações em grupos de tal forma que dentro de cada grupo as observações são semelhantes e distintas entre os grupos. Dentro de cada grupo a variabilidade deve ser mínima e a variabilidade entre os grupos deve ser máxima. GRUPO 1 GRUPO 2 GRUPO 3 Profa. Dra. Alessandra de Ávila Montini Exemplos Profa. Dra. Alessandra de Ávila Montini Agrupar países de acordo com as variáveis sócio demográficas. Exemplos Profa. Dra. Alessandra de Ávila Montini Agrupar municípios dentro de um país por meio de variáveis como: distribuição de renda, pib, população, importações, exportações dentre outras. Exemplos Profa. Dra. Alessandra de Ávila Montini Agrupar pessoas segundo hábitos alimentares semelhantes. Exemplos Profa. Dra. Alessandra de Ávila Montini Agrupar alimentos de acordo com as calorias. Exemplos Profa. Dra. Alessandra de Ávila Montini Agrupar clientes de acordo com o hábito de consumo. Alguns clientes adquirem mais produtos eletrônicos, outros adquirem cosméticos, viagem etc. Exemplos Profa. Dra. Alessandra de Ávila Montini Métodos de Agrupamento Profa. Dra. Alessandra de Ávila Montini Métodos de Agrupamentos • Método Hierárquico • Método das K médias Profa. Dra. Alessandra de Ávila Montini Análise Exploratória de Dados Profa. Dra. Alessandra de Ávila Montini 25 Tipos de Variáveis • Qualitativas • Ordinal (Nível de escolaridade) • Nominal (Sexo) • Quantitativas • Discreta (Número de cursos de aperfeiçoamento realizados nos últimos 3 anos) • Contínua (Salário anual) Profa. Dra. Alessandra de Ávila Montini 26 Distribuição Simétrica 0,0 5,0 10,0 15,0 20,0 25,0 30,0 35,0 % 0 1 2 3 4 5 6 Dias de Uso do Cheque Especial Quantidade de cursos de aperfeiçoamento Profa. Dra. Alessandra de Ávila Montini 27 Distribuição Assimétrica à Direita 0,0 5,0 10,0 15,0 20,0 25,0 30,0 35,0 % 0 1 2 3 4 5 6 Dias de Uso do Cheque Especial Quantidade de cursos de aperfeiçoamento Profa. Dra. Alessandra de Ávila Montini 28 Distribuição Assimétrica à Esquerda 0,0 5,0 10,0 15,0 20,0 25,0 30,0 35,0 % 0 1 2 3 4 5 6 Dias de Uso do Cheque Especial Quantidade de cursos de aperfeiçoamento Profa. Dra. Alessandra de Ávila Montini 29 Distribuições Profa. Dra. Alessandra de Ávila Montini 30 Amostra Salário Anual 1 R$ 51.814,00 2 R$ 52.669,70 3 R$ 51.780,30 4 R$ 51.587,90 . . . . . . 500 R$ 51.752,00 Salário anual Freqüência Absoluta Freqüência Relativa 49.500,00 a 49.999,99 2 0,004 50.000,00 a 50.499,99 16 0,032 50.500,00 a 50.999,99 52 0,104 51.000,00 a 51.499,99 101 0,202 51.500,00 a 51.999,99 133 0,266 52.000,00 a 52.499,99 110 0,220 52.500,00 a 52.999,99 54 0,108 53.000,00 a 53.499,99 26 0,052 53.500,00 a 53.999,99 6 0,012 Total 500 1 Salário Anual Resumo dos Dados – Tabela de Freqüência Profa. Dra. Alessandra de Ávila Montini 31 Distribuição de Probabilidade do Salário Anual Resumo dos Dados – Histograma Profa. Dra. Alessandra de Ávila Montini 32 • Média Aritmética • Moda • Mediana • Quartil Medidas de Posição • Variância • Desvio Padrão • Amplitude • Coeficiente de Variação Medidas de Dispersão Profa. Dra. Alessandra de Ávila Montini Medidas de Posição Profa. Dra. Alessandra de Ávila Montini Média Aritmética Profa. Dra. Alessandra de Ávila Montini A média aritmética é obtida a partir da soma das observações dividindo-se pelo total de observações. A média aritmética será denotada por X 50000 4 50000480005000052000 X Exemplo A média aritmética para o salário dos analistas é dada por: Considere os salários anuais dos quatro analistas apresentados na tabela Profa. Dra. Alessandra de Ávila Montini Moda Profa. Dra. Alessandra de Ávila Montini 38 Moda É a realização mais freqüente do conjunto de valores observados Valor Freqüência 3.03 1 3.10 1 3.11 1 3.12 1 3.13 3 3.15 1 3.18 1 Profa. Dra. Alessandra de Ávila Montini Mediana Profa. Dra. Alessandra de Ávila Montini 40 Mediana 30,3 31,0 31,1 31,2 31,3 31,4 31,8 32,5 33,8 É a realização que ocupa a posição central da série de observações arranjadas na ordem ascendente (classificação do menor valor para o maior). 30,3 31,0 31,1 31,2 31,3 31,4 31,8 32,5 35,8 37,0 n par 1 2 3 4 5 6 7 8 9 10 n ímpar 1 2 3 4 6 7 8 9 Quando o n for par a mediana é a média aritméticas das observações centrais. Mediana = (31,3 + 31,4)/2 =31,35 Profa. Dra. Alessandra de Ávila Montini Quartis Profa. Dra. Alessandra de Ávila Montini 42 Primeiro quartil ( Q1 ) Percentil 25 % - valorda amostra tal que 25 % das observações são menores do que ele; Segundo quartil ( Q2 ) Percentil 50 % - valor da amostra tal que 50 % das observações são menores do que ele (mediana); Terceiro quartil ( Q3 ) Percentil 75 % - valor da amostra tal que 75 % das observações são menores do que ele; Profa. Dra. Alessandra de Ávila Montini Box-plot Profa. Dra. Alessandra de Ávila Montini Como saber se em sua base de dados existe alguma observação muito diferente das demais ? Profa. Dra. Alessandra de Ávila Montini As observações muito diferente das demais são denominadas ponto fora da curva ou OUTLIER. 0 5000 10000 15000 20000 25000 30000 35000 0 20 40 60 80 100 120 140 160 Profa. Dra. Alessandra de Ávila Montini 46 O Gráfico apresentado é denominado Box-plot. O objetivo do Box-plot é deteminar se existe na base de dados alguma observação muito diferentes das demais (OUTLIER). Profa. Dra. Alessandra de Ávila Montini 47 Q1 Q3 Q2 O primeiro quartil (Q1), segundo quartil (Q2) e terceiro quartil (Q3) são apresentados no Box-plot . Profa. Dra. Alessandra de Ávila Montini 48 A fronteira inferior é dada por: Q1 - 1,5(Q3-Q1) A fronteira superior é dada por: Q3 + 1,5(Q3-Q1) Fronteira inferior Fronteira superior Profa. Dra. Alessandra de Ávila Montini 49 O valor mínimo do conjunto de observações e valor máximo do conjunto de observações são destacados no Box-plot. máximo mínimo Profa. Dra. Alessandra de Ávila Montini 50 Quando o valor mínimo for superior a fronteira inferior e o valor máximo for inferior a fornteira supeior não existe OUTLIER, ou seja, não existe nenhuma observação fora do padrão. máximo mínimo Profa. Dra. Alessandra de Ávila Montini 51 Quando o valor mínimo for inferior a fronteira inferior existe OUTLIER, ou seja, existe uma ou mais observações fora do padrão. Todas as observações inferiores a fronteira inferior são denominadas outlier. Profa. Dra. Alessandra de Ávila Montini 52 Quando o valor máximo for superior a fronteira superior existe OUTLIER, ou seja, existe uma ou mais observações fora do padrão. Todas as observações superiores a fronteira superior são denominadas outlier. Profa. Dra. Alessandra de Ávila Montini 5 7 9 11 13 15 17 19 Q1 Q3 Q2 máximo mínimo Q3+1,5(Q3-Q1) Q1-1,5(Q3-Q1) O Box-plot contém as fronteiras que aparecem pontilhadas e deve-se ter atenção ao mínimo, máximo, primeiro quartil (Q1), segundo quartil (Q2) e terceiro quartil (Q3). 53 Profa. Dra. Alessandra de Ávila Montini Medidas de Dispersão Profa. Dra. Alessandra de Ávila Montini Desvio Profa. Dra. Alessandra de Ávila Montini 56 O desvio é a distância de cada observação à média. Profa. Dra. Alessandra de Ávila Montini Variância Amostral e Desvio Padrão Amostral Profa. Dra. Alessandra de Ávila Montini 58 66,666.666.2 3 000.000.8 3 )0()2000()0()2000( S 2222 2 A variância amostral, denotada por S2, é obtida por meio da soma dos desvios elevados ao quadrado dividindo-se pelo total de observações menos um. A variância amostral é dada por: Profa. Dra. Alessandra de Ávila Montini 59 633.166,666.666.2S O desvio padrão amostral, denotado por S, é a raiz quadrada da variância amostral. Como a variância amostral está na unidade ao quadrado, para retornar a unidade original deve-se obter a raiz quadrada da variância amostral. Profa. Dra. Alessandra de Ávila Montini Coeficiente de Variação Profa. Dra. Alessandra de Ávila Montini 61 O Coeficiente de Variação é uma medida de dispersão relativa. O Coeficiente de Variação é obtido por meio da divisão do desvio padrão pela média multiplicando-se por 100. Média PadrãoDesvio CV = x 100 Profa. Dra. Alessandra de Ávila Montini 62 Média PadrãoDesvio CV = x 100 Analista Gerente 52000 40000 50000 50000 48000 60000 50000 50000 Média 50000 50000 Desvio Padrão 1633 8165 Coef. de Variação 3,3 16,3 Exemplo Considere os salários anuais de quatro analistas e de quatro gerentes apresentados na tabela. O coeficiente de variação é obtido por meio da divisão do desvio padrão pela média multiplicando-se por 100. Profa. Dra. Alessandra de Ávila Montini 63 Analista Gerente 52000 40000 50000 50000 48000 60000 50000 50000 Média 50000 50000 Desvio Padrão 1633 8165 Coef. de Variação 3,3 16,3 Como o coeficiente de variação para o grupo de gerentes é maior do que o coeficiente de variação do grupo de analistas há evidência de que a variabilidade de salários no grupo de gerentes é maior do que a variabilidade no grupo de analistas. Profa. Dra. Alessandra de Ávila Montini 64 Média 2000 4000 10000 20000 50000 Desvio Padrão 200 200 200 200 200 Coeficiente de Variação 10.00 5.00 2.00 1.00 0.40 Menor Variabilidade Maior Variabilidade O grupo com o maior Coeficiente de Variação é considerado o grupo com maior variabilidade. Profa. Dra. Alessandra de Ávila Montini Padronização de variável Profa. Dra. Alessandra de Ávila Montini 66 S )XX( Z X: variável aleatória com média e desvio padrão S Z: variável aleatória padronizada com média 0 e variância 1. Para padronizar uma variável deve-se subtrar da variável original o valor da média e dividir o resultado pelo desvio padrão. X A variável padronizada é denominada Z. Profa. Dra. Alessandra de Ávila Montini Considere um executivo realizou uma pesquisa de preço para a compra de um computador. Com base nos preços obtidos com 5 fornecedores calcule as medidas descritivas. Exercício 1 Qual foi o valor médio? Qual foi o valor médiano? Obtenha o desvio padrão amostral. Obtenha o coeficiente de variação. Preço R$ 5.800,00 R$ 6.300,00 R$ 5.900,00 R$ 5.400,00 R$ 6.200,00 Profa. Dra. Alessandra de Ávila Montini Medidas de Similaridade e Dissimilaridade Profa. Dra. Alessandra de Ávila Montini Na análise de cluster as observações são agrupadas de acordo com medidas de similaridade ou dissimilaridade. Existem várias formas de medir similaridade ou dissimilaridade depende do critério a ser considerado. Profa. Dra. Alessandra de Ávila Montini A leoa é mais parecida com a gata ou com a cadela ? Profa. Dra. Alessandra de Ávila Montini Para determinar se a leoa é mais parecida com a gata ou com a cadela é necessário definir um critério de similaridade. Considere como critério de similaridade o porte do animal. Neste caso a leoa será mais parecida com a cadela. Profa. Dra. Alessandra de Ávila Montini Considere agora como critério de similaridade o formato da orelha. Neste caso a leoa será mais parecida com a gata. Profa. Dra. Alessandra de Ávila Montini Medidas de Similaridade: Quanto maior for a medida de similaridade maior será a semelhança entre os elementos. O coeficiente de correlação linear de Pearson é uma medida de similaridade. Medidas de Dissimilaridade: Quanto maior for a medida de dissimilaridade menor será a semelhança entre os elementos. A distância euclidiana e a distância euclidiana ao quadrado são medidas de dissimilaridade. Profa. Dra. Alessandra de Ávila Montini Exemplo 1 Banco de Dados: dados1.xls Profa. Dra. Alessandra de Ávila Montini Considere o exemplo de uma analistade gestão de pessoas que deseja agrupar os candidatos em três grupos considerando duas variáveis: o tempo de formação do candidato e o tempo que o candidato permaneceu na empresa anterior. A Tabela apresenta os valores das variáveis para os cinco candidatos. Profa. Dra. Alessandra de Ávila Montini O Gráfico de dispersão apresenta os valores das variáveis para os cinco candidatos. Candidato 1 Candidato 2 Candidato 4 Candidato 5 Candidato 3 Tempo de formação T e m p o n a e m p re s a a n te ri o r Profa. Dra. Alessandra de Ávila Montini Candidato 1 Candidato 2 Candidato 4 Candidato 5 Candidato 3 Tempo de formação T e m p o n a e m p re s a a n te ri o r Como a analista de gestão de pessoas deseja agrupar os candidatos em três grupos considerando duas variáveis o gráfico apresenta uma sugestão de agrupamento. Os candidatos foram agrupados de acordo com um critério. Grupo1 Grupo 2 Grupo 3 Profa. Dra. Alessandra de Ávila Montini Candidato 1 Candidato 2 Candidato 4 Candidato 5 Candidato 3 Tempo de formação T e m p o n a e m p re s a a n te ri o r Grupo1 Grupo 2 Grupo 3 O grupo 1 é formado por candidatos com pouco tempo de formação e pouco tempo na empresa anterior. O grupo 2 é formado por candidatos com tempo de formação superior a 7 anos e com tempo na empresa anterior superior a 11 anos. O grupo 3 é formado por um candidato com 12 anos de formação e 2 anos na empresa anterior. Profa. Dra. Alessandra de Ávila Montini Um critério de dissimilaridade que pode ser considerado para agrupar observações é a distância Euclidiana. A distância Euclidiana entre os candidatos 2 e 4 é dada pela reta vermelha. Candidato 1 Candidato 2 Candidato 4 Candidato 5 Candidato 3 Tempo de formação T e m p o n a e m p re s a a n te ri o r Profa. Dra. Alessandra de Ávila Montini A distância Euclidiana ao Quadrado entre os candidatos 2 e 4 é dada por: 16912541638 22222 D A distância Euclidiana entre os candidatos 2 e 4 é obtida por meio da raiz quadrada positiva da distância Euclidiana ao Quadrado . 13169D Profa. Dra. Alessandra de Ávila Montini A distância Euclidiana entre os candidatos 1 e 2 é dada pela reta vermelha. Candidato 1 Candidato 2 Candidato 4 Candidato 5 Candidato 3 Tempo de formação T e m p o n a e m p re s a a n te ri o r Profa. Dra. Alessandra de Ávila Montini A distância Euclidiana ao Quadrado entre os candidatos 1 e 2 é dada por: 5212423D 22222 A distância Euclidiana entre os candidatos 1 e 2 é obtida por meio da raiz quadrada positiva da distância Euclidiana ao Quadrado. 23,25D Profa. Dra. Alessandra de Ávila Montini A matriz de distância Euclidiana ao Quadrado é uma matriz simétrica. As distâncias Euclidianas ao Quadrado, entre todos os elementos, localizadas acima da diagonal principal são apresentadas na matriz. Profa. Dra. Alessandra de Ávila Montini A distância Euclidiana é obtida por meio da raiz quadrada da distância Euclidiana ao quadrado. A matriz de distância Euclidiana é uma matriz simétrica. As distâncias Euclidianas, entre todos os elementos, localizadas acima da diagonal principal são apresentadas na matriz. Profa. Dra. Alessandra de Ávila Montini 1 - Obter a matriz de distância Euclidiana para as variáveis padronizadas. 2 – Quais os dois lanches mais parecidos? EXERCÍCIO 2 Profa. Dra. Alessandra de Ávila Montini EXERCÍCIO 3 1 - Obter a matriz de distância Euclidiana para as variáveis padronizadas. 2 – Quais os dois lanches mais parecidos? Profa. Dra. Alessandra de Ávila Montini EXERCÍCIO 4 1 - Obter a matriz de distância Euclidiana para as variáveis padronizadas. 2 – Quais os dois lanches mais parecidos? Profa. Dra. Alessandra de Ávila Montini Técnicas de Agrupamento Vizinho mais Próximo (Nearest Neighbor ) Profa. Dra. Alessandra de Ávila Montini Para a realização dos agrupamentos considerando como técnica de agrupamento o vizinho mais próximo pode-se partir da matriz de distância Euclidiana entre todos os candidatos. Profa. Dra. Alessandra de Ávila Montini 90 Passo 1 Distância entre 1 e 3 = 14,14 Distância entre 2 e 3 = 12,04 A menor distância é 12,04. • Nesse passo deve-se agrupa-se as observações com as menores distâncias. Como as observações 1 e 2 possuem as menores distâncias elas serão agrupadas no passo 1. • Calcula-se a distância entre as observações 1 e 2 e as demais observações. Distância entre 1 e 4 = 15,23 Distância entre 2 e 4 = 13,0 A menor distância é 13,0. Distância entre 1 e 5 = 10,0 Distância entre 2 e 5 = 9,22 A menor distância é 9,22. Profa. Dra. Alessandra de Ávila Montini Passo 1 • Elabora-se uma nova matriz de distância com as observações 1 e 2 grupadas. Profa. Dra. Alessandra de Ávila Montini 92 Passo 2 Distância entre 3 e (1+2) = 12,04 Distância entre 4 e (1+2) = 13,00 A menor distância é 12,04. • Nesse passo deve-se agrupa-se as observações com as menores distâncias. Como as observações 3 e 4 possuem as menores distâncias elas serão agrupadas no passo 2. • Calcula-se a distância entre as observações 3 e 4 e as demais observações. Distância entre 3 e 5 = 10,00 Distância entre 4 e 5 = 14,56 A menor distância é 10,00 Profa. Dra. Alessandra de Ávila Montini Passo 2 • Elabora-se uma nova matriz de distância com as observações 3 e 4 grupadas. Profa. Dra. Alessandra de Ávila Montini 94 Passo 3 Distância entre (1+2) e (3+4)= 12,04 Distância entre 5 e (3+4) = 10,00 A menor distância é 10,00. • Nesse passo deve-se agrupa-se as observações com as menores distâncias. Como as observações (1+2) e 5 possuem as menores distâncias elas serão agrupadas no passo 3. • Calcula-se a distância entre as observações (1+2) e 5 e as demais observações. Profa. Dra. Alessandra de Ávila Montini Passo 3 • Elabora-se a matriz de distância final. Profa. Dra. Alessandra de Ávila Montini Técnicas de Agrupamento Vizinho mais Próximo (Nearest Neighbor ) Dendograma Profa. Dra. Alessandra de Ávila Montini O dendograma é um gráfico que tem como objetivo representar graficamente os passos realizados em um agrupamento feito por um método hierárquico. Com base na análise do dendograma é possível determinar o número de grupos para o conjunto de observações. Profa. Dra. Alessandra de Ávila Montini Este é o Dendograma gerado a partir dos agrupamentos realizados nos passos de 1 a 3. Dendrograma 2,236 5,657 9,220 10,00 1 2 5 3 4 D is tâ n c ia E u c li d ia n a O elemento 1 foi agrupado ao elemento 2 na distância 2,236. O elemento 3 foi agrupado ao elemento 4 na distância 5,657. O grupo (1+2) foi agrupado ao elemento 5 na distância 9,220. O grupo (1+2+5) foi agrupado ao grupo (3+4) na distância 10,00. Dendrograma 2,236 5,657 9,220 10,00 1 2 5 3 4 D is tâ n c ia E u c li d ia n a Profa. Dra. Alessandra de Ávila MontiniPor meio do dendograma pode-se sugerir o número de grupos a serem considerados. Em geral, observa-se quando o próximo agrupamento é realizado em uma distância muito superior ao agrupamento anterior. Dendrograma 2,236 5,657 9,220 10,00 1 2 5 3 4 D is tâ n c ia E u c li d ia n a Profa. Dra. Alessandra de Ávila Montini Os elementos 1 e 2 foram agrupados a uma distância de 2,236, os elementos 3 e 4 foram agrupados a uma distância de 5,657. O próximo agrupamento ocorreu na distância 9,220. Como distância entre 9,220 e 5,657 é grande pode-se sugerir separar os grupos em uma distância superior a 5,657 e inferior a 9,220. A linha vermelha representa a separação. Dendrograma 2,236 5,657 9,220 10,00 1 2 5 3 4 D is tâ n c ia E u c li d ia n a Profa. Dra. Alessandra de Ávila Montini Considerando a linha vermelha como a separação dos grupos nota-se que os elementos 1 e 2 formam um grupo, o elemento 5 forma um grupo e os elementos 3 e 4 formam um grupo. Dendrograma 2,236 5,657 9,220 10,00 1 2 5 3 4 D is tâ n c ia E u c li d ia n a Profa. Dra. Alessandra de Ávila Montini Caso o objetivo do problema seja separar os elementos em 2 grupos pode-se considerar a linha vermelha como a separação. Nota-se que os elementos 1, 2 e 5 formam um grupo e os elementos 3 e 4 formam o outro grupo. Dendrograma 2,236 5,657 9,220 10,00 1 2 5 3 4 D is tâ n c ia E u c li d ia n a Profa. Dra. Alessandra de Ávila Montini Obter o dendograma considerando o método do vizinho mais próximo e matriz de distância Euclidiana para as variáveis padronizadas. EXERCÍCIO 5 Profa. Dra. Alessandra de Ávila Montini EXERCÍCIO 6 Obter o dendograma considerando o método do vizinho mais próximo e matriz de distância Euclidiana para as variáveis padronizadas. Profa. Dra. Alessandra de Ávila Montini EXERCÍCIO Obter o dendograma considerando o método do vizinho mais próximo e matriz de distância Euclidiana para as variáveis padronizadas. Profa. Dra. Alessandra de Ávila Montini Técnicas de Agrupamento Vizinho mais Distante (Furthest neighbor ) Profa. Dra. Alessandra de Ávila Montini Para a realização dos agrupamentos considerando como técnica de agrupamento o vizinho mais distante deve-se partir da matriz de distância Euclidiana entre todos os candidatos. Profa. Dra. Alessandra de Ávila Montini 109 Passo 1 Distância entre 1 e 3 = 14,14 Distância entre 2 e 3 = 12,04 A maior distância é 14,14. • Nesse passo deve-se agrupa-se as observações com as menores distâncias. Como as observações 1 e 2 possuem as menores distâncias elas serão agrupadas no passo 1. • Calcula-se a distância entre as observações 1 e 2 e as demais observações. Distância entre 1 e 4 = 15,23 Distância entre 2 e 4 = 13,0 A maior distância é 15,23. Distância entre 1 e 5 = 10,0 Distância entre 2 e 5 = 9,22 A maior distância é 10,00. Profa. Dra. Alessandra de Ávila Montini Passo 1 • Elabora-se uma nova matriz de distância com as observações 1 e 2 grupadas. 1+2 3 4 5 1 + 2 14,14 15,23 10,00 3 5,66 10,00 4 14,56 5 Profa. Dra. Alessandra de Ávila Montini 111 Passo 2 Distância entre 3 e (1+2) = 14,14 Distância entre 4 e (1+2) = 15,23 A maior distância é 15,23. • Nesse passo deve-se agrupa-se as observações com as menores distâncias. Como as observações 3 e 4 possuem as menores distâncias elas serão agrupadas no passo 2. • Calcula-se a distância entre as observações 3 e 4 e as demais observações. Distância entre 3 e 5 = 10,00 Distância entre 4 e 5 = 14,56 A maior distância é 14,56 1+2 3 4 5 1 + 2 14,14 15,23 10,00 3 5,66 10,00 4 14,56 5 Profa. Dra. Alessandra de Ávila Montini Passo 2 • Elabora-se uma nova matriz de distância com as observações 3 e 4 grupadas. Profa. Dra. Alessandra de Ávila Montini 113 Passo 3 Distância entre (1+2) e (3+4)= 15,23 Distância entre 5 e (3+4) = 14,56 A maior distância é 15,23. • Nesse passo deve-se agrupa-se as observações com as menores distâncias. Como as observações (1+2) e 5 possuem as menores distâncias elas serão agrupadas no passo 3. • Calcula-se a distância entre as observações (1+2) e 5 e as demais observações. Profa. Dra. Alessandra de Ávila Montini Passo 3 • Elabora-se a matriz de distância final. Profa. Dra. Alessandra de Ávila Montini Técnicas de Agrupamento Vizinho mais Distante (Furthest neighbor ) Dendograma Profa. Dra. Alessandra de Ávila Montini Este é o Dendograma gerado a partir dos agrupamentos realizados nos passos de 1 a 3. Dendrograma 2,24 5,66 10,00 15,23 1 2 5 3 4 D is tâ n c ia E u c li d ia n a Dendrograma Profa. Dra. Alessandra de Ávila Montini Dendrograma 2,24 5,66 10,00 15,23 1 2 5 3 4 D is tâ n c ia E u c li d ia n a Dendrograma Considerando a linha vermelha como a separação dos grupos nota-se que os elementos 1 e 2 formam um grupo, o elemento 5 forma um grupo e os elementos 3 e 4 formam um grupo. Profa. Dra. Alessandra de Ávila Montini Obter o dendograma considerando o método do vizinho mais próximo e matriz de distância Euclidiana para as variáveis padronizadas. Considerando 3 grupos calcule a média para as variáveis originais em cada grupo e caracterize os grupos . EXERCÍCIO Profa. Dra. Alessandra de Ávila Montini Caracterização dos grupos : Média - Valor Energético Média - Carboidratos Lanches Grupo 1 Grupo 2 Grupo 3 Profa. Dra. Alessandra de Ávila Montini EXERCÍCIO Obter o dendograma considerando o método do vizinho mais próximo e matriz de distância Euclidiana para as variáveis padronizadas. Considerando 3 grupos calcule a média para as variáveis originais em cada grupo e caracterize os grupos . Profa. Dra. Alessandra de Ávila Montini Caracterização dos grupos : Profa. Dra. Alessandra de Ávila Montini EXERCÍCIO Obter o dendograma considerando o método do vizinho mais próximo e matriz de distância Euclidiana para as variáveis padronizadas. Considerando 3 grupos calcule a média para as variáveis originais em cada grupo e caracterize os grupos . Profa. Dra. Alessandra de Ávila Montini Caracterização dos grupos : Profa. Dra. Alessandra de Ávila Montini Técnicas de Agrupamento Método da Centróide (Centroid clustering) Profa. Dra. Alessandra de Ávila Montini Exemplo 2 Profa. Dra. Alessandra de Ávila Montini 126 Dada a matriz de distância agrupe os elementos por meio do método da centróide e construa o dendograma. 1 2 3 4 5 1 2,24 14,14 15,23 10,00 2 12,04 13,00 9,22 3 5,66 10,00 4 14,56 5 Profa. Dra. Alessandra de Ávila Montini 127 Como a menor distância é entre os elementos 1 e 2 eles serão agrupados no passo 1. 1 2 3 4 5 1 2,24 14,14 15,23 10,00 2 12,04 13,00 9,22 3 5,66 10,00 4 14,56 5 Profa. Dra. Alessandra de Ávila Montini Os elementos que serão agrupados são denominados p e q A novo grupo (p+q) é denominado t. 1 2 3 4 5 1 2,24 14,14 15,23 10,00 2 12,04 13,00 9,22 3 5,66 10,00 4 14,56 5 Neste caso p = 1 , q = 2 e t = (1+2) Passo 1 Os elementos 1e 2 eles serão agrupados no passo1. Profa. Dra. Alessandra de Ávila Montini q,p2 qp qp r,qqp q r,p qp p r,t S NN N*N S NN N S NN N S Os elementos que serão agrupados são denominados p e q A novo grupo (p+q) é denominado t. A distância entre o novo grupo t e o elemento/grupo r é dada por Em que, Np é o número de observações no grupo p, Nq é o número de observações no grupo q, Sp,r é a distância entre p e r, Sq,r é a distância entre q e r, Sp,q é a distância entre p e q. Profa. Dra. Alessandra de Ávila Montini Cálculo da distância do grupo 1+2 para o elemento 3 Profa. Dra. Alessandra de Ávila Montini 1 2 3 4 5 1 2,24 14,14 15,23 10,00 2 12,04 13,00 9,22 3 5,66 10,00 4 14,56 5 q,p2 qp qp r,q qp q r,p qp p r,t S NN N*N S NN N S NN N S p = 1 e q=2 t = (1+2) r = 3 2,1221 21 3,2 21 2 3,1 21 1 3),21( S NN N*N S NN N S NN N S 53,1224,2*)25,0(04,12*5,014,14*5,0S 11 1*1 S 11 1 S 11 1 S 2,123,23,13),21( Profa. Dra. Alessandra de Ávila Montini Cálculo da distância do grupo 1+2 para o elemento 4 Profa. Dra. Alessandra de Ávila Montini 1 2 3 4 5 1 2,24 14,14 15,23 10,00 2 12,04 13,00 9,22 3 5,66 10,00 4 14,56 5 q,p2 qp qp r,q qp q r,p qp p r,t S NN N*N S NN N S NN N S p = 1 e q=2 t = (1+2) r = 4 2,1221 21 4,2 21 2 4,1 21 1 4),21( S NN N*N S NN N S NN N S 55,1324,2*)25,0(00,13*5,023,15*5,0S 11 1*1 S 11 1 S 11 1 S 2,124,24,14),21( Profa. Dra. Alessandra de Ávila Montini Cálculo da distância do grupo 1+2 para o elemento 5 1+2 3 4 5 1 + 2 3 4 5 Profa. Dra. Alessandra de Ávila Montini 1 2 3 4 5 1 2,24 14,14 15,23 10,00 2 12,04 13,00 9,22 3 5,66 10,00 4 14,56 5 q,p2 qp qp r,q qp q r,p qp p r,t S NN N*N S NN N S NN N S p = 1 e q=2 t = (1+2) r = 5 2,1221 21 5,2 21 2 5,1 21 1 5),21( S NN N*N S NN N S NN N S 05,924,2*)25,0(22,9*5,000,10*5,0S 11 1*1 S 11 1 S 11 1 S 2,125,25,15),21( Profa. Dra. Alessandra de Ávila Montini Matriz de distância após agrupar os elementos 1 e 2 1+2 3 4 5 1 + 2 12,53 13,56 9,05 3 5,66 10,00 4 14,56 5 Profa. Dra. Alessandra de Ávila Montini Passo 2 Os elementos 3 e 4 eles serão agrupados no passo 2. 1 + 2 3 4 5 1 + 2 12,53 13,56 9,05 3 5,66 10,00 4 14,56 5 Profa. Dra. Alessandra de Ávila Montini Cálculo da distância do grupo 3+4 para o grupo (1+2) 1+2 3+4 5 1 + 2 3+4 5 Profa. Dra. Alessandra de Ávila Montini 1 + 2 3 4 5 1 + 2 12,53 13,56 9,05 3 5,66 10,00 4 14,56 5 p = 3 e q=4 t = (3+4) r = (1+2) q,p2 qp qp r,q qp q r,p qp p r,t S NN N*N S NN N S NN N S 4,3243 43 )21(,4 43 4 )21(,3 43 3 )21(),43( S NN N*N S NN N S NN N S 63,1166,5*)25,0(56,13*5,053,12*5,0S 11 1*1 S 11 1 S 11 1 S 4,32)21(,4)21(,3)21(),43( Profa. Dra. Alessandra de Ávila Montini Cálculo da distância do grupo 3+4 para o elemento 5 1+2 3+4 5 1 + 2 3+4 5 Profa. Dra. Alessandra de Ávila Montini 1 + 2 3 4 5 1 + 2 12,53 13,56 9,05 3 5,66 10,00 4 14,56 5 p = 3 e q=4 t = (3+4) r = 5 q,p2 qp qp r,q qp q r,p qp p r,t S NN N*N S NN N S NN N S 4,3243 43 5,4 43 4 5,3 43 3 5),43( S NN N*N S NN N S NN N S 86,1066,5*)25,0(56,14*5,000,10*5,0S 11 1*1 S 11 1 S 11 1 S 4,325,45,35),43( Profa. Dra. Alessandra de Ávila Montini Matriz de distância após agrupar os elementos 3 e 4 1+2 3+4 5 1 + 2 11,63 9,05 3+4 10,86 5 Profa. Dra. Alessandra de Ávila Montini Passo 3 Os elementos (1+2) e 5 eles serão agrupados no passo 3. 1+2 3+4 5 1 + 2 11,63 9,05 3+4 10,86 5 Profa. Dra. Alessandra de Ávila Montini Cálculo da distância do grupo (1+2)+5 para o grupo (3+4) 1+2+5 3+4 1 + 2 + 5 3+4 Profa. Dra. Alessandra de Ávila Montini p = (1+2) e q=5 t = (1 + 2) + (5) r = (3+4) q,p2 qp qp r,q qp q r,p qp p r,t S NN N*N S NN N S NN N S 5),21(2 5)21( 5)21( )43(,5 5)21( 5 )43(),21( 5)21( )21( )43(,5)21( S NN N*N S NN N S NN N S 36,905,9 12 1*2 87,10 12 1 63,11 12 2 S 2)43(,5)21( 1+2 3+4 51 + 2 11,63 9,053+4 10,865 Profa. Dra. Alessandra de Ávila Montini Matriz de distância final 1+2+5 3+4 1 + 2 + 5 15,23 3+4 Profa. Dra. Alessandra de Ávila Montini Técnicas de Agrupamento Método da Centróide (Centroid clustering) Dendograma Profa. Dra. Alessandra de Ávila Montini Este é o Dendograma gerado a partir dos agrupamentos realizados nos passos de 1 a 3. Dendrograma 2,24 5,66 9,05 15,23 1 2 5 3 4 D is tâ n c ia E u c li d ia n a Dendrograma Profa. Dra. Alessandra de Ávila Montini Dendrograma 2,24 5,66 9,05 15,23 1 2 5 3 4 D is tâ n c ia E u c li d ia n a Dendrograma Considerando a linha vermelha como a separação dos grupos nota-se que os elementos 1 e 2 formam um grupo, o elemento 5 forma um grupo e os elementos 3 e 4 formam um grupo. Profa. Dra. Alessandra de Ávila Montini Exercício Pokémon Profa. Dra. Alessandra de Ávila Montini HP (hit points) Representam a quantidade de vida, ou saúde do Pokémon e a quantidade de dano que ele consegue levar antes de ser liquidado . Quanto maior o HP, mais vida o Pokémon terá e, portanto, mais difícil será liquidá-lo. Attack (Ataque) Determina a quantidade de dano que um Pokémon pode infligir no outro usando um movimento de ataque físico. Quanto maior o ataque, mais dano o Pokémon pode infligir em seu adversário. Defense (Defesa) Mostra a capacidade do Pokémon se defender quando recebe um ataque físico. Quanto maior a Defense (defesa), menor dano ele receberá quanto atacado fisicamente. Profa. Dra. Alessandra de Ávila Montini Pokemon HP Attack Defense HP Attack Defense Chansey 250 5 5 1,50 -1,47 -1,33 Snorlax 160 110 65 0,39 0,42 0,00 Dragonite 91 134 95 -0,46 0,85 0,66 Rhydon 105 130 120 -0,29 0,78 1,22 Pikachu 35 55 40 -1,15 -0,57 -0,55 Média 128,2 86,8 65 Desvio Padrão 81,32 55,53 45,14 Profa. Dra. Alessandra de Ávila Montini Profa. Dra. Alessandra de Ávila Montini Profa. Dra. Alessandra de Ávila Montini Profa. Dra. Alessandra de Ávila Montini Profa. Dra. Alessandra de Ávila Montini Exercício 1 Profa. Dra. Alessandra de Ávila Montini Considere o exemplo de um diretor que deseja agrupar seus vendedores de acordo com as vendas diárias realizadas no estado de São Paulo e no estado do Rio de Janeiro. A Tabela apresenta os valores dasvariáveis para os cinco vendedores para um dia de venda. Vendedor Venda SP Venda RJ 1 2 8 2 5 3 3 5 2 4 2 2 5 3 7 Profa. Dra. Alessandra de Ávila Montini a - Obtenha os elementos que estão acima da diagonal principal da matriz de distância Euclidiana dos vendedores. Responder com 3 casas decimais. 1 2 3 4 5 1 2 3 4 5 Profa. Dra. Alessandra de Ávila Montini b - Obtenha todas as matrizes de agrupamentos e faça o dendograma. Profa. Dra. Alessandra de Ávila Montini Exercício 2 Profa. Dra. Alessandra de Ávila Montini Considere o exemplo de um diretor que deseja agrupar seus vendedores de acordo com as vendas diárias realizadas no estado de São Paulo e no estado do Rio de Janeiro. A Tabela apresenta os valores das variáveis para os cinco vendedores para um dia de venda. Vendedor Venda SP Venda RJ 1 1 8 2 3 3 3 5 5 4 2 2 5 3 8 Profa. Dra. Alessandra de Ávila Montini a - Obtenha os elementos que estão acima da diagonal principal da matriz de distância Euclidiana dos vendedores. Responder com 3 casas decimais. 1 2 3 4 5 1 2 3 4 5 Profa. Dra. Alessandra de Ávila Montini b - Obtenha todas as matrizes de agrupamentos e faça o dendograma. Profa. Dra. Alessandra de Ávila Montini Exercício 3 Profa. Dra. Alessandra de Ávila Montini Considere o exemplo de um diretor que deseja agrupar seus vendedores de acordo com as vendas diárias realizadas no estado de São Paulo e no estado do Rio de Janeiro. A Tabela apresenta os valores das variáveis para os cinco vendedores para um dia de venda. Profa. Dra. Alessandra de Ávila Montini a - Obtenha os elementos que estão acima da diagonal principal da matriz de distância Euclidiana dos vendedores. Responder com 3 casas decimais. 1 2 3 4 5 1 2 3 4 5 Profa. Dra. Alessandra de Ávila Montini b - Obtenha todas as matrizes de agrupamentos e faça o dendograma. Profa. Dra. Alessandra de Ávila Montini Aplicação no PASW Statistics Profa. Dra. Alessandra de Ávila Montini Exemplo 3 Profa. Dra. Alessandra de Ávila Montini Considere o exemplo de uma analista de gestão de pessoas que deseja agrupar os candidatos em três grupos considerando duas variáveis: o tempo de formação do candidato e o tempo que o candidato permaneceu na empresa anterior. A Tabela apresenta os valores das variáveis para os cinco candidatos. Profa. Dra. Alessandra de Ávila Montini Neste exemplo será utilizado o software PASW Statistics versão 18. Profa. Dra. Alessandra de Ávila Montini Importar a Base de Dados Profa. Dra. Alessandra de Ávila Montini Para importar um arquivo clicar em File, localizar o arquivo no computador e clicar em open. Caso a primeira linha do arquivo a ser importado tiver o nome das variáveis deixar a opção que está marcada selecionada e clicar em OK. O PASW Statistics importou de forma adequada a a base de dados. Clicar em Variable View para verificar o tipo de cada variável. A variável candidato é uma string e não uma variável numérica. Para trocar o tipo de variável clicar em TYPE , selecionar o tipo desejado e clicar em OK. Agora a variável candidato é uma string. Profa. Dra. Alessandra de Ávila Montini Cluster Hierárquico Selecionar Analyze , Classify e Hierarchical Cluster Selecionar as variáveis que deverão ser utilizadas para formar os grupos e selecionar a variável Label. As variáveis que deverão ser utilizadas para formar os grupos e a variável Label foram selecionadas. No menu Statistics, Fazer estas seleções : No menu Plots. Fazer estas seleções : Selecionar um dos métodos de agrupamento No menu Method, Neste exemplo selecionar o vizinho mais próximo (Nearest Neighbor ) Selecionar uma das medidas No menu Method, Neste exemplo selecionar a Distância Euclidiana Após a seleção das opções clicar em ok O PASW Statistics gera um output com todos os resultados. Número de elementos da base de dados e a matriz com as distâncias Euclidianas. O PASW Statistics mostra quais os elementos que foram agrupados e em que distância. No estágio 1, o elemento 1 foi agrupado ao elemento 2 na distância 2,236. No estágio 2, o elemento 3 foi agrupado ao elemento 4 na distância 5,657. No estágio 3, o grupo (1+2) foi agrupado ao elemento 5 na distância 9,220. No estágio 4, o grupo (1+2+5) foi agrupado ao grupo (3+4) na distância 10,00. Dendrograma O PASW Statistics gera o dendograma. Neste dendograma o PASW Statistics não apresenta no eixo vertical as distâncias euclidianas originais. O PASW Statistics faz uma mudança de escala. Profa. Dra. Alessandra de Ávila Montini Exemplo 4 Banco de Dados: MCDONALDS.xls Profa. Dra. Alessandra de Ávila Montini Neste exemplo pretende-se agrupar os lanches do Mcdonalds de acordo com as variáveis apresentadas. Profa. Dra. Alessandra de Ávila Montini Método Hierárquico Profa. Dra. Alessandra de Ávila Montini As variáveis que deverão ser utilizadas no cluster foram selecionadas e a variável Label foi selecionada. No menu Statistics, Fazer estas seleções : No menu Plots, Fazer estas seleções : Profa. Dra. Alessandra de Ávila Montini Método Hierárquico Vizinho mais próximo (Nearest neighbor) Profa. Dra. Alessandra de Ávila Montini Selecionar: Cluster Method: Vizinho mais próximo (Nearest neighbor) Measure : Distância Euclidiana (Euclidian distance) Transform Values: Z scores (transforma cada variável e considera as variáveis padronizadas). Profa. Dra. Alessandra de Ávila Montini S )XX( Z X: variável aleatória com média e desvio padrão S Z: variável aleatória padronizada com média 0 e variância 1. A variável padronizada é denominada Z. X Profa. Dra. Alessandra de Ávila Montini Dendrograma Profa. Dra. Alessandra de Ávila Montini Método Hierárquico Vizinho mais distante (Furthest neighbor) Profa. Dra. Alessandra de Ávila Montini Selecionar: Cluster Method: Vizinho mais distante (Furthest neighbor) Measure : Distância Euclidiana (Euclidian distance) Transform Values: Z scores (transforma cada variável e considera as variáveis padronizadas Profa. Dra. Alessandra de Ávila Montini Dendrograma Profa. Dra. Alessandra de Ávila Montini Método Hierárquico Centróide Profa. Dra. Alessandra de Ávila Montini Selecionar: Cluster Method: Centróide (Centroid clustering) Measure : Distância Euclidiana (Euclidian distance) Transform Values: Z scores (transforma cada variável e considera as variáveis padronizadas Profa. Dra. Alessandra de Ávila Montini Dendrograma Profa. Dra. Alessandra de Ávila Montini Como pode ser observado os dendogramas gerados pelos métodos vizinho mais próximo, vizinho mais distante e centróide são diferentes. Para exemplificar os agrupamentos considere o método do vizinho mais distante. Profa. Dra. Alessandra de Ávila Montini Dendrograma Profa. Dra. Alessandra de Ávila Montini Exercício 1 base de dados: MCdonalds1.xls Profa. Dra. Alessandra de Ávila Montini Considerando as variáveis padronizadas, o método da centróide e a matriz de distância Euclidiana , faça o dendograma. Obtenha 5 grupos com a base de dados: MCdonalds1.xls1 – Quais os lanches estão em cada grupo. Responder com o numero do lanche e não com o nome. Considerar a formação da esquerda para a direita: Grupo 1: Grupo 2: Grupo 3: Grupo 4: Grupo 5: Profa. Dra. Alessandra de Ávila Montini Exercício 2 base de dados: POKEMON1.xls Profa. Dra. Alessandra de Ávila Montini Todas as variáveis devem estar como : ESCALA. Profa. Dra. Alessandra de Ávila Montini Considerando as variáveis padronizadas, o método do vizinho mais distante e a matriz de distância Euclidiana, faça o dendograma. Obtenha 4 grupos com a base de dados: POKEMON1.xls. Considerar a formação da esquerda para a direita: 1 – Complete a tabela abaixo e caracterize os grupos. Profa. Dra. Alessandra de Ávila Montini Método das k médias Profa. Dra. Alessandra de Ávila Montini No método das K médias é necessário definir, a priori, o número de grupos (clusters). 219 Profa. Dra. Alessandra de Ávila Montini Padronização da Base de Dados Profa. Dra. Alessandra de Ávila Montini Antes de iniciar o método das K médias deve-se padronizar as variáveis. Para padronizar as variáveis, selecionar Analyze, Descriptive Statistics e Descriptives. Profa. Dra. Alessandra de Ávila Montini Selecionar todas as variáveis que serão utilizadas para realizar o agrupamento Profa. Dra. Alessandra de Ávila Montini O PASW Statistics gera colunas novas com as variáveis padronizadas. Profa. Dra. Alessandra de Ávila Montini Método das K médias Profa. Dra. Alessandra de Ávila Montini 225 Para fazer os agrupamentos pelo método das k médias, selecionar Analyze, Classify e K-Means Cluster. Profa. Dra. Alessandra de Ávila Montini 226 As variáveis padronizadas que deverão ser utilizadas no cluster foram selecionadas, a variável Label foi selecionada e foi determinado o número de grupos desejados (neste exemplo 3 grupos). Profa. Dra. Alessandra de Ávila Montini Na opção Iterate, Colocar 100 iterações. Profa. Dra. Alessandra de Ávila Montini Na opção Save, Fazer esta seleção. Profa. Dra. Alessandra de Ávila Montini Na opção options, Fazer estas seleções. Profa. Dra. Alessandra de Ávila Montini O PASW Statistics gera um output com todos os resultados. Profa. Dra. Alessandra de Ávila Montini Método das K médias Análise de Variância Profa. Dra. Alessandra de Ávila Montini O PASW Statistics gera um output com todos os resultados. Esta tabela gerada faz uma comparação das médias das variáveis entre os grupos. H0: as médias da variável são iguais para todos os grupos; H1: as médias da variável são diferentes em pelo menos um grupo; Teste F para comparação de médias A variável Zscore:Valor energético é a variável Valor energético padronizada (com média zero e desvio padrão 1). A hipótese testa se a média dessa variável para o grupo 1 é igual a média dessa variável para o grupo 2 e é igual a média dessa variável para o grupo 3. Teste F para comparação de médias Considere o teste F feito para a variável: Zscore:Valor energético A estatística do teste possui distribuição F com 2 e 22 graus de liberdade. Distribuição F Teste F para comparação de médias O valor da estatística do teste é 86,075. A área a direita da estatística do teste é denominada nível descritivo (Sig). 86,075 Nível descritivo Regra de decisão: Quando o Sig (Nível descritivo do teste) for menor do que α (0,10) rejeitamos H0, ou seja, há evidência de que as médias da variável são diferentes em pelo menos um grupo Teste F para comparação de médias H0: as médias da variável são iguais para todos os grupos; H1: as médias da variável são diferentes em pelo menos um grupo; Profa. Dra. Alessandra de Ávila Montini Como o Sig associado `a variável Zscore: Fibra Alimentar é maior do que 0,10 há evidência de que as médias dessa variável são iguais para todos os grupos. Desta forma esta variável não é importante para a formação dos grupos. Como o Sig associado as demais variáveis são inferiores a 0,10 as demais variáveis são importantes. Profa. Dra. Alessandra de Ávila Montini Ajusta-se novamente a análise de cluster pelo método das k médias sem a variável Zscore: Fibra Alimentar. Como o Sig associado as variáveis são inferiores a 0,10 todas essas variáveis são importantes. Profa. Dra. Alessandra de Ávila Montini Método das K médias Número de Observações nos Grupos Profa. Dra. Alessandra de Ávila Montini O PASW Statistics gera um output com o número de observações em cada grupo. Agora é necessário caracterizar os grupos. Profa. Dra. Alessandra de Ávila Montini O PASW Statistics coloca na base de dados o grupo relacionado a cada elemento. Esta nova variável é denominada: Profa. Dra. Alessandra de Ávila Montini Análise Exploratória dos Grupos Box-plot Profa. Dra. Alessandra de Ávila Montini Para obter o Box-plot de cada um dos grupos para cada variável deve-se selecionar Graphs, Legacy Dialogs e Box-plot. Profa. Dra. Alessandra de Ávila Montini Fazer esta seleção. Profa. Dra. Alessandra de Ávila Montini Selecionar a variável, colocar a variável grupo em category Axis e colocar a variável com o nome dos lanches em label. Profa. Dra. Alessandra de Ávila Montini Box-plot da variável Valor Energéticos para cada um dos grupos. Profa. Dra. Alessandra de Ávila Montini Análise Exploratória dos Grupos Split File Profa. Dra. Alessandra de Ávila Montini Para obter um análise para cada grupo deve-se partir o banco de dados por grupo. Selecionar Data e Split File. Profa. Dra. Alessandra de Ávila Montini Selecionar Organize output by groups e colocar a variável grupo. Profa. Dra. Alessandra de Ávila Montini Análise Exploratória dos Grupos Medidas Descritivas Profa. Dra. Alessandra de Ávila Montini Para obter as estatísticas descritivas selecionar Analyze, Descriptive Statistics e Descriptives. cv Profa. Dra. Alessandra de Ávila Montini Selecionar as variáveis originais. Profa. Dra. Alessandra de Ávila Montini Selecionar as medidas descritivas desejadas. Profa. Dra. Alessandra de Ávila Montini O PASW Statistics gera uma tabela com as medidas descritivas selecionadas para cada grupo. Profa. Dra. Alessandra de Ávila Montini Análise Exploratória dos Grupos Caracterização dos Grupos Profa. Dra. Alessandra de Ávila Montini Variável Grupo 1 Grupo 2 Grupo 3 Valor Energético 408,24 855,67 567,40 Ferro 2,76 5,33 8,88 Colesterol 44,41 129,33 77,40 Calcio 113,35 257,00 216,20 Proteínas 23,35 48,67 29,20 Carboidratos 39,53 52,67 40,80 Gorduras Saturadas 5,08 22,00 13,80 GordurasTrans 0,28 1,70 1,00 Sódio 1073,82 1714,67 1094,00 GordurasTotais 17,30 50,00 32,00 Com base nas medidas descritivas geradas no PASW Statistics pode-se obter a seguinte tabela com as médias das variáveis para cada grupo. Adicionalmente pode-se obter uma tabela similar para cada medida descritiva. OBS: a cor vermelho representa o grupo de maior média para a variável, a cor cinza representa o grupo com a segunda maior média para a variável e a cor verde representa o grupo de menor média para a variável. Profa. Dra. Alessandra de Ávila Montini Variável Grupo 1 Grupo 2 Grupo 3 Valor Energético 408,24 855,67 567,40 Ferro 2,76 5,33 8,88 Colesterol 44,41 129,3377,40 Calcio 113,35 257,00 216,20 Proteínas 23,35 48,67 29,20 Carboidratos 39,53 52,67 40,80 Gorduras Saturadas 5,08 22,00 13,80 GordurasTrans 0,28 1,70 1,00 Sódio 1073,82 1714,67 1094,00 GordurasTotais 17,30 50,00 32,00 Nota-se que o grupo 1 apresenta as menores médias para todas as variáveis. O grupo 2 apresenta as maiores médias para todas as variáveis (exceto para o ferro). O grupo 3 apresenta valores médios intermediários (próximos do grupo 2) para as variáveis e maior valor médio para a variável ferro. Profa. Dra. Alessandra de Ávila Montini Grupo 1 - apresenta as menores médias para todas as variáveis. Chicken Club Crispy Chicken Club Grill Chicken Bacon Crispy Chicken Classic Crispy McChicken Chicken Lemon Crispy Chicken Classic Grill Chicken Bacon Grill Chicken Lemon Grill McFish Wrap Crispy Maionese Wrap Grill Maionese Wrap Crispy Lemon McChicken Jr Cheeseburger Wrap Grill Lemon Hamburger Profa. Dra. Alessandra de Ávila Montini Grupo 2 Grupo 2 – Colesterol médio e sódio médio muito maior que os demais grupos. Profa. Dra. Alessandra de Ávila Montini Grupo 3 – maior valor médio para a variável ferro Profa. Dra. Alessandra de Ávila Montini Exercício 1 Profa. Dra. Alessandra de Ávila Montini Considere o dendograma realizado por meio da técnica de agrupamento do vizinho mais distante e considere a matriz de distância Euclidiana. Suponha que o objetivo seja separar os lanches em três grupos. Profa. Dra. Alessandra de Ávila Montini ValorEnergético Carboidratos Proteínas Angus Deluxe 863 56 51 Angus Bacon 861 57 54 Big Tasty 843 45 41 CBO 643 56 27 Mcnifico Bacon 625 38 34 Chicken Club Crispy 610 54 31 Quarterão 558 36 31 Chicken Club Grill 545 46 41 Chicken Bacon Crispy 515 45 27 Cheddar McMelt 507 33 29 Big Mac 504 41 25 a) Média: _______________ ; b) Desvio padrão:_____________; c) Coeficiente de Variação _____________; Considere o agrupamento em três grupos e considere o grupo do lanche Quarteirão. Obtenha a média, o desvio padrão e o coeficiente de variação para a variável valor energético para os lanches do grupo do lanche Quarteirão. Profa. Dra. Alessandra de Ávila Montini Exercício 2 Profa. Dra. Alessandra de Ávila Montini Considere um colecionador de motos que deseja agrupar as motos de acordo com algumas variáveis. A tabela apresenta a ANOVA. Marque as variáveis que você acha adequado utilizar na análise de clusters considerando o método das k médias. Considerar α = 0,10. ( ) Cilindrada ( ) Potencia ( ) Torque ( ) Cambio ( ) Velocidade ( ) Aceleração Cluster Error F Sig. Mean Square Df Mean Square df Cilindrada 865784,046 2 89808,716 12 9,640 ,003 Potencia 11173,286 2 411,478 12 27,154 ,000 Torque 63,177 2 6,405 12 9,863 ,003 Cambio 8,571 2 3,571 12 2,400 ,133 velocidade 9842,493 2 1303,274 12 7,552 ,008 aceleracao 36,796 2 14,635 12 2,514 ,122
Compartilhar