Prévia do material em texto
UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EM GESTÃO E TECNOLOGIA CURSO DE ADMINISTRAÇÃO DISCIPLINA ESTATISTICA APLICADA Análise de componentes principais de um teste-cego entre duas marcas de iogurte: Danone e Vigor Professora: Dra. Monica Fabiana Bento Moreira Thiersch monicathiersch@ufscar.br Alunos: Alexandre Marcos Storti Filho Wesley da Silva Souza Sorocaba / SP 2017 3 Sumário Sumário ................................................................................................................................ 3 RESUMO ............................................................................................................................ 4 INTRODUÇÃO .................................................................................................................. 4 ANÁLISE DE COMPONENTES PRINCIPAIS ............................................................ 6 1. DADOS COLETADOS ........................................................................................... 7 2. MATRIZ DE COVARIÂNCIA OU CORRELAÇÃO AMOSTRAL ................. 8 3. AUTOVETORES E AUTOVALORES ................................................................. 9 Figura 1 Média de notas para cada atributo avaliado .......................................................... 8 Figura 2 Estatísticas descritivas ........................................................................................... 8 Figura 3 caixa de diálogo para covariância no Excel .......................................................... 9 Figura 4 Matriz de covariância ............................................................................................ 9 4 Análise de componentes principais de um teste-cego entre duas marcas de iogurte: Danone e Vigor RESUMO Análise dos Componentes Principais (PCA) é uma das ferramentas mais utilizadas, que visa principalmente à redução do número de variáveis, eliminação de dados redundantes e facilitar a interpretação dos dados. Atualmente o desenvolvimento de experimentos que introduzam as principais ferramentas dessa área em nível de graduação é de grande importância. O trabalho presente tem como objetivo apresentar um experimento para ilustrar a aplicação do PCA na identificação de padrões existentes de 2 marcas de iogurte ABSTRACT Principal Component Analysis (PCA) is one of the most commonly used tools, which mainly aims at reducing the number of variables, eliminating redundant data and facilitating data interpretation. Currently the development of experiments that introduce the main tools of this area at the undergraduate level is of great importance. The present work aims to present an experiment to illustrate the application of PCA in the identification of existing patterns of two yogurt brands: Vigor and Danone. 5 Análise de componentes principais de um teste-cego entre duas marcas de iogurte: Danone e Vigor 1. INTRODUÇÃO A extração de informações dos dados de um experimento normalmente envolve a análise de um considerável número de variáveis. Sendo que frequentemente apenas um pequeno o número destas variáveis apresentam maior importância, resultando em um grande conjunto de dados que podem ser redundantes ou que não apresentem relevância para o objetivo do experimento. A análise de componentes principais (PCA, do inglês Principal Component Analysis) é um dos principais métodos utilizados, onde seu objetivo é reduzir o número de dimensões do conjunto de dados sem a perda das informações relevantes, de modo a se obter um número menor de novas variáveis (componentes principais) que facilite a interpretação dos dados. O PCA pode propiciar, através de gráficos, a identificação da existência de padrões de similaridade existentes em dados de um conjunto das amostras analisadas. No primeiro semestre de 2017 foi realizado um teste cego no Campus de Sorocaba da UFSCAR com a finalidade de identificar as preferências dos alunos da universidade por algumas marcas de produtos onde foi-se realizado a pesquisa por diversos grupos com esta finalidade. Um dos testes-cego realizado foi de quatro marcas de iogurtes (Danone, Vigor, Matilat e Elegê) com a finalidade de identificar a preferência dos alunos sem a influência das ações de marketing adotadas pelas empresas fabricantes. Para tanto, foi usado a escala likert de 1 a 5 em 6 variáveis: consistência, cor, doçura, sabor, aroma e resíduo de sabor. Foi-se verificado, por meio de análise gráfica apenas que a preferência dos mesmos foi pelo iogurte da marca Vigor. Este trabalho, tem por finalidade usar a Análise de Componentes Principais utilizados pela estatística aplicada para verificar quais são dos 6 aspectos descritos acima mais interferem na percepção de qualidade geral para o cliente e também apresentar um 6 experimento para ilustrar e introduzir a alunos de graduação o método de análise de componentes principais (PCA) para a análise multivariada de dados. Vale ressaltar que trabalho semelhante a esse será realizado para outra análise, porém com apenas dois aspectos da pesquisa: cor e aroma. E terá outro objetivo: constatar qual empresa, Vigor ou Danone, é a preferência dos consumidores. 2. ANÁLISE DE COMPONENTES PRINCIPAIS O PCA é uma ferramenta estatística que, a partir de um determinado conjunto de dados, é capaz de condensar as informações mais relevantes em um número reduzido de novas variáveis. Esse método está baseado na transformação das variáveis originais de uma matriz dados, onde as linhas representam as amostras e as colunas as variáveis, em novas variáveis não correlacionadas, chamadas componentes principais (PC, do inglês Principal Components), que são combinações lineares das variáveis originais. Quando o número de PC é significativamente menor que o número de variáveis inicial obtém-se uma redução substancial de informação, proporcionando uma melhor visualização do conjunto de dados através das PC. Sendo assim este método pode ser utilizado na redução de informações, para reconhecimento de padrões, na seleção de amostras, na construção de modelos para calibração multivariada, entre diversas outras aplicações. O cálculo utilizado na PCA baseia-se na decomposição de uma matriz qualquer “X” em um produto de duas matrizes menores T e P, conforme expresso pela equação: Sendo X a matriz original com n linhas e m colunas; T a matriz escores com n linhas e d colunas (número de PC escolhido), P T a transposta da matriz de pesos com m colunas e d linhas e E a matriz de resíduos que contém a fração da informação não é modelado/explicado pelas PC. 7 A matriz de pesos é onde se encontra a relevância das variáveis originais em cada PC, onde cada elemento de P é matematicamente igual ao cosseno do ângulo entre o eixo da cada variável original e a PC. A matriz de escores representa a disposição das amostras no espaço das PC, isto é, a projeção dos pontos experimentais nos eixos definidos pelas PC. Como falado na introdução, este estudo terá como finalidade a avaliação de duas marcas de iogurte e será usado o método descrito acima como referência para atingirmos o objetivo proposto. Para tanto, faz-se necessário alguns cálculos que, em resumo, são: Dados coletados; Cálculo da média e desvio padrão amostral; Matriz de covariância; Autovalores; Autovetores; Autovetores Normalizados; Determinação de componentes principais; Percentual de variância total explicada pelos componentes; Correlação dos componentes; e Escores. 2.1. DADOS COLETADOS De início, para obter os dados, utilizamos um teste cego aplicado no semestre anterior, para obtermos os dados. Com isso, conseguimos angariara média de notas para os atributos: aroma, sabor, consistência, cor, doçura, resíduo de sabor e intenção de compra. 8 VARIAVEIS VIGOR DANONE AROMA 3,78 3,55 CONSISTENCIA 4,07 3,06 COR 3,53 3,98 DOÇURA 3,73 3,36 SABOR 3,93 3,27 RESIDUO DE SABOR 3,36 3,18 Figura 1: Média de notas para cada atributo avaliado Figura 2: Estatísticas descritivas 2.2. MATRIZ DE COVARIÂNCIA OU CORRELAÇÃO AMOSTRAL O Excel tem diversas funções estatísticas que podem ser aplicadas para a obtenção dos valores da covariância, neste caso, a ferramenta que possibilita a geração de um matriz de covariância ou correlação amostral, é a ferramenta Covariância. Para usar a ferramenta Covariância começamos abrindo o menu [Ferramentas]/ [Análise de dados] /[Covariância] que gera uma caixa de diálogo onde deveremos definir a matriz a ser utilizada. (Figura 1) 9 Figura 3: caixa de diálogo para covariância no Excel Figura 4: Matriz de covariância 2.3. AUTOVALORES E AUTOVETORES O próximo passo será encontrar os valores dos autovalores e autovetores associados a Matriz de Covariância. Para isso iremos partir da equação característica utilizando a matriz de Covariância: |S-λI|=0 10 (0,058-λ). (0,086 –λ) – (-0,034) ² = 0 (Equação Característica). Através da equação característica acima destacada e usando-se o Teorema de Baskara, chegamos nos autovalores: λ1= 0,13457 λ2= 0,00843 Precisamos agora encontrar os autovetores associados aos autovalores encontrados e normaliza-los. Para: λ1=0,00843 temos: 0,058 -0,034 X11 = 0,0084 X11 -0,034 0,086 X12 X12 0,058x11 - 0,034x12 = 0,1346x11 (i) -0,034x11 + 0,086x12 = 0,1346x11 (ii) (i) -0,77x11 - 0,034x12 = 0 x11 = 0,034x12/0,77 x11 = 0,044 x12 Autovetor Autovetor normalizado 11 Para: λ2=0,00843 temos: 0,058 -0,034 X11 = 0,0084 X11 -0,034 0,086 X12 X12 0,058x11 - 0,034x12 = 0,1346x11 = 0,00843x11 (i) -0,034x11 + 0,086x12 = 0,1346x11 0,00843x12 (ii) (i) 0,04966x11 = 0,034x12 x11 = 0,034x11 / 0,04966 x11 = 0,685 x12 Autovetor Autovetor normalizado 2.4. DETERMINAÇÃO DOS COMPONENTES PRINCIPAIS Com os autovetores normalizados, é possível identificar quais são as componentes principais da equação. Para tanto, temos: Y1 = 0,04*x1 + 0,99*x2 Y2 = 0,57*x1 + 0,83*x2 Vale lembrar que a primeira variável é a marca Vigor e a segunda Danone. 12 2.5. PERCENTUAL DE VARIÂNCIA TOTAL EXPLICADA PELOS COMPONENTES PRINCIPAIS Tendo-se as equações dos componentes principais, é necessário calcular qual entre elas é a ideal para utilizarmos para a elaboração do ranking de importância entre os aspectos abordados para a avaliação geral do consumidor para as duas marcas. Claro que pode-se utilizar ambas as variáveis, mas, para diminuir trabalho quase que desnecessário, será usado apenas uma componente. Deste modo, foi-se utilizado os autovalores divididos pela soma da diagonal principal da matriz de covariância multiplicado por 100%. Os resultados obtidos foram: Y1: 92,06% Y2: 7,94% Sendo assim, fica evidente que a componente principal a ser utilizada seria a y1, pois consegue explicar muito mais os dados que a componente y2. 2.6. CORRELAÇÃO DOS COMPONENTES Um método para avaliarmos se a análise anterior condiz com a realidade, é avaliar por meio da correlação dos componentes para verificarmos se eles realmente são melhor explicados em y1. Correlação Variável x Componente Percentual r y1x1 6,109450376 r y1x2 123,8535613 r y2x1 14,26819789 r y2x2 25,99235711 13 Conforme a tabela acima, o pressuposto condiz com a realidade e continuaremos a usar a componente principal y1. 2.7. ESCORES DOS ASPECTOS Por fim, como objetivo do trabalho, está parte tem como finalidade verificar quais dos cinco aspectos destacados na introdução são os principais para a percepção geral de qualidade para o cliente. Chegou-se aos seguintes escores por variáveis: VARIÁVEIS ESCORES AROMA 3,66 CONSISTENCIA 3,19 COR 4,08 DOÇURA 3,48 SABOR 3,40 RESIDUO DE SABOR 3,28 14 3. CONCLUSÃO Após a análise dos escores encontrados, podemos classificar a importância de cada item em uma hierarquia para o cliente na visão da qualidade geral do produto, deste modo: POSIÇÃO VARIAVEL 1º COR 2º AROMA 3º DOÇURA 4º SABOR 5º RESÍDUO DE SABOR 6º CONSISTENCIA Através do ranking acima demonstrado, aspectos anteriores ao consumo como cor e aroma são até mesmo mais importante para o consumidor que aspectos percebíveis durante o consumo e posteriores ao consumo como o resíduo de sabor, por exemplo. Talvez o ditado popular que afirma que “a primeira impressão é a que vale”, tenha certa consistência após a conclusão do estudo acima. 15 4. REFERÊNCIAS