Logo Passei Direto
Buscar

Análise de componentes principais de um teste cego entre marcas de iogurte

Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

UNIVERSIDADE FEDERAL DE SÃO CARLOS 
CENTRO DE CIÊNCIAS EM GESTÃO E TECNOLOGIA 
CURSO DE ADMINISTRAÇÃO 
DISCIPLINA ESTATISTICA APLICADA 
 
 
 
 
Análise de componentes principais de um teste-cego entre duas 
marcas de iogurte: Danone e Vigor 
 
 
 
Professora: 
Dra. Monica Fabiana Bento Moreira Thiersch 
monicathiersch@ufscar.br 
 
Alunos: 
Alexandre Marcos Storti Filho 
Wesley da Silva Souza 
 
 
 
 
Sorocaba / SP 
2017 
3 
 
Sumário 
Sumário ................................................................................................................................ 3 
RESUMO ............................................................................................................................ 4 
INTRODUÇÃO .................................................................................................................. 4 
ANÁLISE DE COMPONENTES PRINCIPAIS ............................................................ 6 
1. DADOS COLETADOS ........................................................................................... 7 
2. MATRIZ DE COVARIÂNCIA OU CORRELAÇÃO AMOSTRAL ................. 8 
3. AUTOVETORES E AUTOVALORES ................................................................. 9 
 
Figura 1 Média de notas para cada atributo avaliado .......................................................... 8 
Figura 2 Estatísticas descritivas ........................................................................................... 8 
Figura 3 caixa de diálogo para covariância no Excel .......................................................... 9 
Figura 4 Matriz de covariância ............................................................................................ 9 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4 
 
Análise de componentes principais de um teste-cego entre duas 
marcas de iogurte: Danone e Vigor 
 
 
RESUMO 
 
Análise dos Componentes Principais (PCA) é uma das ferramentas mais utilizadas, 
que visa principalmente à redução do número de variáveis, eliminação de dados redundantes e 
facilitar a interpretação dos dados. Atualmente o desenvolvimento de experimentos que 
introduzam as principais ferramentas dessa área em nível de graduação é de grande importância. 
O trabalho presente tem como objetivo apresentar um experimento para ilustrar a aplicação do 
PCA na identificação de padrões existentes de 2 marcas de iogurte 
 
 
ABSTRACT 
 
Principal Component Analysis (PCA) is one of the most commonly used tools, which 
mainly aims at reducing the number of variables, eliminating redundant data and facilitating data 
interpretation. Currently the development of experiments that introduce the main tools of this 
area at the undergraduate level is of great importance. The present work aims to present an 
experiment to illustrate the application of PCA in the identification of existing patterns of two 
yogurt brands: Vigor and Danone. 
 
 
 
 
 
 
 
 
 
5 
 
Análise de componentes principais de um teste-cego entre duas 
marcas de iogurte: Danone e Vigor 
 
 
1. INTRODUÇÃO 
 
A extração de informações dos dados de um experimento normalmente envolve a 
análise de um considerável número de variáveis. Sendo que frequentemente apenas um pequeno 
o número destas variáveis apresentam maior importância, resultando em um grande conjunto de 
dados que podem ser redundantes ou que não apresentem relevância para o objetivo do 
experimento. 
 
A análise de componentes principais (PCA, do inglês Principal Component Analysis) 
é um dos principais métodos utilizados, onde seu objetivo é reduzir o número de dimensões do 
conjunto de dados sem a perda das informações relevantes, de modo a se obter um número menor 
de novas variáveis (componentes principais) que facilite a interpretação dos dados. O PCA pode 
propiciar, através de gráficos, a identificação da existência de padrões de similaridade existentes 
em dados de um conjunto das amostras analisadas. 
 
No primeiro semestre de 2017 foi realizado um teste cego no Campus de Sorocaba da 
UFSCAR com a finalidade de identificar as preferências dos alunos da universidade por algumas 
marcas de produtos onde foi-se realizado a pesquisa por diversos grupos com esta finalidade. 
 
Um dos testes-cego realizado foi de quatro marcas de iogurtes (Danone, Vigor, 
Matilat e Elegê) com a finalidade de identificar a preferência dos alunos sem a influência das 
ações de marketing adotadas pelas empresas fabricantes. Para tanto, foi usado a escala likert de 1 
a 5 em 6 variáveis: consistência, cor, doçura, sabor, aroma e resíduo de sabor. 
 
Foi-se verificado, por meio de análise gráfica apenas que a preferência dos mesmos 
foi pelo iogurte da marca Vigor. Este trabalho, tem por finalidade usar a Análise de Componentes 
Principais utilizados pela estatística aplicada para verificar quais são dos 6 aspectos descritos 
acima mais interferem na percepção de qualidade geral para o cliente e também apresentar um 
6 
 
experimento para ilustrar e introduzir a alunos de graduação o método de análise de componentes 
principais (PCA) para a análise multivariada de dados. 
 
Vale ressaltar que trabalho semelhante a esse será realizado para outra análise, porém 
com apenas dois aspectos da pesquisa: cor e aroma. E terá outro objetivo: constatar qual empresa, 
Vigor ou Danone, é a preferência dos consumidores. 
 
 
2. ANÁLISE DE COMPONENTES PRINCIPAIS 
 
O PCA é uma ferramenta estatística que, a partir de um determinado conjunto de 
dados, é capaz de condensar as informações mais relevantes em um número reduzido de novas 
variáveis. 
 Esse método está baseado na transformação das variáveis originais de uma matriz 
dados, onde as linhas representam as amostras e as colunas as variáveis, em novas variáveis não 
correlacionadas, chamadas componentes principais (PC, do inglês Principal Components), que 
são combinações lineares das variáveis originais. Quando o número de PC é significativamente 
menor que o número de variáveis inicial obtém-se uma redução substancial de informação, 
proporcionando uma melhor visualização do conjunto de dados através das PC. Sendo assim este 
método pode ser utilizado na redução de informações, para reconhecimento de padrões, na 
seleção de amostras, na construção de modelos para calibração multivariada, entre diversas outras 
aplicações. 
O cálculo utilizado na PCA baseia-se na decomposição de uma matriz qualquer “X” 
em um produto de duas matrizes menores T e P, conforme expresso pela equação: 
 
 
Sendo X a matriz original com n linhas e m colunas; T a matriz escores com n linhas 
e d colunas (número de PC escolhido), P T a transposta da matriz de pesos com m colunas e d 
linhas e E a matriz de resíduos que contém a fração da informação não é modelado/explicado 
pelas PC. 
7 
 
A matriz de pesos é onde se encontra a relevância das variáveis originais em cada PC, 
onde cada elemento de P é matematicamente igual ao cosseno do ângulo entre o eixo da cada 
variável original e a PC. A matriz de escores representa a disposição das amostras no espaço das 
PC, isto é, a projeção dos pontos experimentais nos eixos definidos pelas PC. 
 
Como falado na introdução, este estudo terá como finalidade a avaliação de duas 
marcas de iogurte e será usado o método descrito acima como referência para atingirmos o 
objetivo proposto. Para tanto, faz-se necessário alguns cálculos que, em resumo, são: 
 Dados coletados; 
 Cálculo da média e desvio padrão amostral; 
 Matriz de covariância; 
 Autovalores; 
 Autovetores; 
 Autovetores Normalizados; Determinação de componentes principais; 
 Percentual de variância total explicada pelos componentes; 
 Correlação dos componentes; e 
 Escores. 
 
 
2.1. DADOS COLETADOS 
 
De início, para obter os dados, utilizamos um teste cego aplicado no semestre 
anterior, para obtermos os dados. Com isso, conseguimos angariara média de notas para os 
atributos: aroma, sabor, consistência, cor, doçura, resíduo de sabor e intenção de compra. 
 
 
 
 
 
 
 
8 
 
VARIAVEIS VIGOR DANONE 
AROMA 3,78 3,55 
CONSISTENCIA 4,07 3,06 
COR 3,53 3,98 
DOÇURA 3,73 3,36 
SABOR 3,93 3,27 
RESIDUO DE SABOR 3,36 3,18 
Figura 1: Média de notas para cada atributo avaliado 
 
 
Figura 2: Estatísticas descritivas 
 
2.2. MATRIZ DE COVARIÂNCIA OU CORRELAÇÃO AMOSTRAL 
 
O Excel tem diversas funções estatísticas que podem ser aplicadas para a obtenção 
dos valores da covariância, neste caso, a ferramenta que possibilita a geração de um matriz de 
covariância ou correlação amostral, é a ferramenta Covariância. 
Para usar a ferramenta Covariância começamos abrindo o menu [Ferramentas]/ 
[Análise de dados] /[Covariância] que gera uma caixa de diálogo onde deveremos definir a matriz 
a ser utilizada. (Figura 1) 
 
9 
 
 
Figura 3: caixa de diálogo para covariância no Excel 
 
 
 
Figura 4: Matriz de covariância 
 
 
2.3. AUTOVALORES E AUTOVETORES 
 
O próximo passo será encontrar os valores dos autovalores e autovetores associados a 
Matriz de Covariância. 
 
Para isso iremos partir da equação característica utilizando a matriz de Covariância: 
 
|S-λI|=0 
 
10 
 
 
(0,058-λ). (0,086 –λ) – (-0,034) ² = 0 (Equação Característica). 
 
Através da equação característica acima destacada e usando-se o Teorema de Baskara, 
chegamos nos autovalores: 
 
λ1= 0,13457 
λ2= 0,00843 
 
 
Precisamos agora encontrar os autovetores associados aos autovalores encontrados e 
normaliza-los. 
 Para: λ1=0,00843 temos: 
 0,058 -0,034 
 
X11 
= 
0,0084 X11 
 
 
 -0,034 0,086 
 
X12 
 
X12 
 
 
 
 
 
 0,058x11 - 0,034x12 = 0,1346x11 
 
(i) 
 
 
 -0,034x11 + 0,086x12 = 0,1346x11 
 
(ii) 
 
 
 
 
 
 (i) -0,77x11 - 0,034x12 = 0 
 
 
 x11 = 0,034x12/0,77 
 
 
 x11 
 
= 0,044 x12 
 
 
 
 
 
 
 
 
 
 
 Autovetor 
 
 
 
 
 
 
 
 
 
 
 
 
 
Autovetor normalizado 
 
 
 
 
 
 
 
11 
 
 Para: λ2=0,00843 temos: 
 0,058 -0,034 
 
X11 
= 
0,0084 X11 
 
 
 -0,034 0,086 
 
X12 
 
X12 
 
 
 
 
 
 
 
 
 
 0,058x11 - 
0,034x12 = 
0,1346x11 
 
= 0,00843x11 (i) 
 
 
 
 -0,034x11 + 0,086x12 
= 0,1346x11 0,00843x12 (ii) 
 
 
 
 
 
 (i) 0,04966x11 = 0,034x12 
 
 
 
x11 = 0,034x11 / 
0,04966 
 
 
 x11 
 
= 0,685 x12 
 
 
 
 
 
 
 
 
 
 
 Autovetor 
 
 
 
 
 
 
 
 
 
 
 
 
 
Autovetor normalizado 
 
 
 
 
 
 
 
 
 
2.4. DETERMINAÇÃO DOS COMPONENTES PRINCIPAIS 
 
Com os autovetores normalizados, é possível identificar quais são as componentes 
principais da equação. 
 
Para tanto, temos: 
 Y1 = 0,04*x1 + 0,99*x2 
 Y2 = 0,57*x1 + 0,83*x2 
 
Vale lembrar que a primeira variável é a marca Vigor e a segunda Danone. 
12 
 
2.5. PERCENTUAL DE VARIÂNCIA TOTAL EXPLICADA PELOS 
COMPONENTES PRINCIPAIS 
 
Tendo-se as equações dos componentes principais, é necessário calcular qual entre 
elas é a ideal para utilizarmos para a elaboração do ranking de importância entre os aspectos 
abordados para a avaliação geral do consumidor para as duas marcas. 
 
Claro que pode-se utilizar ambas as variáveis, mas, para diminuir trabalho quase que 
desnecessário, será usado apenas uma componente. 
 
Deste modo, foi-se utilizado os autovalores divididos pela soma da diagonal principal 
da matriz de covariância multiplicado por 100%. 
 
Os resultados obtidos foram: 
 Y1: 92,06% 
 Y2: 7,94% 
 
Sendo assim, fica evidente que a componente principal a ser utilizada seria a y1, pois 
consegue explicar muito mais os dados que a componente y2. 
 
 
2.6. CORRELAÇÃO DOS COMPONENTES 
 
Um método para avaliarmos se a análise anterior condiz com a realidade, é avaliar 
por meio da correlação dos componentes para verificarmos se eles realmente são melhor 
explicados em y1. 
 
Correlação Variável x Componente Percentual 
r y1x1 6,109450376 
r y1x2 123,8535613 
r y2x1 14,26819789 
r y2x2 25,99235711 
13 
 
Conforme a tabela acima, o pressuposto condiz com a realidade e continuaremos a 
usar a componente principal y1. 
 
 
2.7. ESCORES DOS ASPECTOS 
 
Por fim, como objetivo do trabalho, está parte tem como finalidade verificar quais dos 
cinco aspectos destacados na introdução são os principais para a percepção geral de qualidade 
para o cliente. 
 
Chegou-se aos seguintes escores por variáveis: 
 
VARIÁVEIS ESCORES 
AROMA 3,66 
CONSISTENCIA 3,19 
COR 4,08 
DOÇURA 3,48 
SABOR 3,40 
RESIDUO DE SABOR 3,28 
 
 
 
 
 
 
 
 
 
 
 
 
14 
 
3. CONCLUSÃO 
 
Após a análise dos escores encontrados, podemos classificar a importância de cada 
item em uma hierarquia para o cliente na visão da qualidade geral do produto, deste modo: 
 
POSIÇÃO VARIAVEL 
1º COR 
2º AROMA 
3º DOÇURA 
4º SABOR 
5º RESÍDUO DE SABOR 
6º CONSISTENCIA 
 
Através do ranking acima demonstrado, aspectos anteriores ao consumo como cor e 
aroma são até mesmo mais importante para o consumidor que aspectos percebíveis durante o 
consumo e posteriores ao consumo como o resíduo de sabor, por exemplo. 
 
Talvez o ditado popular que afirma que “a primeira impressão é a que vale”, tenha 
certa consistência após a conclusão do estudo acima. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
15 
 
4. REFERÊNCIAS

Mais conteúdos dessa disciplina