tese leila benitez
254 pág.

tese leila benitez


DisciplinaGeologia7.707 materiais60.675 seguidores
Pré-visualização50 páginas
que sintetizem a informação contida nos dados 
originais. 
Alguns métodos utilizados para analisar variáveis quantitativas são: análise de 
componentes principais, análise fatorial e análise de cluster. Já para as variáveis qualitativas, 
são utilizados análise de correspondência, teste Qui-Quadrado para testar associação de 
variáveis e, entre outros. 
 
1.3.5.1 - Análise de Correspondência 
 
Neste trabalho será utilizada a análise de correspondência para o tratamento dos 
dados. A análise de correspondência (AC) é uma técnica de análise de dados adequada para 
analisar tabelas com duas ou mais variáveis cruzadas levando em conta algumas medidas de 
correspondência entre linhas e colunas. 
De acordo com Mingoti (2005), os primeiros artigos que introduzem noções de 
análise de correspondência foram escritos em 1933. Vários trabalhos foram publicados nos 
anos posteriores, mas uma melhor formalização da metodologia foi proposta por Benzécri 
(1960) para estudar tabelas de contingência em linguística. A partir de 1975 a técnica foi 
difundida, sendo utilizada em diversas áreas do conhecimento, com publicações em diversos 
idiomas. 
 8
Mais do que simplesmente mostrar se existe associação entre duas (ou mais) 
variáveis, a AC explica como essas variáveis estão relacionadas através de suas respectivas 
categorias. 
A AC possui diversos aspectos que a distingue de outras técnicas de análise de 
dados. Sua natureza multivariada permite revelar relações que não seriam detectadas em 
comparações dos pares de variáveis. Além disso, este tipo de análise é altamente flexível 
quanto a pressuposições sobre os dados: o único requisito é o de uma matriz retangular com 
entradas não negativas. A AC é mais efetiva se a matriz de dados é bastante grande, de modo 
que a inspeção visual ou análise estatística simples não consegue revelar sua estrutura. 
 
1.3.5.2 - Formulação Matemática 
 
A forma mais simples de AC é sua aplicação a uma tabela de contingência de 
dupla entrada, que é denominada análise de correspondência simples. Além desse tipo de 
análise, existe também a análise de correspondência múltipla, que não é utilizada neste 
trabalho. De um modo geral, uma tabela de contingência i x j é do tipo. 
 
 Y 
 1 2 . . . J Total 
 1 n11 N12 . . . n1j n1+
 2 n21 N22 . . . n2j n2+
X . . . . . . . . 
 . . . . . . . . 
 . . . . . . . . 
 I ni1 ni2 . . . nij np+
Total n+1 N+2 . . . n+j N 
 
sendo que: 
X é uma variável qualitativa com I categorias 
Y é uma variável qualitativa com J categorias 
nij é a frequência observada pela intersecção da i-ésima categoria da variável X com a j-ésima 
categoria da variável Y 
ni+ é a frequência total observada na i-ésima categoria de X 
n+j é a frequência total observada na j-ésima categoria de Y 
n é o total geral de frequências observadas. 
 9
 
O objetivo é estudar a associação entre as variáveis X e Y. De posse dos dados 
amostrais dispostos em uma tabela de contingência, observe as definições apresentadas a 
seguir: 
1) Matriz de correspondências: é a matriz P, de dimensão i x j constituída das 
proporções . 
2) Matriz de perfil das linhas: é a matriz diagonal, denotada por Dr, cujos 
elementos diagonais são iguais a . Os demais elementos são iguais 
a zero. 
3) Matriz de perfil das colunas: é a matriz diagonal, denotada por Dc, cujos 
elementos diagonais são iguais a . Os demais elementos são iguais 
a zero. 
Considera-se então a matriz . O número de coordenadas principais que 
será utilizado é calculado através do posto desta matriz, da seguinte forma: 
 O posto de uma matriz é o número de linhas (ou colunas) 
lineamente independentes. As duas primeiras coordenadas principais das linhas e das colunas 
são as mais representativas em termos da associação total que existe entre as variáveis X e Y. 
Entretanto, em alguns casos, pode-se usar mais de duas coordenadas principais para analisar 
os resultados obtidos. 
Os conceitos apresentados podem ser mais facilmente assimilados através de um 
exemplo simples, que será apresentado adiante. 
 
1.3.5.3 - Exemplo de Aplicação 
 
Conforme a Tabela 1 (exemplo adaptado e modificado de Mingoti (2005), na qual 
se tem n=257 diamantes classificados de acordo com as variáveis: forma (X), medida em 3 
categorias; e região de produção (Y), medida em 4 categorias. De acordo com a notação 
apresentada, n11 = 15 é o número de diamantes com forma geminada extraídos da Região A; 
n1+ = 135 é o número de diamantes com forma geminada e n+1 = 48 é o número de diamantes 
extraídos dessa região. 
 
 
 10
 
 
Tabela 1: Exemplo simulado de aplicação considerando-se \u201cforma dos diamantes\u201d e \u201cregião 
de produção\u201d. 
 
 Região 
Forma A B C D Total 
Geminado 15 27 50 43 135 
Irregular 25 37 12 8 82 
Agregado 8 13 9 10 40 
Total 48 77 71 61 257 
 
 
Aplicando a técnica de análise de correspondência, já mencionada anteriormente, 
temos os seguintes resultados: 
Matriz de correspondência: 
 
 
Matriz de perfil das linhas: 
 
 
Matriz de perfil das colunas: 
 
 
 
O número de coordenadas principais possível de ser obtido é igual a k = min (3-1, 4-1) 
= 2. Nas tabelas a seguir são mostrados os resultados obtidos para cada coordenada principal 
das linhas e das colunas. 
 
Tabela 2: Coordenadas principais das linhas, conforme exemplo de aplicação. 
 
 Coordenadas principais 
Perfil das linhas 1 2 
Geminado -0,351 0,014 
Agregado 0,543 0,021 
Irregular 0,013 -0,089 
 
 11
Tabela 3: Coordenadas principais das colunas, conforme exemplo de aplicação. 
 
 Coordenadas principais 
Perfil das colunas 1 2 
A 0,463 0,006 
B 0,375 -0,007 
C -0,366 0,051 
D -0,412 -0,055 
 
 
O software estatístico usado para realizar as análises fornece a informação de que os 
autovalores são respectivamente iguais a: 0,1596 e 0,0015. Desse modo, a inércia total é dada 
por: 0,1596 + 0,0015 = 0,1611. Em termos de contribuição, a primeira coordenada principal 
representa = 99,99% da inércia total e a segunda representa apenas 
 = 0,91%. 
 
O valor da estatística qui-quadrado para os dados da Tabela 1 é igual a: (tamanho da 
amostra)x(inércia total) = (257)x(0,1611) = 41,40. Esse valor qui-quadrado é o mesmo que 
seria obtido caso fosse realizado um teste para verificar a existência de associação entre a 
forma do diamante e região de produção. Ainda utilizando o software estatístico, é possível 
dizer que a 5% de significância, existe associação entre forma do diamante e região de 
produção (P-valor associado ao teste < 0,05). 
Analisando-se a Figura 2, é possível concluir que a linha 2 (ou seja, diamante com 
forma agregada) está mais associada às colunas 1 e 2 (regiões de produção A e B, 
respectivamente). A linha 1 (diamante com forma geminada) está mais associada às colunas 3 
e 4 (regiões de produção C e D, respectivamente); e a linha 3 (diamante com forma irregular) 
não está associada a nenhuma das categorias de forma do diamante, conforme observa-se na 
Figura 3. 
 
 
 
 12
 
Figura 3: Gráfico de análise de correspondência, resultante dos dados fornecidos, a partir dos 
exemplos aplicados conforme tabelas 1, 2 e 3. (Adaptado de Mingoti 2005). 
 
 
Além da análise de correspondência, para uma melhor compreensão, os dados 
foram tratados também com métodos estatísticos mais simples: 
 
1.3.5.4 - Estatística Descritiva 
 
Utilizou-se de estatística descritiva, através do método de distribuição e frequência 
das características intrínsecas aos diamantes, as quais constam na Figura 2. 
 
1.3.5.5 - Associação entre Variáveis 
 
A associação do comportamento de uma variável em relação à