Buscar

VALIDAÇÃO DE MODELOS BASEADOS EM RNA UTILIZANDO ANÁLISE ESTATÍSTICA DE DADOS E LÓGICA FUZZY

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 124 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 124 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 124 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

RODRIGO LEITE DURÃES
VALIDAÇÃO DE MODELOS BASEADOS EM
RNA UTILIZANDO ANÁLISE ESTATÍSTICA DE
DADOS E LÓGICA FUZZY
Belo Horizonte – MG
Outubro de 2009
RODRIGO LEITE DURÃES
VALIDAÇÃO DE MODELOS BASEADOS EM
RNA UTILIZANDO ANÁLISE ESTATÍSTICA DE
DADOS E LÓGICA FUZZY
Dissertação apresentada ao Curso de
Mestrado em Modelagem Matemática
e Computacional do Centro Federal de
Educação Tecnológica de Minas Gerais,
como requisito parcial à obtenção do título
de Mestre em Modelagem Matemática e
Computacional.
Área de concentração: Sistemas
Inteligentes
Modelagem Matemática e Computacional
Orientador:
Prof. Dr. Paulo Eduardo Maciel de Almeida
CEFET-MG
MESTRADO EM MODELAGEM MATEMÁTICA E COMPUTACIONAL
CENTRO FEDERAL DE EDUCAÇÃO TECNOLÓGICA DE MINAS GERAIS
DIRETORIA DE PESQUISA E PÓS-GRADUAÇÃO
Belo Horizonte – MG
Outubro de 2009
Durães, Rodrigo Leite, 1978-
D947v Validação de Modelos Baseados em RNA Utilizando Análise Estatística
de Dados e Lógica Fuzzy / Rodrigo Leite Durães - Belo Horizonte: CEFET-
MG, 2009.
123f. : il.
Inclui Bibliografia.
Dissertação (Mestrado em Modelagem Matemática e Computacional)
- Centro Federal de Educação Tecnológica de Minas Gerais
Orientador: Paulo Eduardo Maciel de Almeida.
1 - Inteligência computacional. 2 - Redes neurais artificiais. 3 -
Lógica fuzzy. 4 - Estatística. I. Almeida, Paulo Eduardo Maciel de II.
Centro Federal de Educação Tecnológica de Minas Gerais III. Título
CDU 621.7.04
Folha de aprovação. Esta folha será fornecida
pelo Programa de Pós-Graduação e deverá substituir esta.
Aos meus pais,
Sérgio e Idalice.
Agradecimentos
Agradeço a todas as pessoas que direta e indiretamente contribuíram para a rea-
lização deste trabalho.
A Deus por ter me dado a saúde e a fé necessários para a conclusão de mais uma
jornada.
Aos meus pais: Sérgio Alberto Oliveira Durães e Idalice de Magalhães Leite, que
tanto me apoiaram nesse processo e em todos os momentos de minha vida.
Ao meu orientador Prof. Dr. Paulo Eduardo Maciel de Almeida por ter acredi-
tado em meu trabalho, pelo incentivo, conselhos e críticas, os quais permitiram meu
crescimento pessoal e profissional.
Ao Centro Federal de Educação Tecnológica de Minas Gerais (CEFET-MG) por
participar, da minha formação acadêmica e pessoal.
Aos professores e colegas do Grupo de Pesquisa em Sistemas Inteligentes - GPSI.
Ao Laboratório de Sistemas Inteligentes do CEFET-MG (LSI) pelo apoio e infra-
estrutura fornecidos.
À todos os meus professores. Sem eles este trabalho não teria sido possível.
Agradeço à direção, coordenação, funcionários e estagiários do Mestrado em Mo-
delagem Matemática e Computacional e da Diretoria de Pesquisa e Pós-Graduação
do CEFET-MG.
A todos os amigos e colegas que me incentivaram.
A todos vocês, meus sinceros agradecimentos.
“Se não há troca de idéias,
elas se tornam inúteis.
Divulgá-las é o que as torna fortes.”
Linus Benedict Torvalds
Resumo
Atualmente, a Inteligência Computacional (IC) e em particular as Redes Neurais Ar-
tificiais (RNA) são muito usadas para modelagem de problemas em várias áreas de
aplicação. Porém, na maioria dos trabalhos publicados, os autores não se aprofundam
na discussão da qualidade estatística dos dados históricos usados para treinamento
das RNA. A análise estatística utilizada como ferramenta para validar e melhorar os
modelos obtidos com técnicas de IC não é muito abordada pelos trabalhos da área.
Este trabalho aplica técnicas estatísticas em conjunto com técnicas de IC para aumen-
tar a qualidade de modelos baseados em IC. Em linhas gerais, objetiva-se demonstrar
a importância da qualidade dos dados para o desempenho de modelos que utilizam
RNA. Especificamente, é analisado um modelo térmico na produção de aço, é verifi-
cada a confiabilidade dos dados, a correlação das variáveis de entrada e saída, entre
outros, e filtrados os dados com base na aplicação conjunta de métodos estatísticos
e lógica fuzzy. Os resultados obtidos são comparados com técnicas convencionais
de pré-processamento de dados para modelagem com RNA para solução do mesmo
problema. Mostra-se que a utilização da análise estatística em conjunto com a lógica
fuzzy é promissora para o refinamento de modelos baseados em RNA, para a classe
de problemas abordada.
PALAVRAS-CHAVE: inteligência computacional (IC); redes neurais artificiais (RNA);
estatística; lógica fuzzy.
Abstract
Currently, Computational Intelligence (CI) and in special Artificial Neural Networks
(ANN) have been largely used for the modeling of problems applied in several diffe-
rent areas. However, in most of the published work in this field, the authors have not
focus on a deeper discussion about the statistical quality of the historical data used on
their ANN training. Indeed the statistical analysis which is used as tool to validate and
improve the models obtained by CI techniques is not highlighted on the studies of this
area. Therefore, this work underlines the application of statistical and CI techniques
together, in order to increase the quality of CI models. In summary, the objective of
this work is to demonstrate the importance of the data quality to the performance of
models that use ANN. In addition, a thermal model is examined when applied on the
production of steel. In this application the reliability of the used data, and the corre-
lation of input and output variables are verified, and also data is filtered based on the
joint application of statistical methods and fuzzy logic. Achieved results are compared
with ANN techniques conventional used to solve the same problem. Finally, it is shown
statistical analysis and fuzzy logic, when applied together, are a promising technique
for the refinement of models based on ANN, for the studied problem class.
KEY–WORDS: Computational Intelligence (CI); Artificial Neural Networks (ANN); sta-
tistics; fuzzy logic.
Lista de Figuras
2.1 Função linear. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 33
2.2 Função tangente sigmoidal. . . . . . . . . . . . . . . . . . . . . . . . . p. 34
2.3 Função logarítmica sigmoidal. . . . . . . . . . . . . . . . . . . . . . . . p. 34
2.4 Forma equivalente do teste F. . . . . . . . . . . . . . . . . . . . . . . . p. 55
2.5 Diagrama de Hassi-Euler: gráfico da função de pertinência fuzzy (AL-
MEIDA, 2008). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 63
3.1 Técnicas de tratamento estatístico propostas e implementadas neste
trabalho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 67
3.2 Técnicas de tratamento estatístico propostas e implementadas neste
trabalho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 75
3.3 Modelo Fuzzy de Sugeno para avaliação da qualidade. . . . . . . . . p. 76
3.4 Partição fuzzy de entrada CP. . . . . . . . . . . . . . . . . . . . . . . . p. 76
3.5 Partição fuzzy de entrada CPK. . . . . . . . . . . . . . . . . . . . . . . p. 77
3.6 Partição fuzzy de entrada IQRnorm. . . . . . . . . . . . . . . . . . . . p. 77
3.7 Partição fuzzy de saída Qualidade. . . . . . . . . . . . . . . . . . . . . p. 78
3.8 Representação gráfica de CP, CPK e Qualidade. . . . . . . . . . . . . p. 78
3.9 Representação gráfica de IQRnorm, CP e Qualidade. . . . . . . . . . p. 79
3.10 Representação gráfica de IQRnorm, CPK e Qualidade. . . . . . . . . p. 79
3.11 Sistema Fuzzy de Avaliação da Qualidade. . . . . . . . . . . . . . . . p. 80
3.12 Separação da base de dados filtrada em amostras. . . . . . . . . . . . p. 82
3.13 Escolha da RNA e do algoritmo de treinamento. . . . . . . . . . . . . p. 83
3.14 Treinamento, validação e teste de um modelo neural. . . . . . . . . . . p. 83
4.1 Gráfico de desempenho dos dados de treinamento de um modelo
neural. . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 106
4.2 Gráfico de desempenho dos dados de treinamento de um modelo
neural. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 107
Lista de Tabelas
2.1 Tipos de arquiteturas de RNA (ALMEIDA; SIMOES, 2003). . . . . . . p. 32
3.1 Avaliação da qualidade dos dados . . . . . . . . . . . . . . . . . . . . p. 80
3.2 Avaliação da qualidade dos dados . . . . . . . . . . . . . . . . . . . . p. 80
4.1 Experimentos de filtragem de dados: base 1 . . . . . . . . . . . . . . p. 88
4.2 Experimentos de filtragem de dados: base 2 . . . . . . . . . . . . . . p. 88
4.3 Experimentos de filtragem de dados: base 3 . . . . . . . . . . . . . . p. 89
4.4 Experimentos de filtragem de dados: base 4 . . . . . . . . . . . . . . p. 89
4.5 Experimentos de filtragem de dados com o coeficiente de correlação
parcial e PCA: base 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 90
4.6 Experimentos de filtragem de dados com o coeficiente de correlação
parcial e PCA: base 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 91
4.7 Experimentos de filtragem de dados com o coeficiente de correlação
parcial e PCA: base 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 91
4.8 Experimentos de filtragem de dados com o coeficiente de correlação
parcial e PCA: base 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 92
4.9 Experimentos de filtragem de dados com o coeficiente de correlação
de Spearman, Pearson, stepwise e PCA: base 1 . . . . . . . . . . . . p. 92
4.10 Experimentos de filtragem de dados com o coeficiente de correlação
de Spearman, Pearson, stepwise e PCA: base 2 . . . . . . . . . . . . p. 93
4.11 Experimentos de filtragem de dados com o coeficiente de correlação
de Spearman, Pearson, stepwise e PCA: base 3 . . . . . . . . . . . . p. 93
4.12 Experimentos de filtragem de dados com o coeficiente de correlação
de Spearman, Pearson, stepwise e PCA: base 4 . . . . . . . . . . . . p. 94
4.13 Resultados da RNA: etapa de treinamento relativa à base 3 . . . . . . p. 97
4.14 Resultados da RNA: etapa de validação relativa à base 3 . . . . . . . p. 97
4.15 Resultados da RNA: etapa de teste relativa à base 3 . . . . . . . . . . p. 98
4.16 Resultados da RNA: etapa de treinamento relativa à base 4 . . . . . . p. 99
4.17 Resultados da RNA: etapa de validação relativa à base 4 . . . . . . . p. 99
4.18 Resultados da RNA: etapa de teste relativa à base 4 . . . . . . . . . . p. 100
4.19 Hipóteses alternativas do teste z. . . . . . . . . . . . . . . . . . . . . . p. 104
4.20 Comparação de resultados. . . . . . . . . . . . . . . . . . . . . . . . . p. 105
Lista de Códigos Fontes
2.1 Regras Fuzzy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 63
2.2 Regras de um modelo Fuzzy. . . . . . . . . . . . . . . . . . . . . . . . p. 63
2.3 Regras de um modelo Fuzzy TSK. . . . . . . . . . . . . . . . . . . . . p. 64
3.1 Código SQL para consulta de inconsistências. . . . . . . . . . . . . . p. 71
3.2 Código SQL para consulta de inconsistências. . . . . . . . . . . . . . p. 71
3.3 Código SQL para redução de dados. . . . . . . . . . . . . . . . . . . . p. 73
3.4 Código SQL para redução de dados. . . . . . . . . . . . . . . . . . . . p. 73
3.5 Código SQL para redução de dados. . . . . . . . . . . . . . . . . . . . p. 73
3.6 Código SQL para seleção de dados válidos. . . . . . . . . . . . . . . . p. 74
A.1 Regras Fuzzy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 120
Lista de Abreviaturas e Siglas
AHP - Analytic Hierarchy Process
ANCOVA - Análise de Covariância
ANFIS - Adaptive Neuro-fuzzy Inference Systems
ANOVA - Analise of Variance
ARA - Algoritmos para Rank de Atributos
◦C - Graus Celsius
CEFET-MG - Centro Federal de Educação Tecnológica de Minas Gerais
CFS - Porcentagem de carbono no fim do sopro
CIB - Porcentagem de carbono in blow
CMAC - Cerebellar Model Articulation Controller
EQM - Erro quadrático médio
GPSI - Grupo de Pesquisas em Sistemas Inteligentes
GRADCOD - Código do Aço
HMTCGU1 - Percentual de Carbono do Gusa (%)
HMTMNGU1 - Percentual de Manganês do Gusa (%)
HMTPGU1 - Percentual de Fósforo do Gusa (%)
HMTSIGU1 - Percentual de Silício do Gusa (%)
HMTTEMGU1 - Temperatura do Gusa (oC)
HOTMETAL - Quantidade de Gusa (kg)
IC - Inteligência Computacional
IEQ - Intervalo entre o primeiro quartil e o terceiro quartil
IQR - InterQuantile Range
kg - Quilograma
LANAGE - Idade da Lança de Sopro
LIMAMO - Quantidade de Cal Calcítica (kg)
LIMDOLAMO - Quantidade de Cal Dolomítica (kg)
LM - Levenberg-Marquardt
LSI - Laboratório de Sistemas Inteligentes
LOGSIG - Função Sigmoidal Unipolar
MFe - Minério de ferro
MLP - Multi-Layer Perceptron
MSE - Mean Squares of Error
MST - Mean Squares for Treatments
NUMCORRIDA - Número da Corrida
Oxig - Oxigênio
OXYCUR - Volume de Oxigênio Soprado (m3)
PCA - Análise de Componentes Principais
PURELIN - Função Linear
RADBAS - Função de Base Radial
RBF - Radial Basis Function (Redes Neurais de Base Radial)
RNA - Redes Neurais Artificiais
R & R - Repetitividade e Reprodutibilidade
SCRTOTAMO - Quantidade Total de Sucata (kg)
SQL - Structured Query Language
SSE - Error Sum of Squares ou Sum of Squares Errors
SST - Total Sum of Squares ou Sum of Squares for Treatments
TANSIG - Função Sigmoidal Bipolar
TEMACT - Temperatura do Aço (oC)
TFS - Temperatura do aço no fim do sopro
TIB - Temperatura in blow
V & M - Vallourec & Mannesmann do Brasil
VESAGE - Idade do Vaso
Sumário
1 INTRODUÇÃO p. 20
1.1 RELEVÂNCIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 20
1.2 ESTADO DA ARTE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 21
1.3 CARACTERIZAÇÃO DO PROBLEMA . . . . . . . . . . . . . . . . . . p. 26
1.4 MOTIVAÇÃO E OBJETIVOS . . . . . . . . . . . . . . . . . . . . . . . p. 27
1.5 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 27
1.6 ORGANIZAÇÃO DA DISSERTAÇÃO . . . . . . . . . . . . . . . . . . . p. 29
2 REFERENCIAL TEÓRICO p. 31
2.1 REDES NEURAIS ARTIFICIAIS . . . . . . . . . . . . . . . . . . . . . p. 31
2.1.1 Redes Multi-Layer Perceptron - MLP . . . . . . . . . . . . . . . p. 32
2.1.2 Redes de Elman . . . . . . . . . . . . . . . . . . . . . . . . . . p. 38
2.2 ESTATÍSTICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 38
2.2.1 Análise de Componentes Principais . . . . . . . . . . . . . . . p. 39
2.2.2 As Medidas de Semelhança . . . . . . . . . . . . . . . . . . . p. 46
2.2.3 Correlação por Posto . . . . . . . . . . . . . . . . . . . . . . . p. 48
2.2.4 Correlação Parcial . . . . . . . . . . . . . . . . . . . . . . . . . p. 49
2.2.5 Intervalo entre Q1 e Q3 . . . . . . . . . . . . . . . . . . . . . . p. 49
2.2.6 Teste de Proficiência . . . . . . . . . . . . . . . . . . . . . . . . p. 51
2.2.7 Redução de Dados Utilizando Algoritmos para Ranking de Atri-
butos (ARA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 51
2.2.8 Análise de Variância - ANOVA . . . . . . . . . . . . . . . . . . p. 52
2.2.9 Teste F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 53
2.2.10 Teste Cochran . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 55
2.2.11 Análise Discriminante . . . . . . . . . . . . . . . . . . . . . . . p. 56
2.2.12 Índice de Capacidade (CP) . . . . . . . . . . . . . . . . . . . . p. 59
2.2.13 Índice de Capacidade K (CPK) . . . . . . . . . . . . . . . . . . p. 60
2.3 LÓGICA FUZZY . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 61
2.3.1 Modelo de Takagi-Sugeno-Kang . . . . . . . . . . . . . . . . . p. 64
2.4 DISCUSSÕES FINAIS . . . . . . . . . . . .. . . . . . . . . . . . . . . p. 64
3 DETALHAMENTO DA PROPOSTA DE REFINAMENTO DE MODELOS
BASEADO EM TÉCNICAS ESTATÍSTICAS p. 66
3.1 CONSIDERAÇÕES INICIAIS . . . . . . . . . . . . . . . . . . . . . . . p. 66
3.2 PROPOSTA GERAL DE REFINAMENTO ESTATÍSTICO . . . . . . . . p. 66
3.3 EXPLORAÇÃO DO ESPAÇO SOLUÇÃO . . . . . . . . . . . . . . . . p. 67
3.4 INSTRUMENTOS DE ANÁLISE E FILTRAGEM DE DADOS . . . . . . p. 69
3.5 PRÉ-PROCESSAMENTO DA BASE DE DADOS . . . . . . . . . . . . p. 69
3.5.1 Seleção e Tratamento de Dados . . . . . . . . . . . . . . . . . p. 70
3.6 DISCUSSÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 83
4 EXPERIMENTOS E AVALIAÇÃO DOS RESULTADOS p. 85
4.1 CONSIDERAÇÕES INICIAIS . . . . . . . . . . . . . . . . . . . . . . . p. 85
4.2 POPULAÇÃO E AMOSTRAS . . . . . . . . . . . . . . . . . . . . . . . p. 85
4.3 TRATAMENTO E ANÁLISE DOS DADOS . . . . . . . . . . . . . . . . p. 93
4.4 VALIDAÇÃO DO MODELO . . . . . . . . . . . . . . . . . . . . . . . . p. 100
4.5 COMPARAÇÃO DOS RESULTADOS . . . . . . . . . . . . . . . . . . . p. 104
4.6 LIMITAÇÕES DO MÉTODO . . . . . . . . . . . . . . . . . . . . . . . . p. 106
4.7 DISCUSSÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 108
5 CONCLUSÃO p. 109
5.1 CONTRIBUIÇÕES DESTE TRABALHO . . . . . . . . . . . . . . . . . p. 111
5.2 TRABALHOS FUTUROS . . . . . . . . . . . . . . . . . . . . . . . . . p. 112
Referências Bibliográficas p. 113
Apêndice A -- Banco de Conhecimento Fuzzy Empregado p. 120
20
1 INTRODUÇÃO
1.1 RELEVÂNCIA
A década de 1990 trouxe um crescente problema de supersaturação de dados
ao mundo da ciência, dos negócios e do governo (INMON, 1997), (INMON; WELCH;
GLASSEY, 1999) e (KIMBALL, 1996). A capacidade de coletar e armazenar dados
excedeu em muito a habilidade de analisar, sintetizar e extrair conhecimento desses
dados. Conforme a norma NBR ISO 9001:2000, capacidade é definida como a aptidão
de uma organização, sistema ou processo de realizar um produto que irá atender aos
requisitos especificados para este produto (NBR ISO 9001, 2000).
A preocupação com a qualidade é tão antiga quanto a própria humanidade. Desde
que o homem pré-histórico confeccionou o seu primeiro artefato, surgiu a preocupação
com a adequação do uso do produto às necessidades de quem o utiliza. Foi somente
com a introdução do conceito de produção em massa que a qualidade começou a ser
abordada sob uma ótica diferente. A qualidade é o atendimento das necessidades
dos clientes de forma constante e consistente (BAPTISTA, 1996), (IMAM, 2004) e
(RAMOS, 2000).
Processos industriais normalmente são caracterizados por inúmeros fenômenos
que, se tratados individualmente, não descrevem com precisão a modelagem como
um todo, e a interação de vários fenômenos num mesmo processo leva a um alto nível
de complexidade de modelagem. Segundo Cunha (2001), os conhecidos problemas
de variação dos resultados de qualidade de matérias-primas e do produto adicionam
ainda maiores dificuldades de validação de modelos matemáticos para um sistema
complexo. Com base na norma NBR ISO 9001:2000, define-se processo como um
conjunto de atividades inter-relacionadas ou interativas que transformam insumos (en-
tradas) em produtos (saídas) (NBR ISO 9001, 2000).
Quando a complexidade do processo excede um determinado grau, os modelos
1.2 ESTADO DA ARTE 21
matemáticos não apenas se tornam intratáveis, como também sua precisão e con-
fiabilidade relativas à realidade física se tornam questionáveis. Porém, as diversas
simplificações feitas por causa das limitações físicas, torna contraditório a busca cada
vez maior de precisão na modelagem matemática.
Como alternativa à modelagem rigorosa de processo tem-se a implantação de
redes neurais artificiais. Segundo (MEIRELES; ALMEIDA; SIMOES, 2003), as RNA
(redes neurais artificiais) têm se mostrado um campo vasto para pesquisa aplicada.
Estas técnicas de simulação têm se mostrado uma importante ferramenta para análise
de sistemas complexos.
1.2 ESTADO DA ARTE
As RNA, os sistemas fuzzy e as técnicas estatísticas, que serão discutidos no
Capítulo 2, vêm hoje sendo utilizados em modelagem e reconhecimento de padrões,
dentre outros. A seguir são descritos alguns trabalhos relacionados à aplicação destas
técnicas na modelagem de sistemas:
No trabalho de Meireles, Almeida e Simoes (2003) é estudado o avanço das pes-
quisas em RNA e é destacado que o objetivo das mesmas foi progressivamente mu-
dando, da construção de uma máquina que mimetizasse o comportamento do cérebro,
para a busca de uma máquina que efetivamente aprendesse. Este trabalho é impor-
tante para o entendimento da técnica de RNA.
Ribeiro et al. (2005) propõem uma comparação entre duas metodologias, a de
RNA e o modelo de regressão (MR), para estimar profundidades batimétricas a partir
de imagens. Este trabalho é relevante porque caracteriza as duas metodologias.
O trabalho de Fernandes, Navaux e Portugal (1996) possui um duplo objetivo: por
um lado, o modelo de RNA é apresentado dando destaque às suas características
estatísticas; e, por outro, são apresentados dois exercícios de previsão empíricos nos
quais se tenta comparar o desempenho das RNA e do modelo de séries de tempo
estrutural, que pertence à classe dos modelos de decomposição em componentes
não-observáveis. Os modelos econométricos tradicionais são usados para fornecer
uma base inicial para a determinação da arquitetura da RNA. Os resultados mostram
que, para as previsões um passo à frente, não é possível discriminar inequivocamente
a favor de um dos modelos; contudo, para previsões com horizontes de tempo mais
1.2 ESTADO DA ARTE 22
longos, a RNA apresenta maior capacidade preditiva. O trabalho é pertinente porque
mostras as semelhanças entre a estatística e as RNA.
Moraes e Silveira (2006) apresentam o processo de gestão de perdas não-técnicas
na ELEKTRO, em busca da excelência no desempenho operacional utilizando estudos
estatísticos, redes neurais e árvores de decisão. O que contribui para a escolha dos
métodos aqui utilizados.
Colombo, Guerra e Aguayo (2006) aplicam técnicas e ferramentas de extração
automático e inteligente de conhecimento a base de dados relacional na avaliação
da qualidade de produtos de software usando diferentes técnicas e ferramentas de:
preparação de dados (estatística, teoria da informação), análises inteligente de dados
(estatística, visualização de dados, inteligência artificial), sistemas de bases de dados
(base de dados relacional, sistema gerenciador de banco de dados). Estas diferentes
técnicas auxiliaram na abordagem que foi utilizada.
Toyoshima et al. (2003) fizeram um estudo sobre aglomerações industriais brasi-
leiras, mais especificamente, as do Rio Grande do Sul e as de São Paulo, procurando
verificar se há diferenças relevantes em relação ao desenvolvimento de municípios
que possuem grande concentração em uma ou poucas indústrias, daquelas que di-
versificam mais a produção industrial ou possuem pouca atividade industrial. Para
isso foram utilizadas duas técnicas diferentes de classificação de grupos - a análise
multivariada discriminante e a de redes neurais. Estas duas técnicas foram utilizadas.
O trabalho de Costa (2009) apresenta uma aplicação da metaheurística Otimiza-
ção por Enxame de Partículas (Particle Swarm Optimization - PSO) na identificação
de pontos influentes em modelos de regressão. Foi utilizada, como função objetivo,
a função de sensibilidade de casos gCook(E) que tem comportamento multimodal.
A eficiência da metodologia proposta foi testada em conjuntos de dados simulados
e em um conjunto com dados observados. Os resultados obtidos mostram que esta
metodologia apresenta soluções satisfatórias na identificaçãode pontos influentes. O
trabalho auxiliou no tratamento de dados suspeitos.
Nos trabalhos de Zarate, Paoliello e Ribeiro (2003b) e Zarate, Paoliello e Ribeiro
(2003a) é aplicada a metodologia KDD (Knowledge Discovery in Databases) utilizando
técnicas de clusterização em Data Mining para identificar grupos com condições de
operação e características que permita auxiliar nos procedimentos de manutenção de
um motor de combustão. Zarate (2003) mostra a aplicação de Data Mining em bases
de dados com dados suspeitos. Este trabalho auxiliou na escolha da metodologia aqui
1.2 ESTADO DA ARTE 23
aplicada.
No trabalho de Oliveira (2003) é apresentada uma introdução à Descoberta de Co-
nhecimento em Banco de Dados (KDD Knowledge Discovery in Database), desde os
conceitos de conhecimento e consciência, surgimento histórico, sua relação com ou-
tras áreas próximas ao KDD como DataWarehouse, Aprendizado de Máquina, Agente
de Conhecimento, entre outras. Também é discutido o conceito de DataMining, suas
etapas e suas mais comuns aplicações. O trabalho é importante porque apresenta
técnicas de processamento que são aqui utilizadas.
REIS JUNIOR (2005) propôs a modelagem térmica de um processo de laminação
de tubos da Vallourec & Mannesmann do Brasil (V&M). Para esta modelagem ele utili-
zou redes neurais artificiais Fuzzy-CMAC. Este algoritmo de treinamento é um método
de gradiente de 1a ordem. A variável de saída da rede era a temperatura. Os erros
de generalização obtidos com as redes fuzzy-CMAC e ANFIS (Adaptive Neuro-fuzzy
Inference Systems) equivalem respectivamente a 3,37 % e 3,78 % da média de tem-
peratura do laminador. Estes valores são próximos aos obtidos no treinamento, que
foram: 3,27 % para rede fuzzy-CMAC e 3,72 % para rede ANFIS. No entanto, o nú-
mero de parâmetros utilizado na rede fuzzy-CMAC era menor que da rede ANFIS. Na
rede MLP (Multi-Layer Perceptron), o erro de generalização obtido equivale a 7,53 %
da temperatura média do laminador. O valor de EQM (erro quadrático médio) para o
treinamento da MLP foi 7 % do valor da temperatura média. O problema apresentado
se assemelha ao problema que será modelado.
Os trabalhos existentes na área de Inteligência Computacional (IC) demonstram
um grande interesse no emprego das técnicas de Redes Neurais Artificiais (RNA)
para solução de problemas, porém em todos os trabalhos analisados, o pesquisador
apenas comparou as RNA com outros métodos, dentre eles a estatística, sem se apro-
fundar na discussão de uma possível utilização conjunta destes métodos. A análise
estatística de dados utilizada como ferramenta para validar os modelos obtidos é uma
área de pesquisa não muito abordada pelos trabalhos de IC.
Foi desenvolvido por Cunha (2001) um modelo dinâmico para o processo de refino
de aço via redes neurais artificiais. O mesmo utilizou o backpropagation, um algoritmo
de treinamento de primeira ordem (a derivada de primeira ordem na equação de atuali-
zação dos pesos que fazem conexão entre os neurônios da rede), e alcançou o acerto
simultâneo de 73,3 %. Para a simulação do modelo dinâmico de Cunha (2001) foram
consideradas 5.030 bateladas (filtradas de 15.000 bateladas) para treinamento e 200
1.2 ESTADO DA ARTE 24
bateladas para testes. São três conversores a oxigênio trabalhando continuamente,
resultando em aproximadamente 70 bateladas por dia. Cada conversor apresenta um
volume de 190 m3. Em cada batelada o conversor recebe uma carga total (gusa e
sucata) de 245 toneladas para produzir 220 toneladas de aço. As variáveis de en-
trada deste modelo são determinadas a partir da disponibilidade dos dados à época.
Desta forma são definidas quatro variáveis de entrada: a temperatura do banho me-
dida pela sublança (TIB - temperatura in blow), a porcentagem de carbono do banho
calculado pela temperatura de solidificação, pelo diagrama Fe-C, obtida pela amostra
da sublança (CIB - porcentagem de carbono in blow) e as quantidades de minério de
ferro (MFe) e de oxigênio (Oxig) determinadas pelo modelo vigente e implementadas
pelo operador para o restante do sopro. As variáveis de saída são: a porcentagem
de carbono (CFS) e a temperatura do aço (TFS) no período de fim de sopro. A es-
trutura de rede com a qual Cunha (2001) obteve o melhor resultado para o modelo
dinâmico foi uma rede feedforward multicamada, com duas camadas escondidas e
topologia 4x9x3x2 e 4x3x3x2. As funções de ativação utilizadas nos cálculos internos
dos neurônios são do tipo sigmoidal.
Pacianotto (2003) continuou o trabalho de Cunha (2001) usando somente a mo-
delagem dinâmica, ou seja, as saídas da rede que atuam diretamente no processo
utilizando um algoritmo de segunda ordem. Sua rede tinha como saídas o carbono e
a temperatura no fim de sopro. Foi atingido um percentual de acerto de 97,5 % dos
valores de temperatura e 90,6 % dos valores de carbono (para valores de carbono pró-
ximos a 0,04 %) nas bateladas processadas. O algoritmo de treinamento utilizado foi o
de Levenberg-Marquadt que é de segunda ordem. Ambos os trabalhos são relevantes
ao trabalho aqui apresentado.
Rocha e Souza (2004) propuseram a modelagem térmica de um processo de lami-
nação de tubos da Vallourec & Mannesmann do Brasil (V&M). Para esta modelagem
eles utilizaram redes neurais artificiais MLP e RBF (Radial Basis Function). A variá-
vel de saída da rede era a temperatura. Conseguiu-se chegar ao erro percentual de
0,57% com a rede MLP, considerando a temperatura média de saída igual a 850o. Este
trabalho possui relevância ao problema aqui tratado.
TECHSTEEL (2007) propôs a modelagem do processo de produção de aço da
Vallourec & Mannesmann do Brasil (V&M). Para esta etapa da modelagem foram uti-
lizados: análise do tipo e fonte dos dados disponíveis, condicionamento e avaliação
estatística dos dados, determinação das variáveis relevantes para definição do mo-
1.2 ESTADO DA ARTE 25
delo. Esta modelagem auxiliou na avaliação estatística aqui desenvolvida.
Dominguete et al. (2006) apresenta um novo modelo para a estimativa do teor
de fósforo para o Convertedor LD da V & M do Brasil utilizando redes neurais. Este
modelo auxiliou na construção do modelo aqui descrito.
Moreira e Lana (2002) mostra como a geração de escória de aciaria LD pelo mé-
todo de convertedor com sopro de oxigênio é realizada. Este trabalho foi relevante
para a compreensão do problema aqui abordado.
Nos trabalhos de Almeida e Simoes (2001), Almeida (2002) e Almeida e Simoes
(2003) é proposta a rede CMAC (Cerebellar Model Articulation Controller) Paramé-
trica (P-CMAC), que não é um algoritmo de aprendizagem, mas sim uma estrutura
neural. Esta estrutura estipula como as camadas de uma rede neural devem ser co-
nectadas, mas não utiliza obrigatoriamente um algoritmo de aprendizagem, podendo
ser então variado este algoritmo a fim de se obter um resultado satisfatório, levando-
se em conta tempo de processamento e recursos computacionais necessários a seu
funcionamento. Almeida e Simoes (2003) propõe uma rede MLP com o algoritmo de
treinamento backpropagation, no mesmo pode-se compreender o modo de operação
do algoritmo considerando a descrição feita por eles. Estes trabalhos foram relevantes
para a compreensão da técnica de RNA.
Araujo (2006) e Araujo (2007) propôs a modelagem de parte de um processo de
laminação de tubos de aço da Vallourec & Mannesmann do Brasil (V&M). Para esta
modelagem ele utilizou o algoritmo Levemberg-Marquardt (LM) para treinar uma rede
neural artificial com arquitetura MLP (Multi-Layer Perceptron). A variável de saída da
rede era a temperatura do aço. Os resultados obtidos no treinamento e execução da
rede não foram considerados adequados porque as RNA não alcançaram a precisão
desejada. Estes trabalhos apresentam semelhançasao trabalho aqui descrito.
(DURÃES; ALMEIDA, 2009a) e (DURÃES; ALMEIDA, 2009b) propõem a utiliza-
ção de técnicas estatísticas e lógica fuzzy para validar modelos baseados em RNA.
Utilizando o modelo fuzzy de Sugeno e as redes MLP, Elman e Cascade-Forward,
e tendo como variável de saída a temperatura do aço, os resultados obtidos foram
considerados adequados, sendo os mesmos apresentados neste trabalho.
1.3 CARACTERIZAÇÃO DO PROBLEMA 26
1.3 CARACTERIZAÇÃO DO PROBLEMA
Este trabalho analisa um problema térmico na produção de aço e verificar a con-
fiabilidade dos dados e a correlação das variáveis de entrada e saída, comparando
o resultado da rede neural aplicada na base de dados sem modificações com a rede
neural aplicada na base de dados modificada, e também comparar as diversas técni-
cas estatísticas empregadas na fase de filtragem.
O problema em questão surgiu quando Araujo (2008) propôs a modelagem do
processo de produção de aço da Vallourec & Mannesmann do Brasil (V&M). Na mo-
delagem foram utilizadas redes neurais artificiais MLP e P-CMAC. A variável de saída
da rede era a temperatura do aço. Os resultados obtidos no treinamento e execução
da rede não foram considerados adequados porque os erros médios foram superiores
à precisão do sensor da V&M que é 20◦C.
A hipótese inicial do presente trabalho é que a base de dados usada por Araujo
(2008) para o treinamento do modelo neural é muito ruidosa, portanto, foi proposta
uma nova abordagem para tratamento dos dados do problema em questão, um pré-
processamento dos dados. Estas bases de dados são uma importante fonte de infor-
mação, porém, muitas vezes, não são exploradas dadas às dificuldades inerentes ao
grande volume de dados, ultrapassando assim a habilidade técnica e a capacidade
humana em sua interpretação (CARVALHO, 2005).
Assim, foram utilizadas técnicas estatísticas com o intuito de verificar se as mes-
mas sanavam esta deficiência da modelagem. Para tanto, foi necessário pesquisar e
eliminar as causas assinaláveis que estavam afetando a qualidade dos dados, e, as-
sim, permitir o entendimento das ferramentas que iam ser utilizadas na busca contínua
da eliminação dos fatores que comprometem a qualidade do modelo.
O contexto deste trabalho é o estudo e a análise de dados durante sua coleta e
tratamento nos mais variados níveis. Com o emprego dessa ferramenta, pode-se clas-
sificar dados suspeitos e é possível reduzir o número de parâmetros para treinamento
das redes. A grande questão é encontrar métodos eficientes para tratar os dados
suspeitos, pois estes, por exemplo, podem prejudicar o desempenho dos modelos
matemáticos empregados para entender os fenômenos envolvidos.
1.4 MOTIVAÇÃO E OBJETIVOS 27
1.4 MOTIVAÇÃO E OBJETIVOS
Para lidar com a supersaturação de dados, se faz necessária uma nova geração
de ferramentas inteligentes para extração automatizada de dados e descoberta de
conhecimento. Essa necessidade já foi reconhecida por pesquisadores de diversas
áreas, inclusive de aprendizado de máquina, estatística, bancos de dados inteligentes,
sistemas especialistas, computação neural e visualização de dados (AMOR, 2000),
(CARVALHO, 2005), (INMON, 1997), (INMON; WELCH; GLASSEY, 1999), (KIMBALL,
1996), (MENEZES, 2003), (PASSOS; GOLDSCHMIDT, 2005) e (SINGH, 2001). Além
disso, é preciso despertar a consciência para o estudo, utilização e difusão destas
ferramentas. Assim, o objetivo deste trabalho é demonstrar a importância da qualidade
dos dados em um sistema que utiliza RNA.
A seguir são apresentados os objetivos específicos deste trabalho:
• Aperfeiçoar modelos matemáticos baseados em RNA;
• Fazer um estudo comparativo de desempenho entre diferentes arquiteturas de
RNA;
• Investigar a influência dos parâmetros de treinamento, do tamanho e da compo-
sição do conjunto de dados de entrada no desempenho de modelos neurais;
• Comparar diversas técnicas de análise de dados suspeitos;
• Avaliar os resultados em relação às técnicas tradicionais.
Espera-se que o resultado deste trabalho dê a outros pesquisadores a possibili-
dade de evoluir na construção de sistemas neurais.
1.5 METODOLOGIA
O estudo aqui proposto é de natureza analítica e visa organizar e sistematizar os
aspectos mais relevantes encontrados no trabalho (GIL, 2000a), (MARCONI; LAKA-
TOS, 2002) e (FRANCA; VASCOCELLOS, 2004). O objetivo intrínseco do trabalho
aponta para os aspectos da qualidade do produto e para a qualidade do modelo para
fins industriais.
1.5 METODOLOGIA 28
Em relação ao modo de abordagem do problema, a pesquisa é classificada como
qualitativa, pois utiliza coleta de dados levantando as condições iniciais relevantes
e posteriormente apresentando uma justificativa. É também uma pesquisa quanti-
tativa, pois os resultados serão classificados e analisados (GIL, 2000b), (LAVILLE;
DIDONNE, 1977) e (SILVA; MENEZES, 2001).
Os objetivos da pesquisa a classificam como exploratória, pois visa investigar o
problema com vistas a torná-lo explícito ou a construir hipóteses (BORBA et al., 2004),
(CERVO; BERVIAN, 1983) e (DUARTE; FURTADO, 2002). Nesse contexto, a hipótese
que a pesquisa pretende comprovar é a seguinte:
É possível refinar modelos baseados em RNA a partir da análise estatística dos
dados históricos usados para o treinamento das redes?
Para alcançar os objetivos propostos, foram percorridos os seguintes passos:
• Revisão da literatura: Foi feita uma revisão bibliográfica sobre estatística, RNA,
lógica fuzzy e análise estatística;
• Exploração do espaço solução: Realização de um estudo abrangente sobre o
desenvolvimento de trabalhos de modelagem de processos, com a utilização
de RNA, lógica fuzzy e análise estatística. Cada processo, cada etapa, cada
produto, requer um trabalho específico e, por isto, é preciso despertar a sen-
sibilidade para a escolha e uso da ferramenta ou conjunto de ferramentas que
melhor se adequa ao caso a ser estudado (CAMPOS, 2003), (BAPTISTA, 1996)
e (RAMOS, 2000).
• Pré-processamento da base de dados: Verificação de inconsistências e ruídos
nos dados fornecidos, usando a análise estatística das variáveis. É efetuada uma
limpeza independente de domínio, como decisão da estratégia de tratamento de
atributos incompletos, remoção de ruído e tratamento de conjuntos não balan-
ceados (CARVALHO, 2005), de modo que o treinamento inicial da rede seja
otimizado, eliminando dados dos campos que não agregam informações ao pro-
cesso. Costuma-se afirmar que esse passo leva cerca de 80 % do tempo total
do processo.
• Seleção dos dados: Seleção e coleta do conjunto de dados ou variáveis neces-
sárias. Para tanto foi utilizado a linguagem de consulta estruturada (SQL) devido
à sua simplicidade e facilidade de uso. É necessário que haja bom senso na es-
colha do valor do tamanho amostral e do número de variáveis a serem medidas,
1.6 ORGANIZAÇÃO DA DISSERTAÇÃO 29
levando-se em consideração o orçamento da pesquisa e a qualidade dos dados
que serão obtidos e utilizados na análise final (CAMPOS, 2003), (BAPTISTA,
1996) e (RAMOS, 2000).
• Transformação dos dados: Transformação dos dados em um formato apropri-
ado. As amostras foram representadas usando arquivos tipo texto. Este padrão
possui um ótimo desempenho para exportação e análise de base de dados. Os
dados foram arrendondados de forma a garantir uma precisão de até duas casas
decimais. Para a realização da análise de forma apropriada, os dados foram nor-
malizados de forma a estabelecer uma unidade padrão para todas as grandezas
presentes no banco de dados. A normalização escolhida foi a normalização pela
média. A medida de proximidade adotada é a distância de Mahalanobis.
• Avaliação da qualidade dos dados: Utilização da lógica fuzzy e das técnicas
estatísticas para avaliara qualidade dos dados.
• Definição das RNA e os algoritmos de treinamento: Escolha das RNA e os algo-
ritmos de treinamento utilizados.
• Treinamento das RNA: Treinamento das RNA com os dados originais e tratados
provenientes do processo de produção de aço da V&M do Brasil;
• Realização de testes de validação do modelo obtido: Análise dos resultados dos
dados provenientes do processo de aciaria da V&M do Brasil e comparação com
base nos estudos feitos na literatura;
• Análise dos Resultados da Pesquisa e Discussão: Análise e avaliação dos resul-
tados obtidos.
1.6 ORGANIZAÇÃO DA DISSERTAÇÃO
Este trabalho está dividido em cinco Capítulos, sendo que o Capítulo 2 abrange
os diversos conteúdos teóricos necessários a um amplo entendimento do objeto de
estudo: os conceitos sobre estatística, RNA e lógica fuzzy.
O Capítulo 3 apresenta a população e as amostras, os instrumentos de coleta de
dados e o tratamento e a análise dos dados provenientes do processo de aciaria da
V&M do Brasil e os compara com base nos estudos feitos na literatura.
1.6 ORGANIZAÇÃO DA DISSERTAÇÃO 30
No Capítulo 4, por meio de técnicas predominantemente estatísticas serão anali-
sados e avaliados os resultados do trabalho bem como são apresentadas a eficiência
e a eficácia dos métodos propostos.
O Capítulo 5 proporciona uma avaliação geral do trabalho desenvolvido, descre-
vendo as conclusões, bem como as possíveis limitações, além de propor melhorias
para as mesmas com as sugestões de trabalhos futuros para a continuidade da pes-
quisa.
31
2 REFERENCIAL TEÓRICO
Este Capítulo descreve as principais técnicas utilizadas. A Seção 2.1 apresenta a
teoria das RNA, sua definição, características, aplicações e algoritmos de treinamento.
A Seção 2.2 apresenta as técnicas estatísticas utilizadas. A Seção 2.3 descreve a
lógica fuzzy e suas aplicações. A Seção 2.4 encerra o capítulo com as discussões
finais.
2.1 REDES NEURAIS ARTIFICIAIS
As Redes Neurais Artificiais (RNA) são modelos matemáticos que se assemelham
às estruturas neurais biológicas e que têm capacidade computacional adquirida por
meio de aprendizado e generalização (CARVALHO, 2005).
Estruturalmente, uma rede neural consiste em um número de elementos interco-
nectados (chamados neurônios) organizados em camadas. Geralmente constroem
superfícies equacionais complexas por meio de interações repetidas, cada instante
ajustando os parâmetros que definem a superfície.
Cada neurônio geralmente tem um conjunto de pesos que determina como o
neurônio avalia a combinação dos sinais de entrada. A entrada para um neurônio
pode ser positiva ou negativa. O aprendizado se faz pela modificação dos pesos usa-
dos pelo neurônio em acordo com a classificação de erros que foi feita pela rede como
um todo. As entradas são geralmente pesadas e normalizadas para produzir um pro-
cedimento suave.
Assim, uma RNA pode ser definida como um arranjo de neurônios artificiais, na
qual pode-se distinguir neurônios de entrada, neurônios internos e neurônios de saída.
A forma como estes neurônios estão interconectados define a arquitetura da rede.
Estas são em geral de três tipos, a saber conforme a Tabela 2.1:
2.1 REDES NEURAIS ARTIFICIAIS 32
Tabela 2.1: Tipos de arquiteturas de RNA (ALMEIDA; SIMOES, 2003).
2.1.1 Redes Multi-Layer Perceptron - MLP
Uma arquitetura de rede MLP (Multi-Layer Perceptron) possui as seguintes carac-
terísticas:
• O fluxo de sinal na rede é unidirecional, da esquerda para a direita, camada a
camada;
• A rede é do tipo totalmente conectada, qualquer camada da rede está conectada
a todas as outras unidades na camada anterior. Não existem conexões entre os
neurônios de camadas não adjacentes, e nem conexões entre neurônios em uma
mesma camada (ALMEIDA; SIMOES, 2003);
• O modelo de cada neurônio da rede inclui uma função de ativação não linear e
diferenciável em qualquer ponto;
• O processamento realizado por cada neurônio é definido pela combinação dos
processamentos realizados pelos neurônios da camada anterior que estão co-
nectados a ele.
Segundo Braga, Carvalho e Ludermir (2007) e Carvalho (2005), as redes MLP
apresentam um poder computacional muito maior que as redes sem camadas inter-
mediárias. Em um número finito de iterações, uma rede com uma camada oculta con-
segue aproximar qualquer função contínua, enquanto uma com duas camadas ocultas
é capaz de aproximar qualquer função não linear, mesmo que descontínua (ALMEIDA;
SIMOES, 2003).
2.1 REDES NEURAIS ARTIFICIAIS 33
A função de ativação representa o efeito que a entrada interna e o estado atual
de ativação exercem na definição do próximo estado de ativação da unidade. O grau
de ativação é, assim, determinado a partir da excitação externa. Existem várias fun-
ções de ativação, mas apenas algumas encontram aplicações práticas relevantes (AL-
MEIDA; SIMOES, 2003). Neste trabalho são utilizadas as funções linear (Figura 2.1),
tangente sigmoidal (Figura 2.2) e logarítmica sigmoidal (Figura 2.3).
Figura 2.1: Função linear.
Para definir o número de neurônios da camada oculta usados em um modelo
de RNA, é comum o emprego do teorema proposto por Kolmogorov-Nielsen ((TA-
KAHASHI; RABELO; TEIXEIRA, 2008), (MARTINS et al., 2009), (DORNELLES; PE-
DROLLO; GOLDENFUM, 2006), (GOMES, 2005), (FERRONATO, 2008) e (STEINER,
2009)):
“Dada uma função contínua arbitrária F : [0,1]m→ RM, f(x)=y, ∃∀ f , uma implemen-
tação exata com uma rede neural de três camadas, sendo a camada de entrada um
vetor de dimensão m, a camada oculta composta por 2n+1 neurônios, e a camada de
saída com M neurônios, representando as M componentes do vetor y.”.
As RNA têm se mostrado um campo vasto para pesquisa aplicada (MEIRELES;
ALMEIDA; SIMOES, 2003). Ao contrário do que possa parecer à primeira vista, as
2.1 REDES NEURAIS ARTIFICIAIS 34
Figura 2.2: Função tangente sigmoidal.
Figura 2.3: Função logarítmica sigmoidal.
2.1 REDES NEURAIS ARTIFICIAIS 35
RNA têm vários pontos de contato com os modelos estatísticos e econométricos tra-
dicionais. Estas ligações acabam embotadas pelo uso de jargões técnicos distintos.
Back-Propagation
O algoritmo back - propagation, também conhecido como algoritmo de retropro-
pagação do erro, é um algoritmo de aprendizado supervisionado. Esse algoritmo tem
como objetivo minimizar a função de erro entre a saída real e a desejada, utilizando
o método do gradiente descendente. As redes neurais feedforward com algoritmo de
aprendizagem tipo back - propagation se tornaram muito populares, devido à capaci-
dade de resolver a maioria dos problemas de reconhecimento de padrões (BRAGA;
CARVALHO; LUDERMIR, 2007), (HAYKIN, 2007) e (MEDEIROS, 2003).
A topologia de uma rede neural não linear, cujo comportamento seja codificado
pelo algoritmo back - propagation, é em geral, composta de uma camada de entrada,
uma camada de saída e um número arbitrário de camadas intermediárias (BRAGA;
CARVALHO; LUDERMIR, 2007). Cada neurônio de uma camada, com exceção da
camada de entrada, encontra-se conectado a todos os neurônios presentes na ca-
mada imediatamente anterior à sua.
A fase de treinamento do algoritmo back - propagation desencadeia duas etapas,
para cada padrão de entrada apresentado: processamento para a frente e proces-
samento para trás (HAYKIN, 2007). No processamento para a frente, que é primeira
etapa, o fluxo do processamento parte das unidades na camada de entrada em dire-
ção às unidades na camada de saída. Nesta etapa, os pesos sinápticos permanecem
inalterados. Os neurônios da camada de entrada recebem os valores do padrão de
entrada. Em seguida, a função de ativação é aplicada, produzindo a saída de cada
neurônio desta camada.
Uma vez geradas as saídas dos neurônios da camada de saída da rede, oalgo-
ritmo back - propagation inicia a segunda etapa do treinamento para o padrão apre-
sentado. Em geral são duas as condições de parada do treinamento de uma rede back
- propagation: um número máximo de iterações definido pelo usuário ou a convergên-
cia da rede. Diz-se que uma rede neural converge quando o somatório dos erros dos
neurônios da camada de saída atinge um nível de erro aceitável para o problema em
questão.
A variação do erro permite a estimação do gradiente em cada iteração é um al-
2.1 REDES NEURAIS ARTIFICIAIS 36
goritmo que move o vetor de pesos na direção em que a derivada parcial do erro
em relação à cada peso é negativa, buscando sempre o ponto de mínimo. Ou seja,
considerando-se o erro como uma superfície matemática, a variação dos pesos é
sempre na direção de um vale nessa superfície. Quando o gradiente é zero é porque
se atingiu um determinado ponto de mínimo, que não necessariamente é o mínimo
global.
Logo, há diversos enfoques para se escapar de um mínimo local. Porque um
mínimo local não é bom? Porque, nesse caso a rede neural ficaria parada sem aceitar
novos padrões para treinamento, mesmo que eles fossem necessários para que a rede
pudesse generalizar a respeito das relações de entrada e saída (BRAGA; CARVALHO;
LUDERMIR, 2007) e (HAYKIN, 2007).
Ao final do treinamento de uma rede, os pesos das conexões entre os neurônios
representam o conhecimento descoberto pela rede. Esse conjunto pode então ser
utilizado pela rede para processar novos casos e, em função do conhecimento desco-
berto, apresentar resultados. Uma vez que o conhecimento armazenado pela matriz
de pesos de uma rede neural treinada não pode ser interpretado diretamente pelo
homem, a qualidade do desempenho dessa rede deve ser avaliada por meio de ex-
perimentos a fim de verificar a adequação deste conhecimento na implementação da
tarefa desejada (HAYKIN, 2007).
Em um processo iterativo como o algoritmo back - propagation, uma questão im-
portante é sobre o critério de parada do treinamento. Em termos absolutos, a solução
final ocorrerá para o índice de desempenho (erro global) igual a zero ou dentro de um
valor muito pequeno. Todavia, se durante a fase de desenvolvimento o erro não for pe-
queno e não tiver tendência a diminuir, dois enfoques podem ser adotados (BRAGA;
CARVALHO; LUDERMIR, 2007) e (HAYKIN, 2007):
• Limitar o número de iterações, ou seja, o treinamento cessa após ter ocorrido
um valor limite, pré-fixado, de épocas de treinamento (sessões de treinamento).
• Amostrar e tirar a média de um certo número de épocas, por exemplo, 500 épo-
cas. Se o erro médio do último conjunto de 500 épocas não for melhor que o das
500 anteriores o treinamento deve ser cessado, indicando que um mínimo local
foi alcançado. Depois disso, a rede deve estar ainda pronta para ser reutilizada
para testes. Se o desempenho não for satisfatório, aos pesos devem ser adicio-
nados um pouco de ruído, para auxiliar a rede a sair do mínimo local. Ou então
2.1 REDES NEURAIS ARTIFICIAIS 37
a rede deveria ser completamente reinicializada.
A principal dificuldade no treinamento de redes MLP com o algoritmo back - pro-
pagation está relacionada à sua sensibilidade às características da superfície de erro,
o que dificulta a sua convergência em regiões de baixo gradiente e de mínimos locais
(BRAGA; CARVALHO; LUDERMIR, 2007). Uma forma de minimizar esse problema é
considerar efeitos de segunda ordem para o gradiente descendente. Algumas aborda-
gens podem ser utilizadas tanto para acelerar o algoritmo quanto para reduzir os efei-
tos dos mínimos locais (BRAGA; CARVALHO; LUDERMIR, 2007) e (HAYKIN, 2007):
• Utilizar taxas de aprendizado decrescente;
• Utilizar um termo de momento;
• Adicionar ruído aos dados.
Entre as várias técnicas utilizadas para acelerar o processo de treinamento e evitar
mínimos locais, a adição de um termo momento é uma alternativa. A inclusão do termo
momento na expressão de ajuste dos pesos proporciona um comportamento análogo
à inércia no aprendizado, resultando em um aumento da velocidade de convergência
em regiões de descida da superfície de erro, já que o novo ajuste será sempre adicio-
nado a uma parcela do ajuste anterior. Embora esta possa parecer uma solução para
o problema de convergência, há uma grande sensibilidade à constante de momento e,
dependendo da superfície, pode haver instabilidade no treinamento (HAYKIN, 2007).
Outro problema relacionado à convergência do back - propagation é conhecido
como flat spot, que ocorre quando a derivada da função sigmoidal de uma unidade
se aproxima de zero durante o treinamento (BRAGA; CARVALHO; LUDERMIR, 2007).
Esse efeito ocorre porque a derivada da função sigmoidal se aproxima de zero quando
a saída do neurônio se aproxima de um dos seus limites de saturação. Como o ajuste
de pesos utiliza o valor da derivada, a unidade pode não ter seus pesos ajustados ou
ajustá-los com um valor muito pequeno. Existem algumas propostas para superar esse
problema, entre elas (BRAGA; CARVALHO; LUDERMIR, 2007) e (HAYKIN, 2007):
• Utilizar uma medida de erro que tenda para infinito quando a derivada da sigmoi-
dal tender para zero.
• Adicionar uma constante à derivada, evitando que o erro seja igual a zero.
• Utilizar uma função de erro não-linear.
2.2 ESTATÍSTICA 38
Algoritmo Levenberg-Marquardt
Ao contrário do algoritmo de treinamento back - propagation, que é baseado no
método de gradiente descendente, o algoritmo Levenberg-Marquardt é uma aproxi-
mação do método de Newton. Ele melhora o método de Gauss-Newton por meio
da utilização de uma taxa de aprendizado variável. Proposto para ajuste de pesos
da rede por ciclo, o algoritmo de treinamento Levenberg-Marquardt é uma técnica de
otimização numérica que demanda uma grande quantidade de memória e elevada
complexidade computacional, o que pode tornar sua utilização ineficiente para redes
muito grandes (BRAGA; CARVALHO; LUDERMIR, 2007) e (HAYKIN, 2007). Entre-
tanto, a cada dia computadores com maior capacidade de memória e processamento
são lançados no mercado, minimizando essa restrição.
2.1.2 Redes de Elman
Elman introduziu memória nas RNA. Nas redes de Elman, além das camadas de
entrada, intermediárias e de saída, há também unidades de contexto, como nas redes
recorrentes em geral. As camadas de saída são unidades lineares que somam os
sinais que recebem. As camadas intermediárias podem ter funções de ativação line-
ares ou não lineares, e as unidades de contexto são usadas apenas para memorizar
as ativações anteriores das camadas intermediárias, podendo ser consideradas como
atraso no tempo em um passo. As conexões feedforward são modificáveis, e as cone-
xões recorrentes são fixas, motivo pelo qual a rede de Elman é apenas parcialmente
recorrente (BRAGA; CARVALHO; LUDERMIR, 2007) e (HAYKIN, 2007). Em um pri-
meiro estágio, feedforward, as entradas são propagadas para frente para produzir as
saídas. Posteriormente, a rede é treinada com o algoritmo de aprendizagem back -
propagation padrão.
2.2 ESTATÍSTICA
A Estatística é uma parte da matemática aplicada que fornece métodos para co-
leta, organização, descrição, análise e interpretação de dados e para utilização dos
mesmos na tomada de decisões (BAPTISTA, 1996), (RAMOS, 2000).
A Estatística Clássica envolve conceitos como distribuição normal, variância, aná-
lise de regressão, desvio simples, análise de conjuntos, análises de discriminantes e
2.2 ESTATÍSTICA 39
intervalos de confiança, todos usados para estudar os dados e os relacionamentos
entre eles (FREUND, 2006), (VIEIRA, 1985) e (NEUFELD, 2003).
Essas são as pedras fundamentais nas quais as mais avançadas análises es-
tatísticas se apoiam. Ela incorpora um envolvimento muito forte do usuário,exigindo
engenheiros experientes, na construção de modelos que descrevem o comportamento
de dados por meio dos métodos clássicos da matemática.
A seguir são citadas várias técnicas para tratamento de dados suspeitos. As mes-
mas serão utilizadas na modelagem dos dados de entrada para uso em sistemas que
utilizem redes neurais artificiais:
2.2.1 Análise de Componentes Principais
Um problema comum em reconhecimento estatístico de padrões é a seleção das
características ou extração de características. A seleção de características se refere
a um processo no qual um espaço de dados é transformado em um espaço de carac-
terísticas que, em teoria, tem exatamente a mesma dimensão que o espaço original
de dados (MANLY, 2008), (MINGOTI, 2005) e (HAYKIN, 2007). Entretanto, a transfor-
mação é projetada de tal forma que o conjunto de dados pode ser representado por
um número reduzido de características efetivas e ainda reter a maioria do conteúdo de
informação intrínseco dos dados; em outras palavras, o conjunto de dados sofre uma
redução de dimensionalidade. A análise de componentes principais (também conhe-
cida como a transformação de Karhumen-Loève na teoria da comunicação) maximiza
a taxa de redução da variância e é, portanto, a escolha correta (MINGOTI, 2005). A
análise de componentes principais é uma técnica padrão normalmente utilizada para
redução de dados em reconhecimento estatístico de padrões e processamento de
sinais.
Redução de Dimensionalidade
Da perspectiva de reconhecimento estatístico de padrões, o valor prático da aná-
lise de componentes principais é que ela fornece uma técnica efetiva para redução
de dimensionalidade. Em particular, pode-se reduzir o número de características ne-
cessárias para a representação efetiva de dados descartando aquelas combinações
lineares que têm variâncias pequenas e retendo apenas aqueles termos que têm vari-
âncias grandes (MANLY, 2008) e (HAYKIN, 2007).
2.2 ESTATÍSTICA 40
Em geral deseja-se obter redução do número de variáveis a serem avaliadas e
interpretação das combinações lineares construídas, ou seja, a informação contida
nas p-variáveis originais é substituída pela informação contida em k(k< p) componen-
tes principais não correlacionadas. Desta forma, o sistema de variabilidade do vetor
aleatório que contém as k componentes principais. A qualidade da aproximação de-
pende do número de componentes mantidas no sistema e pode ser medida através
da avaliação da proporção da variância total explicada por essas.
Quando a distribuição de probabilidades do vetor aleatório em estudo é normal
p-variada, as componentes principais, além de não correlacionadas, são independen-
tes e têm distribuição normal. Entretanto, a suposição de normalidade não é requisito
necessário para que a técnica de análise de componentes principais possa ser utili-
zada. A obtenção das componentes principais envolve a decomposição da matriz de
covariâncias do vetor aleatório de interesse. Caso seja feita alguma transformação
deste vetor aleatório, as componentes deverão ser determinadas utilizando-se a ma-
triz de covariâncias relativa ao vetor transformado. Uma transformação muito usual é
a padronização das variáveis do vetor pelas respectivas médias e desvios padrões,
gerando-se novas variáveis centradas em zero e com variâncias iguais a 1. Neste
caso, as componentes principais são determinadas a partir da matriz de covariância
das variáveis originais padronizadas, o que é equivalente a extrair-se as componentes
principais utilizando-se a matriz de correlação das variáveis originais.
Uma vez determinadas as componentes principais, os seus valores numéricos,
denominados de escores, podem ser calculados para cada elemento amostral. Deste
modo, os valores de cada componente podem ser analisados, usando-se técnicas
estatísticas usuais como análise de variância, dentre outras.
As componentes principais são variáveis aleatórias que não podem ser medidas
diretamente, mas observadas apenas a partir da informação do vetor aleatório x. É
comum utilizar os escores das componentes para condução de análise estatística de
dados ou para a simples ordenação (ranking) dos elementos amostrais observados,
com o intuito de identificar aqueles que estão com maiores, ou menores, valores glo-
bais das componentes.
É importante observar que as componentes principais, obtidas através da matriz
de covariâncias, resultam em combinações lineares, cujos coeficientes de ponderação
refletem a diferença da variância das variáveis originais além da covariância entre elas.
Uma aplicação útil de um analisador de componentes principais é como pré -
2.2 ESTATÍSTICA 41
processador para uma rede neural supervisionada (por exemplo: um perceptron de
múltiplas camadas de back-propagation) (HAYKIN, 2007). Aqui a motivação é acele-
rar a convergência do processo de aprendizagem retirando a correlação dos dados
de entrada. Um procedimento de aprendizagem supervisionada como o de back-
propagation se baseia na descida mais íngreme. O processo de convergência nesta
forma de aprendizagem é tipicamente lento devido a efeitos interativos de pesos si-
nápticos de um perceptron de múltiplas camadas sobre o sinal de erro, mesmo com
o uso de procedimentos simples de aceleração local como o momento e taxas de
aprendizagens adaptativas para pesos individuais. Se, entretanto, as entradas para o
perceptron de múltiplas camadas consistirem de componentes não-correlacionadas,
então a matriz hessiana da função de custo e(n) em relação aos parâmetros livres da
rede é mais proximamente diagonal do que seria no caso contrário. Uma vez que esta
forma de diagonalização seja realizada, o uso de procedimentos de aceleração locais
simples permitem uma aceleração considerável no processo de convergência, o que
se torna possível pelo escalamento apropriado das taxas de aprendizagem ao longo
de cada eixo de peso, independente.
Critérios para Determinação do Número k de Componentes Principais
Quando o vetor aleatório x tem distribuição normal multivariada, é possível cons-
truir intervalos de confiança e testes de hipóteses para os autovalores populacionais,
assim como fazer inferência sobre a matriz de covariância ou correlação populacio-
nais.
Quando o objetivo é a redução da dimensionalidade do espaço amostral, isto é,
a sumarização da informação das p-variáveis originais em k componentes principais,
k < p, é necessário estabelecer-se critérios de escolha para o valor de componentes,
que deverão ser mantidas no sistema.
Três procedimentos podem ser utilizados para isso, sendo dois puramente mate-
máticos e um terceiro que alia o ponto de vista prático.
Procedimento 1: Análise de representatividade em relação à variância total
Sob este critério, deve-se manter no sistema um número de componentes k que
conjuntamente representem uma porcentagem γ 100 % da variância total, onde 0 <
γ < 1 é um valor pré-determinado pelo pesquisador. Portanto, na prática, busca-se o
2.2 ESTATÍSTICA 42
valor de k tal que:
γ =
k
∑
i=1
λˆi
k
∑
j=1
λˆ j
(2.1)
Não há um limite definido para o valor de γ e sua escolha deverá ser feita de acordo
com a natureza do fenômeno investigado. Em algumas situações, é possível obter-se
uma porcentagem de explicação de variância total acima de 90 % ou 95 % com 1 ou
2 componentes, enquanto que em outras, é necessário um número muito maior. O
objetivo, ao se utilizar a técnica de componentes principais, é sumarizar a informação
das p-variáveis originais de uma forma simples. Desse modo, a utilidade prática das
componentes decresce com o crescimento do número de componentes necessárias
para se chegar ao valor escolhido de γ, uma vez que, quanto maior será a dificuldade
de interpretação das mesmas.Assim sendo, em alguns casos torna-se necessário
trabalhar com porcentagens de explicação abaixo de 90 %. Em geral, quando as
componentes principais são extraídas da matriz de correlação, necessita-se de um
número maior de componentes para se alcançar o valor de γ, em comparação com o
número requerido quando as componentes são extraídas da matriz de covariâncias.
Quando a matriz de correlação é utilizada para extração das componentes princi-
pais, a variância total é igual ao número de variáveis original p . Assim, um critério
que pode ser utilizado para a escolha do valor de k é o de manter no sistema ape-
nas as componentes relacionadas àqueles autovalores λˆi ≥ 1, ou seja, mantém-se as
combinações lineares que conseguem explicar pelo menos a quantidade de variância
de uma variável original padronizada. Similarmente, quando a análise é feita com a
matriz de covariâncias, pode-se manter no sistema as componentes relacionadas aos
autovalores que são maiores ou iguais a λm, definido por:
λˆm =
p
∑
j=1
λˆ j
p
(2.2)
e que representa a variância média das variâncias originais xi, i= 1,2, ..., p.
Um gráfico que pode auxiliar na escolha do valor k é o scree-plot, que mostra os
2.2 ESTATÍSTICA 43
valores numéricos dos autovalores λi de acordo com a respectiva ordem i . Basta
observar no gráfico o ponto em que os valores de λi tendem a se aproximar de zero.
Componentes oriundas de autovalores iguais a zero sempre podem ser elimina-
das do sistema. No entanto, nesses casos aconselha-se que o pesquisador refaça a
análise de componentes, usando apenas um número de variáveis iguais ao número
de autovalores maiores que zero.
Procedimento 2: Análise da qualidade de aproximação da matriz de covariâncias
ou correlação
A escolha do valor k de componentes determina uma aproximação para a matriz
da qual elas foram extraídas. Assim, na prática, quando as componentes são extraí-
das das matrizes de covariâncias ou de correlação amostrais, tem-se as seguintes
aproximações para as matrizes Spxp e Rpxp, respectivamente:
Spxp ≈
k
∑
i=1
λˆi eˆi2′ (2.3)
Rpxp ≈
k
∑
i=1
λˆi eˆi2′ (2.4)
onde em cada caso, (λˆi, eˆi) representam os respectivos autovalores e autovetores
normalizados de Spxp e Rpxp.
Assim sendo, o valor de k poderia ser escolhido de modo a se ter uma aproximação
razoável para as matrizes Spxp ou Rpxp. As parcelas que mais contribuem para a apro-
ximação dessas matrizes são as correspondentes aos autovalores. Significativamente
maiores que zero. Assim, as componentes associadas a autovalores pequenos ou
próximos a zero poderiam ser eliminadas. É preciso ser cauteloso na análise da qua-
lidade da aproximação, uma vez que um grau de exigência elevado está, geralmente,
relacionado com um valor elevado de k , o que não é o desejado.
2.2 ESTATÍSTICA 44
Procedimento 3: Análise prática das componentes
Para que as componentes possam ser utilizadas adequadamente, o mais indicado
é que sejam passíveis de interpretação. Assim, a escolha do valor k pode ser pautada
pela natureza prática das componentes encontradas. Eventualmente, pode ocorrer
que a componente mais útil sob o ponto de vista prático do pesquisador seja a de
ordem 4 , por exemplo. Nesse caso, para que este possa utilizá-la, será necessário
manter pelo menos k= 4 componentes principais no sistema. A situação ideal é aquela
em que as componentes principais de maior interesse do pesquisador são as de maior
explicação relativa à da variância total e levam a um valor pequeno de k , mas isto nem
sempre acontece.
Intervalos de confiança para os autovalores populacionais
Suponha que o vetor aleatório x tenha distribuição normal multivariada. Então,
a hipótese de que o autovalor teórico λi seja igual a zero, para algum i fixo, pode
ser testada através da construção de intervalos de confiança. Pode ser mostrado
que, sob a hipótese de normalidade multivariada do vetor aleatório x , e amostras de
tamanhos n grandes, os autovalores estimados λˆi, i = 1,2, ..., p são assintoticamente
independentes, e com distribuição normal com média igual a λi e variância igual a
(2nλ
2
i ). Assim, um intervalo de (1−α) (100 %) de confiança para λi populacional é
dado por:
 λˆi
1+ z1−1/2α
√
2
√
1
n
;
λˆi
1− z1−1/2α
√
2
√
1
n
 (2.5)
onde 2(1− α2 ) é a ordenada da distribuição normal padronizada, cuja área acima
é igual a α2 .
Um limite inferior do intervalo muito próximo de zero é um indicativo de que a
componente principal relacionada àquele autovalor é de pouca importância em termos
de sua contribuição na variância total.
2.2 ESTATÍSTICA 45
Inferência sobre a matriz de correlação populacional
Para que a análise de componentes principais tenha algum sentido, é necessário
que as variáveis sejam correlacionadas. Se as matrizes de covariâncias e de correla-
ção forem diagonais, a aplicação desta técnica simplesmente vai devolver, em alguma
ordem, as próprias variáveis originais.
Sob a suposição de normalidade multivariada, é possível testar se a matriz de
covariâncias e de correlação populacionais, o que indica que as variáveis são inde-
pendentes.
Distribuição das componentes principais no caso da distribuição normal multi-
variada
Quando a distribuição do vetor aleatório x é normal p-variada, as componentes
principais têm distribuição normal e são independentes.
Individualmente, cada componente tem distribuição normal univariada, pois é uma
combinação linear de variáveis aleatórias com distribuição normal. Conjuntamente, as
p componentes terão distribuição normal p-variada com matriz de covariâncias dadas
por:
λpxp =

λ1 0
λ2
0 λp
 (2.6)
Isto faz com que a técnica de análise de componentes principais possa também
ser utilizada como um mecanismo de verificação da suposição de normalidade mul-
tivariada do vetor aleatório x = (x1x2...xp)′. Se for possível, demonstrar, através de
testes de hipóteses para verificação de normalidade, que as componentes principais
separadamente seguem uma distribuição normal univariada, se terá a indicação de
que o vetor x , provavelmente, também segue uma distribuição normal p-variada.
Apenas as observações completas são utilizadas na análise. Assim, se por exem-
plo, houver n observações amostrais e p-variáveis e, por algum motivo, o valor de uma
dessas variáveis for perdido (missing) para um elemento amostral, esse elemento será
automaticamente desconsiderado, e a análise de componentes principais será feita
2.2 ESTATÍSTICA 46
com base em apenas (n− 1) dados amostrais. Os resultados, portanto, podem não
ser confiáveis, caso haja uma quantidade considerável de valores omissos.
A análise de componentes principais pode também ser utilizada como um método
de seleção de variáveis. Por exemplo, se o pesquisador mediu p = 20 variáveis e
dessas deseja selecionar as 10 mais importantes, ele poderá analisar as componentes
seqüencialmente, observando, em cada uma delas, as variáveis que aparecem com
maiores coeficientes, em valor absoluto. De cada componente yi, o pesquisador pode
selecionar mi variáveis até obter as 10 desejadas, ou seja,
M
∑
i=1
mi = 10 (2.7)
onde M representa o número de variáveis desejado.
Análise de Componentes Principais por Núcleo
Nesta forma de PCA (Análise de Componentes Principais) a computação é re-
alizada em um espaço de características que é não linearmente relacionado com o
espaço de entrada (MANLY, 2008) e (MINGOTI, 2005). O espaço de características é
definido por um núcleo de produto interno.
Devido à relação não-linear entre o espaço de características, a ela é não-linear.
Entretanto, ao contrário de outras formas de PCA não-lineares, sua implementação
se baseia na álgebra linear (HAYKIN, 2007). Ela é uma extensãonatural da PCA
ordinária.
Nela todas as propriedades da PCA ordinária continuam valendo. Em particular,
ela é linear no espaço de entrada. Assim, ela pode ser aplicada a todos aqueles
domínios nos quais a PCA ordinária tem sido usada para extração de características
ou redução de dados, para os quais a extensão não-linear faça sentido.
2.2.2 As Medidas de Semelhança
Distância de Mahalanobis
Uma medida que leva em consideração as correlações entre variáveis é a dis-
tância de Mahalanobis. Para agregamentos normalmente distribuídos a distância de
2.2 ESTATÍSTICA 47
Mahalanobis, em geral, é utilizada (CAMPOS, 2001), (DWINNELL, 2008), (MANLY,
2008) e (UBA; DUTRA, 2008). Pontos com maior alavancagem têm maior influência
nos coeficientes de regressão e têm maior distância de Mahalanobis.
A distância de Mahalanobis pode ser utilizada para medir a distância entre classes
de padrões. Isso pode ser feito por meio da soma ou da média da distância entre
todos os padrões de duas classes diferentes (CAMPOS, 2001), (DWINNELL, 2008),
(MANLY, 2008) e (UBA; DUTRA, 2008). Uma distância de Mahalanobis é também
usada para medir a distância de uma única observação multivariada ao centro da
população da qual veio a observação.
Considere que ui e u j representem os valores médios dos vetores xi e x j respecti-
vamente. Isto é,
ui = E[xi] (2.8)
na qual E é o operador estatístico esperado.
O vetor médio u j é definido de forma similar. Como uma medida de distância entre
essas duas populações, pode-se utilizar a distância de Mahalanobis representada por
di j. O quadrado do valor dessa distância de xi para x j é definido por:
d2i j = (xi−ui)T
−1
∑(x j−u j) (2.9)
na qual ∑−1 é a inversa da matriz de covariância ∑. Assume-se que a matriz de
covariância é a mesma para ambas as populações, como mostrado por:
∑= E[(xi−ui)(xi−ui)T ] (2.10)
∑= E[(x j−u j)(x j−u j)T ] (2.11)
Para o caso especial quando x j = xi, ui= u e ∑= I é a matriz identidade, a distância
de Mahalanobis se reduz à distância euclidiana entre o vetor de amostra xi e o vetor
2.2 ESTATÍSTICA 48
de média u.
2.2.3 Correlação por Posto
Como o teste de significância de r é baseado em suposições bastante restritivas,
às vezes recorre-se a uma alternativa não-paramétrica que pode ser aplicada sob
condições bem mais gerais. Este teste da hipótese nula sem correlação é baseado no
coeficiente de correlação por posto, muitas vezes denominado coeficiente de correla-
ção por posto de Spearman, e denotado por rs (FREUND, 2006).
Para calcular o coeficiente de correlação por posto para um conjunto de pares
de dados, primeiro ordena-se os x entre si em ordem crescente ou decrescente; em
seguida ordena-se os y da mesma maneira, encontra-se a soma dos quadrados das
diferenças, d , entre os postos dos x e dos y , e substitui na fórmula
rs= 1−6
∑Sd2
n(n2−1) (2.12)
na qual n é o número de pares de x e y.
Quando há empates, procede-se atribuindo a cada uma das observações empa-
tadas a média dos postos que elas ocupam conjuntamente. Quando não há empates,
rs é efetivamente igual ao coeficiente de correlação r calculado para os dois conjuntos
de postos; quando existem empates, pode haver uma pequena diferença (que, em ge-
ral, é desprezível). É fácil ver, trabalhando com postos em lugar dos dados originais,
perde-se alguma informação, mas isso geralmente é compensado pela facilidade do
cálculo do coeficiente de correlação por posto.
A principal vantagem em utilizar rs é que se pode testar a hipótese nula de não
haver qualquer correlação sem ter de fazer quaisquer suposições sobre as populações
amostradas (FREUND, 2006). Sob a hipótese nula de não haver qualquer correlação -
na realidade, a hipótese nula de que os x e os y estejam aleatoriamente emparelhados
- a distribuição amostral de rs tem a média 0 e o desvio-padrão
σrs =
1√
n−1 (2.13)
2.2 ESTATÍSTICA 49
como essa distribuição pode ser aproximada por uma distribuição normal mesmo
para valores relativamente pequenos de n, baseia-se o teste da hipótese nula na es-
tatística que aproximadamente a distribuição normal padrão.
Estatística para testar a significância de rs
z= rs
√
n−1 (2.14)
2.2.4 Correlação Parcial
A estatística denominada coeficiente de correlação parcial desempenha satisfato-
riamente a função de eliminar os efeitos de outras variáveis (FREUND, 2006), (CAM-
POS, 2003), (LAPPONI, 2005) e (NEUFELD, 2003).
rxy,z =
rxy− rxz ryz√
1− rxz2
√
1− ryz2
(2.15)
2.2.5 Intervalo entre Q1 e Q3
Para evitar a possibilidade de indução ao erro por algum valor extremo (muito
pequeno ou muito grande), pode ser recomendável omitir um tal dado suspeito, ou
então usar uma outra medida estatística que não a média. Talvez a mediana que, não
é tão sensível a um dado suspeito como a média (CAMPOS, 2003).
Uma estratégia para tratar dados suspeitos e outras irregularidades é utilizar méto-
dos numéricos resistentes que pouco são afetados pelos dados suspeitos. O primeiro
quartil, a mediana e o terceiro quartil avaliam a forma da parte central e a variabili-
dade da distribuição de frequência da amostra. Uma das aplicações do IEQ (intervalo
entre o primeiro quartil e o terceiro quartil, também denominado IQR - InterQuantile
Range) é a detecção de valores suspeitos de uma variável. Embora o IEQ ajude a
retirar um dado suspeito da amostra por considerá-lo suspeito, essa decisão deve ser
acompanhada de um criterioso julgamento (LAPPONI, 2005), (BORGES, 2006) e (R
Development Core Team, 2008).
O valor x de uma variável é considerado possível suspeito se estiver no intervalo
Q1−3IEQ< x< Q1−1,5IEQ ou no intervalo Q3+1,5IEQ< x< Q3+3IEQ.
2.2 ESTATÍSTICA 50
O valor de x de uma variável é considerado suspeito se x < Q1− 3IEQ ou x >
Q3+3IEQ.
Sendo que IEQ= Q3−Q1.
A detecção de dados suspeitos não é um processo trivial. Uma técnica utilizada é
a inspeção visual, válida até 3 dimensões, além da visual, existem também técnicas
de análise exploratória para dados multivariados, por exemplo, o teste de Hotelling
(BORGES, 2006). O boxplot é uma forma gráfica para mostrar os possíveis dados
suspeitos. Estudos de repetitividade e reprodutibilidade (R&R) determinam quanto da
variação observada do processo é devida à variação do sistema de medição, verifi-
cando a sua adequação. O gráfico sequencial auxilia na detecção de padrões nos
conjuntos de dados. Então, uma questão é feita: Fazendo um gráfico sequencial para
amostras univariadas, pode-se constatar alguma tendência? Para responder a esta
pergunta primeiro é preciso saber o que pode produzir dados suspeitos (LAPPONI,
2005):
• Erros de medição;
• Valores default assumidos durante o preenchimento de uma base de dados, po-
dem corresponder a valores reais mas pertencentes a uma base de dados des-
balanceada.
As características do IEQ são (LAPPONI, 2005):
• É uma medida simples, fácil de ser calculada e automatizada.
• Mede a distribuição da metade dos dados da amostra situados ao redor da me-
diana.
• É uma medida resistente, pois não é afetado pelos dados extremos da amostra
ou variável.
Contudo essa medida não é suficiente para avaliar a variabilidade de uma amostra
ou variável, pois envolve apenas os valores centrais, deixando de considerar os valo-
res extremos que também são importantes, os restantes 50% dos dados (BORGES,
2006).
2.2 ESTATÍSTICA 51
2.2.6 Teste de Proficiência
O IQRnorm, significa o intervalo interquartil normalizado calculado da seguinte
forma (IUPAC; ISO; AOAC, 2004) e (BORGES, 2006):
IQRnorm = 0.7413Q3−0.7413Q1 (2.16)
A interpretação do z-score é apresentada a seguir (IUPAC; ISO; AOAC, 2004) e
(BORGES, 2006):
• z< 2 Resultado satisfatório
• 2< z< 3 Resultado questionável
• z> 3 Resultado insatisfatório

Outros materiais