Buscar

Correlação e Regressão

Prévia do material em texto

UNIVERSIDADE FEDERAL DA BAHIA
ESCOLA POLITÉCNICA
DEPARTAMENTO DE CIÊNCIA E TECNOLOGIA DOS MATERIAIS
VICTOR BISPO VARJÃO
CORRELAÇÃO E REGRESSÃO: DETERMINAÇÃO DA DOSAGEM ÓTIMA DE REAGENTE NA FLOTAÇÃO REVERSA DE MAGNESITA
Salvador
2014
VICTOR BISPO VARJÃO
CORRELAÇÃO E REGRESSÃO: DETERMINAÇÃO DA DOSAGEM ÓTIMA DE REAGENTE NA FLOTAÇÃO REVERSA DE MAGNESITA
Trabalho individual realizado pelo discente Victor Bispo Varjão, graduando do oitavo semestre do curso de Engenharia de Minas, como instrumento de avaliação da disciplina Métodos de Administração de Minas.
Professor: José Barbosa Filho
Salvador
2014
RESUMO
Este trabalho tem como objetivo explicar o potencial da correlação e da regressão através de um estudo inicial das possíveis formas de se correlacionar duas variáveis e da aplicação deste estudo num conjunto de dados passíveis de correlação, sendo calculados o grau de ajuste e o coeficiente correlação entre as variáveis.
Palavras-chave: Correlação; Regressão; Grau de ajuste; Coeficiente de correlação.
ABSTRACT
This paper aims to explain the potential of correlation and regression through an initial study of the possible ways to correlate two variables and the application of this study a set of data which can be correlated and therefore calculated the degree of adjustment and the coefficient correlation between variables.
Keywords: Correlation, Regression, Correlation Coefficient.
SUMÁRIO
1 INTRODUÇÃO	5
1.1 OBJETIVOS	5
2 METODOLOGIA	5
2.1 AS FUNÇÕES REPRESENTATIVAS	7
2.1.1 Função Linear	7
2.1.2 Função Potencial	9
2.1.3 Função Exponencial	11
2.1.4 Função Logarítmica	12
2.1.5 Função Hiperbólica	13
3 FLOTAÇÃO DE MAGNESITA	15
4 CORRELAÇÃO	16
4.1 FUNÇÃO LINEAR	17
4.2 FUNÇÃO POTENCIAL	19
4.3 FUNÇÃO EXPONENCIAL	20
4.4 FUNÇÃO LOGARÍTMICA	21
4.5 FUNÇÃO HIPERBÓLICA	23
5 REGRESSÃO	24
6 RESULTADOS E DISCUSSÃO	25
6 CONCLUSÕES	26
REFERÊNCIAS	26
1 INTRODUÇÃO
Na engenharia, muitas vezes busca-se responder questões que se referem ao conhecimento da associação e do grau de associação entre duas ou mais variáveis. Nesses estudos, deve-se inicialmente analisar o comportamento simultâneo das variáveis, tomadas duas a duas, verificando se a variação positiva (ou negativa) de uma delas está associada a uma variação positiva (ou negativa) da outra, ou mesmo, se não há nenhuma forma de dependência entre elas. Em outras palavras, na engenharia busca-se responder questões sobre correlação e regressão.
1.1 OBJETIVOS
O presente trabalho tem como objetivos esclarecer e fundamentar o uso da correlação e da regressão para a interpolação e extrapolação através da aplicação destes num conjunto de dados, estabelecendo correlação entre quantidade de reagente e recuperação na flotação reversa de magnesita. 
Este trabalho faz parte da avaliação da disciplina Métodos de Administração de Minas, ministrada por José Barbosa Filho, professor da Escola Politécnica da Universidade Federal da Bahia.
2 METODOLOGIA
Ao se estudar uma variável o interesse eram as medidas de tendência central, dispersão, assimetria, etc. Com duas ou mais variáveis além destas medidas individuais também é de interesse conhecer se elas têm algum relacionamento entre si, isto é, se valores altos (baixos) de uma das variáveis implicam em valores altos (ou baixos) da outra variável. Frequentemente é necessário estudar o relacionamento entre duas ou mais variáveis. Ao estudo do relacionamento entre duas ou mais variáveis denominamos de correlação e regressão.
Nesses estudos, deve-se inicialmente analisar o comportamento simultâneo das variáveis, tomadas duas a duas, verificando se a variação positiva (ou negativa) de uma delas está associada a uma variação positiva (ou negativa) da outra, ou mesmo, se não há nenhuma forma de dependência entre elas. Desse modo, inicialmente é realizada a elaboração de um diagrama de dispersão entre as observações simultâneas das variáveis. O diagrama de dispersão permite visualizar o grau de associação entre as variáveis e a tendência de variação conjunta que apresentam. A Figura 01 mostra exemplos de variação conjunta entre duas variáveis.
Figura 01 – Exemplos de relacionamento entre duas variáveis aleatórias.
Fonte: VIALI L. Série Estatística Básica. Texto V: Correlação e regressão.
A análise de correlação fornece um número que resume o grau de relacionamento linear entre as duas variáveis. Já a análise de regressão fornece uma equação que descreve o comportamento de uma das variáveis em função do comportamento da outra variável.
A medida da variação conjunta das variáveis ou covariação observada em um diagrama de dispersão é a correlação entre as duas variáveis. Essa medida é realizada por meio dos coeficientes de correlação que representam o grau de associação entre duas variáveis continuas. As medidas de correlação podem ser designadas por “r”, são adimensionais e variam entre -1 e +1. No caso de r=0, não existe correlação entre as duas variáveis. Já Quando r>0, a correlação é positiva e uma variável aumenta quando a outra cresce enquanto se r< 0, a correlação é negativa e as variáveis variam em direções opostas.
A correlação é chamada de monotônica quando o crescimento de uma variável faz a outra crescer sem nunca decrescer ou decrescer sem nunca crescer, e é chamada de não monotônica se o crescimento de uma variável faz a outra crescer em um dado intervalo e decrescer em outro. A Figura 02 mostra exemplos de correlações monotônica e não monotônica.
Figura 02 – Exemplos de correlação monotônica e não monotônica.
Fonte: NAGHETTINI & PINTO. Hidrologia estatística: Correlação e regressão.
2.1 AS FUNÇÕES REPRESENTATIVAS
Para descobrir qual o tipo de correlação que o conjunto de dados mais adere alguns parâmetros devem ser encontrados e depois, o grau de ajuste e o coeficiente de correlação devem ser determinados. O conjunto de dados irá aderir a função que possuir o maior grau de ajuste, pois este indica que ela adere melhor a essa função.
As correlações podem ser de vários tipos, a depender de como suas variáveis se relacionam. Neste trabalho serão abordados seis tipos de correlação, a Linear, a Logarítmica, a Potencial, a Exponencial e a Hiperbólica.
2.1.1 Função Linear
Duas variáveis são linearmente correlacionadas quando os pontos do diagrama de dispersão se aproximam de uma reta. Essa correlação pode ser positiva (para valores crescentes de X, os valores de Y também crescem) ou negativa (para valores crescentes de X, os valores de Y decrescem). A Figura 03 mostra uma correlação linear positiva e uma negativa.
Figura 03 – Correlação linear negativa a esquerda e correlação linear positiva a direita.
Fonte: MEDEIROS L. Notas de aula: Correlação e regressão. UFPB.
Para verificar se a correlação é linear é necessária a determinação dos parâmetros “a” e “b”. Sendo a equação linear dada por:
											(01)
Os parâmetros “a” e “b” são calculados da seguinte forma:
 											(02)
Onde:
Sxy é a covariância de x em relação a y;
Sxx é a variância de x.
A covariância Sxy é dada por:
										(03)
A variância Sxx é dada por:
										(04)
O parâmetro “a” pode ser obtido através da substituição do parâmetro b na fórmula (01):
										(05)
Onde:
y̅ é a média dos y;
x̅ é a média dos x.
A equação final representativa da função linear para o diagrama de dispersão analisado será:
										(06)
	Onde:
acalc é o parâmetro “a” calculado;
bcalc é o parâmetro “b” calculado.
Tendo a equação, pode-se calcular o coeficiente de determinação R².
 										(07)
Onde:
Sxy é a covariância de x em relação a y;
Sxx é a variância de x;
Syy é a variância de y.
A variância Syy é dada por:
										(08)
A correlação r é dada por:
											(09)
2.1.2 Função Potencial
Duas variáveis são potencialmente correlacionadas quando os pontos do diagrama de dispersão se aproximam de uma função potencial. Para verificar se a correlaçãoé potencial, é necessária a determinação dos parâmetros “a” e “b”. Sendo a equação potencial dada por:
 											(10)
Encontrar o parâmetro “b” desta função não é tão fácil quanto o da função linear, felizmente algumas funções podem ser linearizadas mediante o uso de transformações adequadas (anamorfose) permitindo a aplicação das equações vistas no item 2.1.1 para calculo dos parâmetros. Partindo da equação (10):
										(11)
Considerando a equação (11), pode-se renomear seus termos de modo a facilitar a realização e visualização dos cálculos, assim é possível nomear:
ln y como c;
ln a como d;
ln x como e.
Desse modo a equação (11) pode ser visualizada como na equação (12) seguir:
											 (12)
Desse modo é possível reescrever as equações (02), (03) e (04) como (13), (14) e (15):
 											(13)
			(14)
					(15)
Considerando as propriedades dos logaritmos pode-se afirmar que:
											(16)
Logo:
Então:
										(17)
A equação final representativa da função linear para o diagrama de dispersão analisado será:
										(18)
O coeficiente de determinação é dado por: 
										(19)
A variância de “c” é dada por:
							(20)
A correlação “r” é dada pela equação (09).
2.1.3 Função Exponencial
Duas variáveis são exponencialmente correlacionadas quando os pontos do diagrama de dispersão se aproximam de uma função exponencial. Para verificar se a correlação é exponencial, é necessária a determinação dos parâmetros “a” e “b”. Sendo a equação potencial dada por:
 											 (21)
Da mesma forma feita para a equação potencial utiliza-se a anamorfose para linearizar a equação:
 
 
									(22)
Considerando a equação (22), pode-se renomear seus termos de modo a facilitar a realização e visualização dos cálculos, assim é possível nomear:
ln y como c;
ln a como d;
Desse modo a equação (22) pode ser visualizada como na equação (23) seguir:
											 (23)
De modo que é possível reescrever as equações (02), (03) e (04) como (24), (25) e (26):
										 	(24)
					(25)
									(26)
Utilizando a equação (16), pode-se dizer que:
Então:
										(27)
A equação final representativa da função linear para o diagrama de dispersão analisado será:
										(28)
O coeficiente de determinação é dado por: 
			 								(29)
A variância de “c” é dada por:
								(30)
A correlação “r” é dada pela equação (09).
2.1.4 Função Logarítmica
Duas variáveis são correlacionadas quando os pontos do diagrama de dispersão se aproximam de uma função logarítmica. Para verificar se a correlação é logarítmica, é necessária determinar os parâmetros “a” e “b”. Sendo a equação logarítmica fundamental dada por:
 										(31)
Considerando a equação (31), pode-se renomear seus termos de modo a facilitar a realização e visualização dos cálculos, assim é possível nomear:
ln x como e;
Desse modo a equação (31) pode ser visualizada como na equação (32) seguir:
							 			(32)
Desse modo é possível reescrever as equações (02), (03) e (04) como (33), (34) e (35):
 											 (33)
					 (34)
					 (35)
O parâmetro “a” pode ser encontrado pela equação (36):
 										 (36)
A equação final representativa da função linear para o diagrama de dispersão analisado será:
									 (37)
O coeficiente de determinação é dado por: 
		 								 (38)
A variância de “y” é dada pela equação (08), representada abaixo:
A correlação “r” é dada pela equação (09).
2.1.5 Função Hiperbólica
Duas variáveis são hiperbolicamente correlacionadas quando os pontos do diagrama de dispersão se aproximam de uma função hiperbólica. Para verificar se a correlação é hiperbólica, é necessária a determinação dos parâmetros “a” e “b”. Sendo a equação hiperbólica dada por:
											(39)
Considerando a equação (39), pode-se renomear seus termos de modo a facilitar a realização e visualização dos cálculos, assim é possível nomear:
 como w;
Desse modo a equação (39) pode ser visualizada como na equação (40) seguir:
											 (40)
De modo que é possível reescrever as equações (02), (03) e (04) como (41), (42) e (43):
										 	(41)
					(42)
									(43)
O parâmetro “a” pode ser obtido através da substituição do parâmetro “b” na fórmula (40):
										(44)
A equação final representativa da função hiperbólica para o diagrama de dispersão analisado será:
										(45)
O coeficiente de determinação é dado por: 
			 								(46)
A variância de “y” é dada pela equação (08) e a correlação “r” é dada pela equação (09).
3 FLOTAÇÃO DE MAGNESITA
O exemplo que iremos utilizar para a consolidação do conhecimento sobre correlação e regressão é baseado em uma tabela que relaciona quatro variáveis no processo de flotação de magnesita de uma empresa de mineração.
A flotação é um processo de separação e concentração possibilitada pela exploração da característica hidrofóbica da superfície das partículas, essa hidrofobicidade pode ser natural ou induzida pela adição de reagentes como os coletores; as minúcias do processo são diversas e variam de acordo com as espécies minerais presentes na polpa, envolvem o uso de espumantes, ativadores e depressores em muitos casos, no entanto essa análise não é relevante para o conteúdo desse relatório.
A figura 4 mostra uma tabela retirada de um trabalho de conclusão de curso que envolvia o estudo da recuperação do processo de flotação em relação a quantidade de reagentes e teores presentes na polpa.
Figura 4 – Relação entre teor de sílica, porcentagem de sólidos, quantidade de reagente e recuperação.
4 CORRELAÇÃO
Para a análise de correlação e regressão iremos considerar que a variável reagente explica a variável recuperação, portanto o “x”, ou variável explicativa será a quantidade de reagente em g/t e o “y”, ou variável explicada será a recuperação em porcentagem, como mostrado na figura 4 e destacado na tabela 1, abaixo.
Tabela 1 – Relação entre quantidade de reagente e recuperação
Como já mencionado, serão testadas possíveis correlações com as funções Linear, Potencial, Exponencial, Logarítmica e Hiperbólica. No item 2.1 (Funções Representativas) deste trabalho, foi observado que para encontrar os parâmetros dessas quatro funções são necessários os somatórios de x, y, (x.y), 1/x, (1/x)2, ln x, ln y, (ln x . ln y), (ln x)² e (ln y)² assim, para facilitar os cálculos a tabela 02 foi criada.
Tabela 2 – Somatórios auxiliares aos cálculos de correlação e regressão.
4.1 FUNÇÃO LINEAR
Pelas equações (03), (04) e (08) respectivamente:
O parâmetro “b” pode ser obtido pela equação (02):
O parâmetro “b” pode ser obtido pela equação (05):
Através de equação (06) é possível encontrar a função linear que correlaciona a quantidade de reagente e a recuperação:
								(47)
A equação (47) representa a função linear que correlaciona a quantidade de reagente na flotação e a recuperação de minério no concentrado.
A Figura 05 mostra graficamente a relação entre a equação encontrada e os pontos reais.
Figura 05 – Comparação entre a função linear encontrada e os valores reais.
Tendo a equação, pode-se calcular o coeficiente de determinação R².
 
A correlação r pode ser calculada pela equação (09):
 
	Os resultados permitem afirmar que a equação (47) tem um grau de ajuste de 77,05%.
4.2 FUNÇÃO POTENCIAL
Pelas equações (14), (15), (20) e (13) respectivamente:
O parâmetro “a” pode ser calculado pela equação (17):
A função potencial será:
									(48)
A Figura 06 mostra graficamente a relação entre a equação encontrada e os pontos reais.
Figura 06 – Comparação entre a função potencial encontrada e os valores reais.
O coeficiente de determinação é dado por: 
A correlação “r” é dada pela equação (09).
r = ± 0,903753
Os resultados permitem afirmar que a equação (48) tem um grau de ajuste de 81,67%.
4.3 FUNÇÃO EXPONENCIAL
Pelas equações (25), (26) e (30) respectivamente: 
O parâmetro “b” pode ser calculado pela equação (24):
O parâmetro “a” podeser calculado pela equação (27): 
A equação final representativa da função exponencial para o diagrama de dispersão analisado será:
								 (49)
A Figura 07 mostra graficamente a relação entre a equação encontrada e os pontos reais.
Figura 07 – Comparação entre a função exponencial encontrada e os valores reais.
O coeficiente de determinação é dado por: 
A correlação “r” é dada pela equação (09).
r= ± 0,876288
	Os resultados permitem afirmar que a equação (49) tem um grau de ajuste de 76,79%.
4.4 FUNÇÃO LOGARÍTMICA
Pela equação (34), (35) e (08) respectivamente:
O parâmetro “b” pode ser calculado pela equação (33):
O parâmetro “a” pode ser encontrado pela equação (36): 
A equação final representativa da função logarítmica para o diagrama de dispersão analisado será:
									(50)
A Figura 08 mostra graficamente a relação entre a equação encontrada e os pontos reais.
Figura 08 – Comparação entre a função logarítmica encontrada e os valores reais.
O coeficiente de determinação é dado por: 
A correlação “r” é dada pela equação (09).
r = ± 0,904574
Os resultados permitem afirmar que a equação (50) tem um grau de ajuste de 81,83%.
4.5 FUNÇÃO HIPERBÓLICA
Pela equação (42), (43) e (08) respectivamente:
	O parâmetro “b” pode ser calculado pela equação (41):
O parâmetro “a” pode ser encontrado pela equação (44): 
A equação final representativa da função hiperbólica para o diagrama de dispersão analisado será:
								(51)
A Figura 09 mostra graficamente a relação entre a equação encontrada e os pontos reais.
Figura 09 – Comparação entre a função hiperbólica encontrada e os valores reais.
O coeficiente de determinação é dado por: 
A correlação “r” é dada pela equação (09).
r = ± 0,926781
Os resultados permitem afirmar que a equação (51) tem um grau de ajuste de 85,89%.
5 REGRESSÃO
Regressão é o nome dado ao uso da função encontrada na correlação para encontrar dados não disponíveis, ou seja, que não pertencem ao conjunto de dados inicial. A regressão pode ser usada para encontrar pontos interpolados ou extrapolados, sendo que os valores interpolados são mais confiáveis que os extrapolados. Vale lembrar que a extrapolação não deve exceder a 20% dos valores reais.
Considerando a função hiperbólica encontrada (escolhida por ter o maior grau de ajuste), é possível estimar com confiança os valores de recuperação não presentes nos valores reais. A Figura 10 mostra uma curva formada por 200 pontos (x,y), obtidos a partir da equação (51). A partir desta curva é possível estimar uma porcentagem de recuperação Y a partir de uma quantidade de reagente X. A recuperação encontrada não será a real, mas uma estimativa desta.
Figura 10 – Curva formada por 200 pontos, obtidos a partir da função hiperbólica (51).
6 RESULTADOS E DISCUSSÃO
O estudo da correlação entre a quantidade de reagente e a recuperação na flotação reversa de magnesita mostrou que a função que mais se aproxima do fenômeno real foi a hiperbólica, com um grau de ajuste de mais de 85%, de modo que dentre as quatro funções, esta deve ser escolhida para realizar a regressão. A tabela 3 mostra uma comparação entre os graus de ajuste obtidos para cada função.
Tabela 3 – Comparação entre funções.
A figura 11 mostra graficamente a relação entre cada função e os valores reais e torna mais fácil o entendimento do significado do grau de ajuste. É possível confirmar que as funções hiperbólica, potencial e logarítmica têm uma aderência muito maior a correlação estabelecida que as funções linear e exponencial.
Figura 10 – Comparação entre todas as funções de correlação e os valores reais.
6 CONCLUSÕES
Conclui-se que a correlação é extremamente importante, pois permite que inúmeros fenômenos sejam previstos ou estimados através da regressão, de forma que o domínio e compreensão dos métodos utilizados para associar matematicamente duas variáveis correlacionadas são essenciais, não só para engenheiros, mas para todos os que se predispõem a entender fenômenos naturais e sociais. Deve-se, no entanto, lembrar que nem sempre é possível colocar todas as variáveis em uma única equação, de modo que os diagramas de correlação não devem ser tratados como verdade absoluta, mas como ferramentas que auxiliam a compreensão de um determinado fenômeno, assim o verdadeiro potencial da correlação e regressão não está no diagrama final, mas na interpretação que ocorrerá sobre ele.
REFERÊNCIAS
BARBOSA FILHO, J. Métodos de administração de minas. Aulas proferidas na Escola Politécnica da Universidade Federal da Bahia, segundo semestre, 2014.
VIALI, L. Série estatística básica: Correlação e regressão. Disponível em: <http://www.pucrs.br/famat/viali/graduacao/engenharias/material/apostilas> Acesso em: 29 de novembro de 2014.
NAGHETTINI, M.; PINTO, E. J. A. Hidrologia estatística: Correlação e regressão. Belo Horizonte: CPRM, 2007.
PAIVA, M. R. Matemática / Manoel Rodrigues Paiva. 1ª edição. São Paulo: Editora Moderna, 1995.
SANTOS, A. S.; SANTOS, E. S. Correlação e regressão estatística. Disponível em: <http://www.ebah.com.br/content/ABAAAAldsAI/correlacao-regressao-linear> Acesso em: 29 de novembro de 2014.

Continue navegando