Baixe o app para aproveitar ainda mais
Prévia do material em texto
Regressão Como foi salientado anteriormente, uma forte relação entre duas variáveis pode ajudar-nos a inferir uma variável desde que a outra seja conhecida. A forma mais simples para executar esse tipo de previsão é a regressão linear, na qual assumimos que a dependência de uma variável em função da outra pode ser descrita pela equação da reta do tipo: Os coeficientes a e b são obtidos pelo método dos Mínimos Quadrados (a reta ajustada aos pontos do mapa de dispersão (x versus y) visa minimizar a soma dos quadrados dos erros, sendo erro a diferença entre o valor real e a estimativa de Y). x e y = valores dos atributos X e Y. Por exemplo, teor de cobre (X) e teor de ouro (Y) O ângulo de inclinação, a, e a constante, b, são dados por: n – número de dados usados na regressão mx – média de x my – média de y r – coeficiente de correlação ou Se usarmos os 100 pares de valores de V-U para calcular a equação de regressão linear para prever os valores de V a partir de U, teremos: Intervalo de Confiança Para o Valor de Y Anteriormente, foi obtida a estimativa (y’) do atributo Y, considerando o valor do atributo X, em um mesmo local. Considerando a estimativa y’ e o possível erro associado à essa estimativa, pode-se determinar o intervalo que contém o verdadeiro valor de Y. A seguinte equação define o intervalo que contém o valor real de Y, com uma confiança de 100(1-)% onde: S2y/x é a variância do erro da regressão Suposição: Para um dado valor x, a distribuição dos possíveis valores de Y é normal x = valor de X utilizado na regressão t = distribuição t-student A largura do intervalo de confiança varia com o x utilizado na regressão. Essa largura é mínima quando o x é igual à média de X No exemplo: Confiança de 95% Mesmo exemplo usando 100 pares de U e V Quando utiliza-se regressões para sumarizar a relação de duas variáveis, deve-se atentar se a curva da função ajustada descreve adequadamente a relação em faixas de valores que nos interesse. Continuando com a teoria sobre regressão... Embora saiba-se que um polinômio de ordem elevada sempre proverá um melhor ajuste no sentido puramente matemático, deve-se atentar se a curva da função ajustada descreve adequadamente a relação física esperada entre as duas variáveis. Algumas vezes pode-se estar somente representando peculiaridades dos dados disponíveis sem nenhum sentido prático/físico Distribuição condicional Em caso de termos que analisar um número grande de histogramas condicionais, todos com o sumário estatístico completo, faz-se útil uma ferramenta de análise mais concisa, usar gráficos mostrando como as estatísticas condicionais mudam em função dos dados condicionantes. Gráficos de estatísticas condicionais podem ser sumarizados ajustando uma função a ele. Embora a regressão seja comumente utilizada para sumarizar as variações da média de uma das variáveis, na medida que um segundo atributo varia, outras estatísticas também podem ser calculadas usando o mesmo procedimento (desvio padrão, por exemplo). G g b ax y + = ( ) ( ) å å × - × × - × = 2 x 2 i y x i i m n x m m n y x a x y m a m b × - = x y a s s r = ( ) ( ) 5 , 11 V 31 , 0 U 5 , 11 ) 6 , 97 ( 31 , 0 1 , 19 b 31 , 0 3 , 26 84 , 9 84 , 0 a 84 , 0 3 , 26 84 , 9 66 , 216 - = - = - = = ÷ ø ö ç è æ = = × = r ( ) ÷ ÷ ÷ ÷ ø ö ç ç ç ç è æ × - - + + × × ± å = - a 2 x n 1 i 2 i 2 x x y 2 n ; 2 m n x m x n 1 1 S t ' y ( ) ( ) 2 n y x a y b y S i i i 2 i 2 x y - × × - × - = å å å ( ) 63 , 11 ) 56 , 97 ( 100 1020919 56 , 97 x 100 1 1 43 , 5 2 ' y 0 x Se 2 2 = ÷ ÷ ø ö ç ç è æ × - - + + × × ± = 43 , 5 98 82 , 207934 313 , 0 ) 1909 47 , 11 ( 3 , 46127 S x y = × - × - - =
Compartilhar