Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 ANÁLISE DE REGRESSÃO APLICADA À PESQUISA AGRÍCOLA Manoel Carlos Gonçalves 7 a EDIÇÃO - 2010 Revista e Ampliada 2 Manoel Carlos Gonçalves Professor Associado da UFGD ANÁLISE DE REGRESSÃO APLICADA À PESQUISA AGRÍCOLA 7 a Edição – Revista e Ampliada Universidade Federal da Grande Dourados 2010 3 4 APRESENTAÇÃO Com a ampla utilização de microcomputadores e o desenvolvimento de aplicativos computacionais de estatística, as técnicas de regressão, correlação, covariância, superfície de resposta e outras técnicas relacionadas, estão sendo grandemente aplicadas na análise e interpretação de dados experimentais. Entretanto, raros são os livros em português, que apresentam os vários princípios e métodos utilizados na análise de dados por meio destas técnicas. Diante do exposto foi realizado um esforço no sentido de apresentar um livro que proporcione aos estudantes, pesquisadores e docentes os conhecimentos teóricos básicos e as aplicações dos vários métodos e procedimentos de regressão linear simples e múltipla, regressão não-linear, correlação simples e parcial, análise de co-variância, metodologia de superfície de resposta, dentre outros. Sem perda de informações básicas fundamentais, procurou-se enfocar, principalmente, os ensinamentos de como analisar e interpretar os dados provenientes de pesquisa agrícola. Todas as incorreções existentes neste livro são de inteira responsabilidade do autor. Desde já agradecemos as críticas e eventuais correções por parte dos leitores, o que, seguramente, contribuirá para a melhoria deste livro em novas edições. O autor PREFÁCIO À 7 a EDIÇÃO Nesta edição foi acrescentado um capítulo que aborda os conceitos básicos de estatística (Capítulo I). O Capítulo III sobre Regressão Linear Simples foi ampliado, principalmente para acomodar informações sobre Valor Esperado das Somas de Quadrados e Teste para Falta de Ajuste. Foi acrescentado ainda um capítulo sobre diagnóstico de problemas e medidas corretivas em análise de regressão (Capítulo XIII). Agradecemos aos leitores, principalmente os estudantes de pós-graduação pelas sugestões apresentadas para o aperfeiçoamento do livro. Certamente que, algumas incorreções, ainda permanecem, de forma que críticas e sugestões para a melhoria do texto ora apresentado serão sempre bem vindas. O autor. 5 SUMÁRIO 0 - INTRODUÇÃO ...................................................................................................... 01 I – CONCEITOS BÁSICOS DE ESTATÍSTICA .......................................................... .05 II - CONCEITOS DE REGRESSÃO E CORRELAÇÃO .................................................27 III - REGRESSÃO LINEAR SIMPLES ...........................................................................30 IV - CORRELAÇÃO SIMPLES ......................................................................................48 V - REGRESSÃO LINEAR MÚLTIPLA ........................................................................57. VI - CORRELAÇÃO MÚLTIPLA E PARCIAL ..............................................................67. VII - REGRESSÃO POLINOMIAL ............................................................................... 72 VIII - REGRESSÃO NÃO LINEAR ........................................................................... 81 IX - ANÁLISE DE COVARIÂNCIA .......................................................................... 100 X - USO DE VARIÁVEIS BINÁRIAS (“DUMMY”) ..................................................... 124 XI - ABORDAGEM MATRICIAL EM REGRESSÃO LINEAR ............................. 136 XII - METODOLOGIA DE SUPERFÍCIE DE RESPOSTA .............................................. 156 XIII – DIAGNÓSTICOS E MEDIDAS CORRETIVAS EM ANÁLISE DE REGRESSÃO..................................................................................................... 179 6 XIV - EXERCÍCIOS RESOLVIDOS, PROPOSTOS E COMENTÁRIOS ADICIONAIS . 199 BIBLIOGRAFIA ...................................................................................................... 238 APÊNDICE ............................................................................................................ 241 7 CAPÍTULO 0 INTRODUÇÃO 0.1 - Procedimentos para Comparações Múltiplas versus Fatores Quantitativos O problema de comparações múltiplas tem recebido muita atenção na literatura estatística. Entretanto, isto não significa que este seja o melhor procedimento a ser empregado numa determinada situação. Embora as comparações múltiplas sejam frequentemente empregadas após uma análise de variância exploratória dos dados experimentais, existem situações onde elas não devem ser aplicadas. As fontes de variação que afetam uma variável nem sempre são controláveis por um delineamento experimental. Em muitas áreas da pesquisa agropecuária a variação nas medições experimentais de uma variável é causada, numa grande extensão, por outras variáveis relacionadas. Para incorporar explicitamente os dados destas variáveis influentes na inferência e comparação das respostas médias através de procedimentos de comparações múltiplas. Frequentemente, é preciso encontrar a natureza do relacionamento e então utilizar esta informação para melhorar a descrição e as inferências acerca da variável de interesse primário. O estabelecimento da relação entre as variáveis é importante também porque o valor da variável resposta pode ser predito ou mesmo controlado e otimizado pela “manipulação” dos fatores que influenciam o processo. Isto ocorre com tratamentos quantitativos, tais como, densidade de plantas ou dose de fertilizante aplicado, em mais de dois níveis, onde existe uma continuidade, e, portanto, um relacionamento entre um nível de tratamento e outro, de forma que o número de níveis de tratamentos possível de ser testado é infinito. Embora apenas uns poucos níveis de tratamento possam ser testados num ensaio de campo, o pesquisador geralmente está interessado em toda a faixa de níveis de tratamentos. Consequentemente, os tipos de comparações de médias que se focalizam apenas sobre o tratamento que está sendo testado não são adequados para estes casos. Portanto, os procedimentos de comparações múltiplas seriam inúteis para fatores quantitativos. Entretanto, é frequente na literatura biológica, curvas, ou mais comumente linhas retas ligadas, que apresentam barras verticais de desvio padrão calculados individualmente para cada dose-resposta observada, adornadas com uma barra de diferença crítica baseada no teste t de Student (DMS) ou no teste de Tukey; pode-se encontrar ainda letras que são colocadas para indicar a significância de grupos de médias de fatores quantitativos com base no teste de Duncan. A lamentável consequência disto é que geralmente inferências úteis são perdidas, obscurecidas por uma rede de testes independentes com taxas de erro variáveis e às vezes explícitas. Em alguns casos, linhas de pesquisas importantes podem ser deixadas de lado porque uma tendência real dos dados não foi detectada, devidoao mal uso de um instrumento que é a inferência estatística. 8 Observa-se, portanto, que os procedimentos de comparações múltiplas são frequentemente sujeitos a mal usos e abusos nas suas aplicações práticas. Dois tipos patentes de abusos são: a utilização de tais procedimentos na comparação de tratamentos que são fatoriais na sua natureza e na comparação de vários níveis de fatores quantitativos. No primeiro caso, os graus de liberdade da soma de quadrados de tratamentos poderia ser particionada em efeitos principais e interações. No outro caso, a análise de regressão é a técnica apropriada. Se a regressão for significativa, não é necessário qualquer procedimento de comparação múltipla, porque todos os níveis de tratamentos (inclusive algum intermediário não utilizado no experimento) apresentam efeitos significativamente diferentes. É sempre preferível e até recomendável, particionar os graus de liberdade da soma de quadrados de tratamentos, no caso de experimentos fatoriais ou se os tratamentos consistem de vários níveis de um fator, antes de examinar os dados experimentais. Com fatores quantitativos (por exemplo, temperatura, umidade, pH, doses de um fertilizante), a análise de regressão ou ajustamento de curvas é a técnica mais apropriada. Os graus de liberdade e a soma de quadrados de tratamentos podem ser particionadas em componentes devidos a regressão linear (1° grau), quadrática (2° grau), cúbica (3° grau) ou quártica (4° grau). Quando se tem um conhecimento prévio do modelo estatístico que se ajusta aos dados (por exemplo, logístico, Mitscherlich, Gompertz, etc.) estas equações podem ser utilizadas. Entretanto, na maioria dos experimentos agronômicos, o modelo matemático é adaptado através de polinômios da forma Y = b0 + b1X + b2X 2 + ... + bnX n . Dentro de uma faixa limitada da variável independente, a aproximação polinomial é geralmente satisfatória, se a resposta desejada não for para um nível fora da faixa experimental de X, caso em que uma curva assintótica seria ajustada. Ao comparar os efeitos de, por exemplo, 20, 30, 40 e 50 ppm de P sobre a produtividade de grãos de soja, se a regressão linear e/ou quadrática da resposta for significativa, então não é necessário qualquer procedimento de comparação múltipla. Suponha que a equação ajustada seja = 15,4 + 23,6X, então espera-se um aumento de 23,6 unidades em y para cada unidade de aumento em X. Desta forma, não somente 20 e 40 ppm serão significativamente diferentes, mas também 20 e 20,1 ppm. É claro que, a diferença entre os efeitos de 20 e 20,1 ppm será muito pequena; entretanto, os testes de significância usuais não dizem respeito à magnitude da diferença, mas apenas se existe ou não uma diferença verdadeira, não importando quão pequena ela seja. As considerações anteriores são válidas também para o caso de dois ou mais fatores quantitativos. Se a regressão é significativa, todas as combinações (não apenas aquelas usadas no experimento, mas também comparações intermediárias), são significativamente diferentes. Portanto, a utilização de comparações múltiplas seria totalmente inútil. Pode ser provado, através de lógica não algébrica, que os testes de comparações múltiplas são falhos para os casos de fatores quantitativos com vários níveis. Considere, por exemplo, um estudo de dose-resposta com quatro níveis da dose, denominados 1, 2, 3 e 4. Não é bastante óbvio que, um teste de significância entre duas respostas médias quaisquer, deve ser incompleto pelo fato de não se usar a influência das médias vizinhas que estão a elas relacionadas? Não seria a diferença de resposta entre o Nível 2 e o Nível 4 mais eficientemente julgada com o conhecimento das respostas dos Níveis 1 e 3? Entretanto, quando a evidência desta diferença é buscada através de um teste t, 9 exatamente a mesma inferência seria obtida se os Níveis 1 e 3 fossem observados ou não; enquanto que, o teste de componentes ortogonais (ajuste de equações de regressão) leva em conta todos os níveis. Portanto, faz-se necessário propagar o poder, utilidade e simplicidade da decomposição de graus de liberdade de tratamentos em componentes de soma de quadrados de regressão. 0.2 - Análise de Variância versus Análise de Regressão O modelo de análise de variância tem sido estudado com bastante detalhe. Isto tem permitido que o formato da análise de variância seja utilizado para testar regressões através da partição da soma de quadrados total em uma soma de quadrados devido à regressão e uma soma de quadrados de resíduo. Entretanto, pode-se erroneamente, submeter a uma análise de variância padrão dados que deveriam ser analisados através de regressão. Por exemplo, o Quadro 0.1 a seguir contém os resultados de um experimento com 7 tratamentos (isto é, 7 níveis de fertilizante) com 2 repetições. O Quadro 0.2 sumariza os resultados de uma análise de variância padrão. Quadro 0.1. Dados de produção de milho, organizados para uma análise de variância com um critério de classificação. Tratamentos (Níveis de Fertilizante) 90 100 110 120 130 140 150 Total 85 90 95 100 100 95 88 83 92 94 101 99 93 90 1305 Yij 168 182 189 201 199 188 178 1305 Yij 2 14112 15564 17861 20201 19801 17672 15844 122059 Y r ij 2 14112 16562 17860,5 20200,5 19800,5 17862 15842 122049,5 10 Quadro 0.2. Quadro de análise de variância dos dados de produção de milho. Fontes de Variação Graus de Liberdade Soma de Quadrados Quadrado Médio F Tratamentos 6 404,857 67,476 49,72** Resíduo 7 9,500 1,357 Total 13 414,375 O valor tabelado de F(6; 7) é 7,19, ao nível de 1%. Consequentemente, pode-se concluir que há diferença significativa entre os tratamentos. Deve ser observado que o modelo para análise de variância considera os tratamentos como sendo qualitativos. Como resultado deste fato, 6 graus de liberdade estão associados com a soma de quadrados de tratamentos. Por outro lado, reconhecendo-se a natureza quantitativa dos tratamentos e determinando-se um relacionamento funcional (ou seja, Y=a+b1N+ b2N 2 ), nota-se que a análise de regressão requer apenas 2 graus de liberdade (veja Quadro 0.3 a seguir). Quadro 0.3. Resultados da regressão múltipla polinomial, sumarizados no formato de análise de variância, para os dados de produção de milho. F.V. G.L. S.Q. Q.M. F Regressão 2 385,451 192,726 73,336** Resíduo 11 28,906 2,628 Total 13 414,375 Portanto, se estamos lidando com dados quantitativos e estamos interessados numa relação funcional, devemos usar análise de regressão. Se temos uma mistura de dados quantitativos e qualitativos, devemos usar regressão com variáveis “dummy” ou a análise de covariância. Por outro lado, se temos apenas dados qualitativos ou se o relacionamento funcional não é possível, devemos usar a análise de variância. A análise de regressão é um instrumento estatístico poderoso. Entretanto, não é um substituto do bom senso ou do julgamento de um técnico experimentado. A regressão permite a estimação de relacionamento funcionais e assim extrai grande quantidade de informação de um conjunto de dados aparentemente confusos, reduzindo- os a umas poucas estatísticas básicas. 11 CAPÍTULO II CONCEITOS DE REGRESSÃO E CORRELAÇÃO 2.1 - Introdução Até presentemente lidou-se com problemas de inferência estatística, que envolviam uma distribuição univariada, ou seja, com a distribuição de uma única variável X. Analisava-se apenas uma característica de cada vez nos experimentos(produção, germinação ou peso de matéria seca, por exemplo). Agora volta-se a atenção para problemas que envolvem uma distribuição bivariada, uma distribuição que contém duas variáveis, ou seja, X e Y. O espaço amostral de um experimento bivariado é um conjunto de pares ordenados das medições realizadas. Por exemplo, para cada estudante pode-se medir o peso e altura; para cada planta pode-se avaliar peso da matéria seca e produção de grãos. O problema fundamental da inferência estatística que envolve uma distribuição bivariada é determinar a verdadeira relação entre X e Y; isto é, como as duas variáveis comportam-se, uma em relação à outra. A intenção é estabelecer este tipo de relacionamento na forma de alguma equação, para que com base em X se possa estimar o valor médio de Y; tal equação pode ser referida como uma relação de estimação. O procedimento de estimação é também uma técnica de predição, que é a função básica de qualquer ciência natural e social. Nas ciências naturais é frequentemente possível fazer-se predições devido às relações de causa e efeito existentes entre duas ou mais variáveis. Por exemplo, existe uma relação de causa e efeito entre a quantidade de precipitação pluviométrica e a quantidade de trigo colhido num hectare. Entretanto, a predição não requer necessariamente a existência de uma relação de causa e efeito, ou seja, o relacionamento funcional de duas variáveis não implica numa relação de causa e efeito. 2.2 - Covariância, Correlação e Independência Estatística Frequentemente, quando se conduz um experimento, duas ou mais variáveis aleatórias são observadas simultaneamente, não apenas para estudar seus comportamentos probabilísticos individuais, mas também para determinar o grau de relacionamento entre essas variáveis. Sejam duas variáveis X e Y: Valores de X: X1, X2, ..., Xk Valores de Y: Y1, Y2, ..., Yk Existem k - 1 pares de valores distintos (Xi, Yj, com i = 1, 2, ..., k e j = 1, 2, ..., 1, para (X, Y). A expressão f(Xi, Yj) representa a probabilidade de X e Y assumirem simultaneamente os valores de Xi, Yj, respectivamente; ou seja, f(Xi, Yj) = P(X=X1 e Y=Yj). A distribuição de probabilidade conjunta pode ser apresentada em forma de uma tabela de dupla entrada (veja a seguir) que mostra os distintos valores de X e Y nas duas 12 margens e que tem como células interiores as probabilidades correspondentes aos pares de valores. As células de probabilidades são frequentemente apresentadas como uma fórmula ao invés de uma tabela de dupla entrada. Tabela 2.1. Distribuição de Probabilidade Conjunta de X e Y. Valores de Valores deY X Y1 Y2 ... Y1 X1 f(X1, Y1) f(X1, Y2) ... f(X1, Y1) X2 f(X2, Y1) f(X2, Y2) ... f(X2, Y1) ... Xk f(Xk, Y1) f(Xk, Y2) ... f(Xk, Y1) A covariância entre X e Y é uma medida numérica da variação conjunta das duas variáveis aleatórias e é definida como a esperança do produto (X-x) (Y-y). Intuitivamente diz-se que, X e Y variam na mesma direção se é alta a probabilidade de que grandes valores de X estejam associados a grandes valores de Y e pequenos valores de X estejam associados a pequenos valores de Y. Em tal caso, os valores dos desvios (X-x) e (Y-y) são positivos ou negativos com uma alta probabilidade, de forma que o produto (X-x) (Y-y) é predominantemente positivo. Consequentemente, a esperança do produto é positiva e alta. Por outro lado, se X e Y tendem a variar em direções opostas, os valores positivos de (X-x) são mais frequentemente associados como os valores negativos de (Y-y) e vice-versa. O produto é então predominantemente negativo e a esperança é negativa. Desta forma, o sinal e a magnitude de E [(X-x) (Y- y)] é, evidentemente, o reflexo da direção e do grau de relacionamento entre X e Y. Assim, tem-se que: COV (X, Y) = E [(X-x) (Y-y)] ou COV (X, Y) = E (XY) - x y . Esta fórmula de covariância é fácil de ser computada porque x e y são obtidos de distribuições marginais, restando apenas o cálculo de E (XY). Partindo do conceito geral de esperança como sendo a soma de valor x probabilidade, tem-se: E (XY) = todas as células [valor de XY para cada célula] x [probabilidade da célula] O valor da COV (X,Y) depende das unidades de medições associadas com X e Y. É desejável ter uma medida de relação para as duas variáveis que não dependa das unidades de medidas. Isto é conseguido dividindo-se a covariância pelos desvios 13 padrões de X e Y. A medida resultante é chamada de correlação entre X e Y, sendo dado por: Corr(X,Y) = COV(X,Y) =xy x y A correlação apresenta as seguintes propriedades: (a) A Corr(X, Y) é sempre um número entre -1 e +1. Os dois valores extremos são atingidos quando X e Y estão relacionados por uma linha reta com inclinação negativa ou positiva, respectivamente. (b) A Corr(X, Y) permanece invariável quando são adicionadas constantes às variáveis ou se as variáveis são multiplicadas por constantes que tenham o mesmo sinal. Duas variáveis aleatórias X e Y são independentes se o evento que X assume um valor específico Xi é independente do evento que Y assume um valor específico Yj. Pela definição de eventos independentes, tem-se: P (X = Xi Y = Yj) = P (X = Xi) P (Y = Yj). Então define-se que as variáveis aleatórias X e Y são independentes se f(Xi, Yj) = f(Xi) f(Yj), para todos os pares de valores (Xi, Yj) na distribuição de probabilidade conjunta. Se X e Y são independentes, então: E(XY) = E(X) E(Y) = Xi f(Xi) Yj f(Yj) Portanto, a independência de X e Y implica que COV (X, Y) = 0 e que Corr (X, Y) = 0. O inverso, porém, não é necessariamente verdadeiro, ou seja, duas variáveis aleatórias podem ser não correlacionadas e ainda assim serem dependentes. Mas, se as variáveis aleatórias são conjuntamente normais, o coeficiente de correlação igual a zero implica que elas são independentes. A função densidade conjunta mais comum é a função densidade conjuntamente normal. Diz-se que duas variáveis aleatórias X1 e X2 são normais e conjuntamente distribuídas se, e somente se, sua distribuição de probabilidade conjunta é a distribuição normal bivariada. 14 CAPÍTULO III REGRESSÃO LINEAR SIMPLES 3.1 - Introdução A variável que é a base da estimação é convencionalmente chamada de variável independente e designada por X, e a variável cujo valor deve ser estimado é chamada de variável dependente designada por Y. Quando é formulada uma equação para estimar Y a partir de X, tal equação é denominada de uma regressão de Y sobre X. A técnica de análise de regressão é realmente um procedimento de estimação e/ou predição. A análise de regressão geralmente é classificada em dois tipos: simples e múltipla. A regressão simples envolve apenas duas variáveis, tal como a regressão de Y sobre X. A regressão múltipla envolve três ou mais variáveis, uma das quais é a variável dependente que deve ser estimada com base nos valores das outras. As variáveis podem ter um relacionamento linear (aditivo nos parâmetros da regressão) ou não-linear. Quando descobre-se que duas variáveis estão relacionadas, frequentemente deseja-se conhecer quão próximo é este relacionamento. O grau de aproximação do relacionamento é comumente referido como a correlação entre as variáveis. O problema de correlação está intimamente associado com o de regressão e é uma parte integrante da análise bivariada. A utilização de modelos de regressão pode ter os objetivos seguintes: a) Predição – Como se espera que uma parte da variação de Y seja explicada pela variável X, então se pode utilizar o modelo para obter valores de Y correspondentes a valores de X que não estavam entre os estudados. Esse processo é denominado de predição e, são utilizadosvalores de X que estão dentro do intervalo de variação estudado. Este talvez seja o uso mais comum dos modelos de regressão. b) Seleção de variáveis – Geralmente não se sabe precisamente quais são as variáveis que afetam significativamente a variação de Y. Então, conduzem-se estudos onde estão presentes muitas variáveis. A análise de regressão pode auxiliar no processo de seleção de variáveis, indicando aquelas cuja contribuição não seja importante. c) Estimação de parâmetros – Dado um modelo e um conjunto de dados referente às variáveis respostas e preditoras (explicativas), ajustar o modelo aos dados, ou estimar parâmetros, significa obter valores (estimativas) para os parâmetros do modelo, por algum processo, tendo por base o modelo e os dados observados. Em alguns casos, o valor do coeficiente (estimativa do parâmetro) tem valor por si, como no caso do estudo de estabilidade e adaptabilidade de cultivares. Em outros casos, o interesse está em uma função dos parâmetros estimados (coeficientes), como no caso do cálculo de doses ótimas de nutrientes nos estudos de nutrição de plantas. 15 d) Inferência – O ajuste de um modelo de regressão tem por objetivo ainda realizar inferências estatísticas sobre as estimativas obtidas, como por exemplo, testes de hipóteses e intervalos de confiança. 3.2 - Regressão Linear Simples Suponha que a relação verdadeira entre as variáveis X e Y seja uma reta, e que cada observação Y, em cada nível de X, seja uma variável aleatória. Então, o valor esperado de Y para cada valor de X é dado por: 0 1E Y X X , sendo os parâmetros da equação da reta, 0 e 1 , constantes (coeficientes) desconhecidos. Assim, dados n pares de valores, (X1,Y1), (X2,Y2), ..., (XnYn), se for admitido que Y é função linear de X, pode-se estabelecer uma regressão linear simples, cujo modelo estatístico é dado por: 0 1 Y Xi i i , i = 1, 2, ..., n , em que 0 e 1 são os parâmetros a serem estimados. Ao se utilizar este modelo, pressupõe-se que: a) A relação entre Y e X é linear; b) Os valores de X são fixos (ou controlados); c) A média do erro é nula, isto é, ( ) 0E i ; d) Para um dado valor de X, a variância do erro i , é sempre 2 , ou seja, 22 2 2( )Var E E Ei i i i , o que implica em 2 2 2( )Var Y E Y E Y X Ei i i i i . Assim, diz-se que se tem homocedasticia do erro ou da variável independente. e) O erro de uma observação é independente do erro de outra observação, ou seja, ( , ) ( , ) ( ) ( ) 0Cov E E Ei i ii i i , para i i ; f) Os erros têm distribuição normal. Desta forma, combinando as pressuposições (c), (d) e (e) tem-se 20,NIDi e, portanto 2,0 1Y NID Xi i . A suposição de normalidade é necessária para a aplicação de testes de hipóteses e obtenção de intervalos de confiança. A solução do sistema de equações normais, obtido pelo método de quadrados mínimos, possui as seguintes propriedades: a) O ponto ,X Y é um ponto da reta estimada ˆ ˆˆ 0 1Y Xi i ; 16 b) Tem-se que ˆ ˆˆˆ 00 11 1 1 n n n Y Y Y Xi i i i i i i i , o que implica que ˆ 1 1 n n Y Yi i i i ; c) Tem-se que ˆ ˆˆ ( ) 0 0 11 1 n n X X Y Xi i i i i i i ; d) Tem-se que ˆ ˆ ˆ ˆˆ ˆ ˆ ˆ ˆ 00 1 0 11 1 1 1 n n n n Y X Xi i i i i i i i i i i ; e) Os estimadores de quadrados mínimos ˆ 0 e ˆ 1 são funções lineares das observações Yi‟s, ou seja, ˆ1 1 n c Yi i i , em que: 2 2 11 X X xi ic ni n xX X ii ii e ˆ 0 1 n d Yi i i , sendo 1 d c Xi in . Tem-se que 0 1 n ci i , 1 1 n c Xi i i , 1 1 n di i , 0 1 n d Xi i i ; f) Os estimadores de quadrados mínimos de 0 e de 1 são não viesados, ou seja, ˆ0 0E e ˆ1 1E ; g) A variância dos estimadores de quadrados mínimos de 0 e 1 é mínima entre as variâncias de quaisquer outros estimadores lineares em Y de 0 e 1 (Teorema de Gauss). Dado que 3.3.Valor Esperado das Somas de Quadrados: a) Soma de Quadrados Total (SQTotal) Tem-se que 2 1 n SQTotal Y Yi i , sendo 0 1 Y Xi i i e 0 1 Y X . Então, 1 1( )i i i i iY Y X X x e 2 22 2 2 1 1 11 1 1 1 n n n n SQTtotal x x xi i i i i i i i i i . Desta forma, 22 2( ) 2 1 11 1 1 n n n E SQTotal x E E xi i i i i i i e após substituições e rearranjos algébricos obtém-se 2 2 2( ) 11 1 n E SQTotal x ni i . b) Soma de Quadrados de Regressão (SQReg) 17 Tem-se que 2 2 2ˆRe 11 1 n n SQ g Y Y xi i i i e 2 1 1 n n x X xi i i i i . Então, 2 12 2 2 2 2( Re ) 1 11 1 1 12 1 n n n n E SQ g E x x E x E x Yi i i i ini i i i xi i e após algumas substituições, tem-se 2 2 2( Re ) 1 1 n E SQ g xi i . c) Soma de Quadrados de Desvio (SQDes) Como ReSQDes SQTotal SQ g , tem-se que 2 2 2 2 2 2( ) ( ) ( Re ) 11 11 1 n n E SQDes E SQTotal E SQ g x n xi i i i ou 2( ) 2E SQDes n . d) Estimador da variância residual Tem-se 2( ) 2E SQDes n , logo 2 2 SQDes E n . Desta forma, um estimador não viesado para 2 (variância residual) é dado por 2ˆ 2 SQDes QMDes n . Seja o seguinte exemplo: foram estudadas as pressões sanguíneas de 58 mulheres acima de 30 anos de idade, em determinada região. As idades foram agrupadas em classes de 10 anos e a pressão média foi calculada para cada classe (citado em SNEDECOR & COCHRAN, 1971). Ponto Médio das Média da Pressão Desvios em relação à média Classes de Idade (X) Sanguínea (Y) x y 35 114 -20 -27 45 124 -10 -17 55 143 0 2 65 158 10 17 75 166 20 25 Totais = 275 705 0 0 Médias = 55 141 0 0 18 Quadrados Produtos x 2 y 2 xy 400 729 540 100 289 170 0 4 0 100 289 170 400 625 540 1000 1936 1380 Computar a análise de regressão. Resolução: 1) O primeiro passo para o entendimentto da regressão é construir um gráfico (diagrama de dispersão) de Y em função de X. 2) A linha reta “traçada” na Figura 1 é a regressão amostral de Y sobre X. Sua posição é fixada por dois resultados: a) Ela passa no ponto O‟ ( , )X Y que é o ponto determinado pela média de cada amostra. Para as pressões e idades este é o ponto (55, 141); b) Sua inclinação é a taxa de b unidades de Y por unidade de X, onde b é o coeficiente de regressão amostral. Tem-se que x=X X e y=Y Y e b= xy x 2 = 1380 1000 1 38 , unidades de pressão sanguínea por ano de idade. 19 Figura 3.1. Regressão Amostral de Y sobre X. c) A equação de regressão amostral de Y sobre X é então escrita como: Y Y bx ou y bx , onde Y é o valor estimado e y o desvio estimado de Y que corresponde a qualquer desvio x. Se x=20 anos, então y=(1,38)(20) = 27,6 unidades de pressão sanguínea. Considerando os dados originais, a equação de regressão é ( )Y Y b X X , que para o caso da pressão fica Y -141=1,38 (X-55) Y=141+1,38 (X-55) Y=65,1+1,38X Para X=75 Y=168,6 ou P(75; 168,6) d) As medidas da precisão do ajustamento da reta aos dados são obtidas através do cálculo de Y e dos desvios em relação à regressão (Y- Y=dy.x): 20 Classes de Idade (X) Pressão Média (Y)Pressão Média Estimada ( Y ) 35 114 113,4 45 124 127,2 55 143 141,0 65 158 154,8 75 166 168,6 Somas Desvios em relação à regressão (Y- Y=dy x) Quadrado do desvio (d 2 yx) 0,6 0,36 -3,2 10,24 2,0 4,00 3,2 10,24 -2,6 6,76 dy x=0,0 d 2 yx=31,60 Tem-se que S yx d yx n 2 2 2 31 60 3 10 53 , , onde d 2 yx é a SQD, n-2 são os graus de liberdade e S 2 yx é o quadrado médio do desvio em relação à regressão. Então Syx S yx 2 10 53 3 24, , unidades de pressão sanguínea, onde Syx é o desvio padrão amostral da regressão. Particularmente, tem-se o desvio padrão amostral do coeficiente de regressão, que é dado por Sb Syx x / , / ,2 3 24 1000 0 102 unidades de pressão sanguínea, com n-2=3 g.l. e) Um testede significância de b é dado por t b Sb , com gl=n-2. Então: t5%(3 g.l.)=5,84 t = 1,38 / 0,102 = 13,5** com gl=3 21 f) O valor de d 2 yx pode ser calculado diretamente pela fórmula: d 2 yx=y 2 [(xy) 2 /x 2 ]=1936-[(1380) 2 /1000]=31,60 g) Ao ajustar uma regressão, as seguintes quantidades básicas devem ser obtidas: n, X , Y , x 2 , y 2 e xy. Tem-se: X, Y X 2 =X 2 -(X) 2 /n X 2 , Y 2 Y 2 =Y 2 -(Y) 2 /n XY xy=(X-X )(Y-Y ) (X)(Y)/n Y 2 =XY-(X)(Y)/n h) Cálculos de uma regressão linear simples Idade (anos), X 35 45 55 65 75 Pressão, Y 114 124 143 158 166 Cálculos: 1ª Sessão 2ª Sessão 3ª Sessão X=275 Y=705 n=5 X =55 Y =141 XY=40155 X 2 =16125 Y 2 =101341 (X) 2 /n=15125 (Y) 2 /n=99405 (X)(Y)/n=38775 x 2 =1000 y 2 =1936 xy=1380 3.4 - Teste para falta de ajuste (ou teste de linearidade) Sabe-se que o 21 12 ˆˆ 2 21 1 n n QMDes Y Yi i in ni i da análise de variância da regressão é um estimador não viesado da variância residual ( 2 ), sob a suposição de que o modelo ajustado é correto. Supondo que o modelo proposto seja ( ) ( ) ( )E Y X Y Xi i i i i e que o modelo correto seria *( ) ( ) ( )E Y X Y Xi i i i i . Pode ser deduzido que o termo ( ) ( )i i iB X X , que representa o viés no caso em que ( ) 0 1 X Xi i e 2( ) 0 1 2 X X Xi i i , estará incluído em i . Para os modelos anteriores tem-se: 22 *( ) 0E i e * 2 2( )E i ; * Bi i i , ( )E Bi i e 2 2 * 2 2( )E B Bi i i i . Essas expressões mostram que se utilizando o modelo proposto, se ele for correto 0Bi e o QMDes será uma estimativa não tendenciosa para a variância residual, ou seja, 2( )E QMDes ; por outro lado, se o modelo proposto não for correto, então 12 2( ) 2 E QMDes Bin . Se o modelo proposto for de regressão linear simples, um gráfico pode mostrar essa falta de ajuste. Entretanto, quando o modelo é mais complexo, ou então existe mais de uma variável explicativa, fica mais difícil mostrar graficamente. Desta forma, torna- se necessário a obtenção de uma estimativa da variância residual ( 2 ) que seja independente do modelo. Isso pode ser obtido por meio do planejamento de observações repetidas de Y para cada X, ou seja, considera-se k níveis de Xi , para os quais são observados ni valores de Y. Portanto, as observações coletadas são do tipo ( 1,2, , ; 1,2, )Y i k j nij i . Essa nova estimativa de 2 é dada pelo Quadrado Médio do Resíduo de uma análise de variância em que cada nível de X é considerado como um tratamento e Y a variável resposta. Nesse caso têm-se então o desvio da regressão e o resíduo (ou erro puro); as expressões utilizadas para obtenção do erro puro são: 1 2 Y Y Yini i iYi ni , 2 1 1 nk i Yij i j Y N e 1 k N ni i . Tem-se Y Y Y Y Y Yij ij i i , e, portanto, 2 2 2 2 1 1 1 1 1 1 1 1 n n n nk k k ki i i i Y Y Y Y Y Y Y Y Y Yij ij i i ij i i i j i j i j i j , ou seja, SQTotal SQTrat SQErroPuro , em que 2 2 1 1 1 1 n nk ki i SQTotal Y Y Y Cij ij i j i j ; 2 1 1 nk i Yij i j C N , sendo 1 k N ni i ; 2 2 2 1 1 1 1 n Tk k ki iSQTrat Y Y n Y Y Ci i i ni j i i i ; 23 2 1 1 nk i SQErroPuro Y Y SQTotal SQTratij i i j , uma vez que . 0. 1 1 1 1 1 n n Yk k ki i iY Y Y Y Y Y Y Y Y Y Y nij i i i ij i i i i ni j i j i i . Essas expressões são equivalentes ao modelo estatístico de um delineamento inteiramente casualizado dado por Yij i ij , cujo esquema de análise de variância é o seguinte: Fontes de Variação GL SQ Trat (níveis de X) Resíduo k – 1 N – k SQTrat SQRes Total N – 1 SQTotal O que se deseja verificar agora é verificar se existe uma relação linear entre as médias de tratamentos (níveis de X) e os Yi´s, isto é, desdobrar os (k - 1) graus de liberdade de tratamentos em 1 grau de liberdade para Regressão Linear e (k – 2) graus de liberdade para desvio da regressão. Então, o modelo para médias de tratamentos é dado por: ( ) 0 1 1 E Y X xi i i , sendo ( )E Yi estimado por ˆ ˆ ˆˆ ˆ 0 1 Y X xi i i i , em que: ˆ ˆ 0 1 Y X e 1ˆ 1 2 1 k n x Yi i i i k n xi i i . Tem-se então, para um dado Xi , que ˆ ˆY Y Y Y Y Yi i i i , ou seja, Tratamentos (Entre níveis de X) = falta de ajuste + efeito do modelo. Portanto, SQTrat = SQDesvios de Reg + SQReg ou SQDesvio = SQTrat - SQReg , sendo 2 12 2ˆRe 1 1 2 1 k n x Yi i ik i SQ g n xi i ki n xi i i . Desta forma, o novo quadro de análise de variância fica da forma seguinte: 24 Fontes de Variação GL SQ QM F Regressão Linear Desvio de Regressão Tratamentos Resíduo 1 k – 2 k – 1 N – k SQReg SQDes SQTrat SQRes QMReg QMDes QMTrat QMRes FReg FDes FTrat Total N – 1 SQTotal Pode ser verificado que 2 0 12 1 2 2 k n X Xi i iSQDes iE QMDes E k k . Para testar a falta de ajuste (ou linearidade) do modelo deve-se testar a hipótese : 00 0 1 0 1H X X X X . Sob essa hipótese tem-se 2E QMDes e 1 2 22 SQDes k . Além disso, 1 2Re 2 SQ s N k . Logo, a estatística 2;Re QMDes F F Des k N kQM s . Portanto, rejeita-se 0 H , a 100 % de probabilidade, se 2; ; F F Des k N k ou se Pr 2;F FDesk N k . Isso significa que o modelo linear não satisfaz, devendo-se procurar outro modelo. Além disso, faz-se também o teste para a regressão linear, isto é, o teste da hipótese: : 0 0 1 H versus : 0 1 Ha . Exemplo de Aplicação: Os dados mostrados a seguir referem-se a concentrações de CO2 (X) aplicadas sobre folhas de trigo a uma temperatura de 35 o C e a quantidades de CO2 (Y, cm 3 /dm 2 /hora) absorvido pelas folhas (Extraído de MEAD & CURNOW, 1990) Amostra 1 2 3 4 5 6 7 8 9 10 11 X Y 75 0,00 100 0,65 100 0,50 120 1,00 130 0,95 130 1,30 160 1,80 190 2,80 200 2,50 240 4,30 250 4,50 a) Com base no modelo Yij i ij tem-se a análise de variância seguinte: 25 Fontes de Variação GL SQ QM F Tratamentos (entre níveis de X) Resíduo 7 2 132,71 2,89 18,96 1,44 13,14 Total 9135,60 b) Com base no modelo 0 1 Y Xij i ij tem-se a análise de regressão seguinte: Fontes de Variação GL SQ QM F Regressão Linear Desvio de Regressão 1 8 90,83 44,77 90,83 5,60 16,23 ** Total 9 135,60 c) Combinando-se os dois resultados anteriores tem-se: Fontes de Variação GL SQ QM F Regressão Linear Desvio de Regressão 1 6 90,83 41,88 90,83 6,98 62,93 ** 4,84 ns Tratamentos Resíduo 7 2 132,71 2,89 1,44 Total 9 d) As principais conclusões das análises são: como para falta de ajuste, F = 4,84 < F6; 2;0,05 ou Pr (F6; 2 > 4,84) = 0,1812 > 0,05, não se rejeita H0, a 5% de probabilidade de Erro Tipo I. Pode ser constatado ainda que o teste para a hipótese : 0 0 1 H é significativo a 1% de probabilidade, indicando a tendência linear. Se a falta de ajuste fosse significativa, seria concluído que o modelo linear usado não era adequado, havendo necessidade de se utilizar um outro modelo. Neste caso, o quadrado médio 26 residual não estimaria corretamente a variância residual ( 2 ), pois estaria incluindo um erro sistemático devido ao uso de um modelo inadequado. 3.5 - Modelo Matemático na Regressão Linear Três pressuposições básicas são feitas sobre a relação entre Y e X: 1) Para cada X selecionado há uma distribuição normal de Y a partir da qual o valor amostral de Y é extraído ao acaso. Se desejado, pode ser extraído mais de um Y de cada distribuição; 2) A população de valores de Y que corresponde a um X selecionado tem uma média que localiza-se sobre a linha reta ( )X X x, onde e são parâmetros da equação de regressão; 3) Em cada população, o desvio padrão de Y em torno de sua média +x, tem o mesmo valor, denotado por yx. O modelo matemático é concisamente especificado pela equação Y=+x+, onde é uma variável aleatória extraída de N(0, yx). Neste modelo, Y é a soma de uma parte aleatória, , e de uma parte fixada por x. A parte fixada determina uma média para cada x. Estas médias localizam-se sobre a linha reta representada por =+x, que é a reta de regressão da população. O parâmetro é a média da população que corresponde a x=0; desta forma especifica a altura (interseção) da reta quando X=X. O é a inclinação da reta de regressão, ou seja, a variação em Y por unidade de aumento em x. O é independente de x e normalmente distribuído, ou seja, N(0, yx). = + x yx 27 Figura 3.2. Representação do modelo de regressão linear. A distribuição normal de Y em torno da linha de regressão + x é mostrada para 3 valores selecionados de X. Figura 3.3. Propriedade de uma linha de regressão. 3.6 - Y como um Estimador de = + x Para qualquer x, o valor computado de Y estima o que corresponde a = + x.. Tem-se que: Y Y b x ( ) ( ) . Assim, a diferença entre Y e tem duas fontes, ambos devido ao aleatório. O valor de Y , possibilita também julgar se um Y individual observado está abaixo ou acima de seu valor médio para o X em questão. Algebricamente tem-se: dyx Y Y x Y bx Y b x ( ) ( ) ( ) A quantidade S yx d yx n2 2 2 ( ) é um estimador não tendencioso de 2yx, que é a variância dos . 3.7 - O Método dos Quadrados Mínimos A escolha de Y e b para estimar os parâmetros e é uma aplicação de um princípio amplamente usado em problemas de estimação estatística e conhecido como o método dos quadrados mínimos. Para explicar este método, seja e dois estimadores = + x Unidade de Variação em X 28 quaisquer de e . Para os pares de observações (Y, X) a quantidade Y x mede o quanto a regressão ajustada erra ao estimar Y. No método dos quadrados mínimos e são escolhidos de forma que minimize a soma dos quadrados desses erros, isto é, minimiza-se (Y x )2. O cientista Gauss demonstrou que estimadores obtidos desta forma são: (1) não tendenciosos e (2) têm os menores erros padrões. 3.8 - Estimativa do Intervalo de Confiança para e Teste de Hipóteses Anuladas Uma vez obtidas as estimativas pontuais dos parâmetros da regressão da população, deve-se em seguida estabelecer as estimativas de seus intervalos de confiança e testar as hipóteses acerca destes parâmetros. Em amostras aleatórias b é distribuído com uma variância estimada por S 2 b=S 2 yx/x 2 . Uma vez que a quantidade (b-)/Sb segue a distribuição t com n-2 graus de liberdade, pode ser dito com 95% de confiança que b t S b t Sb b 0 025 0 025, , Ao invés de estimativa do intervalo de confiança de , o interesse pode centrar- se em testar a hipótese nulidade H0 : =0. Neste caso, tem-se que t=(b-)/Sb, com n-2 graus de liberdade. Este valor é comparado com o tabelado, ao nível de significância desejado. 3.9 - Predição da Linha de Regressão (ou da Média) da População Aqui serão feitas inferências acerca de =+x, isto é, sobre a altura da linha de regressão da população no ponto X. A estimativa amostral de é .Y Y bx O erro na predição é dado por ( ) ( )Y Y b x . Mas, uma vez que Y=+x+, tem-se que Y , dando ( )Y b x . O termo tem variância 2yx/n e b é distribuído em torno de com variância 2 yx/x 2 . Finalmente, a independência dos garante que estas duas fontes de erro não são correlacionados, de forma que a variância de sua soma é a soma das duas variâncias. Isto fornece 2 2 2 21 ( / / )Y yx n x x . O erro padrão estimado de Y é S Syx n x xy ( / ) ( / ) 1 2 2 , com n-2 graus liberdade. Correspondendo a qualquer Y (estimativa pontual de ), há um intervalo de confiança para a estimativa que é dado por , , Y t S Y t Sy y 0 05 0 05 . 3.10 - Predição de um novo Y Individual A regressão é utilizada também para predizer o valor individual de Y para um novo membro da população para a qual X tinha sido avaliado. O valor a ser predito é novamente Y Y bx ; uma vez que Y=+x+, o erro de predição agora torna-se ( ) ( )Y Y Y b x . O elemento aleatório para o novo membro é uma fonte adicional de incerteza. Assim, o quadrado médio do erro do valor a ser predito contém outro termo, sendo S Y S yx n x S yx x S yx2 2 2 2 2 . 29 Uma vez que o termo originado da variância de geralmente predomina, o erro padrão é escrito como S Syx n x x y 1 1 2 2 . Os dois problemas de predição têm a característica interessante de que a predição, Y , é exatamente a mesma nos dois problemas, mas o erro padrão da predição difere. Para evitar a confusão, use os símbolos e S quando a média da população está sendo predita e, Y e S quando um Y individual está sendo predito. 3.11 - Partição da Soma de Quadrados da Variável Dependente (Análise de Variância da Regressão) Os cálculos de regressão podem ser vistos como um processo de partição de Y 2 em três partes úteis e significantes: Y Y n xy x d yx2 2 2 2 2 ( ) / ( ) / . Cada uma destas porções podem ser exatamente associadas com a soma de quadrados de um segmento das ordenadas Y. Para ilustrar isto, considere a tabela e a figura a seguir: Tabela 3.1. Conjunto de dados para ilustrar a partição de Y 2 . X 2 4 6 8 10 12 14 X=56 Y 4 2 5 9 3 11 8 Y=42 n X Y x y xy 7 8 6 112 68 562 2; ; ; ; ; Figura 3.4. A ordenada em X=12 é dividida em 2 partes, Y =6 e y=5. Então y é dividido em y=2 e dyx=3. 30 Assim, Y Y y dy x . 6 2 3 11. Na Figura 4, a ordenada em X=12 é particionada em 3 segmentos: Y Y y dy x . , onde y Y Y bx é o desvio do ponto Y sobre a linha ajustada. Correspondendo à relação Y Y y dy x . , tem-se a seguinte identidade nas somas dos quadrados Y Y y d yx2 2 2 2 . A soma de quadrados da ordenada y 2 e os desvios em relação à regressão d 2 yx já são conhecidos. Falta identificar (y) 2 /n com Y2 e ( ) / xy x2 2 com y 2. Primeiro, ( ) ( ) Y n nY n nY Y 2 2 2 2 . Isto é, a correção para a média é simplesmente a soma de quadrados da média tomada n vezes. Segundo, ( ) ( ) ( ) xy x xy x x b x b x y 2 2 2 2 2 2 2 2 2 2 2 . Desta forma, a soma de quadrados atribuível à regressão passa a ser a soma de quadrados dos desvios dos pontos Y sobre a linha ajustada em relação à sua média. Correspondendo à partição de Y2 há uma partição dos graus de liberdade total em 3 partes. Então as partições são mostradas na tabela a seguir: F.V. Símbolo G.L. S.Q. Q.M. A média Y 1 (Y) 2 /n=252 Regressão b 1 (xy) 2 /x 2 =28 Desvio em relação a regressão dyx n-2=5 d 2 yx=40 S 2 yx=8 Total Y n=7 Y 2 =320 Total Corrigido: Y 2 = 28+40 = 68; g.l. = n-1 = 6 As n=7 observações contribuem com 7 g.l., dos quais 1 está associado com a média e 1 com a inclinação (coeficiente de regressão, b), deixando 5 para os desvios em relação à regressão. Na maioria das aplicações, a partição das somas de quadrados e graus de liberdade fica: 31 Tabela 3.2. Análise de variância de Y. F.V. G.L. S.Q. Q.M. F Regressão 1 28 28 3,5 ns Desvio da Regressão 5 40 8 Total Corrigido 6 68 F0,05(1;5)=6,61 A variável F(1, n-2) é o quadrado da variável t(n-2), isto é, F=t 2 . A percentagem da variação total, em torno da média Y , que é explicada pela regressão é dada por R SQ gressão SQ Total Corrigido 2 Re . Na realidade, r é a correlação entre Y e Y e geralmente é chamado de coeficiente de correlação. Neste exemplo, R 2 28 68 39 9% , . 32 CAPÍTULO IV REGRESSÃO E CORRELAÇÃO LINEAR SIMPLES REGRESSÃO LINEAR Introdução A variável que é a base da estimação é convencionalmente chamada de variável independente e designada por X, e a variável cujo valor deve ser estimado é chamada de variável dependente designada por Y. Quando é formulada uma equação para estimar Y a partir de X, tal equação é denominada de uma regressão de Y sobre X. A técnica de análise de regressão é realmente um procedimento de estimação e/ou predição. A análise de regressão geralmente é classificada em dois tipos: simples e múltipla. A regressão simples envolve apenas duas variáveis, tal como a regressão de Y sobre X. A regressão múltipla envolve três ou mais variáveis, uma das quais é a variável dependente que deve ser estimada com base nos valores das outras. As variáveis podem ter um relacionamento linear (aditivo nos parâmetros da regressão) ou não-linear. Quando descobre-se que duas variáveis estão relacionadas, frequentemente deseja-se conhecer quão próximo é este relacionamento. O grau de aproximação do relacionamento é comumente referido como a correlação entre as variáveis. O problema de correlação está intimamente associado com o de regressão e é uma parte integrante da análise bivariada. A utilização de modelos de regressão pode ter os objetivos seguintes: e) Predição – Como se espera que uma parte da variação de Y seja explicada pela variável X, então se pode utilizar o modelo para obter valores de Y correspondentes a valores de X que não estavam entre os estudados. Esse processo é denominado de predição e, são utilizados valores de X que estão dentro do intervalo de variação estudado. Este talvez seja o uso mais comum dos modelos de regressão. f) Seleção de variáveis – Geralmente não se sabe precisamente quais são as variáveis que afetam significativamente a variação de Y. Então, conduzem-se estudos onde estão presentes muitas variáveis. A análise de regressão pode auxiliar no processo de seleção de variáveis, indicando aquelas cuja contribuição não seja importante. g) Estimação de parâmetros – Dado um modelo e um conjunto de dados referente às variáveis respostas e preditoras (explicativas), ajustar o modelo aos dados, ou estimar parâmetros, significa obter valores (estimativas) para os parâmetros do modelo, por algum processo, tendo por base o modelo e os dados observados. Em alguns casos, o valor do coeficiente (estimativa do parâmetro) tem valor por si, como no caso do estudo de estabilidade e adaptabilidade de cultivares. Em outros casos, o interesse está em uma função dos parâmetros estimados (coeficientes), como no caso do cálculo de doses ótimas de nutrientes nos estudos de nutrição de plantas. 33 h) Inferência – O ajuste de um modelo de regressão tem por objetivo ainda realizar inferências estatísticas sobre as estimativas obtidas, como por exemplo, testes de hipóteses e intervalos de confiança. Três pressuposições básicas são feitas sobre a relação entre Y e X: 1) Para cada X selecionado há uma distribuição normal de Y a partir da qual o valor amostral de Y é extraído ao acaso. Se desejado, pode ser extraído mais de um Y de cada distribuição; 2) A população de valores de Y que corresponde a um X selecionado tem uma média que localiza-se sobre a linha reta ( )X X x, onde e são parâmetros da equação de regressão; 3) Em cada população, o desvio padrão de Y em torno de sua média +x, tem o mesmo valor, denotado por yx. O modelo matemático é concisamente especificado pela equação Y=+x+, onde é uma variável aleatória extraída de N(0, yx). Neste modelo, Y é a soma de uma parte aleatória, , e de uma parte fixada por x. A parte fixada determina uma média para cada x. Estas médias localizam-se sobre a linha reta representada por =+x, que é a reta de regressão da população. O parâmetro é a média da população que corresponde a x=0; desta forma especifica a altura (interseção) da reta quando X=X. O é a inclinação da reta de regressão, ou seja, a variação em Y por unidade de aumento em x. O é independente de x e normalmente distribuído, ou seja, N(0, yx). = + x yx 34 Figura 3.2. Representação do modelo de regressão linear. A distribuição normal de Y em torno da linha de regressão + x é mostrada na Figura para 3 valores selecionados de X. Figura 3.3. Propriedade de uma linha de regressão. 3.6 - Y como um Estimador de = + x Para qualquer x, o valor computado de Y estima o que corresponde a = + x.. Tem-se que: Y Y b x ( ) ( ) . Assim, a diferença entre Y e tem duas fontes, ambos devido ao aleatório. O valor de Y , possibilita também julgar se um Y individual observado está abaixo ou acima de seu valor médio para o X em questão. Algebricamente tem-se: dyx Y Y x Y bx Y b x ( ) ( ) ( ) A quantidade S yx d yx n2 2 2 ( ) é um estimador não tendencioso de 2yx, que é a variância dos . 3.7 - O Método dos Quadrados Mínimos A escolha de Y e b para estimar os parâmetros e é uma aplicação de um princípio amplamente usado em problemas de estimação estatística e conhecido como o método dos quadrados mínimos. Para explicar este método, seja e dois estimadores quaisquer de e . Para os pares de observações (Y, X) a quantidade Y x mede = + x Unidade de Variação em X 35 o quanto a regressão ajustada erra ao estimar Y. No método dos quadrados mínimos e são escolhidos deforma que minimize a soma dos quadrados desses erros, isto é, minimiza-se (Y x )2. O cientista Gauss demonstrou que estimadores obtidos desta forma são: (1) não tendenciosos e (2) têm os menores erros padrões. 3.8 - Estimativa do Intervalo de Confiança para e Teste de Hipóteses Anuladas Uma vez obtidas as estimativas pontuais dos parâmetros da regressão da população, deve-se em seguida estabelecer as estimativas de seus intervalos de confiança e testar as hipóteses acerca destes parâmetros. Em amostras aleatórias b é distribuído com uma variância estimada por S 2 b=S 2 yx/x 2 . Uma vez que a quantidade (b-)/Sb segue a distribuição t com n-2 graus de liberdade, pode ser dito com 95% de confiança que b t S b t Sb b 0 025 0 025, , Ao invés de estimativa do intervalo de confiança de , o interesse pode centrar- se em testar a hipótese nulidade H0 : =0. Neste caso, tem-se que t=(b-)/Sb, com n-2 graus de liberdade. Este valor é comparado com o tabelado, ao nível de significância desejado. 3.9 - Predição da Linha de Regressão (ou da Média) da População Aqui serão feitas inferências acerca de =+x, isto é, sobre a altura da linha de regressão da população no ponto X. A estimativa amostral de é .Y Y bx O erro na predição é dado por ( ) ( )Y Y b x . Mas, uma vez que Y=+x+, tem-se que Y , dando ( )Y b x . O termo tem variância 2yx/n e b é distribuído em torno de com variância 2 yx/x 2 . Finalmente, a independência dos garante que estas duas fontes de erro não são correlacionados, de forma que a variância de sua soma é a soma das duas variâncias. Isto fornece 2 2 2 21 ( / / )Y yx n x x . O erro padrão estimado de Y é S Syx n x xy ( / ) ( / ) 1 2 2 , com n-2 graus liberdade. Correspondendo a qualquer Y (estimativa pontual de ), há um intervalo de confiança para a estimativa que é dado por , , Y t S Y t Sy y 0 05 0 05 . 3.10 - Predição de um novo Y Individual A regressão é utilizada também para predizer o valor individual de Y para um novo membro da população para a qual X tinha sido avaliado. O valor a ser predito é novamente Y Y bx ; uma vez que Y=+x+, o erro de predição agora torna-se ( ) ( )Y Y Y b x . O elemento aleatório para o novo membro é uma fonte adicional de incerteza. Assim, o quadrado médio do erro do valor a ser predito contém outro termo, sendo S Y S yx n x S yx x S yx2 2 2 2 2 . 36 Uma vez que o termo originado da variância de geralmente predomina, o erro padrão é escrito como S Syx n x x y 1 1 2 2 . Os dois problemas de predição têm a característica interessante de que a predição, Y , é exatamente a mesma nos dois problemas, mas o erro padrão da predição difere. Para evitar a confusão, use os símbolos e S quando a média da população está sendo predita e, Y e S quando um Y individual está sendo predito. 3.11 - Partição da Soma de Quadrados da Variável Dependente (Análise de Variância da Regressão) Os cálculos de regressão podem ser vistos como um processo de partição de Y 2 em três partes úteis e significantes: Y Y n xy x d yx2 2 2 2 2 ( ) / ( ) / . Cada uma destas porções podem ser exatamente associadas com a soma de quadrados de um segmento das ordenadas Y. Para ilustrar isto, considere a tabela e a figura a seguir: Tabela 3.1. Conjunto de dados para ilustrar a partição de Y 2 . X 2 4 6 8 10 12 14 X=56 Y 4 2 5 9 3 11 8 Y=42 n X Y x y xy 7 8 6 112 68 562 2; ; ; ; ; Figura 3.4. A ordenada em X=12 é dividida em 2 partes, Y =6 e y=5. Então y é dividido em y=2 e dyx=3. 37 Assim, Y Y y dy x . 6 2 3 11. Na Figura 4, a ordenada em X=12 é particionada em 3 segmentos: Y Y y dy x . , onde y Y Y bx é o desvio do ponto Y sobre a linha ajustada. Correspondendo à relação Y Y y dy x . , tem-se a seguinte identidade nas somas dos quadrados Y Y y d yx2 2 2 2 . A soma de quadrados da ordenada y 2 e os desvios em relação à regressão d 2 yx já são conhecidos. Falta identificar (y) 2 /n com Y2 e ( ) / xy x2 2 com y 2. Primeiro, ( ) ( ) Y n nY n nY Y 2 2 2 2 . Isto é, a correção para a média é simplesmente a soma de quadrados da média tomada n vezes. Segundo, ( ) ( ) ( ) xy x xy x x b x b x y 2 2 2 2 2 2 2 2 2 2 2 . Desta forma, a soma de quadrados atribuível à regressão passa a ser a soma de quadrados dos desvios dos pontos Y sobre a linha ajustada em relação à sua média. Correspondendo à partição de Y2 há uma partição dos graus de liberdade total em 3 partes. Então as partições são mostradas na tabela a seguir: F.V. Símbolo G.L. S.Q. Q.M. A média Y 1 (Y) 2 /n=252 Regressão b 1 (xy) 2 /x 2 =28 Desvio em relação a regressão dyx n-2=5 d 2 yx=40 S 2 yx=8 Total Y n=7 Y 2 =320 Total Corrigido: Y 2 = 28+40 = 68; g.l. = n-1 = 6 As n=7 observações contribuem com 7 g.l., dos quais 1 está associado com a média e 1 com a inclinação (coeficiente de regressão, b), deixando 5 para os desvios em relação à regressão. Na maioria das aplicações, a partição das somas de quadrados e graus de liberdade fica: 38 Tabela 3.2. Análise de variância de Y. F.V. G.L. S.Q. Q.M. F Regressão 1 28 28 3,5 ns Desvio da Regressão 5 40 8 Total Corrigido 6 68 F0,05(1;5)=6,61 A variável F(1, n-2) é o quadrado da variável t(n-2), isto é, F=t 2 . A percentagem da variação total, em torno da média Y , que é explicada pela regressão é dada por R SQ gressão SQ Total Corrigido 2 Re . Na realidade, r é a correlação entre Y e Y e geralmente é chamado de coeficiente de correlação. Neste exemplo, R 2 28 68 39 9% , . CORRELAÇÃO SIMPLES 4.1 - Introdução A análise de regressão é apropriada para quando uma variável aleatória Y depende de uma variável causal X que frequentemente é controlada pelo pesquisador e a análise é conduzida para determinar o efeito de X sobre Y, ou a capacidade de X para predizer Y. Por outro lado, o objetivo principal do pesquisador pode ser estudar o grau de relacionamento entre duas variáveis aleatórias, nenhuma das quais podendo ser considerada como causa da outra. Um conjunto de dados constituído de medições de X e Y, feitas sobre uma amostra de n materiais experimentais, pode ser vista como uma amostra aleatória bivariada (X1, Y1), (X2, Y2), ..., (Xn, Yn), onde os diferentes pares são independentes. A partir desta perspectiva, um estudo da relação entre essas variáveis é efetuado através da análise de correlação. O primeiro passo no estudo de uma relação consiste em colocar as observações sobre um gráfico. O diagrama de dispersão fornece uma boa ajuda no discernimento da natureza da relação. 4.2 - Coeficiente de Correlação Amostral 39 Um tipo simples de associação entre as variáveis X e Y produz pares de valores ou, graficamente, pontos que distribuem-se em torno de uma linha reta. Uma pequena dispersão, em torno da linha indica forte associação; uma grande dispersão é uma manifestação de associação fraca. Uma medida numérica desta relação é chamada de coeficiente de correlação da amostra ou, às vezes, de coeficiente de correlação momento-produto de Pearson. Este coeficiente é dado por: r X X Y Y X X Y Y i n i i i i n i i n ( )( ) ( ) ( ) 1 2 1 2 1 , onde (X1, Y1), ... (Xn, Yn) são n pares de observações, cada par tendo a mesma distribuição bivariada. O coeficientede correlação da população, para uma distribuição bivariada, é definido por xy YX )Y,X(COV )Y,X(Corr . A estatística r é um análogo amostral de , como pode-se ver substituindo os parâmetros da população pelos seus análogos da amostra. Isto é, substitui-se COV (X, Y) por ( )( ) / ( ),X X Y Y n Xi i 1 2 por ( )( ) / ( ),X X Y Y n Xi i 1 2 e 2Y por ( ) / ( )Y Y ni 2 1 . Portanto, o coeficiente de correlação da amostra r pode ser considerado um estimador da correlação populacional . Outra fórmula de r, útil em cálculos manuais é: r X Y X Y X X Y Y i i i i n i n i i n i i i n i n i i i n i n 11 1 2 1 2 1 2 1 2 1 O r pode assumir valores entre -1 e 1. A proporção de variabilidade nos valores de Y que pode ser explicada por uma relação linear com X é precisamente r 2 . Assim, para r=0,90, tem-se que 81% da variabilidade nos valores de Y é explicada por uma relação linear com X. Figura 4.1. Correspondência entre os valores de r e a quantidade de dispersão. r = 0,9 r = 0,5 r = 0,0 r = -0,9 r = -0,5 40 As principais propriedades de r são: (1) r deve estar entre -1 e +1; (2) o valor numérico de r mede a intensidade da relação linear e o sinal de r indica a direção da relação; (3) r2 é a proporção da variabilidade nos valores de Y que é explicada por uma linha reta, ajustada pelo método dos quadrados mínimos; (4) r não varia se os valores de X são modificados para aX+b e os de Y para cY+d, onde a e c são constantes que têm o mesmo sinal. O coeficiente de correlação amostral, r, mede a intensidade da relação linear de duas variáveis. Pode haver o caso em que X e Y são fortemente relacionados mas que a relação é curvilínea. Às vezes a curva pode ser tal que r é aproximadamente zero, o que indica uma falta de relação linear; mas não afirma que não existe qualquer relação. Nenhuma medida de relação é apropriada quando o diagrama de dispersão divide-se em dois ou mais aglomerados de pontos. As figuras a seguir ilustram esses casos. Figura 4.2. - O coeficiente de correlação linear. A. Uma forte relação ao longo de uma curva para a qual r é quase zero. B. Relação não linear. C. Amostras provenientes de duas populações. Uma alta correlação amostral não significa necessariamente qualquer relação causal entre duas variáveis. A observação de que duas variáveis tendem a variar simultaneamente numa certa direção não implica na presença de uma relação direta de causa e efeito entre elas. Pode acontecer que uma terceira variável é que realmente está causando a correlação observada entre as duas variáveis. A falsa correlação que é produzida é chamada de correlação sem sentido. Quando usa-se o coeficiente de correlação como uma medida de relação, deve-se ter o cuidado de evitar que uma variável “emboscada” possa afetar qualquer das variáveis que estão sendo estudadas. Numa amostra bivariada uma importante questão a ser considerada é se as duas variáveis aleatórias são ou não correlacionadas. Quando a população é modelada como uma população bivariada normal, existe um teste simples para a hipótese nulidade H0:=0. Neste tipo de modelo, =0 é equivalente à independência das duas variáveis. A estatística apropriada para testar a independência num modelo normal bivariado é: 41 t n r r 2 1 2( ) , que tem distribuição t de Student com graus de liberdade igual a n-2. Dada uma alternativa bilateral para o teste, a hipótese nula, é rejeitada se o valor observado deste teste de significância for maior que t/2 ou menor que -t/2. Em outras palavras, para testar H0:=0 versus H1: 0, com base em n pares de observações obtidos, a partir de uma população normal bivariada, tem-se que: Rejeita-se H0 se n r r t 2 1 2 2 com g.l.=n-2 para t. O teste é dado por: F n r r ( )2 1 2 2 que é comparado com F(1, n-2). Observa-se que a estatística F é o quadrado da estatística t. F=t 2 . Uma forma simples de obter o intervalo de confiança para , utiliza a estatística Z de Fisher que é dada por: Z r re 1 2 1 1 log ( ) ( ) . Demonstra-se que a estatística Z tem distribuição aproximadamente normal. A média da distribuição de Z é aproximadamente E Z Ze( ) log ( ) ( ) 1 2 1 1 e sua variância é aproximadamente VAR nz 1 3 . Portanto, Z é ND Z n , 1 3 . Calcula-se Z a partir da equação anterior ou obtém-se seu valor em tabela própria. Um intervalo de confiança para Z pode ser formado como: Z Z*(1-/2) 1 3/ ( )n , onde Z* representa a distribuição normal padronizada. EXERCÍCIO DE APLICAÇÃO - REGRESSÃO LINEAR SIMPLES Para ilustrar o procedimento da análise de regressão linear simples consideremos os dados de produção de arroz de um experimento com quatro níveis de nitrogênio, como mostrado no quadro a seguir. O principal objetivo da análise é estimar uma resposta linear de produção de arroz para as doses de nitrogênio aplicadas e, testar se esta resposta linear é significativa (citado em GOMEZ & GOMEZ, 1984). 42 Tabela 4.1. Experimento de fertilizante em arroz. Doses de Nitrogênio Produção de Grãos (Kg/ha) (Kg/ha) 0 4230 50 5442 100 6661 150 7150 Resolução: (1) Computar as médias X e Y , as somas de quadrados corrigidos x 2 e y 2 , e a soma de produtos cruzados corrigida xy das variáveis X e Y, através das fórmulas seguintes: X X n Y Y n x X X y Y Y xy X X Y Y i i i i ; ; ( ) ; ( ) ; ( )( ) 2 2 2 2 onde (Xi, Yi) representa o i=ésimo par dos valores X e Y. Para o nosso exemplo, n=4 pares de valores de produção de arroz (Y) e doses de nitrogênio (X). O quadro a seguir contém as médias, as somas de quadrados corrigida e a soma de produtos cruzados corrigida. (2) Computar as estimativas dos parâmetros e da equação de regressão (Y = +X). Como a Y bX e b xy x 2 , onde a é a estimativa de e b a estimativa de , temos que b e a a 249745 12500 19 966 5870 75 19 96 75 4374 , , ( , )( ); Assim, a regressão linear estimada é dada por ,Y a bX X 4374 19 96 para 0 X 150. (3) Colocar os pontos observados num gráfico e traçar a linha reta estimada pela equação de regressão: a) plotar os n pontos observados; b) usando a regressão linear estimada anteriormente, compute os valores Y, um que corresponde ao menor valor de X (Xmín.) e outro ao maior valor de X (Xmáx.): Ymín. = a+b(Xmín.) =4374+19,96 (0) = 4374 Kg/ha 43 Ymáx. = a+b(Xmáx.) = 4374+19,96 (150) = 7368 Kg/ha c) plotar os dois pontos (Xmín., Ymín.) e (Xmáx., Ymáx.) sobre o plano (X, Y) e traçar a reta entre os dois pontos, como pode ser observado na figura a seguir: Figura 4.3. Regressão linear estimada entre produção de grãos (Y) e dose de nitrogênio (X). Tabela 4.2. Cálculo da equação de regressão linear simples de produção de grãos sobre doses de nitrogênio. Doses de N Produção Desvios em relação Quadrado dos Desvios Produtos de (Kg/ha) (Kg/ha) à Média Desvios (X) (Y) x y x 2 y 2 (x) (y) 0 4230 -75 -1640,75 5625 2692061 123056 50 5442 -75 -428,75 625 183287 10719 100 6661 25 790,25 625 624495 19756 150 7150 75 1279,25 5625 1636481 95944 Somas=300 23483 00 0,00 12500 5136864 249475 Médias=75 5870,75 00 0,00 3125 1284216 62368,75 A representação gráfica de uma regressão linear apresenta as seguintes características: Ymáx.= 7368 Ymín.= 4374 Y=4374+19,96X (r=0,98*) 44 a) areta deve ser traçada dentro da faixa de valores de Xmín. e Xmáx.. A extrapolação da linha para fora destes limites não é válida; b) a reta deve passar através do ponto ( , )X Y ; c) b é a inclinação da reta; d) se extendermos a reta ela deve interceptar o eixo Y no valor de a. (4) Testar a significância de : a) computar o quadrado médio do resíduo; S y x d y x n y xy x n 2 2 2 2 2 2 2 ( ) / b) computar o valor da estatística tb t b S b S y x x b b 2 2 c) compare o valor tb computado com o valor t tabelado com n-2 g.l. O valor é julgado significativamente diferente de zero se o valor absoluto de tb é maior que o valor tabelado de t ao nível de significância prescrito. No nosso exemplo temos: S y x e tb 2 25136864 249475 12500 4 2 78921 19 96 78921 12500 7 94 ( ) / , , O valor tabelado de t, aos níveis de significância de 5% e 1%, com (n-2)=2 g.l., são 4,303 e 9,925, respectivamente. Portanto, a resposta linear da produção de arroz em função de variações das doses aplicadas de N, dentro da faixa de 0 a 150 Kg N/ha, é estatisticamente significativa ao nível de significância de 5%. (5) Construir um intervalo de confiança (100-)% para , como: I. C b t S y x x . 2 2 , onde t é o valor de t tabelado com (n-2) g.l. ao nível de significância. Para nosso exemplo, o intervalo com 95% de confiança para é computado como: I. C b t S y x x . , , , , ,15; , ,95% 19 96 4 303 78921 12500 19 96 10 81 9 30 77 0 05 2 2 45 Assim, espera-se que o aumento em produção de grãos para todo aumento de 1 Kg/ha na dose aplicada de N, dentro da faixa de 0 a 150 Kg/ha, esteja localizado entre 9,15 Kg/ha e 30,77 Kg/ha, em 95% das vezes. (6) Testar a hipótese que 0: a) computar o valor ta como: t a S y x n X x a 0 2 2 2 1 b) compare o valor ta computado com o valor t tabelado com (n-2) g.l. e a um nível de significância prescrito. Rejeita-se a hipótese que 0 se o valor absoluto de t computado for maior que o valor t tabelado correspondente. Nesse exemplo, embora, provavelmente não haja necessidade de realizar teste de significância para , ilustraremos este procedimento testando se (isto é, produção na dose 0 Kg N/ha) é significativamente diferente de 4000 Kg/ha. Então, tem-se: ta 4374 4000 78921 1 4 75 12500 2 O valor t tabelado com (n-2) = 2 g.l., ao nível de significância de 5%, é de 4,303. Então o valor de não é significativamente diferente de 4000 Kg/ha. EXERCÍCIO DE APLICAÇÃO - CORRELAÇÃO LINEAR SIMPLES 1) Para ilustrar a relação entre a resposta e tratamento consideremos os dados do exercício anterior. Como os dados foram obtidos de um experimento no qual todos os outros fatores, exceto os tratamentos, foram mantidos constantes, é bastante lógico assumir que os tratamentos são a causa primária de variação na resposta da cultura. Assim, aplicamos a análise de correlação simples para determinar a intensidade da relação linear entre a resposta da cultura (representada por produção de grãos) como variável dependente e tratamento (doses de N) como variável dependente. a) Compute o coeficiente de correlação simples, r, como: r xy x y 2 2 249475 12500 5136864 0 985, b) Compare o valor absoluto do r computado com o valor r tabelado com (n-2) = 2 g.l., o qual é 0,950 ao nível de significância de 5% e 0,990 ao nível de 1%. Uma vez que o valor r computado é maior que o tabelado a 5%, o coeficiente de correlação é declarado como significativo ao nível de significância de 5%. O valor computado de r=0,985 indica que (100) (0,985) 2 = 97% da variação na produção média é devida a função linear das doses de nitrogênio aplicado. O valor de r relativamente alto é também um indicativo da proximidade entre a linha de regressão estimada e os pontos observados. 46 Devemos adicionar aqui uma nota de cuidado em relação à magnitude do r computado e seus graus de liberdade correspondentes. O valor de r tabelado cai rapidamente com o aumento do número de graus de liberdade, que é uma função de n (número de pares de observações usados na computação do valor r). Assim, quanto menor for n maior deve ser o valor r, para ser declarado como significativo. Portanto, uma boa prática na apresentação de resultados de regressão e correlação é especificar o tamanho da amostra. 2) Para ilustrar a relação entre duas respostas, usaremos dados sobre nitrogênio protéico solúvel (X1) e clorofila total (X2) em folhas, obtidos de sete amostras de uma cultivar de arroz. Neste caso, não está claro se há uma relação causa e efeito entre as duas variáveis e, mesmo que houvesse, seria difícil especificar qual é a casa e qual é o efeito. Portanto, a análise de correlação simples é aplicada para medir o grau de associação linear entre as duas variáveis sem especificar a relação causal. a) Computar as médias, somas de quadrados corrigidas e soma de produtos corrigida, como no quadro a seguir: Tabela 4.3. Cálculo de uma correlação simples entre nitrogênio protéico solúvel (X1) e clorofila total (X2) em folhas de arroz. N N protéico solúvel Clorofila Total Desvios Quadrado Produtos da mg/folha mg/folha dos Desvios de Desvios Amostra (X1) (X2) X1 X2 X1 2 X2 2 (X1) (X2) 1 0,60 0,44 -0,37 -0,38 0,1369 0,1444 0,1406 2 1,12 0,96 0,15 0,14 0,0225 0,0196 0,0210 3 2,10 1,90 1,13 1,08 1,2769 1,1664 1,1639 4 1,16 1,51 0,19 0,69 0,0361 0,4761 0,1311 5 0,70 0,46 -0,27 -0,36 0,0729 0,1296 0,0972 6 0,80 0,44 -0,17 -0,38 0,0289 0,144 0,0646 7 0,32 0,04 -0,65 -0,78 0,4225 0,6084 0,5070 Soma 6,80 5,75 0,01 0,01 1,9967 2,6889 2,1819 Média 0,97 0,82 b) Computar o coeficiente de correlação, r: r 2 1 9967 2 6889 0 942 ,1819 , , , 47 c) Compare o valor absoluto do r computado com os valores de r tabelado, com (n-2) = 5 g.l., os quais são 0,754 ao nível de significância de 5% e 0,874 ao nível de 1%. Então, o coeficiente de correlação é significativamente diferente de zero ao nível de probabilidade de 1%. Este valor de r altamente significativo indica que há uma forte evidência que o N protéico solúvel e a clorofila total, nas folhas de arroz, estão altamente associados um com o outro numa forma linear: folhas com alto teor de nitrogênio protéico solúvel têm um alto teor de clorofila e vice-versa. 48 CAPÍTULO V REGRESSÃO LINEAR MÚLTIPLA 5.1 – Introdução O exame, tanto do método experimental quanto do processo de coleta dos dados, pode revelar a existência de outras variáveis causais, além de X, que influenciam a variável resposta Y, mas que não foram consideradas na análise de regressão linear simples. O não controle de outras variações que influenciam a resposta durante a condução do experimento, pode obscurecer a verdadeira relação entre Y e X, devido ao aumento da variância residual, 2 . Portanto, para obter um modelo de predição útil, bem como estimadores não tendenciosos e eficientes, deve-se coletar dados de todas as variáveis que influenciam a variável resposta Y e incorporá-las explicitamente na análise de regressão. Devido a presença de mais de uma variável preditora (causal), este tipo de modelo é chamado de modelo de regressão múltipla, sendo denotado por Y X X Xn n 1 1 2 2 . . . . Na regressão linear simples, a equação define uma linha onde cada ponto representa uma média populacional estimada. Na regressão múltipla, a equação define um plano ou hiperplano onde cada
Compartilhar