REGRESSAO LINEAR SIMPLES

Estatística I

•
UNIP

Francisco Nascimento
22/02/2018
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 94 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 94 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 94 páginas
Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados
16 milhões de materiais de várias disciplinas
Impressão de materiais
Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Estatística I

57.606 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
Motivação 1
Em problemas de tratamento térmico deseja-se estabelecer uma relação entre a temperatura da estufa e uma característica da qualidade (dureza, por exemplo) de uma peça. Desta forma, pretende-se determinar os valores de temperatura em °C que "otimizam" a performance do processo de tratamento térmico em relação a estrutura metalográfica do material, avaliada em relação de dureza em HB.
Considere que em um experimento, a dureza de pistões foi medida em diferentes níveis de temperatura escolhidos conforme interesse (T1=220ºC, T2=225ºC, T3=230ºC e T4=235ºC ). Para cada ponto de temperatura foram submetidos ao tratamento térmico 5 pistões. Os dados observados são apresentados na Tabela 1.1 e o objetivo é estabelecer uma relação entre a variável de entrada (temperatura) e a variável de saída (dureza).
  
	Observação
	Dureza (HB)
	Temperatura (ºC)
	Observação
	Dureza (HB)
	Temperatura (ºC)
	1
	137
	220
	11
	128
	230
	2
	137
	220
	12
	124
	230
	3
	137
	220
	13
	126
	230
	4
	136
	220
	14
	129
	230
	5
	135
	220
	15
	126
	230
	6
	135
	225
	16
	122
	235
	7
	133
	225
	17
	122
	235
	8
	132
	225
	18
	122
	235
	9
	133
	225
	19
	119
	235
	10
	133
	225
	20
	122
	235
Tabela 1.1: Dados de dureza em um conjunto de pistões à diferentes níveis de temperatura.
 
��� HYPERLINK "http://www.portalaction.com.br/sites/default/files/analise_regressao/planilhas/Reglin.xls" �clique aqui para efetuar o download dos dados utilizados nesse exemplo�
Na maioria das vezes não se conhece a princípio a real relação existente entre as variáveis de interesse. Assim, uma análise gráfica preliminar é realizada construindo-se o gráfico de dispersão entre as variáveis em questão. Este gráfico é importante em qualquer análise de regressão já que por meio dele é possível ter uma noção do tipo de relação existente entre as variáveis (relação linear, quadrática). Esta relação na maioria das vezes não é perfeita, ou seja, os pontos não estão dispostos perfeitamente sobre a função que relaciona as duas variáveis mas deseja-se que estes pontos estejam próximos. Além disto, o gráfico de dispersão dá indícios sobre a variabilidade associada as variáveis em questão e sobre pontos atípicos ou discrepantes. Para o conjunto de dados da Tabela 1.1, o gráfico de dispersão é dado por
 
Figura 1.1: Temperatura da Estufa vs Dureza dos pistões.
	��
	 Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.
Pela Figura 1.1, observa-se que à medida que o nível da temperatura aumenta, a dureza dos pistões diminui. Desta forma, supor uma relação linear entre as variáveis temperatura e dureza, para valores de temperatura entre 220ºC e 235ºC é razoável.
Como visto na Figura 1.1 referente à "Motivação 1", é razoável supor que a relação existente entre as variáveis dureza de pistões, denotada por Y e níveis de temperatura, denotada por X, é linear. Desta forma, definimos o seguinte modelo de regressão linear simples entre Y (variável resposta) e X (variável regressora).
Definição 1.1.1
Consideremos duas variáveis X e Y. Dados n pares , se Y é função linear de X, pode-se estabelecer uma regressão linear simples cujo modelo estatístico é 
	
	
em que substituímos Xi por xi uma vez que Xi é uma variável determinística (constante conhecida).
Neste modelo,
 é uma variável aleatória e representa o valor da variável resposta (variável dependente) na i-ésima observação;
 representa o valor da variável explicativa (variável independente, variável regressora) na i-ésima observação;
 é uma variável aleatória que representa o erro experimental;
 e  são os parâmetros do modelo, que serão estimados, e que definem a reta de regressão e
n é o tamanho da amostra.
1.1.1 Interpretação dos parâmetros do modelo
O parâmetro  é chamado intercepto ou coeficiente linear e representa o ponto em que a reta regressora corta o eixo dos y's, quando x=0. Já o parâmetro  representa a inclinação da reta regressora e é dito coeficiente de regressão ou coeficiente angular. Além disso, temos que para um aumento de uma unidade na variável x, o valor E(Y|x) aumenta  unidades. A interpretação geométrica dos parâmetros  e pode ser vista na Figura 1.1.1.
Figura 1.1.1: Reta Regressora.
Um ponto negativo na Definição 1.1.1 é que o modelo de regressão linear simples não acomoda impactos de erros experimentais (variação de matéria prima), de erros de medida, entre outras inúmeras fontes de variabilidade, tornando-se inadequado nestes casos.
1.1.2 Suposições para o modelo
Ao estabelecer o modelo 1.1.1 para os dados, pressupomos que:
i) A relação matemática entre Y e X é linear;
ii) Os valores de x são fixos (ou controlados), isto é, x não é uma variável aleatória; 
iii) A média do erro é nula, ou seja, . Desta forma, segue que
	
	
e portanto, a função de regressão para o modelo 1.1.1 é dada por:
	
	
Note que o valor observado de  está em torno do valor da função de regressão com erro experimental .
iv) Para um dado valor de x, a variância de  é sempre , isto é,
	
	
isto implica em:
	
	
Neste caso, dizemos que o erro é homocedástico (tem variância constante);
v) O erro de uma observação é não correlacionado com o erro de outra observação, isto é,
	
	
Esta hipótese não implica que os erros sejam independentes. Se a distribuição dos erros for normal,  esta hipótese é equivalente a independência dos erros.
vi) Frequentemente, supomos que os erros tem distribuição Normal.
Desta forma, combinando (iii), (iv) e (vi) temos que . Como  é a soma de um termo constante, , com um termo aleatório, , segue que  Além disso, por (v) e (vi) temos que  e  são independentes. A suposição de normalidade é necessária para a elaboração dos testes de hipóteses e obtenção de intervalos de confiança.
Supondo que a relação linear entre as variáveis Y e X é satisfatória, podemos estimar a linha de regressão e resolver alguns problemas de inferência. O problema de estimar os parâmetros  e  é o mesmo que ajustar a melhor reta em um gráfico de dispersão, como na Figura 1.2.1. O Método dos Mínimos Quadrados é uma eficiente estratégia de estimação dos parâmetros da regressão e sua aplicação não é limitada apenas às relações lineares.
Figura 1.2.1: Representação da Reta de Regressão.
1.2.1 Método dos Mínimos Quadrados
O primeiro passo na análise de regressão é obter as estimativas  e  dos parâmetros do modelo. Os valores dessas estimativas serão obtidos a partir de uma amostra de n pares de valores , i=1,...,n que correspondem a n pontos em um gráfico, como na Figura 1.2.1. No método de Mínimos Quadrados, não é necessário conhecer a forma da distribuição dos erros.
Suponha que é traçada uma reta arbitrária  passando por esses pontos. No valor  da variável explicativa, o valor predito por esta reta é , enquanto o valor observado é . Os desvios (erros) entre estes dois valores é , que corresponde a distância vertical do ponto à reta arbitrária.
O objetivo é estimar os parâmetros  e  de modo que os desvios () entre os valores observados e estimados sejam mínimos. Isso equivale a minimizar o comprimento do vetor de erros, .
Uma forma de obter essas estimativas é o Método de Mínimos Quadrados. Este método consiste em minimizar a soma dos quadrados dos desvios L, como na expressão abaixo
	
	
Obviamente, que poderíamos calcular a distância entre a reta e os valores observados de diferentes formas. Por exemplo, poderiámos utilizar o módulo ao invés do quadrado, ou qualquer função de distância apropriada. A escolha do quadrado está na simplicidade dos cálculos envolvidos 
Para encontrarmos estimativas para os parâmetros, vamos minimizar (1.2.1.1) em relação aos parâmetros  e . Para isto, derivamos em relação aos parâmetros  e . Assim,
	
	
	
	
Substituindo  e  por  e ,para indicar valores particulares dos parâmetros que minimizam L, e igualando as derivadas parciais a zero, obtemos
	
	
	
	
Simplificando, obtemos as equações denominadas Equações Normais de Mínimos Quadrados.
	
	
Para encontrarmos os valores de  e  que minimizam L, resolvemos o sistema de equações dado em (1.2.1.2). Considerando a primeira equação de (1.2.1.2) obtemos que,
	
	
ou seja,
	
	
em que  são as médias de x e da variável Y, respectivamente.
Desta forma, substituindo (1.2.1.3) na segunda equação de (1.2.1.2) temos que,
	
	
	
	
	
	
	
	
Então,
	
	
e portanto, concluímos que
	
	
Podemos também escrever
	
	
Os valores de  e  assim determinados são chamados Estimadores de Mínimos Quadrados (EMQ).
O modelo de regressão linear simples ajustado é então
	
	
sendo que  é um estimador pontual da média da variável Y para um valor de , ou seja,
	
	
 
Notação:
Considerando n pares de valores observados ,
	
	
	
	
	
	
	
	
As quantidades  e  são as médias amostrais de x e y. Já as quantidades  e  são as somas dos quadrados dos desvios das médias e é a soma dos produtos cruzados dos desvios de x e y.
Desta forma, as estimativas de mínimos quadrados de  e , em termos desta notação são:
	
	
 
Exemplo 1.2.1
Voltando à "Motivação 1", em que queríamos determinar os valores de temperatura em  que otimizam a dureza do material, encontramos as estimativas dos parâmetros  e  pelo Método dos Mínimos Quadrados.
��� HYPERLINK "http://www.portalaction.com.br/sites/default/files/analise_regressao/planilhas/Reglin.xls" �clique aqui para efetuar o download dos dados utilizados nesse exemplo�
 
Solução:
As médias amostrais das variáveis temperatura (X) e dureza (Y) são, respectivamente, 
	
	
	
	
Além disso, na Tabela 1.2.1, apresentamos os valores de  e  para cada observação i, i=1,...,20.  
	Observação
	Temperatura (x)
	Dureza (y)
	
	
	
	1
	220
	137
	48.400
	18.769
	30.140
	2
	220
	137
	48.400
	18.769
	30.140
	3
	220
	137
	48.400
	18.769
	30.140
	4
	220
	136
	48.400
	18.496
	29.920
	5
	220
	135
	48.400
	18.225
	29.700
	6
	225
	135
	50.625
	18.225
	30.375
	7
	225
	133
	50.625
	17.689
	29.925
	8
	225
	132
	50.625
	17.424
	29.700
	9
	225
	133
	50.625
	17.689
	29.925
	10
	225
	133
	50.625
	17.689
	29.925
	11
	230
	128
	52.900
	16.384
	29.440
	12
	230
	124
	52.900
	15.376
	28.520
	13
	230
	126
	52.900
	15.876
	28.980
	14
	230
	129
	52.900
	16.641
	29.670
	15
	230
	126
	52.900
	15.876
	28.980
	16
	235
	122
	55.225
	14.884
	28.670
	17
	235
	122
	55.225
	14.884
	28.670
	18
	235
	122
	55.225
	14.884
	28.670
	19
	235
	119
	55.225
	14.161
	27.965
	20
	235
	122
	55.225
	14.884
	28.670
	Soma
	4.550
	2.588
	1.035.750
	335.594
	588.125
	Média
	227,5
	129,4
	 
	 
	 
Tabela 1.2.1: Dados da Motivação 1.
Assim, encontramos as somas de quadrados
	
	
	
	
	
	
Logo, as estimativas dos parâmetros  e  são, respectivamente
	
	
	
	
Portanto, o modelo ajustado é dado por
	
	
Pelos valores das estimativas, temos que a cada aumento da Temperatura, temos um decréscimo de 1,032 na Dureza.
 
1.2.2 Resíduos
A diferença entre o valor observado  e o correspondente valor ajustado , dado pela expressão (1.2.1.4), é chamada de resíduo e é denotado por
	
	
Essa medida é importante já que por meio dela verificamos o ajuste do modelo.
1.2.2.1 Algumas propriedades do ajuste de mínimos quadrados 
(i) A soma dos resíduos é sempre nula.
	
	
Na realidade, basta substituirmos os estimadores de mínimos quadrados
	
	
(ii) A soma dos valores observados  é igual a soma dos valores ajustados .
	
	
(iii) A reta de regressão de mínimos quadrados passa pelo ponto . De fato,
	
	
com . Assim, a reta de regressão ajustada é dada por
	
	
Logo, no ponto  temos que
	
	
Portanto, temos que a reta ajustada passa por .
(iv) A soma dos resíduos ponderado pelo correspondente valor da variável regressora é sempre nula. 
	
	
(v) A soma dos resíduos ponderado pelo correspondente valor ajustado é sempre zero.
	
	
 
1.2.3 Estimador da variância residual
Assim como os parâmetros  e , a variância  dos termos do erro  precisa ser estimada. Isto é necessário já que inferências a respeito da função de regressão e da predição de Y requerem uma estimativa de . Consideremos os resíduos  dado em (1.2.2.1). Desta forma, definimos a Soma de Quadrados dos Resíduos (Erros),
	
	
Como demonstrado em "Propriedades dos Estimadores", SQE é um estimador viciado de , isto é, 
	
	
Desta forma, um estimador não viciado para  é dado por
	
	
em que QME é o Quadrado Médio dos Erros (Resíduos).
Considerando n pares de valores observados , podemos escrever
	
	
como visto em "Propriedades dos Estimadores", em que  e  são dados respectivamente pelas expressões (1.2.1.6) e (1.2.1.7). Portanto,
	
	
Daremos mais detalhes para a Soma de Quadrados dos Erros (SQE) e para o Quadrado Médio dos Erros (QME) em "Análise de Variância".
 
Exemplo 1.2.2
Obter um estimador não viesado para a variância residual do exemplo da "Motivação 1".
��� HYPERLINK "http://www.portalaction.com.br/sites/default/files/analise_regressao/planilhas/Reglin.xls" �clique aqui para efetuar o download dos dados utilizados nesse exemplo�
Solução:
Temos que
	
	
Já vimos que �� INCLUDEPICTURE "http://www.portalaction.com.br/files/tex/c38723e44636497ed3ffb30fec3f549d816f1fd4.png" \* MERGEFORMATINET  e  então
	
	
	
	
 
Usando o Software Action obtemos os seguintes resultados:
Os estimadores de mínimos quadrados  e  possuem importantes propriedades: são não viciados e têm variância mínima entre todos os estimadores não viciados que são combinações lineares dos  (Teorema de Gauss-Markov). Desta forma, os estimadores de mínimos quadrados são frequentemente ditos "melhores estimadores lineares não viciados".
 
1. Valor esperado (média) de :
Definindo
	
	
segue que, 
	
	
Desta forma,
	
	
Como
	
	
	
	
concluímos que  (estimador não viciado).
 
2. Variância de :
De (1) temos que
	
	
Como ,  são variáveis independentes, segue que
	
	
Considerando n pares de valores observados , podemos escrever
	
	
 
3. Valor esperado (média) de :
	
	
Como , segue que
	
	
(estimador não viciado). 
 
4. Variância de :
	
	
Notemos que
	
	
	
	
	
	
Como
	
	
 
	
	
já que para , 
	
	
e para ,
	
	
segue que 
	
	
Desta forma, 
	
	
Como ,  são independentes, segue que
	
	
Novamente, dados n pares de valores  escrevemos
	
	
 
5. Covariância entre  e : 
	
	
	
	
	
	
	
	
	
	
De (4) temos que
	
	
 
e portanto, 
	
	
 
6. Distribuição amostral para :
Em (1), definimos 
	
	
Como  é combinação linear de normais independentes (combinação linear dos ), segue que  também tem distribuição normal com média e variância dadas respectivamente em (1) e (2) e portanto, 
	
	
 
 
7. Distribuição amostral para :
Como em (6),  também é combinação linear de normais independentes  e portanto, tambémtem distribuição normal. A média e a variância de  são apresentadas em (3) e (4), respectivamente. Desta forma, 
	
	
 
Em relação ao estimador da variância ,
8. Valor esperado (média) de QME:
	
	
Assim,
	
	
 
Sabemos que
	
	
	
	
	
	
	
	
	
	
	
	
	
	
 
Desta forma,  
 
	
	
	
	
	
	
	
	
	
	
Como
	
	
e
	
	
Segue que
	
	
	
	
	
	
	
	
Portanto,
	
	
(estimador não viciado).
 
Exemplo 1.3.1
Para os dados do exemplo da "Motivação 1", obter estimativas para a variância dos estimadores  e . O valor de QME foi calculado no "Exemplo 1.2.2". Já os valores de  e  foram calculados no "Exemplo 1.2.1". 
��� HYPERLINK "http://www.portalaction.com.br/sites/default/files/analise_regressao/planilhas/Reglin.xls" �clique aqui para efetuar o download dos dados utilizados nesse exemplo�
Solução:
	
	
	
	
Utilizando o Software Action obtemos os seguintes resultados:
Na regressão linear é importante avaliarmos se existe uma boa "correlação" entre a resposta e a variável explicativa. Por exemplo, se o aumento em cinco graus na temperatura de uma peça na estufa acarretará em uma mudança significativa no valor de dureza da peça. Para respondermos a esta questão, utilizamos testes de hipóteses e intervalos de confiança para os parâmetros. Em todos estes casos, é feita a suposição de que os erros são independentes e identicamente distribuídos . Dessa forma, as observações  têm distribuição .
 
1.4.1 Inferência para 
 
Não é com frequência que fazemos inferências sobre . Isso só ocorre quando a variável x pode assumir o valor x=0.
Suponha que desejamos testar a hipótese de que o intercepto é igual a um determinado valor, denotado por . Desta forma, sejam as hipóteses
	
	
no qual  é uma constante. Em geral, consideramos .
Como visto em "Propriedades dos Estimadores",
	
	
Assim, sob  temos que
	
	
Além disso, seja
	
	
Como as variáveis aleatórias  e  são independentes, segue que
	
	
ou seja, T tem distribuição t de Student com n-2 graus de liberdade. Logo, intervalos de confiança e testes a respeito de  podem ser realizados utilizando a distribuição t.
No modelo 1.1.1, queremos testar as hipóteses
	
	
Assim, a estatística do teste é dada por 
	
	
Logo, rejeitamos   com um nível de confiança de  se . O p-valor associado ao teste é dado por
	
	
Rejeitamos  se o p-valor for menor do que o nível de significância  considerado. Geralmente adotamos . 
Quando não rejeitamos , podemos utilizar o "Modelo de Regressão sem Intercepto". 
O intervalo de confiança para  com  é dado por
	
	
 
1.4.2 Inferência para 
 
Inferência sobre  é mais frequente já que por meio deste parâmetro temos um indicativo da existência ou não de associação linear entre as variáveis envolvidas.
Similarmente ao parâmetro , consideremos as hipóteses
	
	
no qual  é uma constante. Em geral, consideramos .
De "Propriedades dos Estimadores",
	
	
Assim, sob  segue que
	
	
Novamente, considerando que
	
	
e que  e  são independentes, obtemos
	
	
 
ou seja, T tem distribuição t de Student com n-2 graus de liberdade. Logo, intervalos de confiança e testes a respeito de  podem ser realizados utilizando a distribuição t.
No modelo em questão, queremos testar as seguintes hipóteses
	
	
Neste caso, a estatística do teste é 
	
	
Assim, rejeitamos   com um nível de confiança  se . O p-valor associado ao teste é dado por
	
	
Rejeitamos  se o P-valor for menor do que 
O intervalo de confiança para  com  é dado por
	
	
 
Exemplo 1.4.1
Aplicar testes de hipóteses e construir intervalos de confiança para os parâmetros (), usando os dados do exemplo na "Motivação 1". Como visto no Exemplo 1.2.1, as estimativas dos parâmetros são  e .
 �� HYPERLINK "http://www.portalaction.com.br/sites/default/files/analise_regressao/planilhas/Reglin.xls" clique aqui para efetuar o download dos dados utilizados nesse exemplo
Solução:
Para , queremos testar as hipóteses
	
	
Dos Exemplos 1.2.2 e 1.3.1, temos que
	
	
Desta forma, a estatística do teste é dada por
	
	
Para  temos .
Como , e
 rejeitamos 
O intervalo de confiança, , para  é dado por
	
	
	
	
	
	
	
	
	
	
 
Para , queremos testar as hipóteses
	
	
Novamente, dos Exemplos 1.2.2 e 1.3.1, temos que
	
	
A estatística do teste, sob  é dada por
	
	
Para  obtemos que .
Como  e
 rejeitamos 
O intervalo de confiança, , para  é dado por
	
	
	
	
	
	
	
	
 
Usando o Software Action temos os seguintes resultados:
 
No caso de um modelo linear simples, no qual temos apenas uma variável explicativa, testar a significância do modelo corresponde ao seguinte teste de hipóteses
	
	
  Na seção sobre os testes dos parâmetros do modelo, utilizamos a estatística t-student realizar este teste de hipóteses. Aqui, vamos introduzir de análise de variância (ANOVA) para testarmos a hipótese . Além disso, mostraremos que os dois testes são iguais. Assumimos  o "Modelo de Regressão Linear Simples" com a suposição de que os erros tem distribuição Normal.
A análise de variância é baseada na decomposição da soma de quadrados. Em outras palavras, o desvio de uma observação em relação à média pode ser decomposto como o desvio da observação em relação ao valor ajustado pela regressão mais o desvio do valor ajustado em relação à média, isto é, podemos escrever  como
	
	
 
1.5.1 Soma de Quadrados
Elevando cada componente de (1.3.1) ao quadrado e somando para todo o conjunto de observações, obtemos
	
	
em que
	
	
	
	
	
	
Desta forma, escrevemos
	
	
em que decompomos a Soma de Quadrados Total em Soma de Quadrados da Regressão e Soma de Quadrados dos Erros. 
Prova:
	
	
	
	
Notemos que
	
	
Como visto em "Algumas propriedades do ajuste de mínimos quadrados", 
	
	
e
	
	
Desta forma, 
	
	
	
	
e portanto,
	
	
Conforme demonstramos na seção propriedade dos estimadores, ao tomarmos os pares , temos que  e . Portanto, concluímos que .
 
1.5.2 Partição dos Graus de Liberdade
Assim como temos a decomposição da soma de quadrados total, vamos derivar uma decomposição para os graus de liberdade. ë importante ressaltarmos que os graus de liberdade são definidos como a constante que multiplica  para definir o valor esperado da soma de quadrados. Conforme demonstrado na seção propriedade dos estimadores, temos que .  Assim, os graus de liberdade relacionado com a  é dado por . 
Agora, sob , temos que  é uma amostra aleatória simples de uma população com média  e variância . Conforme demonstrado no módulo de inferência sobre propriedades gerais dos estimadores, temos que .  Então, como a soma de quadrados total foi decomposta na soma de quadrados dos erros mais a soma de quadrados da regressão, concluímos que sob ,
	
	
Com isso, concluímos que a  tem um grau de liberdade. 
Assim, sob , obtemos a seguinte decomposição dos graus de liberdade:
(1)  tem  graus de liberdade;
(2)  tem  grau de liberdade;
(3)  tem  graus de liberdade.
De forma geral, não necessariamente sob , também podemos calcular facilmente o valor esperado da soma de quadrado total. Para isto, temos que
	
	
A partir da definição de variânciade uma variável aleatória, concluímos que
	
	
Da mesma forma, temos que
	
	
Portanto, obtemos que
	
	
Observe que sob , obtemos que . Por outro lado, o valor esperado do quadrado médio da regressão é dado por,
	
	
1.5.3 Quadrado Médio
A ideia básica do quadrado médio está em tornarmos as somas de quadrados comparáveis. Sabemos que, sob , os graus de liberdade são constantes que vem muliplicando o  no cálculo do valor esperado  da soma de quadrados. A partir da partição dos graus de liberdade obtidos na seção anterior,  estimadores de momentos para  são dados pela divisão da soma de quadrados pelo seu respectivo grau de liberdade. Com isso, chegamos a definição dos quadrados médios:
	
	
	
	
Sob , tanto o quadrado médio dos erros (QME) quanto o quadrado médio da regressão (QMR) são estimadores de momento para . Portanto, eles são comparáveis. A seguir, apresentamos algumas formas simplificados para o cálculo das somas de quadrados.  Como visto em "Propriedades dos Estimadores",
	
	
Além disso,
	
	
Desta forma, 
	
	
e portanto,
	
	
	
	
 
1.5.4 Teste F
Considerando o Modelo de Regressão Linear Simples, a siginificância do modelo linear pode ser avaliada através do seguinte teste de hipóteses
	
	
Se não rejeitamos , concluímos que não existe relação linear significativa entre as variáveis explicativa (x) e dependente (Y). A estratégia para testarmos a hipótese  consiste em compararmos o quadrado médio da regressão com o quadrado médio dos erros, pois sob , ambos quadrados médios são estimadores de momentos para o parâmetro . Para isto precisamos do teorema de Cochran.  
Teorema de Cochran
Sejam  variáveis aleatórias independentes com distribuição . Conforme demonstrado na seção sobre a distribuição qui-quadrado, sabemos que
	
	
Se tivermos
	
	
em que  são somas de quadrados, cada um com  graus de liberdade, tal que
	
	
então obtemos que  e são independentes para qualquer .
 
Sob  temos que  é uma amostra aleatória simples da . Com isso, obtemos da seção que aborda as propriedades dos estimadores da média e variância de uma população normal, que 
	
	
Assim, através do teorema de Cochran, concluímos que
	
	
	
	
tem distribuição  qui-quadrado com  e  graus de liberdade, respectivamente. Além disso, temos que  e  são independentes. Desta forma, propomos a estatística do teste
	
	
Como  é a divisão de duas variáveis qui-quadrado, cada uma dividida pelos seus graus de liberdade e são independentes, segue que  tem distribuição F com  grau de liberdade no numerador e  graus de liberdade no denominador, denotada por . Através da partição dos graus de liberdade obtido na seçao 1.5.2, obtemos que
	
	
Estes valores esperados nos sugerem que que valores grandes de  nos indiam que  deve ser diferente de zero, ou seja, devemos rejeitar . Logo, rejeitamos  com um nível de significância  se , no qual  representa o quantil  da distribuição . Outra maneira é analisar o p_valor. Neste caso, rejeitamos  se , no qual  é o nível de significância estabelecido para o teste. 
Na tabela a seguir apresentamos a tabela ANOVA com a Estatística do Teste F.
	Fonte
	GL
	Soma de Quadrados
	Quadrado Médio
	
	Regressão
	1
	
	
	
 
	Resíduo
	
	
	
	
	Total
	
	
	 
	 
Tabela: Análise de significância usando ANOVA.
 
Exemplo 1.5.1
Construir a tabela da ANOVA para o exemplo dado na "Motivação 1". 
�� HYPERLINK "http://www.portalaction.com.br/sites/default/files/analise_regressao/planilhas/Reglin.xls" clique aqui para efetuar o download dos dados utilizados nesse exemplo
Solução:
	
	
	
	
	
	
Assim, 
	
	
A tabela da ANOVA é então, dada por
	Fonte
	GL
	Soma de Quadrados
	Quadrado Médio
	
	Regressão
	1
	665,64
	
	
 
	Resíduo
	18
	41,16
	
	
	Total
	19
	706,80
	 
	
Tabela: Análise de significância usando ANOVA.
Para , obtemos que 
Logo, 
	
	
Além disso, 
	
	
Portanto, rejeitamos  com um nível de confiança de  e concluímos que a variável explicativa tem correlação com a variável resposta.
 
Interpretação do P-valor
Quando o p-valor é aproximadamente zero significa que, se a hipótese nula  for verdadeira, a chance de  exceder o valor observado  é praticamente nula. Esta é uma evidência muito forte, contra  Um p-valor pequeno fornece evidências contra  Por exemplo, se fixarmos um nível de significância  (), então poderemos dizer que uma hipótese nula é rejeitada a este nível, quando o p-valor é menor do que esse .  
 
Usando o Software Action temos os seguintes resultados:
Uma das formas de avaliar a qualidade do ajuste do modelo é através do coeficiente de determinação. Basicamente, este coeficiente indica quanto o modelo foi capaz de explicar os dados coletados. O coeficiente de determinação é dado pela expressão
	
	
ou seja, é a razão entre a soma de quadrados da regressão e a soma de quadrados total. No modelo com intercepto, podemos escrever
	
	
Notemos que
	
	
 
O  é, portanto, uma medida descritiva da qualidade do ajuste obtido. Em geral referimo-nos ao  como a quantidade de variabilidade nos dados que é explicada pelo modelo de regressão ajustado. Entretanto, o valor do coeficiente de determinação depende do número de observações , tendendo a crescer quando  diminui. Se , tem-se sempre 
O  deve ser usado com precaução, pois é sempre possível torná-lo maior pela adição de um número suficiente de termos ao modelo. Assim, se, por exemplo, não há dados repetidos (mais do que um valor  para um mesmo ) um polinômio de grau  dará um ajuste perfeito  para  dados. Quando há valores repetidos, o  não será nunca igual a 1, pois o modelo não poderá explicar a variabilidade devido ao erro puro.
Embora  aumente com a adição de termos ao modelo, isto não significa necessariamente que o novo modelo é superior ao anterior. A menos que a soma de quadrados residual do novo modelo seja reduzida por uma quantidade igual ao quadrado médio residual original, o novo modelo terá um quadrado médio residual maior do que o original, devido a perda de 1 grau de liberdade. Na realidade esse novo modelo poderá ser pior do que o anterior.
A magnitude de , também, depende da amplitude de variação da variável regressora (). Geralmente,  aumentará com maior amplitude de variação dos 's e diminuirá em caso contrário. Pode-se mostrar que
	
	
Assim, um valor grande de  poderá ser grande simplesmente porque  variou em uma amplitude muito grande. Por outro lado  poderá ser pequeno porque a amplitude dos 's foi muito pequena para permitir que uma relação com  fosse detectada. Em geral, também,  não mede a magnitude da inclinação da reta. Um valor grande de  não significa uma reta mais inclinada. Além do mais, ele não leva em consideração a falta de ajuste do modelo; ele poderá ser grande, mesmo que  e  estejam não linearmente relacionados. Dessa forma, vê-se que  não deve ser considerado sozinho, mas sempre aliado a outros diagnósticos do modelo.
Exemplo 1.6.1: 
Vamos calcular o coeficiente de determinação  com os dados do exemplo na "Motivação 1".
�� HYPERLINK "http://www.portalaction.com.br/sites/default/files/analise_regressao/planilhas/Reglin.xls" clique aqui para efetuar o download dos dados utilizados nesse exemplo
Solução:
	
	
 
1.6.1 Coeficiente de Determinação Ajustado
Para evitar dificuldades na interpretação de , alguns estatísticos preferem usar o  ( ajustado), definido para uma equação com 2 coeficientes como
	
	
Assim como o Coeficiente de Determinação , quanto maior , mais a variável resposta é explicada pela regressora X.
Exemplo 1.6.1.1:
 Vamos calcular agora o coeficiente de determinação  com os dadosdo exemplo na "Motivação 1".
�� HYPERLINK "http://www.portalaction.com.br/sites/default/files/analise_regressao/planilhas/Reglin.xls" clique aqui para efetuar o download dos dados utilizados nesse exemplo
Solução:
	
	
 
Usando o software Action temos os seguintes resultados:
1.7.1 Intervalo de confiança para a resposta média
A estimativa de um intervalo de confiança para  é de grande interesse.
Um estimador pontual de  pode ser obtido a partir do modelo ajustado, isto é,
	
	
Notemos que  é uma variável aleatória normalmente distribuída já que é uma combinação linear das observações . Além disso, temos que
	
	
	
	
	
	
ou seja,  é um estimador não viciado para 
Assim, temos que
	
	
Temos também que
	
	
 
Logo,
	
	
Portanto, o intervalo de confiança para  é dado por
	
	
	
	
em que  é a resposta média estimada para o nível 
Considerando vários valores para  dentro do intervalo de realização dos dados, encontraremos vários valores para  Com isso, ao calcularmos o intervalo de confiança para cada um dos , temos um conjunto de intervalos de confiança que representam as bandas de confiança para a reta de regressão.
Exemplo 1.7.1
Calcular o intervalo de confiança para a reta de regressão usando, novamente, os dados do exemplo na "Motivação 1".
�� HYPERLINK "http://www.portalaction.com.br/sites/default/files/analise_regressao/planilhas/Reglin.xls" clique aqui para efetuar o download dos dados utilizados nesse exemplo
Solução:
Adotemos  ou seja, um valor pertencente à amostra. Neste caso,
	
	
	
	
	
	
	
	
	
	
	
	
	
	
	
	
	
	
	
	
	
	
	
	
Portanto o intervalo de confiança para a resposta média é
	
	
1.7.2 Intervalo de predição
Um modelo de regressão pode ser usado para prever a variável resposta, correspondente a valores da variável explicativa não considerada no experimento. Chamamos de predição a obtenção de um valor de  para um  que não pertence aos dados, porém pertence ao intervalo de variação estudado. Em situações em que o valor de  não pertence ao intervalo estudado, denominamos de extrapolação.
Seja  um dado valor da variável explicativa  que não pertence a amostra. Então,
	
	
é um estimador não viciado para  pois .
Chamamos de erro na previsão a diferença  cuja variância é dada por
	
	
	
	
De maneira semelhante à realizada em Intervalo de confiança para a resposta média, podemos demonstrar que
	
	
Assim, o intervalo de predição para  é,
	
	
	
	
Exemplo 1.7.2
Calcular o intervalo de confiança para uma nova observação aplicando o mesmo exemplo da "Motivação 1".
�� HYPERLINK "http://www.portalaction.com.br/sites/default/files/analise_regressao/planilhas/Reglin.xls" clique aqui para efetuar o download dos dados utilizados nesse exemplo
Solução:
Utilizemos  isto é, um valor que não pertence à amostra mas que pertence ao intervalo de variação estudado.
Temos do Exemplo 1.2.1 que  e  Assim, 
	
	
Logo, o intervalo de predição é
	
	
	
	
	
	
	
	
	
	
	
	
	
	
	
	
	
	
 
Usando o software Action temos os seguintes resultados:
- Intervalo de 95% de confiança de Predição:
- Intervalo de 95% de confiança de Previsão do exemplo 1.7.2.
Suponha que dispomos de  pares de observações �� INCLUDEPICTURE "http://www.portalaction.com.br/files/tex/931423bb450a2748245306d969b6fee64d113dba.png" \* MERGEFORMATINET  O modelo de regressão linear simples, sem intercepto, é definido por
Neste caso, a função de mínimos quadrados é
	
	
que derivando em relação a  resulta em
	
	
Substituindo  por  e igualando a zero, obtemos
	
	
que resolvendo em relação a  resulta em
	
	
Podemos mostrar que
	
	
	
	
Sendo  temos que
i) 
ii) Um estimador não viciado para  é dado por
	
	
iii) 
iv)  
Um intervalo de  de confiança para  é dado por
	
	
Um intervalo de  de confiança para a resposta média em  é dado por
	
	
em que 
Um intervalo de  de confiança para a predição de  dado  é
	
	
em que 
Exemplo 1.8.1
Voltando à "Motivação 1", em que queríamos determinar os valores de temperatura em  que otimizam a dureza do material, calculemos a estimativa de  considerando o modelo sem intercepto.
�� HYPERLINK "http://www.portalaction.com.br/sites/default/files/analise_regressao/planilhas/RegsInt.xls" clique aqui para efetuar o download dos dados utilizados nesse exemplo
Temos que a estimativa de  do modelo sem intercepto é
	
	
Usando o Software Action temos os seguintes resultados:
A Análise de Resíduos consiste em um conjunto de técnicas para investigar a adequabilidade do modelo com base nos resíduos
	
	
A ideia básica é que se o modelo linear simples é apropriado, os resíduos devem refletir as suposições descritas na Seção 1.1, tais como independência, variância constante para diferentes níveis de X e distribuição Normal.
Na Seção 3 estão as principais técnicas utilizadas na verificação das suposições dos resíduos, que devem ser analisadas para que o modelo ajustado realmente faça sentido.
A calibração é um processo de comparação, por exemplo na metrologia, a comparação de um equipamento  que desejamos calibrar com um padrão, que pode ser um outro equipamento (padrão) ou algum material padrão. Na área química a comparação pode ser feita usando medições obtidas de um material chamado de Material de Referência Certificado (MRC), como exemplo podemos citar os materiais certificados internacionais (ISO GUIDE). Consideramos que cada quantidade do material de referência utilizado é a mesma, pelo menos no que diz respeito às propriedades do analito. 
A curva de calibração é uma relação funcional do sinal observado (y) dada uma certa quantidade de analito. Em geral, utilizamos a regressão linear simples (para mais detalhes consulte o conteúdo regressão linear simples) para estimarmos a incerteza devido a curva de calibração (para mais detalhes sobre o que é incerteza consulte o conteúdo incerteza de medição).
Segundo o documento orientativo do INMETRO de validação de métodos (DOQ-CGCRE-008), o método é mais sensível quando pequenas variações de concentração resultam em maior variação na resposta (coeficiente angular ). Em geral, são necessários vários níveis de concentração (no mínimo cinco) para construir a curva de calibração e o número de replicatas em cada nível de concentração deve ser o mais próximo possível daquele empregado na rotina do laboratório. Todo experimento de determinação da faixa de trabalho é iniciado pela escolha de uma faixa preliminar, no qual a faixa de trabalho deve cobrir a faixa de aplicação para o qual o ensaio vai ser usado. A orientação segundo DOQ-CGCRE-008 [12] é que a concentração mais esperada da amostra deve, sempre que possível, se situar no centro da faixa de trabalho. No limite inferior da faixa de concentração, o fator limitante é o valor do limite de quantificação, já no limite superior, os fatores limitantes dependem do sistema de resposta do equipamento de medição.
A maioria das aplicações da curva de calibração é que na prática, temos interesse em predizer o valor de (X) dado uma observação(Y), para ilustrarmos o problema observe a seguinte aplicação.
 
Motivação
 
Considere a curva de calibração de um composto químico realizado por um equipamento chamado Espectrômetro de emissão ótica (ICP). A seguir apresentamos o conjunto de dados:
 
	Concentracao
	Area
	0,05
	0,00000405
	0,05
	0,00000312
	0,05
	0,00000211
	0,1
	0,0000286
	0,1
	0,00002380,1
	0,0000308
	0,5
	0,0001913
	0,5
	0,0001936
	0,5
	0,0002006
	1
	0,0004883
	1
	0,0004761
	1
	0,0004851
	2
	0,0009072
	2
	0,0009246
	2
	0,0009008
 
��� HYPERLINK "http://www.portalaction.com.br/sites/default/files/Incerteza/planilhas/Curva_calibracao.xls" �clique aqui para efetuar o download dos dados utilizados nesse exemplo�
Notamos através desta aplicação, que na prática temos interesse em predizer o valor de concentração (X) dado uma observação em área (Y). Neste caso, estamos tratando um problema de regressão inversa, em que predizemos de forma inversa. A principal diferença do modelo de regressão linear clássico é na predição da concentração  e no cálculo da variância . Além disto, temos normas específicas para tratarmos as curvas de calibração.
O Ministério da Agricultura, Pecuária e Abastecimento (MAPA) publicou no Diário Oficial da União em 22/07/2009 a instrução normativa [11] para tratarmos as curvas de calibração. No anexo II seção 7.1 apresenta os procedimentos mínimos requeridos como evidência objetiva da validação do método analítico, são elas:
7.1.1.1. A curva de calibração/resposta deve ser obtida a partir de 5 níveis de concentração, equidistante distribuídos (0,0 - 0,5 - 1,0 - 1,5 - 2,0 vezes o limite máximo de resíduo [LMR] / limite mínimo de desempenho requerido [LMDR]).
7.1.1.2. Cada ponto da curva deve ser ensaiado em pelo menos seis réplicas.
7.1.1.3. Três tipos de curvas de calibração/resposta devem ser elaborados:
i. Padrões de calibração em solução.
ii. Matriz branca fortificada com os padrões de calibração.
iii. Extrato da matriz branca fortificado com os padrões de calibração.
7.1.1.4. As replicatas de cada nível de concentração devem ser independentes ou repetições genuínas, e não somente repetições de leitura.
7.1.1.5. As medidas devem ser feitas em ordem aleatória, adotando-se os devidos cuidados para evitar contaminação cruzada.
7.1.1.6. As curvas de calibração não devem ser forçadas a passar pela origem.
7.1.1.7. Perfil sugerindo heteroscedasticidade significa que os dados da calibração são melhores se tratados por regressão ponderada.
7.1.1.8. Os intervalos de aceitação dos parâmetros da curva, faixa linear de trabalho, devem compreender os valores de LMR ou LMDR.
7.1.1.9. Na determinação dos demais parâmetros de validação (repetitividade, reprodutibilidade), assim como nas rotinas analíticas, os 5 pontos da curva resposta devem ser ensaiados em pelo menos três réplicas cada.
O item 7.1.1.10 trata da avaliação da linearidade e esta avaliação está descrita no conteúdo regressão linear simples. À partir do subitem ii, o conteúdo está descrito na seção análise resíduos. Nas demais seções deste conteúdo vamos aplicar os conceitos da regressão linear simples e fazer uma análise de diagnósticos através da análise dos resíduos.
Nesta seção vamos descrever o modelo estatístico para a motivação, para isto é razoável supor que a relação existente entre a variável Área (Y) e níveis de Concentração (X) é linear. Desta forma, definimos o seguinte modelo de regressão linear simples entre Y (variável resposta) e X (variável regressora).
Consideramos duas variáveis Concentração e Área, neste caso, podemos estabelecer uma regressão linear simples cujo modelo estatístico é
	
	
em que,
: representa a j-ésima medição de área referente a i-ésima concentração;
: representa a i-ésima concentração;
: representa o coeficiente linear ou intercepto;
: representa o coeficiente angular;
: representa o j-ésimo erro cometido na medição da i-ésima área. Consideramos que os  são independentes e identicamente distribuídos com distribuição  .
Pelo método dos mínimos quadrados, obtemos
	
	
em que,
 representa a média das leituras de área;
 representa a média das leituras de concentração.
para mais detalhes consulte estimação dos parâmetros do modelo.
 
Exemplo
 
Voltando à Motivação, vamos calcular as estimativas dos parâmetros  e  pelo Método dos Mínimos Quadrados.
 
	n
	Concentracao
	Area
	Conc2
	Area2
	Conc x Area
	1
	0,05
	0,00000405
	0,0025
	1,64E-11
	2,02E-07
	2
	0,05
	0,00000312
	0,0025
	9,74E-12
	1,56E-07
	3
	0,05
	0,00000211
	0,0025
	4,43E-12
	1,05E-07
	4
	0,1
	0,0000286
	0,01
	8,21E-10
	2,86E-06
	5
	0,1
	0,0000238
	0,01
	5,67E-10
	2,38E-06
	6
	0,1
	0,0000308
	0,01
	9,48E-10
	3,08E-06
	7
	0,5
	0,0001913
	0,25
	3,66E-08
	9,56E-05
	8
	0,5
	0,0001936
	0,25
	3,75E-08
	9,68E-05
	9
	0,5
	0,0002006
	0,25
	4,03E-08
	1,00E-04
	10
	1
	0,0004883
	1
	2,38E-07
	4,88E-04
	11
	1
	0,0004761
	1
	2,27E-07
	4,76E-04
	12
	1
	0,0004851
	1
	2,35E-07
	4,85E-04
	13
	2
	0,0009072
	4
	8,23E-07
	1,81E-03
	14
	2
	0,0009246
	4
	8,55E-07
	1,85E-03
	15
	2
	0,0009008
	4
	8,12E-07
	1,80E-03
	Soma
	10,95
	0,005
	15,788
	0,00000331
	0,007
	Média
	0,73
	0,0003
	 
	 
	 
��� HYPERLINK "http://www.portalaction.com.br/sites/default/files/analise_regressao/figuras/Curva_calibracao.xls" �clique aqui para efetuar o download dos dados utilizados nesse exemplo�
Solução:
As médias amostrais das variáveis Concentração (X) e Área (Y) são, respectivamente, 
	
	
Além disso, na Tabela, apresentamos os valores de ,  e  para cada observação . 
 
Da tabela calculamos as somas de quadrados da seguinte forma:
	
	
	
	
	
	
Logo, as estimativas dos parâmetros  e  são, respectivamente
	
	
Portanto, o modelo ajustado é dado por
	
	
Veja a seguir os resultados obtidos pelo software Action.
 
Da seção análise de variância obtemos que
	
	
Substituindo os valores obtemos que
	
	
Com isso, podemos calcular as variâncias dos parâmetros
	
	
	
	
O  é uma medida descritiva da qualidade do ajuste obtido. Como obtemos um  de 0,99, logo a quantidade de variabilidade dos dados bem é explicada pelo modelo de regressão ajustado. Como dito anteriormente, na prática temos interesse em predizer o valor de concentração (X) dado uma observação em área (Y). Então, dado  observado, tomamos como estimativa (invertendo a função linear)
	
	
Logo, a variância da estimativa  é dada por (Veja Brown [13], 1993, pg. 26)
	
	
 
Após estimarmos os parâmetros da curva de calibração, as suposições do modelo ajustado precisam ser validadas para que os resultados sejam confiáveis. Chamamos de Análise dos Resíduos um conjunto de técnicas utilizadas para investigar a adequabilidade de um modelo de regressão com base nos resíduos. Os  resíduos  é dado pela diferença entre a variável resposta observada (Área ) e a variável resposta estimada 
 Ao estabelecer o modelo para curva de calibração, supomos que:
i) A relação matemática entre Y e X é linear (seção modelo estatístico para curva de calibração);
ii) Os valores de x são fixos (ou controlados), isto é, x não é uma variável aleatória; 
iii) A média do erro é nula, ou seja, E(εi)=0. Desta forma, segue que
	
	
iv) Para um dado valor de x, a variância de  é sempre , isto é,
	
	
isto implica em:
	
	
Então, podemos dizer que o erro é homocedástico (tem variância constante);
v) O erro de uma observação é independente do erro de outra observação (erros não correlacionados), isto é,
	
	
vi) Frequentemente, supomos que os erros tem distribuição Normal.
A suposição de normalidade é necessária para a elaboração dos testes de hipóteses e obtenção de intervalos de confiança.
Visando atender os requisitos do MAPA item 7.1.1.10 subitem ii e as disposições do modelo lde regressão linear, vamos realizar a análise de diagnósticos. Com isso, a primeira análise de diagnósticos é o teste de normalidade (para mais detalhes consulte o conteúdo teste de normalidade). A partir do software Action, obtemosos seguintes resultados:
Tabela 1.10.2.1: Teste de normalidade.
Figura 1.10.2.1: Gráfico da análise de resíduos.
Dos resultados obtidos pela tabela, temos que para qualquer estatística escolhida temos que os resíduos são normais. Assim, atendemos a suposição de normalidade dos resíduos.
Dos gráficos notamos que o nível de concentração de 1, pode afetar a normalidade dos resíduos, porém dos testes (tabela 1.10.2.1) notamos que os resíduos são normais. Do gráfico resíduos versus ordem de coleta não temos uma tendência, com isso temos indícios dos resíduos serem independentes. Por fim, analisando o gráfico de resíduos versus valores ajustados observamos uma variação pequena dos resíduos, com isso temos indícios de homoscedasticidade dos resíduos.
A seguir, vamos testar a independência dos resíduos.
Tabela 1.10.2.2: Teste de independência dos resíduos.
Para testarmos a independência dos resíduos vamos utilizar a estatística de Durbin-Watson (para mais detalhes consulte diagnóstico de independência). Logo, para nível de significância  não rejeitamos  (p-valor0,0547). Portanto, podemos afirmar que com um nível de confiança de 95%, os resíduos são independentes.
Agora, vamos testar a suposição (iv), isto é, o teste de homoscedasticidade. Primeiramente, vamos apresentar a estatística de teste recomendada pelo MAPA.
 
Teste de Brown-Forsythe
 
O teste de Brown-Forsythe é utilizado para o teste de igualdade de variâncias, porém em certos casos utilizamos para testar a homoscedasticidade dos resíduos no caso de uma variável explicativa.
O teste  e o teste de Bartlett são muito sensíveis à suposição de que as populações subjacentes têm distribuição normal. Quando as distribuições subjacentes são não têm distribuição normal, tais testes podem extrapolar seu nível de significância nominal.
Levene propôs uma estatística para dados balanceados, que foi generalizada posteriormente para dados desbalanceados. A estatística é obtida à partir de uma ANOVA (1 fator) entre os grupos, em que cada observação foi substituída pelo seu desvio absoluto da sua média do grupo. No artigo Brown e Forsythe [10] esta estatística foi descrita para amostras muito pequenas, em que as correlações altas entre desvios no mesmo grupo fragilizam a validade do teste. Com isso, Brown e Forsythe consideraram a mediana ou 10 % da tri-média (mais robustas), como alternativas para a média no cálculo dos desvios absolutos.
Agora, vamos definir a estatística do teste, para isto seja  para j-ésima observação () no i-ésimo grupo (), em que a média  são desconhecidas e desiguais. Assumimos que  são independentes e identicamente distribuídos com média zero variância possivelmente desiguais. Para cada grupo, tomamos a mediana () e a variância amostral (). Seja os desvios absolutos
	
	
Portanto, temos a seguinte estatística:
	
	
em que,  e  
Agora vamos calcular a estatística de Brown-Forsythe, para isto vamos fazer um sumário dos dados necessários.
Tabela 1.10.2.3: Sumário básico dos dados.
Com isso, calculamos  e o tamanho da amostra  para cada nível de concentração. Agora, vamos calcular os desvios absolutos.
 
	Concentração
	Área
	
	zij
	
	
	0,05
	4,05E-06
	3,00E-06
	1,04829E-06
	1,00E-06
	2,33154E-15
	0,05
	3,12E-06
	3,00E-06
	1,20893E-07
	1,00E-06
	7,7283E-13
	0,05
	2,11E-06
	3,00E-06
	8,94803E-07
	1,00E-06
	1,10664E-14
	0,1
	2,86E-05
	0,000029
	3,52781E-07
	2,00E-06
	2,71333E-12
	0,1
	2,38E-05
	0,000029
	5,19687E-06
	2,00E-06
	1,022E-11
	0,1
	3,08E-05
	0,000029
	1,78221E-06
	2,00E-06
	4,74331E-14
	0,5
	0,000191
	0,000194
	2,72662E-06
	3,00E-06
	7,47356E-14
	0,5
	0,000194
	0,000194
	4,31653E-07
	3,00E-06
	6,59641E-12
	0,5
	0,000201
	0,000194
	6,62629E-06
	3,00E-06
	1,315E-11
	1
	0,000488
	0,000485
	3,27345E-06
	0,000004
	5,27876E-13
	1
	0,000476
	0,000485
	8,86904E-06
	0,000004
	2,37075E-11
	1
	0,000485
	0,000485
	1,05052E-07
	0,000004
	1,51706E-11
	2
	0,000907
	0,000907
	1,72542E-07
	0,000008
	6,12691E-11
	2
	0,000925
	0,000907
	1,75731E-05
	0,000008
	9,16435E-11
	2
	0,000901
	0,000907
	6,16094E-06
	0,000008
	3,38215E-12
	 
	 
	Média
	3,68897E-06
	soma
	2,29289E-10
 
Tabela 1.10.2.4: Tabela auxiliar para calcularmos a estatística de Brown-Forsythe.
 Logo, da tabela obtemos os resultados de
	
	
Por fim, calculamos a estatística de Brown-Forsythe, para isto observe a seguinte tabela:
 
	Concentração
	
	ni
	ni-1
	Z..
	g-1
	Numerador
	
	Denominador
	Estatística 
	0,05
	1,00E-06
	3
	2
	3,68897E-06
	4
	5,42291E-12
	
	
	
	0,1
	2,00E-06
	3
	2
	3,68897E-06
	4
	2,13946E-12
	
	
	
	0,5
	3,00E-06
	3
	2
	3,68897E-06
	4
	3,56006E-13
	
	
	
	1
	0,000004
	3
	2
	3,68897E-06
	4
	7,25564E-14
	
	
	
	2
	0,000008
	3
	2
	3,68897E-06
	4
	1,39388E-11
	
	
	
	 
	 
	Soma
	10
	 
	 
	2,19297E-11
	2,29289E-10
	2,29289E-11
	0,937442
 
Tabela 1.10.2.5: Teste de Brown-Forsythe.
 Logo, temos que
	
	
O p-valor é dado por:
 
	
	
Para nível de significância , obtemos que  Portanto, com 95% de confiança, não rejeitamos , ou seja, os resíduos são homocedásticos.
A seguir,  através do software Action, testamos a homoscedasticidade através das estatísticas de Breusch-Pagan e Goldfeld-Quandt (para mais detalhes consulte diagnóstico de homoscedasticidade).
 
Tabela 1.10.2.5: Teste de homoscedasticidade.
Através das tabelas notamos que para nível de significância , obtemos que com 95% de confiança, não rejeitamos , ou seja, os resíduos são homoscedásticos para os testes de Breusch-Pagan e Brown-Forsythe (Teste de Levene modificado). Uma observação importante é que para o teste de Goldfeld-Quandt rejeitamos  porém dentre as limitações deste teste é que necessitamos de uma amostra relativamente grande, o que não acontece com este exemplo. Portanto, podemos concluir que a homoscedasticidade dos resíduos (variância constante).
 
Diagnóstico de outliers e pontos influentes
 
A seguir, vamos analisar os outliers, que é uma observação extrema, ou seja, é um ponto com comportamento diferente dos demais. Se um outlier for influente, ele interfere sobre a função de regressão ajustada (a inclusão ou não do ponto modifica substancialmente os valores ajustados).
Mas uma observação ser considerada um outlier não quer dizer que consequentemente é um ponto influente. Por isso, um ponto pode ser um outlier em relação a Y ou aos X, e pode ou não ser um ponto influente. A detecção de pontos atípicos tem por finalidade identificaroutliers com relação a X, outliers com relação a Y e observações influentes.
Primeiramente, vamos analisar os outliers em X, para isto observe os resultados obtidos pelo software Action:
Figura 1.10.2.2: Boxplot dos pontos de alavanca (Leverage).
Figura 1.10.2.3: Gráfico dos pontos de alavanca (leverage hii) versus nº da observação.
Do gráfico 1.10.2.2 notamos alguns indícios de observações podem alavancar o ajuste do modelo. Do gráfico 1.10.2.3 observamos que os pontos são o de concentração igual a 2. Notamos que ele está muito distante em relação a concentração de 1. Porém, pelo critério 0,4 temos que nenhum ponto é um outlier em X (Concentração).
Agora, vamos analisar os outliers em Y, para isto observe os resultados obtidos pelo software Action:
Figura 1.10.2.4: Gráfico dos resíduos padronizados versus valores ajustados.
Figura 1.10.2.5: Gráfico dos resíduos studentizados versus valores ajustados.
Dos gráficos 1.10.2.4 e 1.10.2.5 não observamos nenhum outlier em Y (Área).
Tabela 1.10.2.6: Teste de outliers.
Observamos da tabela 1.10.2.6 e do gráfico de resíduos studentizados versus ajustados 1.10.2.5, que a observação 10 é um outlier, porém do gráfico de resíduos padronizados versus ajustados 1.10.2.4 notamos que este ponto está nula zonanebulosa de ser ou não um outlier.
A seguir, vamos analisar os pontos influentes, para isto observe os resultados obtidos pelo software Action:
Vale lembrar que um ponto é influente, se sua exclusão do ajuste da regressão causa uma mudança substancial nos valores ajustados. DFFITS medem a influência que a observação i tem sobre seu próprio valor ajustado.  Pelo critério  DFFITS, obtemos que a observação 15 é um ponto influente, porém pelo critério da distância de Cook, não detectamos pontos influentes.
 
 
O DFBETA mede a influência da observação i sobre o coeficiente de X (Concentração). Pelo critério observamos que o ponto 15 é um ponto influente para o coeficiente de Concentração.
Um resumo geral da análise de diagnóstico é que os pontos 10, 11e 12 podem influenciar na normalidade dos resíduos. Já para análise de outliers em Y, temos que o ponto 10 é um outlier em Y (Concentração). Já o ponto 15 é um ponto influente que pode causar uma mudança substancial no ajuste do modelo.
Após as validações das suposições do modelo ajustado, o próximo passo é calcular a incerteza devido à curva de calibração. Para isto propomos calcular a incerteza (para mais detalhes consulte o conteúdo incerteza de medição) por quatro métodos:
Método MGQ (Manual da Garantia da Qualidade);
Método da projeção do intervalo de predição;
Método Delta;
Método Fieller.
A seguir vamos descrever o primeiro método, que é o método do manual da garantia da qualidade (MGQ).
Ao relatarmos o resultado da medição de uma grandeza física é obrigatório que seja dado alguma indicação quantitativa da qualidade do resultado, de tal forma que aqueles que utilizam o resultado da medição possam avaliar sua confiabilidade. O conceito de incerteza de medição será utilizado como um atributo quantificável para determinar a qualidade de um sistema de medição. Afim de atender este conceito referente a incerteza devido à curva de calibração para métodos analíticos e controle de resíduos contaminantes em alimentos, o Ministério da Agricultura, Pecuária e Abastecimento (MAPA), por intermédio da Secretaria de Defesa Agropecuária e da Coordenação-Geral de Apoio Laboratorial (CGAL), resolveu redigir e publicar o Manual de Garantia da Qualidade Analítica.
No anexo IV do MGQ é descrito de como é calculado da incerteza de previsão da concentração do analito da Curva de Calibração (Cálculo de Incerteza de Calibração). A incerteza padrão da concentração de analito não é a incerteza da concentração de analito na amostra de ensaio, pois nela não consideramos outras fontes de incerteza como a incerteza da preparação das soluções e os níveis de concentração da curva de calibração, tampouco a repetibilidade do ensaio. Esta incerteza é uma das fontes de incerteza do ensaio analítico.
Inicialmente, notamos que na prática o maior interesse é predizer o valor da concentração (X) dado uma observação em área (Y), por exemplo, em análises cromatográficas ou por espectrometria (ICP). Então, dado  observado, tomamos como estimativa (invertendo a função linear)
	
	
Chamamos de erro na previsão a diferença  cuja variância é dada por
	
	
Um estimador pontual pode ser obtido à partir do modelo ajustado
	
	
Notemos que  é uma variável aleatória normalmente distribuída já que é uma combinação linear das observações . Além disso, temos que
	
	
	
	
 
	
	
Com isso temos que  é um estimador não viciado para  Outra observação importante, é que  é obtida na seção testes e intervalo de confiança dos parâmetros. Logo, temos que
	
	
	
	
Logo, voltando em (1.10.3.1.1) obtemos
	
	
Portanto a incerteza devido à curva de calibração pelo método MGQ é dada por:
	
	
ou equivalentemente
	
	
Vale lembrar que:
x0: é a concentração de analito da solução injetada no instrumento de medição analítica obtida por interpolação ou extrapolação da curva de calibração.
y0: é a resposta instrumental média das injeções no instrumento de medição analítica das soluções obtidas.
sres: é o desvio-padrão da resposta instrumental para solução da amstra injetada no instrumento de medição analítica. Mais especificamente é o desvio-padrão dos resíduos do modelo de regressão linear simples.
 
Exemplo 1.10.3.1.1:
 
Voltando ao exemplo de motivação da seção 1.10.1 - Modelo Estatístico para Curva de Calibração. Já temos calculado:
 
 
Tomamos o ponto  Logo, a incerteza devido à curva de calibração devido ao método da projeção do intervalo de confiança da resposta média é dada por
	
	
 
	��
	 Para entender como executar essa função do Software Action, você pode consultar o manual do usuário.
 
Na próxima seção, vamos descrever o método da projeção do intervalo de confiança da resposta média.
Nesta seção vamos deduzir outra metodologia para calcularmos a incerteza devido à curva de calibração, que denominamos método da projeção  do intervalo de confiança da resposta média. Para ilustrarmos esta denominação, observe o exemplo da motivação.
A estimativa de um intervalo de confiança para  é de grande interesse.
Um estimador pontual de  pode ser obtido a partir do modelo ajustado, isto é,
	
	
Notemos que  é uma variável aleatória normalmente distribuida já que é uma combinação linear das observações . Além disso, temos que
	
	
	
	
Portanto, o intervalo de confiança para  é dado por
	
	
	
	
em que  é a resposta média estimada para o nível x=x0. Observe a figura (1.10.3.2.1) que ilustra o intervalo de predição
Figura 1.10.3.2.1: Banda de confiança do intervalo de predição.
	
	
	
	
Primeiramente, traçamos uma linha paralela ao eixo  na altura de  estimado em , que denominaremos por . Projetamos linhas à partir das bandas de confiança, em seguida, traçamos uma reta perpendicular ao eixo  para obtermos os os valores de  e .
Igualando as equações (1.10.3.2.1) e (1.10.3.2.2), temos:
   
    elevando ambos os lados ao quadrado,
   
    
   
Colocando em evidência  e , temos,
   
	
	
(1.10.3.2.4)
Vale lembrar que (1.10.3.2.4) é uma equação do segundo grau do tipo  (Bhaskara) com:
    
    
    
Assim, resolvendo a equação (1.10.3.2.4) em  encontramos  e . Com isso, temos que
   
Resolvendo , temos
   
   
   
          
    
    
    
Dessa maneira, temos
    
   
   
Somamos e subtraímos , e obtemos
   
    
    
Multiplicamos e dividimos o segundo termo do lado direito da igualdade por 
 
   
 
   
 
Substituímos g por 
 
    
 
  
 
  
 
Vamos escrever   Com isso temos
 
   para 
 
em que  Quando g é zero para  , temos os limites para  Com isso temos que
 
   que são os limites do intervalo de confiança da resposta média dividido pelo parâmetro 
 
 
Podemos encontrar dois tipos de problemas quando calculamos o intervalo de confiança por este método.
 
 pode ser negativo. Quando isso acontece, não existe um intervalo de confiança real para , pois as soluções das equações não são números reais e sim números complexos. A Figura (1.10.3.2.2) ilustra o que ocorre.
 
Figura 1.10.3.2.2: Caso em que as soluções de  e  são complexas. Assim, não existe um intervalo de confiança para .
É possível encontrar  e  ambas menores ou ambas maiores que . Quando isso acontece, a incerteza calculada por este método não é válido. A Figura (1.10.3.2.3) ilustra o que ocorre nesse caso.
Figura 1.10.3.2.3: Caso em  e  são ambos menores que 
 
Portanto, a incerteza devido à curva de calibração devido ao método da projeção do intervalo de confiança da resposta média é dada por
 
 
Exemplo 1.10.3.2.1:
 
Voltando ao exemplo de motivação da seção 1.10.1 - Modelo Estatístico para Curva de Calibração. Já temos calculado:Tomamos o ponto  Logo, a incerteza devido à curva de calibração devido ao método da projeção do intervalo de confiança da resposta média é dada por
	
	
A seguir apresentamos os resultados obtidos pelo software Action:
	��
	 Para entender como executar essa função do Software Action, você pode consultar o �� HYPERLINK "http://www.portalaction.com.br/manual-metrologia/curva-de-calibracao" manual do usuário.
Na próxima seção, vamos descrever o método delta.
 
Nesta seção, vamos utilizar o método delta para calcularmos a incerteza devido a curva de calibração. O método delta é uma técnica para aproximar um vetor aleatório, através da expansão pela séria de Taylor. Ela proporciona transformações que levam a uma variância assintótica que é independente do parâmetro. Se usarmos a aproximação de 1a ordem para  obtemos
	
	
Expandimos em série de Taylor até primeira ordem, com isso obtemos,
 
Então  é o estimador de  e temos aproximadamente,
 
      (1.10.3.3.1)
Da seção 1.3 Propriedades dos Estimadores, temos que
 
 
 
 
Agora, é necessário calcularmos as derivadas. Assim,
 
 
 
 
 
 
 
 
 
 
 
 
em que 
Substituímos as derivadas e os dados obtidos nas seções anteriores em (1.10.3.3.1).
	
	
Com algumas manipulações algébricas obtemos
 Portanto, a incerteza devido à curva de calibração pelo método delta é dada por
	
	
Exemplo 1.10.3.3.1:
 
Voltamos ao exemplo da motivação. Já temos calculado:
 
 
 
Suponhamos,  logo a incerteza devido à curva de calibração pelo método Delta é dada por
 
	
	
	
	
	
	
 
	��
	 Para entender como executar essa função do Software Action, você pode consultar o �� HYPERLINK "http://www.portalaction.com.br/manual-metrologia/curva-de-calibracao" manual do usuário.
A incerteza devido à curva de calibração como dito na seção modelo estatístico para curva de calibração, na prática temos interesse em predizer o valor da concentração X, dado uma observação em Área (Y). Com isso obtemos:
	
	
que é uma razão de duas variáveis aleatórias com distribuição normal (para mais detalhes consulte a distribuição Normal), ou seja, tem distribuição normal com média  e variância  e  tem distribuição normal com média  e variância  Ao padronizarmos estas duas variáveis aleatórias, obtemos duas variáveis aleatórias normais padrão, isto é,  Logo a razão destas duas variáveis aleatórias terá uma distribuição de Cauchy (para mais detalhes consulte o conteúdo da distribuição de Cauchy), que não possui média e variância, o que impossibilitaria calcularmos a incerteza devido à curva de calibração. Porém, vamos utilizar um resultado que possibilitará calcularmos a incerteza devido à curva de calibração, que é o teorema de Fieller.
O teorema de Fieller é um resultado geral para intervalos de confiança da razão de duas variáveis aleatórias normalmente distribuídas.
Seja a variável aleatória  em que  e  são estimados por  e  e estes estimadores são normalmente distribuídos com médias  e e variâncias Var e Var respectivamente.Consideramos 
Com isso, como  e  são estimadores não viciados de  e  temos que
	
	
	
	
Suponhamos que  seja normalmente distribuído e
	
	
tem distribuição normal padrão.  Agora, observemos a seguinte desigualdade,
	
	
Elevamos ao quadrado em ambos os lados e igualamos a zero. 
	
	
Substituimos  por (1.10.3.4.1), com isso obtemos
	
	
Para facilitar a notação, substituímos �� INCLUDEPICTURE "http://www.portalaction.com.br/files/tex/2661b01edcc5dca3f4c7fab7939dd7c5e168ed59.png" \* MERGEFORMATINET �� INCLUDEPICTURE "http://www.portalaction.com.br/files/tex/3e2d46eb72b1a07e81bb6a9c8972e2fcda124af2.png" \* MERGEFORMATINET  e  Com isso, temos que
	
	
	
	
Assim esta expressão é uma equação do segundo grau do tipo  (Bhaskara). Logo resolvemos esta equação da seguinte forma:
	
	
	
	
Logo, a solução para  é dada por
	
	
Voltamos as notações originais e chegamos a seguinte expressão:
em que
	
	
As duas raízes da equação do segundo grau, são os limites de confiança 100(1-)% para  que é o método de Fieller. Agora vamos calcular a variância para  Para isto, vamos adaptarmos o resultado obtido para  Então basta trocarmos  por  Mas para isto vamos fazer alguns cálculos:
	
	
Porém, temos
	
	
Calculamos agora
	
	
Voltamos em (1.10.3.4.3) e obtemos
	
	
	
	
Agora, voltamos em (1.10.3.4.2) e obtemos
	
	
	
	
Vale lembrar que
	
	
	
	
Logo, temos que
	
	
	
	
	
	
Substituímos a equação anterior pelos valores:
	
	
e com algumas manipulações algébricas obtemos que
	
	
em que  Quando g é zero para  , temos os limites para  Com isso temos que
	
	
Agora, observe que
	
	
Multiplicamos por -1 a inequação e somamos  obtemos que
	
	
Logo, temos que
	
	
Portanto, a incerteza padronizada devido a curva de calibração é dada por:
	
	
 
Exemplo 1.10.3.4.1:
 
Voltamos ao exemplo da motivação. Já temos calculado:
 
 
 
Suponhamos,  logo a incerteza devido à curva de calibração pelo método Fieller é dada por
 
	
	
	
	
	��
	 Para entender como executar essa função do Software Action, você pode consultar o �� HYPERLINK "http://www.portalaction.com.br/manual-metrologia/curva-de-calibracao" manual do usuário.
 
O modelo de regressão linear inversa foi aplicado à avaliação da incerteza na determinação de compostos químicos à partir da construção de curva de calibração para diferentes níveis de concentrações. Nas seções anteriores utilizamos cinco métodos para determinar a incerteza devido à curva de calibração  e são elas:
Método Ingênuo;
Método MGQ (Manual da Garantia da Qualidade);
Método da projeção do intervalo de confiança da resposta média;
Método Delta;
Método Fieller.
Na presente seção vamos fazer uma comparação entre os quatro métodos para aplicação obtida na seção 1.10 (ICP - Espectrômetro de emissão ótica).
	Concentração
	Área Ajustada
	u(Ing)
	u(MGQ)
	u(Proj)
	u(delta)
	u(Fieller)
	0,05
	0,000004
	0,04239
	0,04521
	0,0157
	0,0318
	0,00011
	0,1
	0,000027
	0,04239
	0,04508
	0,0153
	0,0314
	0,00083
	0,25
	0,000098
	0,04239
	0,04474
	0,0143
	0,0303
	0,00339
	0,5
	0,000216
	0,04239
	0,04438
	0,0132
	0,0286
	0,00899
	1
	0,000451
	0,04239
	0,04442
	0,0133
	0,0263
	0,0253
	2
	0,000922
	0,04239
	0,04746
	0,0213
	0,0266
	0,078
	3
	0,001392
	0,04239
	0,05379
	0,0331
	0,0329
	0,16
	5
	0,002334
	0,04239
	0,07253
	0,0589
	0,0541
	0,40
 
Tabela 1.10.3.5.1: Resumo das incertezas devido à curva de calibração para todos os métodos.
Comparamos as incertezas obtidas na tabela 1.10.3.5.1, e notamos que os métodos ingênuo (Ing) e do manual da garantia da qualidade (MGQ) estão bem próximos em concentrações até 1 μg/mL, comparando com os demais métodos. Vale lembrar que o método ingênuo (para mais detalhes consulte modelo estatístico para curva de calibração) é dado pela fórmula:
	
	
e este método mantêm constante a incerteza para qualquer nível de concentração.
Em concentrações até 0,5 μg/mL, temos que o método de Fieller é tem menor incerteza e cresce linearmente, à medida que aumentamos os níveis de concentração.  Os métodos delta e MGQ tem variação pequena ao longo dos níveis de concentração adotados, enquanto o método da projeção (Proj) cresce linearmente à medida que aumentamos os níveis de concentração, porém com menos intensidade comparado com o método de Fieller.Resumindo, notamos que o método de Fieller, para níveis de concentração baixo têm incerteza baixa, enquanto que para níveis de concentração altos a incerteza é muito maior comparado com os demais métodos.
	Incerteza relativa aos níveis de concentração (%)
	Concentração
	u(Ing)
	u(MGQ)
	u(Proj)
	u(delta)
	u(Fieller)
	0,05
	84,78
	90,42
	31,44
	63,66
	0,23
	0,1
	42,39
	45,08
	15,34
	31,44
	0,83
	0,25
	16,96
	17,90
	5,73
	12,12
	1,36
	0,5
	8,48
	8,88
	2,63
	5,73
	1,80
	1
	4,24
	4,44
	1,33
	2,63
	2,53
	2
	2,12
	2,37
	1,07
	1,33
	3,90
	3
	1,41
	1,79
	1,10
	1,10
	5,25
	5
	0,85
	1,45
	1,18
	1,08
	7,95
Tabela 1.10.3.5.2: Incertezas em porcentagem em relação aos níveis de concentração.
A tabela 1.10.3.5.2 nos mostra a porcentagem da incerteza devido a curva de calibração em relação aos níveis de concentração. Desta tabela, obtemos que a incerteza para os baixos níveis de concentração é bem alto. Por exemplo, vamos observar o nível de concentração de 0,05 μg/mL. A incerteza que mais alta é o obtido pelo método do manual da garantia da qualidade (MGQ). O método da projeção do intervalo de confiança da resposta média (Proj), embora com incerteza menor que os métodos MGQ, delta e ingênuo, ainda assim tem cerca de 32% em relação a concentração de 0,05 μg/mL. Ao compararmos a incerteza obtida pelo método Fieller com os demais, observamos que ela é a mais adequada para incertezas com níveis de concentração baixos. Os demais métodos decrescem à medida que aumentamos os níveis de concentração (tabela 1.10.3.5.2), enquanto que o método de Fieller cresce. Outro argumento de favorece o método de Fieller é que  é a razão de duas variáveis aleatórias com distribuição normal e este método leva em conta esta suposição. Ao contrário dos demais métodos que não usam esta suposição. Portanto, o método de Fieller é o método mais plausível para calcularmos a incerteza devido à curva de calibração.
 
Em  muitos casos, ao analisarmos os resíduos de um modelo de regressão linear, ao visualizarmos que estes não apresentam a característica de variância constante, temos uma das suposições do modelo não atendidas. Quando isso acontece, dizemos que o modelo apresenta heterocedasticidade nos erros (resíduos), ou ainda que o modelo é heterocedástico. Alguns efeitos causados por essa falha na suposição do modelo são:
Os erros padrões dos estimadores, obtidos pelo Método dos Mínimos Quadrados Ordinários, são incorretos e portanto a inferência estatística não é valida.
Não podemos mais dizer que os Estimadores de Mínimos Quadrados Ordinários são os melhores estimadores de variância mínima para , embora ainda possam ser não viciados.
 
Por que usar pesos?
Suponhamos que a variância seja não constante, isto é,
	
	
tomamos, por exemplo, pesos de forma que
	
	
Com isso, as estimativas de Mínimos Quadrados Ponderados  (MQP) tem erros padrão menores do que as estimativas de Mínimos Quadrados Ordinários (MQO). Como dito anteriormente, as estimativas de MQO são incorretos, em relação as estimativas de MQP.
 
Motivação
 
Considere a curva de calibração para o ensaio de certo composto químico realizado por um equipamento chamado Cromatógrado. A seguir apresentamos o conjunto de dados:
 
	Área
	Concentração
	0,078
	0
	1,329
	0
	0,483
	0
	0,698
	0
	0,634
	0
	0,652
	0
	0,071
	0
	20,718
	25
	21,805
	25
	16,554
	25
	19,948
	25
	21,676
	25
	22,207
	25
	19,671
	25
	33,833
	50
	34,726
	50
	35,463
	50
	34,04
	50
	34,194
	50
	33,664
	50
	34,517
	50
	79,224
	100
	73,292
	100
	85,514
	100
	82,072
	100
	85,044
	100
	73,876
	100
	82,568
	100
	108,065
	150
	118,268
	150
	108,89
	150
	127,183
	150
	121,447
	150
	122,414
	150
	135,555
	150
	224,932
	250
	200,113
	250
	200,368
	250
	205,17
	250
	213,059
	250
	207,931
	250
	201,766
	250
	371,534
	500
	408,86
	500
	383,509
	500
	405,143
	500
	404,132
	500
	379,243
	500
	387,419
	500
�� HYPERLINK "http://www.portalaction.com.br/sites/default/files/analise_regressao/planilhas/Reg_pond.xlsx" clique aqui para efetuar o download dos dados utilizados nesse exemplo
Ajustamos o modelo de regressão linear, com o apoio computacional do software Action, obtemos o gráfico da análise de resíduos:
Gráfico 1.11.1: Análise de Diagnóstico do modelo.
Vale lembrar que a suposição do modelo linear é que os erros (resíduos) têm distribuição normal, independentes e com variâncias constantes, isto é, o modelo é homocedástico. Ao avaliarmos o gráfico de resíduos x valores ajustados, podemos verificar indícios de homocedasticidade ou o contrário (heterocedasticidade).
Na avaliação da homocedasticidade, esperamos que esse gráfico apresente seus pontos dispostos aleatoriamente em torno da linha traçada em 0, que é o valor esperado dos resíduos. Porém, do gráfico 1.11.1, podemos observar que os resíduos apresentam certa tendência. Por exemplo, notamos um comportamento crescente até metade dos valores ajustados e decrescente da metade pro fim. Com isso, temos indícios de que os erros não possuem variâncias contantes, neste caso dizemos que o modelo apresenta heterocedasticidade nos erros. Além disso, observando o gráfico Resíduos x Ordem de Coleta, vemos de maneira ainda mais clara a tendência dos resíduos em relação a distância da linha central, novamente percebemos que eles se distanciam menos nas primeiras observações e aumenta conforme nos aproximamos da última.
A avaliação da hipótese de homoscedasticidade dos resíduos, é feita através das estatísticas de Cochran, Brown-Forsyte (Levene),  Breusch-Pagan e Goldfeld-Quandt.Para isto, testamos as seguintes hipóteses:
	
	
A seguir, com auxílio do software Action, vamos avaliar a homocedasticidade:
Tabela 1.11.1: Teste de homocedasticidade dos erros (resíduos).
A partir dos resultados, notamos que para todas as estatísticas utilizadas rejeitamos a hipótese nula , isto é,  o modelo é heterocedástico ao nível de significância de 5% ().
Ao testarmos a hipótese de homocedasticidade e este for rejeitado, então temos um modelo heterocedástico. Para contornar a falha na suposição do modelo de regressão linear, descrevemos a estimativa por Mínimos Quadrados Ponderados.
 
Modelo Estatístico
 
Neste momento, consideramos o modelo de regressão linear simples e vamos denotar por  a variância relacionada ao i-ésimo erro , A suposição do modelo é que  independentes. Observe que estamos considerando que a variância  depende da i-ésima observação, podendo ser não constante ao longo das observações. O modelo descrito é da forma:
	
	
em que,  
 é a i-ésima observação da variável resposta;  
 é a i-ésima observação da covariável constante e conhecida;  
 e  são os parâmetros desconhecidos da regressão;  
 é o i-ésimo erro, consideramos  para  e  é o número de observações.
A ideia principal é obter estimadores para os parâmetros de regressão de forma que os estimadores dos parâmetros da regressão sejam consistentes e de variância mínima. Desta forma, as inferências realizadas sobre o modelo se tornam válidas.
Como dito, vamos introduzir os princípios dos estimadores de mínimos quadrados ponderados, no qual devemos considerar que cada uma das  observações podem não gerar a mesma variabilidade nos resíduos.  
Por fim, determinamos o peso que cada observação terá sobre os estimadores, isto é, a influência sobre elas. Para isto, vamos nos basear na ideia de que o peso atribuído a uma observação é inversamente proporcional a variância do resíduo relacionado a ela, em outras palavras, consideramos que as observações que causam maior variabilidade nos resíduos têm menor confiabilidade em termos de inferência para os parâmetros da função de regressão. De maneira análoga, as observações com menor variância