Logo Passei Direto
Buscar
Material
páginas com resultados encontrados.
páginas com resultados encontrados.

Prévia do material em texto

ESTATÍSTICA
57
ANÁLISE DE REGRESSÃO LINEAR. CRITÉRIOS DE MÍNIMOS QUADRADOS E DE MÁXIMA VEROSSIMILHANÇA.MODE-
LOS DE REGRESSÃO LINEAR. INFERÊNCIA SOBRE OS PARÂMETROS DO MODELO. ANÁLISE DE VARIÂNCIA. ANÁLISE 
DE RESÍDUOS
Regressão linear6
A análise de regressão consiste na realização de uma análise estatística com o objetivo de verificar a existência de uma relação funcio-
nal entre uma variável dependente com uma ou mais variáveis independentes. Em outras palavras consiste na obtenção de uma equação 
que tenta explicar a variação da variável dependente pela variação do(s) nível(is) da(s) variável(is) independente(s). 
Para tentar estabelecer uma equação que representa o fenômeno em estudo pode-se fazer um gráfico, chamado de diagrama de 
dispersão, para verificar como se comportam os valores da variável dependente (Y) em função da variação da variável independente (X). 
O comportamento de Y em relação a X pode se apresentar de diversas maneiras: linear, quadrático, cúbico, exponencial, logarítmico, 
etc.... Para se estabelecer o modelo para explicar o fenômeno, deve-se verificar qual tipo de curva e equação de um modelo matemático 
que mais se aproxime dos pontos representados no diagrama de dispersão. 
Contudo, pode-se verificar que os pontos do diagrama de dispersão, não vão se ajustar perfeitamente à curva do modelo matemático 
proposto. Haverá na maior parte dos pontos, uma distância entre os pontos do diagrama e a curva do modelo matemático. Isto acontece, 
devido ao fato do fenômeno que está em estudo, não ser um fenômeno matemático e sim um fenômeno que está sujeito a influências que 
acontecem ao acaso. Assim, o objetivo da regressão é obter um modelo matemático que melhor se ajuste aos valores observados de Y em 
função da variação dos níveis da variável X. 
No entanto o modelo escolhido deve ser coerente com o que acontece na prática. Para isto, deve-se levar em conta as seguintes con-
siderações no momento de se escolher o modelo: 
- o modelo selecionado deve ser condizente tanto no grau como no aspecto da curva, para representar em termos práticos, o fenô-
meno em estudo; 
- o modelo deve conter apenas as variáveis que são relevantes para explicar o fenômeno; 
Como foi dito anteriormente, os pontos do diagrama de dispersão ficam um pouco distantes da curva do modelo matemático escolhi-
do. Um dos métodos que se pode utilizar para obter a relação funcional, se baseia na obtenção de uma equação estimada de tal forma que 
as distâncias entre os pontos do diagrama e os pontos da curva do modelo matemático, no todo, sejam as menores possíveis. Este método 
é denominado de Método dos Mínimos Quadrados (MMQ). Em resumo por este método a soma de quadrados das distâncias entre os 
pontos do diagrama e os respectivos pontos na curva da equação estimada é minimizada, obtendo-se, desta forma, uma relação funcional 
entre X e Y, para o modelo escolhido, com um mínimo de erro possível.
Ao se construí um diagrama de dispersão, não sabemos o comportamento da reta em relação aos pontos grafados. Para tanto, deve-
mos calcular o ajustamento da reta aos pontos. Alguns exemplos de diagramas de dispersão com o ajustamento da reta aos pontos:
Ajustamento da reta aos pontos grafados 
Para ajustar a reta aos pontos grafados em um diagrama de dispersão, os estatísticos usam as seguintes equações:
6 Prof. Luiz Alexandre Peternelli – INF 162
ESTATÍSTICA
58
Modelo linear de 1º grau (Regressão Linear Simples)
O modelo estatístico para esta situação seria:
em que:
Para se obter a equação estimada, vamos utilizar o MMQ, visando a minimização dos erros. Assim, tem-se que:
elevando ambos os membros da equação ao quadrado,
aplicando o somatório,
Por meio da obtenção de estimadores de β0 e β1, que minimizem o valor obtido na expressão anterior, é possível alcançar a minimiza-
ção da soma de quadrados dos erros. Para se encontrar o mínimo para uma equação, deve-se derivá-la em relação à variável de interesse 
e igualá-la a zero. Derivando então a expressão em relação a β0 e β1, e igualando-as a zero, poderemos obter duas equações que, juntas, 
vão compor o chamado sistemas de equações normais. A solução desse sistema fornecerá:
ESTATÍSTICA
59
Uma vez obtidas estas estimativas, podemos escrever a equação estimada:
ESTIMADORES DE MÍNIMOS QUADRADOS
Estimadores de Mínimos Quadrados
O método de estimação por mínimos quadrados consiste em minimizar o quadrado das diferenças entre os valores observados de uma 
amostra e seus respectivos valores esperados. Consideraremos o procedimento a partir de um exemplo simples.
Exemplo: Suponha que estamos interessados em estudar a resistência de um cabo de aço em função de seu diâmetro . A partir 
de uma amostra coletada, percebemos que as variáveis são, aproximadamente, proporcionais, isto é, em que é o coeficiente 
de proporcionalidade. O nosso objetivo é estimar o parâmetro , baseado nas medidas disponíveis em uma amostra de 10 unidades mos-
tradas na tabela a seguir:
A partir dessas informações, podemos concluir que, aparentemente, parece ser uma estimativa razoável para o parâmetros . 
Como podemos verificar a qualidade desta estimativa? Uma forma de fazer isso é verificar as diferenças entre os valores observados e os 
valores esperados utilizando a estimativa, ou seja, . Na tabela a seguir, temos os valores da amostra, os valores esperados, a diferença 
 e as diferenças ao quadrado .
A ideia principal do método baseia-se em minimizar o erro quadrático total da amostra. Para a estimativa , este erro é dado 
por 0,213, porém, pode ser que exista alguma outra estimativa com erro quadrático total menor do que 0,213. Desta forma, o objetivo é 
minimizar a função 
ESTATÍSTICA
60
O mínimo da função é obtido derivando a função em relação a e igualando o resultado a zero, ou seja, encontrar para o qual 
E, resolvendo esta equação, obtemos o estimador
Utilizando os dados de e , encontramos , ou seja, a estimativa que minimiza o erro quadrático total da amostra 
é dada por . De fato, utilizando este valor, temos que o erro quadrático total é 0,2114015.
Neste caso, estamos assumindo que, para um dado valor da variável , os valores da variável seguem uma distribuição de proba-
bilidade centrada em , o que é equivalente a dizer que, para cada , o desvio segue uma distribuição centrada 
em zero e, desta forma, é comum escrever 
com seguindo a distribuição com média zero. Desta forma, é razoável escolher que minimiza a soma dos quadrados dos erros 
Observamos que o modelo pode ser generalizado. Isto é, podemos considerar funções mais gerais do parâmetros , ou seja, 
e, da mesma forma do exposto acima, devemos encontrar o valor de que minimize a função 
para uma amostra das variáveis e . A solução é chamada de estimador de mínimos quadrados (EMQ) 
de .
Análise de variância
A análise de variância é um teste estatístico amplamente difundido entre os analistas, e visa fundamentalmente verificar se existe uma 
diferença significativa entre as médias e se os fatores exercem influência em alguma variável dependente.
Os fatores propostos podem ser de origem qualitativa ou quantitativa, mas a variável dependente necessariamente deverá ser con-
tínua.
Haja visto que se trata de um teste bastante difundido e inúmeros bons softwares estatísticos e planilhas eletrônicas possuem o recur-
so disponível, não haverá aprofundamento desta técnica neste capítulo, sendo recomendada literatura especializada.
A principal aplicação da ANOVA (analysis of variance) é a comparação de médias oriundas de grupos diferentes, também chamados 
tratamentos, como por exemplo médias históricas de questões de satisfação, empresas que operam simultaneamente com diferentes 
rendimentos, entre muitas outras aplicações.
Existem dois métodos para calcular-se a variância: dentro de grupos (MQG) e a variância das médias (MQR).
Em uma Anova, calcula-se esses dois componentes de variância. Se a variância calculada usando a média (MQR) for maior do que a 
calculada (MQG)usando os dados pertencentes a cada grupo individual, isso pode indicar que existe uma diferença significativa entre os 
grupos.
Existem dois tipos de problemas a serem resolvidos através da Anova: a níveis fixos ou a níveis aleatórios. A aleatoriedade determi-
nada a questão do problema.
Na grande maioria dos casos trata-se de níveis fixos, afinal o segundo tipo de problema (aleatório) somente surgirá quando ocorrer 
um estudo envolvendo uma escolha aleatória de fatores (em 10 lotes de produção, escolhe-se apenas 5, entre 15 máquinas de um total 
de 20, por exemplo).
ESTATÍSTICA
61
- SQT = SQG + SQR (mede a variação geral de todas as observações).
- SQT é a soma dos quadrados totais, decomposta em:
- SQG soma dos quadrados dos grupos (tratamentos), associada exclusivamente a um efeito dos grupos
- SQR soma dos quadrados dos resíduos, devidos exclusivamente ao erro aleatório, medida dentro dos grupos.
- MQG = Média quadrada dos grupos
- MQR = Média quadrada dos resíduos (entre os grupos)
- SQG e MQG: medem a variação total entre as médias
- SQR e MQR: medem a variação das observações de cada grupo
f = MQG
MQR
N – 1=(K – 1) + (N – K)
SQT = SQG + SQR
MQG = SQG (K – 1)
A hipótese nula sempre será rejeitada quando f calculado for maior que o valor tabelado. Da mesma forma, se MQG for maior que 
MQR, rejeita-se a hipótese nula.
Quadro
Se o teste f indicar diferenças significativas entre as médias, e os níveis forem fixos, haverá interesse em identificar quais as médias 
que diferem entre si.
Calcular o desvio padrão das médias;
Sx = , ,onde nc é a soma do número de cada variável (grupo) dividido pelo número de variáveis.
Calcular o limite de decisão (ld)
3 x Sx
Ordenar as médias em ordem crescente ou decrescente e compara-las duas a duas. A diferença será significativa se for maior que Ld.
Se o teste f indicar diferenças significativas entre as médias, e os níveis forem aleatórios, haverá interesse em identificar a estimativa 
dos componentes de variação.