TRABALHO DE ESTATISTICA E PROBABILIDADE

Estatística I

•

UNILESTE

1

0

1

0

Ingrid Rodrigues

18/02/2018

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 3, do total de 18 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 6, do total de 18 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Você viu 9, do total de 18 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Estatística I

57.601 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

ESTATÍSTICA E PROBABILIDADE - ANALÍSE DE REGRESSÃO
Coronel Fabriciano

Centro Universitário do Leste de Minas Gerais
Projeto Integrador – 1º período:
Escola Politécnica

4º semestre - 2017

Centro Universitário do Leste de Minas Gerais
Estatística e Probabilidade- Analíse de Regressão– 4º período:
Escola Politécnica

INTRODUÇÃO
Uma das preocupações estatísticas ao analisar dados, é a de criar modelos que explicitem estruturas do fenômeno em observação. O modelo de regressão é um dos métodos estatísticos mais usados para investigar a relação entre variáveis.
Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis.
TIPOS DE MODELO DE REGRESSÃO
A presença de ou ausência de relação linear (quando analisamos duas variáveis num gráfico de dispersão e verificamos que os pontos ou nuvem de dispersão estão formam uma reta linear) pode ser investigada sob dois pontos de vista:
Quantificando a força dessa relação: correlação.
Explicitando a forma dessa relação: regressão
COEFICIENTE DE CORRELAÇÃO DE PEARSON
A correlação é calculada independente da unidade de medida das variáveis. A técnica usada para calcular este coeficiente, supõe que a associação entre as variáveis seja linear, ou seja, expressa por uma reta ou linha. Se a relação apresentada no diagrama de dispersão não for do tipo linear, o coeficiente de correlação de Pearson não deve ser calculado.
Por exemplo, você poderia usar uma correlação de Pearson para avaliar se aumentos na temperatura da instalação de produção estão associados a uma redução da espessura da cobertura de chocolate.
O coeficiente de correlação pode variar entre –1 (correlação negativa perfeita) e +1 (correlação positiva perfeita). Valores negativos do coeficiente de correlação indicam uma correlação do tipo inversa, isto é, quando x aumenta y diminui. Valores positivos do coeficiente de correlação ocorrem quando x e y variam no mesmo sentido, isto é, quando x aumenta y aumenta ou quando x diminui y também diminui.
Exemplo 1:
Um psicólogo está investigando a relação entre o tempo que um indivíduo leva para reagir a um estímulo visual (Y) com o sexo (W), idade (X) e acuidade visual (Z, medida em porcentagem).
X : idade
Y : tempo de reação
Pelo gráfico: média de Y aumenta conforme as pessoas envelhecem
⇓
Modelo de regressão
DIAGRAMAS DE DISPERSÃO
MODELO DE REGRESSÃO LINEAR SIMPLES
Yi = β 0 + β 1 xi +ei , i=1,...,n
Sendo:
yi: valor da variável dependente (resposta) para o i-ésimo elemento da amostra;
xi: valor (conhecido) da variável independente ou preditora para o i-ésimo elemento da amostra;
β 0 e β1 são parâmetros desconhecidos;
ei: erro amostral.
Suposição: os erros amostrais são independentes com distribuição N(0, σi=1,2,...,n.
ERRO AMOSTRAL
O erro amostral é uma variável aleatória não observável, e é estimado pelos resíduos, isto é, a diferença entre o valor observado Y, e o estimado pela reta, isto é:
ESTIMAÇÃO DOS PARÂMETROS
Método de mínimos quadrados:
Objetivo: minimizar a soma dos quadrados dos erros
Para que a soma dos quadrados dos erros tenha um valor mínimo, devem-se aplicar os conceitos de cálculo diferencial com derivadas parciais.
Portanto, os estimadores dos parâmetros são:
Interpretação dos parâmetros
Intercepto β0 - valor esperado para a variável dependente yi quando xi é igual a zero
Coeficiente angular β1 - variação esperada na variável resposta, quando a variável independente aumenta uma unidade.
Exemplo 1:
Um psicólogo está investigando a relação entre o tempo que o indivíduo leva para reagir a certo estimulo (em segundos) e algumas de suas características tais como sexo, idade (em anos completos) e acuidade visual (medida em porcentagem). Os resultados de 20 indivíduos estão mostrados na tabela abaixo (Adaptado de Bussab, 1986).
1.Tempo de reação ⇒ variável dependente ou resposta
Idade ⇒ variável independente
⇓
Modelo de regressão linear simples
2. Tempo de reação ⇒ variável dependente ou resposta
Sexo, idade, acuidade visual ⇒ var. independentes
⇓
Modelo de regressão linear múltipla
Primeiramente, vamos considerar um modelo de regressão linear simples, sendo X : idade e Y : tempo de reação
Estimação dos parâmetros:
Interpretação: Para um aumento de 1 ano na idade, o tempo médio de reação aumenta 0,90.
Dada à reta ajustada, podemos prever, por exemplo, o tempo médio de reação para pessoas de 20 anos.
Vantagem: permite estimar o tempo médio de reação para idades não observadas
NOTA: A estimativa pode ser melhorada com a construção de intervalos de confiança
ANÁLISE DE VARIÂNCIA PARA O MLRS
No desenvolvimento de um teste ANOVA, considere a definição de três tipos de resíduos, ou fontes de variação, expressos pelas seguintes Somas dos Quadrados (SQ):
TOTAL cuja soma dos quadrados é dada por:
RESÍDUOS com a soma dos quadrados expressa através de:
MODELO, resultante das distâncias entre os valores do modelo e a média:
A tabela ANOVA para o MRLS é definida de acordo com o que se apresenta em seguida.
REGRESSÃO LINEAR MÚLTIPLA
A análise de uma regressão múltipla segue, basicamente, os mesmos critérios da análise de uma regressão simples.
Vamos supor que temos X1, X2,..., Xp-1 variáveis preditoras. Definamos modelo de regressão múltiplo, em termos das variáveis preditoras:
Sendo:
β 0, β1,..., βp-1, parâmetros desconhecidos;
εi , erro amostral.
Suposição: os erros amostrais são independentes com distribuição N(0, σ 2), i=1,2,...,n
Exemplo 2:
Considere novamente o exemplo 1. Vamos agora, trabalhar com as seguintes variáveis:
X1: idade X2: sexo X3: acuidade Y: tempo
Assim, o modelo de regressão linear múltiplo será dado por
Observe que, agora dispomos de variáveis quantitativas e qualitativas no modelo.
Uma ferramenta útil no processo de escolha preliminar das possíveis variáveis explicativas que deverão entrar no modelo é a matriz de correlação entre as variáveis quantitativas.
Para nosso exemplo, temos a seguinte matriz de correlação:
Ajustando o modelo de regressão com estas variáveis, temos:
AVALIAÇÃO DO MODELO
Algumas avaliações devem ser realizadas para se ter alguma ideia da eficácia e adequação do modelo.
Dentre as técnicas utilizadas para avaliar a eficácia do modelo, o coeficiente de correlação seria uma primeira possibilidade.
Outra medida de adequação é o coeficiente de determinação do modelo.
A determinação do “melhor” modelo, ou do modelo que melhor se ajusta aos dados, está relacionada com a estimativa dos parâmetros que tornem os resíduos tão próximos de zero quanto possível.
Deve-se então, testar a significância estatística dos parâmetros do modelo.
Avaliando a significância do parâmetro:
Hipóteses:
Estatística de teste:
Critério do teste: Se |tcal| ≤ t(1- α/2;n-p), aceita-se a hipótese nula, caso contrário rejeita-se a mesma.
Nota: Quando não dispomos da tabela t-student, podemos utilizar o p-valor, fornecido por vários programas estatísticos. Se p-valor menor que o nível de significância, rejeitamos H 0 .
Considere o modelo de regressão múltipla ajustado anteriormente:
Para determinarmos quais parâmetros é estatisticamente significante, basta observar o p-valor fornecido na tabela ANOVA.
Apenas a variável sexo não é estatisticamentesignificante, considerando um nível de significância de 5%.
COEFICIENTE DE DETERMINAÇÃO
Ao se analisar a reta de regressão observamos que os pontos (xi, yi) estão distribuídos acima e abaixo da mesma.
O coeficiente de determinação deve ser interpretado como a proporção de variação total da variável dependente que é explicada pela variação da variável independente X e no caso univariado, é igual ao quadrado do coeficiente de correlação.
Observe que o coeficiente de determinação é sempre positivo, enquanto que o coeficiente de correlação pode admitir valores negativos e positivos.
No exemplo 1, temos
No exemplo 2, temos: