A maior rede de estudos do Brasil

Grátis
55 pág.
Estatística aplicada à psicologia

Pré-visualização | Página 1 de 7

EAP
Carolina Loureiro
1º Ano/ 2º semestre
Aula 1- Abordagem da comparação de modelos: o modelo nulo:
Dominar a abordagem de comparação de modelos em 7 passos:
1. Equação base da análise de dados;
2. O modelo nulo;
3. O erro do modelo nulo;
4. O princípio fundamental da análise de dados;
5. O modelo proposto;
6. O erro do modelo proposto;
7. A proporção da redução do erro. 
Modelos propostos:
· Modelo 1a:
· Efeito de uma VI quantitativa numa VD quantitativa;
· Correlação, Regressão Linear, GLM.
· Modelo 1b:
· Efeito de uma VI dicotómica numa VD quantitativa;
· Teste t, Regressão Linear com codificação Dummy.
· Modelo 2:
· Efeito de uma VI categórica numa VD quantitativa;
· Anova one-way, Regressão Linear com codificação Dummy.
· Modelo 3:
· Efeito de duas ou mais VIs numa VD quantitativa;
· Regressão Linear Múltipla.
Na estatística de teste deste semestre não nos interessa avaliar coisas como o tamanho da amostra (se é bom ou não), se os instrumentos de medida foram os corretos, etc. Vamos sempre assumir que tudo isso está correto.
O modelo nulo:
Problema de investigação: Um investigador quer saber a quantidade de chocolates que as pessoas comem durante um dia. Para o efeito, observou a quantidade de barras de chocolates consumidos por um grupo de 12 pessoas.
Os problemas de investigação podem sempre ser representados com 3 níveis de abstração:
1. Fenómeno;
2. Dados;
3. Modelo: previsão da evolução dos dados relacionados a um determinado fenómeno.
Fenómeno: comportamento alimentar.
Dados: nº de chocolates comidos durante um dia.
Modelo: previsão do nº de chocolates comidos durante um dia.
A equação da análise de dados: Dados (Yi): o que foi observado
Modelo (Y’i): previsão sobre os dados
Erro (ei): diferença entre os dados e a previsão
Dados = Modelo + Erro
Y = f(X) + Erro
Yi = Y’i + ei
O modelo nulo:
Os modelos são úteis porque são uma descrição compacta que faz com que seja muito mais fácil a comunicação e a representação dos dados reais.
O modelo nulo (Y’i) é o modelo estatístico mais simples para os nossos dados. É uma constante, não inclui o peso de nenhuma VI e, portanto, faz a mesma predição para todas as observações.
Y’i = b0 
O b0 corresponde ao melhor parâmetro estimado para os dados quando todas as VIs são iguais a zero (X=0).
Modelos estatísticos famosos:
· Mediana;
· Média;
· Moda.
Retomando o nosso problema de investigação, podemos dizer que em média se comem 5 chocolates por dia, isso significa que o nosso modelo é Y’i = 5
O erro do modelo nulo:
Os modelos são simplificações dos nossos dados, portanto têm sempre erro associado, que nos é dado pela diferença entre os dados observados e o modelo.
Ei = Yi – Y’i 
Errodomodelonulo = Chocolates – modelonulo
Medidas de erro famosas:
· Soma dos erros quadrados;
· Motivos para utilizar:
· Na soma (sem elevar ao quadrado) os erros anulam-se;
· Na soma dos quadrados, os erros têm pesos ponderados em que erros maiores pesam mais (ex. quatro erros de 1 somados não vão valer o mesmo que um erro de 4).
· Variância;
· Desvio-padrão;
· Erro padrão.
Retomando o nosso problema de investigação, podemos dizer que, em média, se comem 5 chocolates com um desvio-padrão de 2.41
O princípio fundamental da análise de dados:
Diferentes modelos têm diferentes erros associados.
O princípio fundamental da análise de dados é minimizar o erro associado ao nosso modelo, ou seja, quanto menor o erro do modelo, mais próximo o modelo está dos dados e melhor é o modelo.
A minimização do erro é feita de acordo com o método dos Mínimos Quadrados (MMQ).
De acordo com o MMQ, a média é o melhor modelo para representar os nossos dados num modelo sem VI e com uma VD métrica. Se a VD for ordinal, o melhor modelo é a mediana. E se a VD for nominal, o melhor modelo é a moda.
SSE para diferentes valores de b0. De acordo com o MMQ, o melhor valor para b0 no nosso problema é a média.
Retomando o problema de investigação, aqui está a relação entre os erros e os possíveis valores para b0 de acordo com o MMQ.
Resposta ao problema de investigação: O investigador pode afirmar que, em média, as pessoas comem 5 barras de chocolates, com um desvio-padrão de 2.4 chocolates.
Aula 2- Abordagem da comparação de modelos: o modelo nulo (cont.):
O modelo proposto 1a:
Problema de investigação: (igual ao anterior) em que medida a ansiedade influencia o consumo de chocolates?
Para estimar a relação entre a ansiedade e o nº de chocolates comidos, o investigador precisa de um modelo mais complexo.
Yi = Y’i + ei 
O modelo proposto é um modelo estatístico mais completo: faz predições para cada observação, ou seja, contempla o peso de uma ou mais VIs.
Y’i = b0 + b1Xi1 + … + bjXij
Bj: parâmetros estimados que representam o peso das VIs Xj nos dados previstos para o indivíduo “i” quando as outras VIs são iguais a zero.
 Constant = b0
Ansiedade = b1
Regression = Redução do erro
Residual = Soma dos erros2 do m. proposto
Total = Modelo nulo
Equação do modelo proposto:
Ȳi = b0 + b1*ansiedadei em que b0 = -0.03 e b1 = 5.33
Equação do modelo nulo:
Ȳi = b0 em que b0 = 9.44
Podemos dizer que, em média, comem-se 9.44 chocolates por dia, com um total de 482.22 de erro quadrado, que nos dá um desvio-padrão de 7.76.
O erro do modelo proposto:
O erro quadrado do modelo nulo é 482.22 (distância entre os pontos à média, elevado ao quadrado). A soma dos erros quadrados do modelo proposto é o resíduo, 40.54. 
A redução do erro do modelo proposto em relação ao modelo nulo é 482.22 – 40.54 = 441.679.
A proporção da redução do erro:
Será que o modelo proposto é melhor que o modelo nulo? Só faz sentido ter um modelo mais complexo que acrescenta um parâmetro, se esse modelo for substancialmente (havendo critérios para definir isso) melhor do que um modelo mais simples do que ele.
Qual é a medida que se utiliza para comparar estes dois modelos? A proporção da redução do erro (PRE).
O PRE compara o desempenho do modelo composto com o desempenho do modelo nulo. O modelo proposto tem menos 92% do erro do que o modelo nulo.
Resposta ao problema de investigação: O investigador pode afirmar que existe um efeito da ansiedade, com um efeito de 5.33 chocolates com a variação de unidade na escala de ansiedade. O modelo com o efeito da ansiedade (modelo proposto) tem uma redução do erro em 92% em relação ao modelo nulo.
O modelo proposto 1b: (igual ao 1ª, mas com uma VI)
Problema de investigação: O investigador levantou a hipótese de que a quantidade de chocolates que homens e mulheres comem é diferente.
Fenómeno: Comportamento alimentar
Dados: Nº de chocolates comidos durante um dia por cada sexo
Modelo: Previsão do efeito do sexo no nº de chocolates comidos durante um dia
Podemos dizer que em média comem-se 5 chocolates por dia, isso significa que o nosso modelo é Y’i = 5.00, com um total de 64 chocolates quadrados de erro que nos dá um desvio-padrão de 2.41 chocolates.
Para estimar a relação entre o sexo e o nº de chocolates comidos, o investigador precisa de um modelo mais complexo com a VI sexo.
Erro do modelo proposto:
A equação é exatamente igual à do modelo 1ª (ver final da página 4), porque apenas existe uma VI. Assim, só precisamos de um parâmetro para estimar o efeito da VI sexo, b1.
--------,--------,--------
Nota sobre codificação dummy:
Quando uma VI é qualitativa, a modelação correta dessa variável implica a realização de um processo de codificação, neste caso uma codificação dummy.
A codificação dummy é frequentemente utilizada em análises de séries temporais e regressões lineares, e consiste na atribuição de códigos “1” e “0” de acordo com duas regras:
· O nº de dummies é igual a C-1, onde C é a quantidade de categorias;
· Cada dummy é codificada atribuindo o código “1” a um dos níveis da VI e “0” às outras condições e garantindo que o código “1” de um determinado nível não se repete entre dummies.
A codificação dummy ajuda-nos a interpretar a equação do modelo proposto a interpretar.
------,-------,-------
Resposta ao problema de investigação: O investigador pode afirmar