Buscar

Estatística aplicada à psicologia

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 55 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 55 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 55 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

EAP
Carolina Loureiro
1º Ano/ 2º semestre
Aula 1- Abordagem da comparação de modelos: o modelo nulo:
Dominar a abordagem de comparação de modelos em 7 passos:
1. Equação base da análise de dados;
2. O modelo nulo;
3. O erro do modelo nulo;
4. O princípio fundamental da análise de dados;
5. O modelo proposto;
6. O erro do modelo proposto;
7. A proporção da redução do erro. 
Modelos propostos:
· Modelo 1a:
· Efeito de uma VI quantitativa numa VD quantitativa;
· Correlação, Regressão Linear, GLM.
· Modelo 1b:
· Efeito de uma VI dicotómica numa VD quantitativa;
· Teste t, Regressão Linear com codificação Dummy.
· Modelo 2:
· Efeito de uma VI categórica numa VD quantitativa;
· Anova one-way, Regressão Linear com codificação Dummy.
· Modelo 3:
· Efeito de duas ou mais VIs numa VD quantitativa;
· Regressão Linear Múltipla.
Na estatística de teste deste semestre não nos interessa avaliar coisas como o tamanho da amostra (se é bom ou não), se os instrumentos de medida foram os corretos, etc. Vamos sempre assumir que tudo isso está correto.
O modelo nulo:
Problema de investigação: Um investigador quer saber a quantidade de chocolates que as pessoas comem durante um dia. Para o efeito, observou a quantidade de barras de chocolates consumidos por um grupo de 12 pessoas.
Os problemas de investigação podem sempre ser representados com 3 níveis de abstração:
1. Fenómeno;
2. Dados;
3. Modelo: previsão da evolução dos dados relacionados a um determinado fenómeno.
Fenómeno: comportamento alimentar.
Dados: nº de chocolates comidos durante um dia.
Modelo: previsão do nº de chocolates comidos durante um dia.
A equação da análise de dados: Dados (Yi): o que foi observado
Modelo (Y’i): previsão sobre os dados
Erro (ei): diferença entre os dados e a previsão
Dados = Modelo + Erro
Y = f(X) + Erro
Yi = Y’i + ei
O modelo nulo:
Os modelos são úteis porque são uma descrição compacta que faz com que seja muito mais fácil a comunicação e a representação dos dados reais.
O modelo nulo (Y’i) é o modelo estatístico mais simples para os nossos dados. É uma constante, não inclui o peso de nenhuma VI e, portanto, faz a mesma predição para todas as observações.
Y’i = b0 
O b0 corresponde ao melhor parâmetro estimado para os dados quando todas as VIs são iguais a zero (X=0).
Modelos estatísticos famosos:
· Mediana;
· Média;
· Moda.
Retomando o nosso problema de investigação, podemos dizer que em média se comem 5 chocolates por dia, isso significa que o nosso modelo é Y’i = 5
O erro do modelo nulo:
Os modelos são simplificações dos nossos dados, portanto têm sempre erro associado, que nos é dado pela diferença entre os dados observados e o modelo.
Ei = Yi – Y’i 
Errodomodelonulo = Chocolates – modelonulo
Medidas de erro famosas:
· Soma dos erros quadrados;
· Motivos para utilizar:
· Na soma (sem elevar ao quadrado) os erros anulam-se;
· Na soma dos quadrados, os erros têm pesos ponderados em que erros maiores pesam mais (ex. quatro erros de 1 somados não vão valer o mesmo que um erro de 4).
· Variância;
· Desvio-padrão;
· Erro padrão.
Retomando o nosso problema de investigação, podemos dizer que, em média, se comem 5 chocolates com um desvio-padrão de 2.41
O princípio fundamental da análise de dados:
Diferentes modelos têm diferentes erros associados.
O princípio fundamental da análise de dados é minimizar o erro associado ao nosso modelo, ou seja, quanto menor o erro do modelo, mais próximo o modelo está dos dados e melhor é o modelo.
A minimização do erro é feita de acordo com o método dos Mínimos Quadrados (MMQ).
De acordo com o MMQ, a média é o melhor modelo para representar os nossos dados num modelo sem VI e com uma VD métrica. Se a VD for ordinal, o melhor modelo é a mediana. E se a VD for nominal, o melhor modelo é a moda.
SSE para diferentes valores de b0. De acordo com o MMQ, o melhor valor para b0 no nosso problema é a média.
Retomando o problema de investigação, aqui está a relação entre os erros e os possíveis valores para b0 de acordo com o MMQ.
Resposta ao problema de investigação: O investigador pode afirmar que, em média, as pessoas comem 5 barras de chocolates, com um desvio-padrão de 2.4 chocolates.
Aula 2- Abordagem da comparação de modelos: o modelo nulo (cont.):
O modelo proposto 1a:
Problema de investigação: (igual ao anterior) em que medida a ansiedade influencia o consumo de chocolates?
Para estimar a relação entre a ansiedade e o nº de chocolates comidos, o investigador precisa de um modelo mais complexo.
Yi = Y’i + ei 
O modelo proposto é um modelo estatístico mais completo: faz predições para cada observação, ou seja, contempla o peso de uma ou mais VIs.
Y’i = b0 + b1Xi1 + … + bjXij
Bj: parâmetros estimados que representam o peso das VIs Xj nos dados previstos para o indivíduo “i” quando as outras VIs são iguais a zero.
 Constant = b0
Ansiedade = b1
Regression = Redução do erro
Residual = Soma dos erros2 do m. proposto
Total = Modelo nulo
Equação do modelo proposto:
Ȳi = b0 + b1*ansiedadei em que b0 = -0.03 e b1 = 5.33
Equação do modelo nulo:
Ȳi = b0 em que b0 = 9.44
Podemos dizer que, em média, comem-se 9.44 chocolates por dia, com um total de 482.22 de erro quadrado, que nos dá um desvio-padrão de 7.76.
O erro do modelo proposto:
O erro quadrado do modelo nulo é 482.22 (distância entre os pontos à média, elevado ao quadrado). A soma dos erros quadrados do modelo proposto é o resíduo, 40.54. 
A redução do erro do modelo proposto em relação ao modelo nulo é 482.22 – 40.54 = 441.679.
A proporção da redução do erro:
Será que o modelo proposto é melhor que o modelo nulo? Só faz sentido ter um modelo mais complexo que acrescenta um parâmetro, se esse modelo for substancialmente (havendo critérios para definir isso) melhor do que um modelo mais simples do que ele.
Qual é a medida que se utiliza para comparar estes dois modelos? A proporção da redução do erro (PRE).
O PRE compara o desempenho do modelo composto com o desempenho do modelo nulo. O modelo proposto tem menos 92% do erro do que o modelo nulo.
Resposta ao problema de investigação: O investigador pode afirmar que existe um efeito da ansiedade, com um efeito de 5.33 chocolates com a variação de unidade na escala de ansiedade. O modelo com o efeito da ansiedade (modelo proposto) tem uma redução do erro em 92% em relação ao modelo nulo.
O modelo proposto 1b: (igual ao 1ª, mas com uma VI)
Problema de investigação: O investigador levantou a hipótese de que a quantidade de chocolates que homens e mulheres comem é diferente.
Fenómeno: Comportamento alimentar
Dados: Nº de chocolates comidos durante um dia por cada sexo
Modelo: Previsão do efeito do sexo no nº de chocolates comidos durante um dia
Podemos dizer que em média comem-se 5 chocolates por dia, isso significa que o nosso modelo é Y’i = 5.00, com um total de 64 chocolates quadrados de erro que nos dá um desvio-padrão de 2.41 chocolates.
Para estimar a relação entre o sexo e o nº de chocolates comidos, o investigador precisa de um modelo mais complexo com a VI sexo.
Erro do modelo proposto:
A equação é exatamente igual à do modelo 1ª (ver final da página 4), porque apenas existe uma VI. Assim, só precisamos de um parâmetro para estimar o efeito da VI sexo, b1.
--------,--------,--------
Nota sobre codificação dummy:
Quando uma VI é qualitativa, a modelação correta dessa variável implica a realização de um processo de codificação, neste caso uma codificação dummy.
A codificação dummy é frequentemente utilizada em análises de séries temporais e regressões lineares, e consiste na atribuição de códigos “1” e “0” de acordo com duas regras:
· O nº de dummies é igual a C-1, onde C é a quantidade de categorias;
· Cada dummy é codificada atribuindo o código “1” a um dos níveis da VI e “0” às outras condições e garantindo que o código “1” de um determinado nível não se repete entre dummies.
A codificação dummy ajuda-nos a interpretar a equação do modelo proposto a interpretar.
------,-------,-------
Resposta ao problema de investigação: O investigador pode afirmarque existe uma diferença de 3.67 chocolates comidos entre os homens e as mulheres.
Modelos estatísticos e testes estatísticos:
Os testes estatísticos são ferramentas que nos permitem:
· Modelar efeitos: diferenças entre condições, correlações entre variáveis, moderações, mediações, etc.;
· Generalizar efeitos: testar a generalidade dos efeitos através de procedimentos de inferência estatística.
Antes de utilizar um teste estatístico temos de:
· Identificar os efeitos que queremos modelar (guiados pela pergunta de investigação);
· Selecionar o teste apropriado com base no tipo de modelação e nos níveis de medida das nossas variáveis.
Aula 3: Abordagem da comparação de modelos: modelo proposto 1a e 1b com inferência estatística:
Problema de investigação: O investigador levantou a hipótese de que a quantidade de chocolates que as pessoas comem varia em função do seu nível de ansiedade.
Será que o nosso modelo um bom modelo dos dados? Podemos responder com as medidas de erro.
Será o nosso modelo um modelo da população de onde os dados foram retirados? Podemos responder através da inferência estatística.
A inferência estatística é um procedimento que permite determinar se os efeitos (estimações) produzidos para uma amostra são generalizáveis para a população de onde a amostra foi extraída.
Os efeitos são generalizáveis sempre que a probabilidade de ocorrência devido ao acaso é baixa e vice-versa, i.e., não são generalizáveis quando a probabilidade de ocorrência devido ao acaso é alta.
No nosso problema de investigação, precisamos de determinar o quão provável é ter ocorrido por acaso o PRE (R2=0.92) e os parâmetros estimados do nosso modelo (b0= -0.03 e b1= 5.33).
Para se entender a probabilidade de ocorrência de x efeito ter ocorrido por acaso é baixa ou alta é necessário recorrer ao teste de hipóteses.
O teste de hipóteses é um método específico de inferência estatística que compara duas hipóteses:
· A hipótese 1 (também designada de H1 ou hipótese do investigador) que afirma a existência do efeito estimado, ou seja, afirma que o efeito estimado não ocorreu por acaso;
· A hipótese nula (também designada de H0) que afirma a inexistência de efeito estimado, ou seja, afirma que o efeito estimado ocorreu por acaso.
Existem dois dados complementares (a estatística de teste e o valor-p) que podem ser obtidos através da realização de um teste estatístico e que nos permite decidir se rejeitamos ou não rejeitamos a hipótese nula.
A estatística de teste:
A estatística de teste é um dos dados obtidos através da realização de um teste estatístico que nos permite decidir se rejeitamos ou não rejeitamos a hipótese nula.
A estatística de teste corresponde ao valor transformado do efeito que estamos a testar da sua unidade original para valores t ou F.
A transformação de um efeito em estatística de teste é feita através de um rácio entre a estimação do efeito e o erro associado a essa estimação do efeito.
O valor da estatística de teste resultante deste rácio pode ser representado numa distribuição teórica de valores de estatística de teste (i.e. numa distribuição t ou F). Vai ser a distribuição teórica que vai mostrar se a probabilidade de ocorrência dos valores é baixa ou alta.
O valor-p:
As distribuições teóricas de valores de estatística de teste são distribuições contínuas de probabilidade do acaso, ou seja:
· Quanto mais extremo o valor de estatística de teste, menor a probabilidade deste valor acontecer por acaso;
· Quanto menos extremo o valor de estatística de teste, maior a probabilidade deste valor acontecer por acaso.
O valor de estatística de teste deve sempre estar acompanhado do valor-p que nos dá a probabilidade de se obter um valor igual ou mais extremo ao da estatística de teste.
O valor-p é o outro dos dados obtidos através da realização de um teste estatístico que nos permite decidir se rejeitamos ou não rejeitamos a hipótese nula.
O nível de significância:
O nível de significância corresponde à probabilidade a partir da qual o investigador considera que um determinado efeito estimado não aconteceu por acaso (ou seja, que se rejeita a hipótese nula).
Há uma convenção entre cientistas que considera só quando o valor-p é igual ou inferior a 0.05 se pode afirmar que um efeito não ocorreu por acaso, e vice-versa:
· Se o valor-p for menor ou igual a 0.05, rejeitamos a hipótese nula e consideramos que o efeito é estatisticamente significativo;
· Se o valor-p é maior que 0.05, não rejeitamos a hipótese nula e consideramos que o efeito não é estatisticamente significativo.
Dominar o teste de hipóteses em 3 passos:
1. Enumeração da hipótese estatística;
2. Identificação do valor da estatística de teste e o valor-p associado;
3. Decisão e conclusões do investigador.
Teste de hipóteses- cálculo manual:
O teste de hipóteses é método de inferência estatística que permite determinar se determinado efeito identificado na nossa amostra pode ser generalizado para a população. A realização do teste de hipótese implica a seguir os seguintes passos:
1. Enumeração da hipótese estatística;
2. Identificação do valor da estatística de teste e o valor-p associado;
3. Decisão e conclusões do investigador.
· Teste de Hipóteses para b0:
1. Enumeração da hipótese estatística:
Hipótese Nula: b0 = 0
Hipótese Alternativa: b0 ≠ 0
α = 0.05
2. Identificação do valor da estatística de teste e o valor-p associado:
Quanto mais alto for o efeito e mais pequeno for o erro, maior e melhor a estatística de teste.
Valor-p= 0.01 (tem de se ir à tabela de probabilidades descobrir este valor baseado no valor t e no a)
3. Decisão e conclusões do investigador:
Como p <0.05 rejeita-se a hipótese nula. Logo, podemos afirmar que b0 é significativamente diferente de 0. E o que é que isso significa?
Significa que o número de chocolates que os homens comem é significativamente diferente de 0.
O parâmetro b0 não é relevante para o investigador.
· Teste de hipóteses para b1:
1. Enumeração da hipótese estatística:
Hipótese Nula: b1 = 0
Hipótese alternativa: b1 ≠ 0
α = 0.05
2. Identificação do valor da estatística de teste e o valor-p associado:
3. Decisão e conclusões do investigador:
Como p <0.05 rejeita-se a hipótese nula. Logo, podemos afirmar que b1 é significativamente diferente de 0. E o que é que isso significa?
O investigador pode afirmar que existem uma diferença de 3.67 chocolates comidos entre os homens e as mulheres e que essa diferença é significativa, t (11) = t=4.13, p=0.02.
Significa que a variação no número de chocolates entre homens e mulheres é significativamente diferente de 0.
Teste de hipóteses- Cálculo pelo SPSS:
As duas tradições da análise de dados: ANOVA versus Regressão Linear:
Testes t, correlações, ANOVAs, ANCOVAs e regressões lineares (simples, múltiplas, hierárquicas) são todos testes estatísticos que utilizam exatamente o mesmo método de modelação linear e redução do erro, ou seja, o MMQ.
Isto significa que a modelação de um mesmo efeito utilizando dois testes diferentes dá exatamente os mesmos resultados (e.g. modelar o efeito de uma VI dicotómica numa VD quantitativa com o teste t e com uma regressão linear com uma dummy vai dar exatamente os mesmos resultados de estimação do erro, parâmetros, estatísticas de teste e valores-p).
Contudo, importa ter atenção que o contexto em que estes testes foram desenvolvidos pertencem a duas tradições diferentes na análise de dados com formas ligeiramente diferente de realizar as análises e de reportar os resultados:
· A tradição da ANOVA foi originalmente desenvolvida para realizar a comparação entre grupos em desenhos experimentais. Assim, está particularmente adaptada para comparar diferentes grupos, ou seja, para modelar o efeito de uma ou várias VIs categóricas através da utilização de códigos de contrastes. Quando se reporta uma ANOVA, é frequente descrever-se efeitos como diferenças entre médias e o erro, como a variância nos dados (entre grupos e intra grupos);
· A tradição da regressão linear foi desenvolvida no contexto de estudos nãoexperimentais e para testar o efeito de grupos de variáveis. Assim, está particularmente adaptada para modelar o efeito de uma ou várias VIs quantitativas (ainda que seja possível modelar o efeito de variáveis categóricas através da criação de variáveis dummy). Quando se reporta uma regressão linear, é frequente descrever-se os efeitos, como a associação entre variáveis e o erro como uma medida de desempenho do modelo de regressão (explicação do erro e do resíduo).
Comparativamente com a ANOVA, a regressão linear é considerada um tipo de teste mais exigente do ponto de vista do utilizador, mas também é uma técnica mais flexível e que permite modelar efeitos mais complexos.
Aula 4: Modelo proposto 2 com teste de hipóteses unilateral:
Problema de investigação: Um investigador quer saber se mensagens persuasivas influenciam o consumo de chocolates. Existem 2 hipóteses: 1) a mensagem de que o chocolate “faz mal” leva a um menor consumo comparado com a mensagem “neutra”; 2) a mensagem de que o chocolate “faz bem” leva a um maior consumo comparado com a mensagem “neutra”. Os participantes foram distribuídos aleatoriamente pelos três grupos e mediu-se posteriormente o nº de chocolates comidos nesse dia.
Fenómeno: Comportamento alimentar
Dados: Nº de chocolates comidos em diferentes condições da mensagem
Modelo: Previsão do efeito da mensagem no nº de chocolates comidos durante um dia
Através do modelo nulo e do erro do modelo nulo o investigador poderia concluir que, em média, as pessoas comem 5 barras de chocolate por dia, com um desvio-padrão de 2.41. No entanto, isto não responde ao problema de investigação.
Para estimar o efeito da mensagem no número de chocolates comidos, o investigador precisa de um modelo mais complexo com a VI mensagem.
Modelo proposto e erro do modelo proposto:
Vão ser necessárias duas variáveis dummy para representar a variável mensagem.D1: 1- Faz mal; 0- Neutro
D2: 1- Faz bem; 0- Neutro
Nº de dummies: C – 1 = 2
Neste caso C= 3 (níveis da VI mensagem)
B0 = 4.75 
O valor de Y’i quando todos os pesos das VIs são 0. Ou seja, b0 corresponde à estimativa do nº de chocolates na condição de controlo (indivíduos 1,3,5,8).
B1 = -2.00
Valor do peso da VI1 em Y’i quando o peso da VI2 é igual a 0. Ou seja, b1 corresponde à estimativa da diferença entre a condição de controlo e a “faz mal” (indivíduos 2,6,9,10).
B2 = 2.75
Valor do peso da VI2 em Y’i quando o peso da VI1 é igual a 0. Ou seja, b2 corresponde à estimativa da diferença entre a condição controlo e a condição “faz bem” (indivíduos 4,7,11,12).
B0 = 4.75; valor de Y’i quando todos os pesos das VIs = 0
B1 = -2.00; peso da dummy 1 em Y’i quando todos os pesos das outras VIs = 0
B2 = 2.75; peso da dummy 2 em Y’i quando todos os pesos das outras VIs = 0
Teste de hipóteses:
· Teste de hipóteses para η2:
Será que o modelo proposto reduz significativamente o erro em relação ao modelo nulo?
F = 11.07
Valor-p = 0.004
Decisão:
Como p é menor ou igual a 0.05 eu rejeito a H0 ao nível de significância de 0.05
· Teste de hipóteses para b1:
Será que se comem menos chocolates na condição “faz mal” do que na condição de controlo?
a. Hipótese:
H0: b1= 0 vs. H1: b1 <0
b. Estatística de teste e valor-p:
T = -1.973
P= 0.08/2, i.e. p= 0.04
Teste unilateral
c. Decisão:
Como o valor p é menor ou igual a 0.05, H0 é rejeitada ao nível de significância de 0.05
· Teste de hipóteses para b2:
Será que se comem mais chocolates na condição “faz bem” do que na condição controlo?
a. Hipóteses:
H0: b2= 0 vs H1: b2> 0 
b. Estatística de teste e valor-p:
T= 2.75
P= 0.02/2, i.e., p= 0.01
c. Decisão:
Como o valor-p é menor ou igual a 0.05, H0 é rejeitada ao nível de significância de 0.05
Resposta ao problema de investigação: O investigador pode concluir que o modelo proposto que modela o efeito da mensagem reduz significativamente o erro em relação ao modelo nulo, relativamente à previsão do número de chocolates comidos, R2= 0.7. Tal como previsto pelo investigador, o nº de chocolates comidos na condição “faz mal” é significativamente inferior à condição controlo, b1= -2.00, t= -1.973, p= 0.04 (unilateral) e o nº de chocolates comidos na condição “faz bem” é significativamente superior à condição de controlo, b2= 2.75, t= 2.75, p= 0.01 (unilateral).
Testes de hipóteses unilaterais e bilaterais:
O teste de hipóteses bilateral não assume direção para o efeito que está a ser testado:
· A hipótese 1 afirma a existência de efeito, mas é indiferente se o efeito é <0 ou> 0 e, portanto, a hipótese 1 considera simplesmente o efeito diferente de 0.
O teste de hipóteses unilateral assume uma direção específica para o efeito que está a ser testado:
· Neste caso, a hipótese 1 afirma a existência do efeito mas não é indiferente se o efeito é <0 ou> 0 e, portanto a hipótese 1 considera uma direção específica em função da hipótese de investigação.
Para aplicar corretamente os passos do teste de hipóteses unilateral é crucial perceber que nos testes estatísticos não se sabe se temos ou não alguma hipótese específica.
Para garantir que conseguimos fazer o teste de hipóteses quando não há uma hipótese específica para o efeito, ou seja, quando o teste de hipóteses é bilateral, os testes estatísticos apresentam valores-p associados às estatísticas de teste de um efeito, isto é, a probabilidades de obter um valor de estatística de teste igual ou mais extremo aos valores de estatística de teste.
Contudo, quando há hipóteses específicas sobre a direção do efeito, ou seja, quando o teste de hipóteses é unilateral, é necessário fazer computações adicionais sobre os valores-p associados às estatísticas de teste que são dados pelos testes estatísticos:
· Nos casos em que o efeito obtido e o efeito esperado vão no mesmo sentido, isto é, ambos efeito e hipótese 1 vão no mesmo sentido, isso significa simplesmente dividir o valor-p em metade;
· Nos casos em que o efeito obtido e o efeito esperado não vão no mesmo sentido, isto é, o efeito vais num sentido e a hipótese 1 vai noutro, isso significa encontrar o inverso do valor-p e dividir o resultado pela metade.
Em ambos os casos, aquilo que se pretende é usar o valor-p do teste bilateral- a probabilidade de obter um valor de estatística de teste igual ou mais extremo- e calcular o valor-p do teste unilateral – a probabilidade de obter um valor de estatística de teste igual ou superior (ou igual ou inferior, dependendo da previsão do investigador).
Aula 5: Modelo proposto III com interpretação de betas:
Problema de investigação: Um investigador quer estudar o nível de felicidade das pessoas. Especificamente, ele quer entender como é que diferentes tipos de suporte emocional influenciam o nível de felicidade nas pessoas. O investigador espera que os níveis mais altos de apoio emocional e instrumental vão ambos estar associados a níveis mais altos de felicidade.
Fenómeno: felicidade
Dados: perceção sobre o nível de felicidade e níveis de suporte emocional e instrumental
Modelo: estimativa do efeito combinado do suporte emocional e instrumental ao nível de felicidade
Modelo nulo e erro do modelo nulo:
O investigador pode afirmar que, nesta amostra, o nível médio de felicidade é 5.18 com um desvio-padrão de 0.87. No entanto, isto não responde ao problema de investigação.
Para estimar o efeito do suporte social no nível de felicidade, o investigador precisa de um modelo mais complexo que inclua a VI suporte social.
Modelo proposto e erro do modelo proposto:
-----,------,-----
Nota sobre a interpretação dos b e betas na regressão linear múltipla:
Comparativamente com a regressão linear simples, a regressão linear múltipla implica a compreensão de dois conceitos adicionais para ser corretamente interpretada.
Comecemos pelo beta:
· O efeito estimado de dois parâmetros (b1 e b2) numa variável dependente significa que: o b1 representa o efeito da variável independente X1 quando a variável independente X2 é constante; e o b2 representa o efeito da VI X2 quando a VI X1 é constante;
· Quando a unidade de medida das VIs é a mesma, a magnitudedo efeito estimado em b é diretamente comparável, mas quando a unidade de medida das VIs não é a mesma, a magnitude do efeito estimado em b não é diretamente comparável (neste caso é comparável porque ambas são medidas na mesma unidade de medida).
Para comparar a magnitude de diferentes efeitos sem se estar preocupado com a unidade de medida, o valor b é transformado num valor estandardizado chamado de beta.
O beta é equivalente a uma correlação e representa a associação em unidades de desvio-padrão. As correlações permitem avaliar e comparar:
· A magnitude (ou força) de associação entre as variáveis com valores mais extremos (ou seja, mais próximos de -1 ou 1) sendo indicativos de correlações mais fortes;
· O sentido da associação entre variáveis, em que valores negativos correspondem a associações inversas e valores positivos a associações diretas.
E agora, as correlações parciais:
· Numa regressão linear múltipla, os betas não são o mesmo que relações bivariadas simples entre cada VI e a VD;
· Os betas são correlações parciais, ou seja:
· Por exemplo, no caso do beta1, este refere-se à quantidade de variação única da VD Y que é explicada pela VI X1 e que não pode der explicada pela VI X2;
· E no caso de beta2, este refere-se à quantidade de variação única da VD Y que é explicada pela VI X2 e que não pode ser explicada pela VI X1.
----,------,------
Teste de hipóteses do modelo III:
Valor-p para η2: linha de regression (0.002)
Valor-p para b1: linha Emotional_suppor_scale (0.015)
Valor-p para b2: linha Instrumental_support_scale (0.841)
Resposta ao problema de investigação: Pretendemos estudar se níveis mais altos de suporte emocional e instrumental estão associados a níveis mais altos de felicidade. Para o efeito foi realizada uma regressão linear múltipla utilizando o suporte emocional e instrumental como variáveis independentes e a felicidade como variável dependente. Os resultados indicam que o modelo proposto reduz significativamente o erro em relação ao modelo nulo, F=7.23, p = 0.00. Os resultados mostram ainda que i) níveis mais altos de suporte emocional estão significativamente associados a níveis mais altos de felicidade, beta=0.46 t=2.53, p=0.01 (unilateral) mas, contudo, ii) níveis mais altos de suporte instrumental não estão significativamente associados a níveis mais altos de felicidade, beta=0.04, t=0.20, p=0.84 (unilateral).
Aula 7: Modelo IV (Teste U) e Modelo V (Teste H):
Revisão:
· Até agora, os problemas de investigação estudados envolveram dados paramétricos, i.e., variável dependente medida numa escala métrica (de intervalo ou de razão);
· Usámos modelos estatísticos paramétricos para analisar esses dados: regressão linear, teste t, anova;
· Nas próximas duas semanas vamos discutir que testes podem ser usados quando a VD é não paramétrica- i.e., quando a VD é ordinal e categorial.
I. Testes não paramétricos:
Escalas ordinais baseiam-se no princípio de que os dados podem ser ordenados em rankings.
· Quando a variável é ordinal, não se pode assumir constância na distância entre valores;
· Valores mais altos correspondem a rankings mais baixos;
· Há outros pressupostos, para além da escala de medida da vaiável dependente, que determinam o uso de testes paramétricos ou não paramétricos.
II. Teste U de Mann-Whitney (Modelo IV):
Problema de investigação: Um psicólogo quer investigar o efeito do consumo de drogas nos sintomas de depressão. Para isso, comparou um grupo de 10 pessoas que, numa noite, tomou ecstasy e outro grupo de 10 pessoas que tomou álcool. Seguidamente, mediu os sintomas de depressão dos participantes e ordenou-os.
Fenómeno: Relação entre o consumo de drogas e depressão
Dados: Tipo de droga e ranking dos sintomas de depressão
Modelo: Previsão do efeito do tipo de droga no ranking dos sintomas
Variáveis:
· VI: tipo de droga (álcool e ecstasy). Variável nominal, inter-participantes;
· VD: ranking (ordem) dos sintomas de depressão. Variável ordinal, inter-participantes.
Representação gráfica:
Gráfico de barras em que no eixo do x representamos os 2 níveis da VI (tipo de droga) e no eixo do y representamos a VD (soma dos rankings).
Na amostra, o grupo que toma ecstasy tem uma soma de ranks menor, i.e., tem mais sintomas de depressão do que o grupo que toma álcool.
Modelo proposto:
Nota: enquanto que nos testes paramétricos era importante saber calcular as estimações para os parâmetros b0 e b1, nos testes não paramétricos, estas são obtidas através de regressões para os dados lineares, que não fazem parte do programa desta cadeira.
Teste de hipóteses:
Para testar a existência de diferenças na população, entre duas condições inter-participantes e de escala ordinal, usa-se o teste de Mann-Whitney, que é o equivalente não paramétrico do teste t para amostras independentes.
a. Hipóteses:
H0: Não há diferenças entre os dois tipos de droga nos sintomas de depressão.
H1: Os dois tipos de droga têm efeitos diferentes nos sintomas de depressão.
b. Cálculo da estatística de teste e valor-p associado:O valor de estatística de teste Z é obtido através da estatística de teste U
c. Decisão sobre as hipóteses e conclusão sobre o tema de investigação:
Para a estatística de teste Z= -2,34 com p <0.05, rejeita-se H0. Logo pode-se concluir que, na população, os dois tipos de droga têm efeitos diferentes nos sintomas de depressão.
Concretamente, a ingestão de ecstasy está associada a mais sintomas de depressão (i.e., menor soma de rankings) do que a ingestão de álcool.
II. Teste H de Kruskal-Wallis (Modelo V):
Problema de investigação: Um investigador quer saber qual a influência do nível de ansiedade na capacidade de memória. Especificamente, pretende testar se um nível de ansiedade alto leva a resultados diferentes num teste de memória comparativamente a um nível de ansiedade baixo ou moderado.
Fenómeno: Relação entre ansiedade e memória
Dados: Nível de ansiedade e ranking dos resultados no teste de memória
Modelo: Previsão do efeito de nível de ansiedade no ranking de memória
Variáveis:
· VI: nível de ansiedade (baixa, moderada, alta). Variável nominal, inter-participantes;
· VD: ranking (ordem) dos resultados no teste de memória. Variável ordinal, inter-participantes.
Representação gráfica:
Gráfico de barras em que no eixo do x representamos os 3 níveis de ansiedade da VI (ansiedade) e no eixo do y representamos a VD (soma dos rankings).
Na amostra, o grupo com ansiedade moderada é o que apresenta uma menor soma de ranks, ou seja, melhores notas no teste de memória.
Modelo proposto:
Nota: A estimação dos parâmetros b0, b1 e b2 é obtida por meio de regressão para dados ordinais e não faz parte do programa de EAP.
Teste de hipóteses:
Para testar a existência de diferenças na população, entre duas ou mais condições inter-participantes e medição ordinal, usa-se o teste de Kruskall-Wallis ou Teste H. Este é o equivalente não paramétrico da ANOVA a 1 fator.
a. Especificação das hipóteses:
De acordo com o programa de investigação, pretende-se testar se um nível de ansiedade alto leva a resultados diferentes num teste de memória comparativamente a um nível de ansiedade baixo ou moderado.
Contudo, antes de comparar níveis da variável (ansiedade alta vs. baixa e alta vs. moderada), é preciso saber se as classificações no teste variam em função do nível de ansiedade. Assim:
H0: As classificações não diferem em função do nível de ansiedade.
H1: As classificações diferem em função dos níveis de ansiedade.
Nota: Se se verificar que a ansiedade não tem um efeito significativo sobre as classificações, então aí não se vão comparar mais nenhum dos níveis dois a dois.
b. Cálculo da estatística de teste e valor-p associado:
c. Decisão sobre as hipóteses e conclusão sobre o problema de investigação:
Como o valor-p <0.05, rejeita-se H0. Logo pode-se concluir que, na população, as classificações no teste de memória diferem em função no nível de ansiedade do indivíduo.
Será que podemos dizer que a ansiedade alta leva a resultados diferentes da ansiedade baixa e moderada?
Resposta:Não sabemos! O teste H apenas testa se os 3 ranks são ou não diferentes. É necessário comparar os grupos dois a dois através do teste U de Mann-Whitney com correção Bonferroni. 
Correção de Bonferroni:
Quando fazemos muitas comparações de condições duas a duas, temos de aplicar a correção de Bonferroni para comparações múltiplas de modo a evitar erros de Tipo I (falsos positivos).
Consiste em dividir o nível de significância (alfa) pelo número de comparações a serem realizadas.
No exemplo, a= 0.05/2 = 0.025 dado que pretendemos fazer duas comparações (ansiedade baixa vs. alta e moderada vs. alta). Assim, a diferença entre as duas condições será significativa se p <0.025.
Teste de Mann-Whitney:
· Teste de hipóteses para a diferença entre a ansiedade baixa e alta:
a. Especificação das hipóteses:
H0: Não há diferenças entre ansiedade baixa e alta nos resultados do teste.
H1: Há diferenças entre ansiedade baixa e alta nos resultados do teste.
b. Cálculo da estatística de teste e valor-p associado:
Através do teste U, podemos comparar os resultados dos grupos de ansiedade baixa e alta:
c. Decisão sobre as hipóteses e conclusão sobre o problema de investigação:
Como p= 0.602, o valor-p é superior a a= 0.025, admite-se H0. Isto significa que há uma probabilidade elevada da diferença encontrada na amostra (entre o nível de ansiedade baixa e alta) ser devido ao acaso.
Pelo valor-p, sabe-se que a probabilidade da diferença encontrada ser devido ao acaso é de 60,2%.
Resposta: Na população, os grupos de ansiedade alta e baixa não têm resultados diferentes no teste de memória.
· Teste de hipóteses para a diferença entre ansiedade alta e moderada:
a. Especificação de hipóteses: 
H0: Não há diferenças entre a ansiedade alta e moderada nos resultados do teste.
H1: Há diferenças entre a ansiedade moderada e alta nos resultados do teste.
b. Cálculo da estatística de teste e valor-p associado:
Através do teste U, podemos comparar os resultados do grupo de ansiedade moderada e alta:
c. Decisão sobre as hipóteses e conclusão sobre o problema de investigação:
Como p= 0.006, o valor-p é inferior a a= 0.025, logo rejeita-se H0. Há uma probabilidade muito pequena da diferença encontrada ser aleatória. 
Resposta: Na população, os grupos de ansiedade moderada e alta têm resultados diferentes no teste de memória.
Na população, os grupos de ansiedade alta e baixa não apresentam diferenças nos resultados do teste. Os grupos de ansiedade alta e moderada têm resultados diferentes no teste de memória.
Resposta ao problema de investigação:
O nível de ansiedade alta leva a resultados diferentes no teste de memória comparativamente à ansiedade moderada, conduzindo a piores resultados.
No entanto, o nível de ansiedade alta não conduz a resultados de memória diferentes do nível de ansiedade baixa.
Aula 8: Teste Qui-quadrado de Pearson
Revisão:
I. Testes não paramétricos: o caso específico de variáveis nominais
Até agora apenas se utilizou variáveis nominais apenas como variáveis independentes, para prever dados em escala métrica e ordinal.
E quando a variável dependente também é nominal, dicotómica?
Variáveis nominais:
· Descrevem categorias de entidades;
· Devem ser exaustivas: as categorias abrangem todas as possibilidades de observação;
· Devem ser mutuamente exclusivas: cada observação pertence apenas a uma categoria.
· Não faz sentido calcular a média nem a mediana de variáveis categoriais, porque os valores atribuídos a cada categoria são arbitrário. A medida de tendência central adequada é a moda;
· Quando se medem variáveis categoriais analisam-se frequências, i.e., o número de observações em cada categoria;
· As frequências são apresentadas em tabelas de contingência.
II. Teste Qui-quadrado
Problema de investigação: Pretende-se saber se o sexo dos candidatos (feminino, masculino) prediz a atribuição de bolsas de investigação.
Variáveis:
· VI: sexo dos candidatos (feminino, masculino). Variável nominal, dicotómica, inter-participantes;
· VD: atribuição da bolsa de investigação (aceite, rejeitado). Variável nominal, dicotómica, inter-participantes.
Representação gráfica:
Gráfico de barras empilhadas em que o eixo do x representamos os dois níveis da VI e no eixo do y representamos a VD (contagem de frequências).
Na amostra, os candidatos do sexo feminino recebem mais bolsas do que os do sexo masculino.
Tabela de contingência:
Frequências observadas (FO): correspondem aos dados observados na amostra.
Frequências esperadas (FE): correspondem ao que seria esperado acontecer no caso de a VI não ter uma influência sistemática sobre a VD. Ou seja, o que se espera numa distribuição de casos ao acaso.
Exemplo: a FE (do acaso) é 5 em cada célula (10x10 / 20 = 5)
FE: Total de uma linha x Total de uma coluna / Total da tabela
Modelo proposto:
Nota: A estimação dos parâmetros b0 e b1 é obtida por meio de regressão logística e não faz parte do programa de EAP
Teste de Hipóteses:
Para testar a existência de diferenças, na população, entre duas variáveis com medição nominal inter-participantes, usa-se o teste Qui-quadrado de Pearson.
O teste Qui-quadrado de Pearson só pode ser usado quando temos apenas duas variáveis categoriais (neste caso, sexo dos candidatos e atribuição de bolsa).
a. Especificação de hipóteses:
H0: O sexo dos participantes não influencia o resultado da bolsa.
H1: O sexo dos candidatos influencia o resultado da bolsa.
b. Cálculo da estatística de teste e valor-p associado:
No nosso exemplo, como a estatística de teste X2 = 1.79 é menor que o valor crítico (3.841), então valor-p> 0.05
c. Decisão sobre as hipóteses e conclusão sobre o problema de investigação:
Resposta ao problema de investigação: Para X2 = 1.700 com p> 0.05, admite-se H0. Ou seja, na população, o sexo dos indivíduos não influencia os resultados do concurso da bolsa.
Aula 9: Pressupostos para a análise de dados
Revisão:
I. Os 4 pressupostos:
Pressupostos são premissas, requisitos em que se assumem determinadas condições prévias.
Quando os pressupostos são violados, não podemos tirar conclusões rigorosas da realidade.
Os modelos paramétricos usados até agora (regressão linear, teste t, anova) baseiam-se na distribuição normal.
Para que estes modelos possam ser usados, os dados têm que obedecer a um conjunto de 4 pressupostos.
Esses 4 pressupostos básicos têm de ser sempre verificados nos dados e cumpridos para que o uso do teste paramétrico seja válido:
· Ausência de outliers;
· Normalidade da distribuição dos erros;
· Homogeneidade dos erros;
· Ausência de multicolinearidade.
Se algum destes pressupostos não for verificado nos dados, então não se pode utilizar testes paramétricos. Tendo, como alternativa, testes não paramétricos. Ou seja, agora, para além de avaliarmos qual o tipo de variáveis que estamos a utilizar, há outros 4 pressupostos que temos de verificar no caso de queremos aplicar um teste paramétrico (regressão, linear, teste t ou anova). Para os testes não paramétricos, estes testes não se aplicam porque os dados não têm características métricas.
Outliers:
Outliers são observações extremas nos dados da amostra, enviesando a média e inflacionando o desvio-padrão.
De acordo com este pressuposto, as observações não podem ser tão extremas que se situem fora da distribuição prevista na população.
Há duas formas complementares para deteção de outliers:
· Representação gráfica (medida mais subjetiva, mas que dá a ilustração dos dados que existem e que estão fora do padrão);
· Cálculo da média e do desvio-padrão de cada variável (medida mais objetiva).
Problema de investigação:
Um investigador quer saber se a preocupação com o ambiente prediz o número de deslocações que as pessoas fazem de bicicleta.
Para isso, mediu a preocupação de cada participante com o ambiente (0= nenhuma a 5= muita) e registou o número de vezes que se deslocam de bicicleta durante um mês.
Há valores fora do padrão da VD e da VI? 
R: 40 e 93
O que é um valor fora do padrão?
Uma observação é considerada outlier se se afastar mais do que 3desvios-padrão da média da variável.
Para detetar outliers, uma possibilidade é calcular a média e o desvio-padrão de cada variável e verificar se alguma observação tem um desvio superior a 3.
Num teste paramétrico espera-se a distribuição normal dos dados e, todas as observações que estiverem dentro da distribuição prevista para a população, ou seja, a partir da média e incluindo 3 desvios-padrão acima e abaixo da média, são dados considerados segundo aquilo que é previsto para a população.
Se houver um dado fora da distribuição prevista, então tem de ser considerado um outlier.
Regressão linear (comparação com e sem outliers):
Depois de retirar os outliers, realiza-se a análise, através da regressão linear; para responder ao problema de investigação: será que a preocupação com o ambiente prediz o número de deslocações de bicicleta?
O modelo proposto reduz significativamente o erro em relação ao modelo nulo. R2= 0.325, F= 7.693, p= 0.014.
A preocupação com o ambiente tem um efeito significativo no número de deslocações de bicicleta, em que, quando maior a preocupação, maior o número de deslocações, b1= 2.045, t= 2.771, p= 0.014.
Impacto dos outliers:
A existência de outliers distorce os dados e os resultados do teste de hipóteses.
Assim, antes de se iniciar o teste de hipóteses, deve-se realizar uma pré-análise dos dados para verificar a sua ausência.
Normalidade:
Este pressuposto assume que a distribuição do erro do modelo proposto não difere significativamente de uma distribuição normal.
Para verificar se o pressuposto é violado, é necessário calcular o erro do modelo proposto e verificar se a sua distribuição é normal.
Há várias formas de verificar a normalidade da distribuição do erro:
· Representação gráfica;
· Cálculo do valor Z da simetria e achatamento;
· Realização do teste Kolmogorov-Smirnov.
Representação gráfica:
Será que a distribuição do erro do modelo proposto é normal?
E na população de onde a amostra foi retirada?
Desvios comuns à distribuição normal: Simetria e Achatamento
Uma distribuição normal é simétrica e mesocúrtica, ou seja, simetria (skewness) e achatamento (kurtosis) são iguais a zero.
Será que podemos dizer que, na população de onde a amostra foi retirada, a simetria e o achatamento são iguais a zero, para a= 0.01?
É frequente usar-se um nível de significância de 0.01 (em vez de 0.05), no teste da normalidade da distribuição do erro, pois é um teste muito sensível, especialmente para grandes amostras.
Portanto, ao contrário da maior parte dos testes de hipóteses, em que se usa um nível de significância de 0.05, no teste da normalidade usa-se um valor de significância de 0.01.
Valor crítico Z= 2.58 (para a=0.01)
O SPSS não nos dá nenhuma probabilidade no cálculo da simetria e do achatamento. Ele não nos diz qual é a probabilidade destes serem iguais ou diferentes de zero, por isso temos de ser nós a calcular essa probabilidade.
A simetria na população não é significativamente diferente de zero, é igual a zero, ou seja, é igual à distribuição normal. Este teste de hipóteses mostra que, apesar de na amostra a simetria não ser zero, a pequena diferença encontrada, 0.133 para zero, não é significativa. E, por tanto, na população, a simetria da distribuição do erro é igual a zero.
Na população de onde a amostra foi retirada, a distribuição do erro não é diferente da distribuição normal, é igual a zero, tem uma probabilidade de ser igual a zero muito grande.
Na população, a simetria e o achatamento da distribuição dos erros não são diferentes de zero, ou seja, não são diferentes da distribuição normal.
Teste Kolmogorov-Smirnov:
Uma outra forma de abordar a questão da distribuição da normalidade da distribuição dos erros é analisar se a distribuição num todo se desvia, ou não, da distribuição normal.
Para isso utiliza-se o teste Kolmogorov-Smirnov.
Se o resultado do teste KS não for significativo, então pode-se dizer que a distribuição não é diferente da normal. Se o teste for significativo, então a distribuição é diferente da normal.
Tal como no cálculo de Z simetria e achatamento, é frequente usar-se um nível de significância de 0.01 (em vez de 0.05), pois o teste KS é muito sensível a desvios à normalidade. 
· H0: distribuição do erro não difere da distribuição normal;
· H1: distribuição do erro difere da distribuição normal.
Estatística de teste= 0.122, com p= 0.200
Como p> 0.01, admite-se H0
Logo, a distribuição do erro do modelo proposto não difere significativamente da distribuição normal.
Para testar a normalidade da distribuição do erro do modelo proposto, começa-se pro fazer o teste KS.
Se o teste mostrar que a distribuição do erro não é diferente da distribuição normal (como aconteceu, neste caso), então o pressuposto é verificado e pode-se usar a estatística paramétrica para analisar os dados.
Se o teste indicar que a distribuição do erro difere da distribuição normal, é importante perceber se difere em termos de simetria, achatamento ou ambos. Realizam-se então os cálculos do Z da simetria e do Z do achatamento.
Assim, antes de se iniciar o teste de hipóteses, deve-se realizar uma pré-análise dos dados para verificar a ausência de outliers e a normalidade da distribuição dos erros.
Aula 10: Pressupostos para análise de dados (continuação):
Homogeneidade:
O pressuposto assume que a variação do erro do modelo proposto não difere significativamente em função dos vários níveis da VI. Ou seja, a variabilidade do erro não é diferente nas várias condições da variável independente.
É necessário calcular o erro do modelo proposto (já calculado para verificar o pressuposto da normalidade) e verificar se a sua relação com a VI é constante.
Há várias formas de verificar a homogeneidade do erro:
· Representação gráfica;
· Cálculo da relação entre a VI e o erro (quadrado do erro).
Problema de investigação: (igual ao da aula passada, onde já foram eliminados os dois outliers eliminados)
Representação gráfica da relação entre a preocupação com o ambiente (VI) e o número de deslocações de bicicleta (VD).
Será que a variação que existe no número de deslocações de bicicleta é diferente nos vários níveis de preocupação com o ambiente?
Relação entre a VI e o erro:
· Se a relação entre a VI e o quadrado do erro for constante for constante, então pode-se dizer que há homogeneidade dos erros;
· Se a relação entre a VI e o quadrado do erro não for constante, então não há homogeneidade dos erros.
Para saber que relação há entre a VI e o quadrado do erro, pode-se recorrer à regressão linear.
Cálculo do erro quadrado, a partir do erro do modelo proposto (já calculado para verificar o pressuposto da normalidade):
Teste da homogeneidade do erro:
· H0: a VI não prediz variações no quadrado do erro (a relação entre a VI e o quadrado do erro é constante, há homogeneidade);
· H1: a VI prediz variações no quadrado do erro (a relação entre a VI e o quadrado do erro não é constante, não há homogeneidade).
Como p> 0.05 admito H0, ou seja, há homogeneidade do erro.
Multicolinearidade:
Este pressuposto só se aplica a problemas de investigação com duas ou mais variáveis independentes.
Assume que não existem correlações muito fortes entre as VIs.
A correlação entre duas VIs é considerada muito forte quando r> 0.90 (partilham 90% ou mais da sua variação, o que é um problema para a análise dos dados).
Problema de investigação:
Um investigador quer saber se a preocupação com o ambiente e a preocupação com as alterações climáticas predizem o número de deslocações que as pessoas fazem de bicicleta.
Para isso, mediu-se a preocupação de cada participante com o ambiente (0= nenhuma; 5= muita) e a preocupação com as alterações climáticas (0= nenhuma; 5= muita). Registou também o número de deslocações de bicicleta de cada participante.
Formas de verificar a multicolinearidade:
· Representação gráfica;
· Cálculo da correlação entre as duas VIs.
Representação gráfica:
Representação gráfica da relação entre as duas VIs: preocupação com o ambiente e preocupação com o clima.
Será quea correlação entre as duas VIs é muito forte?
Correlação entre preocupação com o ambiente e preocupação com alterações climáticas:
r> 0.90, portanto a relação é muito forte, ou seja, há multicolinearidade entre as duas VIs. 
Estas VIs estão fortemente relacionadas uma com a outra, partilham a mesma variação e, portanto, por ser muito forte, o pressuposto da ausência de multicolinearidade não está assegurado, sendo violado, neste caso.
Impacto nos dados:
Se duas VIs estão muito fortemente relacionadas, então deve-se criar uma única VI compósita (não faz sentido analisar cada uma delas separada, uma vez que refletem a mesma coisa):
· Neste caso: (preocupação_ambiente + preocupação_clima)/2 (média).
Soluções para quando os pressupostos forem violados:
São soluções alternativas, não garantem que qualquer violação possa ser solucionada. Se estas soluções não forem adequadas e não resolverem os problemas, tem de se utilizar testes não paramétricos obrigatoriamente.
· Soluções para outliers:
Ver se os outliers resultam de erros na inserção das respostas na base de dados ou na interpretação incorreta da resposta do participante.
Se a origem dos outliers for conhecida e estes puderem ser corrigidos, deve-se fazê-lo.
Se os outliers não puderem ser corrigidos, então:
1. Correr a análise com outliers;
2. Correr a análise sem outliers;
3. Comparar os dois resultados.
Se os resultados forem idênticos (admite-se ou rejeita-se H0 em ambas as análises), usa-se o modelo com outliers.
Se os resultados forem diferentes, usa-se o modelo sem outliers e reporta-se o procedimento realizado na exclusão de outliers.
· Soluções para normalidade e homogeneidade:
Se a distribuição do erro do modelo proposto for significativamente diferente da distribuição normal e/ou se não houver homogeneidade dos erros, pode-se aplicar uma transformação à VD.
O objetivo da transformação da VD é minimizar problemas na distribuição dos dados, quer relativamente à ausência de normalidade quer relativamente à ausência de homogeneidade dos erros.Transformar a VD não é alterar resultados! Numa transformação aplica-se o mesmo procedimento a todos os dados
Há várias transformações que são frequentemente aplicadas à VD:
· Raiz quadrada de Y (vai ser demonstrada);
· Inverso da raiz quadrada de Y;
· Inverso de Y.NOTA: Tem de se aplicar a mesma transformação a todas as VDs
· Soluções para multicolinearidade:
Se existir multicolinearidade entre duas VIs, deve-se:
· Usar apenas uma das VIs;
· Fazer um compósito das duas VIs.

Outros materiais