Estatistica sem Matematica para Psicologia - Christine Dancey e John Reidy

Humanas / Sociais

Leonardo Navarro

em 23/03/2025

Conteúdos escolhidos para você

26 pág.

APOSTILA-COMPLETA-ESTATÍSTICA-APLICADA-ÀS-CIÊNCIAS-SOCIAIS docx

FAVENI

53 pág.

UNIDADE 2 - Estatística Básica - Descritiva (Com exercícios)

AMPLI

Perguntas dessa disciplina

1. Variável é toda característica que, observada em uma unidade da população ou amostra, pode variar de um indivíduo para outro (Callegari-Jacques...

UNILAVRAS

Questão 10/10 - ENSINO DE ESTATÍSTICA E TRATAMENTO DA INFORMAÇÃO NA EDUCAÇÃO BÁSICA Ler em voz alta Considere o excerto de texto a seguir: “As medidas

Para entender as características gerais de um conjunto de dados, pesquisadores podem avaliar imagens como gráficos, que resumem os resultados. Contudo

UniCesumar

Questão 08 1 PONTO "Os testes estatísticos podem ser divididos em dois grandes grupos, conforme fundamentem ou não os seus cálculos na premissa de ...

FMU

Sobre os conceitos fundamentais em estatistica, considere as seguintes afirmações e julgue os itens em VERDADEIRO (V) ou FALSO (F). ( ) Consideran...

Unyleia

Material

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Crie sua conta grátis para liberar esse material. 🤩

Já tem uma conta?

Ao continuar, você aceita os Termos de Uso e Política de Privacidade

Conteúdos escolhidos para você

26 pág.

APOSTILA-COMPLETA-ESTATÍSTICA-APLICADA-ÀS-CIÊNCIAS-SOCIAIS docx

FAVENI

53 pág.

UNIDADE 2 - Estatística Básica - Descritiva (Com exercícios)

AMPLI

Perguntas dessa disciplina

1. Variável é toda característica que, observada em uma unidade da população ou amostra, pode variar de um indivíduo para outro (Callegari-Jacques...

UNILAVRAS

Questão 10/10 - ENSINO DE ESTATÍSTICA E TRATAMENTO DA INFORMAÇÃO NA EDUCAÇÃO BÁSICA Ler em voz alta Considere o excerto de texto a seguir: “As medidas

Para entender as características gerais de um conjunto de dados, pesquisadores podem avaliar imagens como gráficos, que resumem os resultados. Contudo

UniCesumar

Questão 08 1 PONTO "Os testes estatísticos podem ser divididos em dois grandes grupos, conforme fundamentem ou não os seus cálculos na premissa de ...

FMU

Sobre os conceitos fundamentais em estatistica, considere as seguintes afirmações e julgue os itens em VERDADEIRO (V) ou FALSO (F). ( ) Consideran...

Unyleia

Prévia do material em texto

CONHEÇA TAMBÉM
AGRESTI, A.; FINLAY, B.
Métodos estatísticos para as
ciências sociais (4.ed.)
ANGROSINO, M.
Etnografia e observação
participante
BANKS, M.
Dados visuais para pesquisa
qualitativa
BARBOUR, R.
Grupos focais
BECKER, J. L.
Estatística básica
CHARMAZ, K.
A construção da teoria
fundamentada: guia prático para
análise qualitativa
CRESWELL, J. W.; CLARK, V. L. P.
Pesquisa de métodos mistos
(2.ed.)
CRESWELL, J. W.
Investigação qualitativa e projeto
de pesquisa: escolhendo entre
cinco abordagens (3.ed.)
CRESWELL, J. W.
Projeto de pesquisa: métodos
qualitativo, quantitativo e misto
(3.ed.)
DANCEY, C. P.; REIDY, J. G.;
ROWE, R.
Estatística sem matemática para
as ciências da saúde
ESTEITIE, R.
Fundamentos de pesquisa clínica
ESTRELA, C.
Metodologia científica: ciência,
ensino, pesquisa (3.ed.)
FIELD, A.
Descobrindo a estatística usando
o SPSS (2.ed.)
FLICK, U.
Introdução à metodologia de
pesquisa: um guia para iniciantes
FLICK, U.
Introdução à pesquisa qualitativa
(3.ed.)
FLICK, U.
Qualidade na pesquisa qualitativa
FOWLER Jr., F. J.
Pesquisa de levantamento (4.ed.)
GIBBS, G.
Análise de dados qualitativos
GRAY, D. E.
Pesquisa no mundo real (2.ed.)
HAIR et. al
Análise multivariada de dados
(6.ed.)
KOLLER, S.; COUTO, M.;
HOHENDORFF, J.
Manual de produção científica
LAVILLE, C.; DIONNE, J.
A construção do saber: manual
de metodologia da pesquisa em
ciências humanas
OLSEN, W.
Coleta de dados: debates e
métodos fundamentais em
pesquisa social
POPE, C.; MAYS, N.
Pesquisa qualitativa na atenção à
saúde (3.ed.)
SAMPIERI, R.; COLLADO, C.;
LUCIO, M.
Metodologia de pesquisa (5.ed.)
SHAUGHNESSY, J. J.;
ZECHMEISTER, E. B.;
ZECHMEISTER, J. S.
Metodologia de pesquisa em
psicologia (9.ed.)
SIEGEL, S.; CASTELLAN Jr., N. J.
Estatística não-paramétrica para
ciências do comportamento (2.ed.)
SILVERMAN, D.
Um livro bom, pequeno e
acessível sobre pesquisa
qualitativa
STAKE, R. E.
Pesquisa qualitativa: estudando
como as coisas funcionam
YIN, R. K.
Pesquisa qualitativa do início
ao fim
MÉTODOS DE PESQUISA
loja.grupoa.com.br
R
e
c
o
rte
a
q
u
i se
u
m
a
rc
a
d
o
r d
e
p
á
g
in
a
.
A Penso Editora é um dos selos
editoriais do Grupo A Educação,
empresa que oferece soluções em
conteúdo, tecnologia e serviços para
a educação acadêmica e profissional.
Conheça todas as soluções:
www.grupoa.com.br / 0800 703 3444
MÉTODOS DE PESQUISA
CHRISTINE P. DANCEY
JOHN REIDY
7ª
edição
E
S
TA
T
ÍS
T
IC
A
S
E
M
M
A
T
E
M
Á
T
IC
A

P
A
R
A
P
S
IC
O
L
O
G
IA
E
S
TA
T
ÍS
T
IC
A
S
E
M
M
A
T
E
M
Á
T
IC
A

P
A
R
A
P
S
IC
O
L
O
G
IA
D
A
N
C
E
Y
D
A
N
C
E
Y
7ª
edição7ª
edição
Estatística sem matemática para psicologia apresenta uma introdução
prática e acessível à estatística sem usar fórmulas matemáticas
desafiadoras. Além da teoria estatística, o livro também explica passo
a passo como utilizar o SPSS, o software de estatística mais usado
nas ciências sociais. Os capítulos trazem vários exemplos da literatura
e atividades para ajudá-lo a entender e praticar a ciência estatística,
bem como aplicar esses conhecimentos na sua própria pesquisa.
Destaques desta edição:
• Atualizada para ser usada com a versão 23 do SPSS Statistics
• Novos exemplos da literatura informam sobre pesquisas
atuais na psicologia
• Entrevistas com pesquisadores na seção reflexão pessoal aproximam
a estatística da vida real, mostrando sua aplicação em psicologia
• Questões de múltipla escolha no final de cada capítulo testam os
conhecimentos adquiridos durante a leitura
Para visualizar o hotsite exclusivo, que inclui
materiais complementares ao livro, acesse
http://apoio.grupoa.com.br/dancey7ed
O professor interessado em recursos pedagógicos
complementares deve acessar o site do Grupo A
(loja.grupoa.com.br), buscar pela página do livro, clicar
em Material do Professor e fazer o seu cadastro.
7ª
edição
ESTATÍSTICA SEM
MATEMÁTICA
PARA PSICOLOGIA
CHRISTINE P. DANCEY
JOHN REIDY
ESTATÍSTICA
PSICOLOGIA
SEM
PARA
MATEMÁTICA
R
E
ID
Y
R
E
ID
Y
03280 - DANCEY_Estatistica_Matematica_Psicologia 24-09.indd 1 25/09/18 11:30
D173e Dancey, Christine P.
Estatística sem matemática para psicologia [recurso eletrônico] / Christine
P. Dancey, John Reidy ; tradução técnica: Lori Viali. – 7. ed. – Porto Alegre :
Penso, 2019.
Editado também como livro impresso em 2019.
ISBN 978-85-8429-143-4
1. Estatística – Psicologia. I. Reidy, John. II. Título.
CDU 311:159.9
Catalogação na publicação: Karin Lorien Menoncin – CRB 10/2147
2019
Tradução técnica:
Lori Viali
Professor titular da Escola de Ciências
da Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS).
Professor titular aposentado do Instituto de Matemática e Estatística
da Universidade Federal do Rio Grande do Sul (UFRGS).
CHRISTINE P. DANCEY
University of East London
JOHN REIDY
Sheffield Hallam University
7ª
edição
ESTATÍSTICA
PSICOLOGIA
SEM
PARA
MATEMÁTICA
Versão impressa
desta obra: 2019
Obra originalmente publicada sob o título Statistics without maths for psychology, 7th edition
ISBN 9781292128856
This translation of Statistics without maths for psychology is published by arrangement with
Pearson Education Limited.
Copyright © 2017, Pearson Education Limited. All Rights Reserved.
Gerente editorial: Letícia Bispo de Lima
Colaboraram nesta edição:
Editora: Tiele Patricia Machado
Preparação de originais: Isadora Cabral
Leitura final: Pietra Cassol Rigatti
Editoração: Clic Editoração Eletrônica Ltda.
Capa: Paola Manica
Ilustração da capa: Shutterstock:@Davdeka
Reservados todos os direitos de publicação, em língua portuguesa, à
PENSO EDITORA LTDA., uma empresa do GRUPO A EDUCAÇÃO S.A.
Av. Jerônimo de Ornelas, 670 – Santana
90040-340 Porto Alegre RS
Fone: (51) 3027-7000 Fax: (51) 3027-7070
Unidade São Paulo
Rua Doutor Cesário Mota Jr., 63 – Vila Buarque
01221-020 São Paulo SP
Fone: (11) 3221-9033
SAC 0800 703-3444 – www.grupoa.com.br
É proibida a duplicação ou reprodução deste volume, no todo ou em parte, sob quaisquer
formas ou por quaisquer meios (eletrônico, mecânico, gravação, fotocópia, distribuição na Web
e outros), sem permissão expressa da Editora.
http://www.grupoa.com.br
Dedico este livro a Donna Wiles e a Linda
Perkins. Nossa amizade e apoio mútuo são
muito importantes para mim. Vocês são
pessoas fortes, belas e fantásticas. Muito
obrigada por tudo.
Christine
Dedico este livro a Ollie … super schnotz
(100% Schnauzer)
John
Esta página foi deixada em branco intencionalmente.
Prefácio
*O SPSS foi adquirido pela IBM em outubro de 2009.
Parece incrível que 18 anos se passaram desde que este livro foi publicado pela primeira
vez. É surpreendente como ele foi bem recebido, e nós agradecemos pelas palavras amis-
tosas que recebemos de estudantes e professores. Nesta 7ª edição, mantivemo-nos fiéis à
ideia de que esta obra deve fornecer explicações conceituais de conteúdos estatísticos sem
fazer o leitor sofrer com fórmulas matemáticas. Conservamos os pontos fortes das edições
anteriores e atualizamos nossos exemplos da literatura e alguns dos exercícios práticos,
apresentamos reflexões de autores de pesquisas publicadas e respondemos, com explica-
ções revisadas, a várias pessoas que deram feedback à 6ª edição.
Escrevemos este livro primeiramente para nossos alunos, muitos dos quais não gostam
de matemática e não conseguem entender por que precisam aprender fórmulas matemáticas
quando há um programa de computador para fazer isso. Eles não foram convencidos pelo
argumento de que os cálculos realizados servem para dar-lhes uma maior compreensão do
teste estatístico – nós também não. Queremos que eles tenham um entendimento conceitual
da estatística e que gostem da análise de dados. Durante os últimos 20 anos, tivemos de
adaptar nosso ensino a grandes grupos, em que uma boa parcela dos estudantes não tinha
um treinamento formal em matemática.mais afetada estará. Deveríamos, en-
tão, medir tais construtos de forma contínua e não dicotomizá-los. Assim, em vez de utilizar
questionários para categorizar pessoas, poderíamos usá-los para obter uma medida de onde
elas estão em um contínuo. Tal informação pode ser utilizada na nossa decisão para tratar
pessoas, entre outras situações. É interessante notar que a última versão do Manual diagnós-
tico e estatístico de transtornos mentais (DSM-5) vê as doenças mentais como um continuum em
vez de categorias.
Um exemplo pode ilustrar melhor a dicotomização. Foi sugerido anteriormente que é pos-
sível categorizar pessoas em ansiosas e não ansiosas com base em escores obtidos em um
questionário. Pesquisadores investigando a ansiedade às vezes utilizam questionários desta
forma. Aqueles participantes que apresentam escores altos são classificados como de alta
ansiedade, enquanto os que têm pontuação baixa são classificados como de baixa ansiedade. O
método de “divisão pela mediana” é muitas vezes utilizado com esse propósito, categorizando
os que ficaram acima da mediana como ansiosos e os que ficaram abaixo como não ansiosos
(p. ex., Takács et al., 2015).
Streiner argumenta que a prática de dicotomizar variáveis contínuas tende a diminuir o
poder da pesquisa (o poder de um teste será discutido nos Caps. 5 e 8). A razão disso é que se
perdem muitas informações sobre os participantes. Por exemplo, suponha que duas pessoas
tenham os escores de 20 e 38 em um teste de ansiedade e que, quando a variável for dicoto-
mizada, eles serão contados como de baixa ansiedade (os dois estão abaixo da mediana). Em
qualquer análise subsequente baseada na categorização feita, ambos serão tratados como
possuindo o mesmo nível de ansiedade (i.e., ambos seriam considerados não ansiosos). Entre-
tanto, de acordo com os escores originais, o nível de ansiedade entre eles é bastante diferente.
Tratar essas duas pessoas como idênticas em termos de níveis de ansiedade não parece fazer
sentido. Seria mais sensato tentar incluir os valores reais de ansiedade em qualquer análise
estatística que for realizada.
Além disso, pode-se observar uma diferença muito maior entre os níveis de ansiedade
das duas pessoas classificadas como não ansiosas do que entre uma classificada como ansio-
sa e a outra não. Por exemplo, suponha que a mediana fosse 39; todos aqueles acima desse
escore seriam classificados como ansiosos e todos abaixo como não ansiosos. Pode-se ver
aqui que uma pessoa não ansiosa que tenha um escore de 38 tem muito mais em comum com
uma ansiosa cujo escore seja 41 do que com outra não ansiosa cujo escore seja 20. Ainda, em
qualquer análise posterior, os participantes com escores de 20 e 38 são classificados como
idênticos em termos de ansiedade e como diferentes de uma pessoa que tenha um escore de
41. Isso não faz sentido.
Streiner ainda ressalta pesquisas que mostram que análises utilizando variáveis dicotô-
micas apresentam aproximadamente 67% da eficiência das que utilizam medidas contínuas ou
discretas originais. Trata-se uma grande perda de sensibilidade do estudo. Isso significa que
você tem apenas dois terços da probabilidade de detectar relacionamentos entre variáveis se
estiver utilizando variáveis contínuas ou discretas dicotomizadas. Essa é uma séria desvan-
tagem na realização de uma pesquisa. Além disso, a perda de poder não é o único problema
que surge quando variáveis são dicotomizadas. Maxwell e Delaney (1993) mostraram que essa
prática pode levar a achados espúrios na análise estatística.
Consequentemente, aconselhamos a não dicotomizar variáveis contínuas.
Capítulo 1 • Variáveis e delineamento de pesquisa 7
Quais das seguintes variáveis são categóricas, quais são discretas e quais são contínuas?
●● Velocidade do vento
●● Tipos de diplomas oferecidos por uma universidade
●● Nível de extroversão
●● Fabricantes de carros
●● Divisão na qual times de futebol competem
●● Número de peças de xadrez “capturadas” em um jogo
●● Peso de pandas gigantes
●● Número de pinturas expostas em galerias de arte
As respostas corretas podem ser encontradas no final do livro.
Atividade 1.1
1.3 Níveis de mensuração
Outra forma de distinguir entre variáveis ou escalas é em termos de nível de mensuração.
Há quatro níveis de mensuração e eles variam em função da maneira em que as variáveis
são medidas. Os quatro níveis diferentes são:
Nominal
1
Ordinal
2
Intervalar
3
De razão
4
No primeiro nível da mensuração estão as escalas nominais. Elas são, de fato, variáveis
categóricas, pois representam categorias diferentes, mas também têm a característica de
que não há uma ordem em particular que possa ser atribuída às categorias. Um bom exem-
plo de uma escala nominal é sexo, que tem duas categorias, masculino e feminino. É fácil
de perceber que não há uma maneira lógica de ordenar essas duas categorias em termos de
magnitude. Outro exemplo pode ser grupo étnico: novamente, podemos categorizar pessoas
em termos do seu grupo étnico, mas não podemos colocar esses grupos em uma ordem em
particular – eles são simplesmente categorias diferentes. Quando lidamos com medidas no-
minais, estamos colocando pessoas em categorias, e os dados que obtemos estão na forma
de contagens de frequência. As contagens de frequência simplesmente nos dizem quantas
pessoas estão em cada categoria.
No próximo nível de mensuração temos as escalas ordinais. Frequentemente, na psico-
logia, usamos escalas de avaliação para medir as respostas dos participantes. Por exemplo,
queremos saber o quão nervosa uma pessoa está antes de participar em um estudo que esta-
mos realizando. Poderíamos usar uma escala como a apresentada abaixo para avaliar isso.
Eu estou muito bem!
1 2 3 4 5
Opa, isso está
ficando sério!
Estou uma
pilha de nervos!
8 Estatística sem matemática para psicologia
Usando tal escala podemos colocar os participantes em um tipo de ordem em termos de
quão nervosos eles estão antes do estudo (portanto, escala ordinal). Poderíamos dizer que
alguém que circulasse o “1” estaria menos nervoso do que alguém que circulasse o “3” ou
o “5”. Uma das desvantagens dessas escalas é que não podemos dizer que a diferença entre
“1” e “2” na escala é a mesma diferença entre “3” e “4” na escala ou que a diferença entre
“Estou muito bem!” e “Opa, isso está ficando sério!” é a mesma diferença entre “Opa, isso
está ficando sério!” e “Estou uma pilha de nervos!”. Portanto, não temos intervalos iguais
na escala.
No nível de mensuração intervalar, podemos colocar escores em algum tipo de ordem
de magnitude e também ter intervalos iguais entre pontos adjacentes na escala (portanto,
escala intervalar). Um bom exemplo de escala intervalar são as escalas comumente usadas
para medir a temperatura, como a de centígrados ou a de Fahrenheit. Em tais escalas, pode-
mos dizer que a diferença entre 1 e 2 graus é a mesma diferença entre 9 e 10 graus ou entre
99 e 100 graus, ou seja, temos intervalos iguais entre pontos adjacentes nas escalas. A des-
vantagem de tais escalas é que não existe zero absoluto nelas. Mesmo que existam pontos
“zero” tanto na escala de centígrados quanto na de Fahrenheit, eles são pontos arbitrários,
pois não equivalem à temperatura zero. O ponto zero na escala centígrada foi escolhido
porque era o ponto em que a água congela, e o da escala Fahrenheit é igualmente arbitrário.
Quando alcançamos zero nessas escalas não podemos dizer que não existe calor ou que não
existe temperatura.
Por isso, não podemos dizer que 4°C é a metade do calor de 8°C ou que 40°C é duas
vezes mais quente do que 20°C. Para fazer tais afirmações precisaríamos de uma escala de
mensuração que tenha um zero absoluto em vez de um zero arbitrário. Um bom exemplo da
literatura psicológica é a ansiedade, que geralmente é mensurada por intermédio de questio-
nários como o IDATE (Inventário de Ansiedade Traço-Estado) de Spielberger. Um escore 0
nesse questionário não significa que a pessoa não seja ansiosa e nãopodemos dizer que uma
pessoa com um escore de 40 é duas vezes mais ansiosa do que uma com um escore de 20.
O nível final de mensuração é a escala de razão. As escalas de razão têm todas as ca-
racterísticas dos dados de nível intervalar, mas com o acréscimo de um ponto zero absoluto.
Por exemplo, se eu quisesse medir quanto tempo é necessário para ler este parágrafo, inicia-
ria o cronômetro no começo da leitura no início do parágrafo e, então, o pararia ao final da
leitura da última palavra do parágrafo. Aqui temos uma escala em que os intervalos entre
os pontos adjacentes são iguais: isto é, a diferença entre 1 e 2 segundos é a mesma que entre
79 e 80 segundos. Também temos um ponto zero que é um zero absoluto. O ponto de pre-
paração para começar a ler o parágrafo é zero em termos do tempo gasto lendo o parágrafo.
Outro exemplo de uma escala de razão é a velocidade de um carro. Quando o carro não está
se movendo, ele tem velocidade zero (um ponto zero absoluto), e a diferença entre 9 e 10
km/h é a mesma diferença entre 29 e 30 km/h. A utilidade de se ter um zero absoluto é que
podemos formar razões usando escalas (portanto, escalas de razão). Assim, posso dizer que
um carro a 100 km/h está se movendo duas vezes mais rápido do que um carro a 50 km/h,
ou que uma pessoa que lê este parágrafo em 30 segundos lê duas vezes mais rápido do que
alguém que o lê em 60 segundos.
Os níveis de mensuração são importantes porque podem influenciar qualquer tipo de
teste estatístico que usarmos para analisar nossos dados. Geralmente, podemos somente
usar as técnicas estatísticas suscetíveis (chamadas de testes paramétricos) quando temos
dados de nível intervalar ou de razão. Se tivermos dados nominais ou ordinais, devemos
utilizar testes não paramétricos menos sensíveis (veremos as condições para usar tipos di-
ferentes de teste com mais detalhes no Cap. 5).
Capítulo 1 • Variáveis e delineamento de pesquisa 9
Escalas de razão têm intervalos iguais entre escores adjacentes da escala e um zero absoluto.
Escalas intervalares têm intervalos iguais entre escores adjacentes, mas não têm um zero ab-
soluto.
Escalas ordinais têm algum tipo de ordem para as categorias (p. ex., em termos de magnitude),
mas os intervalos entre os pontos adjacentes na escala não são necessariamente iguais.
Escalas nominais consistem em categorias que não podem ser ordenadas.
Definições
1.4 Delineamentos de pesquisa
Há muitas técnicas estatísticas que podem ser usadas para analisar dados coletados em
uma pesquisa. Neste livro, apresentaremos algumas das mais utilizadas e forneceremos um
entendimento dos fatores que determinam quais técnicas estatísticas devem ser utilizadas
em uma dada situação.
Um dos principais fatores na determinação de qual teste estatístico será utilizado para
analisar os dados é a forma como o estudo foi projetado ou planejado. Há várias maneiras de
projetar ou planejar um estudo, e a forma como isso é feito exercerá grande influência nos
tipos de procedimentos estatísticos que estarão disponíveis. Algumas vezes, os pesquisado-
res podem querer observar diferenças entre dois grupos de participantes em uma variável
específica, em outras, verificar se duas variáveis estão relacionadas de alguma maneira.
Um exemplo de um estudo que investigou diferenças entre condições é a pesquisa relatada
por Guéguen e Ciccotti (2008). No estudo, os pesquisadores estavam interessados em veri-
ficar se os cães facilitavam ou não interações sociais e ajudavam nos comportamentos entre
adultos. Os pesquisadores executaram quatro estudos diferentes, em que pesquisadores do
sexo masculino e feminino caminharam com e sem os cães. Nos dois estudos, o pesquisa-
dor abordou pessoas e pediu dinheiro. Em outro estudo, o pesquisador deixou cair algumas
moedas para ver se as pessoas o ajudariam a coletá-las do chão e, em um estudo final, um
pesquisador do sexo masculino aborda mulheres na rua e pede seus números de telefone. Em
cada estudo o pesquisador completa a tarefa com e sem os cães. Em todos os quatro estudos,
eles descobriram que o comportamento de ajuda era maior quando o pesquisador tinha o
cão do que quando não tinha. Um exemplo de pesquisa procurando por relações foi relatado
por Antonacopoulos e Pychyl (2014). Nessa pesquisa, eles estavam interessados na relação
entre caminhar com um cão e a saúde mental. Por meio de um questionário online foi des-
coberto que conversar com outras pessoas e caminhar com um cão ao mesmo tempo estava
relacionado a quão solitário a pessoa se sentia a ponto de que um aumento nas conversas com
outras pessoas estava associado à diminuição da solidão. Os testes estatísticos que seriam
utilizados nesses exemplos são denominados testes de diferença e testes correlacionais, res-
pectivamente. A forma como o estudo é planejado influenciará qual desses testes poderá ser
usado. Nas seções seguintes, serão apresentadas várias maneiras de se planejar estudos e os
tipos de testes disponíveis para que o pesquisador analise os resultados.
1.4.1 Variáveis estranhas e de confusão
No parágrafo anterior, descrevemos um estudo de Guéguen e Ciccotti (2008) sobre os efei-
tos de caminhar com um cão em interações sociais e comportamentos de ajuda. Se pensar-
mos sobre o estudo, poderemos perceber que existem outros fatores, além do de possuir o
cachorro, que podem afetar os encontros sociais das pessoas enquanto caminham. Alguns
10 Estatística sem matemática para psicologia
desses fatores incluem a timidez, a atratividade e o sexo de quem está caminhando, a raça
do cão e diversas outras variáveis. Todos são fatores que o pesquisador não levou em consi-
deração, mas que podem ter influenciado a interação social. Esses fatores são denominados
variáveis estranhas. Em qualquer situação de pesquisa, quer em química, física ou psico-
logia, deve-se levar em conta a influência dessas variáveis. Se elas forem negligenciadas,
as conclusões obtidas do estudo podem não ser confiáveis. Assim, no estudo da caminhada
com o cachorro, se essas variáveis estranhas não são controladas não será possível dizer, ao
certo, que as diferenças obtidas foram em virtude de passear com o cachorro. As diferen-
ças podem ser por quaisquer outras combinações das variáveis mencionadas. A principal
razão para se fazer pesquisa em condições de laboratório é tentar manter o controle sobre
as variáveis estranhas tanto quanto possível. Muitos dos problemas de pesquisa abordados
neste capítulo foram projetados com o objetivo de reduzir as variáveis estranhas.
É preciso saber que, para cada variável que for medida, existirão várias outras que
podem estar relacionadas a ela (ver exemplo na Fig. 1.2). Quando um estudo como o da ca-
minhada com o cachorro é conduzido, não é possível termos certeza se é a existência ou não
do cão a responsável pelas diferenças na interação social. Assim, precisamos tentar elimi-
nar as outras variáveis (as estranhas) como possíveis razões para as alterações observadas.
Fazemos isso tentando controlar essas variáveis: por exemplo, tentar combinar o máximo
possível os participantes com e sem o cão nos aspectos timidez, atratividade e sexo. Ainda,
pode-se assegurar que todos os participantes façam a caminhada com o mesmo tipo de cão
e que caminhem nos mesmos horários e dias da semana. Uma vez que se tenha controlado
essas variáveis, então é possível ter mais confiança na conclusão de que caminhar com um
cão exercerá influência sobre o número de interações sociais que uma pessoa terá.
Variáveis estranhas são aquelas que podem ter um impacto em outras variáveis que estamos
interessados, mas que falhamos em considerar quando delineamos nosso estudo.
Definição
Caminhar com
ou sem o cão
Sexo
Atratividade
Tipo de cão
Dia da semana
e horário
da caminhada
Timidez
Número de interações
sociais em uma
caminhada no parque
Figura 1.2 Ilustração das variáveis que podem influenciar o número de interações sociais
de uma pessoa em um parque.
Capítulo 1 • Variáveise delineamento de pesquisa 11
Um tipo específico de variável estranha é aquele que está correlacionado com ambas as
variáveis principais que estamos interessados. Tal variável é chamada de variável de con-
fusão ou confundidora. Por exemplo, vamos supor que estamos interessados nas diferenças
entre os sexos na habilidade de sucessivamente jogar e acertar uma bola em uma cesta de
basquete. Vamos presumir que executamos um estudo e descobrimos que os homens pon-
tuaram mais do que as mulheres. Podemos concluir que os homens são melhores do que as
mulheres no jogo de basquete. O problema é que poderia haver uma relação potencial entre
o sexo dos participantes, a habilidade de pontuar e a altura. Pode acontecer que pessoas
altas sejam melhores em pontuar no basquete, e também há o fato de que os homens são,
em geral, mais altos do que as mulheres. Poderia, também, ser simplesmente a altura dos
participantes, em vez de seu sexo, o que determinou sua habilidade de marcar pontos no
nosso estudo. A altura, nesse caso, seria a variável de confusão.
Uma variável de confusão é um tipo específico de variável estranha que está relacionado a am-
bas as variáveis principais em que estamos interessados.
Definição
1.4.2 Delineamentos correlacionais
Dissemos anteriormente que o principal objetivo da ciência é entender as variáveis. Mais
especificamente, desejamos entender como e por que certas variáveis estão relacionadas.
Talvez a forma mais simples de examinar o relacionamento entre variáveis seja pela utili-
zação de delineamentos correlacionais. Em tais projetos, medimos a variável de interes-
se e então verificamos como cada variável se altera em relação às mudanças em outras
variáveis. Um exemplo pode auxiliar a entender a situação. Uma revisão recentemente pu-
blicada por Gnambs (2015) examinou os fatores da personalidade que estão relacionados
a ter um bom desempenho em programação. Eles descobriram, como já era esperado, que
a habilidade de programar estava relacionada à inteligência e, também, à introversão, que
talvez esteja de acordo com o estereótipo de programadores de computador. Entretanto, as
características da personalidade que estavam mais fortemente ligadas à habilidade de pro-
gramação eram abertura e conscienciosidade. Portanto, a pesquisa mostrou que à medida
que a personalidade (abertura, conscienciosidade e introversão) muda, o mesmo ocorre com
a habilidade de programação; essas variáveis são denominadas covariáveis. Deve-se notar
que os termos “relacionadas”, “correlacionadas” e “covariadas” são muitas vezes utilizados
sem distinção.
Outro excelente exemplo de pesquisa conduzida com a utilização de delineamento cor-
relacional é a que verifica a relação entre o hábito de fumar e o câncer. Geralmente tem
sido verificado que, à medida que aumenta o consumo de cigarros, o mesmo ocorre com a
incidência de câncer. Portanto, há uma relação entre o número de cigarros consumidos e a
chance de contrair câncer.
Se você usar um delineamento correlacional, então o tipo de técnica estatística pro-
vavelmente utilizada será o coeficiente de correlação produto-momento de Pearson* ou
talvez o coeficiente de correlação ρ de Spearman**. (Eles serão abordados nos Caps. 6 e 16,
respectivamente.)
*N. de T.T. Karl Pearson (1857-1936), matemático e estatístico inglês.
**N. de T.T. Charles Edward Spearman (1863-1945), psicólogo inglês.
12 Estatística sem matemática para psicologia
Delineamentos correlacionais são aqueles que investigam relações entre variáveis.
Definição
1.4.3 Causalidade
A questão da causalidade é problemática na ciência, ainda mais quando utilizamos deli-
neamentos correlacionais. Um dos principais objetivos da ciência é descobrir a causa dos
acontecimentos. Em todos os ramos de pesquisa, os pesquisadores estão tentando deter-
minar relações de causalidade entre variáveis. Por exemplo, Newton* produziu uma teoria
elegante para explicar o que causa uma maçã a cair no chão. Ele estabeleceu uma relação
de causalidade entre a queda das maçãs e a gravidade. Em muitas pesquisas da psicologia,
também tentamos estabelecer relações de causalidade. Quando usamos delineamentos cor-
relacionais, no entanto, é difícil estabelecer se a alteração em uma variável causa uma mu-
dança em outra variável. A razão disso é que em tais delineamentos estamos simplesmente
observando e registrando mudanças em variáveis e tentando estabelecer se elas covariam de
alguma forma significativa. Como estamos apenas observando como as variáveis mudam,
é difícil (para não dizer impossível) estabelecer as relações de causalidade entre elas. Para
fazer isso de forma mais fácil, precisamos manipular uma das variáveis (mudá-la sistema-
ticamente) e então observar o que acontece com as outras variáveis. Essa abordagem será
discutida mais adiante nesta seção.
Uma das regras de ouro do delineamento correlacional é que não se pode inferir causa-
lidade a partir de correlações. A indústria do tabaco já usou dessa fraqueza da correlação
para argumentar que não há evidências de que o fumo cause câncer. Estritamente falando,
eles podem estar certos, pois os estudos têm sido principalmente correlacionais. Mas con-
siderando a quantidade de pesquisas que têm sido feitas corroborando uma relação entre
o hábito de fumar e o câncer, ninguém seria tolo em ignorar as pesquisas e acreditar nas
pessoas que estão tendo lucro com a venda de tabaco.
Descobrir que ansiedade com a estatística e procrastinação estão relacionadas (ver Fig.
1.3), como Dunn (2014), não nos diz muito sobre a relação de causalidade entre essas duas
variáveis. Pode ser que o aumento na ansiedade com a estatística aumente a procrastinação
ou então que alterações na procrastinação causem alterações na ansiedade com a estatística.
De outra forma, podem haver outras variáveis, tais como uma neurose, que podem causar
mudanças tanto na ansiedade com a estatística quanto na procrastinação (ver Fig. 1.4). É
*N. de T.T. Isaac Newton (1642-1727), matemático, físico e astrônomo inglês.
Ah, não!
Vou ler isso amanhã.
Estatística com matemática
Figura 1.3 Relação entre
ansiedade com a estatísti-
ca e procrastinação.
Capítulo 1 • Variáveis e delineamento de pesquisa 13
possível ver, portanto, que a existência de uma relação entre duas variáveis não necessaria-
mente nos informa muita coisa sobre causa e efeito.
Outro exemplo dessa limitação de delineamentos correlacionais é a relação entre an-
siedade e depressão. Muitos estudos mostraram que ansiedade e depressão estão altamente
relacionadas (ver Clark e Watson, 1991). Pessoas que apresentam altos níveis de ansieda-
de também apresentam altos níveis de depressão. Poderíamos dizer, então, que depressão
causa ansiedade ou que ansiedade causa depressão? Não, nós não poderíamos. É bastante
provável que alguma variável interveniente conecte esses dois estados de humor. De fato, o
que se tem verificado é que a ansiedade e a depressão apresentam um elemento angustiante
em comum, e é ele que explica a forte relação entre as duas variáveis (ver Fig. 1.5)
É possível estabelecer relações de causalidade utilizando delineamentos correlacionais,
mas essas situações são bem mais complexas do que os delineamentos simples indicados
nesta seção e envolvem medir variáveis em vários pontos no tempo (p. ex., delineamento
cruzado defasado).
1.4.4 O delineamento experimental
Para estabelecermos relações de causalidade entre variáveis mais facilmente, precisamos
manipular uma das variáveis sistematicamente e ver qual o efeito obtido nas outras variá-
veis. Tal processo é, essencialmente, o realizado em delineamentos experimentais*.
Um dos delineamentos ou projetos mais utilizado na ciência é o delineamento experi-
mental, também denominado experimento verdadeiro. Se lembrarmos dos experimentos
*N. de T.T. Os termos em inglês são DOE (design of experiments) e experimental design (utilizado pelos autores). No
Brasil, também são utilizados os termos projeto experimental, desenhode experimentos ou ainda delineamento de
experimentos.
Figura 1.4 Possível rela-
ção de causalidade entre
neurose, ansiedade com
a estatística e procrasti-
nação.
Figura 1.5 Ilustração dos ele-
mentos comuns compartilhados
por ansiedade e depressão e a
ausência de uma conexão causal
entre eles.
Neurose
Ansiedade com a estatística Procrastinação
Angústia
Não há uma conexão
causal direta aqui
Ansiedade Depressão
14 Estatística sem matemática para psicologia
típicos que realizamos na escola, em química ou física, perceberemos que eles representam
o delineamento experimental. Por exemplo, se quisermos ver o que ocorre com o sódio
quando exposto ao ar e comparar isso à exposição à água, observaríamos uma reação lenta
na condição “ar” (a superfície brilhante do sódio torna-se opaca) e uma reação rápida na
condição “água” (o sódio torna-se efervescente e pode entrar em combustão). Em um ex-
perimento, temos uma variável que estamos mensurando (o estado do sódio, chamado de
variável dependente) e queremos descobrir como ela é afetada por outra variável, chamada
de variável independente (p. ex., ao que o sódio está exposto). A variável manipulada pelo
observador é denominada variável independente (VI), isto é, o seu valor não depende (é
independente) das outras variáveis investigadas. A outra variável do experimento é denomi-
nada variável dependente (VD). Ela é denominada assim porque se assume que ela depende
dos valores da VI. De fato, o propósito de um experimento é comprovar ou descartar tal
dependência.
Podemos conduzir tal pesquisa em psicologia, por exemplo, se quisermos verificar se
caminhar com um cão de fato influencia o número de encontros sociais. Para conduzirmos
tal estudo, poderíamos ter um grupo de pessoas e aleatoriamente sortearmos algumas para
caminhar com o cão enquanto as demais caminham sem o cão. Poderíamos prever que ca-
minhar com o cão acarretaria em mais encontros sociais do que caminhar sozinho. Dessa
forma, estabelecemos uma hipótese que será testada por meio de análise estatística.
Uma hipótese de pesquisa é nossa previsão de como variáveis específicas podem estar rela-
cionadas umas com as outras ou como grupos de participantes podem ser diferentes uns dos
outros.
Definição
Vamos assumir que o experimento foi realizado e verificou-se que os que caminharam
com o cão tiveram mais encontros sociais do que aqueles que caminharam sozinhos. Esse
resultado confirmaria a nossa previsão. Entretanto, há vários outros fatores que podem ter
levado a uma diferença de encontros sociais entre as duas condições (ver Fig. 1.2). Como
sabemos se a diferença observada foi causada pela manipulação da variável independente
em vez de uma das possíveis variáveis estranhas? A resposta é que nós não sabemos. O que
é possível fazer nesse caso é tentar limitar o impacto das variáveis estranhas sobre o estudo
pela alocação aleatória dos participantes às condições da VI. Por meio da alocação aleatória
dos participantes às condições, pode-se reduzir a probabilidade de que os dois grupos di-
firam em características como timidez, atratividade, sexo e, assim, eliminar esses fatores
como causas possíveis da diferença no número de encontros sociais entre os dois grupos. Se
a alocação dos participantes às condições for feita de forma aleatória, então poderemos ter
mais confiança na nossa habilidade para inferir uma relação de causalidade entre a VI e a
VD (caminhar com ou sem cão e número de encontros sociais). É a alocação aleatória que
torna os delineamentos experimentais tão úteis na determinação de relações de causalidade
entre variáveis.
Dessa forma, uma das principais características definidoras de um projeto experimen-
tal é a alocação aleatória dos participantes às condições. Para utilizar a alocação aleatória
no exemplo acima, atribui-se a cada participante um número ao acaso, gerado em um com-
putador. Pode-se, então, solicitar a todos aqueles cujo número seja inferior a um determina-
do valor que caminhem com o cão e aos demais que caminhem sozinhos. Assim, teremos
alocado aleatoriamente os participantes a cada uma das duas condições do estudo. Um
bom exemplo de um estudo que utilizou um delineamento experimental é o de Barner e
colaboradores (2016) que investigou os efeitos do uso da técnica do “ábaco mental” no
Capítulo 1 • Variáveis e delineamento de pesquisa 15
desempenho de uma tarefa de aritmética. Eles alocaram aleatoriamente crianças de 5 a 7
anos a uma de duas condições. Elas tinham 3 horas extras por semana de aulas de mate-
mática utilizando o ábaco mental ou 3 horas extras de aulas de matemática tradicionais.
Eles avaliaram o desempenho matemático ao longo de 3 anos e descobriram que aquelas
crianças que tiveram o treinamento com o ábaco mental tiveram um desempenho melhor
nas tarefas de aritmética do que aquelas que tiveram aulas extras tradicionais.
É claro que a alocação aleatória é mais útil para controlar fatores interpessoais, tais
como timidez. Há, entretanto, outros fatores relacionados ao delineamento experimental
que não podem ser controlados pela alocação aleatória dos participantes às condições. Ob-
serve novamente a Figura 1.2; variáveis estranhas como a hora do dia e o tipo de cão não
seriam controladas pela alocação aleatória dos participantes às condições da VI. Essas são
questões que deverão ser tratadas por outros aspectos do projeto, tais como assegurar que
variados tipos de cão sejam utilizados no estudo e que as duas condições sejam realizadas
na mesma hora do dia e no mesmo dia da semana.
Delineamentos experimentais são aqueles em que o pesquisador manipula uma variável cha-
mada de variável independente (VI) para ver que efeito ela tem sobre outra variável, chamada
de variável dependente (VD). Em projetos experimentais estamos, geralmente, procurando
por diferenças entre as condições da VI. Uma marca dos projetos experimentais é a alocação
aleatória dos participantes às condições da VI.
Definição
1.4.5 Delineamentos quase-experimentais
Muitas vezes na psicologia queremos trabalhar com variáveis que não podemos manipular
diretamente. Se quisermos comparar homens e mulheres de alguma forma, não podemos
manipular o grupo a qual cada participante pertence. Não é possível alocar aleatoriamente
participantes às condições masculino e feminino porque eles já são homens ou mulheres.
Assim, estritamente falando, não temos um delineamento experimental. Para ressaltar o
fato de que tais projetos não são estritamente experimentais, eles são denominados delinea-
mentos quase-experimentais.
Como exemplo, suponhamos que estamos conduzindo o estudo da caminhada com o
cão mencionado anteriormente e que queremos remover o sexo como variável estranha.
Podemos conduzir um estudo em que tentamos descobrir se as mulheres têm mais encon-
tros sociais quando caminham (sem cão) do que os homens. Pode-se ver que nesse estudo
os participantes não são alocados aleatoriamente às condições, pois eles já são homens ou
mulheres. Assim, temos um projeto quase-experimental. Se for verificado que as mulheres
têm mais encontros sociais do que os homens, então será possível argumentar que o fato de
ser mulher encoraje mais a interação social do que ser homem.
Um dos problemas com os projetos quase-experimentais é a alocação não aleatória das
várias condições que constituem a VI. Não podemos ter certeza de que a manipulação da VI
(ou, deveríamos dizer, pseudomanipulação) é a responsável pelas diferenças entre as várias
condições. Assim, é mais difícil inferir relações de causalidade de projetos quase-experi-
mentais do que de projetos experimentais. Assim, o exemplo anterior pode apresentar algum
fator, além do sexo, que distingua os dois grupos (p. ex., tamanho). Pode ser que as mulheres
sejam vistas como menos ameaçadoras em virtude de serem menores do que os homens.
Dessa forma, uma variável de confusão importante infiltrou-se em nosso estudo. Em virtude
do aumento do risco das variáveis estranhas ede confusão estarem associadas com estudos
quase-experimentais, os estudos experimentais devem ser preferidos sempre que possível.
16 Estatística sem matemática para psicologia
Caso esteja inseguro se está lidando com um projeto experimental ou quase-experi-
mental, procure por uma alocação aleatória dos participantes às condições. Se ela não for
uma característica do estudo, então é mais provável que você esteja lidando com um estudo
quase-experimental.
Se você está utilizando um estudo experimental ou quase-experimental, então algumas
das técnicas disponíveis são: o teste-t, o teste U de Mann-Whitney*, o teste de Wilcoxon**
e a análise de variância (ANOVA). Todos eles serão abordados posteriormente neste livro.
Delineamentos quase-experimentais envolvem verificar se existem diferenças na variável de-
pendente (VD) entre as condições da variável independente (VI). Diferentemente dos delinea-
mentos experimentais, não há alocação aleatória dos participantes às várias condições da VI.
Definição
1.4.6 Resumo dos delineamentos de pesquisa
Descrevemos três dos principais delineamentos de pesquisa e como eles influenciam os
diferentes tipos de análises estatísticas que podemos utilizar. A Tabela 1.2 fornece um breve
resumo das principais características desses delineamentos em conjunto com os tipos de
testes estatísticos que seriam apropriados a cada tipo.
O texto a seguir é um fragmento do resumo de um artigo de van Elk (2015):
Estudos anteriores mostram que crenças prévias têm um grande efeito na tomada de de-
cisão perceptiva e no processamento da atenção. Este estudo estende esses achados in-
vestigando como diferenças individuais em crenças paranormais e de conspiração estão
relacionadas a vieses perceptuais e de atenção. Foram conduzidos dois estudos de campo
nos quais visitantes de uma feira paranormal conduziram uma tarefa de tomada de decisão
perceptual (i.e., tarefa de caracterização face/casa; Experimento 1) ou uma tarefa de aten-
ção visual (i.e., tarefa de processamento global/local; Experimento 2). No primeiro experi-
mento, foi descoberto que os céticos, em comparação com os crentes, categorizaram mais
frequentemente de forma incorreta estímulos de face ambíguos como representando uma
casa, indicando que a descrença, ao contrário da crença, no paranormal, está conduzindo
o viés observado para a categorização de estímulos ambíguos. No segundo experimento,
foi descoberto que os céticos apresentaram um efeito de interferência clássica “global-
-para-local”, enquanto os crentes em teorias da conspiração foram caracterizados por um
efeito de interferência “local-para-global” mais forte. Esse estudo mostra que diferenças
individuais em crenças paranormais e de conspiração estão associadas a vieses de percep-
ção e de atenção, contribuindo, assim, para os trabalhos nesse campo, indicando efeitos de
aprendizado cultural nos processos básicos de percepção.
Qual o delineamento desse estudo?
Atividade 1.2
*N. de T.T. Henry Berthold Mann (1905-2000), matemático americano, e Donald Ransom Whitney (1915-2007), ma-
temático austríaco.
**N. de T.T. Frank Wilcoxon (1892-1965), químico e estatístico americano.
Capítulo 1 • Variáveis e delineamento de pesquisa 17
Tabela 1.2 Resumo das principais características dos vários delineamentos de pesquisa
Delineamento Características Teste estatístico
Experimental ●● Manipulação da VI
●● Alocação aleatória dos participantes aos grupos
●● Análise por comparação entre os grupos
●● Testes-t
●● ANOVA
●● Teste U de Mann-Whitney
Quase-experi-
mental
●● Pseudomanipulação da VI
●● Alocação não aleatória dos participantes
●● Análise por comparação entre os grupos
●● Testes-t
●● ANOVA
●● Teste U de Mann-Whitney
●● Wilcoxon
Correlacional ●● Investigação do grau em que as variáveis covariam
●● Não se pode inferir causalidade a partir de corre-
lação
●● Análises com testes de correlação
●● Regressão linear
●● Correlação produ-
to-momento de Pearson
●● ρ de Spearman
1.5 Delineamentos entre e intraparticipantes
Outra característica importante dos delineamentos de pesquisa é se os participantes fazem
parte de mais de uma condição. Vamos retornar ao exemplo da caminhada com o cão e
encontros sociais. Aqui temos um experimento em que a VI é se o participante está cami-
nhando com ou sem o cão e a VD é o número de encontros sociais.
Como podemos alocar os participantes às condições nesse experimento? Você deve
lembrar que foi sugerido que a melhor coisa a ser feita era alocar os participantes alea-
toriamente às condições de caminhar com o cão e sem o cão. Há, no entanto, a alternativa
de que cada participante tome parte nas duas condições.
O primeiro procedimento é denominado delineamento entre participantes (algumas
vezes também chamado de delineamento independente ou não relacionado); o segundo,
delineamento intraparticipantes (algumas vezes denominado medidas repetidas ou deli-
neamento relacionado). Para decidir qual desses dois procedimentos utilizar, é preciso le-
var em consideração as vantagens e desvantagens de cada um.
1.5.1 Delineamentos intraparticipantes
A principal vantagem do delineamento intraparticipantes é que podemos controlar mui-
tas das variáveis de confusão entre indivíduos. Quando utilizamos grupos diferentes de
pessoas em cada condição, corremos o risco de haver alguma variável além da VI que di-
ferencie os grupos. Se isso acontecesse, potencialmente haveria uma variável de confusão.
Quando usamos o delineamento intraparticipantes, temos um controle muito maior sobre
tais variáveis. Como temos as mesmas pessoas em todas as condições da VI, existirão mui-
to menos variações externas entre as condições. Em geral, a mesma pessoa trará os mesmos
problemas ou vantagens para todas as condições da VI.
Uma segunda vantagem da utilização desse tipo de delineamento é que será necessário
encontrar menos participantes para realizar o experimento. Por exemplo, se existirem duas
condições e necessitarmos de um mínimo de 12 participantes por condição, o total neces-
sário para completar o estudo é de 24 pessoas com o delineamento entre participantes, mas
apenas doze no delineamento intraparticipantes. Se estivermos realizando um estudo em
que os custos envolvidos sejam altos, então esse delineamento deverá ser levado em consi-
deração.
18 Estatística sem matemática para psicologia
Uma última vantagem do delineamento intraparticipantes está relacionada com o tó-
pico discutido em mais detalhes no Capítulo 8. Delineamentos intraparticipantes tendem a
ter mais poder estatístico do que delineamentos entre participantes, isto é, eles têm maior
probabilidade de detectar um efeito que procuramos na população.
Delineamentos intraparticipantes têm os mesmos participantes em cada condição da variável
independente (VI). Cada participante atua sob todas as condições no estudo.
Definição
Entretanto, nem tudo são vantagens no delineamento intraparticipantes. Se você pensar
um pouco sobre o estudo da caminhada com o cão, será capaz de identificar alguns possí-
veis problemas. Se usar a mesma pessoa em ambas as condições, outras pessoas caminhan-
do podem reconhecer os participantes do estudo e se sentirem mais propensos a abordá-los
e interagir com eles. Assim, na segunda condição, os participantes podem ter mais encon-
tros sociais mais em virtude dessa familiaridade do que pelo fato de terem o cachorro. Por
outro lado, eles podem ficar chateados ou cansados quando completarem a caminhada na
segunda condição e isso talvez afete o número de encontros sociais que eles teriam. Esses
fatores serão as variáveis de confusão e podem dificultar a interpretação dos dados. Qual-
quer diferença no número de encontros sociais detectada entre as duas condições poderá se
dever a esses fatores em vez da manipulação experimental da VI. Esses fatores são deno-
minados efeitos de ordem.
Efeitos de ordem são uma consequência dos delineamentos intraparticipantes em que com-
pletar as condições em uma ordem em particularleva a diferenças na variável dependente
que não são resultado da manipulação da variável independente (VI). As diferenças entre as
condições da VI podem se dever a prática, fadiga ou tédio em vez da manipulação da VI pelo
pesquisador.
Definição
Uma forma de eliminar os efeitos de ordem é introduzir um contrabalanceamento no
estudo. No contrabalanceamento, metade dos participantes completam a primeira condição
e, após, completam a segunda condição. Então, a outra metade dos participantes completa
as duas condições na ordem contrária, ou seja, a segunda condição seguida da primeira
condição. Para introduzir o contrabalanceamento no estudo de caminhar com o cão, pode-
mos ter metade dos participantes caminhando com o cão primeiro e, então, sem o cão. A
seguir, a outra metade dos participantes poderá caminhar primeiro sem o cão e, então, com
o cão. Qualquer efeito como fadiga ou tédio será, dessa maneira, distribuído entre as duas
condições da VI e não serão mais variáveis de confusão (ver Fig. 1.6). Você ainda terá cada
participante caminhando sob as duas condições, retendo, assim, as vantagens da utilização
do delineamento intraparticipantes.
Um bom exemplo de um estudo que utiliza contrabalanceamento foi relatado por
Chernyak e Sobel (2016). Nesse estudo, os autores queriam descobrir se as crianças aceita-
vam cegamente ou não as punições de adultos por comportamento indevido. Eles fizeram
com que as crianças construíssem torres com blocos juntamente com um fantoche. Tanto as
crianças quanto o fantoche deveriam receber adesivos como prêmio por construir as torres.
Capítulo 1 • Variáveis e delineamento de pesquisa 19
O fantoche, então, derruba a torre, por acidente ou de propósito. O experimentador adulto
está de costas para a criança e o fantoche quando as torres foram derrubadas e pune o fan-
toche dando todos os adesivos de prêmio para as crianças. O que eles descobriram foi que,
quando o fantoche derrubava as torres por acidente, as crianças estavam mais dispostas a
dividir seus adesivos com ele do que quando a torre era derrubada de propósito. Esse foi um
delineamento intraparticipantes, e os pesquisadores contrabalancearam a ordem na qual os
fantoches derrubaram as torres de forma que um grupo de crianças teve a torre derrubada
de propósito em primeiro lugar seguido por acidentalmente e o outro grupo teve a torre
derrubada por acidente primeiro seguido por propositadamente.
Metade
das crianças
Outra metade
das crianças
Torre derrubada
por acidente
Torre derrubada
de propósito
Torre derrubada
de propósito
Torre derrubada
por acidente
Outra limitação do delineamento intraparticipantes é que o fato de os participantes
terem tomado parte nas duas condições significa que eles têm uma maior probabilidade
de perceber o objetivo do experimento. Isso é um problema porque os participantes po-
dem querer fazer o que o experimentador deseja que eles façam e não o que normalmente
fariam. Isso é chamado efeitos de demanda. Isso é mais provável no delineamento intra-
participantes porque cada participante é exposto a mais condições experimentais do que
no delineamento entre participantes equivalente. Em certo sentido, o contrabalanceamento
pode reduzir os efeitos de demanda, mas não necessariamente eliminá-los.
Um problema adicional associado ao delineamento intraparticipantes é que não se pode
utilizá-lo em muitos projetos quase-experimentais. Por exemplo, se você quiser comparar
encontros sociais de homens e mulheres enquanto estão caminhando, não será possível a
utilização do delineamento intraparticipantes. Não se pode ter uma pessoa sendo homem e
mulher simultaneamente em duas ocasiões separadas e uma pessoa não pode tomar parte
nas duas condições (a menos, é claro, que elas façam uma mudança de sexo entre a partici-
pação nas duas condições).
Delineamento intraparticipantes sem contrabalanceamento
Delineamento intraparticipantes com contrabalanceamento
Todos os
participantes
Metade dos
participantes
Metade dos
participantes
Caminhando
com o cão
Caminhando
sem o cão
Todos os efeitos
de ordem
na condição
“sem o cão”
Caminhando
sem o cão
Caminhando
com o cão
Efeitos de
ordem afetando
igualmente as
duas condições
Caminhando
com o cão
Caminhando
sem o cão
Figura 1.6 Ilustração de como efeitos de ordem podem ser eliminados pela utilização de
contrabalanceamento.
20 Estatística sem matemática para psicologia
Como você introduziria o contrabalanceamento no seguinte estudo?
Um estudo é conduzido para testar os efeitos de instruções enfatizando a velocidade ou a
precisão do desempenho em uma tarefa de desenhar usando um espelho como referência.
Os participantes são solicitados a desenhar uma estrela utilizando o equipamento adequado
a essa tarefa. O tempo decorrido para desenhar a estrela e o número de erros são registra-
dos. Os participantes são solicitados a fazer a tarefa de desenho em ambos os conjuntos de
instruções.
Atividade 1.3
Contrabalanceamento é a variação sistemática em que os participantes fazem parte das várias
condições da variável independente (VI). O contrabalanceamento seria introduzido em um es-
tudo com delineamento intraparticipantes.
Definição
1.5.2 Delineamentos entre participantes
Uma das características mais importantes do delineamento entre participantes é que, em
virtude de se ter grupos diferentes em cada condição das VIs, cada participante estará me-
nos sujeito a ficar chateado, cansado ou frustrado com o experimento. Como consequência,
eles têm uma probabilidade maior de apresentar um desempenho ótimo. De modo seme-
lhante, o experimento será menos suscetível a efeitos práticos, e os participantes estarão
menos propensos a racionalizar sobre os objetivos do estudo. Esse tipo de delineamento,
portanto, reduz os efeitos de demanda e de ordem e pode-se, de modo geral, eliminar do
experimento esses fatores como variáveis estranhas.
O lado negativo é a necessidade de uma quantidade maior de participantes do que em
um experimento intraparticipantes. Ainda, em virtude de que cada uma das condições utili-
za diferentes participantes, certo grau de controle será perdido sobre as variáveis de confu-
são intraparticipantes. Por exemplo, suponhamos que estejamos conduzindo o estudo sobre
a caminhada com o cão descrito previamente como um delineamento entre participantes.
O que ocorreria se descobríssemos que caminhar com o cão leva a mais encontros sociais?
Antes de podermos aceitar isso como verdadeiro, precisamos nos assegurar de que não
existem variáveis de confusão. Uma variável confundidora importante talvez seja a timidez
dos que estão caminhando. Poderá acontecer, por acaso, que aqueles sem o cão sejam mais
tímidos e, dessa forma, o menor número de encontros poderia ser devido a essa variável. Se
tivéssemos feito esse experimento como um delineamento intraparticipantes, teríamos con-
dições de controlar essa variável de confusão, pois cada pessoa caminha tanto com quanto
sem o cão. Isso significa que o nível geral de timidez seria o mesmo sob as duas condições,
e essa variável de confusão não existiria.
Na discussão acima, você pode ver que um problema do delineamento entre participan-
tes é que pessoas diferentes trazem características diferentes às condições do experimento.
Quando estamos alocando aleatoriamente participantes às condições, podemos, por acaso,
alocar todos os participantes com uma determinada característica a um grupo, e isso talvez
confunda ou mascare os resultados. As técnicas estatísticas que descrevemos neste livro
nos permitem decidir se podemos ou não descartar esses confundidores como explicações
dos resultados do estudo.
Capítulo 1 • Variáveis e delineamento de pesquisa 21
Os delineamentos entre participantes têm grupos diferentes de participantes em cada condição
da variável independente (VI). Portanto, o grupo de participantes em uma condição da VI é dife-
rente dos participantes em outra condição da VI.
Definição
A Tabela 1.3 fornece um resumodas vantagens e desvantagens dos delineamentos entre
e intraparticipantes. Deve ficar claro que as vantagens do delineamento intraparticipantes
tendem a ser desvantagens no delineamento entre participantes e vice-versa. Ao escolher
um delineamento para sua pesquisa, é necessário considerar esses fatores.
Tabela 1.3 Resumo das vantagens e desvantagens dos delineamentos entre e intraparticipantes
Delineamento Vantagens Desvantagens
Entre partici-
pantes
●● Ausência relativa de efeitos práticos e
de fadiga
●● Participantes estão menos sujeitos a
descobrir os objetivos do estudo
●● É necessário um número maior de par-
ticipantes
●● Não há muito controle das variáveis de
confusão entre condições
Intrapartici-
pantes
●● Necessita de um número menor de
participantes
●● Maior controle das variáveis de confu-
são entre condições
●● Aumento da probabilidade de efeitos de
prática e de fadiga
●● Os participantes têm maior probabili-
dade de adivinhar os objetivos do estudo
Como você projetaria um estudo para investigar a possível relação entre cafeína e habilidade
matemática?
Atividade 1.4
Resumo
Neste primeiro capítulo, mostramos os concei-
tos básicos para um entendimento da pesquisa
e do projeto de pesquisa. Você aprendeu que:
●● Variáveis se diferenciam em termos de preci-
são. Isto é, elas podem ser:
– contínuas, quando assumem qualquer va-
lor em determinado intervalo (p. ex., 10 ou
10,2365).
– discretas, quando assumem apenas certos
valores especificados dentro de um deter-
minado intervalo (p. ex., 9 ou 10).
– categóricas, quando os valores assumidos
são categorias em vez de valores pura-
mente numéricos (p. ex., sexo: masculino
ou feminino).
●● Há três delineamentos de pesquisa princi-
pais:
– delineamentos correlacionais examinam
as relações entre variáveis e não apresen-
tam, estritamente falando, variáveis de-
pendentes ou independentes. Não se pode
inferir causalidade a partir de correlações.
– delineamentos experimentais envolvem
alocação aleatória de participantes às con-
dições da VI.
– delineamentos quase-experimentais en-
volvem investigar grupos fechados, tais
como homens e mulheres e, dessa forma,
não utilizam alocação aleatória de partici-
pantes às condições.
22 Estatística sem matemática para psicologia
●● Nos experimentos, a variável independente
(VI) é manipulada pelo pesquisador para ve-
rificar como ela afeta a variável dependente
(VD).
●● Os delineamentos entre participantes são
aqueles em que há participantes diferentes
para cada condição da VI.
●● Os delineamentos intraparticipantes são
aqueles em que cada participante é avaliado
sob todas as condições da VI.
Questões de múltipla escolha
1. Qual das seguintes constitui uma variável
contínua?
(a) Número de vezes que um escore de 180
é alcançado em um jogo de dardos
(b) Sexo
(c) Temperatura
(d) Todas as alternativas acima
2. Delineamentos experimentais são caracte-
rizados por:
(a) menos do que duas condições
(b) nenhum controle das condições
(c) alocação aleatória dos participantes às
condições
(d) Nenhuma das alternativas acima
3. Em um estudo em que o sexo é a variável a
ser manipulada, a VI é:
(a) intraparticipantes
(b) correlacional
(c) entre participantes
(d) Nenhuma das alternativas acima
4. Qual das seguintes afirmações é verdadei-
ra para o delineamento correlacional?
(a) Não apresenta VI nem VD
(b) Procura-se por relações entre variáveis
(c) Não se pode inferir causalidade a partir
de correlação
(d) Todas as alternativas acima
5. Qual das seguintes pode ser considerada
uma variável categórica?
(a) Sexo
(b) Marca de feijão
(c) Cor do cabelo
(d) Todas as alternativas acima
6. O delineamento intraparticipantes pode
ser:
(a) tanto quase-experimental quanto expe-
rimental
(b) somente experimental
(c) somente quase-experimental
(d) somente correlacional
7. Qual das seguintes afirmações é verdadei-
ra para experimentos?
(a) A VI é manipulada pelo pesquisador
(b) A VD é assumida como dependente da
VI
(c) Eles são difíceis de serem realizados
(d) Ambas as alternativas (a) e (b) acima
8. O projeto quase-experimental apresenta:
(a) uma VI e uma VD
(b) alocação não aleatória dos participan-
tes às condições
(c) nem VI e nem VD
(d) Ambas as alternativas (a) e (b) acima
9. Uma variável contínua pode ser descrita
como:
(a) que pode assumir certos valores dis-
cretos em uma faixa de valores
(b) que pode assumir qualquer valor den-
tro de uma faixa de escores
(c) que pode ser caracterizada por catego-
rias
(d) Nenhuma das alternativas acima
10. Quais dos seguintes são problemas asso-
ciados com o delineamento intrapartici-
pantes?
(a) Há uma maior probabilidade de efeitos
de prática e de fadiga
(b) Os participantes apresentam uma
maior probabilidade de adivinhar a na-
tureza do estudo
(c) Ele não pode ser utilizado com projetos
quase-experimentais
(d) Todas as alternativas acima
11. De acordo com Streiner (2002), qual a efi-
cácia de estudos que dicotomizam variáveis
quando comparados com estudos que não
o fazem?
(a) 100%
(b) 95%
(c) 67%
(d) 50%
Capítulo 1 • Variáveis e delineamento de pesquisa 23
12. Um pesquisador acabou de conduzir um
estudo correlacional investigando a rela-
ção entre quantidade de álcool ingerida
por fãs do time da casa antes de um jogo de
futebol e o número de gols marcados pelo
time. Descobriu-se que há uma relação en-
tre as duas variáveis. Qual das seguintes
afirmações é válida?
(a) A quantidade de álcool ingerida está re-
lacionada com a habilidade do time de
fazer gols, mas não se pode afirmar que
seja a causa dos gols marcados.
(b) A habilidade do time da casa de marcar
gols não está relacionada à quantidade
de álcool ingerida, mas à quantidade de
incentivo dada pelos fãs bebedores.
(c) Um aumento na quantidade ingerida de
álcool causará um aumento no número
de gols marcados.
(d) Todas as alternativas acima
13. Em um projeto intraparticipantes com duas
condições, se você não utilizar o contraba-
lanceamento das condições, então seu es-
tudo poderá sofrer de:
(a) efeitos de ordem
(b) efeitos da hora do dia
(c) falta de participantes
(d) Todas as alternativas acima
14. Você conduziu um estudo mostrando que
quanto mais cedo as pessoas levantam,
mais trabalho elas conseguem fazer. Qual
das seguintes conclusões é válida?
(a) Não há necessariamente uma relação
de causalidade entre levantar cedo e a
quantidade produzida de trabalho.
(b) Pessoas que levantam cedo precisam
trabalhar mais.
(c) Levantar cedo é a causa de mais traba-
lho ser produzido.
(d) Ambas as alternativas (b) e (c) acima
15. Com qual dos seguintes delineamentos é
menos provável que se possa estabelecer
relações de causalidade entre variáveis?
(a) Delineamento experimental
(b) Delineamento quase-experimental
(c) Delineamento correlacional
(d) Delineamento intraparticipantes
16. Efeitos de demanda são possíveis variáveis
de confusão em que:
(a) os participantes se comportam de acor-
do com o que o pesquisador quer
(b) os participantes apresentam baixo de-
sempenho, pois estão cansados ou cha-
teados
(c) os participantes apresentam bom de-
sempenho, pois praticaram as tarefas
do experimento
(d) Nenhuma das alternativas acima
17. Suponha que você queira conduzir um estu-
do para verificar se pessoas com depressão
roem mais as unhas do que pessoas não de-
pressivas. Qual das seguintes alternativas
será a melhor maneira de proceder?
(a) Medir a depressão dos participantes
com um questionário e então solicitar
que atribuam um escore sobre o quan-
to roem as unhas. Então, classificar
os participantes como “depressivos” e
“não depressivos” com base nos resul-
tados do questionário. Assim, podemos
verificar se existem ou não diferenças
no quanto eles roem as unhas.
(b) Como a situação (a) acima, mas sem
dividir os participantes em dois grupos.
Utilizar os escores de depressão obti-
dos e verificar se existe uma relação
entre roer as unhas e depressão.
(c) Esse tipo de estudo é impossível de ser
executadoe então não deve ser levado
adiante.
(d) Nenhuma das alternativas acima
18. Qual das seguintes seria uma VI apropriada
em um estudo quase-experimental?
(a) Sexo
(b) Se alguém apresenta transtorno de an-
siedade generalizada ou não
(c) Estudantes versus não estudantes
(d) Todas as alternativas acima
19. Em um delineamento intraparticipantes, os
efeitos de ordem ocorrem quando:
(a) os participantes ficam cansados nas úl-
timas condições
(b) os participantes desempenham igual-
mente em todas as condições
(c) os participantes têm problemas em
conseguir bebida no bar
(d) Nenhuma das alternativas acima
20. Qual dos seguintes problemas está asso-
ciado com a dicotomização de variáveis
contínuas?
(a) Perda de poder experimental
(b) Podem ocorrer efeitos espúrios
(c) Há uma séria perda de informação
(d) Todas as alternativas acima
24 Estatística sem matemática para psicologia
Referências
Altman, D. G. and Royston, P. (2007) ‘The cost of di-
chotomizing continuous variables’, British Medical
Journal, 332: 1080.
Antonacopoulos, N. M. D. and Pychyl, T. A. (2014) ‘An
examination of the possible benefits for well-being
arising from the social interactions that occur while
dog walking’, Society & Animals, 22(5): 459–80.
Barner, D., Alvarez, G., Sullivan, J., Brooks, N., Srini-
vasan, M., Frank, M. C. and Barner, D. (2016) ‘Lear-
ning mathematics in a visuospatial format: a rando-
mized, controlled trial of mental abacus instruction’,
Child Development, 87(4): 1146–58.
Chernyak, N. and Sobel, D. M. (2016) “‘But he didn’t
mean to do it”: preschoolers correct punishments im-
posed on accidental transgressors’, Cognitive Develop-
ment, 39: 13–20.
Clark, L. A. and Watson, D. (1991) ‘Tripartite model
of anxiety and depression: psychometric evidence
and taxonomic implications’, Journal of Abnormal
Psychology, 100: 316–36.
Dunn, K. (2014) ‘Why wait? The influence of academic
self-regulation, intrinsic motivation, and statistics
anxiety on procrastination in online statistics’, Inno-
vative Higher Education, 39(1): 33–44.
Gnambs, T. (2015) ‘What makes a computer wiz?
Linking personality traits and programming aptitu-
de’, Journal of Research in Personality, 58: 31–34.
Guéguen, N. and Ciccotti, S. (2008) ‘Domestic dogs
as facilitators in social interaction: an evaluation of
helping and courtship behaviors’, Anthrozoos: A Mul-
tidisciplinary Journal of the Interactions of People
and Animals, 21(4): 339–49.
Maxwell, S. E. and Delaney, H. D. (1993) ‘Bivariate
median splits and spurious statistical significance’,
Psychological Bulletin, 113: 181–90.
Spielberger, C. D., Gorsuch, R. L., Lushene, R., Vagg,
P. R. and Jacobs, G. A. (1983) Manual for the Sta-
te–Trait Anxiety Inventory (Form Y). Palo Alto, CA:
Consulting Psychologists Press.
Statistics Commission (2008). Report No. 38 Official
Statistics: Value and Trust.
Streiner, D. L. (2002) ‘Breaking up is hard to do: the
heartbreak of dichotomizing continuous data’, Cana-
dian Journal of Psychiatry, 47: 262–6.
Takács, Á., Kóbor, A., Janacsek, K., Honbolygó, F.,
Csépe, V. and Németh, D. (2015), ‘High trait anxiety
is associated with attenuated feedback-related negati-
vity in risky decision making’, Neuroscience Letters,
600: 188–92.
van Elk, M. (2015) ‘Perceptual biases in relation to pa-
ranormal and conspiracy beliefs’, PLoS one, 10(6):
e0130422.
Respostas das questões de múltipla escolha
1. c, 2. c, 3. c, 4. d, 5. d, 6. a, 7. d, 8. d, 9. b, 10. d, 11. c, 12. a, 13. a, 14. a, 15. c, 16. a, 17. b, 18. d,
19. a, 20. d
2
Introdução ao SPSS
V I S Ã O G E R A L D O C A P Í T U L O
Neste capítulo apresentaremos uma visão ampla dos principais recursos do SPSS. É im-
portante entender os pontos principais para que você seja capaz de seguir as instruções
que daremos posteriormente no livro. Assim, neste capítulo abordaremos o seguinte:
●● como iniciar o SPSS;
●● como utilizar o tutorial e as ferramentas de ajuda;
●● como estabelecer variáveis e alterar as suas características;
●● como salvar dados em arquivos.
2.1 Aspectos básicos
Uma das primeiras coisas que você precisa saber é que os comandos e procedimentos do
SPSS descritos nesta edição se referem à versão 23 do software. Entretanto, não é preciso
se preocupar se tiver uma versão anterior, como a 22, 21, 20 ou até mesmo a 16, porque não
há muitas diferenças entre as versões mais antigas e a mais recente em termos de análises.
Quando houver diferenças importantes em algum aspecto, alertaremos no texto. Falando
nisso, uma diferença na versão 18 é que ela na verdade se chama PASW Statistics 18 em vez
de SPSS versão 18.
2.2 Iniciando o SPSS
Ao iniciar o SPSS, será aberta uma caixa de diálogo com várias opções do que fazer com
o SPSS.
Barra e setas
de rolagem
Botões Minimizar/
Reduzir/
Ampliar
26 Estatística sem matemática para psicologia
Selecione um tutorial
para ser executado
A primeira coisa que você precisa decidir é se quer abrir um arquivo de dados já exis-
tente, inserir novos dados ou executar os tutoriais do SPSS. Se for novato com o SPSS,
recomendamos que execute o tutorial. Para isso, selecione um tutorial do painel no canto
inferior direito da caixa de diálogo aberta. Sugerimos executar o tutorial Introduction (in-
trodução); selecione-o e clique no botão OK. Isso abrirá as páginas de ajuda do SPSS no
navegador da internet:
Menu
de ajuda
Painel
de leitura
Capítulo 2 • Introdução ao SPSS 27
No painel à esquerda há uma lista de tópicos de ajuda. Os tutoriais estão listados ali. Ao
clicar na opção Tutorial, essa lista será expandida:
Tópicos
dos tutoriais
Quando vir este ícone: pode clicar no tópico para expandi-lo:
Expandindo
os tópicos
Assim, você consegue encontrar rapidamente o tópico ou tutorial que procura.
O painel à direita é o painel de leitura. Ali constarão as informações fornecidas sobre
cada tópico de ajuda. Você verá que o tutorial de introdução já abriu automaticamente.
28 Estatística sem matemática para psicologia
Depois de ler as informações no painel de leitura, você pode clicar no link Next (próximo)
ou em um tópico específico listado abaixo para seguir com o tutorial:
Clique no link
Next ou em
um tópico para
continuar com
o tutorial
O sistema de tutorial tem vários tópicos para você executar. Eles são todos muito úteis,
e valerá a pena passar por eles à medida que você for se familiarizando com o SPSS. Por
ora, recomendamos que você execute o tutorial Introduction antes de continuar.
Leia o texto na primeira página e então clique no link Next para passar para a próxima.
Será apresentada uma página como esta:
Ela explica sobre os modelos de arquivos de dados que você pode usar para praticar o
uso do SPSS. Observe esses tópicos iniciais dos tutoriais e alguns outros listados no painel
à esquerda.
Lembre-se que você também pode acessar o tutorial a qualquer momento durante uma
sessão do SPSS clicando no menu Help (ajuda) e selecionando Tutorial.
Capítulo 2 • Introdução ao SPSS 29
Quando você clicar no menu Help, perceberá que pode escolher várias outras opções:
por exemplo, Statistics Coach (conselheiro estatístico) e Case Studies (estudos de caso).
Essas são ferramentas muito úteis, e trataremos delas mais adiante quando for mais apro-
priado introduzi-las.
2.3 Trabalhando com dados
Para abrir um arquivo já existente, selecione o arquivo ou clique no item Open another file
(abrir outro arquivo) na seção Recent files (arquivos recentes) na caixa de diálogo inicial
do SPSS. Selecione, então, o arquivo desejado e clique em OK para continuar. Se você já
estiver no SPSS e quiser abrir um arquivo de dados, clique no menu File (arquivo) e sele-
cione Open (abrir) e depois Data (dados) (ver abaixo). Selecione, então, o arquivo desejado
e clique em OK para continuar.
Crie um novo
arquivo de dados
clicando aqui
Abra um arquivo
já existente
clicando aqui
30 Estatística sem matemática para psicologia
Se quiser inserir novos dados e tiver a caixa de diálogo inicial doSPSS aberta, sele-
cione a opção New Dataset (novo conjunto de dados) na caixa New Files (novos arquivos) e
clique em OK. Uma vez que você clicou OK, será apresentada a seguinte tela:
Colunas =
variáveis
Linhas =
participantes
Abas Data View
(visualização de
dados) e Variable
View (visualização
de variáveis)
É possível que a janela ativa seja muito pequena para mostrar toda a informação dis-
ponível. Você pode aumentar o tamanho da janela clicando nos botões Minimizar/Reduzir/
Ampliar ( / / ) no canto superior direito da janela ativa. Aqui, o botão minimizará a
janela ativa, reduzirá uma janela ampliada e ampliará uma janela reduzida. Minimi-
zar a janela ativa consiste em reduzi-la a um ícone que aparecerá na parte inferior da tela.
Se uma janela estiver minimizada, você poderá visualizar mais informações se clicar no
Capítulo 2 • Introdução ao SPSS 31
botão . Para poder ver mais informações com a janela já em seu tamanho máximo, role a
visualização da janela clicando nas setas de rolagem para cima e para baixo.
2.4 Inserção de dados
Para poder executar uma análise, é preciso antes inserir os dados. Você perceberá que exis-
tem células dispostas em linhas e colunas. Cada linha de dados inserida representará os da-
dos de um participante e cada coluna representará os dados de uma variável. Por exemplo,
suponha que você deseja rodar um estudo que esteja procurando relações entre a ansiedade
com a estatística e a procrastinação. Vamos assumir que nós temos os seguintes dados de
entrada:
Participantes: P1 P2 P3 P4 P5 P6
Ansiedade com a estatística: 55 59 48 60 62 50
Procrastinação: 125 132 94 110 140 96
A primeira coisa a se fazer é definir as variáveis no SPSS. Para determinar o nome
e demais características das variáveis, é preciso selecionar a aba Variable View no final
esquerdo da tela. A tela mudará para uma na qual você poderá caracterizar as variáveis do
seu arquivo de dados.
Cada linha
representa
uma variável
Colunas representam
características
das variáveis
Na tela Variable View, as linhas representam variáveis, e as colunas, características
de formatação da variável. Você precisa inserir o nome de cada variável na primeira co-
luna, denominada Name (nome). Clique na primeira linha dessa coluna e digite o nome
da variável. Temos duas variáveis para serem definidas: a ansiedade com a estatística e a
procrastinação. Digite no nome da primeira variável: StatisticsAnxiety. Você precisa levar
em conta as seguintes regras quando quiser nomear variáveis:
●● O nome não deve ter mais do que 32 caracteres (p. ex., StatisticsAnxiety).
Uma vez que tenha digitado o nome na primeira célula, clique na próxima célula abaixo
e digite o nome da segunda variável.
32 Estatística sem matemática para psicologia
Nomes das
variáveis
Há várias outras características das variáveis que podem ser ajustadas, e veremos isso
à medida que avançarmos no livro. Nas versões mais antigas do SPSS, nas quais havia uma
grande restrição ao número de caracteres no nome da variável, era importante usar a carac-
terística Label (rótulo) na visualização da variável. Nessa coluna, forneça uma descrição
mais detalhada da variável, e esses rótulos serão impressos em qualquer saída estatística.
Essa característica é muito útil porque torna a saída mais fácil de ser lida. Isso é menos
importante nas versões mais recentes do SPSS (17 e 18), porque o tamanho do nome da
variável permite criar nomes significativos. Entretanto, recomendamos que usar a opção
Label porque você pode incluir espaços e outros sinais de pontuações para tornar os nomes
ainda mais claros. Para isso, simplesmente clique na célula em questão e digite o rótulo que
quiser. Assim, por exemplo, para a variável StatisticsAnxiety você poderia digitar “Statis-
tics Anxiety Score” (escore de ansiedade com a estatística):
Capítulo 2 • Introdução ao SPSS 33
As variáveis foram definidas, então você pode inserir os dados. Para fazer isso, selecio-
ne a aba Data View, obtendo a seguinte tela:
Se mover o
cursor sobre o
nome da coluna,
o rótulo da
variável será
revelado
Note que as duas primeiras colunas estão nomeadas como StatisticsAnxiety e Procras-
tination. Na verdade, se os nomes das variáveis forem longos, eles poderão ocupar duas
linhas. Ao mover o cursor sobre os cabeçalhos das colunas, os rótulos digitados por você
na coluna Label em Variable View serão revelados. Se quiser que os nomes completos das
variáveis sejam exibidos, terá de tornar a coluna mais larga. Para fazer isso, mova o cursor
sobre o canto direito da caixa de nomes da coluna e, então, arraste o canto da coluna para
que ela fique mais larga e exiba o nome completo da variável.
Lembre-se de que na tela Data View as colunas são as variáveis e as linhas são os par-
ticipantes. Dessa forma, todos os dados da ansiedade com a estatística (StatisticsAnxiety)
deverão ser digitados na primeira coluna e os da variável procrastinação (Procrastination)
na segunda. Vá adiante e insira os dados apresentados anteriormente. Uma vez feito isso, a
tela deverá parecer com a seguinte:
Menu File
Você pode ver aqui que os dados foram inseridos.
34 Estatística sem matemática para psicologia
2.5 Salvando os dados
Após ter digitado os dados, é uma boa ideia salvá-los. Isso evitará que você tenha de digitá-
-los novamente caso queira realizar outras análises no futuro. Para salvar os dados, mova o
ponteiro do mouse sobre o menu File (arquivo) e clique com o botão esquerdo. O seguinte
menu será apresentado:
Selecione
a opção
Save As...
(salvar como)
Mova o ponteiro do mouse e clique na opção Save As..., e a seguinte caixa de diálogo
aparecerá. Ela é chamada de “caixa de diálogo” porque é onde você diz ao SPSS o que ele
deve fazer. Simplesmente digite o nome do arquivo na caixa adequada e clique no botão
Save As.... Seu arquivo será salvo.
Convém lembrar que seus arquivos de dados devem ser nomeados da seguinte forma:
*N. de T.T. Não utilize pontos (exceto o que separa as duas partes), vírgulas ou outros sinais, tais como barra ou barra
invertida em nomes de arquivos, pois isso pode confundir o sistema operacional. Datas também devem ser evitadas.
●● A primeira parte é um nome que faça sentido para você (p. ex., Stats Anxiety &
Procrastination).
●● A segunda parte deve ser sempre .sav em um arquivo de dados (essa parte é chamada
de extensão do arquivo).
●● A primeira e a segunda parte serão sempre separadas por um ponto.*
Assim, nomeamos nosso arquivo como Stats Anxiety & Procrastination.sav. Na verda-
de, você nem precisa digitar a parte .sav do nome, pois o SPSS faz isso automaticamente.
Sempre que enxergar nomes de arquivos terminados em .sav, pode estar razoavelmente
confiante de que são arquivos de dados do SPSS. Se esquecer o nome do seu arquivo, pro-
cure entre os que apresentam a extensão .sav.
Capítulo 2 • Introdução ao SPSS 35
Digite o
nome do
arquivo aqui
2.6 Inserindo dados para delineamentos
entre e intraparticipantes
Acabamos de descrever como inserir e salvar dados no SPSS. Você deve lembrar que no
Capítulo 1 introduzimos diferentes tipos de delineamentos de pesquisa. Dados de diferen-
tes delineamentos de pesquisa devem ser introduzidos no SPSS de diferentes formas. Na
seção anterior, descrevemos a forma apropriada de determinar variáveis e inserir dados
para delineamentos correlacionais. Se quiser inserir dados para um delineamento entre par-
ticipantes, o procedimento é o seguinte. Vamos assumir que você conduziu recentemente
o estudo da caminhada com o cão como um delineamento entre participantes, no qual um
grupo de participantes caminha no parque com um cão e o outro grupo caminha sem um
cão. Suponha que registramos os seguintes números de encontros sociais em cada condição:
Caminhando com o cão: 9 7 10 12 6 8
Caminhando sem o cão: 4 5 3 6 5 1
Nesse delineamento, caminhar com e sem o cão é a VI, e o número de encontros sociais
é a VD. Quando inserirmos os dados no SPSS, precisamos determinaruma variável para
a VI e uma variável para a VD. A primeira coisa a ser feita é nomear as variáveis na tela
Variable View. Quando determinamos variáveis, a VI é a variável em que você necessita
prestar mais atenção, pois é com ela que a maioria dos alunos tem maior dificuldade de
lidar. Quando temos grupos diferentes de pessoas em cada condição da VI, precisamos
definir uma variável de agrupamento (grouping variable) no SPSS. Isso informa o SPSS
36 Estatística sem matemática para psicologia
em qual dos dois grupos cada participante estava. Defina as variáveis conforme a seguinte
ilustração:
Clique na célula
Value para
de�nir a
variável de
agrupamento
Se deixar as variáveis como definidas pelo software, poderá ter dificuldades em inter-
pretá-las, uma vez que não terão rótulos para identificá-las de acordo com as diferentes con-
dições da VI. Assim, é uma boa ideia detalhar os nomes das condições da VI. Para fornecer
essas informações para o SPSS, basta clicar na célula da linha DogwalkingGroup na coluna
Values (valores). Será apresentada a você a seguinte caixa de diálogo. (Nas versões ante-
riores, quando você clica na célula da coluna nomeada Values, uma elipse [uma caixa cinza
com três pontos] aparece. Isso indica que você pode entrar com informações adicionais para
essa coluna. Clique na elipse e obterá a caixa de diálogo relevante.)
Digite o
número do
grupo aqui,
p. ex., “1”.
Digite o nome
do grupo aqui.
Clique em Add
(adicionar) para
con�rmar os
detalhes.
Temos duas condições para a VI para as quais precisamos atribuir números aos grupos.
Rotularemos o grupo “caminhando com o cão” de grupo 1 e o grupo “caminhando sem o
cão” de grupo 2 (essa é uma decisão arbitrária). Digite 1 na caixa Value e Walking with a
dog na caixa Value Label (rótulo do valor). Uma vez feito isso, clique em Add e você verá
que os detalhes aparecem na última caixa. Agora, digite 2 na linha Value e Walking without
a dog na caixa Value Label e clique em Add. A caixa de diálogo deverá ser parecida com:
Capítulo 2 • Introdução ao SPSS 37
Clique em OK e você retornará à tela Data View. Sempre que quiser que o SPSS
saiba os nomes dos grupos, você pode fazer isso adicionando informações na coluna
Values.
Agora, vamos definir as variáveis. Para inserir os dados, clique na aba Data View.
Na hora de inserir nossos dados na coluna DogwalkingGroup (grupo que caminha com o
cão), se a pessoa estava no grupo com o cão, então, colocamos um 1 na coluna e se a pessoa
estava no grupo sem o cão colocamos um 2 na coluna. Portanto, você pode ver que nossa
primeira coluna de dados conterá apenas os valores 1 e 2.
Na segunda coluna inserimos o número de encontros sociais de cada pessoa, pois essa é
a nossa VD. Você saberá, ao observar a tela de entrada, que o participante número 4 estava
no grupo com o cão (1) e teve 12 encontros sociais. O participante número 12 estava no gru-
po sem o cão (2) e teve uma caminhada solitária com apenas um encontro social.
Variável de
agrupamento (VI)
Variável
dependente
38 Estatística sem matemática para psicologia
Se desejar, pode mudar a forma como o SPSS exibe a informação na coluna da variável
de agrupamento. Uma vez que tenha usado a característica Values para indicar o grupo,
você pode conseguir que o SPSS exiba os rótulos que você atribuiu para cada grupo na
janela Data Entry (inserção de dados). Para fazer isso, clique no ícone que se parece com
uma placa de sinalização ( ) com “1” e “A” nele e que fica em direção ao canto direito da
barra de ferramentas:
Clique neste
ícone para
exibir os valores
dos rótulos.
Quando fizer isso, verá que a tela dos dados muda para exibir os rótulos do valor na pri-
meira coluna em vez dos números que você digitou. Você pode mudar a exibição novamente
para números, se desejar, clicando novamente no ícone Value Label.
Capítulo 2 • Introdução ao SPSS 39
Se desejar adicionar novos dados a esse arquivo, você deve ainda digitar os números na
primeira coluna. O SPSS irá, automaticamente, mudá-los para o rótulo relevante.
2.7 Delineamentos intraparticipantes
Quando temos delineamentos intraparticipantes, precisamos inserir os dados de uma ma-
neira diferente. Se permanecermos com o exemplo da caminhada com o cão mas pensar-
mos nele como um delineamento intraparticipantes, cada pessoa deve completar a cami-
nhada tanto na condição com o cão quanto sem o cão. Os dados para esse estudo terão a
aparência mostrada na tela abaixo:
Cada pessoa
tem um escore
nas duas
condições.
Você pode estar se perguntando por que temos de inserir os dados de formas diferentes
para delineamentos diferentes. O motivo é que cada linha na tela da entrada de dados re-
presenta as informações de um participante. Se tiver um delineamento entre participantes,
precisa informar ao SPSS qual foi o escore de cada participante e a qual grupo ele pertencia.
Quando você tem um delineamento intraparticipantes, cada participante atua sob duas con-
dições e, dessa forma, tem dois escores. Você precisa dizer ao SPSS o que ambos escores
significam. Pelo fato de que cada participante atua nos dois grupos, não será necessário
informar ao SPSS o grupo por meio de uma variável de agrupamento. Você pode perceber,
assim, a diferença nos delineamentos intra e entre participantes procurando uma variável de
agrupamento. Se ela existir, então se trata do delineamento entre participantes.
Você deve notar, a partir do detalhe da tela, que definimos duas variáveis, uma para a
condição com o cão e outra para a condição sem o cão. Além disso, como não há variável
de agrupamento, não temos que atribuir rótulos de grupos para nenhuma variável na tela
Variable View. Definir as variáveis para esse tipo de delineamento é, dessa forma, mais
simples do que para o delineamento entre participantes.
40 Estatística sem matemática para psicologia
Resumo
Neste capítulo, introduzimos o pacote estatísti-
co do SPSS. Você aprendeu:
●● como usar os tutoriais;
●● como determinar variáveis na parte Variable
View da interface;
●● como usar Labels e Value Labels para tornar a
saída mais clara;
●● como inserir dados para delineamentos cor-
relacionais, entre e intraparticipantes;
●● que o uso de uma variável de agrupamento é
importante para delineamentos entre parti-
cipantes.
Exercícios no SPPS
As respostas de todos os exercícios do livro podem ser encontradas na seção de respostas no final
do livro.
Exercício 1
A Dra. Gênio realizou um estudo comparando
a memorização de adjetivos com a de subs-
tantivos. Ela alocou aleatoriamente 20 parti-
cipantes a duas condições. Depois, apresentou
a um dos grupos de 10 participantes uma lista
de 20 adjetivos e a outro grupo (também com
10 participantes) uma lista de 20 substantivos.
Em seguida, solicitou a cada grupo que tentas-
se lembrar o número máximo possível de pa-
lavras apresentadas. Ela obteve os seguintes
resultados:
Adjetivos: 10, 6, 7, 9, 11 ,9 ,8 ,6 ,9, 8
Substantivos: 12, 13, 16, 15, 9 ,7 ,14 ,12 ,11, 13
1. Qual é a VI neste estudo?
2. Qual é a VD?
3. Esse é um delineamento entre ou intrapar-
ticipantes?
4. É um delineamento experimental, quase-
-experimental ou correlacional?
5. Insira os dados no SPSS de forma apropria-
da para o delineamento do experimento e
salve os dados em um arquivo.
Exercício 2
Utilizando os dados do Exercício 1:
●● Se você inseriu os dados como um delinea-
mento intraparticipantes, insira-os agora
como um delineamento entre participantes.
●● Se você inseriu os dados com um delinea-
mento entre participantes, insira-os agora
como um delineamento intraparticipantes.
Salve os dados em um arquivo utilizando um
nome diferente do anterior.
3
Estatística descritiva
V I S Ã O G E R A L D O C A P Í T U L O
No Capítulo 1, destacamos alguns fatores importantes de um projeto de pesquisa. Neste
capítulo explicaremos as principais maneiras de se tratar e analisar dados coletados
por meio da pesquisa quantitativa. Estas compõem a estatística descritiva.Tivemos dificuldade para recomendar a esses es-
tudantes alguns dos livros didáticos de estatística tradicionais. Esses textos estavam cheios
de fórmulas matemáticas e eram percebidos por eles como monótonos ou chatos ou então
forneciam meras receitas, isto é, mostravam apenas como fazer os cálculos sem propiciar
um entendimento conceitual da estatística. Assim, decidimos escrever este livro, que pro-
cura possibilitar aos estudantes esse entendimento, evitando a desorientação dos cálculos
e fórmulas.
Outro problema que tivemos ao recomendar livros-texto de estatística foi a grande de-
pendência de valores probabilísticos para a interpretação dos resultados. É difícil conven-
cer os estudantes a considerar o tamanho do efeito e os intervalos de confiança quando os
textos disponíveis não fazem considerações sobre testes de hipóteses, mas simplesmente
recomendam que p 0,05 não é! Esperamos que, com a leitura
deste livro, os leitores fiquem mais atentos a essas questões.
Queremos ainda mostrar a eles como incorporar os resultados de suas análises aos re-
latórios laboratoriais e como interpretar a seção de resultados de artigos de periódicos. Até
recentemente, os livros de estatística ignoravam esse aspecto da análise de dados. É claro,
sabemos que a forma como escrevemos nossos exemplos é diferente da forma como outros
psicólogos o fariam. Os estudantes podem utilizar essa seção a fim de ganhar confiança
para escrever seus próprios resultados, e esperamos que eles o façam com o desenvolvi-
mento dos seus cursos.
Tentamos simplificar conceitos complexos (algumas vezes bastante complexos). Entre-
tanto, ao simplificar, existe uma perda de acurácia. Estamos cientes disso, assim tentamos
ser o mais acurados possível e, ao mesmo tempo, dar a explicação mais simples. Além
disso, sabemos que alguns estudantes não utilizam o SPSS (uma empresa da IBM*) em
suas análises de dados. O IBM® SPSS®, no entanto, é o pacote estatístico mais usado nas
ciências sociais e é por isso que o livro está tão ligado a esse programa – de qualquer modo,
mesmo quem não o utiliza achará o livro útil. Esta edição foi atualizada para ser usada com
o SPSS versão 23 e com as anteriores.
viii Prefácio
Desde a 6ª edição, temos incluído informações sobre os autores dos artigos que citamos
no texto, bem como suas fotos quando possível, estritamente com as suas autorizações.
Também perguntamos a eles o motivo de terem escolhido aquele tópico de pesquisa em
particular e se encontraram quaisquer problemas ao realizar o experimento/estudo. Acredi-
tamos que isso enriquece o texto. Embora tenhamos atualizado muitos exemplos da litera-
tura, mantivemos alguns estudos anteriores porque eles ilustram com exatidão os conteúdos
apresentados. Alguns revisores entenderam que deveria haver mais atividades ou ques-
tões de múltipla escolha desafiadoras. Assim, adicionamos atividades que tomam por base
exemplos da literatura e exigem que os estudantes interpretem o conteúdo à sua maneira.
Eles podem, então, comparar suas interpretações com a dos autores.
Esperamos que aqueles que lerem este livro não apenas aprendam com ele, mas que
também apreciem as explicações e os exemplos. Esperamos, ainda, que, como resultado
da leitura, sintam-se confiantes nas suas habilidades de executar suas próprias análises
estatísticas.
Como usar este livro
Para ajudá-lo a obter o máximo de retorno deste livro, apresentaremos um breve panorama
da estrutura dos capítulos. A melhor forma de utilizar o livro se você for novato em estatís-
tica aplicada à psicologia, ou se você esteve afastado da estatística por um longo período,
é começar pelo primeiro capítulo. Os capítulos mais importantes que devem ser lidos para
assegurar que você tenha uma boa compreensão são os cinco primeiros, pois fornecem
os principais conceitos para o entendimento das técnicas estatísticas que serão apresenta-
das mais adiante no livro. Se dedicar tempo e esforço a esses capítulos iniciais, você será
recompensado com uma melhor compreensão do que os testes estatísticos podem nos in-
formar sobre os nossos dados. Nunca é demais reforçar a importância de tal entendimento
para o uso adequado das técnicas estatísticas e para a habilidade de compreender e criticar
outros usos dessas técnicas.
Os capítulos posteriores explicam os conceitos por trás de tipos específicos de testes
e mostram como manejar e interpretar seus resultados. Começamos com os testes mais
básicos e que envolvem o menor número possível de variáveis (as variáveis são explicadas
no Cap. 1) e então passamos para os mais complexos na sequência do livro. Algumas vezes,
pode ser melhor ler primeiro sobre os testes simples, como as correlações (ver Cap. 6), e
então seguir para suas versões mais complexas, como a regressão simples e múltipla (ver
Cap. 12). Ou, por exemplo, pode-se iniciar com o teste simples da diferença entre dois gru-
pos (no Cap. 7) e então seguir para o teste de diferenças entre mais de dois grupos (Caps.
10 e 11). Entretanto, às vezes os módulos estatísticos não seguem esse tipo de padrão, mas
cobrem todos os testes básicos inicialmente e só então passam para os complexos. Nesse
tipo de aprendizagem, há o perigo de que algumas das conexões entre os testes simples e os
complexos sejam perdidas.
Com certa decepção, temos lido algumas resenhas sobre este livro que focam inteira-
mente no passo a passo que apresentamos para realizar as análises estatísticas com o SPSS
para Windows (agora denominado SPSS Statistics). Gostaríamos de salientar que este livro
não é simplesmente um manual de receitas sobre como realizar testes estatísticos: se ele for
utilizado de forma adequada, o leitor obterá um bom entendimento dos conceitos estatís-
ticos apresentados, bem como irá adquirir habilidades para realizar as análises usando o
SPSS Statistics. Se você já tem um entendimento conceitual das técnicas estatísticas abor-
dadas neste livro, então pode simplesmente seguir passo a passo para realizar as análises,
mas se você tem pouca experiência com estatística, é aconselhável que leia os capítulos para
assegurar que compreende o que as análises estatísticas estão lhe informando.
Há vários recursos neste livro para ajudá-lo a entender os conceitos apresentados (em
termos técnicos, eles são “recursos didáticos”), os quais serão apresentados depois de um
panorama do que o espera nos capítulos.
Em cada capítulo, destacamos os conteúdos e explicamos os conceitos estatísticos do
tópico específico que será abordado. A seguir, apresentamos passo a passo como realizar a
análise com o SPSS Statistics, e, por fim, incluímos meios de testar a sua compreensão do
conteúdo, bem como algumas indicações de leituras adicionais. Agora, descreveremos em
mais detalhes alguns dos recursos encontrados nos capítulos.
Primeiro, você encontrará a Visão geral do capítulo. Essa seção traz informações
sobre o conteúdo e o que você deve aprender à medida que estudá-lo. Algumas vezes, des-
tacamos o que você deve saber de antemão para tirar maior proveito do capítulo. Você deve
assegurar-se de ler essa parte (é muito fácil se habituar a não fazê-lo), pois ela estabelecerá
x Como usar este livro
os fundamentos e preparará a sua mente para os próximos conceitos que serão apresentados
no livro.
Ao final de cada capítulo existem Resumos, que destacam os principais conceitos que
foram abordados. Isso é importante para consolidar o que você aprendeu e ajuda a relacio-
nar os novos conceitos aprendidos aos conhecimentos anteriores. Você encontrará, tam-
bém, Exercícios no SPSS, Atividades e Questões de múltipla escolha. Nunca é demais
salientar a importância de realizar esses exercícios e atividades ao terminar cada capítulo.
Eles foram projetados para testar o seu conhecimento e auxiliá-lo a trabalhar ativamente
com o que foi aprendido – a melhor maneira de aprender algo é fazendo! As respostas das
questões de múltipla escolha são fornecidas no final de cadaUm passo
importante para qualquer um que queira entender a análise estatística é ter uma boa
ideia dos conceitos básicos. Portanto, explicaremos alguns dos conceitos estatísticos
fundamentais que servirão de apoio para o entendimento de análises complexas apre-
sentadas posteriormente no livro. Ao final deste capítulo, você deverá compreender
bem os seguintes tópicos:
●● amostras e populações;
●● medidas de tendência central (p. ex., média);
●● técnicas gráficas para descrever os dados (p. ex., histograma);
●● a distribuição normal;
●● medidas de variabilidade (p. ex., desvio-padrão).
Esses são conceitos fundamentais que aparecerão sob várias formas ao longo do
texto e, por isso, é importante tentar entendê-los. Considere-os como o alicerce para o
entendimento conceitual da estatística.
3.1 Amostras e populações
Já explicamos que estatísticas são, essencialmente, maneiras de descrever, comparar e re-
lacionar variáveis (ver Cap. 1). Quando essas estatísticas são produzidas, devemos levar
em conta uma diferença importante entre amostras e populações. Quando psicólogos fa-
lam sobre populações, eles não estão necessariamente se referindo à população de um país
ou de uma cidade. Eles estão, geralmente, se referindo a grupos distintos de pessoas, por
exemplo, todos aqueles indivíduos com autismo ou todos os homens canhotos. Em termos
estatísticos, uma população pode até mesmo ser composta por objetos inanimados, como a
população dos carros Ford.
Uma população consiste em todas as pessoas ou itens possíveis que têm uma característica
em particular.
Uma amostra se refere a uma seleção de pessoas ou itens de uma população.
Definições
A amostra é simplesmente uma seleção de indivíduos de uma população (ver Fig. 3.1).
Os pesquisadores utilizam amostras por várias razões, principalmente porque são mais bara-
tas, mais rápidas de se obter e mais convenientes para examinar do que toda uma população.
42 Estatística sem matemática para psicologia
Imagine que queremos verificar se a ansiedade com a estatística está relacionada com pro-
crastinação, como em Dunn (2014). Poderíamos simplesmente medir os níveis de ansiedade
com a estatística e de procrastinação de todo mundo e observar o quanto eles estão rela-
cionados. Isso seria, no entanto, bastante caro. Uma forma mais conveniente é selecionar
um determinado número de pessoas da população ao acaso e determinar os seus níveis de
ansiedade com a estatística e procrastinação. Podemos, então, generalizar o resultado dessa
amostra para a população. Utilizamos estatística – mais especificamente, a estatística infe-
rencial – para generalizar os resultados obtidos de amostras para toda a população.
Quando realizamos uma pesquisa, devemos estar seguros de que sabemos qual é a popu-
lação sendo estudada e escolher a amostra dessa população. É inútil realizar um estudo com
uma amostra de apenas homens se a população inclui os dois sexos. Não faz sentido conduzir
um estudo com uma amostra de tarântulas se a população-alvo é composta por zebras.
A capacidade de generalizar resultados de uma amostra para a população é de impor-
tância vital na pesquisa. Quando conduzem estudos, os pesquisadores geralmente estão
mais interessados na população do que na amostra dos participantes do seu estudo em par-
ticular. Normalmente, eles estão apenas interessados no que sua amostra pode relatar sobre
as populações. Portanto, Dunn (2014) não estava especialmente interessado nas 101 pessoas
que tomaram parte no estudo, mas no que esses participantes poderiam relatar sobre a an-
siedade com a estatística na população. Assim, é importante estar seguro de que quaisquer
amostras utilizadas na nossa pesquisa são verdadeiramente representativas da população-
-alvo. Um exemplo simples ilustrará alguns dos problemas. Imagine que pesquisadores que-
rem realizar um estudo para saber se caminhar com um cão leva a mais encontros sociais
do que caminhar sem um cão. Eles decidem se dirigir ao parque mais próximo e seguir um
determinado número de proprietários de cães e não proprietários de cães para contar as in-
terações sociais que eles tiveram. Eles descobrem que os que não possuem cão tiveram mais
encontros dos que os que possuem e concluem, então, que possuir um cão não é bom para a
vida social. Essa conclusão está correta? De fato, não sabemos a resposta dessa pergunta a
partir da pesquisa que foi feita. Ela pode estar certa, mas eles não utilizaram uma amostra
correta na qual pudessem basear suas conclusões, isto é, eles podem ter um problema de
amostragem. O problema aqui é que os proprietários de cães que eles seguiram podem ser
Uma amostra possível
de 5 sorrisos
População
de sorrisos
Outra amostra possível
de 5 sorrisos
Outra amostra possível
de 5 sorrisos
Figura 3.1 Ilustração de várias amostras de cinco sorrisos retiradas de uma população
de sorrisos.
Capítulo 3 • Estatística descritiva 43
todos, por exemplo, muito tímidos, e é isso e não o fato de possuir o cão que explica a di-
ferença no número de encontros sociais. Os pesquisadores podem não conseguir amostras
representativas por diversos motivos. É possível que exista o viés do pesquisador, quando
ele subconscientemente escolhe pessoas que o ajudam a confirmar a sua hipótese. Pode
haver questões relacionadas à hora do dia em que as pessoas caminham com seus cães: por
exemplo, pessoas caminhando bem cedo pela manhã talvez estejam com pressa para ir para
o trabalho e se tornem menos propensas a encontros sociais. Certos tipos de cães podem
levar a menos interações sociais (p. ex., caminhar com um pit bull).
Como pesquisadores, devemos estar cientes dessas possibilidades quando delineamos
nossa pesquisa de forma a assegurarmos de que elas não ocorram. Queremos ser capazes
de generalizar nossos resultados amostrais para toda a população e evitar problemas com
o projeto que possam reduzir nossa capacidade de fazer isso. Muitos dos detalhes de um
projeto de pesquisa são tentativas de assegurar que possamos generalizar os resultados.
Os pesquisadores do exemplo acima poderiam, é claro, ter ido a muitos parques diferentes
e seguido muitas pessoas em várias ocasiões diferentes. Dessa forma, eles estariam mais
seguros de que suas amostras sejam representativas da população.
O exemplo anterior ilustra um ponto importante: que a capacidade de generalizar resul-
tados de amostras para populações depende de amostras que verdadeiramente representem
a população-alvo.
Agora, já introduzimos a diferença entre amostras e populações. Você perceberá ao
ler livros-texto de estatística que os estatísticos possuem maneiras diferentes de descrever
amostras e populações. Estritamente falando, estatísticas descrevem amostras. Dessa for-
ma, se calcular a média de uma amostra obterá uma estatística. Se, no entanto, calcular a
média de uma população, deverá chamá-la de parâmetro. Enquanto estatísticas descrevem
amostras, parâmetros descrevem populações. Assim, a média de uma população é um pa-
râmetro, e a média de uma amostra é uma estatística. Essa é uma distinção técnica que não
deve preocupá-lo desde que você tenha em mente as diferenças entre técnicas estatísticas
que descrevem amostras e aquelas que descrevem populações. Geralmente, utilizamos es-
tatísticas amostrais para estimar parâmetros populacionais. Mais especificamente, contudo,
usamos a estatística descritiva para descrever nossas amostras e a estatística inferencial
para generalizar esses resultados para a população.
Parâmetros são descrições de populações, enquanto estatísticas são descrições de amostras.
Geralmente, usamos estatísticas amostrais como estimativas dos parâmetros de uma popula-
ção. Por exemplo, geralmente tentamos estimar a média da população (um parâmetro) a partir
de uma média amostral (uma estatística).
Definição
Se você quisesse descobrir qual grupo, os fãs de futebol ou os de rúgbi, é menos inteligente,
qual das seguintes amostras seria mais apropriada?
●● Um grupo de pessoas que são fãstanto de futebol quanto de rúgbi
●● Uma amostra aleatória de pessoas da população geral
●● Um grupo de fãs de futebol e outro de fãs de rúgbi
●● Um grupo de homens e outro de mulheres
●● Um grupo de estudantes de psicologia
●● Um grupo de chimpanzés
Atividade 3.1
44 Estatística sem matemática para psicologia
3.2 Medidas de tendência central
A primeira forma, e talvez a mais comum, de estatística descritiva que você vai encontrar
são as medidas de tendência central. Uma medida de tendência central de um conjunto de
dados fornece uma indicação do escore típico desse conjunto. Há três diferentes medidas de
tendência central normalmente utilizadas para descrever nossos dados. Iniciaremos com a
mais popular delas, a média, que também é conhecida como média aritmética.
Medidas de tendência central nos dão uma indicação do escore típico na nossa amostra. Elas
são efetivamente uma estimativa de um representante da nossa distribuição de escores.
Definição
3.2.1 Média
A média é facilmente calculada somando-se todos os valores da amostra e, depois, dividin-
do-os pelo número total de escores da amostra. A média dos escores da amostra (5, 6, 9, 2)
será:
Como outro exemplo, se tivéssemos o seguinte conjunto de dados: 2, 20, 20, 12, 12, 19,
19, 25, 20, poderíamos calcular a média como segue:
●● Somaríamos todos os valores para obter 149.
●● Dividiríamos, então, a soma por 9 (que é o total de escores na amostra) para obter uma
média de 16,56.
Isso nos dá uma indicação do escore típico da nossa amostra. É bastante difícil simples-
mente utilizar a média de uma amostra como uma estimativa da média de uma população.
A razão disso é que nós nunca estamos certos de quão próximos da média da população está
a média da nossa amostra, embora existam técnicas que podemos usar como auxílio, como
intervalos de confiança (ver seção 4.5).
A média é a soma de todos os escores de uma amostra dividida pelo número de escores da-
quela amostra.
Definição
3.2.2 Mediana
Uma segunda medida de tendência central é a mediana, oficialmente definida como o valor
que está no meio da amostra, isto é, que apresenta o mesmo número de valores acima e
abaixo dela. A mediana é calculada ordenando todos os valores e encontrando o valor que
Capítulo 3 • Estatística descritiva 45
está no meio. Utilizando os escores 2, 20, 20, 12, 12, 19, 19, 25, 20 (valores anteriores) para
ilustrar o cálculo da mediana, primeiro ordenamos os dados em ordem crescente e atribuí-
mos uma posição a cada um. Assim:
Valores:
Posições:
2
1
12
2
12
3
19
4
19
5
20
6
20
7
20
8
25
9
A posição mediana
O escore mediano
Você pode ver que os valores foram ordenados em ordem crescente (linha de cima) e a
cada um foi atribuído uma posição (rank) (linha de baixo). Dessa forma, o valor mais baixo
tem posição 1, o próximo, posição 2, e assim por diante.
O ordenamento (ranking) ocorre quando organizamos um conjunto de escores em ordem cres-
cente e então definimos uma posição (rank) a cada escore.
Definição
Estritamente falando, no entanto, quando tivermos dois ou mais valores iguais (como
no exemplo acima), as posições atribuídas a valores iguais devem ser iguais. Dessa maneira,
as posições apresentadas acima, na verdade, devem ser como segue:
Valores:
Posições:
Posições no ordenamento:
2
1
1
12
2,5
2
12
2,5
3
19
4,5
4
19
4,5
5
20
7
6
20
7
7
20
7
8
25
9
9
A média destes dois indica
uma posição de 2,5
A média destes três
indica uma posição de 7
Você pode verificar que todos os valores iguais possuem a mesma posição. Nesses
casos, atribuímos as posições calculando a média das posições do ordenamento que eles
ocupam, como ilustrado acima.
Para encontrar a mediana, precisamos localizar o escore que está no meio da lista do
ordenamento. Temos nove escores, assim o escore do meio é o quinto (ou seja, há quatro
escores acima dele e quatro abaixo). Então, a mediana é 19, que é o quinto escore da lista.
No exemplo acima foi fácil determinar a mediana, pois tínhamos um número ímpar
de valores. Quando se tem um número ímpar de valores, sempre vai existir um que estará
no meio. Esse não será o caso, entretanto, quando existir um número par de valores. Se
acrescentarmos o escore 26 no conjunto de dados anterior, teremos um número par de es-
cores (10).
46 Estatística sem matemática para psicologia
Valores:
Posições:
Posições no ordenamento:
12
2,5
2
2
1
1
12
2,5
3
19
4,5
4
4,5
5
20
7
6
20
7
7
20
7
8
25
9
9
26
10
10
19
O ponto médio está entre
estes dois pontos
Nesse caso, é preciso
calcular a média dos
dois valores do meio
Assim, a mediana será a média entre os dois escores centrais, isto é, a média entre os
valores que estão nas posições 5 e 6. Nossa mediana é, nesse caso, a média dos dois escores
na quinta e sexta posições: (19 + 20) ÷ 2 = 19,5.
A mediana é o escore do meio de um conjunto de escores ordenado de forma crescente.
Definição
3.2.3 Moda
Uma terceira medida de tendência central é a moda, que é simplesmente o escore que ocorre
mais frequentemente. No conjunto de escores apresentado anteriormente para ilustrar a
média e a mediana, a moda seria 20, que é o valor que mais se repete.
2 12 12 19 19 20 20 20 2625
O escore do conjunto que mais se repete é a moda
A moda é o escore que mais se repete em uma amostra.
Definição
Para praticar, determine a média, a mediana e a moda dos seguintes conjuntos de escores:
(a) 12, 23, 9, 6, 14, 14, 12, 25, 9, 12
(b) 1, 4, 5, 6, 19, 1, 5, 3, 16, 12, 5, 4
(c) 32, 56, 91, 16, 32, 5, 14, 62, 19, 12
Atividade 3.2
Capítulo 3 • Estatística descritiva 47
3.2.4 Qual medida de tendência central você deve usar?
Descrevemos três diferentes medidas de tendência central, isto é, três medidas de um es-
core típico de uma amostra. Contudo, ainda permanece uma dúvida: qual dessas medidas
você deve utilizar para descrever os seus dados? A resposta é que depende do conjunto de
dados que você tem.
O ponto importante a ser levado em conta quando for escolher uma medida de tendên-
cia central é que ela deve fornecer uma boa indicação do valor típico da amostra. Se tiver
razões para suspeitar que a medida de tendência central que usou não fornece uma boa
indicação do valor típico do conjunto, então provavelmente escolheu a medida errada. Após
calcular sua medida de tendência central, compare-a aos escores da sua amostra e verifique
se ela parece representar os escores como um todo.
A média é a medida mais frequentemente utilizada e é ela que deverá ser utilizada uma
vez que você esteja convencido de que ela fornece uma boa ideia do valor típico do conjun-
to. Isso porque ela é calculada a partir dos escores reais e não a partir das posições, como é
o caso da mediana, ou da frequência de ocorrência, como é o caso da moda.
Mas há um problema com a média. Como ela utiliza os escores reais da amostra, ela é
sensível a valores extremos. Observe o seguinte conjunto de escores:
1 2 3 4 5 6 7 8 9 10
A média deste conjunto de dados é 5,5 (assim como a mediana). Se alterarmos um dos
valores aumentando-o razoavelmente, obteremos o seguinte conjunto:
1 2 3 4 5 6 7 8 9 20
A média deste conjunto é 6,5, enquanto a mediana permanece 5,5. Se fizermos o último
valor ainda maior, obteremos:
1 2 3 4 5 6 7 8 9 100
Temos, agora, uma média de 14,5, que não é, obviamente, uma boa indicação do valor
típico desse conjunto de dados (a maioria dos escores é consideravelmente menor que 14,5).
Como existe o mesmo número de valores em cada um destes conjuntos e alteramos somente
o maior valor de cada um, a mediana permanece 5,5. A mediana é assim uma medida de
tendência central melhor para os dois últimos conjuntos. Esse exemplo ilustra a necessida-
de de checar os dados para verificar se existem valores extremos (iremos introduzir uma
maneira de fazer isto mais adiante neste capítulo) antes de decidir que medida de tendência
central utilizar. Na maioria dos casos, você provavelmente verificará que é aceitávelo uso
da média como medida de tendência central.
Se encontrar escores extremos e não puder usar a média, o melhor é utilizar a mediana.
A mediana não é sensível a valores extremos, como o exemplo acima mostrou, porque ela
é o valor do meio dos escores ordenados de maneira crescente. O procedimento para loca-
lizar o valor mediano não depende dos valores em si mas do ordenamento crescente deles.
Assim, o maior valor no nosso exemplo poderia ser 10, 20, 100 ou 100 milhões e a mediana
ainda não se alteraria. É essa insensibilidade a valores extremos que faz a mediana útil
quando não podemos utilizar a média.
Como a moda é simplesmente o valor que ocorre com maior frequência, ela não envol-
ve qualquer cálculo ou ordenamento dos dados. Então, ela pode ser utilizada com qualquer
tipo de dados. Um dos problemas da média e da mediana é que existem certos tipos de
dados em que elas não podem ser usadas. Quando nós temos categorias como uma variável,
tal como ocupação, não faz sentido tentar ordenar essas categorias. Assim, não podemos
usar a média ou a mediana para descobrir a ocupação típica da nossa amostra. Se você tem
esse tipo de dados, não tem outra escolha a não ser a moda. Entretanto, quando utilizamos
48 Estatística sem matemática para psicologia
a moda, precisamos ter certeza de que ela está realmente fornecendo uma boa indicação do
escore típico. Dê uma olhada nos seguintes conjuntos de dados:
1 2 2 2 2 2 2 2 3 4 5 6 7 8
1 2 2 3 4 5 6 7 8 9 10 11 12
A moda em ambos os casos seria “2”. Você deve ter notado que no primeiro conjunto
de dados o valor 2 se repete bem mais do que qualquer outro. A moda, nesse caso, será uma
medida de tendência central apropriada, já que ela é uma indicação razoável do valor típi-
co. No segundo conjunto, o valor 2 será novamente a moda, pois é o valor que ocorre com
maior frequência. No entanto, aqui, ela não será um bom indicador, pois sua frequência de
ocorrência é apenas levemente superior ao de qualquer outro. Então, nesse caso, a moda não
deveria ser escolhida como medida de tendência central. Algumas vezes, não haverá uma
medida de tendência central apropriada. Nessas situações você deve aceitar o fato de que a
amostra não apresenta um escore típico.
Qual medida de tendência central é mais apropriada para os seguintes conjuntos de dados?
(a) 1 23 25 26 27 23 29 30
(b) 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 3 3 4 50
(c) 1 1 2 3 4 1 2 6 5 8 3 4 5 6 7
(d) 1 101 104 106 111 108 109 200
Atividade 3.3
3.2.5 A média da população
As medidas de tendência central que descrevemos são úteis para dar uma indicação do valor
típico de uma amostra. Suponha que queremos uma indicação do valor típico em uma po-
pulação. Podemos, teoricamente, calcular a média da população (um parâmetro) de maneira
semelhante ao cálculo da média da amostra: obter os valores de todos na população, somar
e dividir a soma pelo tamanho da população. Mas na prática isso normalmente não é possí-
vel. Você consegue imaginar como seria tentar medir o nível de ansiedade com a estatística
e procrastinação de todas as pessoas no mundo? Por isso, devemos estimar os parâmetros
populacionais a partir das estatísticas amostrais.
Uma forma de estimar a média da população é calcular as médias de várias amostras
e, então, calcular a média dessas médias amostrais. Os estatísticos verificaram que isso
fornece uma boa aproximação da média populacional.
Por que a média de várias médias amostrais se aproxima da média populacional? Ima-
gine que uma amostra de pessoas é selecionada ao acaso e seus QIs são medidos. Em mui-
tos testes de QI, descobriu-se que o QI médio da população é 100. Poderia acontecer, por
acaso, que a amostra selecionada contivesse apenas gênios e o QI médio encontrado fosse
de 150, claramente superior ao valor da média da população de 100. Em uma outra amostra
selecionada, o QI médio encontrado poderia ser de 75, novamente distante da média popu-
lacional. É evidente, a partir desses exemplos, que a média da amostra não necessariamente
se aproxima do valor da média populacional. Entretanto, se calcularmos a média desses dois
resultados, obteremos uma aproximação bem melhor da média populacional:
Capítulo 3 • Estatística descritiva 49
A média das médias amostrais (112,5) é uma aproximação melhor da média da popu-
lação (100) do que seriam as médias das amostras individuais (75 e 150). Quando toma-
mos várias amostras do mesmo tamanho de uma população, algumas terão médias acima
daquela da população, enquanto outras terão valores abaixo. Se calcularmos a média de
todas essas médias, teremos um resultado bem próximo do valor 100, que é a média da
população. Essa tendência da média das médias amostrais de se igualar ao valor da média
da população é extremamente importante para a compreensão das técnicas estatísticas que
veremos mais tarde neste livro, portanto assegure-se de que entendeu muito bem neste es-
tágio. (Você também deve lembrar disso quando discutirmos o Teorema Central do Limite
no Cap. 4.) Saber que a média das médias amostrais fornece uma boa aproximação da mé-
dia da população é importante para nos auxiliar a generalizar da amostra para a população.
3.3 Erro amostral
Antes de ler esta seção, complete a Atividade 3.4.
100
94
106
89
88
129
77
73
75 100
107
100
114
86
96
87
102
99
88
112
91
121
79
103
121
118
75
100
126
94
84
109
93
117
100
96
117
102
95
101
137
81
127
102
78
100
99
116
89
107
O diagrama acima contém várias figuras de pandas gigantes. Cada panda gigante tem um
número que indica seu QI. Para ilustrar os problemas associados com o erro amostral, com-
plete os seguintes passos e então continue a ler esta seção. Considere que esta figura repre-
senta uma população de pandas gigantes. O QI médio dessa população é 100. Aleatoriamente,
Atividade 3.4
50 Estatística sem matemática para psicologia
Um dos problemas da amostragem é que erros sistemáticos podem afetar nossa pes-
quisa e, como consequência, torná-la difícil de interpretar. Por esse motivo, o erro devido
ao processo de amostragem é talvez o maior problema que enfrentamos quando estimamos
parâmetros populacionais a partir de estatísticas amostrais. Sempre que selecionarmos uma
amostra de alguma população, haverá algum grau de incerteza sobre quão representativa
a amostra realmente é. Assim, se calcularmos uma estatística amostral, nunca estaremos
seguros sobre o quanto ela poderá diferir do parâmetro populacional. O grau com que a
estatística amostral irá diferir do parâmetro populacional equivalente é denominado erro
amostral. Por que existe tal erro e como podemos minimizá-lo?
O erro amostral ocorre simplesmente porque não estamos utilizando todos os membros
da população-alvo. Uma vez que começa a usar amostras, sempre obterá algum grau de erro
amostral. Por exemplo, suponha que desejamos medir o QI dos pandas gigantes. Se fôsse-
mos a campo e testássemos todos os pandas existentes no mundo, calcularíamos o QI médio
populacional diretamente. Teríamos testado toda a população e, dessa forma, calculado a
média populacional.
Agora, suponha que testamos somente 90% da população. Nós efetivamente selecio-
namos uma amostra. A média que calculamos dessa amostra será uma boa estimativa da
média populacional, mas ela não será necessariamente a mesma. Como não testamos todos
os pandas, provavelmente iremos subestimar ou superestimar a média populacional.
O fato de termos selecionado tantos pandas significa que, ao acaso, temos uma boa
probabilidade de selecionarmos elementos dos dois extremos da distribuição. Ou seja, é
provável que teremos tanto pandas inteligentes quanto não tão inteligentes na nossa amos-
tra. Você deve ter visto ao completar a Atividade 3.4 que, quando selecionou amostras
contendo dez pandas, em todas elas haviam pandas cujos QI estavam abaixo e acima da mé-
dia. Assim, com tamanhos amostrais relativamente grandes (em comparação à população),
nossas amostras terão alta probabilidadede conter pandas inteligentes e pandas não tão
inteligentes. A média amostral será provavelmente uma estimativa bastante boa da média
populacional. Consequentemente, se selecionarmos muitas dessas amostras, o grau de erro
amostral para cada uma será provavelmente bastante baixo.
Vamos presumir, agora, que temos pesquisadores com uma verba bem reduzida e,
como consequência, eles podem utilizar somente amostras contendo dois pandas. Que efei-
to terá essa redução do tamanho da amostra no erro amostral? Voltando novamente à Ati-
vidade 3.4, você provavelmente notou que em algumas das amostras que selecionou ambos
os pandas tinham QI maior do que a média populacional. Isso fará sua média amostral ser
uma superestimativa da média populacional. Em outras amostras, por outro lado, ambos
os pandas tinham QI menor do que a média populacional. Sua média amostral, nesse caso,
selecione 10 amostras dessa população, cada uma contendo somente dois pandas. Para fazer
isso, sugerimos que balance um lápis sobre a figura com os olhos fechados. Com a mão livre,
mova o livro para os lados. Então, deixe a ponta do lápis atingir a página do livro. Veja qual o
panda selecionado (se atingir um espaço em branco entre os pandas, selecione o panda que
estiver mais próximo do ponto onde o lápis atingiu). Tome nota do QI do panda selecionado e
faça isso duas vezes para cada amostra. Você deve repetir esse processo 10 vezes, de modo a
obter 10 amostras retiradas da população de pandas. Entendemos que isso não fornece uma
seleção aleatória da população, mas basta, por ora, para ilustrar o que queremos mostrar.
Agora, repita todo o processo, mas dessa vez selecione 10 pandas em cada amostra. Uma
vez sorteadas as amostras, calcule a média de cada amostra (todas as de 2 pandas e todas as
de 10 pandas).
Você pode agora continuar a ler a seção sobre o erro amostral.
Capítulo 3 • Estatística descritiva 51
iria subestimar a média populacional. Assim, com amostras pequenas, é mais provável que
a totalidade dos pandas sejam ou mais inteligentes ou menos inteligentes do que a média
populacional. Em tais casos, a média amostral não será uma boa estimativa da média popu-
lacional, e teremos um erro amostral bem maior com as pequenas amostras.
À medida que você aumenta o tamanho amostral, aumenta a probabilidade de escolha
de pandas que terão QI tanto acima quanto abaixo da média populacional na mesma amos-
tra. Você também diminui a probabilidade de que todos os pandas selecionados estejam em
um dos extremos da distribuição. Dessa forma, diminuirá o erro amostral. Na Atividade
3.4, as médias calculadas a partir de amostras de dois pandas variam bastante, com algu-
mas sendo bem diferentes da média populacional, enquanto nas de dez pandas as médias
amostrais eram, provavelmente, boas estimativas da média populacional. Assim, em geral,
quanto maior for o tamanho da amostra, mais próxima estará a sua média da média popu-
lacional.
Quando selecionamos uma amostra de uma população e tentamos estimar o parâmetro da po-
pulação a partir da amostra, não seremos totalmente precisos. A diferença entre o parâmetro
populacional e a estatística amostral é o erro amostral.
Definição
Um exemplo a mais pode tornar esse ponto mais claro. Suponha que todos em uma
população fossem classificados como altos, de altura média ou baixos. Suponha que você
selecionou aleatoriamente duas pessoas da população. Como pode notar, há várias combi-
nações possíveis para a altura das pessoas selecionadas e elas são:
Combinação: 1 2 3 4 5 6 7 8 9
Pessoa 1: Baixa Baixa Baixa Média Média Média Alta Alta Alta
Pessoa 2: Baixa Média Alta Baixa Média Alta Baixa Média Alta
Veja que a probabilidade de selecionar aleatoriamente duas pessoas baixas da popu-
lação é de 1 em 9 e a probabilidade de selecionar duas pessoas com a mesma altura é de 1
em 3. Assim, é bem provável que em uma amostra de dois indivíduos ambos sejam classi-
ficados com a mesma altura. Agora, vamos selecionar aleatoriamente uma amostra de três
pessoas da população. Aqui estão as combinações possíveis:
Pessoa 1 Pessoa 2 Pessoa 3 Pessoa 1 Pessoa 2 Pessoa 3 Pessoa 1 Pessoa 2 Pessoa 3
Baixa Baixa Baixa Média Baixa Baixa Alta Baixa Baixa
Baixa Baixa Média Média Baixa Média Alta Baixa Média
Baixa Baixa Alta Média Baixa Alta Alta Baixa Alta
Baixa Média Baixa Média Média Baixa Alta Média Baixa
Baixa Média Média Média Média Média Alta Média Média
Baixa Média Alta Média Média Alta Alta Média Alta
Baixa Alta Baixa Média Alta Baixa Alta Alta Baixa
Baixa Alta Média Média Alta Média Alta Alta Média
Baixa Alta Alta Média Alta Alta Alta Alta Alta
Agora você pode ver que há 27 combinações de alturas diferentes possíveis para uma
amostra de três pessoas. Em somente 1 de 27 combinações todos os participantes são baixos
52 Estatística sem matemática para psicologia
Para obter medidas de tendência central a partir do SPSS, insira os dados conforme descrito
no Capítulo 2 (ver seção 2.7) e, então, clique no menu Analyze (analisar).
Quando o menu Analyze aparecer, clique na opção Descriptive Statistics (estatística des-
critiva) e então selecione a opção Explore... (explorar). Você obterá a seguinte caixa de diálogo:
Selecione a variável
de interesse e
clique na seta
Há outras opções para determinar estatísticas descritivas, mas a opção Explore é a mais
flexível. Ela permite que você acesse um grande leque de técnicas estatísticas descritivas e
SPSS: obtendo medidas de tendência central
e em somente 3 de 27 (1 em 9) todos os participantes são do mesmo tamanho. Portanto, ao
aumentar o tamanho da amostra, a probabilidade de todos os participantes estarem acima
da média ou de todos estarem abaixo da média é reduzida e, como resultado, também é
reduzido o erro amostral.
Capítulo 3 • Estatística descritiva 53
é, assim, uma opção útil para se utilizar. Você notará que existem várias opções nessa caixa
de diálogo, incluindo:
●● lista de variáveis;
●● caixa com variáveis dependentes (Dependent List);
●● caixa com variáveis de agrupamento (Factor List);
●● opções de apresentação (Display – embaixo à esquerda);
●● vários botões de opções (Statistics, Plots – diagramas, Options – opções).
Para obter medidas de tendência central, mova as duas variáveis para a Dependent List
selecionando-as na caixa com a lista de variáveis e clique na seta preta apontando para a
direita na caixa de Dependent List. Você verá as variáveis se moverem para essa caixa. Veja
abaixo:
Selecione a
opção Statistics
Para obter as estatísticas descritivas relevantes, selecione a opção Statistics (o botão do
meio das opções de Display) e clique no botão OK para obter as medidas de tendência central.
Feito isso você obterá a seguinte saída do SPSS:
Explore
54 Estatística sem matemática para psicologia
.88192
.845
1.741
.73030
.845
1.741
Mean
95% Confidence Interval
for Mean
5% Trimmed Mean
Median
Variance
Std. Deviation
Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtosis
Mean
95% Confidence Interval
for Mean
5% Trimmed Mean
Median
Variance
Std. Deviation
Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtosis
WalkingWithDog
Descriptives
Lower Bound
Upper Bound
Lower Bound
Upper Bound
Std. Error
8.6667
6.3996
10.9337
8.6296
8.5000
4.667
2.16025
6.00
12.00
6.00
3.75
.463
–.300
4.0000
2.1227
5.8773
4.0556
4.5000
3.200
1.78885
1.00
6.00
5.00
2.75
–.943
.586
Statistic
WalkingWithoutDog
A partir da saída do SPSS, você notará que existem muitas informações sendo apresen-
tadas. Não se preocupe se não entender muitas delas nesse estágio; elas serão explicadas
mais tarde no livro. Por enquanto, você deve perceber que, para as duas variáveis, pode-se
ver a média e a mediana. Se desejar a moda, tente utilizar a opção Frequencies... (frequências)
do menu Analyze... e submenu Descriptive Statistics em vez da opção Explore... . Ao abrir a caixa
de diálogo Frequencies, selecione as duas variáveis e clique na seta para movê-las para a
caixa Variable(s):
Capítulo3 • Estatística descritiva 55
3.4 Descrição gráfica dos dados
Após terminar parte de uma pesquisa, é importante que seus dados sejam analisados. Uma
das melhores formas de fazer isso é por meio de análise exploratória de dados (AED). A
AED consiste basicamente em explorar os dados por meio de técnicas gráficas. Isso é usado
para se obter um entendimento maior de como os participantes do estudo se comportaram.
A importância dessas técnicas gráficas foi destacada por Tukey* em 1977, no texto clássico
denominado “Análise Exploratória de Dados” (exploratory data analysis). Tukey considera-
va a exploração de dados tão importante que escreveu 688 páginas sobre o assunto! Assim,
ilustrar seus dados graficamente deve ser uma das primeiras coisas a ser feita após a coleta.
Nesta seção, mostraremos as principais técnicas para explorar dados, começando com o
histograma de frequências. Após, explicaremos os diagramas de caule e folhas (stem and
leaf ) e o de caixa e bigodes (box plots).
A análise exploratória de dados é um meio de explorar os dados que coletamos para descrevê-
-los em mais detalhes. Essas técnicas simplesmente descrevem nossos dados e não tentam
tirar conclusões sobre quaisquer populações subjacentes.
Definição
3.4.1 Histograma de frequências
O histograma de frequências é uma forma útil de ilustrar graficamente os seus dados.
Muitas vezes os pesquisadores estão interessados na frequência de ocorrência de valores
nos dados da amostra. Por exemplo, se você coletou informações sobre a profissão das
*N. de T.T. John Wilder Tukey (1915-2000), químico, matemático e estatístico americano.
Então, clique no botão Statistics e selecione a moda na próxima caixa de diálogo, junto
com quaisquer outras medidas de tendência central que desejar – veja a imagem abaixo:
56 Estatística sem matemática para psicologia
pessoas, pode estar interessado em descobrir quantos trabalhadores estão em cada uma
das categorias de emprego. Para ilustrar o histograma, considere as frequências para um
conjunto de dados coletados em um estudo de 2011 de Armitage e Reidy (não publicado).
Para investigar o medo causado pelo sangue, os investigadores solicitaram aos participan-
tes que indicassem qual a sua cor favorita a partir de uma lista de sete cores. O histograma
representando esses dados está apresentado na Figura 3.2.* Como mostrado na Figura 3.2,
as pessoas dessa amostra escolheram o azul como sua cor favorita mais frequentemente e o
branco como sua cor favorita menos frequentemente.
O histograma de frequências é uma boa forma de inspecionarmos os nossos dados vi-
sualmente. Muitas vezes, desejamos saber se existem alguns valores que podem parecer fora
de contexto. O histograma da Figura 3.3 representa valores hipotéticos de um questionário
sobre depressão. Você pode verificar a partir dele que o valor final é bem maior do que os
demais. Dado que o maior valor dessa escala de depressão é somente 63, podemos perceber
a partir do histograma que devemos ter feito um erro quando registramos os nossos dados.
Tais problemas são fáceis de perceber quando os dados são postos em gráficos. No entanto, a
interpretação do seu histograma depende dos intervalos específicos que as colunas represen-
tam. O histograma da Figura 3.3 tem colunas representando intervalos de 1 unidade na escala
de depressão, ou seja, cada coluna representa um escore específico no questionário (p. ex.,
um escore de 9 no questionário). A Figura 3.4 mostra como os dados de escores da depressão
ficariam com barras representando intervalos de 5. As barras aqui representam grupos de 5
escores, por exemplo escores de 1 a 5 ou escores de 16 a 20. A largura das barras é geralmente
referida como a largura da classe. Podemos ajustar a largura das classes para assegurar que o
histograma forneça uma visão concisa da distribuição dos escores da sua amostra. Portanto,
na Figura 3.4 ajustamos as classes para representar intervalos de 5 em vez de 1.
*N. de T.T. Os autores não fazem distinção entre um histograma (adequado para uma variável contínua) e um diagrama
de colunas (adequado para variáveis discretas e categóricas).
Cor favorita
Fr
eq
uê
nc
ia
80
60
40
20
0
Vermelho Verde Marrom Preto Branco Azul Amarelo
Figura 3.2 Histograma mostrando a frequência com que uma cor foi escolhida como favo-
rita pelas pessoas da amostra (Armitage e Reidy, não publicado).
Capítulo 3 • Estatística descritiva 57
Moda
20
15
10
5
0
1
2
3
4
5
6
7
8
9
10
11
12
13
Escores de depressão
14
15
16
17
18
19
20
21
22
23
24-60
64
Fr
eq
uê
nc
ia
Valor
suspeito
Figura 3.3 Histograma dos dados do questionário sobre depressão.
O histograma de frequências é um meio gráfico de representar a frequência de ocorrência de
cada escore em uma variável na nossa amostra. O eixo x contém detalhes de cada valor na
nossa variável e o eixo y representa a frequência da ocorrência desses valores.
Definição
O histograma de frequências é também utilizado para descobrir outras características
importantes dos dados. Por exemplo, você pode facilmente ver qual é o valor da moda pro-
curando pela coluna mais alta. Na Figura 3.3 podemos ver que a moda para a amostra de
0-4 5-9 10-14 15-19 20-24 60-6425 59...
Escores de depressão
40
30
20
10
Fr
eq
uê
nc
ia
Figura 3.4 Histograma dos dados do questionário sobre depressão agrupados em inter-
valos de 5.
58 Estatística sem matemática para psicologia
escores de depressão é 5. Além disso, o histograma nos dá uma boa ideia de como os valores
estão espalhados, isto é, de como eles estão distribuídos. A forma como os dados estão dis-
tribuídos é importante, como veremos na discussão sobre a distribuição normal mais tarde
neste capítulo. A distribuição dos dados é também uma consideração importante no uso da
estatística inferencial, que será discutida mais tarde neste livro. Podemos ver a partir do
histograma de dados do questionário sobre depressão que há uma concentração de escores
na região de 5 a 7 que decai acima e abaixo desses pontos.
A melhor maneira de gerar um histograma manualmente é primeiro ordenar os dados,
como foi descrito anteriormente neste capítulo para se determinar a mediana. Depois, é pre-
ciso contar o número de vezes que cada escore ocorre; essa será a frequência de ocorrência
de cada escore. A frequência, então, é registrada no gráfico como mostrado anteriormente.
Dado o seguinte histograma, responda as questões:
6
5
4
3
2
1
0
1,0 2,0 3,0 4,0
ESCORE
5,0 6,0 7,0 8,0
Desvio-padrão � 1,95
Média � 4,6
N � 23,00
(a) Qual é o valor da moda?
(b) Qual é o escore menos frequente?
(c) Quantas pessoas apresentaram um escore de 5?
(d) Quantas pessoas apresentaram um escore de 2?
Esta atividade ilustra a utilidade dos histogramas na hora de entender e explorar seus dados.
Atividade 3.5
3.4.2 Diagrama de caule e folhas (stem and leaf)
Os diagramas de caule e folhas são semelhantes aos histogramas de frequências no sentido
de que eles mostram como os escores estão distribuídos. Além disso, eles retêm os valores
das observações individuais. Desenvolvidos por Tukey (1977), eles são mais fáceis de dese-
nhar manualmente do que um histograma. O diagrama de caule e folhas para os dados que
utilizamos para ilustrar o cálculo da média, mediana e moda (2, 12, 12, 19, 19, 20, 20, 20,
25) é apresentado na Figura 3.5.
Capítulo 3 • Estatística descritiva 59
Os diagramas de caule e folhas são similares aos histogramas, mas a frequência da ocorrência
de um escore específico é representada escrevendo-se repetidamente esse escore em vez de
desenhando uma barra em um diagrama.
Definição
No exemplo da Figura 3.5, os escores foram agrupados em dezenas: a primeira linha
contém os escores de 0 a 9, a próxima, de 10 a 19 e a última, de 20 a 29. Dessa forma, nesse
caso, o caule indica as dezenas (esse valor é chamado de tamanho do caule) e as folhas, as
unidades. O escore 2 é representado como 0 na coluna das dezenas (o caule) e 2 na coluna
das unidades (afolha), enquanto 25 é representado como um caule de 2 e uma folha de 5.
O diagrama de caule e folhas na Figura 3.6 vem dos seguintes valores: 1, 1, 2, 2, 2, 5, 5,
5, 12, 12, 12, 12, 14, 14, 14, 14, 15, 15, 15, 18, 18, 24, 24, 24, 24, 24, 24, 25, 25, 25, 25, 25, 25,
25, 28, 28, 28, 28, 28, 28, 28, 32, 32, 33, 33, 33, 33, 34, 34, 34, 34, 34, 34, 35, 35, 35, 35, 35,
42, 42, 42, 43, 43, 44. Você pode perceber pela Figura 3.6 que o diagrama de caule e folhas
fornece uma forma concisa de apresentar um conjunto grande de dados. Algumas vezes, no
entanto, o sistema de agregar os dados em grupos de dez não é muito informativo. Veja a Fi-
gura 3.7, que mostra o diagrama de caule e folhas para os dados da depressão apresentados
na forma de histograma (ver Fig. 3.3) anteriormente.
Caule
Unidades
Folhas
Escore 2
Escore 25
0
1
2
2
2 2 9 9
0 0 0 5
Dezenas
Figura 3.5 Exemplo de diagrama de caule e folhas.
Caule Folhas
0
1
2
3
4
11222555
2222444455588
44444455555558888888
22333344444455555
222334
Figura 3.6 Diagrama de caule e folhas para um conjunto de dados maior.
Caule Folhas
0
1
2
6
0000022222222333333333555555555555555777777777777799999999
000000033333888
3
4
Figura 3.7 Diagrama de caule e folhas para os dados de depressão agrupados em blocos
de dez.
60 Estatística sem matemática para psicologia
A Figura 3.7 não nos dá muita informação sobre a distribuição dos valores, a não ser o
fato que eles são na maioria inferiores a 20. Um sistema alternativo é juntar os valores em
blocos de cinco (p. ex., 0-4, 5-9, 10-14, 15-19, etc.). No diagrama de caule e folhas da Figura
3.8, a variável depressão está agrupada dessa maneira. Isso fornece uma indicação bem
melhor da distribuição dos escores. Utilizamos um ponto (.) após o caule para representar a
primeira metade do grupo de dez escores (p. ex., 0-4) e um asterisco (*) para representar a
segunda metade de cada bloco de dez escores (p. ex., 5-9).
3.4.3 Caixa e bigodes
Ainda que possamos perceber que existe um escore extremo no exemplo da depressão, o
caso é que muitas vezes escores extremos não são tão óbvios. Tukey (1977), contudo, desen-
volveu uma técnica gráfica denominada caixa e bigodes* que nos fornece uma indicação
clara de valores extremos da mesma forma que o histograma e o diagrama de caule e folhas
informam como os valores estão distribuídos.
Os diagramas de caixa e bigodes nos permitem identificar facilmente escores extremos, assim
como ver como os escores estão distribuídos em uma amostra.
Definição
Embora você possa utilizar o computador para produzir um diagrama de caixa e bigo-
des, descreveremos como construir um a partir dos dados abaixo, de modo que saiba como
interpretá-los (o diagrama para esses dados será apresentado na Fig. 3.9):
2 20 20 12 12 19 19 25 20
*N. de T.T. O termo “caixa e bigodes” para box plot se deve ao fato de que Tukey também chamou esse diagrama de
box and whisker plot.
●● Primeiro, encontre o escore mediano como descrito anteriormente. Ele é o valor da po-
sição 5 (o valor mediano real era 19, mas após os dados terem sido ordenados, o escore
estava na posição 5).
CauleBloco
Escore
0-4
5-9
10-14
15-19
20-24
60-64
Folhas
0.
0*
1.
1*
2.
6.
0000022222222333333333
555555555555555777777777777799999999
000000033333
888
3
4
Estes não estariam nos histogramas.
Eles apenas são apresentados aqui
em caráter informativo
Muito mais informativo sobre
a forma da distribuição
Figura 3.8 Diagrama de caule e folhas para os dados de depressão agrupados em blocos
de cinco.
Capítulo 3 • Estatística descritiva 61
2 12 12 19 19 20 20 20 25
A mediana é o escore da posição
do meio do conjunto ordenado
●● Após, calcule os quartis. Eles são os valores que separam 25% dos dados nas partes
inferior e superior (chamados de quartis superior e inferior): assim, 50% dos escores
permanecem entre os quartis. Os quartis formam os limites externos da caixa (ver Fig.
3.9). Para determinar a posição dos quartis, adicionamos 1 à posição mediana e então
dividimos por 2 (lembre-se que a mediana está na posição 5). Assim:
●● Os quartis superior e inferior são, portanto, o terceiro valor a partir do fim e o terceiro
valor a partir do início da lista ordenada, que no exemplo acima são o 20 e o 12, res-
pectivamente.
Ordem:
Escore:
1
2
2
12
3
12
4
19
5
19
6
20
7
20
8
20
9
25
Mediana
Quartis
●● A partir desses escores, determinamos a amplitude h, que é a faixa dos escores entre os
dois quartis. O escore no quartil superior é 20 e o escore no quartil inferior é 12, então
a amplitude h é 8 (20 menos 12).
●● Escores extremos são aqueles que estão a uma vez e meia (1,5) a amplitude h fora dos
quartis superior e inferior. Os pontos uma vez e meia a amplitude h fora dos quartis
superior e inferior são chamados de limites internos. Nesse caso, uma vez e meia a am-
plitude h é 12: isto é, 1,5 × 8. Assim, quaisquer escores abaixo de 0 (quartil inferior, 12,
menos 12) ou acima de 32 (quartil superior, 20, mais 12) são considerados extremos.
●● Os valores situados entre os quartis e os limites internos e que estão mais próximos
desses limites são denominados escores adjacentes. No nosso exemplo, são os valores
2 e 25, pois 2 está mais próximo de 0, o limite interno inferior, e 25 está mais próximo
de 32, o limite interno superior. Esses valores estão ilustrados por barras transversais
em cada um dos bigodes (ver Fig. 3.9).
●● Qualquer valor extremo (aqueles que estão fora dos limites internos) é mostrado no
diagrama de caixa e bigodes.
Você pode ver na Figura 3.9 que a amplitude h é indicada pelo tamanho da caixa (de 12
até 20) e que não existem valores extremos. As linhas saindo da caixa são os bigodes e eles
representam a faixa de valores que está abaixo e acima dos quartis, mas ainda dentro dos
limites internos. Qualquer valor que esteja fora dos limites internos é denominado escore ex-
tremo ou ainda atípico (outlier). Na Figura 3.9 não existem valores fora dos limites internos,
que são 0 e 32. Os limites internos não necessariamente precisam ser mostrados no diagrama.
O maior e o menor valor entre os limites internos (escores adjacentes 2 e 25) são indicados
no diagrama pelas linhas transversais em cada um dos bigodes.
62 Estatística sem matemática para psicologia
Se agora adicionarmos o valor 33 ao conjunto de dados ilustrado na Figura 3.9, o dia-
grama de caixa e bigodes será semelhante ao mostrado na Figura 3.10. Note que há um
escore marcado como “10”. Isso nos diz que o décimo escore no nosso conjunto de dados
(cujo valor é 33) é um escore extremo. isto é, ele está fora do limite interno de 32. Talvez
seja preciso verificar esse valor para saber por que ele é atípico, pois pode ser um erro no
registro dos dados.
Escores atípicos ou extremos são aqueles escores na nossa amostra que estão a uma distância
considerável acima ou abaixo da maioria dos outros escores da nossa amostra.
Definição
DADOS
Bigodes
Quartis
N = 9
0
10
20
30
Esta linha grossa
representa a mediana
Valores
adjacentes
Caixa
Figura 3.9 Exemplo de um diagrama de caixa e bigodes.
10
DADOS
10
0
10
20
30
N =
− 10
40
Escore
extremo
Figura 3.10 Diagrama de caixa e bigodes ilustrando um valor extremo.
Capítulo 3 • Estatística descritiva 63
O diagrama ilustrado na Figura 3.11 representa os dados a partir dos escores de depres-
são hipotéticos apresentados anteriormente neste capítulo. O valor extremo óbvio (o escore
64) é representado como tal. Entretanto, existem valores menos óbvios que são extremos,
como os valores 18 e 23. Isso ilustra como nem sempre é possível apontar quais valores são
extremos, e, dessa forma, o diagrama de caixa e bigodes é uma técnica bastante útil para
explorar nossos dados.
Por que é importante identificar escores extremos? Você deve lembrar que muitas das
técnicas estatísticas discutidas neste livro envolvem o cálculo de médias. Anteriormente
(ver seção 3.2.4) discutimos como a média é sensívela escores extremos. Assim, precisa-
mos saber se nossos dados contêm ou não tais valores para que possamos tirar conclusões
adequadas das análises estatísticas realizadas.
Estritamente falando, a maior parte das técnicas estatísticas inferenciais apresentadas
neste livro não devem ser usadas se tivermos valores extremos em nossos dados. No en-
tanto, há formas de se lidar com valores extremos. Se você se deparar com valores atípicos
execute as seguintes etapas:
●● Verifique se anotou ou digitou corretamente os dados.
●● Verifique se não há nada fora do comum nesses valores extremos. Por exemplo, você
lembra se a pessoa que respondeu o teste parecia ter entendido as instruções correta-
mente? Ela completou o questionário de forma correta? Há algum motivo que o leve a
pensar que ela não completou a(s) tarefa(s) de forma apropriada?
– Se tiver um bom motivo, poderá remover o resultado dessa pessoa da análise. En-
tretanto, quando o relatório for elaborado, você deve registrar o fato e o motivo da
remoção daquele valor.
●● Se não conseguir identificar nada de especial com o participante além do fato de ele ter
apresentado um valor atípico, provavelmente você deverá mantê-lo na análise. No en-
tanto, podemos legitimamente ajustar esse valor de forma que ele não seja tão extremo
e assim não influencie excessivamente a média. Por que fazer isso?
– Lembre-se de que se estiver utilizando a média é porque está interessado no valor
típico de um grupo. Claramente, um valor extremo não é um valor típico, então é
legítimo ajustá-lo para deixá-lo mais de acordo ao resto do conjunto. Para fazer isso,
ajustamos o valor extremo de modo que ele seja igual a uma unidade acima do valor
mais alto da amostra, mas que não seja um valor atípico. Assim, o participante ainda
será reconhecido como o valor mais alto do conjunto, mas a sua influência sobre a
média e sobre a análise estatística inferencial será menor.
75N =
DEPRESSÃO
70
60
50
40
30
20
10
0
−10
74
75*
Escores
extremos
Figura 3.11 Diagrama de caixa e bigodes para um questionário ilustrando vários escores
extremos.
64 Estatística sem matemática para psicologia
– Como exemplo, voltamos aos escores de depressão já apresentados (ver Fig. 3.11).
Suponha que exista apenas um valor extremo nessa amostra (o escore 64) e que ele
é um escore válido (apenas como ilustração vamos ignorar os dois outros valores
atípicos do conjunto). Para ajustar esse resultado, encontramos o escore mais alto
que não seja atípico. Nesse caso, o escore é o 13. Ajustamos o escore extremo de
modo que ele seja apenas uma unidade maior do que 13. Então, o escore ajustado
será igual a 14.
●● É claro que, ao fazer tais ajustes no valor, é preciso registrar exatamente o que foi feito
ao elaborar o relatório da pesquisa, de modo que os leitores saibam que as análises
foram realizadas a partir de alguns valores ajustados.
Não podemos fornecer aqui uma discussão completa sobre esse assunto, mas você pode
encontrar mais informações em Tabachnick e Fidell (2013).
Dado o seguinte diagrama de caixa e bigodes:
(a) Qual é a mediana?
(b) Quantos escores extremos existem?
50
40
30
20
10
0
25N �
3
2
1
Atividade 3.6
Percepção de direções do olhar de faces rotacionadas
É raro que pesquisadores usem diagramas de caixa e bigodes em publicações, embora presu-
mamos que eles de fato os examinem antes de utilizar muitas das técnicas estatísticas abor-
dadas neste livro. É ainda mais raro apresentarem diagramas de caixa e bigodes em artigos
publicados. Uma exceção é uma publicação recente de Otsuka e colaboradores (2015). Nesse
artigo, os autores relatam um trabalho em que estavam interessados em como os partici-
pantes percebem a direção do olhar de faces. Os pesquisadores tinham várias condições, in-
cluindo uma representação tridimensional de faces em posição vertical e invertidas e também
Exemplo da literatura
Capítulo 3 • Estatística descritiva 65
Para obter histogramas, diagramas de caule e folhas e diagramas de caixa e bigodes no
SPSS, você pode utilizar a caixa de diálogo Explore. Proceda como já descrito anteriormente
para obter as medidas de tendência central. Se quiser obter medidas de tendência central
e gráficos descritivos, selecione a opção Both (ambos) no canto inferior direito da caixa de
diálogo (opções de Display). Mas se quiser somente os gráficos descritivos, selecione a opção
Plots (gráficos), conforme abaixo:
Selecione a
opção Plots e
então clique
no botão Plots
SPSS: gerando gráficos descritivos
condições que tinham apenas olhos sem faces. Os autores apresentaram diagramas de caixa e
bigodes para ilustrar a diferença entre as direções do olhar entre as várias condições. A figura
abaixo apresenta um resumo dos diagramas de caixa e bigodes do estudo. A partir deles, é
possível ver que há um valor atípico superior e um inferior para a condição de faces verticais
normais e dois valores atípicos superiores para a condição de apenas olhos invertidos.
1,5
1
0
Normal Apenas olhos
Na vertical Invertido
66 Estatística sem matemática para psicologia
Clique, então, no botão Plots para especificar quais gráficos você quer visualizar. Ao clicar em
Plots, a seguinte caixa de diálogo será apresentada:
Selecione
a opção
Histogram
As seleções-padrão são para Boxplots (diagrama de caixa e bigodes) e Stem-and-leaf plots
(diagrama de caule e folhas). Para obter também um histograma de frequências, selecione a
opção nessa caixa de diálogo e clique no botão Continue. Ao retornar para a caixa de diálogo
principal, clique no botão OK para obter os gráficos desejados. O resultado será o apresenta-
do na Figura 3.12.
Você obterá um histograma, seguido de um diagrama de caule e folhas e finalmente um
diagrama de caixa e bigodes. Apresentamos aqui a saída apenas para a condição com o cão.
O SPSS fornecerá ainda a saída para a condição sem o cão. Note que o software pode ser con-
figurado para fornecer intervalos diferentes que os acima. Assim, você precisa checar qual é
o tipo de intervalo que o SPSS está apresentando. Note que na Figura 3.12 o SPSS nos deu um
histograma com largura dos intervalos (largura das classes) de 1.
1,0
0,8
0,6
0,4
0,2
0,0
6,0
Diagrama de caule e folhas para a condição Caminhar com o cão
Frequência
4,00 0,6789
Tamanho do caule:
Cada folha: 1 caso
10,00
1,022,00
Caule e folhas
7,0 8,0 9,0 10,0 11,0 12,0
Histograma
Caminhar com o cão
Fr
eq
uê
nc
ia
Média � 8,67
Desvio-padrão � 2,16
N � 6
Caminhar com o cão
12
11
10
9
8
7
6
Diagrama de
caule e folhas
Figura 3.12 Gráficos descritivos integrantes da saída do SPSS usando o comando Ex-
plore. (Continua)
Capítulo 3 • Estatística descritiva 67
1,0
0,8
0,6
0,4
0,2
0,0
6,0
Diagrama de caule e folhas para a condição Caminhar com o cão
Frequência
4,00 0,6789
Tamanho do caule:
Cada folha: 1 caso
10,00
1,022,00
Caule e folhas
7,0 8,0 9,0 10,0 11,0 12,0
Histograma
Caminhar com o cão
Fr
eq
uê
nc
ia
Média � 8,67
Desvio-padrão � 2,16
N � 6
Caminhar com o cão
12
11
10
9
8
7
6
Diagrama de
caule e folhas
Figura 3.12 (Continuação)
3.5 Diagramas de dispersão (scattergrams)
Uma técnica útil para examinar a relação entre duas variáveis é fazer um diagrama de dis-
persão. Um exemplo desse tipo de gráfico pode ser visto na Figura 3.13 para as variáveis
ansiedade com a estatística e procrastinação apresentadas na seção 2.4. Esses dados são
mostrados novamente abaixo:
Escores para a ansiedade com a estatística: 55 59 48 60 62 50
Escores para a procrastinação: 125 132 94 110 140 96
Um diagrama de dispersão coloca os escores de uma variável no eixo x e da outra no
eixo y. A Figura 3.13 fornece os valores para procrastinação representados no eixo x e para
ansiedade com a estatística no eixo y. Ela ilustra bem como as duas variáveis podem estar
relacionadas. Podemos ver que, geralmente, a ansiedade com a estatística aumenta junto
com a procrastinação. Assim, parece haver uma relação entre as duas variáveis.Os escores
parecem estar bem próximos de uma linha imaginária que vai do canto inferior direito ao
canto superior esquerdo do diagrama. Chamamos isso de relação positiva.
Um diagrama de dispersão fornece uma representação gráfica da relação entre duas variáveis.
Os escores de uma variável são representados no eixo x, e os escores de outra, no eixo y.
Definição
68 Estatística sem matemática para psicologia
Suponha que no estudo sobre ansiedade com a estatística você descobriu que, à medida
que a ansiedade aumentava, a procrastinação diminuía. Como você imagina que seria o
diagrama de dispersão? Ele será semelhante ao apresentado na Figura 3.14.
Nesse diagrama, podemos ver que à medida que a procrastinação aumenta, a ansie-
dade com a estatística decai. Os escores parecem estar agrupados em torno de uma linha
60,00
57,00
54,00
51,00
48,00
90,00 100,00 110,00 120,00 130,00 140,00
Escore de 55 para
ansiedade com a
estatística e escore
de 125 para
procrastinação
Escore de procrastinação
Es
co
re
d
e
an
si
ed
ad
e
co
m
a
e
st
at
ís
tic
a
Figura 3.13 Diagrama de dispersão para os dados de ansiedade com a estatística e pro-
crastinação apresentados no Capítulo 2.
Escore de procrastinação
60,00
57,00
54,00
51,00
48,00
60,00 80,00 100,00 120,00 140,00
Es
co
re
d
e
an
si
ed
ad
e
co
m
a
e
st
at
ís
tic
a
Padrão de pontos
descendentes ao
mover-se para a
direita no eixo x
Figura 3.14 Diagrama de dispersão indicando que, à medida que a ansiedade com a esta-
tística decai, a procrastinação aumenta.
Capítulo 3 • Estatística descritiva 69
imaginária que vai do canto superior esquerdo ao canto inferior direito. Podemos dizer que
temos aqui uma relação negativa.
Como seria o diagrama de dispersão se não houvesse uma relação discernível entre as duas
variáveis? O gráfico apresentado na Figura 3.15 dá uma indicação de como ele poderia ser.
Note que o arranjo de pontos do diagrama de dispersão ilustrado na Figura 3.15 pare-
ce ser aleatório. Dessa forma, os diagramas são úteis para examinar a relação entre duas
variáveis, como será discutido com mais detalhes no Capítulo 6.
Figura 3.15 Diagrama
de dispersão indican-
do ausência de relação
entre ansiedade com a
estatística e procrasti-
nação.
Escore de procrastinação
140,00
120,00
130,00
110,00
100,00
90,00
45,00 50,00 55,00 60,00 65,00
Es
co
re
d
e
an
si
ed
ad
e
co
m
a
e
st
at
ís
tic
a
Padrão se assemelha
a um arranjo de
pontos aleatórios
Dado o seguinte diagrama de dispersão, qual é a conclusão mais apropriada sobre a relação
entre o preço do petróleo e a satisfação do motorista?
10
8
6
4
Sa
tis
fa
çã
o
do
m
ot
or
is
ta
2
0
50 60 70
Preço do petróleo
80 90 100
Atividade 3.7
70 Estatística sem matemática para psicologia
Para obter um diagrama de dispersão usando o SPSS, você deve clicar no menu Graphs, sele-
cionar a opção Legacy Dialogs (caixa de diálogo herdada) e, então, selecionar a opção Scatter/
Dot... (dispersão/ponto). Você obterá a seguinte caixa de opções:
Selecione a opção Simple Scatter (opção-padrão) e clique no botão Define. Você obterá uma
caixa de diálogo onde pode selecionar várias opções para o gráfico desejado.
Selecione a opção
Simple Scatter e
então clique
em Define
Mova uma variável para a caixa do eixo y (Y Axis) e a outra para a caixa do eixo x (X Axis) utili-
zando os botões e clique em OK para obter o diagrama de dispersão. O gráfico será similar ao
apresentado anteriormente (ver Fig. 3.13).
SPSS: gerando diagramas de dispersão
3.6 Erro de amostragem e relações entre variáveis
Anteriormente neste capítulo (ver seção 3.3), explicamos os problemas associados ao erro
de amostragem. Comentamos que, por causa dele, a média da amostra pode não ser um
bom indicador da média populacional. Note que o erro de amostragem não está limitado
a circunstâncias em que queremos estimar a média de uma população. Ele também é uma
questão importante quando queremos determinar relações entre duas variáveis. Suponha
que realizamos um estudo relacionando ansiedade com a estatística e procrastinação e que,
embora não saibamos, não exista relação real entre as duas variáveis. A título de ilustra-
ção, vamos supor que temos apenas 50 pessoas na população. Assim, o diagrama de dis-
persão na Figura 3.16 representa o padrão dos escores de uma população. Se pegássemos
duas amostras diferentes dessa população, uma contendo somente três pessoas e a outra
Capítulo 3 • Estatística descritiva 71
contendo 20 pessoas, poderemos obter diagramas de dispersão que se assemelham aos das
Figuras 3.17(a) e (b). Nesses diagramas, pode-se perceber que aparentemente não existe
relação entre as variáveis. Não existe um padrão consistente de variação da ansiedade com
a estatística relacionado ao aumento da procrastinação. Nesse caso, as nossas amostras são
boas representações da população subjacente.
Se agora selecionarmos mais duas amostras (uma contendo três pessoas e a outra con-
tendo 20 pessoas), podemos obter os diagramas mostrados nas Figuras 3.18(a) e (b). Nesse
caso, no diagrama com três pessoas, podemos concluir que é possível uma relação negativa
entre as duas variáveis. À medida que a ansiedade com a estatística diminui, a procrastina-
ção aumenta. Na amostra com 20 pessoas, entretanto, a sugestão é de que não existe relação
Escore de procrastinação
10080604020
Es
co
re
d
e
an
si
ed
ad
e
co
m
a
e
st
at
ís
tic
a
70
60
50
40
30
20
10
0
Figura 3.16 Diagrama de dispersão para as escores de ansiedade com a estatística e pro-
crastinação da população.
Escore de procrastinação
10080604020
Es
co
re
d
e
an
si
ed
ad
e
co
m
a
e
st
at
ís
tic
a 70
60
50
40
30
20
10
0
(a)
Escore de procrastinação
10080604020
Es
co
re
d
e
an
si
ed
ad
e
co
m
a
e
st
at
ís
tic
a 70
60
50
40
30
20
10
0
(b)
Figura 3.17 Diagramas de dispersão que não sugerem relação entre ansiedade com a estatística
e procrastinação nas amostras de 3 e 20 pessoas.
72 Estatística sem matemática para psicologia
verdadeira entre as variáveis. A amostra pequena não reflete acuradamente o padrão da
população, ao contrário da maior.
Por último, se selecionarmos mais duas amostras poderemos obter os padrões ilus-
trados na Figura 3.19(a) e (b). A amostra de três pessoas não sugere uma relação entre as
duas variáveis, mas a de 20 sim. Ao analisar a Figura 3.19, percebemos que parece existir
um padrão na amostra de 20 pessoas que sugere que quando a procrastinação aumenta a
ansiedade com a estatística também aumenta. Nesse caso, a amostra maior não representa
acuradamente a relação existente na população, mas a menor sim.
Note que é muito menos provável de se obter uma situação como a ilustrada na Figura
3.19 do que aquelas nas Figuras 3.17 e 3.18. Como indicado anteriormente neste capítulo,
amostras grandes apresentam uma probabilidade maior de representar corretamente a
população em estudo. Embora o cenário da Figura 3.19(b) seja improvável, ele poderá
ocorrer. Então, você deve ser cuidadoso ao generalizar os resultados de amostras para
populações.
Escore de procrastinação
10080604020
Es
co
re
d
e
an
si
ed
ad
e
co
m
a
e
st
at
ís
tic
a 70
60
50
40
30
20
10
0
(a)
Escore de procrastinação
10080604020
Es
co
re
d
e
an
si
ed
ad
e
co
m
a
e
st
at
ís
tic
a 70
60
50
40
30
20
10
0
(b)
Figura 3.18 Diagramas de dispersão ilustrando uma relação negativa entre ansiedade com a es-
tatística e procrastinação sugerida pela amostra de 3 pessoas, mas não pela de 20 pessoas.
Escore de procrastinação
10080604020
Es
co
re
d
e
an
si
ed
ad
e
co
m
a
e
st
at
ís
tic
a 70
60
50
40
30
20
10
0
(a)
Escore de procrastinação
10080604020
Es
co
re
d
e
an
si
ed
ad
e
co
m
a
e
st
at
ís
tic
a 70
60
50
40
30
20
10
0
(b)
Figura 3.19 Diagramas de dispersão ilustrando uma relação positiva entre ansiedade com a esta-
tística e procrastinaçãosugerida pela amostra de 20 pessoas, mas não pela de 3 pessoas.
Capítulo 3 • Estatística descritiva 73
A principal conclusão dos exemplos anteriores é que qualquer generalização a partir de
dados de amostras está sujeita ao erro amostral. Raramente estaremos certos de que o que
acontece em uma amostra reflete o que ocorre na população. De fato, como os diagramas
de dispersão anteriores ilustraram, os dados amostrais podem nos enganar. Eles podem
mostrar um padrão de valores que é completamente diferente do padrão da população. En-
tretanto, quanto maior a amostra, maior a probabilidade de que ela reflita acuradamente os
resultados populacionais.
3.7 A distribuição normal
Até este ponto, apresentamos quatro técnicas úteis para ilustrar graficamente os seus da-
dos. Por que fazer isso é tão importante? Certamente não é para que as grandes empresas
de softwares possam vender pacotes sofisticados. É porque é importante e útil conhecer a
forma como os dados se distribuem. Muitos dos testes estatísticos que serão apresentados
neste livro fazem suposições sobre como os dados estão distribuídos. Isto é, os testes são
válidos somente se os seus dados se distribuem de certa forma. Um dos mais importantes
padrões de distribuição de dados que você conhecerá é a distribuição normal.
As curvas ilustradas na Figura 3.20 são todas de distribuições normais. Na vida diária,
muitas variáveis, como peso, altura, tamanho do sapato, níveis de ansiedade e resultados
de testes tendem a ser distribuídas normalmente, isto é, se elas fossem ilustradas em um
histograma de frequências, elas se pareceriam com as curvas da Figura 3.20. Na nossa pes-
quisa, podemos utilizar essas informações para formular hipóteses sobre a forma como as
populações estão distribuídas. É por esse motivo que muitas das mais poderosas técnicas
estatísticas assumem que as populações de onde retiramos nossas amostras estão distribuí-
das normalmente.
Estas são as
caudas das
distribuições
Média, mediana
e moda
Figura 3.20 Distribuições normais.
74 Estatística sem matemática para psicologia
Para que uma distribuição possa ser classificada como normal, ela deve apresentar as
seguintes características:
●● deve ser simétrica em torno da média;
●● as caudas devem encontrar o eixo x no infinito;
●● e deve ter o formato de um sino.
Todas as distribuições na Figura 3.20 são normais; embora não sejam exatamente as
mesmas, elas apresentam as características descritas acima. Você pode ver que elas dife-
rem em termos de dispersão e da altura no centro. Se tivermos uma distribuição normal,
a média, a mediana e a moda coincidem. Outra característica importante é que ela é uma
função da sua média e do seu desvio-padrão (vamos explicar o desvio-padrão mais adiante
neste capítulo). O que se quer dizer é que, uma vez conhecidos a média e o desvio-padrão,
podemos plotar a distribuição normal colocando esses valores em uma fórmula. Não vamos
apresentar essa fórmula aqui; apenas lembre-se de que qualquer distribuição normal pode
ser desenhada uma vez que se saiba sua média e seu desvio-padrão.
Uma distribuição normal é uma distribuição de valores que apresenta um pico na região central
e que decai simetricamente em cada lado do pico. Geralmente, considera-se que a distribui-
ção tem o “formato de um sino”. Para uma distribuição normal perfeita, a média, mediana e
moda coincidem com o ponto do pico da curva.
Definição
Como apontamos anteriormente, muitas variáveis que ocorrem naturalmente revelam-
-se normais quando representadas graficamente. Geralmente, também, quanto mais valores
dessas variáveis são representados, mais elas se assemelham a uma distribuição normal.
Um exemplo simples pode servir como ilustração. Ao selecionar aleatoriamente dez ho-
mens e medir suas alturas (em polegadas), o histograma de frequência se parecerá com a
Figura 3.21(a). Claramente, ela não lembra muito as distribuições normais ilustradas na
Figura 3.20. Ao selecionar mais dez homens e colocar em um gráfico todas as 20 alturas,
a distribuição resultante poderá ser semelhante à da Figura 3.21(b) que, novamente, não é
muito semelhante a uma distribuição normal. Você pode ver, entretanto, que à medida que
selecionamos mais homens e registramos suas alturas, o histograma torna-se cada vez mais
aproximado a uma distribuição normal (Figs. 3.21[c], [d] e [e]). Quando selecionamos 100
homens, pode-se perceber que teremos uma distribuição normal quase perfeita. Obviamen-
te, nós “fabricamos” esses dados para servir de exemplo, mas, em geral, é o que acontece
com muitas variáveis com que você lidará.
Nós apresentamos uma indicação de como a distribuição normal se parece; no entanto,
devemos estar cientes de que não existe somente uma distribuição normal. Como indicado
na Figura 3.20, as distribuições normais representam uma família de distribuições. Todas
essas distribuições têm as características de distribuições normais (formato de sino, simetria
na média, etc.), mas elas diferem umas das outras em termos de dispersão e altura do pico.
3.8 Variação ou dispersão de distribuições
Introduzimos as medidas de tendência central, que fornecem uma indicação do valor típico
de uma amostra. Outro aspecto importante de uma amostra ou população de valores é o
quão dispersas elas são, ou seja, quanta variação existe em uma amostra ou população.
Capítulo 3 • Estatística descritiva 75
A variância ou variação dos escores indica o grau no qual os escores da variável são diferentes
uns dos outros.
Definição
0
0,2
0,4
0,6
0,8
1
1,2
1,4
1,6
1,8
2
60-61 64-65 68-69 72-73 76-77
60-61 64-65 68-69 72-73 76-77
60-61 64-65 68-69 72-73 76-77
60-61 64-65 68-69 72-73 76-77
60-61 64-65 68-69 72-73 76-77
Fr
eq
uê
nc
ia
Fr
eq
uê
nc
ia
Fr
eq
uê
nc
ia
Fr
eq
uê
nc
ia
Fr
eq
uê
nc
ia
0
0,5
1
1,5
2
2,5
3
3,5
4
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
5
0
5
10
15
20
25
0
1
2
3
4
5
6
7
8
9
10
(c) 30 homens
(a) 10 homens (b) 20 homens
(d) 50 homens
(e) 100 homens
Com 30 homens, a
distribuição começa
a parecer normal
Claramente, não
é uma distribuição
normal
Com 100 homens, temos
uma distribuição
aproximadamente normal
Figura 3.21 Histogramas mostrando a progressão para uma distribuição normal à medida que
mais pessoas são acrescentadas à amostra.
76 Estatística sem matemática para psicologia
3.8.1 Amplitude
Uma maneira simples de obter uma indicação da dispersão dos escores de uma amostra ou
população é comparar o escore máximo com o mínimo. Esse resultado é conhecido como
amplitude. A amplitude é simplesmente a diferença entre os valores máximo e mínimo. Por
exemplo, a amplitude dos escores de depressão na Figura 3.3 é 64, isto é, 64 menos 0. Nesse
exemplo, o escore mais baixo é 0, e o mais alto, 64, de modo que a amplitude é 64.
Embora a amplitude nos informe sobre a variação total do conjunto, ela não fornece
qualquer indicação do que ocorre no interior dele. Por exemplo, observe as duas distribui-
ções na Figura 3.22. Esses histogramas são gerados a partir de dois conjuntos de dados
que têm a mesma média (16) e os mesmos escores mínimos e máximos (5 e 27). Ambos
apresentam, portanto, a mesma amplitude, que é 22 (27 menos 5). Elas são, entretanto, dis-
tribuições totalmente diferentes; os valores da distribuição B estão concentrados em gran-
de parte próximos da média, enquanto na distribuição A eles estão bem mais espalhados.
Idealmente, precisamos ter uma ideia da variação total de uma distribuição e de quanto os
valores variam em torno da média. Dessa forma, embora a amplitude forneça uma ideia da
variação total dos valores, ela, de fato, não nos dá uma ideia da forma global da distribuição
dos valores de uma amostra.
A amplitude é o escore mais alto em uma amostra menos o escore mais baixo.
Definição
3.8.2 Desvio-padrão
Uma medida mais informativa da variação de dados é o desvio-padrão (DP). Um dos pro-
blemas da amplitude é que ela não nos informa o que está ocorrendo com os valores entre o
VAR0000227,024,021,018,015,012,09,06,0
Histograma
Fr
eq
uê
nc
ia
30
A B
20
10
0
Desvio-padrão � 4,81
Média � 16,0
N � 58,00
VAR00001
Histograma
Desvio-padrão � 3,54
Média � 16,0
N � 58,00
27,024,021,018,015,012,09,06,0
Fr
eq
uê
nc
ia
30
20
10
0
Figura 3.22 Distribuições com a mesma média e mesmo valor máximo e mínimo, mas que apre-
sentam diferentes concentrações em torno da média.
Capítulo 3 • Estatística descritiva 77
valor mínimo e o máximo. O DP, no entanto, fornece uma indicação do que está ocorrendo
entre os dois extremos. Isso porque ele informa o quanto os valores do conjunto de dados
variam em torno da média. O DP é um conceito muito importante e, por isso, vale o esforço
para compreendê-lo neste momento. Sua importância decorre de ele servir como base para
muitas técnicas de análise de dados.
O DP é a medida de quanto os valores da nossa amostra variam em torno da média.
Cada escore em uma amostra desviará da média em alguma quantia. Se subtrairmos a mé-
dia de cada valor, teremos uma indicação do quão longe cada valor está dela. Como com
qualquer grupo de escores, poderíamos então obter a média dos desvios da média, chamada
de desvio da média, que nos indica o quanto o grupo como um todo difere da média da
amostra. Para fazer isso, devemos somar todos os desvios e dividir o resultado pelo número
de escores do conjunto. Porém, há um problema com esse procedimento, relacionado ao
fato de que a média é uma medida de tendência central (escore do meio ou típico). Assim,
aproximadamente metade dos desvios da média serão desvios negativos (os escores estarão
abaixo da média) e metade serão desvios positivos (os escores estarão acima da média). Se
somarmos esses desvios, obteremos zero. Isso está ilustrado abaixo:
1
�5
4
�2
5
�1
6
0
9
3
11
5
Se somarmos
esses valores,
obteremos zero
Desvios de cada
escore em relação
à média
Média
Esse não é um indicativo muito informativo de como o grupo todo está se desviando da
média, já que obteremos zero para todas as amostras. Uma maneira de resolver o problema
é elevar ao quadrado cada um dos desvios, eliminando os valores negativos (um número ne-
gativo elevado ao quadrado resulta em um número positivo, p. ex., –52 = 25). Então, calcu-
lamos a média dos desvios ao quadrado para obter uma indicação da dispersão do conjunto
como um todo. Esse resultado é conhecido como variância. Porém, a variância é baseada
nos desvios ao quadrado e, dessa forma, não está expressa na mesma unidade dos escores,
mas sim na unidade de medida ao quadrado. Por exemplo, se tivéssemos um conjunto de
escores expressos em segundos, a variância seria expressa em s2. Para obter uma medida da
média dos desvios na unidade de medida original, utilizamos a raiz quadrada da variância,
que é denominada desvio-padrão.
A variância de uma amostra é a média dos quadrados dos desvios em torno da sua média.
Definição
78 Estatística sem matemática para psicologia
O desvio-padrão de um conjunto de dados é a média das distâncias a que os valores do conjunto
estão da média do conjunto. É a raiz quadrada da variância.
Definição
Um exemplo simples pode ilustrar isso. Suponha que temos o seguinte conjunto de
escores coletados em um estudo sobre o número de barras de chocolate que são consumidas
a cada semana: 1, 4, 5, 6, 9, 11. Para calcular o desvio-padrão, procederemos da seguinte
forma:
●● Primeiro calculamos a média, que é 6.
●● Os desvios a partir da média de cada um dos valores são: –5, –2, –1, 0, 3, 5 (ao somar
esses valores, obteríamos zero).
●● Para eliminar os valores negativos, elevamos cada um desses desvios ao quadrado,
obtendo os seguintes resultados: 25, 4, 1, 0, 9, 25.
●● A seguir, calculamos a média desses escores, que é 10,67, i.e., 64 ÷ 6, fornecendo a
variância.
●● Finalmente, o desvio-padrão é obtido por meio da raiz quadrada da variância, tendo
como resultado o valor 3,27.
1
�5
25
4
�2
4
5
�1
1
6
0
0
9
3
9
11
5
25
Escores reais
Média
Desvios ao quadrado
Desvios a partir
da média
O valor de 3,27 do desvio-padrão é um indicativo de quão próximo os valores estão
agrupados em volta da média. Geralmente, até 70% dos escores estarão a 1 desvio-padrão
da média se os escores forem aproximadamente normais. No exemplo acima, o desvio-
-padrão é 3,27, o que informa que a maioria dos valores dessa amostra está 3,27 unidades
acima ou abaixo da média. Isto é, cerca de 70% dos participantes comeriam entre 2,73 (a
média, 6, menos 3,27) e 9,27 (6 mais 3,27) barras de chocolate por semana. O desvio-padrão
é útil quando você quer comparar amostras usando a mesma escala. Suponha que tenhamos
uma segunda amostra que apresenta um desvio-padrão de 6,14. Se a compararmos com o
DP de 3,27 do exemplo anterior, percebemos que os escores da amostra inicial tendem a
agrupar-se mais próximo à média do que neste segundo exemplo.
Ao calcular o desvio-padrão da forma que acabamos de mostrar, obterá um desvio-
-padrão que é específico para a sua amostra. Isso é chamado de desvio-padrão amostral.
Geralmente, entretanto, estamos interessados em uma medida de variação que é uma esti-
mativa da população subjacente. O problema com o desvio-padrão amostral é que ele tende
a ser uma subestimativa do desvio-padrão da população. Portanto, geralmente informamos
uma versão levemente modificada do desvio-padrão amostral quando estamos tentando
generalizar da nossa amostra para a população subjacente. A única diferença desse desvio-
-padrão modificado e o desvio-padrão amostral é que, em vez de dividir a soma dos quadra-
dos dos desvios em torno da média pelo número de observações, dividimos pelo número de
observações menos 1. Assim, no exemplo anterior, em vez de dividir 64 por 6, dividiríamos
Capítulo 3 • Estatística descritiva 79
por 5 (6 – 1). Isso nos daria um desvio-padrão de 3,58. Ao usar o SPSS, você verá que o
desvio-padrão apresentado na saída é a versão modificada, isto é, dividido pelo tamanho
da amostra menos 1 unidade. Portanto, se digitar os dados usados nesse exemplo no SPSS
e executar estatísticas descritivas, o desvio-padrão será dado como 3,58 em vez de 3,27.
Abaixo temos uma tabela de médias e desvios-padrão relatados em um estudo de Latu e cola-
boradores (2013), no qual eles examinaram o período de tempo que os participantes falaram
a uma plateia virtual quando solicitados a fazer um discurso persuasivo contra um aumento
proposto para as taxas acadêmicas. Os pesquisadores estavam interessados em saber se os
participantes foram ou não influenciados pela presença de poderosas figuras políticas na for-
ma de cartazes na parede. A média geral do tempo do discurso em segundos e o desvio-pa-
drão para três das quatro condições estão apresentados abaixo. Quais destas condições têm a
maior variação em torno da média? Como você poderia descrever o padrão das variações em
torno da média ao longo das três condições?
Cartaz Média (segundos) DP
Controle (sem cartaz) 210,05 77,92
Angela Merkel 256,20 68,11
Bill Clinton 202,94 78,88
Atividade 3.8
Para obter medidas de variação no SPSS, siga as instruções apresentadas anteriormente
para gerar medidas de tendência central. Ao clicar na caixa de diálogo Explore (explorar),
como descrito previamente, você obterá uma saída semelhante a apresentada abaixo:
Explore
Case Processing Summary
Cases
N Percent N Percent N
Valid Missing Total
Percent
6
6
100.0%
100.0%
0
0
0.0%
0.0%
6
6
100.0%
100.0%
WalkingWithDog
WalkingWithoutDog
SPSS: obtendo medidas de variação
80 Estatística sem matemática para psicologia
0.88192
0.845
1.741
0.73030
0.845
1.741
Mean
95% Confidence Interval
for Mean
5% Trimmed Mean
Median
Variance
Std. Deviation
Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtosis
Mean
95% Confidence Interval
for Mean
5% Trimmed Mean
Median
Variance
Std. Deviation
Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtosis
WalkingWithDog
Descriptives
Lower Bound
Upper Bound
Lower Bound
Upper Boundcapítulo para que você possa
testar o seu progresso: se você respondeu a alguma questão incorretamente, releia a parte
relevante do capítulo para assegurar-se de ter um bom entendimento do conteúdo. As res-
postas dos exercícios no SPSS são apresentadas no final do livro. Confira os seus resultados
e, se houver divergências, volte e refaça onde você cometeu o erro. Frequentemente, pode
acontecer de você ter digitado ou inserido dados de forma incorreta no SPSS.
No decorrer de cada capítulo há vários recursos projetados para que você reflita sobre
o que leu. Os Pontos de discussão ajudam a explorar diferentes ideias ou teorias em mais
detalhes. Há, também, quadros com Atividades que são oportunidades adicionais para tes-
tar a sua compreensão das teorias ou ideias discutidas. É importante fazer essas atividades,
pois elas servem para assegurar um engajamento ativo ao conteúdo apresentado. Nossa
experiência tem mostrado que o trabalho ativo com o livro auxilia a aprendizagem (e torna
a leitura mais prazerosa). Os quadros com Exemplos apresentam situações concretas sobre
o que está sendo discutido. Exemplos reais facilitam a compreensão dos conceitos. Além
disso, os Exemplos da literatura na área da psicologia mostram com que frequência seus
pesquisadores usam as técnicas estatísticas apresentadas.
Incluímos tantos diagramas e figuras quanto possível para facilitar o entendimento
do conteúdo, além de ajudar a memorizá-lo. Nem consideramos a possibilidade de publi-
car páginas e páginas de texto apenas, sem nenhuma interrupção, pois não queremos que
nossos leitores caiam no sono. Agora, falando seriamente: lembre que as figuras não foram
incluídas apenas como um enfeite ou interrupção do texto – por favor, faça uso delas, pois
facilitarão a compreensão dos conceitos que estão discutidos. Ocasionalmente, ao longo do
texto, você irá se deparar com os quadros de Alerta, que estão aí para chamar sua atenção
para potenciais problemas ou questões a respeito de certos conceitos ou técnicas estatísti-
cos. Eles são bastante úteis, pois foram projetados para salientar alguns limites dos testes
estatísticos e servem para lembrar que se deve pensar com cuidado sobre como os dados
devem ser analisados.
Sempre que é necessário mostrar como usar o SPSS Statistics, apresentamos capturas
de tela com comentários a fim de indicar quais botões ou ícones devem ser clicados no
programa, bem como de onde e para onde mover os dados e variáveis para obter a análise
desejada. Por último, no final de cada capítulo, há uma seção de Referências: nela, são
fornecidos detalhes de todos os trabalhos de outros autores que foram mencionados nos ca-
pítulos, o que é basicamente o que se deve fazer ao escrever um livro. Algumas das referên-
cias trazem detalhes dos exemplos da literatura que apresentamos e outras são exemplos de
leituras úteis adicionais. Você pode pesquisá-las quando quiser. Às vezes é bom pesquisar
mais sobre os exemplos de pesquisa encontrados na literatura a fim de ver o contexto das
análises que apresentamos. Além disso, ao ler sobre como os especialistas apresentam suas
pesquisas, talvez você comece a entender melhor a sua própria.
Como usar este livro xi
9
Medidas de associação
V I S Ã O G E R A L D O C A P Í T U L O
Anteriormente, no Capítulo 6, você aprendeu como analisar o relacionamento entre
duas variáveis utilizando o r de Pearson. Esse valor é útil para fornecer uma ideia do
grau de associação entre duas variáveis contínuas. Você viu como representar tal rela-
cionamento por intermédio dos diagramas de dispersão e também aprendeu o que é um
coeficiente de correlação e que r é um tamanho de efeito natural. Este capítulo também
discute relacionamentos, ou associações, mas, desta vez, será discutido como analisar
o relacionamento entre variáveis categóricas.
A medida de associação que discutiremos neste capítulo, 2 ou qui-quadrado, mede
a associação entre duas variáveis categóricas. Você também aprendeu sobre essas va-
riáveis no Capítulo 1. Se, por exemplo, classificarmos pessoas com base na cor da blusa
ou camisa que elas estão usando, isso é uma classificação em categorias. Da mesma
forma, se classificarmos pessoas por grupos étnicos, religião ou por país em que elas
vivem, estamos fazendo julgamentos categóricos. Não faz sentido ordená-las numeri-
camente. Neste capítulo, você aprenderá como:
● analisar a associação entre duas variáveis categóricas;
● registrar outra medida do efeito (o V de Cramer);
● relatar os resultados de tais análises.
A análise do relacionamento entre variáveis categóricas inclui os seguintes tópicos:
● Contagem das frequências mostradas na forma de uma tabela; isso será explicado
mais tarde.
● Testes inferenciais que nos mostram se o relacionamento entre as variáveis pode ter
ocorrido devido ao erro amostral, assumindo que a hipótese nula seja verdadeira.
● O tamanho do efeito: 2 pode ser convertido em uma estatística denominada V de
Cramer e ser interpretado da mesma forma que qualquer outro coeficiente de corre-
lação. Felizmente, ele pode ser obtido com o SPSS.
9.1 Frequências (dados categóricos)
Os testes que você utilizou até agora envolveram cálculos sobre conjuntos de valores ob-
tidos a partir de participantes. Algumas vezes, entretanto, temos dados categóricos (i.e.,
dados na forma de contagens de frequência). Por exemplo, imagine que perguntemos a
uma amostra de fazendeiros (na realidade, 544 deles) qual das quatro figuras de suínos eles
preferem para ilustrar uma campanha do tipo “salve o nosso bacon”. Simplesmente regis-
traremos quantos preferem a figura 1, a figura 2, etc. Os dados serão apenas uma contagem
de frequência. A Tabela 9.1 mostra um exemplo de resultados possíveis de serem obtidos.
Você pode ver que muitos fazendeiros preferem a figura 2. Essas são frequências de
ocorrência, e não faz sentido fornecer qualquer outra estatística descritiva.
278 Estatística sem matemática para psicologia
Symmetric Measures
Nominal by Nominal
N of Valid Cases
Phi
Cramer’s V
Value
�.097
.097
100
Approximate
Significance
.332
.332
Esta é a medida
do efeito
O seu relatório pode ser escrito da seguinte forma:
Uma vez que 50% das células apresentaram frequências esperadas menores do que 5,
o teste estatístico apropriado foi o da Probabilidade Exata de Fisher. Ele forneceu um p
= 0,66 para uma hipótese bilateral. O valor do V de Cramer foi de 0,10 mostrando que
o relacionamento entre fumar e beber foi quase zero. A conclusão é que não existem
evidências que sugiram um relacionamento entre os hábitos de fumar e beber.
O teste χ2 2 × 2 é fácil de ser realizado manualmente, mas não vamos solicitar que
você o faça. As instruções de como executar uma análise χ2 2 × 2 no SPSS foram dadas
anteriormente.
ALERTA! Você não pode dizer quantas pessoas pertencerão a cada categoria quando inicia
o estudo, assim precisa obter mais participantes do que você necessitaria para se
assegurar de que terá o suficiente em cada célula.
O valor do χ2 é sempre positivo (porque um número ao quadrado é sempre
positivo).
Embora o número de gl é aproximadamente o número de participantes em
muitas análises estatísticas, isso não ocorre no χ2, pois o gl é calculado pelo nú-
mero de linhas menos um 1 (r – 1) multiplicado pelo número de colunas menos
1 (c – 1). Nesse caso, você pode verificar que uma tabela χ2 2 × 2 sempre terá um
gl = 1, pois (r – 1) = (c – 1) = (2 – 1) = (2 – 1) = 1.
O V de Cramer é:
(a) uma medida de diferença.
(b) um coeficiente de correlação.
(c) uma estatística equivalente ao Teste da Probabilidade Exata de Fisher.
(d) um coeficiente de variação.
Atividade 9.5
A Visão geral do capítulo apresenta o que
será estudado em cada capítulo e o que você
aprenderá durante a sua leitura
Os quadros de Alerta destacam os
possíveis problemas que você poderá
encontrar ou questões a serem
consideradas
Os quadros de Atividade fornecem
oportunidades adicionais para testar
sua compreensãoStd. Error
8.6667
6.3996
10.9337
8.6296
8.5000
4.667
2.16025
6.00
12.00
6.00
3.75
0.463
�0.300
4.0000
2.1227
5.8773
4.0556
4.5000
3.200
1.78885
1.00
6.00
5.00
2.75
�0.943
0.586
Statistic
WalkingWithoutDog
Variância,
DP e
amplitude
Observe que a saída apresenta os valores da variância, do desvio-padrão e da amplitude.
3.9 Outras características das distribuições
Até este ponto, apresentamos formas de medir a dispersão das distribuições. As distribui-
ções também podem diferir uma das outras quanto à altura/achatamento do pico. O grau de
achatamento ou altura de pico de uma distribuição é conhecido como curtose. Se a distri-
buição tem um pico alto, é chamada de leptocúrtica; se achatada, de platicúrtica. Uma dis-
tribuição que está entre os extremos de pico alto e achatamento é chamada de mesocúrtica
(ver Fig. 3.23).
A curtose de uma distribuição é uma medida de quão achatada/afunilada é a distribuição. Uma
distribuição achatada é chamada de platicúrtica, uma distribuição com pico agudo é denomina-
da leptocúrtica e uma entre esses dois extremos é denominada mesocúrtica.
Definição
Capítulo 3 • Estatística descritiva 81
Não é necessário se preocupar com a curtose neste estágio de sua carreira estatísti-
ca. Nós a introduzimos aqui por dois motivos. Primeiro, para que você tenha uma boa
compreensão das distribuições e de como elas podem diferir. Segundo, porque quando você
utilizar o SPSS para obter medidas descritivas, verá uma medida de curtose na saída. Quan-
do isso acontecer, você saberá ao que elas se referem: os valores positivos sugerem que a
distribuição é leptocúrtica, e os valores negativos, que é platicúrtica. Um valor zero informa
que você tem uma distribuição mesocúrtica. Ao analisar a saída do SPSS apresentada na
página anterior, vemos que para a condição “caminhar com o cão” temos uma curtose de
–0,300, isto é, a distribuição é levemente achatada, enquanto o valor da condição “cami-
nhar sem o cão” é de 0,586, uma distribuição um pouco mais aguda.
3.10 Distribuições não normais
Embora muitas variáveis se assemelhem à distribuição normal quando plotadas, com fre-
quência existirão variáveis que não terão essa forma de distribuição. Às vezes os desvios
da normalidade são consequência de erros amostrais. É importante verificar o formato da
distribuição, já que muitas das técnicas estatísticas utilizadas neste livro partem do pressu-
posto de que os dados sendo analisados são distribuídos normalmente. É possível conferir
a forma de uma distribuição gerando histogramas. Se verificar que os dados desviam acen-
tuadamente de uma distribuição normal, considere utilizar uma das técnicas estatísticas
que não supõem dados normalmente distribuídos. Essas técnicas são denominadas testes
livres de distribuição ou não paramétricos (e serão abordadas no Cap. 16). As descrições a
seguir ilustram as maneiras mais comuns pelas quais uma distribuição pode se desviar da
distribuição normal.
3.10.1 Distribuições assimétricas
Os desvios da normalidade mais comuns são os que resultam da assimetria. As distribui-
ções apresentadas na Figura 3.24 são assimétricas quando comparadas com a distribuição
normal. A distribuição que apresenta uma cauda que se estende à direita é chamada de posi-
tivamente assimétrica (Fig. 3.24[a]). A distribuição que apresenta uma cauda que se estende
à esquerda é chamada de negativamente assimétrica (Fig. 3.24[b]).
Platicúrtica
Leptocúrtica
Mesocúrtica
Figura 3.23 Distribuições variando em termos de valor da curtose.
82 Estatística sem matemática para psicologia
Distribuições assimétricas são aquelas em que o pico está deslocado do centro da distribuição e
existe uma cauda estendida a um dos lados do pico. Uma distribuição negativamente assimétri-
ca é aquela onde o pico se desloca à direita, em direção aos números altos da escala, e a cauda
aponta para os números baixos (ou até mesmo para os números negativos). Uma distribuição
positivamente assimétrica tem o pico deslocado à esquerda, em direção aos números baixos, e
a cauda estendida em direção aos números altos.
Definição
Se uma distribuição apresentar assimetria acentuada, tenha cautela ao utilizar a média
como medida de tendência central, pois os escores das caudas irão distorcer o valor da mé-
dia. Em tais casos, é recomendável que você utilize a mediana ou a moda, que serão mais
representativas do escore típico da sua amostra.
Como no caso da curtose, a saída dada pelo SPSS para as estatísticas descritivas tam-
bém fornece uma medida de assimetria. Aqui, um valor positivo sugere uma distribuição
positivamente assimétrica, enquanto um valor negativo sugere uma distribuição negativa-
mente assimétrica. Um valor zero informa que a distribuição é simétrica. Se observar a
saída mostrada anteriormente, verá um valor de assimetria de 0,46 para a condição “com o
cão”, indicando uma pequena assimetria positiva. Também temos um valor de –0,94 para a
condição “sem o cão”, indicando uma assimetria negativa relativamente grande. Valores de
assimetria em torno de 1 (ou –1) indicam desvios da normalidade que são extremos demais
para que usemos muitas das técnicas estatísticas apresentadas neste livro
VAR00003
17,515,012,510,07,55,02,50,0
Histograma
Fr
eq
uê
nc
ia
7
6
5
4
3
2
1
0
Desvio-padrão � 4,74
Média � 6,6
N � 20,00
VAR00001
Desvio-padrão � 4,74
Média � 13,5
N � 20,00
(a) (b)
17,5 20,015,012,510,07,55,02,5
Histograma
Fr
eq
uê
nc
ia
7
6
5
4
3
2
1
0
Caudas
estendidas
Distribuição
positivamente
assimétrica
Distribuição
negativamente
assimétrica
Figura 3.24 Distribuições positiva e negativamente assimétricas.
Capítulo 3 • Estatística descritiva 83
3.10.2 Distribuições bimodais
Ocasionalmente, obtemos uma distribuição como a representada na Figura 3.25, conhecida
como distribuição bimodal. Essencialmente, ela tem duas modas, embora na maioria dos
casos as barras maiores não tenham a mesma altura. Claramente, essa é uma distribuição
não normal. Ao se defrontar com tal tipo de conjunto, examine sua amostra de perto, pois
pode existir algum fator fazendo com que os dados se agrupem em torno das duas posições
modais. Talvez seja necessário tratá-las como populações diferentes. Se tudo parecer corre-
to, registre que a distribuição é bimodal e quais são as duas modas.
Uma distribuição bimodal é aquela que tem dois picos altos. Ela sugere a existência de duas
populações distintas subjacentes aos dados.
Definição
Um bom exemplo recente de dados distribuídos de forma bimodal é apresentado por
Partington e colaboradores (2013). Nesse estudo, os pesquisadores estavam interessados na
influência da participação em um clube de esportes universitário no consumo de bebidas
alcoólicas. Eles registraram se os participantes pertenciam ou não a um clube esportivo e
mensuraram o consumo de álcool utilizando o Teste de Identificação de Transtornos por
Uso de Álcool (AUDIT, Alcohol Use Disorders Identification Test) (Saunders et al., 1993).
Foram constatados dois grupos de participantes: aqueles com um escore zero no AUDIT
(bebedores leves) e aqueles com escores altos no AUDIT (bebedores crônicos). Em virtude
da distribuição bimodal dos escores do AUDIT, os pesquisadores escolheram, corretamen-
te, usar os testes não paramétricos (cobriremos esses testes no Cap. 16).
VAR00004
40,035,030,025,020,015,010,05,00,0
Histograma
Fr
eq
uê
nc
ia
10
8
6
4
2
0
Desvio-padrão � 13,65
Média � 20,0
N � 40,00
Duas
modas
Figura 3.25 Distribuição bimodal.
84 Estatística sem matemática para psicologia
Reflexão pessoal
Dra. Sarah Partington
Departamento de esporte, exercício e reabilitação
Faculdade de ciências da saúde e da vida
University of Northumbria
ARTIGO: O relacionamento entre a participação nos esportes e o
comportamento de consumo de álcool em estudantes das univer-
sidades inglesas (Partington et al., 2013)
Dra. Partington diz:
“O álcool é frequentemente associado com o esporte, tanto por eventos esportivos patro-
cinadospor marcas de bebidas, quanto pelo seu consumo durante a celebração da vitória ou
para esquecer o infortúnio da derrota. Como trabalhamos na Ciência do Esporte e Exercício,
estávamos particularmente interessados no consumo de álcool por atletas em geral e, parti-
cularmente, por estudantes atletas.
Pesquisas mostram que o consumo excessivo de álcool pode ser prejudicial para o de-
sempenho atlético. A lógica determinaria, portanto, que os atletas universitários não se en-
volveriam com o consumo perigoso e prejudicial de bebidas alcoólicas e consumiriam menos
álcool do que seus colegas não atletas. Evidências de relatos da nossa própria instituição
em conjunto com relatos dos nossos colegas de outras instituições do Reino Unido parecem
indicar o contrário.
Pesquisas anteriores sobre o consumo de álcool pelos atletas nos Estados Unidos, na
Nova Zelândia e na França nos forneceram um quadro ambíguo. Alguns estudos mostraram
que estudantes atletas bebem menos do que os que não estão engajados nos esportes na
universidade, enquanto outros estudos mostraram que estudantes atletas bebem significati-
vamente mais. Com dados não disponíveis para o Reino Unido, não tínhamos ideia de qual era
a situação real dos atletas universitários ingleses. Essas descobertas ambíguas levantaram
uma questão interessante para nós no que se refere à intervenção sobre a bebida, mais pro-
priamente, se a participação nos esportes universitários é um fator de proteção ou um risco
para o consumo perigoso e prejudicial de bebidas alcoólicas?
O objetivo principal do nosso estudo foi comparar o consumo de álcool por participantes
de esportes universitários com estudantes que não estavam engajados nos esportes univer-
sitários. O segundo objetivo foi explorar algumas características específicas do esporte (tipo
e nível) que poderia ter impacto no relacionamento álcool-esporte. Utilizamos o AUDIT para
mensurar o consumo de álcool e problemas relacionados com o uso de bebidas alcoólicas.
Os escores do AUDIT para a amostra como um todo formaram um conjunto bimodal devi-
do ao fato de que alguns dos estudantes não bebiam porque eram abstêmios ou porque esta-
vam naquele momento sem beber por outras razões. Aqueles que participavam dos esportes
universitários tinham escores AUDIT significativamente mais altos do que aqueles que não
participavam dos esportes universitários. Os participantes dos esportes universitários con-
sumiam grandes quantidades de álcool, bebiam mais frequentemente, consumiam grandes
quantidades de álcool em ocasiões típicas, bebiam excessivamente com mais frequência e
corriam mais risco dos efeitos nocivos do álcool do que seus colegas não atletas. Curiosa-
mente, análises posteriores revelaram que, embora não havia diferenças significativas em
relação ao nível competitivo, havia uma diferença significativa entre participantes de esportes
coletivos e daqueles que participavam em esportes individuais.
Foi observado que os participantes de esportes coletivos bebiam significativamente mais
do que aqueles que participavam de esportes individuais. De fato, nossos resultados sugerem
que a diferença nos escores do AUDIT e, consequentemente, os riscos relacionados ao álcool
entre os participantes e não participantes de esportes pode ser explicada, principalmente,
embora não totalmente, pelo comportamento do consumo de álcool daqueles que participam
de esportes coletivos. Nossas descobertas nos levam a concluir que estudantes atletas na
Inglaterra e, mais especificamente, atletas de esportes coletivos podem estar no “grupo de
risco” para problemas relacionados ao consumo de álcool.”
Capítulo 3 • Estatística descritiva 85
Até este ponto, mostramos como é uma distribuição normal e como as distribuições
podem se desviar da normalidade. Por causa da importância da distribuição normal para
a estatística, um dos principais objetivos da representação gráfica dos dados é verificar se
eles estão distribuídos normalmente. Talvez as melhores técnicas gráficas para verificar se
os dados são ou não normalmente distribuídos sejam os histogramas e os diagramas de cau-
le e folhas. Se voltarmos à Figura 3.21(e), veremos um exemplo de um histograma mostran-
do uma distribuição normal. Por outro lado, a Figura 3.3 é um exemplo de uma distribuição
que apresenta uma leve assimetria positiva. Compare-a com a Figura 3.24(a) e verá que elas
são semelhantes na forma.
Uma das limitações do diagrama de caixa e bigodes é que algumas vezes é difícil ve-
rificar se uma distribuição se desvia da normalidade, mas as Figuras 3.26(a) a (c) fornecem
exemplos de distribuições normais e não normais.
(a) Dados distribuídos normalmente
Bigodes iguais em
cada um dos lados
da caixa
DADOS
2
4
6
8
(b) Dados negativamente assimétricos
DADOS
8
(c) Dados distribuídos bimodalmente
DADOS
8
2
4
6
2
4
6
Sem bigode na
parte superior
da caixa
Figura 3.26 Diagramas de caixa e bigodes ilustrando dados (a) distribuídos normalmente,
(b) negativamente assimétricos e (c) distribuídos bimodalmente.
86 Estatística sem matemática para psicologia
A Figura 3.26(a) foi gerada a partir de dados normalmente distribuídos (1, 2, 2, 3, 3,
3, 4, 4, 4, 4, 5, 5, 5, 6, 6, 7) e mostra que a mediana está no centro da caixa e apresenta dois
bigodes de mesmo tamanho. Além disso, não existem valores atípicos.
A Figura 3.26(b) foi gerada a partir de dados negativamente assimétricos (1, 2, 3, 3, 3,
4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5) e mostra que a mediana está deslocada para cima e está próxima
ao limite superior da caixa. Também, não existe bigode saindo do topo da caixa. Esse é
um exemplo extremo, mas sempre que a mediana estiver mais próxima de um dos lados da
caixa, o bigode daquele lado será mais curto ou não existirá, e você deve suspeitar de que
possui dados assimétricos.
Por último, a Figura 3.26(c) foi gerada a partir de dados com distribuição bimodal (1, 2,
2, 3, 3, 3, 3, 3, 4, 4, 5, 5, 5, 5, 5, 6, 6, 7). Surpreendentemente, o diagrama parece exatamente
como o da Figura 3.26(a) e é um bom exemplo para ilustrar que se deve ter muita cautela ao
tentar verificar a normalidade dos dados a partir de um diagrama de caixa e bigodes. Isso
mostra por que histogramas e, de certo modo, diagramas de caule e folhas, são melhores
para indicar se os dados estão normalmente distribuídos. Felizmente, dados apresentando
distribuições bimodais não são muito comuns em pesquisas e, assim, o diagrama de caixa
e bigodes pode fornecer uma indicação razoável de como seus dados estão distribuídos.
Quais das seguintes distribuições são normais e quais não são?
(a)
(b)
(c)
(d)
Atividade 3.9
Capítulo 3 • Estatística descritiva 87
(a)
(b)
(c)
(d)
Ansiedade com a matemática e memória de trabalho em crianças
na idade escolar
Mesmo que esperássemos que todos os pesquisadores utilizando técnicas estatísticas abor-
dadas neste livro fizessem uso de histogramas, a verdade é que é bastante raro que os his-
togramas apareçam em relatórios publicados. Uma boa exceção a isso é o artigo publicado
por Ramirez e colaboradores (2013). Nesse artigo, os pesquisadores relatam um estudo que
investiga a influência da memória de trabalho e a ansiedade com a matemática no desempe-
nho em matemática em crianças da escola primária. Eles solicitaram que os participantes
realizassem uma série de tarefas envolvendo a memória de trabalho e, também, completas-
sem o Questionário de Ansiedade com a Matemática para Crianças (CMAQ – Child Maths Anxiety
Questionnaire) desenvolvido pelos pesquisadores. Na análise do CMAQ, os pesquisadores
apresentam um histograma dos escores do questionário e relataram que ele era aproximada-
mente normalmente distribuído.
Para um artigo mais recente, verifique o artigo publicado por Haaker e colaboradores
(2015) no qual eles apresentam um histograma dos escores do Inventário de Ansiedade Traço-
-Estado de Spielberger (IDATE) para a sua amostra de 377 participantes.
Ansiedade com a matemática
16,0012,008,004,000,00Fr
eq
uê
nc
ia
25
20
15
10
5
0
Exemplo da literatura
88 Estatística sem matemática para psicologia
É bastante útil fazer uso do SPSS para mostrar uma distribuição normal sobreposta a um
histograma. Infelizmente, não é possível fazer isso com a caixa de diálogo Explore. Deve-se
gerar o histograma utilizando o menu Graphs (gráficos), em vez do menu Analyze. Ao clicar
no menu Graphs e selecionar a opção Legacy Dialogs (caixa de diálogo herdada), você notará
que existem opções para todas as técnicas de gráficos descritivos que discutimos até agora:
Selecione a opção
Legacy Dialogs
e depois
a opção Histogram
Selecione a opção Histogram... e a seguinte caixa de diálogo será apresentada:
Verifique se selecionou
a opção Display
normal curve
Para gerar um histograma com uma curva normal, mova a variável de interesse para a
caixa Variable. Selecione a opção que diz Display normal curve (mostrar curva normal). Quando
tiver feito a seleção correta, clique no botão OK para gerar o histograma. O gráfico resultante
conterá a curva normal, como o indicado pela Figura 3.27.
SPSS: gerando curvas normais em histogramas
Capítulo 3 • Estatística descritiva 89
1,2
1,0
0,8
0,6
0,4
0,2
0,0
4,00 6,00 8,00 10,00 12,00 14,00
Média � 8,67
Desvio-padrão � 2,16
N � 6
Caminhar com o cão
Fr
eq
uê
nc
ia
Figura 3.27 Histograma mostrando uma curva de distribuição normal sobreposta.
Você pode ver, a partir do histograma, que o conjunto de dados utilizados não se parece
muito com uma curva normal.
3.11 Relatando as estatísticas descritivas
Embora seja uma boa prática examinar a distribuição dos dados, você verá que muitos
pesquisadores não têm o hábito de relatar os achados de tais práticas. Geralmente, se a
sua distribuição se desvia da normalidade, é bom relatar esse fato. Se as distribuições são
aproximadamente normais, fica a seu critério relatar ou não. Em qualquer caso, você deve
sempre examinar a distribuição dos seus dados, uma vez que ela define os tipos de técnicas
estatísticas que pode utilizar na análise.
Se quiser mencionar a forma pela qual os seus dados estão distribuídos, o exemplo
seguinte é uma boa maneira de relatar as estatísticas descritivas. Em um estudo conduzido
por Reidy e Keogh (1997), pessoas ansiosas e não ansiosas foram comparadas na forma
como interpretavam informações ambíguas. Foi feito, também, um exame sobre a diferença
entre os sexos em tais interpretações. As estatísticas descritivas podem ser relatadas da
seguinte forma:
O estudo foi realizado com 98 estudantes. Os números da média de interpretações
positivas e negativas foram 10,06 e 7,95, respectivamente. O número de interpretações
positivas e negativas dados por homens e mulheres foram comparados. A Tabela 3.1
mostra as médias e os desvios-padrão para esses dois grupos. A tabela mostra que os
homens tiveram mais interpretações negativas do que as mulheres e aproximadamente
o mesmo número de interpretações positivas. Os dois gêneros forneceram mais in-
terpretações positivas do que negativas. Os desvios-padrão mostram que os homens
apresentaram variabilidade um pouco maior em termos de interpretações negativas ou
positivas. O exame dos diagramas de caixa e bigodes revelou que as distribuições são
aproximadamente normais e que não há escores extremos (atípicos).
90 Estatística sem matemática para psicologia
Tabela 3.1 Número médio de interpretações positivas e negativas apresentadas por
homens e mulheres (desvios-padrão entre parênteses)
Mulheres Homens
Interpretações positivas 10,20 (2,32) 9,91 (3,01)
Interpretações negativas 7,27 (2,99) 8,62 (3,55)
Resumo
Neste capítulo, mostramos formas de explo-
rar e descrever dados. Já ressaltamos que é
importante se familiarizar com os dados utili-
zando várias técnicas estatísticas descritivas
e também explicamos como usar e interpretar
tais técnicas. Assim, você aprendeu:
●● como calcular médias, medianas e modas de
forma a obter uma indicação do escore típico
de uma amostra (essas são medidas de ten-
dência central);
●● que erros amostrais ocorrem quando coleta-
mos amostras de populações, e quanto maior
for a amostra que usarmos, menor será o va-
lor do erro amostral;
●● que existem várias técnicas gráficas que
servem de auxílio para entendermos como
os nossos dados estão distribuídos. Elas in-
cluem:
– histogramas de frequências
– diagramas de caule e folhas
– diagramas de caixa e bigodes (box plots)
– diagramas de dispersão (scattergrams)
●● como se parece uma distribuição normal e
por que ela é importante em estatística;
●● que existem várias maneiras pelas quais os
dados coletados podem se desviar de uma
distribuição normal, incluindo:
– distribuições negativamente assimétricas
– distribuições positivamente assimétricas
– distribuições bimodais
●● que uma das mais importantes medidas de
qualquer distribuição é o grau em que os
valores se dispersam e uma das principais
formas de medir isso é por meio do desvio-
-padrão;
●● que o desvio-padrão é o quanto os valores de
uma distribuição se desviam da média.
Exercícios no SPPS
Exercício 1
Você precisa verificar se trocar ou não as lâm-
padas de um escritório de fluorescentes nor-
mais por lâmpadas vermelhas faz com que os
digitadores fiquem mais atentos e, dessa for-
ma, diminua o número de erros que eles come-
tem. Ao fazer isso, você descobre que 20 digi-
tadores diminuíram os seus números de erros
por dia nas seguintes quantidades:
22, 22, 12, 10, 42, 19, 20, 19, 20, 21, 21, 20,
30, 28, 26, 18, 18, 20, 21, 19
1. Qual é a VI nesse estudo?
2. Qual é a VD nesse estudo?
3. Use o SPSS para gerar um diagrama de cai-
xa e bigodes para os escores apresentados.
(a) Os dados estão normalmente distribu-
ídos?
(b) Existem valores atípicos mostrados no
diagrama de caixa e bigodes? Se sim,
quais são eles?
(c) Utilizando o SPSS, qual é a média do
conjunto de valores? Qual é o desvio-
-padrão?
Exercício 2
Um grupo de alunos do último ano decide ver se
as aulas da disciplina do Dr. Boering poderiam
ser mais fáceis de memorizar. Eles decidem
que a melhor maneira de isso acontecer é to-
mar uma droga alucinógena durante as aulas.
Ao final do semestre foi feito uma prova na qual
Capítulo 3 • Estatística descritiva 91
aqueles estudantes que usaram a droga durante
as aulas obtiveram os seguintes resultados (%):
23, 89, 62, 11, 76,28, 45, 52, 71, 28
Aqueles estudantes que não usaram o alucinó-
geno obtiveram os seguintes resultados:
45, 52, 68, 74, 55, 62, 58, 49, 42, 57
1. Qual é a VI nesse estudo?
2. Qual é a VD? A VD é discreta, contínua ou
categórica?
3. Use o SPSS para obter um histograma para
os dois conjuntos de dados e então respon-
da:
(a) Os dois conjuntos de dados são normal-
mente distribuídos?
(b) Use o SPSS para calcular a média e o
desvio-padrão para os dois conjuntos
de resultados. Qual grupo teve a maior
média? Qual grupo teve a maior varia-
ção nos seus escores?
Questões de múltipla escolha
1. Qual das seguintes representa a melhor
estimativa da média populacional?
(a) A média da amostra
(b) A média de várias médias amostrais
(c) A moda de várias médias amostrais
(d) A mediana de várias médias amostrais
2. Se você obtivesse uma amostra de dados
relativamente distribuídos normalmente
que não apresenta valores extremos, que
medida de tendência central usaria?
(a) Moda
(b) Mediana
(c) Média
(d) Nenhuma das alternativas acima
3. Qual das seguintes medidas de tendência
central é sensível a valores extremos?
(a) Moda
(b) Mediana
(c) Média
(d) Nenhuma das alternativas acima
4. Dado o seguinte diagrama, como você descreveria a distribuição?
VAR00001
20,017,515,012,510,07,55,02,5
Histograma
Fr
eq
uê
nc
ia
7
6
5
4
3
2
1
0
Desvio-padrão � 4,74
Média � 13,5
N � 20,00
(a) Normal
(b) Positivamente assimétrica
(c) Negativamente assimétrica
(d) Bimodal
92 Estatística sem matemática para psicologia
5. O desvio-padrão é igual:
(a) à variância
(b) à raiz quadrada da variância
(c) ao quadradoda variância
(d) à variância dividida pelo número de es-
cores
6. Qual é a relação entre tamanho amostral e
erro amostral?
(a) Quanto maior o tamanho amostral,
maior o erro amostral.
(b) Quanto maior o tamanho amostral, me-
nor o erro amostral.
(c) Tamanho amostral é igual a erro amos-
tral.
(d) Nenhuma das alternativas acima
7. A moda é:
(a) a frequência do escore mais comum di-
vidido pelo número total de escores
(b) o escore do meio após a ordenação de
todos os escores
(c) o escore que ocorre com mais frequên-
cia
(d) a soma de todos os escores dividida
pelo número de escores
8. No diagrama de caixa e bigodes, um valor
extremo é caracterizado como:
(a) um valor situado além da caixa interna
(b) um valor situado entre a caixa interna e
os bigodes
(c) um valor situado entre o limite interno e
o valor adjacente
(d) um valor situado entre os dois bigodes
9. A distribuição normal deve possuir qual das
seguintes propriedades?
(a) Forma de sino
(b) Ser simétrica
(c) As caudas devem encontrar o eixo x no
infinito
(d) Todas as alternativas acima
10. Se você seleciona ao acaso uma amostra
de 20 pandas (amostra A) e então seleciona
outra de 300 pandas (amostra B) e calcula
o peso médio para cada uma, qual é a mais
provável de fornecer uma melhor estimati-
va do peso médio da população?
(a) Amostra A
(b) Amostra B
(c) Ambas fornecerão boas estimativas da
média populacional.
(d) Nenhuma delas fornecerá uma boa es-
timativa da média populacional.
11. Que tipo de relação é indicado por um dia-
grama de dispersão onde os pontos se acu-
mulam ao redor de uma linha imaginária
que vai do canto inferior esquerdo até o
topo do canto superior direito?
(a) Positiva
(b) Negativa
(c) Bimodal
(d) Plana
12. Qual é a média do seguinte conjunto de va-
lores: 5, 7, 10, 12, 18, 20, 24, 22, 24, 25?
(a) 145
(b) 17,2
(c) 16,7
(d) 167
13. Se você tem uma distribuição negativa-
mente assimétrica, então:
(a) a média, a mediana e a moda são iguais
(b) a cauda da direita é estendida
(c) a cauda da esquerda é estendida
(d) Nenhuma das alternativas acima
14. Uma distribuição perfeitamente normal:
(a) apresenta forma de sino, é simétrica e
apresenta caudas que se aproximam do
eixo x no infinito
(b) é somente aplicável a pessoas normais
(c) tem média, mediana e moda iguais
(d) Ambas as alternativas (a) e (c) acima
15. Quando você tem variáveis categóricas e
está simplesmente contando a frequência
de ocorrência em cada categoria, então sua
medida de tendência central deve ser:
(a) moda
(b) mediana
(c) média
(d) Nenhuma das alternativas acima
16. Dado o seguinte conjunto de dados (8, 7, 9,
12, 14, 10, 14, 11, 13, 14), quais são os valo-
res da média, mediana e moda?
(a) 11,2; 11,5; 14
(b) 112; 12; 14
(c) 10; 5; 14
(d) 10; 12; 14
17. Se uma distribuição é descrita como plati-
cúrtica, então ela é:
(a) bem afunilada
(b) bem plana
(c) bimodal
(d) bem fina
Capítulo 3 • Estatística descritiva 93
18. Tendo calculado a variância de um conjun-
to de dados com 12 participantes como 36,
qual será o valor do desvio-padrão?
(a) 36
(b) 1.296
(c) 6
(d) 3
19. Qual das seguintes afirmações é verdadei-
ra?
(a) Parâmetros descrevem amostras e es-
tatísticas descrevem populações.
(b) Estatísticas descrevem amostras e po-
pulações.
(c) Parâmetros descrevem populações e
estatísticas descrevem amostras.
(d) Ambas as alternativas (b) e (c) acima.
20. Dado o seguinte diagrama, como você descreveria a distribuição?
VAR00004
40,035,030,025,020,015,010,05,00,0
Histograma
Fr
eq
uê
nc
ia
10
8
6
4
2
0
Desvio-padrão � 13,65
Média � 20,0
N � 40,00
(a) Normal
(b) Positivamente assimétrica
(c) Negativamente assimétrica
(d) Bimodal
Referências
Armitage, C. and Reidy, J. (2011) (unpublished) ‘De-
velopment and validation of a new measure of blood
fear’.
Dunn, K. (2014) Why wait? The influence of academic
self-regulation, intrinsic motivation, and statistics
anxiety on procrastination in online statistics, Inno-
vative Higher Education, 39(1): 33–44.
Haaker, J., Lonsdorf, T. B., Schümann, D., Menz, M.,
Brassen, S., Bunzeck, N., Gamer, M. and Kalisch, R.
(2015) ‘Deficient inhibitory processing in trait anxie-
ty: evidence from context-dependent fear learning,
extinction recall and renewal’, Biological Psycholo-
gy, 111: 65–72.
Latu, I. M., Mast, M. S., Lammers, J. and Bombari, D.
(2013) ‘Successful female leaders empower women’s
behavior in leadership tasks’, Journal of Experimen-
tal Social Psychology, 49(3): 444–8.
Otsuka, Y., Mareschal, I. and Clifford, C. W. (2015)
‘Gaze constancy in upright and inverted faces’, Jour-
nal of Vision, 15(1): 1–14.
Partington, S., Partington, E., Heather, N., Longstaff,
F., Allsop, S., Jankowski, M. and Gibson, A. S. C.
(2013) ‘The relationship between membership of
a university sports group and drinking behaviour
among students at English Universities’, Addiction
Research and Theory, 21(4): 339–47.
94 Estatística sem matemática para psicologia
Ramirez, G., Gunderson, E. A., Levine, S. C. and Beilock,
S. L. (2013) ‘Math anxiety, working memory and math
achievement in early elementary school’, Journal of
Cognition and Development, 14(2): 187–202.
Reidy, J. and Keogh, E. (1997) ‘State and trait factors
under-lying the interpretation of threat/neutral ho-
mophones’, Paper presented at the British Psycholo-
gical Society Cognitive Section Annual Conference.
Saunders, J. B., Aasland, O. G., Babor, T. F. and Grant,
M. (1993) ‘Development of the alcohol use disorders
identification test (AUDIT): WHO collaborative pro-
ject on early detection of persons with harmful al-
cohol consumption – II’, Addiction. 88(6): 791–804.
Tabachnick, B. and Fidell, L. S. (2013) Using Multiva-
riate Statistics, 6th edn, Pearson.
Tukey, J. W. (1977) Exploratory Data Analysis, Rea-
ding, MA: Addison-Wesley.
Respostas das questões de múltipla escolha
1. b, 2. c, 3. c, 4. c, 5. b, 6. b, 7. c, 8. a, 9. d, 10. b, 11. a, 12. c, 13. c, 14. d, 15. a, 16. a, 17. b, 18. c,
19. c, 20. d
4
Probabilidade, amostragem
e distribuições
V I S Ã O G E R A L D O C A P Í T U L O
Nos Capítulos 1 e 3, apresentamos aspectos importantes do delineamento experimen-
tal, assim como os processos iniciais da análise de dados. Neste capítulo, você começa-
rá a tirar conclusões a partir dos seus dados. Com base no seu conhecimento de amos-
tras e populações, explicaremos como somos capazes de generalizar nossos achados
de amostras a populações. Mostraremos como usar dados amostrais para tirar conclu-
sões a respeito de populações, ou seja, você será apresentado à estatística inferencial.
Após uma breve introdução ao mundo das probabilidades, mostraremos como distri-
buições probabilísticas são usadas, tais como a distribuição normal padrão, para fazer
inferências sobre os dados da amostra. Em resumo, neste capítulo você aprenderá:
●● probabilidade e probabilidade condicional;
●● aplicação da probabilidade à pesquisa;
●● distribuição normal padrão;
●● distribuições amostrais;
●● estimativas pontuais e de intervalo dos parâmetros da população;
●● erro-padrão e intervalos de confiança;
●● diagrama de barras de erro.
4.1 Probabilidade
Para aprender estatística, é necessário um bom entendimento do conceito de probabilidade.
Isso não é tão difícil quanto parece, pois a probabilidade se faz presente no dia a dia. Cada
vez que você lança uma moeda, está lidando com probabilidades. Cada vez que você joga
um dado ou compra um bilhete de loteria, está envolvido com probabilidades. O noticiário
é uma das fontes mais comuns de probabilidades: por exemplo, se você é fumante, é maior a
sua probabilidade de desenvolver câncer de pulmão. Da mesma forma, se bebe cerveja com
moderação, seu risco de doença cardíaca coronariana é reduzido (gosto muito dessa, J.R.)
(p. ex., ver Klatsky, 2015).
Probabilidade se refere à chance de um determinado evento ocorrer.
Definição
Esses exemplos deixam claro que probabilidades têm um papel importante na nossa
vida. Então vamos ver mais detalhadamentealguns deles. Se você jogar uma moeda, qual
é a probabilidade de dar cara? A probabilidade é de um para dois quando você lança uma
96 Estatística sem matemática para psicologia
moeda. Isso quer dizer que um em cada dois arremessos da moeda pode resultar em cara.
Probabilidades são geralmente expressas em forma de números decimais de 0 a 1, em que
0 significa que o evento definitivamente não acontecerá e 1 significa que definitivamente
acontecerá.
Quais destes eventos têm probabilidade igual a 0 (ou muito próximo a 0) e quais têm a probabi-
lidade igual a 1 (ou muito próximo a 1)?
(a) A noite seguir o dia.
(b) Todos os políticos nos contarem a verdade sempre.
(c) Você encontrar um cheque de 1 milhão de reais entre as páginas deste livro.
(d) Uma fogueira ser apagada quando se joga água sobre ela.
(e) Escritores terem de aumentar o prazo de entrega de manuscritos de livros.
Atividade 4.1
Para calcular a probabilidade da ocorrência de um evento, como o lançamento de uma
moeda, basta dividirmos o número de ocorrências dos resultados desejados pelo número
total de resultados possíveis. Portanto, no caso do arremesso da moeda, existe um resultado
desejado (cara) em dois resultados possíveis (cara ou coroa). A probabilidade de dar cara
é, portanto, de 1 ÷ 2 (ou 0,5). Probabilidades também podem ser expressas em termos de
porcentagens. Esse tipo de formato é geralmente mais familiar e facilita o seu entendimen-
to. Basta expressar o decimal como um percentual. Logo, a probabilidade de se obter cara
quando uma moeda é arremessada é 50% (0,5 × 100). A probabilidade 0 é expressada por
0% e a probabilidade 1 por 100%.
1. Expresse as seguintes probabilidades em porcentagens:
(a) 0,25
(b) 0,99
(c) 1 ÷ 3
(d) 2 ÷ 10
2. Expresse as seguintes probabilidades em decimais:
(a) 1 ÷ 8
(b) 12 ÷ 20
(c) 30%
(d) 14%
Atividade 4.2
Vamos agora examinar o jogo de dados. Quando jogamos um dado, qual é a proba-
bilidade de sair o número 6? Como temos um resultado desejado (6) em seis resultados
possíveis (1, 2, 3, 4, 5 e 6), a probabilidade de obtermos um 6 é de 1 ÷ 6 ou 0,1667. Qual é a
probabilidade de obtermos um 1 ou um 2? Aqui temos dois resultados desejados (1 ou 2) em
seis resultados possíveis, logo a probabilidade é de 2 ÷ 6 ou 0,3333.
Tente achar a probabilidade de se obter um número par (a resposta está na seção de
respostas no final do livro).
Capítulo 4 • Probabilidade, amostragem e distribuições 97
4.1.1 Probabilidades condicionais
Para o propósito de pesquisa em psicologia, é necessário não somente entender de probabi-
lidade, mas também de probabilidade condicional. A probabilidade condicional é a chance
de um evento acontecer dependendo do acontecimento de outro. Por exemplo, a probabi-
lidade de o Arsenal ganhar a final da Copa Inglesa deste ano pode ser de 70% se todos os
jogadores estiverem em forma, mas pode ser somente de 30% se a maioria dos artilheiros
estiverem lesionados. Essas são probabilidades condicionais, pois dependem da boa forma
física dos jogadores do Arsenal. Outro exemplo desse tipo de probabilidade é a de alguém
comprar este livro de estatística. Normalmente, sabendo que há provavelmente pelo menos
99 outros livros no mercado, a probabilidade de alguém comprar este seria de 1 em 100 (ou
1%). Se o professor recomendar o livro, a probabilidade pode mudar para 1 em 5 (ou 20%).
A probabilidade de 1/5 é uma probabilidade condicional; é a probabilidade de alguém com-
prar o livro com a condição da recomendação do professor. Mencionamos dois exemplos de
probabilidade condicional no início do capítulo. A probabilidade de contrair câncer se você
é fumante é uma probabilidade condicional tanto quanto a probabilidade de adquirir doença
cardíaca coronariana se você beber quantias moderadas de cerveja. É importante entender a
probabilidade condicional, pois ela será discutida no Capítulo 4 quando explicarmos o teste
de hipóteses.
Uma probabilidade condicional é a probabilidade de um evento em particular acontecer se outro
evento (ou um conjunto de condições) aconteceu.
Definição
Quais das seguintes probabilidades são condicionais?
(a) Ser atingido por um raio jogando golfe
(b) Ganhar na loteria
(c) Ganhar uma medalha olímpica sem treinamento
(d) Ter câncer no pulmão se você fumar
(e) Obter um 6 ao jogar um dado
(f) Encontrar uma nota de dez reais entre as páginas deste livro
(g) Haver um voo tripulado para Marte dentro dos próximos 10 anos
(h) Desenvolver doença cardíaca coronariana se você beber quantidades moderadas de cer-
veja
Atividade 4.3
4.1.2 Aplicando probabilidades à análise de dados:
estatística inferencial
A estatística inferencial é uma coleção de técnicas utilizadas para tirar conclusões a partir
de um conjunto de dados. Uma pesquisa é geralmente conduzida com o objetivo de tirar
conclusões de observações, isto é, com o objetivo de fazer inferências. Os estudos das rela-
ções entre saúde mental e procrastinação ou entre fumar cigarros e memória de curto prazo
são feitos para as entendermos melhor. Do mesmo modo, conduzimos um estudo sobre
pessoas que comem bolo de chocolate com ketchup às 6h30 da manhã pelo simples motivo
98 Estatística sem matemática para psicologia
que queremos entender porque cargas d’água alguém faria algo tão estranho. Para respon-
der essas questões precisamos tirar conclusões dos nossos dados.
Que conclusões podem ser tiradas da seguinte descrição de eventos?
Em uma tarde agitada no centro de Wolverhampton, um homem foi visto dobrando uma
esquina e correndo em direção à avenida principal. Ele estava obviamente com pressa
e nem se importava que estivesse empurrando as pessoas no seu caminho. Momentos
depois uma policial também dobrou a esquina correndo em direção à avenida principal.
Uma possível conclusão que podemos tirar dessa descrição é que a policial estava
tentando alcançar o homem e prendê-lo. Na maioria dos casos, essa seria uma dedução
razoável. Entretanto, é possível que a policial estivesse seguindo seu colega à paisana e que
ambos estavam correndo para a cena de um crime.
Podemos ver como é fácil tirar conclusões errôneas em nosso dia a dia. Esse mesmo tipo
de erro pode acontecer na pesquisa psicológica, pois estamos tentando tirar conclusões de
análises estatísticas. Lembre-se de que na maioria das vezes, quando testamos uma amos-
tra de pessoas, estamos tentando tirar conclusões sobre a população de onde a amostra foi
retirada. Se quiséssemos descobrir se a ansiedade está relacionada à procrastinação, sele-
cionaríamos aleatoriamente uma amostra e obteríamos os valores dessas duas variáveis. A
partir desses dados, faríamos inferências sobre a relação dessas duas variáveis na população.
Para esse fim usamos técnicas de estatística inferencial. Entretanto, existe a possibilidade de
tirarmos as conclusões erradas de nossas análises estatísticas. Isso acontece porque as técni-
cas estatísticas que usamos para tirar conclusões são baseadas em probabilidades. Portanto,
é importante estar sempre ciente da falibilidade dessas técnicas.
Estágios de psicologia e benefícios para a carreira
Em um estudo publicado por Moores e Reddy (2012) foram investigados os benefícios poten-
ciais para a carreira de alunos de psicologia da realização de um ano de estágio. Para parte
do estudo, os pesquisadores contataram ex-alunos de psicologia e pediram que eles comple-
tassem um questionário mensurando a satisfação e o sucesso na carreira. Eles também re-
gistraram se os alunos fizeram ou não estágio enquanto estavam na universidade. Os pesqui-
sadores usaram técnicas de estatística inferencial para estabelecer que, para os estudantes
de psicologia, não havia associação entre fazer um estágio e o tipo de trabalho 6 meses após
a graduação. Eles mostraram que os graduandos que fizeram estágio relataram níveis mais
altos de satisfação com a carreira do que aqueles que não fizeram. Esse é um ótimo artigo
porque os autores se dispuseram a explicar ao leitor o que o teste estatístico significavae
isso não é nada comum em artigos publicados. (É também um exemplo muito bom de algumas
técnicas estatísticas não paramétricas que cobriremos no Cap. 16.)
Exemplo da literatura
Reflexão pessoal
ARTIGO: “Sem arrependimentos? Mensurando os
benefícios para a carreira de um ano de estágio em
psicologia”
Dra. Liz Moores e Sr. Peter Reddy, Faculdade das
Ciências da Vida e da Saúde, Aston University,
Birmingham, Reino Unido.
Capítulo 4 • Probabilidade, amostragem e distribuições 99
4.2 A distribuição normal padrão
Já explicamos o que queremos dizer com probabilidade e também, no Capítulo 3, descre-
vemos a família das distribuições conhecidas como distribuições normais. Prosseguire-
mos explicando uma distribuição ainda mais importante: a distribuição normal padrão
(ver Fig. 4.1). A distribuição normal padrão (DNP) é uma distribuição com forma normal,
de média zero e desvio-padrão igual a 1. Devido a essas e outras características, a DNP é
muito útil. Essa distribuição nos permite comparar valores de amostras diferentes, valores
de uma mesma amostra e muito mais.
Para podermos utilizar a distribuição normal padrão na análise dos nossos dados, ge-
ralmente transformamos os valores dos escores amostrais em valores normais padrão. Esse
processo é realizado subtraindo a média de cada escore da amostra e então dividindo a
diferença pelo desvio-padrão. O resultado obtido é chamado de escore-z. Ele é o número
de desvios-padrão a contar da média, isto é, ele indica quantos desvios-padrão o nosso
valor está acima ou abaixo da média. Se você tem um escore-z negativo, então seu valor
Dra. Moores e Sr. Reddy dizem:
“Embora sejamos ambos fortes proponentes do estágio anual, estávamos interessados em
conduzir este estudo para investigar se ele estava realmente cumprindo o que prometera
para os estudantes de psicologia. Um estudo anterior (Reddy e Moores, 2006) havia ilustrado
os benefícios do estágio anual em termos de desempenho acadêmico, mas o que realmente
importa em longo prazo é que os estudantes tenham sucesso na obtenção de bons empregos
e que eles estejam satisfeitos com o seu próprio progresso na carreira. Primeiramente, ana-
lisamos os dados obtidos no questionário “Destino dos Graduados do Ensino Superior” (DLHE
– Destination of Leavers from Higher Education), que é dado a todos os graduados no Reino Unido
em torno de 6 meses após a graduação. Esses dados mostraram que os graduados da Aston
University que obtiveram diplomas com grau 2.1 tinham mais probabilidade de encontrar um
trabalho de nível universitário se tivessem feito o estágio. Em uma pesquisa adicional que
delineamos e conduzimos com ex-alunos de psicologia da Aston University, esse padrão de
emprego persistiu de 18 meses a 6,5 anos após a graduação. Os dados da pesquisa também
mostraram que o programa de estágio deixou os ex-alunos mais satisfeitos com suas carrei-
ras, mas que não ganhavam significativamente mais que os outros. Esperamos que esses re-
sultados sejam úteis tanto para quem elabora políticas quanto para os estudantes na decisão
de investir ou não em um ano de estágio.”
�3 �2 �1 0 1 2 3
Média 0,
desvio-padrão 1
Figura 4.1 A distribuição normal padrão.
100 Estatística sem matemática para psicologia
está abaixo da média; se o escore-z é positivo, então ele está acima da média. Portanto, um
escore-z igual a 1 informa que ele está um desvio-padrão acima da média.
Usaremos um exemplo para explicar melhor. A média dos valores de QI em testes de in-
teligência é 100 com um desvio-padrão de 15. Se você tem um QI de 135, seu escore-z seria:
Isso quer dizer que seu QI está 2,33 desvios-padrão acima da média.
Escores-z são também chamados de escores padronizados. Você pode converter qualquer es-
core de uma amostra em um escore-z subtraindo a média amostral do valor e dividindo o
resultado pelo desvio-padrão da amostra.
Definição
Uma vez que convertemos nossos escores para escores-z, podemos usar a DNP de vá-
rias maneiras. A DNP é uma distribuição de probabilidade. O lado bom das distribuições
de probabilidade é que existe uma probabilidade associada a cada escore da distribuição,
isto é, sabemos a probabilidade de se selecionar aleatoriamente qualquer valor da distribui-
ção. Além disso, sabemos também a probabilidade de se obter um valor entre quaisquer dois
valores da distribuição (p. ex., um valor entre –1 e +1). Uma característica importante das
distribuições de probabilidade é que a área sob a curva entre quaisquer dois pontos espe-
cíficos representa a probabilidade de obter valores entre esses dois pontos. Por exemplo, a
probabilidade de obter valores entre –1 e +1 na distribuição normal padrão é de aproxima-
damente 68% (ver Fig. 4.2). Isso quer dizer que 68% da área total sob a curva normal padrão
está situada entre –1 e +1 desvio-padrão a contar da média. É importante lembrar que a
probabilidade referida aqui é a probabilidade de selecionarmos valores aleatoriamente da
distribuição. Logo, existe uma probabilidade de 68% de selecionarmos aleatoriamente um
valor entre –1 e +1. Da mesma maneira, a probabilidade de se obter um valor entre –1,96 e
+1,96 desvio-padrão é de aproximadamente 95% (ver Fig. 4.3).
Uma distribuição de probabilidade é uma distribuição de valores em que conhecemos as proba-
bilidades associadas à ocorrência de cada valor se a variável for discreta e sabemos qual é a
probabilidade da seleção aleatória de um conjunto de valores da distribuição se a variável for
contínua.
Definição
Devido a essas características, podemos utilizar a DNP para encontrar a probabilidade
de se obter valores em qualquer intervalo da distribuição. Poderíamos calcular a probabi-
lidade de obter um escore-z de 2 ou mais na DNP ou poderíamos achar a probabilidade de
obter um escore-z entre 1 e 2. Você notará que escores-z extremos, digamos que acima de
2 e abaixo de –2, têm uma chance bem menor de serem obtidos do que escores-z no meio
da distribuição. Devemos, então, concluir que as áreas da curva acima de 2 e abaixo de –2
são pequenas em comparação às áreas entre –1 e 1 (ver Fig. 4.4). Relacionaremos esse fato a
exemplos mais concretos como a altura de homens. Se considerarmos valores acima de 2 e
abaixo de –2 como os extremos de medidas de altura de homens, digamos acima de 2 m ou
abaixo de 1,4 m, torna-se evidente que é muito menos provável acharmos homens acima ou
abaixo dessas alturas do que homens entre 1,65 m e 1,83 m.
Capítulo 4 • Probabilidade, amostragem e distribuições 101
68% é a probabilidade de selecionarmos
aleatoriamente um valor entre estes dois escores
A área sombreada
representa 68% da
área sob a curva total
�1 e �1 desvio-padrão
a partir da média
�3 �2 �1 0 1 2 3
Figura 4.2 Porcentagem da curva normal padrão entre –1 e +1 desvio-padrão.
�3 �2 �1 0 1 2 3
�1,96 e �1,96
desvio-padrão
a partir da média
95% é a probabilidade de selecionarmos
aleatoriamente um valor entre estes dois escores
A área sombreada
representa 95% da
área sob a curva total
Figura 4.3 Porcentagem da curva normal padrão entre –1,96 e +1,96 desvio-padrão.
Felizmente, quando trabalhamos com a distribuição normal padrão, não temos de cal-
cular as áreas sob a curva, isto é, as probabilidades. Elas já foram calculadas para nós e
convenientemente listadas em tabelas para o nosso uso. (Essa tabela está no Apêndice 1 no
final do livro.)
102 Estatística sem matemática para psicologia
A distribuição normal padrão é a distribuição dos escores-z. Ela é uma distribuição de proba-
bilidade com a forma normal que tem uma média (como também mediana e moda) de zero e
desvio-padrão de 1.
Definição
Outro aspecto útil da DNP é que podemos utilizá-la para calcular a porção da po-
pulação que teria um valor acima ou abaixo do seu escore. Lembre-se, quando falamos
de proporções aqui queremos pensar sobre a área abaixo da curva normal padrão. Aqui
é quando precisamos consultar as tabelas da distribuição normal padrão encontradas em
muitos textos estatísticos (ver Apêndice1). Na Figura 4.5, podemos ver que o QI de 135 está
a 2,33 desvios-padrão acima da média, como calculamos anteriormente. A área sombreada
representa aqueles que teriam um escore menor do que alguém com um QI de 135. A área
não sombreada representa aqueles que teriam um escore maior do que isso.
Para descobrir que proporção da população teria um escore menor do que esse, basta
consultar a tabela da distribuição normal padrão. Essa tabela é apresentada geralmente em
diferentes formatos, mas a informação contida é essencialmente a mesma. (A Tab. 4.1 apre-
senta um excerto do Apêndice 1.)
�3 �2 �1 0 1 2 3
A área do meio é maior
do que a dos extremos
Figura 4.4 Áreas do meio e os extremos da distribuição normal padrão.
Tabela 4.1 Excerto da tabela estatística com detalhes da distribuição normal padrão
Detalhes do escore-z de 2,33 Proporção da curva baixo do seu escore
Escore-z Proporção abaixo Proporção acima
2,31 0,9896 0,0104
2,32 0,9898 0,0102
2,33 0,9901 0,0099
2,34 0,9904 0,0096
2,35 0,9906 0,0094
Capítulo 4 • Probabilidade, amostragem e distribuições 103
Podemos ver a partir disso que os valores na coluna denominada “Proporção abaixo”
representam a área sob a curva abaixo de qualquer escore-z. A tabela nos diz que a propor-
ção que está abaixo do escore-z de 2,33 é 0,9901. Isso significa que 99,01% da área sob a
curva está abaixo do escore de QI de 135. Se você quisesse saber que proporção da curva
está acima desse escore, poderia simplesmente subtrair essa proporção de 1. Nesse caso,
0,0099 da área da curva está acima do seu escore, ou menos do que 1%. Esse valor está na
Tabela 4.1 na coluna “Proporção acima”.
Note que as tabelas tendem a conter somente escores-z positivos, isto é, aqueles que
se encontram acima da média. Se você obter um escore-z negativo, utilize a mesma tabela,
mas ignore o sinal negativo do escore-z para descobrir as áreas acima e abaixo do seu esco-
re. Entretanto, como o seu escore está abaixo da média, a proporção apresentada na coluna
“Proporção abaixo” deve ser lida como proporção da curva que está acima do seu escore
(ver Fig. 4.6).
Outro exemplo deve ajudar a esclarecer o cálculo dessas proporções. Digamos que você
tenha tido um péssimo dia quando fez o seu teste de QI e conseguiu um resultado de somen-
te 95 pontos. Que porcentagem da população está abaixo do seu escore?
100
QI
135
Média de 100
Proporção da curva
abaixo do nosso escore
2,33 desvios-padrão
acima da média
99,01%
Figura 4.5 Distribuição normal mostrando a proporção da população com um QI menor
que 135 (escore-z de 2,33).
QI
Escore-z positivo
2,33 QI
Escore-z negativo
�2,33
Porção maior
abaixo do seu escore-z
Porção maior
acima do seu escore-z
99,01%99,01%
Figura 4.6 Ilustração das proporções da curva abaixo de um escore-z positivo e acima de
um negativo.
104 Estatística sem matemática para psicologia
Podemos converter esse escore em um escore-z, assim:
Agora temos um escore-z negativo. Se consultarmos as tabelas de DNP (ver Tab. 4.2),
veremos que a proporção abaixo do seu escore é de 0,3707 (ou 37,07%). A Figura 4.7 mostra
que, como seu escore está abaixo da média, a porção menor será aquela que está abaixo do
seu escore. Portanto, a tabela informa que 37,07% da população apresenta escores abaixo e
62,93% apresenta escores acima do seu QI. (Lembre-se de que, quando consultar o Apêndi-
ce 1 para escores-z negativos, a proporção abaixo do seu escore estará na coluna “Proporção
acima” e vice-versa.)
95 QI
62,93%
Média de 10037,07% estão
abaixo do escore 95
Figura 4.7 Proporção da população acima e abaixo do valor do QI igual a 95.
Tabela 4.2 Extrato da tabela do escore-z dando detalhes da proporção acima e abaixo de
um escore-z de 0,33
Escore-z Proporção abaixo Proporção acima Como seu escore-z é negativo,
temos que olhar a coluna
“Proporção abaixo” para
encontrar a proporção da
distribuição acima do seu
escore e vice-versa
0,31 0,6217 0,3783
0,32 0,6255 0,3745
0,33 0,6293 0,3707
0,34 0,6331 0,3669
0,35 0,6368 0,3632
Se você tem um escore-z negativo, ele se encontra acima ou abaixo da média? Um escore-z ne-
gativo significa que a maioria da população tem um escore mais alto ou mais baixo que o seu?
Atividade 4.4
Capítulo 4 • Probabilidade, amostragem e distribuições 105
4.2.1 Comparando populações
Também podemos utilizar a distribuição normal padrão para comparar diferentes situações.
Por exemplo, suponhamos que você esteja indeciso sobre sua futura carreira, mas sabe
que gostaria de fazer cerâmica ou levantamento de peso. Você decide fazer um curso em
cada uma dessas áreas para avaliar seu desempenho e escolher melhor sua futura carreira.
No fim dos cursos, você descobre que sua nota foi de 64% para cerâmica e de 45% para
levantamento de peso. Com base nesses resultados, você poderia justificar sua escolha para
seguir uma carreira como um ceramista em vez de um levantador de peso. Você tomou a
decisão correta? Para ter uma ideia melhor, precisa se comparar com outros em cada um dos
grupos. Você pode descobrir que é pior em cerâmica em comparação ao resto do grupo do
que é em levantamento de peso. Para fazer tais comparações, precisa converter seus escores
em escores-z. Vamos supor que a média e o desvio-padrão para a cerâmica são 56 e 9%,
respectivamente, e para o levantamento de peso, 40 e 4%. Seu escore-z para cerâmica seria
1 e para o levantamento de peso seria 1,25.
Escore-z para cerâmica Escore-z para levantamento de peso
Assim, você está 1 desvio-padrão acima da média em cerâmica e 1,25 desvio-padrão
acima da média em levantamento de peso. Portanto, você está melhor em levantamento de
peso do que em cerâmica. Consequentemente, deveria escolher o levantamento de peso
como carreira.
Mudanças no IMC de crianças preveem a percepção dos
professores nas habilidades de leitura e matemática
Em um interessante e recente estudo de Kenney e colaboradores (2015), os pesquisadores
compararam o desempenho matemático e de leitura das crianças, assim como a percepção
dos professores em relação à habilidade de leitura e em matemática, em um período de 3
anos (da quinta a oitava série). Eles estavam interessados em verificar se o índice de massa
corporal (IMC) das crianças nesse período estava relacionado ao desempenho na leitura e em
matemática, bem como as percepções dos professores na habilidade da leitura e em matemá-
tica. Como o estudo durou mais de 3 anos, os pesquisadores calcularam os escores-z para o
IMC a cada ano. Eles relataram que a mudança nos escores-z do IMC ao longo dos 3 anos não
estava associada a qualquer mudança nas habilidades de leitura e em matemática. Entretanto,
um aumento nos escores-z do IMC no decorrer desses anos estava associado à percepção
reduzida do professor na habilidade de matemática para meninos e na habilidade de leitura
para meninas.
Exemplo da literatura
Vamos supor que suas notas em matemática e inglês são 65 e 71%, respectivamente. Qual é
sua melhor matéria em comparação a outros no seu grupo se as médias dos grupos e desvios-
-padrão são 60 e 5 (para matemática) e 65 e 7 (para inglês)?
Atividade 4.5
106 Estatística sem matemática para psicologia
4.3 Aplicando probabilidade à pesquisa
Anteriormente, esclarecemos que a probabilidade de um evento acontecer pode ser expressa
como um decimal ou como uma porcentagem. Por exemplo, quando você joga um dado tem uma
probabilidade de 0,1667 (ou 16,67%) de obter o número 1. Da mesma maneira, se houver uma
probabilidade de 0,05 (ou 5%) de sofrer um acidente enquanto dirige, aproximadamente 1 vez
em cada 20 que você dirigisse resultaria em acidente. Tal probabilidade pode ser dependente de
algum outro fator, como falar no celular enquanto dirige. Nesse caso, diríamos que a probabili-
dade de você ter um acidente enquanto dirige o seu carro falando no celular seria de 5%. Esse
é um exemplo de probabilidade condicional. A probabilidade de 5% de você ter um acidente
enquanto dirige o seu carro é condicional ao fatode você dirigir e conversar ao celular.
Você deve estar pensando que isso tudo parece muito sensato, mas o que a probabilidade
tem a ver com o uso da estatística na pesquisa? Na pesquisa, normalmente generalizamos re-
sultados de amostras a populações. Como discutido anteriormente (na seção 3.3), toda vez que
utilizamos amostras corremos riscos de cometer erros de amostragem. Isso significa que não
sabemos se o padrão de resultados que obtivemos em nossas amostras realmente reflete o que
está acontecendo nas populações ou é simplesmente resultado do erro de amostragem. Seria
útil se pudéssemos calcular uma probabilidade que nos permita decidir se nosso padrão de des-
cobertas é provavelmente um efeito genuíno na população ou simplesmente apareceu devido ao
erro amostral. Se existe somente uma pequena possibilidade de apenas o erro de amostragem
produzir nosso padrão de resultados, poderíamos concluir que nossas amostras refletem acu-
radamente as populações.
Uma das maneiras mais simples de aplicar probabilidade à pesquisa é estimar parâmetros
populacionais a partir de estatística amostral e calcular intervalos de confiança. Nas próximas
seções serão apresentados conceitos necessários para calcular intervalos de confiança, e expli-
caremos por que eles são importantes para tirar conclusões de pesquisas. Descreveremos as dis-
tribuições amostrais e destacaremos suas principais características. Logo após, será explicado
como a distribuição amostral da média pode ser utilizada para determinar a qualidade de nossa
estimativa (média da amostra), em relação à média populacional, por intermédio de intervalos
de confiança.
4.4 Distribuições amostrais
No Capítulo 3, foi explicado como a média da amostra pode ser usada para estimar a média da
população. Além disso, vimos que, ao tirarmos várias amostras e depois calcularmos a média
das médias dessas amostras, esse resultado será uma estimativa melhor da média da popula-
ção do que as médias das amostras individuais (ver seção 3.2.5). Além disso, observamos que
amostras maiores são mais prováveis de incluir indivíduos que tenham escores acima da média,
bem como aqueles que têm escores abaixo da média da população, e que tais amostras dão me-
lhores estimativas da média da população. Então, quanto maior for o tamanho da amostra que
utilizarmos, melhor será nossa estimativa da média da população.
Quando expressa a estatística amostral calculada a partir de todas as amostras possíveis
retiradas de uma dada população em um histograma de frequências, você determina a distri-
buição amostral. Portanto, se calcular as médias de muitas amostras de uma população espe-
cífica, você terá traçado a distribuição amostral da média. Uma propriedade interessante das
distribuições amostrais da média é que, se elas são determinadas a partir de um número bastante
grande de amostras, elas sempre apresentarão uma forma aproximadamente normal. Além dis-
so, quanto mais amostras forem utilizadas, mais próxima da normal estará a resultante distri-
buição amostral. Essa descoberta está resumida no Teorema Central do Limite, que declara que,
à medida que o tamanho das amostras que selecionamos aumenta, mais próxima da população
estará a média dessas médias amostrais e mais próxima de uma normal estará a distribuição das
médias amostrais.
Capítulo 4 • Probabilidade, amostragem e distribuições 107
Uma distribuição amostral é uma distribuição hipotética. Ela é uma seleção de um número in-
finito de amostras de uma população com o cálculo de uma determinada estatística (p. ex.,
uma média) para cada amostra. Quando traça todas essas estatísticas em um histograma de
frequências, você tem uma distribuição amostral.
Definição
Talvez seja surpreendente que a distribuição amostral da média seja normal, não im-
portando como a população esteja distribuída. A população pode ser assimétrica de alguma
maneira ou ser bimodal ou mesmo uniforme e, ainda assim, teremos distribuições amostrais
aproximadamente normais.
O exemplo a seguir serve como ilustração. Imagine que quando você nasceu alguém co-
meçou a jogar um dado e registrar os resultados. Essa pessoa jogou o dado uma vez a cada dois
segundos por toda sua vida ao longo de 80 anos (algo nada interessante para alguém fazer, mas
vamos lá). Agora, se traçarmos a distribuição de todos os lances do dado (a população de todos
os lances do dado ao longo da sua vida), ela provavelmente seria semelhante à distribuição da
Figura 4.8.
Como cada número do dado tem uma probabilidade igual de acontecer (1 em 6), é espera-
do que cada número tenha aparecido com aproximadamente a mesma frequência ao longo de
sua vida. Portanto, a população de todos os lances do dado durante esse período tem uma dis-
tribuição plana ou uniforme. Considerando que os números ocorreram com igual frequência,
então a média da população de lances é 3,5. Se escolhermos aleatoriamente 5 amostras de 10
lances do dado dessa população, poderíamos obter o seguinte:
1, 5, 1, 2, 6, 6, 4, 1, 4, 6
1, 2, 2, 2, 6, 5, 3, 3, 6, 4
4, 2, 1, 6, 6, 5, 3, 5, 5, 2
3, 5, 2, 4, 2, 2, 1, 4, 3, 4
4, 2, 1, 1, 2, 6, 6, 5, 3, 4
média 3,6
média 3,4
média 3,9
média 3,0
média 3,4
Lances
do dado
Média
1 2 3 4
Número no dado
5 6
Fr
eq
uê
nc
ia
320.000.000
210.000.000
100.000.000
Figura 4.8 Histograma mostrando a distribuição da população de lances de um dado.
108 Estatística sem matemática para psicologia
Nota-se que as médias das amostras são boas aproximações da média 3,5 da população,
embora elas variem consideravelmente. Entretanto, se a média das médias fosse calculada,
teríamos uma aproximação ainda melhor da média da população:
Vamos agora traçar as médias das amostras como uma distribuição de frequências, isto
é, traçar uma aproximação da distribuição amostral (ver Fig. 4.9).
A Figura 4.9 mostra que a distribuição não é plana como a da população dos lances do
dado. Para melhor ilustrar esse contraste, temos que tirar mais amostras de 10 lances do
dado. O gráfico na Figura 4.10 é a distribuição amostral de 100 de tais médias amostrais.
Médias amostrais dos lances do dado
Fr
eq
uê
nc
ia
3,0-3,1 3,2-3,3 3,4-3,5 3,6-3,7 3,8-3,9
0,5
1,0
1,5
2,0
2,5
Figura 4.9 Histograma mostrando a distribuição das médias de 5 amostras de 10 lances
de um dado retiradas da população de lances de um dado.
35
28
21
14
7
2,4-2,5
Médias amostrais dos lances do dado
Fr
eq
uê
nc
ia
2,6-2,7 2,8-2,9 3,0-3,1 3,2-3,3 3,6-3,73,4-3,5 3,8-3,9 4,0-4,1 4,2-4,3 4,4-4,5
Figura 4.10 Histograma mostrando a distribuição das médias de 100 amostras de 10 lan-
ces de um dado retiradas da população de lances de um dado.
Capítulo 4 • Probabilidade, amostragem e distribuições 109
Embora a população tenha uma distribuição uniforme, a distribuição amostral da mé-
dia é aproximadamente normal em formato. Esse seria o caso para qualquer distribuição
amostral traçada.
Vá para o site da National Lottery do Reino Unido (www.national-lottery.co.uk) e dê uma olhada
nos resultados anteriores. Para encontrá-los, clique no link Check Results (confira os resulta-
dos) no topo da página e então clique no link Draw History (histórico) do jogo. Esses resultados
da loteria representam uma amostra aleatória da população. A população consiste das 49 bo-
las de onde serão extraídas amostras de tamanho 7 (6 bolas mais 1 bola bônus). Olhe os cincos
resultados mais recentes e para cada um calcule a média dos números das bolas sorteadas.
Como isso é comparado com a média de todas as bolas da população (que é 25)? Represente
o resultado como um histograma de frequências. Ele é plano? Agora calcule a média de cada
um dos últimos 30 resultados e represente esses valores em um histograma. O diagrama é
semelhante a uma distribuição plana?
Atividade 4.6
4.5 Intervalos de confiança e erro-padrão
Embora tenhamos conhecimento de que a média da amostra é uma aproximação da média
da população, geralmente não temos muita certeza da precisão dessa aproximação. Osin-
tervalos de confiança podem nos ajudar nessa dúvida.
Em virtude de a média da amostra ser um valor ou ponto de uma variável, ela é conheci-
da como estimativa pontual da média da população. A média da amostra representa um pon-
to da variável e por esse motivo não sabemos se a nossa média amostral é uma subestimação
ou uma sobrestimação da média populacional. Além disso, não sabemos realmente qual a
proximidade da nossa média da amostra com a da população. Então, seria útil se tivéssemos
alguma maneira de saber aproximadamente onde está a média da população. Felizmente,
temos uma maneira de descobrir calculando um intervalo de confiança. Os intervalos de
confiança para a média são estimativas intervalares para a média populacional, isto é, eles
nos fornecem um conjunto de valores em torno da média amostral (um intervalo) dentro do
qual podemos dizer com determinada confiança se ele contém a média da população.
Uma estimativa pontual é a uma estimativa por um único número de um valor desconhecido,
enquanto uma estimativa intervalar é um intervalo no qual achamos que o número desconhecido
estará. Geralmente, em termos estatísticos, o número desconhecido que estamos estimando é
um parâmetro da população, como a média da população. Um intervalo de confiança é um con-
junto de valores que, com determinada probabilidade (geralmente 95%), conterá o parâmetro
da população.
Definições
Por exemplo, digamos que aplicássemos a uma amostra de pessoas o Inventário de
Depressão de Beck (IDB; Beck et al., 1961). O questionário avalia a depressão e os escores
podem variar de 0 a 63. Vamos dizer que a média da nossa amostra no IDB seja 10,72. So-
mente com esse exemplo não temos como saber a proximidade desse resultado da média
da população (ver Fig. 4.11[a]). Seria vantajoso se pudéssemos dar uma indicação da proxi-
midade desse número da média da população. Vamos pensar logicamente nessa situação.
Como o menor escore no questionário é 0 e o maior é 63, podemos ter 100% de certeza de
http://www.national-lottery.co.uk
110 Estatística sem matemática para psicologia
que a média da população está em algum lugar entre estes dois valores (ver Fig. 4.11[b]).
Esse é um intervalo de confiança. Ele, no entanto, não é muito informativo. Podemos usar
as características das distribuições amostrais para estreitar esse intervalo, ainda que tam-
bém possamos estar reduzindo a confiança de que ele contenha a média da população.
Geralmente fixamos intervalos de 95% de confiança e frequentemente esses intervalos são
bem estreitos (dependendo do tamanho da amostra utilizada). No nosso exemplo, nota-se
que estamos 95% confiantes de que a média da população está entre 2,72 e 18,72 (ver Fig.
4.11[c]). Esse resultado é consideravelmente mais preciso do que dizer que ela está entre 0
e 63. Ele nos fornece uma ideia bem melhor de onde a média populacional possa estar em
relação à amostral.
É importante lembrar que, devido ao fato de estarmos trabalhando com estimativas,
não temos garantia de que o intervalo realmente envolverá a média da população. Então,
0 63
10,72
Média da
amostra
Média da
amostra
A média populacional pode estar
em qualquer lugar ao longo desta linha
0 63
10,72
100% de certeza de que a média
populacional está entre estes dois pontos
0 63
10,72
95% de certeza de que a média
populacional está entre estes dois pontos
2,72 18,72
(a)
(c)
(b)
Média da
amostra
Este intervalo depende
do tamanho da amostra
Figura 4.11 Ilustração da forma pela qual os intervalos de confiança auxiliam na percep-
ção de onde a média da população está em relação à média da amostra.
Capítulo 4 • Probabilidade, amostragem e distribuições 111
devemos dar uma indicação do quanto confiantes estamos de que o intervalo calculado con-
tenha a média da população. Daí o termo “intervalos de confiança”. A rigor, os intervalos de
confiança não nos dão uma amplitude dentro da qual está o parâmetro da população, mas, ao
contrário, eles nos dizem que se replicarmos um estudo, digamos 100 vezes, então, em um
determinado número desses 100, o intervalo calculado irá conter o parâmetro populacional.
Anteriormente, descrevemos como as distribuições amostrais tendem a ser normal-
mente distribuídas. Além disso, foi informado que a média da distribuição amostral é uma
boa aproximação da média populacional. Tal conhecimento implica que, independentemen-
te da forma da população, sempre sabemos qual o formato da distribuição amostral. Isso é
importante, pois nos dá um bom discernimento sobre a população a partir das estatísticas
amostrais.
Você já sabe que a distribuição normal é uma função de sua média e desvio-padrão (ver
Cap. 3). Isso quer dizer que se soubermos o desvio-padrão e a média, podemos desenhar
qualquer curva normal. Dado que a distribuição amostral da média é uma normal, ela deve
também ser uma função de sua média e seu desvio-padrão. Consequentemente, uma vez
que soubermos a média e o desvio-padrão da distribuição amostral da média, podemos
facilmente obter seu gráfico. Podemos usar essas informações como auxílio para calcular
os intervalos de confiança.
Vamos supor que temos a distribuição amostral da Figura 4.12. O ponto de interroga-
ção na figura indica que não sabemos o valor da média da população (que é aproximada-
mente a média das médias das amostras). Digamos que selecionamos uma amostra e obte-
mos sua média. Como não sabemos a média da população, não podemos ter certeza de onde
na distribuição nossa média amostral estará; ela pode estar acima, abaixo ou ser exatamente
a mesma da média da população (ver Fig. 4.13).
Como resolveremos a difícil questão de identificar a proximidade da média da popu-
lação à média da amostra? Em primeiro lugar, precisamos usar a distribuição amostral da
média. Explicamos previamente duas importantes características da distribuição amostral
da média:
●● ela é sempre aproximadamente uma distribuição normal; e
●● sua média é uma boa aproximação da média da população.
Essas duas características significam que podemos plotar uma distribuição normal que
sabemos conter uma boa aproximação à média da população. Podemos, então, usar as ca-
racterísticas da distribuição normal para fazer uma estimativa da proximidade da nossa
?
Figura 4.12 Distribuição amostral com média das médias das amostras desconhecida.
112 Estatística sem matemática para psicologia
média amostral à média da população. Vamos considerar a Figura 4.14 como um exemplo
de tal distribuição amostral.
A Figura 4.14 mostra que a média amostral se encontrará a alguns desvios-padrão
acima ou abaixo da média da população. Além disso, ao examinar a distribuição, temos
confiança de que a nossa média amostral estará no intervalo entre –3 e +3 desvios-padrão,
como ocorre com a maior parte dos valores da distribuição. De fato, se considerarmos os
escores-z da distribuição normal, podemos calcular a probabilidade de esse escore estar
?
A média da amostra pode estar acima,
abaixo ou ser igual à média da população
Figura 4.13 A localização da média da amostra em relação à média da população é des-
conhecida.
?
A média da amostra pode estar acima,
abaixo ou ser igual à média da população
�3 �2 �1 1 2 3
Figura 4.14 A média da amostra encontra-se a certo número de desvios-padrão acima ou
abaixo da média da população.
Capítulo 4 • Probabilidade, amostragem e distribuições 113
no intervalo entre –3 e +3 desvios-padrão. Isso provavelmente terá o valor de 99,74%. Isso
nos sugere que podemos estar 99,74% certos de que a média amostral estará entre –3 e +3
desvios-padrão da média da população. Suponhamos agora, como geralmente é o caso, que
queremos estar 95% certos de que um intervalo da variável contenha a média amostral.
Calculamos a probabilidade novamente olhando para as áreas sob a curva normal. Na seção
4.2, vimos que 95% da área sob a distribuição normal padrão está entre –1,96 e +1,96 des-
vio-padrão (ver Fig. 4.15). Então, podemos ter 95% de confiança quenossa média amostral
poderá estar no intervalo entre –1,96 e +1,96 desvios-padrão da média da população.
Para ilustrar, vamos supor que a média amostral está em algum lugar acima da média
da população. Se desenharmos a distribuição baseada na média amostral em vez de na mé-
dia da população, teremos a situação ilustrada na Figura 4.16.
95% de con�ança de que a média da
amostra encontra-se dentro desta região
?�3 �2 �1 1 2 3
Figura 4.15 A porcentagem da curva (95%) está entre –1,96 e +1,96 desvio-padrão.
?
A curva foi movida para cima
para ficar ao redor da média amostral
Média da população Média da amostra
�3 �2 �1 1 2 3�
Figura 4.16 Localização da média populacional onde a distribuição é desenhada em torno
da média amostral.
114 Estatística sem matemática para psicologia
Podemos agora aplicar a mesma lógica que usamos há pouco para prever onde a média
amostral está em relação à média da população. Podemos ter bastante confiança de que a
média da população está em algum lugar entre 1,96 desvios-padrão abaixo da média amos-
tral. Da mesma maneira, se a média amostral está abaixo da média da população, podemos
ter certeza de que a média da população está a 1,96 desvios-padrão acima da média amos-
tral (ver Fig. 4.17). Consequentemente, podemos estar certos (95% de confiança) de que a
média da população está dentro da região a 1,96 desvio-padrão acima ou abaixo da média
amostral. O truque aqui é encontrar uma distribuição normal em que saibamos qual é o des-
vio-padrão e que também tenha uma média que seja igual à média da população. Felizmen-
te, já conhecemos uma distribuição amostral que tem a média da população como a média e
é distribuída normalmente: é a distribuição amostral da média, se você se lembra da seção
4.4. Lembre-se que, se coletarmos um grande número de amostras de mesmo tamanho e
para cada amostra calcularmos a média, quando representarmos graficamente essas médias
amostrais, elas estarão distribuídas normalmente. Sabemos, também, que a média de to-
das as médias amostrais será uma boa estimativa da média da população. Se conhecermos
também o desvio-padrão desta distribuição normal, podemos usar a mesma lógica que apli-
camos anteriormente (ver Figs. 4.14 a 4.17) para tentar estimar onde a média da população
pode estar em relação à média amostral. Para fazer isso tudo, o que precisamos conhecer
está bem próxima da média amostral e o desvio-padrão da distribuição amostral da média.
Assim, como podemos calcular o desvio-padrão da distribuição amostral da média?
4.5.1 Erro-padrão
O desvio-padrão da distribuição amostral da média é um conceito importante chamado
de erro-padrão. O erro-padrão, portanto, fornece uma medida do grau com que as médias
amostrais se desviam da média das médias amostrais. Dado que a média das médias amos-
trais está bem próxima da média da população, o erro-padrão da média nos diz também
?
A curva foi movida para baixo
para ficar ao redor da média amostral
Média da amostra Média da população
�3 �2 �1 1 2 3�
Figura 4.17 Distribuição traçada em torno da média amostral quando ela está abaixo da
média populacional.
Capítulo 4 • Probabilidade, amostragem e distribuições 115
qual é o grau em que as médias amostrais se afastam da média populacional. Consequente-
mente, uma vez que somos capazes de estimar o erro-padrão, podemos usar essa informa-
ção para descobrir o quanto precisa é a nossa estimativa da média da população.
O erro-padrão se refere ao desvio-padrão de uma distribuição amostral em particular. No con-
texto da distribuição amostral da média, o erro-padrão é o desvio-padrão de todas as médias
amostrais.
Definição
O problema que enfrentamos aqui é parecido com o da discussão do ovo e da galinha.
Se soubéssemos o erro-padrão, poderíamos saber a precisão da nossa estimativa da média
da população. Entretanto, para podermos calcular o erro-padrão da média, teríamos de se-
lecionar muitas amostras da população e depois calcular o desvio-padrão das médias dessas
amostras. Isso não é muito útil se quisermos simplesmente estimar a localização da média
populacional em relação à média de uma amostra. Felizmente, os estatísticos descobriram
que podemos facilmente estimar o erro-padrão utilizando a nossa amostra.
Como foi dito anteriormente, o erro de amostragem está relacionado ao tamanho da
amostra (ver seção 3.3). Quanto maior o tamanho da amostra, menor o erro amostral. Amos-
tras maiores tendem a ter médias que são melhores estimativas da média da população, ou
seja, elas não vão variar muito da média da população. As médias das pequenas amostras
tendem a variar muito em torno da média da população. Você deve lembrar que uma medida
do grau de variação em torno da média é o desvio-padrão. O desvio-padrão das médias das
amostras é denominado erro-padrão. Assim, para grandes amostras, o erro-padrão tende a
ser menor do que para pequenas amostras, o que significa que o erro-padrão está relaciona-
do ao tamanho da amostra. Portanto, para qualquer população, quanto maior a amostra que
selecionarmos, menor será o erro-padrão. Para nossa conveniência, foi comprovado que,
para qualquer amostra, se dividirmos o desvio-padrão dessa amostra pela raiz quadrada do
tamanho da amostra, teremos uma estimativa do erro-padrão.
Podemos calcular a média amostral e o desvio-padrão de qualquer amostra. Como sa-
bemos que o erro-padrão é aproximadamente o desvio-padrão dividido pela raiz quadrada
do tamanho da amostra, podemos também calculá-lo. O erro-padrão é o desvio-padrão
da distribuição amostral da média. As tabelas da distribuição normal indicam que 95%
dos escores estão entre 1,96 desvio-padrão acima e abaixo da média. Ao aplicarmos isso
à distribuição amostral da média, podemos ter 95% de confiança de que a média da dis-
tribuição amostral está entre 1,96 desvios-padrão da média amostral. Portanto, a média
da distribuição amostral deve encontrar-se dentro da região entre o valor de 1,96 × o erro-
-padrão e a média amostral. Dado que a média da distribuição amostral da média é uma boa
estimativa da média populacional, podemos estar 95% confiantes também de que a média
populacional estará dentro do intervalo que se encontra 1,96 vezes o erro-padrão além da
média amostral.*
Um exemplo pode ilustrar essa situação. Se tivermos os seguintes dados amostrais
de um estudo (2, 5, 6, 7, 10, 12), podemos calcular a média e o desvio-padrão, que são 7
e 3,58, respectivamente. O primeiro passo é calcular o erro-padrão. Lembre-se de que o
*Deve ser observado que cálculos dos intervalos de 95% de confiança são geralmente obtidos com referência à distri-
buição-t ao invés da DNP como fizemos aqui (estudaremos a distribuição-t mais detalhadamente no Cap. 7). A razão
para isso é que, quando temos tamanhos pequenos de amostra (que geralmente é o caso em psicologia), a distribuição
amostral da média segue mais precisamente uma distribuição-t do que uma DNP. Explicamos os intervalos de confian-
ça com referência a DNP porque essa é a distribuição de probabilidade que você está mais familiarizado.
116 Estatística sem matemática para psicologia
erro-padrão é simplesmente o desvio-padrão da amostra dividido pela raiz quadrada do
tamanho amostral. Temos aqui um tamanho amostral de 6, portanto a raiz quadrada é 2,45.
Ao dividir o desvio-padrão (3,58) por esse número temos o resultado de 1,46. Uma estima-
tiva do nosso erro-padrão é, portanto, 1,46. Para calcular o intervalo de 95% de confiança,
multiplicamos o erro-padrão por 1,96 e obtemos o resultado de 2,86. Nosso intervalo de
confiança é calculado sobre a média ± o erro-padrão × 1,96, portanto, no nosso exemplo o
intervalo de confiança é 7 ± 2,86 (ou 4,14 a 9,86; ver Fig. 4.18[a]).
Esse intervalo de 95% de confiança tem uma amplitude muito grande, considerando
que nossos valores variam entre 2 e 12. O motivo de ele ser tão grande é que a amostra uti-
lizada é pequena. Para melhor ilustrarmos, vamos imaginar que obtivemos a mesma média
e desvio-padrão comao longo do texto
xii Como usar este livro
Capítulo 9 • Medidas de associação 281
Reflexão pessoal
Daniel Sullivan, M.A. e candidato ao Doutorado. Fellow da National
Science Foundation
Departamento de Psicologia da University of Kansas.
ARTIGO: Coletivismo e o significado do sofrimento (Sullivan,
Landau, Kay e Rothschild, 2012)
Daniel afirma:
“Para este estudo em particular, estamos observando se um grupo de pessoas, a saber,
pais americanos, podem interpretar diferentemente uma forma de sofrimento, isto é, o sofri-
mento das crianças, tendo por base se eles estão num estado de espírito mais coletivista ou
individualista. Eu queria um método que tornaria esse assunto bem real para os nossos pais
participantes. Eu queria relacionar o sofrimento das crianças às suas experiências pessoais.
É claro, os pais algumas vezes fazem seus filhos sofrerem por meio de punições; portanto,
poderia haver uma maneira de realisticamente examinar em laboratório as circunstâncias
sob as quais os pais estariam dispostos a cooperar? Minha esposa cresceu em um estado
onde a punição corporal em crianças nas escolas é legal. Ela me contou que seus pais tiveram
que optar entre ela ser suspensa ou espancada no caso de ela se envolver em problemas na
escola. Eu pessoalmente não vivenciei isso, mas imediatamente percebi que era uma maneira
interessante de tornar isso real para os pais no meu estudo: fazê-los escolher se seu filho de-
veria ser punido fisicamente ou não. Nesse caso, a estatística seguiu o método. Eu encontrei
uma forma interessante de engajar meus participantes e decidi que o qui-quadrado seria uma
técnica apropriada para analisar os dados resultantes.”
Coletivismo e o significado do sofrimento
Sullivan, Landau, Kay e Rothschild (2012) focaram na forma como os indivíduos e comunidades
interpretam o sofrimento. Uma pessoa, ou uma comunidade em particular, pode interpretar
um episódio de sofrimento acreditando que o sofrimento foi somente um evento aleatório (so-
frer um acidente de carro e estar no lugar errado na hora errada) ou pode acreditar que o
sofrimento é uma punição porque o sofredor transgrediu normas sociais, por exemplo, ter HIV
ou Aids como uma punição por ser promíscuo. Os autores declararam que as culturas coleti-
vistas tendem a interpretar o sofrimento mais repressivamente do que as culturas individu-
alistas. Como parte desse estudo, pais de pelo menos um filho foram recrutados. Os autores
avaliaram se os pais tinham “autoconstruto individualista” ou “autoconstruto coletivista”. Eles
mensuraram, então, o apoio desses pais a punições corporais nas escolas. Ele tiveram que
fazer uma escolha forçada, respondendo qual punição permitiriam que seu filho recebesse (no
Exemplo da literatura
Os Exemplos da literatura destacam
pesquisas na área
Os quadros de Reflexão pessoal trazem
a estatística ao mundo real por meio
de entrevistas com pesquisadores que
mostram seu importante papel nas
descobertas em psicologia
Capítulo 3 • Estatística descritiva 55
3.4 Descrição gráfica dos dados
Após terminar parte de uma pesquisa, é importante que seus dados sejam analisados. Uma
das melhores formas de fazer isso é por meio de análise exploratória de dados (AED). A
AED consiste basicamente em explorar os dados por meio de técnicas gráficas. Isso é usado
para se obter um entendimento maior de como os participantes do estudo se comportaram.
A importância dessas técnicas gráficas foi destacada por Tukey* em 1977, no texto clássico
denominado “Análise Exploratória de Dados” (exploratory data analysis). Tukey considera-
va a exploração de dados tão importante que escreveu 688 páginas sobre o assunto! Assim,
ilustrar seus dados graficamente deve ser uma das primeiras coisas a ser feita após a coleta.
Nesta seção, mostraremos as principais técnicas para explorar dados, começando com o
histograma de frequências. Após, explicaremos os diagramas de caule e folhas (stem and
leaf ) e o de caixa e bigodes (box plots).
A análise exploratória de dados é um meio de explorar os dados que coletamos para descrevê-
-los em mais detalhes. Essas técnicas simplesmente descrevem nossos dados e não tentam
tirar conclusões sobre quaisquer populações subjacentes.
Definição
3.4.1 Histograma de frequências
O histograma de frequências é uma forma útil de ilustrar graficamente os seus dados.
Muitas vezes os pesquisadores estão interessados na frequência de ocorrência de valores
nos dados da amostra. Por exemplo, se você coletou informações sobre a profissão das
*N. de T.T. John Wilder Tukey (1915-2000), químico, matemático e estatístico americano.
Então, clique no botão Statistics e selecione a moda na próxima caixa de diálogo, junto
com quaisquer outras medidas de tendência central que desejar – veja a imagem abaixo:
As Definições explicam os termos-chave
necessários para entender a estatística
As seções sobre o SPSS são um
guia de como utilizar o software para
cada processo, com capturas de tela
comentadas que mostram o que acontece
na tela do computador a cada etapa
Como usar este livro xiii
404 Estatística sem matemática para psicologia
Imagine que novos estudantes são designados ao acaso a três diferentes cursos de estatística
introdutória, que utilizam três métodos diferentes de ensino. As aulas são de 1 hora.
1. O Grupo 1 tem uma hora de aula tradicional, com palestra e anotações no quadro.
2. O Grupo 2 tem uma hora do mesmo estilo acima, só que a aula é interativa e os estudantes
podem interromper e fazer perguntas, encorajados pelo professor. É tradicional e intera-
tivo.
3. O Grupo 3 tem aulas altamente interativas no sentido de que os estudantes trabalham em
grupos com orientação do professor.
Para descobrir qual método funciona melhor, foi fornecido aos estudantes um teste de 20
questões para verificar qual grupo absorveu mais conteúdos das aulas de uma hora. Digamos
que se espera que o Grupo 3 tenha retido mais conteúdos (i.e., o método altamente interativo
seria o melhor método de ensino).
Poderíamos executar uma ANOVA simples, utilizando o método de ensino como a variável
independente (três níveis). Isso nos mostraria se existem diferenças entre os três grupos, na
retenção de conteúdos de estatística. Entretanto, imagine que a habilidade de reter o conteúdo
esteja relacionada ao QI, independentemente do método de ensino. Se o QI e a habilidade de
reter tal material estão associados, esperaríamos que tal associação fosse positiva, isto é, os
escores no QI e no teste estatístico devem estar positivamente correlacionados.
Imagine que tenhamos coletado dados do QI e as notas no teste de estatística. O diagrama
de dispersão poderia ser algo semelhante ao da Figura 13.1.
Embora a correlação seja positiva, ela é moderada: +0,49, na verdade.
O que acontece na ANCOVA é que o QI (denominado covariável, pois se altera com a variá-
vel dependente) é levado em conta nos cálculos. O que a fórmula faz é remover a variância de-
vido à associação entre o desempenho estatístico e o QI. Como já dito, isso reduzirá a variância
do erro.
Uma boa maneira de visualizar o que está acontecendo é com um gráfico (Fig. 13.2). Isso
mostra os três diferentes métodos de ensino (denominados tradicional, misto e interativo). A
instrução de como obter um diagrama da linha de regressão como as da Figura 13.2 é dada
adiante.
106 108 110 112 114 116 118 120
0
10
20
30
QI
Te
st
e
Figura 13.1 Diagrama de dispersão do QI e notas em um teste de estatística.
Exemplo
Vários Exemplos em cada capítulo
ilustram os pontos principais
As Questões de múltipla escolha no final
de cada capítulo permitem testar o seu
conhecimento
166 Estatística sem matemática para psicologia
6. Quando prevemos que a condição A é maior
do que a condição B, fazemos:
(a) uma previsão unilateral
(b) uma previsão bilateral
(c) uma previsão unidirecional
(d) Ambas as alternativas (a) e (c) acima
7. A probabilidade de que um efeito surja de-
vido ao erro amostral dado que a hipótese
nulauma amostra de 100. Nesse caso a raiz quadrada de nossa amostra
seria 10. Ao dividirmos o desvio-padrão (3,58) por esse número, obtemos um erro-padrão
de 0,358. Para obter nosso intervalo de 95% de confiança, multiplicamos o erro-padrão por
1,96. Isso significa que nossa média populacional deve estar na região entre 0,70 unidades
acima e abaixo da média da amostra (7). Isso agora nos dá uma melhor estimativa de onde
está a média da população do que simplesmente a média da amostra, além de mostrar que
é provável que o intervalo de 6,30 a 7,70 contenha a média da população. É uma amplitude
bem menor de valores e nos dá uma indicação melhor de onde possa estar a média popu-
lacional (ver Fig.4.18[b]). Na verdade, o que o intervalo de confiança nos diz é que se fôs-
semos replicar nosso estudo 100 vezes, então em 95 dessas 100 replicações o intervalo de
confiança que calculamos iria conter a média da população.
Podemos ver, portanto, a importância do tamanho de nossa amostra quando tentamos
estimar os parâmetros da população utilizando estatísticas amostrais. Geralmente, quanto
maior a amostra, melhor a estimativa do parâmetro populacional.
O resumo a seguir pode esclarecer o que acabamos de explicar:
●● A média amostral é uma estimativa pontual, e não sabemos sua proximidade da média
populacional.
Intervalo de
confiança4,14
(a) Tamanho amostral de 6
9,86
Média
amostral de 7
Intervalo de
confiança
Média
amostral de 7
6,3
(b) Tamanho amostral de 100
7,7
Figura 4.18 Intervalos de confiança com amostras de tamanho de 6 e 100.
Capítulo 4 • Probabilidade, amostragem e distribuições 117
●● Se calcularmos intervalos de confiança em torno da nossa média amostral, podemos ter
uma boa ideia do quão próxima ela está da média populacional.
●● Para calcular intervalos de confiança, precisamos fazer uso de distribuições amostrais.
●● Se tirarmos muitas amostras da população e plotarmos as médias das amostras como
um histograma de frequências, teremos produzido uma distribuição amostral das mé-
dias.
●● Distribuições amostrais tendem a ter um formato normal.
●● A média da distribuição amostral das médias é uma boa estimativa da média popula-
cional.
●● O desvio-padrão da distribuição amostral das médias nos diz o quanto as nossas mé-
dias amostrais variam em relação à média populacional.
●● O desvio-padrão da distribuição amostral é chamado de erro-padrão e é aproximada-
mente igual ao desvio-padrão da amostra dividido pela raiz quadrada do seu tamanho.
●● Sabemos que um intervalo de 1,96 desvios-padrão acima e abaixo da média contém
95% dos valores da distribuição normal padrão.
●● Usando essa informação, podemos generalizar para nossas distribuições amostrais que
tendem a ter uma forma normal.
●● Podemos dizer, com 95% de confiança, que um intervalo de 1,96 desvio-padrão (des-
vios-padrão da distribuição amostral) em torno da média amostral conterá a nossa mé-
dia populacional.
●● O desvio-padrão da distribuição amostral é o erro-padrão, então, se o multiplicarmos
por 1,96, teremos um intervalo de confiança.
●● Dizemos que estamos 95% confiantes de que a média da população estará dentro da
região 1,96 × o erro-padrão acima ou abaixo da nossa média amostral.
Lembre-se que o sentido estrito dos intervalos de 95% de confiança é que se replicar-
mos nosso estudo 100 vezes, então, em 95 dessas 100, o intervalo de confiança que calcula-
mos irá conter a média da população.
Abaixo está um trecho de uma tabela apresentada em um artigo de Sim (2015) no qual foi
investigado o impacto de uma intervenção envolvendo humor e problemas comportamentais
e uma gama de outras variáveis em crianças com doenças prolongadas. A tabela contém as
médias e os desvios-padrão para os problemas comportamentais antes e depois da interven-
ção para o grupo de intervenção, assim como para o grupo de controle. Observe a tabela e,
para cada variável e cada condição, calcule o erro-padrão. Havia 17 participantes no grupo da
intervenção e 16 no grupo de controle.
Grupo de intervenção Grupo controle
Variável Média DP Média DP
Problemas comportamentais
pré-intervenção
65,06 12,15 63,81 13,10
Problemas comportamentais
pós-intervenção
58,12 8,57 63,56 10,98
Atividade 4.7
118 Estatística sem matemática para psicologia
É muito simples obter intervalos de confiança para a média com o SPSS. Você deve seguir o
conselho dado anteriormente para técnicas descritivas, selecionando a caixa de diálogo Explore:
Mova as
variáveis para
esta caixa
Clique no
botão Statistics
Selecione a
opção Statistics
Mova as variáveis relevantes para o painel Dependent List (lista de variáveis dependentes)
e clique na opção Display: Statistics (mostrar estatísticas). Para garantir que o SPSS criará
intervalos de confiança, você deve clicar no botão Statistics. A seguinte caixa de diálogo será
apresentada:
Verifique se o
valor correto
está marcado
(p. ex., 95%)
Você deve estar atento ao fato de que o SPSS está configurado para gerar intervalos de
95% de confiança como padrão (default). Se quiser gerar intervalos de confiança diferentes de
95%, você deve ajustar o percentual para o valor desejado. Entretanto, geralmente você não
terá de ajustar, pois é esperado que gere intervalos de 95% de confiança. Uma vez que tenha
certeza de que selecionou as opções corretas, clique em Continue seguido do OK para gerar a
saída. Um exemplo de saída está abaixo:
Explore
Cases
Valid
6 100.0%
Missing
0 0.0%
Total
6
6 100.0% 0 0.0% 6 100.0%
100.0%
N Percent N Percent N Percent
Statistics Anxiety Score
Procrastination Score
Case Processing Summary
SPSS: obtendo intervalos de confiança
Capítulo 4 • Probabilidade, amostragem e distribuições 119
4.6 Diagramas de barras de erro
Uma boa maneira de apresentar intervalos de confiança na sua pesquisa é gerando diagra-
mas de barras de erro. Eles exibem suas médias como um ponto em um diagrama e uma
linha vertical atravessando esse ponto (a média) representando o intervalo de confiança.
Quanto maior o intervalo de confiança, maior será a linha que passa pela média. A Figura
4.19 nos mostra os diagramas de barras de erros para os intervalos de confiança que aca-
bamos de calcular. Na Figura 4.19 é fácil ver a diferença entre os intervalos de confiança
quando o tamanho da amostra aumenta de 6 para 100.
Um diagrama de barras de erro é uma representação gráfica dos intervalos de confiança em
torno da média.
Definição
Statistics Anxiety Score Mean
95% Confidence
Interval for Mean
5% Trimmed Mean
Median
Variance
Std. Deviation
Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtosis
Statistic
55.6667
49.7055
61.6279
55.7407
57.0000
32.267
5.68038
48.00
62.00
14.00
11.00
�.426
�1.832
Std. Error
2.31900
.845
1.741
Lower Bound
Upper Bound
Descriptives
O intervalo de
con�ança é
49,71 a 61,63
Procrastination Score Mean
95% Confidence
Interval for Mean
5% Trimmed Mean
Median
Variance
Std. Deviation
Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtosis
116.1667
96.0742
136.2591
116.0741
117.5000
366.567
19.14593
94.00
140.00
46.00
38.50
�.048
�2.083
.845
1.741
Lower Bound
Upper Bound
7.81629
120 Estatística sem matemática para psicologia
4.7 Sobreposição de intervalos de confiança
Digamos que quiséssemos descobrir se duas médias populacionais se diferenciam. Po-
deríamos usar intervalos de confiança para nos guiar. Por exemplo, imagine que queira
descobrir se meninas são melhores do que meninos em testes de matemática. Você aplica
uma prova de matemática para uma amostra de meninos e outra de meninas. Dessas duas
amostras, calcula os intervalos de confiança e obtém os diagramas de barras de erro da
Figura 4.20.
O que fazer com isso? Podemos ter 95% de confiança de que as médias populacio-
nais estão dentro dos intervalos indicados no diagrama. Como existe uma considerável
sobreposição entre os dois intervalos de confiança, não podemos ter certeza de que exista
diferença entreas médias populacionais. Não parece provável que exista uma diferença real
nas populações, ou pelo menos não podemos perceber utilizando as nossas amostras se tal
diferença existe. Talvez os meninos tenham uma média populacional maior do que as meni-
nas, ou que as meninas tenham uma média populacional maior do que os meninos. Pode ser
também que as médias populacionais de meninos e meninas sejam iguais. Não saberemos
pelos intervalos de confiança apresentados na Figura 4.20 e, portanto, não podemos tirar
tais conclusões desses dados.
Amostra de 6 Amostra de 100
Média
11
9
7
5
3
A distância entre o
início e o fim das
linhas é igual à
amplitude do intervalo
de confiança
Figura 4.19 Diagrama de barras de erro mostrando as médias e os intervalos de confiança
para amostras de tamanho 6 e 100.
100
50
0
Meninos Meninas
Figura 4.20 Diagrama de barras de erro mostrando a sobreposição de intervalos de con-
fiança para meninos e meninas em um teste de matemática.
Capítulo 4 • Probabilidade, amostragem e distribuições 121
Agora, vamos supor que obtivéssemos os intervalos de confiança mostrados na Figura
4.21. Qual seria a conclusão? Nesse caso, podemos ver que os intervalos de confiança não
se sobrepõem. Podemos ter 95% de confiança de que ambas as médias populacionais estão
entre os intervalos indicados e, portanto, não se sobrepõem.
Isso sugere que existe uma diferença real entre as médias das populações. Logo, pa-
receria que a população de meninas teria um desempenho melhor em matemática do que a
população dos meninos. Examinando os intervalos de confiança, obtemos uma ideia clara
do padrão dos valores das médias populacionais. Você deveria ter observado também que,
nesta seção quando descrevemos intervalos de confiança, constantemente nos referimos às
médias da população em vez de focar nas nossas médias amostrais. Isso ilustra claramente a
natureza mágica dos intervalos de confiança, chamando nossa atenção para o que é de maior
interesse para nós, os parâmetros da população (neste caso, as médias das populações).
Em qual dos seguintes diagramas de barras de erro existe uma probabilidade real de haver dife-
rença entre as populações das quais foram retiradas amostras dos dois grupos apresentados?
10
5
0
(a)
Leopardos Onças
10
5
0
(b)
Atletas Sedentários
10
5
0
(c)
Pessoas Computadores
10
5
0
(d)
Ricos Pobres
Atividade 4.8
Meninos Meninas
100
50
0
Figura 4.21 Diagrama de barras de erro ilustrando a não sobreposição de intervalos de
confiança para meninos e meninas em um teste de matemática.
122 Estatística sem matemática para psicologia
Para gerar um diagrama de barras de erro com o SPSS, você deve clicar no menu Graphs e
Legacy Dialogs (caixa de diálogo herdada) e depois selecionar a opção Error Bar... (barras de
erro). Será apresentada a seguinte caixa de diálogo:
Para o delineamento
intraparticipantes
selecione estas duas
opções
Na caixa de diálogo, as opções que escolher dependerão do delineamento do seu estu-
do. Se você tiver usado um delineamento intraparticipantes e quer comparar duas (ou mais)
variáveis, selecione as opções Simple (simples) e Summaries for separate variables (resumos
para variáveis separadas). Clique em Define e a seguinte caixa de diálogo será apresentada:
Mova as variáveis relevantes para a caixa Error Bars, como ilustrado, e então clique em
OK para gerar um diagrama de barras de erro. O diagrama deve ser parecido com o da Figura
4.22.
Você pode ver no diagrama de barras de erro que existem barras de erro separadas para
cada condição da variável intraparticipantes.
SPSS: gerando diagramas de barras de erro
Capítulo 4 • Probabilidade, amostragem e distribuições 123
Se quiser gerar diagramas de barras de erro e usou um delineamento entre participan-
tes, deve selecionar as opções Simple e Summaries for groups of cases (resumos para grupos
de casos) na tela de opções inicial (ver abaixo):
Para o delineamento
entre participantes,
selecione estas duas
opções
140
120
100
80
60
40
Escore de ansiedade
com a estatística
Escore de procrastinação
IC
d
e
95
%
Figura 4.22 Diagrama de barras de erro para o estudo da ansiedade com a estatística e
procrastinação.
124 Estatística sem matemática para psicologia
Clique em Define e será apresentada uma caixa de diálogo um pouco diferente daquela
apresentada para delineamento intraparticipantes:
Mova a VD para a
caixa Variables e
a VI para a caixa
Category Axis (eixo
da categoria)
Você notará que existe uma caixa para a variável dependente (Variable) e outra para va-
riável de agrupamento (Category Axis). Coloque a variável dependente na caixa Variable e a
variável independente na caixa Category Axis e clique no botão OK para gerar o diagrama de
barras de erro. Ele deve ser parecido com o demonstrado na Figura 4.23.
12,00
10,00
8,00
6,00
IC
d
e
95
%
d
e
en
co
nt
ro
s
so
ci
ai
s
4,00
2,00
Caminhar com um cão Caminhar sem um cão
GRUPOS
Figura 4.23 Diagrama de barras de erro para o estudo de passeio de cachorro como um
delineamento entre participantes.
Capítulo 4 • Probabilidade, amostragem e distribuições 125
4.8 Intervalos de confiança para outras estatísticas
Ilustramos intervalos de confiança em torno da média para mostrar o uso dessa técnica.
Você deve notar que não estamos restritos às médias quando trabalhamos com intervalos
de confiança. Podemos calcular intervalos de confiança para outras estatísticas, incluindo
o tamanho real da diferença entre duas médias, variâncias e coeficientes de correlação e es-
tatísticas t. (Explicaremos isso em detalhes nos Caps. 6 e 7.) Basicamente, onde existe uma
estimativa pontual, normalmente é possível determinar uma intervalar.
É importante lembrar que, se você está investigando diferenças entre grupos, o inter-
valo de confiança da magnitude da diferença entre os grupos é útil. Se o intervalo de con-
fiança incluir o zero, ele sugere que é provável que não exista diferença entre os grupos na
população. (Isso será explicado em detalhes no Cap. 7.)
A eficácia da música relaxante no controle da ansiedade em
esportes competitivos
Em um estudo bem apresentado por Elliott e colaboradores (2014), os pesquisadores compa-
raram os efeitos da música relaxante, música não relaxante e nenhuma música à ansiedade
em esportes competitivos. Eles recrutaram estudantes universitários e os informaram de que
deveriam desempenhar uma tarefa esportiva sob condições competitivas em frente a uma
plateia. Eles mensuraram a ansiedade duas vezes antes da intervenção (música relaxante,
música não relaxante ou sem música) e novamente após a intervenção, imediatamente an-
tes do momento da participação na atividade esportiva. Sua análise estatística não encontrou
diferenças entre as três condições na ansiedade sentida pelos participantes antes de partici-
par da tarefa esportiva. Todas as intervenções levaram a uma redução da ansiedade antes da
competição. Os pesquisadores apresentaram intervalos de 90% de confiança que mostraram
os efeitos positivos que as intervenções tiveram na ansiedade antes da competição.
Exemplo da literatura
Resumo
Neste capítulo, explicamos vários conceitos
importantes que são a base para um entendi-
mento completo da estatística. Mais especifica-
mente, você aprendeu que:
●● probabilidades podem ser representadas em
termos de razões (p. ex., 1 em 5), decimais
(0,2) ou porcentagens (20%);
●● probabilidades condicionais são probabilida-
des associadas a eventos que dependem de
outros fatores;
●● podemos usar a distribuição normal padrão
e os escores-z para descobrir a proporção da
população que está acima ou abaixo de certo
valor ou que está situada entre dois valores;
●● se tirarmos muitas amostras de uma popula-
ção e plotarmos as médias dessas amostras
como um histograma de frequências, tere-
mos determinado a distribuição amostral das
médias;
●● quanto mais amostras tivermos e quanto
maiores forem essas amostras, maisprová-
vel é que a distribuição amostral da média se
aproximará de uma distribuição normal, não
importando como a população esteja distri-
buída;
●● o desvio-padrão da distribuição amostral da
média é o erro-padrão da média e esse valor
nos dá uma indicação de como as médias das
amostras variam em relação à média popu-
lacional;
●● o erro-padrão é aproximadamente igual ao
desvio-padrão da amostra dividido pela raiz
quadrada do tamanho da amostra e pode ser
usado com escores-z para calcular interva-
los de confiança;
126 Estatística sem matemática para psicologia
●● intervalos de confiança nos dão um conjunto
de valores no qual podemos ter 95% de con-
fiança de que ele contenha a média popula-
cional;
●● podemos ilustrar convenientemente interva-
los de confiança usando gráficos de barras
de erro.
Exercícios no SPPS
Exercício 1
Em um consultório de cirurgia dentária, a en-
fermeira Nasher e a Dra. Payne querem tentar
reduzir os níveis de ansiedade dos pacientes
em tratamento. Elas decidem que a melhor
maneira de fazer isso é transformar os locais
de espera em salas à prova de som para que os
pacientes aguardando não possam escutar os
ruídos dos pacientes sendo tratados. Elas que-
rem ter certeza de que paredes à prova de som
realmente reduzem ansiedade. Assim, colocam
paredes à prova de som em apenas uma das
salas de espera e comparam a ansiedade com
dentistas de pacientes esperando nessa sala
com a ansiedade de pacientes que esperam em
uma sala que não é a prova de som. Pacientes
são colocados nas duas salas aleatoriamente
ao chegarem e preenchem um questionário
enquanto aguardam. O questionário de ansie-
dade com dentistas fornece um escore baseado
em vários aspectos de ansiedade associados a
ir ao dentista: quanto maior o escore, maior o
nível de ansiedade com dentistas. A enfermeira
Nasher e a Dra. Payne esperam que haja uma
diferença nos escores de ansiedade entre os
pacientes das duas salas de espera. A seguir,
seguem os valores da ansiedade com dentistas
dos pacientes entrevistados em cada uma das
duas salas de espera:
Sala à prova de som Sala comum
12 16
11 26
8 20
4 21
3 19
13 20
10 22
10 18
9 20
11 17
1. Esse é um delineamento entre ou intrapar-
ticipantes?
2. Coloque os dados da tabela acima no SPSS
e obtenha as seguintes estatísticas para
cada grupo:
●● Média
●● Desvio-padrão
●● Erro-padrão
●● Intervalos de 95% de confiança
3. (a) Use o SPSS para gerar gráficos de bar-
ras de erro para cada um dos grupos.
(b) Converta o primeiro escore de cada
condição para escores-z.
Exercício 2
O Dr. Doolittle finalmente desistiu da ideia de
conversar com animais e decidiu tornar-se um
psicólogo experimental de animais. Ele está
particularmente interessado em descobrir se
os gatos são ou não mais inteligentes do que os
cachorros. Para isso ele desenvolve um teste de
inteligência específico para esse estudo e testa
amostras de gatos e cachorros. Ele foi cuidadoso
para não introduzir qualquer tipo de tendenciosi-
dade no teste e acredita que criou um teste que
não é ligado a espécies, ou seja, pode ser usado
em qualquer espécie. O Dr. Doolittle acredita que
haverá uma diferença entre os escores de gatos
e cachorros. Os escores estão na tabela a seguir:
Gatos Cachorros
95 116
100 112
104 102
78 96
130 89
111 124
89 131
114 117
102 107
97 110
Capítulo 4 • Probabilidade, amostragem e distribuições 127
1. Que tipo de delineamento tem esse estudo:
quase-experimental ou experimental?
2. É um estudo entre ou intraparticipantes?
3. Coloque os dados da tabela no SPSS e ob-
tenha as seguintes estatísticas para cada
grupo:
●● Média
●● Desvio-padrão
●● Erro-padrão
●● Intervalos de 95% de confiança
4. (a) Use o SPSS para gerar gráficos de bar-
ras de erro para cada um dos grupos.
(b) Converta o primeiro escore de cada
condição para escores-z.
Questões de múltipla escolha
1. Qual é o valor da probabilidade 1 em 5 ex-
pressa como porcentagem?
(a) 14%
(b) 25%
(c) 20%
(d) 32%
2. Qual é a relação entre tamanho amostral e
erro amostral?
(a) Quanto maior o tamanho amostral,
maior o erro amostral.
(b) Quanto maior o tamanho amostral, me-
nor o erro amostral.
(c) Tamanho amostral é igual a erro amos-
tral.
(d) Nenhuma das alternativas acima
3. Se tivermos um intervalo de 95% de con-
fiança de 3 ± 2, o que isso significa?
(a) A média populacional está definitiva-
mente entre 1 e 5.
(b) Temos 95% de certeza de que a média
populacional está entre 3 e 2.
(c) Temos 95% de certeza de que a média
populacional está entre 1 e 5.
(d) Nenhuma das alternativas acima
4. Quais são os escores na distribuição nor-
mal padrão?
(a) Escores extremos
(b) Escores-z
(c) Escores em unidades de desvio-padrão
(d) Ambas as alternativas (b) e (c) acima
5. O erro-padrão é:
(a) a raiz quadrada da média
(b) o quadrado do desvio-padrão
(c) o desvio-padrão dividido pela média
(d) o desvio-padrão dividido pela raiz qua-
drada do número de participantes na
amostra
6. Se você tem uma probabilidade de 33%,
como ela é expressa em decimal?
(a) 0,033
(b) 0,33
(c) 0,23
(d) 0,133
7. O erro-padrão nos informa:
(a) o grau em que a nossa média amostral
difere da média das médias amostrais
(b) o grau em que nossa média amostral
difere da média populacional
(c) o grau em que o desvio-padrão difere
da média populacional
(d) Ambas as alternativas (a) e (b) acima
8. Pelo que multiplicaríamos o erro-padrão
para nos ajudar a chegarmos a intervalos
de 95% de confiança?
(a) 95
(b) A raiz quadrada do tamanho amostral
(c) O desvio-padrão
(d) 1,96
9. Se você tivesse um escore-z de 2,33, signi-
ficaria que:
(a) seu escore está 2,33 desvios-padrão
acima da média
(b) seu escore está 2,33 desvios-padrão
abaixo da média
(c) há uma probabilidade de 2,33 de obter
um escore maior que o seu escore
(d) há uma probabilidade de 2,33 de obter
um escore menor que o seu escore
10. Se um evento tem uma probabilidade de
95% de ocorrer, o que isso significa?
(a) O evento tem a probabilidade de ocorrer
5 vezes de cada 100.
(b) O evento tem a probabilidade de ocorrer
95 vezes de cada 100.
(c) O evento tem a probabilidade de ocorrer
95 vezes de cada 95.
(d) Nenhuma das alternativas acima
128 Estatística sem matemática para psicologia
11. Qual carreira você deve escolher se seus
escores de levantamento de peso e cerâ-
mica são:
Levantamento de peso: escore de 52 (média
amostral = 55, DP = 12)
Cerâmica: escore de 50 (média amostral =
58, DP = 32)
(a) Levantamento de peso
(b) Cerâmica
(c) Qualquer uma das duas, pois ambas
são igualmente boas comparadas a
suas respectivas populações.
(d) Nenhuma das duas, pois você é terrível
em ambas.
12. Qual das frases a seguir é verdadeira quan-
to à estatística inferencial?
(a) Simplesmente descreve nossos dados.
(b) É usada para tirar conclusões dos da-
dos amostrais sobre populações.
(c) É usada para fazer a psicologia parecer
científica.
(d) É usada para tirar conclusões das po-
pulações sobre amostras.
13. Se você obtiver um escore de 13 em um
questionário sobre ansiedade e você sabe
que a média populacional e desvio-padrão
são 20 e 5, respectivamente, qual é o seu
escore-z?
(a) –2,33
(b) –1,4
(c) 1,33
(d) 0
14. Se você possui uma população de escores
com uma distribuição plana (não normal),
então a distribuição de muitas médias
amostrais será:
(a) plana
(b) bimodal
(c) negativamente assimétrica
(d) normal
15. Qual das alternativas dá a melhor estimati-
va da média populacional?
(a) A média amostral
(b) A média de várias médias amostrais
(c) O desvio-padrão
(d) O erro-padrão
16. Obtivemos um desvio-padrão de 42 e um
tamanho amostral de 16 para um grupo de
dados. Qual é o erro-padrão?
(a) 0,339
(b) 2,95
(c) 21,68
(d) 10,5
17. Se você tirar 100 amostras de uma popula-
ção e plotar todas as médias como um his-
tograma de frequências, você obtém:
(a) a distribuição de médias
(b) uma distribuição assimétrica
(c) a distribuição amostral
(d) Nenhuma das alternativas acima
18. Dado um erro-padrão de 5,2 comuma
amostra de 9, qual é o desvio-padrão?
(a) 1,73
(b) 15,6
(c) 46,8
(d) 0,556
19. Para qual das alternativas você não poderia
gerar intervalos de confiança?
(a) Uma média
(b) Um coeficiente de correlação
(c) A diferença da média entre escores
(d) Nenhuma das alternativas acima
20. Se você tem uma população negativamente
assimétrica, qual será o formato da distri-
buição amostral das médias das amostras
dessa população?
(a) Negativamente assimétrica
(b) Positivamente assimétrica
(c) Normal
(d) Não é possível saber.
Capítulo 4 • Probabilidade, amostragem e distribuições 129
Referências
Beck, A. T., Ward, C. H., Mendelson, M., Mock, J. E.
and Erbaugh, J. K. (1961) ‘An inventory for measu-
ring depression’, Archives of General Psychiatry, 4:
561–71.
Elliott, D., Polman, R. and Taylor, J. (2014) ‘The effects
of relaxing music for anxiety control on competitive
sport anxiety’, European Journal of Sport Science,
14(Sup1): 296–301.
Kenney, E. L., Gortmaker, S. L., Davison, K. K. and
Austin, S. B. (2015) ‘The academic penalty for gai-
ning weight: a longitudinal, change-in-change analy-
sis of BMI and perceived academic ability in middle
school students’, International Journal of Obesity,
39(9): 1408–1413.
Klatsky, A. L. (2015) ‘Alcohol and cardiovascular dise-
ases: where do we stand today?’, Journal of Internal
Medicine, 278(3): 238–50.
Moores, E. and Reddy, P. (2012) ‘No regrets? Measu-
ring the career benefits of a psychology placement
year’, Assessment & Evaluation in Higher Education,
37(5): 535–54.
Reddy, P. and Moores, E. (2006) ‘Measuring the bene-
fits of a psychology placement year’, Assessment &
Evaluation in Higher Education, 31(5): 551–67.
Sim, I. O. (2015) ‘Humor intervention program for chil-
dren with chronic diseases’, Applied Nursing Resear-
ch, 28(4): 404–412.
Respostas das questões de múltipla escolha
1. c, 2. b, 3. c, 4. d, 5. d, 6. b, 7. d, 8. d, 9. a, 10. b, 11. c, 12. b, 13. b, 14. d, 15. b, 16. d, 17. c, 18. b,
19. d, 20. c
5
Testagem de hipóteses e
significância estatística
V I S Ã O G E R A L D O C A P Í T U L O
No Capítulo 4, mostramos o uso da estatística inferencial. Neste capítulo, iremos um
pouco além para explicar como podemos aplicar nosso conhecimento sobre probabi-
lidades e distribuições amostrais para testar hipóteses que estabelecemos em nossas
pesquisas. Especificamente, explicaremos o seguinte:
●● a lógica do teste de hipóteses;
●● a significância estatística e como ela se relaciona com a probabilidade;
●● como as distribuições de probabilidade formam as bases dos testes estatísticos;
●● os problemas associados em utilizar probabilidades como base para conclusões (i.e.,
Erros do tipo I e do tipo II);
●● hipóteses unilaterais e bilaterais; e
●● como escolher o teste apropriado para analisar seus dados.
5.1 Outra forma de aplicar probabilidades à pesquisa:
teste de hipóteses
Suponha que estejamos interessados em examinar a relação entre o “número de horas de es-
tudo por semana” e a “nota na prova”. Poderíamos, talvez, prever que, quanto maior o núme-
ro de horas de estudo semanais, maior a nota na prova. Estabelecemos, assim, uma previsão
que testaríamos pela realização de um estudo. Nesse estudo, sortearíamos aleatoriamente
certo número de estudantes e registraríamos quantas horas por semana eles estudam e veri-
ficaríamos se essas horas estão relacionadas à nota da prova. De acordo com a previsão feita,
esperaríamos que a população das notas se assemelhasse à ilustrada na Figura 5.1. Aqui você
pode verificar que existe uma tendência indicando que, quando o número de horas de estudo
aumenta, ocorre o mesmo com a nota. Vamos presumir que isso ocorra com a população
subjacente. Um dos problemas que enfrentamos quando realizamos uma pesquisa é que,
quando selecionamos amostras de populações, podemos não ter uma representação acurada
da população. No Capítulo 3 explicamos que, devido ao erro amostral, uma amostra pode
não ser semelhante à população. A Figura 5.1 ilustra três amostras retiradas da população
apresentada na mesma figura. Mesmo existindo uma relação positiva entre as duas variáveis
na população, duas das amostras não refletem isso. De fato, a primeira amostra (amostra
[a]) na realidade sugere uma relação negativa entre as horas estudadas e o desempenho na
prova (à medida que aumentam as horas de estudo, o desempenho na prova piora). A segun-
da amostra (amostra [b]) sugere que não existe relação alguma entre as duas variáveis. A
terceira amostra (amostra [c]) reproduz a população subjacente corretamente, sugerindo uma
relação positiva entre as duas variáveis. O ponto a ser notado aqui é que, mesmo que haja
uma relação na população subjacente, a amostra retirada poderá não refleti-la.
Capítulo 5 • Testagem de hipóteses e significância estatística 131
Agora observe a Figura 5.2. Nesse exemplo, não existe relação entre o número de horas
de estudo e a nota na prova na população. Novamente, apresentamos três amostras retiradas
dessa população. Uma vez mais, somente uma das amostras (amostra [b]) reflete acura-
damente a população. O fato é que, devido ao erro amostral, as amostras que utilizamos
podem não refletir de forma fiel a população de onde foram retiradas. Para cada população
que tivermos, cada um dos padrões amostrais que apresentamos terá uma probabilidade
maior ou menor de ocorrer, e o valor dessa probabilidade dependerá do tamanho da amostra
Horas de estudo por semana
706050403020100
N
ot
a
na
p
ro
va
100
80
60
40
20
0
Horas de estudo por semana
706050403020100
N
ot
a
na
p
ro
va
100
80
60
40
20
0
População de escores
Amostras
(a)
(c)
(b)
Horas de estudo por semana
706050403020100
N
ot
a
na
p
ro
va
100
80
60
40
20
0
Horas de estudo por semana
706050403020100
N
ot
a
na
p
ro
va
100
80
60
40
20
0
Figura 5.1 Diagramas de dispersão ilustrando possíveis amostras selecionadas de uma popula-
ção com uma relação positiva entre o número de horas de estudo e a nota na prova.
132 Estatística sem matemática para psicologia
utilizada. Assim, para a população da Figura 5.1, teremos uma probabilidade maior de ob-
servar o padrão da amostra (c) do que nas amostras (a) e (b), especialmente com valores de
tamanho de amostra razoavelmente grandes. Para a população apresentada na Figura 5.2,
teremos uma probabilidade maior de observar o padrão da amostra (b) do que nas amos-
tras (a) e (c). Você precisa estar ciente de que, algumas vezes, por causa do erro amostral,
obteremos padrões nas amostras que não refletem de forma precisa a população de onde as
amostras foram retiradas.
Horas de estudo por semana
706050403020100
N
ot
a
na
p
ro
va
100
80
60
40
20
0
Horas de estudo por semana
706050403020100
N
ot
a
na
p
ro
va
100
80
60
40
20
0
População de escores
Amostras
(a)
(c)
(b)
Horas de estudo por semana
706050403020100
N
ot
a
na
p
ro
va
100
80
60
40
20
0
Horas de estudo por semana
706050403020100
N
ot
a
na
p
ro
va
100
80
60
40
20
0
Figura 5.2 Diagramas de dispersão ilustrando possíveis amostras selecionadas de uma popula-
ção sem relação entre o número de horas de estudo e a nota na prova.
Capítulo 5 • Testagem de hipóteses e significância estatística 133
Um dos problemas que enfrentamos quando conduzimos uma pesquisa é que não sabe-
mos qual é o padrão existente na população de interesse. De fato, o motivo de realizarmos
a pesquisa é, em primeiro lugar, determinar esse padrão. Estamos tentando tirar conclusões
sobre a população a partir das amostras. Essencialmente, estamos em uma situação seme-
lhante à ilustrada na Figura 5.3. Nessa figura, tudo o que está acima da linha pontilhada
tem a ver com o que observamos no nosso estudo, e tudo o que está abaixo da linha nos é
desconhecido. A partir do padrão de dados que observamos na nossa amostra, temos que
tentar decidir como o padrão pode aparecer na população. Pode haver um número infinito
de possíveis padrões querefletem a população; entretanto, apresentamos somente dois deles
na figura. A partir da amostra, precisamos decidir como é a população. Aqui é onde iremos
utilizar testes estatísticos inferenciais. Efetivamente, o que faremos é observar o padrão
dos valores na amostra e verificar qual é o mais provável para a população que forneceu
essa amostra. Assim, dado o padrão observado na amostra da Figura 5.3 (o diagrama de
dispersão acima da linha tracejada), podemos argumentar que o padrão na população (b) é
mais plausível do que o apresentado em (a). Como ilustrado nas Figuras 5.1 e 5.2, contudo,
as amostras não necessariamente refletem de forma precisa a população de onde foram
retiradas. Assim, precisamos de algum meio para avaliar a probabilidade de que a amostra
que selecionamos seja um retrato fiel da população.
Os testes estatísticos nos servirão de auxílio nessa decisão, mas isso ocorre de uma
forma não de todo intuitiva. O que um teste estatístico faz é determinar uma probabilida-
de, denominada valor-p. Esse valor nos informa sobre a maior ou menor possibilidade de
obtermos o nosso resultado devido ao erro amostral, se de fato não existe relacionamento
entre as variáveis na população. Por exemplo, os testes nos informarão a probabilidade de
obtermos o padrão de valores na amostra na Figura 5.3 se eles vieram da população (a). Se
o padrão em nossa amostra é altamente improvável de ser obtido por causa do erro amostral
se a população é a (a), então provavelmente concluiremos que ela é a (b). Você deve notar
que essa probabilidade é, de fato, condicional. É a probabilidade de obtermos a nossa amos-
tra se não existir relação entre as variáveis na população (ver seção 4.1.1 para mais detalhes
sobre probabilidades condicionais).
O valor-p é a probabilidade de obter o padrão de resultados que encontramos no nosso estudo
caso não haja relacionamento entre as variáveis de interesse na população.
Definição
O teste de hipóteses é visto muitas vezes como uma competição entre duas hipóteses:
entre a nossa hipótese de pesquisa (de que existe relação entre as horas estudadas e a nota na
prova) e outra afirmação denominada hipótese nula (de que não existe relação entre as duas
variáveis). Assim, o processo de teste de hipóteses se assemelha à Figura 5.3. Precisamos
decidir entre a população (a) e (b). Nessa situação, a população (a) representa a situação em
que a hipótese nula é verdadeira, e a população (b) representa a situação em que a hipótese
de pesquisa é verdadeira. O teste estatístico que utilizamos nos dirá qual é a probabilidade
de observarmos o nosso padrão de dados se a hipótese nula for verdadeira. Na Figura 5.3,
provavelmente encontraríamos que o padrão dos dados amostrais teria uma probabilidade
bastante baixa de ocorrer como consequência do erro amostral se esses dados fossem retira-
dos da população (a), na qual não existe um relacionamento entre as duas variáveis. De fato,
essa probabilidade é menor do que 1 em 1.000. Nesse caso, seria mais sensato concluir que
os dados foram retirados de uma população idêntica à (b).
Agora, vamos dar uma olhada no cenário representado pela Figura 5.4. Relembre que
tudo o que está acima da linha pontilhada é observado no nosso estudo, e tudo o que está
134 Estatística sem matemática para psicologia
abaixo da linha nos é desconhecido. Aqui você deverá ser capaz de ver que a amostra parece
sugerir que não existe um relacionamento aparente entre o número de horas de estudo e a
nota na prova. Intuitivamente, esperaríamos que essa amostra tivesse sido retirada da popu-
lação (a) ao invés da população (b). No entanto, apelando novamente para a Figura 5.1, você
deve ser capaz de ver que mesmo quando não existe relação entre as duas variáveis na popu-
lação, temos a possibilidade de que uma ocorra na nossa amostra. Essa ausência de relação
na amostra seria uma consequência do erro amostral. Dessa forma, novamente, neste caso,
utilizaremos os testes estatísticos inferenciais como auxílio na escolha entre as duas hipóte-
ses: a nula, representada pela população (a), e a de pesquisa, representada pela população (b).
O teste estatístico nos informará sobre a probabilidade de obtermos o padrão da nossa amos-
tra, ilustrado na Figura 5.4, se a população é semelhante ao padrão mostrado em (a), isto é, se
a hipótese nula for verdadeira. Nesse caso, acharíamos que existe uma alta probabilidade de
obtermos o padrão observado na nossa amostra se a hipótese nula fosse verdadeira. De fato,
De qual população é
mais provável que a amostra
tenha sido retirada?
Padrão na população (a)
Horas de estudo por semana
706050403020100
N
ot
a
na
p
ro
va
100
80
60
40
20
0
Padrão na população (b)
Horas de estudo por semana
706050403020100
N
ot
a
na
p
ro
va
100
80
60
40
20
0
Padrão de escores na amostra
Horas de estudo por semana
706050403020100
N
ot
a
na
p
ro
va
100
80
60
40
20
0
Figura 5.3 Diagramas de dispersão ilustrando populações subjacentes alternativas quando um
relacionamento é observado na amostra.
Capítulo 5 • Testagem de hipóteses e significância estatística 135
existe uma probabilidade de 61% de obter tal padrão de uma população semelhante à mostra-
da em (a). Nesse caso, provavelmente vamos decidir que a população de fato é semelhante à
mostrada em (a) em vez da mostrada em (b). Há outras questões, entretanto, que precisamos
considerar antes de podermos chegar a tal conclusão como, por exemplo, se existem partici-
pantes suficientes na nossa amostra (ver seção 5.9 e Cap. 8).
5.2 Hipótese nula
Apresentamos brevemente um conceito importante que precisa de explicações adicionais. A hi-
pótese nula é muito importante para o processo da testagem de hipóteses. Explicamos ante-
riormente que a probabilidade que calculamos nos testes estatísticos é baseada na hipótese de
que não existe relação entre as duas variáveis na população. Essa suposição é a hipótese nula.
De qual população é
mais provável que a amostra
tenha sido retirada?
Padrão na população (a)
Horas de estudo por semana
706050403020100
N
ot
a
na
p
ro
va
100
80
60
40
20
0
Padrão na população (b)
Horas de estudo por semana
706050403020100
N
ot
a
na
p
ro
va
100
80
60
40
20
0
Padrão de escores na amostra
Horas de estudo por semana
706050403020100
N
ot
a
na
p
ro
va
100
80
60
40
20
0
Figura 5.4 Diagramas de dispersão ilustrando populações subjacentes alternativas quando não
existe relacionamento na amostra.
136 Estatística sem matemática para psicologia
A hipótese nula sempre declara que não existe efeito na população subjacente. Por efeito quere-
mos dizer que existe uma relação entre duas ou mais variáveis, uma diferença entre duas ou mais
populações ou uma diferença nas respostas de uma população sob duas ou mais condições.
Definição
Se a hipótese de pesquisa (às vezes denominada hipótese experimental ou alternativa) de-
clara que haverá relação entre as duas variáveis, então a hipótese nula afirma que não existe re-
lação alguma entre as duas variáveis. De forma semelhante, se você está interessado em com-
parar grupos de pessoas para os quais a hipótese de pesquisa declara que haverá uma diferença
entre os dois grupos, a hipótese nula afirmará que não existe diferença entre os dois grupos.
A hipótese de pesquisa é a nossa previsão sobre como duas variáveis podem estar relacionadas
entre si. De forma alternativa, pode ser nossa previsão sobre como grupos determinados de
participantes podem ser diferentes entre si ou como um grupo de participantes pode ser dife-
rente quando tem um desempenho sob duas ou mais condições.
Definição
Você poderá achar quando lê publicações psicológicas que os autores sugerem que a hi-
pótese nula não poderá ser rejeitada. Isso simplesmente indica que a probabilidade que eles
calcularam aponta no sentido de que manter a hipótese nula é a conclusão mais sensata. Se
você ler que o pesquisador rejeitou a hipótese nula, isso significa quea probabilidade de obter
os resultados encontrados se a hipótese nula fosse verdadeira é tão pequena que é mais sensato
acreditar na hipótese de pesquisa. Como indicamos anteriormente nesta seção, isso ilustra a
competição entre as nossas hipóteses nula e de pesquisa. A importância da hipótese nula é
refletida pelo fato de que toda essa abordagem para conduzir uma pesquisa é denominada teste
da hipótese nula (THN) ou teste da significância da hipótese nula (TSHN).
5.3 Lógica do teste da hipótese nula
Se você entendeu as seções anteriores, não terá problemas em entender a lógica geral por
trás da testagem de hipóteses, que é a seguinte:
●● Formular uma hipótese.
●● Medir as variáveis envolvidas e examinar a relação entre elas.
●● Calcular a probabilidade de obter tal resultado se não existir relação alguma na popula-
ção (i.e., se a hipótese nula for verdadeira).
●● Se essa probabilidade calculada é suficientemente pequena, ela sugere que o padrão
encontrado é improvável de ter se originado por acaso e, dessa forma, provavelmente
reflete um relacionamento genuíno na população.
Em outras palavras, se não existe um relacionamento real na população é improvável
que você encontre um na sua amostra selecionada aleatoriamente. Desse modo, se encontrar
uma relação na amostra, é provável que ela reflita uma relação na população. É importante
que você entenda isso. Assim, vá com calma e tenha certeza de que entendeu o que foi ex-
plicado até aqui.
A testagem de hipóteses não está limitada a investigar a relação entre duas variáveis.
Se você está interessado em estudar diferenças entre grupos, podemos também utilizar essa
Capítulo 5 • Testagem de hipóteses e significância estatística 137
técnica. A lógica é mais ou menos a mesma que a apresentada anteriormente. Por exemplo,
suponha que projetamos um experimento em que oferecemos aos alunos duas formas de es-
tudo estruturadas que se diferenciam apenas na quantidade de horas em que eles precisam
estudar. Um grupo estuda 40 horas por semana, enquanto o outro grupo estuda apenas 10
horas por semana (essa é a variável independente). Vamos supor que os que estudam 40 horas
terão notas mais altas na prova dos que estudam apenas 10 horas por semana. Essa será nossa
hipótese de pesquisa. A nossa hipótese nula será de que não existirá diferença entre as médias
das notas dos dois grupos. Uma vez que os dados forem coletados, poderemos ver se existe
diferença entre as notas médias dos dois grupos. Se tal diferença existir, então precisamos
determinar a probabilidade de que ela seja causada unicamente pelo erro amostral, isto é, da
probabilidade de obtermos uma diferença do tamanho observado se a hipótese nula for verda-
deira. Se essa probabilidade for pequena, faz sentido assumir que as diferenças foram devidas
à manipulação da variável independente em vez de unicamente pelo erro amostral.
Observe esta afirmação retirada de um artigo de Nyroos e colaboradores (2015):
Como estão relacionados esses perfis emocionais-cognitivos ao sucesso na matemática?
Tente descobrir qual seria a hipótese nula nesse caso.
Atividade 5.1
Críticas em relação ao teste da hipótese nula
Embora o teste da hipótese nula seja a abordagem dominante na psicologia, existe agora uma
preocupação crescente de que seja inadequado em termos de fornecer percepções úteis das
variáveis que os psicólogos desejam investigar. Por exemplo, ao se referir ao teste de hipóte-
ses, Loftus (1991) afirma: “tenho dificuldade em imaginar um meio mais ineficiente de transitar
dos dados para as conclusões”. Loftus (1991, 1996) descreve muitos problemas associados ao
uso dessa técnica, e iremos destacar dois aqui. Se você quer saber mais, há duas referências
no fim deste capítulo.
Um dos principais problemas destacado por Loftus está relacionado à hipótese nula.
Quando estamos olhando para a diferença entre duas condições, temos de calcular a probabi-
lidade de obter nossa diferença por acaso se a hipótese nula for verdadeira. Lembre-se de que
a hipótese nula declara que não existe diferença entre as duas condições. O problema com a
hipótese nula é que em poucos casos, em qualquer ciência, não existirão diferenças entre duas
condições. É pouco comum encontrar duas coisas que sejam exatamente iguais, mesmo na fí-
sica, e assim basear nosso julgamento probabilístico em tal hipótese nula pode ser seriamente
enganoso. Isso é apenas o essencial da crítica feita por Loftus, mas já serve para ilustrar uma
das objeções que ele faz.
O segundo problema que Loftus destaca é que, embora registremos com alguma con-
fiança que encontramos uma genuína diferença entre nossas duas condições e relatemos o
tamanho dessa diferença, os psicólogos normalmente dizem pouco sobre as médias das popu-
lações subjacentes das duas condições. Loftus argumenta que o teste de hipóteses nos desvia
de pensarmos sobre as médias populacionais. Ele sugere que podemos evitar essa armadilha
ao sempre relatarmos intervalos de confiança em nossos relatórios de pesquisa. Para uma
contribuição mais recente a esse debate, ver Denis (2003). Ainda mais recentemente, Cum-
mings (2014) publicamente sugeriu que deveríamos abandonar completamente o TSHN. Ele
descreve o que chama de uma abordagem de oito passos da “nova estatística”, que não inclui
o TSHN. Ainda que esse artigo tenha sido muito criticado (p. ex., ver Savalei e Dunn, 2015),
Ponto de discussão
138 Estatística sem matemática para psicologia
Qual das seguintes descrições representa um bom resumo da lógica por trás dos testes de
hipóteses?
(a) Medimos a relação entre variáveis dos nossos dados amostrais. Se for grande, deve haver
uma relação genuína na população.
(b) Medimos a relação entre as variáveis a partir dos dados de nossa amostra e calculamos
a probabilidade de que tal relacionamento seja devido apenas ao erro amostral. Se essa
probabilidade é alta, podemos concluir que existe uma relação genuína na população.
(c) Medimos a relação entre as variáveis a partir dos dados de nossa amostra e calculamos
a probabilidade de que tal relacionamento seja devido apenas ao erro amostral. Se essa
probabilidade é baixa, podemos concluir que existe uma relação genuína na população.
(d) Medimos a relação entre as variáveis da nossa amostra e calculamos a probabilidade de
que tal diferença seja devida apenas ao erro amostral se a hipótese nula é verdadeira. Se a
probabilidade é baixa, podemos concluir que existe uma relação verdadeira na população.
Atividade 5.2
5.4 O nível de significância
Muitos de vocês, a esta altura, podem estar pensando que tudo está bem, mas como decidi-
mos se a probabilidade que calculamos no teste da hipótese nula é suficientemente pequena
para que rejeitemos a hipótese nula? Essa é uma excelente pergunta que ainda não tem uma
resposta definitiva. Muitos psicólogos, e mesmo muitas publicações respeitáveis da área,
utilizam a convenção de que uma probabilidade de 5% é suficientemente pequena para
servir como um ponto de corte. Em outras palavras, dado que a hipótese nula é verdadeira,
se a probabilidade de um dado efeito é menor do que 5% (0,05 ou 1 em 20), então temos
um apoio razoável para a nossa hipótese de pesquisa. Essa probabilidade de ponto de corte
ele é um bom artigo porque tem muitas orientações úteis de como melhor apresentar suas
estatísticas para assegurar que elas sejam claramente entendidas pelo seu público. Talvez os
políticos devam ler isso!
Mesmo que existam tais tipos de crítica à testagem de hipóteses, isso não significa que
essa abordagem deva ser abandonada completamente; melhor, devemos ter um entendimento
completo do seu significado para podermos nos beneficiar dessa técnica. Isso é o que espe-
ramos dar a você neste livro. Dessa forma, em conjunto com os testes estatísticos que nos
auxiliam a testar nossas hipóteses (p. ex., o teste-t) você deve, como Loftus sugere, sempre
acrescentar estatísticas descritivas e intervalos de confiança. Uma forma útil de apresentar
intervalosde confiança é pela geração de diagramas de barras de erro apresentando-os nos
relatórios. Mostramos anteriormente como são esses diagramas (ver Cap. 4).
Em outra crítica mais recente ao TSHN, Branch (2014) discute o que ele vê como efeitos co-
laterais perniciosos na dependência dos valores-p para o avanço do conhecimento psicológico.
Uma das suas principais críticas (e existem muitas mais) é que o valor-p não fornece nenhuma
evidência de replicabilidade das descobertas experimentais, e concordamos com ele nesse
ponto. O valor-p somente nos fornece a probabilidade de obter nosso padrão de dados se a
hipótese nula for verdadeira. Ele não diz nada diretamente sobre o quanto confiável e replicável
as descobertas são. Branch sugere para os pesquisadores diversas maneiras para avaliar isso
que são amplamente baseadas em um maior uso de técnicas estatísticas exploratórias, como
as defendidas por Tukey (1977). Curiosamente, Branch destaca a importância de se olhar para
os escores individuais nas amostras e também de comparar entre os indivíduos para ver o que
nos podem dizer sobre a replicabilidade do(s) efeito(s) que estamos examinando. Esse é um
bom artigo, e sugerimos que você o leia.
Capítulo 5 • Testagem de hipóteses e significância estatística 139
é geralmente chamada de alfa (α). Isso significa que, se você conduz o estudo 20 vezes,
somente 1 vez nesses 20 estudos um relacionamento (ou diferença) tão grande quanto a que
foi observada aparecerá por acaso se a hipótese nula for verdadeira. Dado que essa proba-
bilidade é baixa, podemos concluir com razoável confiança que uma relação (ou diferença)
real existe na população investigada. A probabilidade associada a cada teste estatístico é
frequentemente chamada de valor-p. Quando essa probabilidade é impressa na saída do
SPSS, ela aparecerá no formato decimal e, como qualquer probabilidade que é expressa
como um decimal, seu intervalo de variação é o intervalo [0, 1].
O valor-p para um teste específico de estatística inferencial é a probabilidade de encontrar o
padrão de resultados em um estudo específico se a hipótese nula relevante for verdadeira.
Essa probabilidade é condicional.
Alfa (α) é o critério de significância estatística que fixamos em nossas análises. É a probabilida-
de que utilizamos como um ponto de corte, abaixo do qual podemos assumir que nosso resul-
tado é improvável de tornar nossa hipótese de pesquisa mais plausível do que a hipótese nula.
Definições
Em muitas publicações, você verá os pesquisadores relatando seus achados como signi-
ficativos ou não significativos. Supondo que a hipótese nula seja verdadeira e que a proba-
bilidade de obter um efeito devido ao erro amostral seja menor do que 5%, então o achado
é dito “significativo”. Se a probabilidade for maior do que 5%, o achado é dito “não signifi-
cativo”. Essa forma de pensar sobre a análise tem, no entanto, despertado uma boa dose de
críticas nos últimos anos. O problema principal é que geralmente resultados significativos
são mais prováveis de serem publicados em revistas especializadas do que resultados não
significativos. A significância de um teste, portanto, se torna muito importante, o que leva
ao foco no valor-p em detrimento do tamanho do efeito que estamos procurando. Para uma
discussão mais completa desse assunto, ver o próximo Ponto de discussão.
Quando descobrimos que nosso padrão de resultados da pesquisa é tão improvável que su-
gere que nossa hipótese de pesquisa é mais plausível do que a hipótese nula, declaramos
que nossos achados são estatisticamente significativos. Quando descobrimos que os dados são
altamente prováveis se a hipótese nula for verdadeira, declaramos que nossos achados são
não significativos.
Definição
Atualmente, a abordagem convencional é de relatar o valor exato da probabilidade de
uma dada estatística (o valor-p) e deixar de lado a visão de pensar nos nossos resultados como
estatisticamente significativos ou não. Dessa forma, quando você for relatar os resultados de
uma análise, apresente o valor da probabilidade que está associado a suas descobertas. Des-
crevemos a abordagem significativo/não significativo aqui para que você possa saber do que
se trata quando encontrar tal tipo de afirmação em um artigo de alguma revista.
Recomendamos que utilize o nível de 5% como um guia para o que tem sido visto
tradicionalmente como uma probabilidade aceitável das suas descobertas devido ao erro
amostral. Desse modo, se você encontrar um valor-p que seja bem menor do que 5%, terá
uma confiança razoável de que esse resultado corrobora a sua hipótese de pesquisa. Entre-
tanto, você deve relatar o valor-p encontrado e avaliar os resultados em termos do tamanho
do efeito (ver Cap. 8) e do diagrama de barras de erro.
140 Estatística sem matemática para psicologia
Suponha que você conduziu um estudo procurando por diferenças entre homens e mulheres
quanto à preferência por filmes de ação. Quando realiza o seu estudo, você encontra uma pro-
babilidade de 0,005 de que a diferença observada seja devida ao erro amostral.
Com que frequência tal diferença será por causa unicamente do erro amostral?
(a) 1 em 5.000
(b) 1 em 2.000
(c) 1 em 500
(d) 1 em 200
(e) 1 em 100
Suponha que a probabilidade fosse de 0,01: qual opção acima seria verdadeira nesta situação?
Atividade 5.3
5.5 Significância estatística
Como sugerido anteriormente, quando ler um artigo de uma revista de psicologia ou ouvir
um psicólogo eminente (ou não tão eminente) descrevendo suas pesquisas, você vai ouvir/
ler com frequência a palavra “significativo”. Psicólogos dizem coisas como:
… estar casado, ter uma ocupação de alto risco e ter depressão têm uma correlação
significativa
(Polshkova et al., 2016).
Como pressuposto, esperança acadêmica, autoeficácia acadêmica e engajamento de-
monstraram associações significativas com o número de semestres de matrícula e
GPAs anuais cumulativos
(Gallagher et al., 2016).
Entre as variáveis do relacionamento, somente o número de amigos próximos mostrou-
-se significativo
(Chui e Wong, 2016).
O que queremos dizer com esses tipos de declarações? Na linguagem diária, interpre-
tamos a palavra “significativo” como considerável, crítico ou importante. Isso significa que
Polshkova e colaboradores encontraram correlações consideráveis entre as variáveis estar
casado, ter uma ocupação de alto risco e ter depressão? Ou que Gallagher e colaboradores
encontraram relações críticas entre esperança acadêmica e o número de semestres de matrí-
cula? Ou talvez Chui e Wong determinaram que somente um número de amigos próximos
estava decisivamente relacionado à felicidade? Na verdade, eles não necessariamente que-
rem dizer isso. Eles estão meramente dizendo que o que encontraram foi estatisticamente
significativo. Significância estatística é diferente de significância psicológica. Só porque
uma significância estatística foi obtida entre duas amostras de valores, não quer dizer que
existe uma diferença grande ou significativa psicologicamente. Por exemplo, no estudo fei-
to por Redy e Moores (2006) citado no Capítulo 4, houve um impacto significativo do
estágio nas notas dos alunos do último ano. Entretanto, o estágio é responsável por somente
3 a 5% das diferenças entre os dois grupos, e essa não é necessariamente uma diferença
significativa em termos psicológicos (isso será mais bem explicado no Cap. 8).
Já explicamos que a probabilidade que calculamos na estatística inferencial é a proba-
bilidade de que um dado efeito possa surgir se não existir diferenças entre as populações
subjacentes. Isso não apresenta necessariamente relação com a importância psicológica do
achado. A importância psicológica do achado estará relacionada à questão de pesquisa e
as bases teóricas de tal pesquisa. Um dos principais problemas com o valor-p é que ele
Capítulo 5 • Testagem de hipóteses e significância estatística 141
está relacionado ao tamanho da amostra. Se um estudo tiver um número grande de partici-pantes, ele poderá fornecer um resultado estatisticamente significativo que representa um
efeito muito pequeno (relação entre duas variáveis ou diferenças entre dois grupos). Ficará
a cargo do autor (e seu público) determinar a significância psicológica de qualquer desco-
berta. Lembre-se: significância estatística não é o mesmo que significância psicológica.
Por que relatar o valor-p ou o valor-α?*
Existe um debate na psicologia a respeito do uso do valor-alfa (α) como critério de significância.
O modelo geralmente aceito (ppor Branch (2014).
Ponto de discussão
Imagine que você realizou dois estudos separadamente e encontrou uma relação entre o ta-
manho da cabeça e o QI no estudo 1 e o tamanho da cabeça e o tamanho do sapato no estudo
2. A probabilidade de se observar uma relação por acaso no estudo 1 se a hipótese nula fosse
verdadeira foi de 0,04, enquanto no estudo 2 ela foi de 0,001. Qual desses dois resultados é mais
importante psicologicamente?
Atividade 5.4
Capítulo 5 • Testagem de hipóteses e significância estatística 143
5.7 Testes estatísticos
Imagine que esteja investigando a relação entre o número de horas de estudo e o desempe-
nho em uma prova. Suponha agora que você realizou o estudo e encontrou um padrão de
valores semelhante ao apresentado na parte superior da Figura 5.3. Como você calcularia
a probabilidade de que esse relacionamento seja devido ao erro amostral se a hipótese nula
fosse verdadeira? Aqui é onde precisamos utilizar testes estatísticos inferenciais tais como
o do coeficiente de correlação produto-momento de Pearson (ver Cap. 6). Se você conduziu
um estudo que examinou a diferença entre duas condições de uma variável independente,
usaria um teste tal como o teste-t para calcular a sua probabilidade. No resto desta seção,
esperamos promover um entendimento conceitual do que os testes fazem de fato.
Quando olhamos para o relacionamento entre duas variáveis (p. ex., horas de estudo e a
nota em uma prova), somos capazes de calcular uma medida do tamanho ou força do relacio-
namento (isso será abordado com mais detalhes no próximo capítulo). Uma vez que se tenha
uma medida da força de um relacionamento, precisamos encontrar a probabilidade de achar
uma relação de tal intensidade devido unicamente ao erro amostral se a hipótese nula for
verdadeira. Para calcular essa probabilidade, fazemos uso das distribuições de probabilidade
(ver Cap. 4). Dissemos anteriormente que a probabilidade de se obter qualquer valor de uma
distribuição é conhecida. Por exemplo, a probabilidade de se obter um escore-z de 1,80 ou
maior é de somente 3,8%. Se pudermos converter a informação que temos sobre a intensidade
do relacionamento em um valor de uma distribuição de probabilidade, podemos determinar
a probabilidade de que tal valor seja obtido por acaso. Isso nos dará uma indicação da proba-
bilidade de obter o relacionamento que observamos em nosso estudo devido ao erro amostral
(por acaso) se não existir, de fato, relacionamento na população. Isso é basicamente o que é
um teste de hipóteses (significância). A transformação dos dados de nossa amostra em valores
de distribuições de probabilidade nos permite determinar qual é a probabilidade de que esses
dados tenham sido obtidos inteiramente por acaso. Podemos utilizar essa probabilidade para
decidir qual das hipóteses, se a nula ou a experimental, é a escolha mais razoável. Deve ser
enfatizado aqui que as probabilidades que calculamos são baseadas na hipótese de que as
nossas amostras são selecionadas aleatoriamente da população.
A Figura 5.5 mostra a distribuição normal padrão e ilustra que a probabilidade de se
obter um valor nos extremos (caudas) da distribuição é muito pequena. Você deve lembrar
que, quando utilizamos distribuições contínuas de probabilidade, a área sob a curva repre-
senta a probabilidade. Quanto maior a área acima de um valor positivo, maior será a pro-
babilidade de obter valores iguais ou superiores a ele. De forma semelhante, quanto maior
a área abaixo de um valor negativo, maior será a probabilidade de obtermos valores iguais
ou inferiores a ele. Assim, uma vez que convertermos o grau de relacionamento entre duas
variáveis em um valor de uma distribuição de probabilidade, podemos determinar a proba-
bilidade de obter esse valor ou um maior (menor) por acaso. Se os valores estão tanto em
uma como em outra das regiões indicadas na Figura 5.5, podemos concluir que tal relação é
improvável de ter ocorrido por acaso, isto é, ter sido resultado do erro amostral.
É claro que, se estivermos investigando as diferenças entre grupos, podemos também
utilizar as distribuições de probabilidade para encontrar as diferenças dos tamanhos que
observamos por fatores aleatórios entre os dois grupos se a hipótese nula for verdadeira. Em
tal caso, podemos converter a diferença entre os dois grupos de variáveis independentes em
um valor de uma distribuição de probabilidade. Podemos, então, encontrar a probabilidade
de obter tal valor devido ao erro amostral se não existir diferença na população. Se essa pro-
babilidade é pequena, não faz sentido propor que não exista diferença na população e que
a diferença entre as nossas amostras resulte unicamente do erro amostral. Faz mais sentido
sugerir que a diferença que observamos representa uma diferença real na população, isto é,
que a diferença é resultado de nossa manipulação da variável independente.
144 Estatística sem matemática para psicologia
É importante notar que, quando convertemos nossos dados em um valor de distribui-
ção de probabilidade, o resultado obtido é denominado estatística de teste. Por exemplo, se
estamos interessados na diferença entre dois grupos, podemos converter nossos dados em
um valor-t (da distribuição-t). Esse valor-t é a nossa estatística de teste. Então, calculamos
a probabilidade de se obter tal valor ou mais extremos por fatores do acaso apenas, e isso
representa o nosso valor-p.
5.8 Erro do tipo I
Suponha que realizamos uma pesquisa e vemos que, assumindo que a hipótese nula seja
verdadeira, a probabilidade de encontrar o efeito que observamos seja pequena – como
seria a situação representada na Figura 5.3. Nesse caso, teríamos confiança de que podemos
rejeitar a hipótese nula. Suponhamos agora que, na verdade, não exista tal efeito na nossa
população e tropeçamos em um efeito que ocorreu apenas por acaso. Cometeremos, obvia-
mente, um erro se concluirmos que temos suporte para nossa previsão. Os estatísticos di-
riam que se rejeitássemos a hipótese nula nesse caso cometeríamos um Erro do tipo I (um).
Um Erro do tipo I ocorre quando você decide rejeitar a hipótese nula e, na verdade, ela é verda-
deira na população subjacente, isto é, você conclui que existe um efeito na população quando
tal efeito não existe.
Definição
Se o valor-p é 5%, então temos 1 chance em 20 de cometer um Erro do tipo I. Isso por-
que o valor-p é a probabilidade de se obter o resultado observado caso a hipótese nula seja
verdadeira. É a probabilidade de se obter um efeito resultante apenas do erro amostral se a
hipótese nula for verdadeira. Argumentamos que se ela é pequena o suficiente, então é impro-
vável que a hipótese nula seja verdadeira. Mas, como o caso acima nos ilustra, podemos estar
errados, podemos cometer o Erro do tipo I. Dessa forma, a significância representa também
a probabilidade de se cometer o Erro do tipo I. Se o seu valor-p for igual a 5%, isso quer dizer
�3 �2 �1 0 1 2 3
Escores nos extremos de uma distribuição
possuem baixa probabilidade de ocorrência
Figura 5.5 Diagrama ilustrando valores extremos em uma distribuição.
Capítulo 5 • Testagem de hipóteses e significância estatística 145
que a probabilidade de se cometer o Erro do tipo I será igual a esse valor se a hipótese nula
for rejeitada. Embora essa probabilidade seja pequena, é possível ainda que o evento venha a
ocorrer. Podemos relacionar isso à National Lottery*. Existe somente 1 em 14 milhões de pos-
sibilidades de você ganhar a loteria se comprar um único bilhete. Mesmo que a probabilidade
de ganhar seja minúscula, ela ainda existe, e é por isso que as pessoas continuam apostando.
Então fique atento, mesmo se encontrar um valor-p de 0,001%, existe ainda uma probabilida-
de muito pequena de você cometer um Erro do tipo I se a hipótese nula for rejeitada.
Credibilidade dos políticos
Um exemplo muito bom de autores que consideram a possibilidade de que seus resultados se
devam a um Erro do tipo I foi apresentado por Combs e Keller(2010). Nesse artigo, eles pu-
blicaram as descobertas de três estudos que examinaram os fatores que afetam a percepção
de credibilidade dos políticos. Em particular, os autores examinaram os efeitos dos políticos
agindo contra seu próprio interesse (p. ex., elogiando um oponente) nas percepções de cre-
dibilidade. No seu primeiro estudo, além de considerar a questão de agir contra o interesse
próprio, os autores incluíram uma medida de se os políticos em questão (hipotéticos) eram
afiliados ao partido político apoiado pelos participantes. Contrário às expectativas, foi des-
coberto que a similaridade partidária estava negativamente relacionada à credibilidade. Na
discussão do estudo, os autores consideraram uma explicação para esse efeito inesperado.
Eles sugeriram que, em tais situações hipotéticas, talvez os participantes tenham padrões
mais elevados do que para políticos reais. Eles também sugeriram que: “ao mesmo tempo, é
também possível que a associação negativa significativa no Estudo 1 tenha sido um Erro do
tipo 1 e, portanto, deve-se ter cautela na interpretação desse resultado.”
Isso é estimulante, uma vez que os autores são normalmente muito relutantes em consi-
derar a possibilidade de que seus achados sejam resultados de Erros do tipo I (ao menos em
público).
Exemplo da literatura
5.8.1 Replicação
Suponha que você realize um estudo e encontre um relacionamento que tem uma probabi-
lidade de ocorrência se a hipótese nula for verdadeira de 0,01 (ou 1%). Com uma boa dose
de razão, você ficaria feliz em rejeitar a hipótese nula e dizer que encontrou suporte para a
hipótese de pesquisa. O quão confiante você pode estar de que exista, de fato, uma relação
genuína na população? A resposta para essa questão é difícil e em alguns aspectos depende
do contexto da pesquisa sendo realizada. Se o seu estudo foi o primeiro nesse assunto, é
sensato que você trate os resultados com certo grau de cautela. Lembre-se: você está lidan-
do com probabilidades, não com certezas. Mesmo que os seus resultados tenham baixa pro-
babilidade de ocorrência se a hipótese nula for verdadeira, essa probabilidade ainda existe.
Quando retiramos amostras de populações, cada uma será levemente diferente das outras,
e a diferença entre elas resulta no erro amostral (tratamos disso anteriormente no Cap. 3).
Pode ser que um padrão que só acontece 1 vez em 100, devido ao erro amostral, tenha justa-
mente ocorrido com você. Dito de outra forma, você estaria errado, nesse caso, em rejeitar a
hipótese nula. Como devemos proceder nessa situação? O que você deve fazer é replicar os
resultados realizando outro estudo. Se encontrar o mesmo padrão com uma probabilidade
*N. de T.T. Loteria nacional britânica. É semelhante à Mega-Sena, porém o total de números é de 49 possíveis. O total
exato de combinações é 13.983.816.
146 Estatística sem matemática para psicologia
similar de obtê-lo se a hipótese nula for verdadeira, você poderá ficar mais confiante com
os resultados obtidos. A replicação é uma das pedras angulares da ciência. Se você observa
um fenômeno uma vez, então pode ter sido por acaso; se o vê duas, três ou mais vezes, pode
estar mais certo de que ele é um resultado autêntico.
5.9 Erro do tipo II
Existe outro tipo de erro que podemos cometer quando utilizamos a abordagem da testagem
de hipóteses em uma pesquisa, denominado Erro do tipo II (dois). Um Erro do tipo II é não
rejeitar a hipótese nula quando ela é, de fato, falsa.
Um Erro do tipo II ocorre quando você conclui que não existe um efeito na população, mas, na
realidade, ele está presente. Ele representa o caso em que você não rejeita a hipótese nula
quando de fato deveria rejeitá-la, porque na população subjacente a hipótese nula não é ver-
dadeira.
Definição
Suponha que queremos ver se existe relação entre a quantidade de álcool consumido e
a coordenação de uma pessoa. Um estudo é realizado e verifica-se que existe uma grande
probabilidade, digamos 0,8 (80%), de que o relacionamento que você observou na amostra
tenha ocorrido por acaso. Você concluirá, portanto, que não existe relação entre quantidade
ingerida de álcool e coordenação. Será uma conclusão correta? Claramente, essa é uma
conclusão incorreta, pois todas as evidências apontam o contrário. É por isso que existem
leis que proíbem dirigir depois de beber. Nesse caso, podemos ter cometido um Erro do tipo
II, isto é, rejeitamos a hipótese de pesquisa quando ela é de fato verdadeira.
Os mesmos tipos de erros podem ocorrer quando se investiga diferenças entre grupos.
Suponha que você esteja conduzindo um estudo para verificar se alguém pode cobrir 100
metros mais rápido nadando em uma piscina do que correndo em uma pista de atletismo.
Uma vez analisados os dados, você verifica que existe uma grande probabilidade, se a hipó-
tese nula for verdadeira, de que a diferença obtida tenha resultado do erro amostral. Dessa
forma, você conclui que não existe diferença entre os tempos gastos para completar os 100
metros na terra ou na água para a população em geral. Você cometeu claramente, nesse
caso, um Erro do tipo II.
Nas nossas pesquisas, em virtude de nunca estarmos 100% certos de que podemos
rejeitar a hipótese nula ou 100% certos de que podemos aceitá-la, temos sempre uma pro-
babilidade de cometer algum tipo de erro. Esses erros são os do tipo I ou II. Lembre-se que
a probabilidade de cometer um Erro do tipo I é indicada por α. A probabilidade de cometer
um Erro do tipo II será indicada por β (beta).
Se você se encontrar na situação descrita acima, em que foi cometido um Erro do tipo
II, convém se perguntar por que, se existe uma diferença real na população, o seu estudo
falhou em detectá-la. Há vários motivos para esse tipo de problema. No primeiro deles, por
puro acaso você pode ter selecionado pessoas que possuem uma grande tolerância ao álcool
(ou pessoas que realmente são tão rápidas na piscina quanto na pista). Mas provavelmente,
no entanto, você desenhou mal o seu estudo, ou os tamanhos das amostras utilizadas foram
muito pequenos. Esses fatores afetam a capacidade da pesquisa em detectar diferenças reais
na população. A habilidade de um estudo rejeitar a hipótese nula quando ela for de fato falsa
é denominada poder do estudo, e sua probabilidade é representada por 1 − β. (Falaremos
mais sobre o poder no Cap. 8.)
Capítulo 5 • Testagem de hipóteses e significância estatística 147
Quais das seguintes situações representam um Erro do tipo I e quais representam um Erro do tipo II?
(a) Você descobriu em um estudo que existe uma relação entre a quantidade de chá ingerida
por dia e a quantidade de dinheiro ganho na loteria. Você conclui que para se ganhar na
loteria, deve-se beber muito chá.
(b) Você descobriu em um estudo que não existe diferença entre a velocidade das tartarugas
e a dos leopardos. Você conclui que as tartarugas são tão rápidas quanto os leopardos.
(c) Você verificou em um estudo que existe uma relação entre o padrão de vida e a renda
anual. No entanto, em virtude de a probabilidade associada à relação ser de 0,5, você con-
clui que não existe relacionamento entre as duas variáveis.
Atividade 5.5
5.10 Por que estabelecer α em 0,05?
Você pode estar se perguntando por que existe um ponto de corte de α em 0,05. Quem deter-
minou que 0,05 é um valor de corte mais apropriado para rejeitar a hipótese nula do que 0,20
ou 0,001? Embora seja um valor arbitrário, existe uma razão específica para adotá-lo. Vamos
dar uma olhada nas situações em que estabelecemos α como 0,20 e 0,001, respectivamente.
Se definirmos α como 0,20, isso significa que vamos tolerar um Erro do tipo I de um estudo
a cada cinco realizados. Esse é um critério de significância bastante liberal, pois em uma
vez a cada cinco podemos rejeitar a hipótese nula quando de fato ela é verdadeira. Pelo lado
positivo, teremos uma probabilidade menor de cometermos o Erro do tipo II, isto é, teremos
uma menor probabilidade de aceitarmos uma hipótese nulaé verdadeira é definida como:
(a) desprezível
(b) β
(c) α
(d) Nenhuma das alternativas acima
8. Se você obtém o valor-p bilateral de 0,02, o
valor-p unilateral equivalente será:
(a) 0,01
(b) 0,04
(c) 0,02
(d) 0,4
9. Se previmos que existirá uma diferença en-
tre as condições A e B, nós fizemos:
(a) uma previsão unilateral
(b) uma previsão bilateral
(c) uma previsão nula
(d) Ambas as alternativas (b) e (c) acima
10. Se você obtém um valor-p de 4%, o que isso
significa?
(a) A probabilidade de que a hipótese nula
seja verdadeira é de 4%.
(b) A probabilidade de que a hipótese nula
seja falsa é de 4%.
(c) A probabilidade de se obter o efeito que
você tem devido ao erro amostral se a
hipótese nula é verdadeira é de 4%.
(d) Nenhuma das alternativas acima
11. Se você prevê que existirá diferença entre
as condições A e B, qual é a hipótese nula?
(a) A condição A será maior do que a con-
dição B.
(b) A condição B será maior do que a con-
dição A.
(c) A condição A está relacionada à condi-
ção B.
(d) Não existirá diferença entre as condi-
ções A e B.
12. Se rejeitarmos a hipótese nula quando é
verdadeira:
(a) cometemos um Erro do tipo I
(b) cometemos um Erro do tipo II
(c) fizemos um progresso científico
(d) Ambas as alternativas (b) e (c) acima
13. Qual das seguintes alternativas é um pres-
suposto relacionado ao uso dos testes pa-
ramétricos?
(a) Os dados devem estar normalmente
distribuídos.
(b) As amostras testadas devem ter apro-
ximadamente as mesmas variâncias.
(c) Não devemos ter valores extremos.
(d) Todas as alternativas acima.
14. Um Erro do tipo II significa:
(a) que rejeitamos a hipótese nula quando
ela é verdadeira
(b) que aceitamos a hipótese experimental
quando ela é falsa
(c) que aceitamos a hipótese nula quando
ela é, de fato, falsa
(d) Nenhuma das alternativas acima
15. Uma pesquisadora conduziu um estudo
sobre tempos de reação com 20 partici-
pantes em cada uma de duas condições.
Ela descobriu que a variância da primeira
condição é de 2 segundos e a segunda de 14
segundos. Qual das seguintes afirmações é
verdadeira?
(a) Ela não deve utilizar um teste paramé-
trico porque a condição da homogenei-
dade das variâncias não está satisfeita.
(b) Ela satisfez todos os requisitos para o
uso de um teste paramétrico.
(c) Ela não tem homogeneidade de variân-
cias, mas ainda assim pode utilizar um
teste paramétrico, pois possui amos-
tras do mesmo tamanho.
(d) Nenhuma das alternativas acima
16. Como representamos o poder de um teste?
(a) α
(b) β
(c) 1 − α
(d) 1 − β
xiv Como usar este livro
40 Estatística sem matemática para psicologia
Resumo
Neste capítulo, introduzimos o pacote estatísti-
co do SPSS. Você aprendeu:
● como usar os tutoriais;
● como determinar variáveis na parte Variable
View da interface;
● como usar Labels e Value Labels para tornar a
saída mais clara;
● como inserir dados para delineamentos cor-
relacionais, entre e intraparticipantes;
● que o uso de uma variável de agrupamento é
importante para delineamentos entre parti-
cipantes.
Exercícios no SPPS
As respostas de todos os exercícios do livro podem ser encontradas na seção de respostas no final
do livro.
Exercício 1
A Dra. Gênio realizou um estudo comparando
a memorização de adjetivos com a de subs-
tantivos. Ela alocou aleatoriamente 20 parti-
cipantes a duas condições. Depois, apresentou
a um dos grupos de 10 participantes uma lista
de 20 adjetivos e a outro grupo (também com
10 participantes) uma lista de 20 substantivos.
Em seguida, solicitou a cada grupo que tentas-
se lembrar o número máximo possível de pa-
lavras apresentadas. Ela obteve os seguintes
resultados:
Adjetivos: 10, 6, 7, 9, 11 ,9 ,8 ,6 ,9, 8
Substantivos: 12, 13, 16, 15, 9 ,7 ,14 ,12 ,11, 13
1. Qual é a VI neste estudo?
2. Qual é a VD?
3. Esse é um delineamento entre ou intrapar-
ticipantes?
4. É um delineamento experimental, quase-
-experimental ou correlacional?
5. Insira os dados no SPSS de forma apropria-
da para o delineamento do experimento e
salve os dados em um arquivo.
Exercício 2
Utilizando os dados do Exercício 1:
● Se você inseriu os dados como um delinea-
mento intraparticipantes, insira-os agora
como um delineamento entre participantes.
● Se você inseriu os dados com um delinea-
mento entre participantes, insira-os agora
como um delineamento intraparticipantes.
Salve os dados em um arquivo utilizando um
nome diferente do anterior.
Os Resumos possibilitam que os pontos
principais sejam revisados após a leitura
Os Exercícios no SPSS no final de cada
capítulo permitem que você teste a si
mesmo usando dados reais
Recursos didáticos
O professor interessado em recursos pedagógicos complementares deve acessar o
site do Grupo A (loja.grupoa.com.br), buscar pela página do livro, clicar em Ma-
terial do Professor e fazer o seu cadastro.
Para visualizar o hotsite exclusivo, que inclui materiais complementares ao livro,
acesse http://apoio.grupoa.com.br/dancey7ed
http://loja.grupoa.com.br
http://apoio.grupoa.com.br/dancey7ed
Agradecimentos e créditos
Agradecemos aos revisores desta 7a edição por seu tempo e sua valiosa ajuda:
Paul Warren – University of Manchester
Richard Rowe – Sheffield University
Jennifer Murray – Edinburgh Napier University
Agradecemos às seguintes pessoas, empresas e organizações pela permissão para o uso de
material protegido por direitos autorais:
Capturas de tela
As capturas de tela das páginas 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39,
52, 53-54, 65, 66, 70, 88, 118, 122, 123, 154, 155, 156, 160, 161, 162, 163, 183, 184, 192,
193, 196, 197, 223, 224, 230, 231, 263, 264, 265, 267, 268, 269, 273, 274, 297, 298, 305,
306, 307, 337, 338, 339, 340, 341, 342, 350, 351, 352, 359, 360, 370, 371, 372, 381, 382,
405, 406, 407, 408, 409, 421, 422, 456, 457, 458, 461, 483, 484, 492, 493, 503, 504, 510,
517, 523, 524, 528 são da International Business Corporation, reimpressão cortesia da
International Business Machines Corporation, © International Business Machines Cor-
poration. A IBM, o logo da IBM, ibm.com, PASW e SPSS são marcas registradas da
International Business Machines Corporation, com registros em várias jurisdições no
mundo todo. Outros nomes de serviços e produtos podem ser marcas registradas da IBM
ou de outras empresas. Há uma lista atual com as marcas registradas da IBM disponível
online no endereço www.ibm.com/legal/ copytrade.shtml]www.ibm.com/legal/copytra-
de.shtml.
Tabelas
Tabela da página 254 de Health complaints and unemployment: the role of self-efficacy in
a prospective cohort study, Journal of Social and Clinical Psychology, 32, 97–115 (Zenger,
M., Berth, H., Brähler, E. e Stöbel-Richter, Y. 2013), republicada com permissão de Guilford
Press, obtida por meio da Copyright Clearance Center, Inc.; Tabela na página 283 adaptada
de Everyday memory in children with developmental coordination disorder (DCD), Rese-
arch in Developmental Disabilities, 34, pp. 687–94 (Chen, I. C., Tsai, P. L., Hsu, Y. W., Ma,
H. I. e Lai, H. A. 2013), Copyright © 2013, com permissão de Elsevier; Tabela na página
303 de Differential effects of age on involuntary and voluntary autobiographical memory,
Psychology and Aging, 24, pp. 397–411 (Schlagman, S., Kliegel, M., Schulz, J. e Kvavi-
lashvili, L. 2009), Copyright © 2009 American Psychological Association.
Texto
Trecho na página 2 de Statistics Commission Report No. 38 – Official Statistics: Value and
Trust, p. 38, © Crown copyright. Contém informações de setores públicos licenciadas por
meio do Open Government Licence (OGL) v3.0. http://www.nationalarchives.gov.uk/doc/
open-governmentlicence/version/3/; Trecho na página 16 de Perceptual biases in relation
http://ibm.com
http://www.ibm.com/legal/copytrade.shtml
http://www.ibm.com/legal/copytrade.shtml
http://www.ibm.com/legal/copytrade.shtml
http://www.nationalarchives.gov.uk/doc/open-governmentlicence/version/3/
http://www.nationalarchives.gov.uk/doc/open-governmentlicence/version/3/
xvi Agradecimentosfalsa. Com tal critério liberal de
significância, geralmente vamos rejeitar a hipótese nula mais frequentemente e, dessa forma,
é mais provável rejeitá-la quando ela é falsa (bem como é mais provável também rejeitá-la
quando ela é verdadeira). Isso significa uma probabilidade menor de Erro do tipo II.*
Muito bem, que tal agora estabelecer o nosso α em 0,001? Aqui teremos uma probabili-
dade bem menor de cometermos um Erro do tipo II. Teremos uma possibilidade em mil de
rejeitarmos a hipótese nula quando ela for verdadeira. Esse é um critério de significância
bastante conservador. Sob essa ótica, isso parece ser uma coisa boa. Afinal, não queremos
rejeitar a hipótese nula incorretamente e, então, por que não sermos bem conservadores no
nível de significância? O problema aqui é que, embora reduzamos a probabilidade de come-
termos o Erro do tipo I, também estamos aumentando a probabilidade de não rejeitarmos
a hipótese nula quando ela é falsa. Assim aumentamos a probabilidade de cometermos o
Erro do tipo II. A razão para isso é que, com um critério de significância tão conservador,
existirão poucas possibilidades de rejeitarmos a hipótese nula. Dessa forma, aumentaremos
a probabilidade de não rejeitarmos a hipótese nula quando ela é falsa.
Quando estabelecermos nosso critério para a significância devemos, portanto, fazer um
balanço entre as possibilidades de cometermos Erros do tipo I e II. Em muitas situações
um α de 0,05 fornece esse ponto de equilíbrio. Você deve notar que algumas vezes existem
outras considerações que determinam qual o nível de significância que deve ser utilizado.
Por exemplo, se vamos testar um remédio novo, devemos ser muito mais conservadores, pois
as consequências de cometermos um Erro do tipo I podem ser bastante sérias. As pessoas
podem estar tomando um remédio que apresente efeitos colaterais perigosos ou que possa
*N. de T.T. Aumentar ou diminuir o valor do Erro I (i.e., a probabilidade α) fará com que o Erro II correspondente
(probabilidade β) diminua ou aumente. Contudo, essa relação não é direta, pois eles estão associados a distribuições
diferentes de probabilidade. Assim, deve-se tomar cuidado, pois uma redução grande no Erro I não implicará em um
aumento proporcional no Erro II e vice-versa.
148 Estatística sem matemática para psicologia
não ser efetivo em tratar o que deveria de fato tratar. Outra situação em que podemos querer
estabelecer diferentes níveis de significância é quando conduzimos várias análises sobre o
mesmo conjunto de dados. (Isso é discutido em mais detalhes na seção 10.5.)
5.11 Hipóteses unilaterais e bilaterais
Anteriormente neste capítulo, descrevemos um possível estudo sobre a relação entre o nú-
mero de horas de estudo semanal com a nota na prova (ver seção 5.1). Fizemos a previsão
(hipotética) de que à medida que as horas de estudo aumentam, da mesma forma aumenta-
ria a nota na prova. Aqui fizemos o que é denominado uma hipótese direcional. Especifi-
camos a direção do relacionamento entre as duas variáveis: sugerimos que, aumentando as
horas de estudo, a nota da prova também aumentaria. Isso é denominado hipótese unilateral
ou unicaudal. Nesse caso, estamos seguros sobre a natureza do relacionamento e podemos,
então, fazer uma previsão sobre a direção dele. Entretanto, em muitos casos na psicologia
(e em outras disciplinas) não estamos seguros sobre a natureza do relacionamento que es-
tamos interessados em verificar. Por exemplo, suponha que queremos investigar a relação
entre ansiedade e lembrar-se de informações negativas. As pesquisas prévias na área levam
a resultados contraditórios. Mogg, Mathews e Weinman (1987) viram que indivíduos ansio-
sos lembram menos palavras negativas do que pessoas não ansiosas, enquanto Reidy (2004)
viu que pessoas ansiosas tendem a lembrar mais palavras negativas do que positivas. Então,
aqui não estamos totalmente seguros sobre a direção da relação entre pessoas ansiosas e
lembrar-se de palavras negativas. Assim, vamos estabelecer apenas que existe um relacio-
namento entre as duas variáveis sem, no entanto, especificar a direção desse relacionamen-
to. Ao fazer tal previsão, estamos declarando que pensamos que existe um relacionamento,
mas que não estamos seguros de se quando a ansiedade aumenta a lembrança de palavras
negativas aumenta ou diminui. Aqui nós fizemos o que é denominado previsão bidirecio-
nal, mais conhecida como hipótese bilateral ou bicaudal.
Uma hipótese unilateral é quando você especificou a direção do relacionamento entre as va-
riáveis ou a diferença entre as duas condições. Também é chamada de hipótese direcional ou
unicaudal.
Uma hipótese bilateral é quando você previu que existirá um relacionamento entre as variáveis
ou a diferença entre duas condições, mas não previu a direção do relacionamento entre as
variáveis ou a diferença entre as duas condições. Também é denominada hipótese bidirecional
ou bicaudal.
Definições
Você pode estar pensando que esses são termos bizarros para associar a esse tipo de hipó-
teses. Esperamos que tudo fique claro na próxima explicação. Para entender por que utilizamos
os termos hipótese uni e bicaudal, você precisa voltar ao que foi visto sobre as distribuições.
Anteriormente explicamos que a distribuição normal (e outras distribuições de proba-
bilidade) possui caudas em suas extremidades (ver Fig. 5.5). A probabilidade de se obter
valores desses extremos (das caudas) é pequena quando comparado ao de obter valores do
meio da distribuição (ver Fig. 5.6). Por exemplo, obter a altura de um homem com 244 cm
é altamente improvável, e esse valor estaria na cauda direita (superior) da distribuição das
alturas de todos os homens.
Agora você precisa relembrar o que foi dito sobre os testes estatísticos. Explicamos que
utilizamos as distribuições de probabilidade como um recurso para calcular a probabilidade
Capítulo 5 • Testagem de hipóteses e significância estatística 149
de uma diferença ou de um relacionamento ocorrer unicamente como resultado do erro
amostral se essa diferença ou relacionamento não existe na população. Como exemplo,
mostramos como se pode utilizar a distribuição normal padrão nesses casos. Destacamos
que, após termos transformado nossos dados amostrais em um escore da distribuição, de-
terminamos qual a probabilidade de obter esse valor ou um valor ainda mais extremo como
resultado apenas do erro amostral. Se essa probabilidade for pequena, então podemos ar-
gumentar com alguma confiança que temos um relacionamento genuíno entre as nossas
variáveis, isto é, o relacionamento não foi devido ao erro amostral.
Se você observar a Figura 5.7, verá que indicamos as áreas na distribuição onde a pro-
babilidade de obter tal valor é pequena. Esses valores estão localizados nos extremos (cau-
das) da distribuição.
Quando utilizamos o processo de calcular o escore relevante dos nossos dados amos-
trais, estamos trabalhando com alguma medida da intensidade do relacionamento entre as
�3 �2 �1 0 1 2 3
A área da porção do meio
é maior do que a dos extremos
Figura 5.6 Valores nos extremos (caudas) apresentam uma probabilidade de ocorrência
menor do que aqueles no meio da distribuição.
�3 �2 �1 1 2 30
Escores nas caudas
da distribuição
Cauda inferior Cauda superior
Escores baixos
de ansiedade
com a
estatística
com escores
altos de
procrastinação
resultam em
um escore
nesta cauda
Escores altos de
ansiedade com
a estatística
com escores
altos de
procrastinação
resultam em um
escore nesta
cauda
Figura 5.7 Ilustração dos valores nas caudas da distribuição.
150 Estatística sem matemática para psicologia
duas variáveis. Suponha que tenhamos dois estudos, o Estudo 1 e o Estudo 2, ambos inves-
tigando o relacionamento entre ansiedade com a estatística e procrastinação (ver Tab. 5.1).
Nos dois estudos queremos verificar se a ansiedade com a estatística e a procrastinação
estão relacionadas de alguma forma. Você deve notar a partir da tabela quee créditos
to paranormal and conspiracy beliefs, PLoS ONE, 10 (van Elk M. 2015), reproduzido com
permissão; Trecho na página 99 de No regrets? Measuring the career benefits of a psycho-
logy placement year, Assessment & Evaluation in Higher Education, 37, Iss. 5 (Moores, E.
e Reddy, P. 2012), reimpresso com permissão de Taylor & Francis Ltd, http://www.tandfon-
line.com, Copyright © 2012 Routledge; Citação na página 137 de Geoffrey R. Loftus re-
produzida com permissão; Trecho na página 145 de Politicians and trustworthiness: acting
contrary to self-interest enhances trustworthiness, Basic and Applied Social Psychology,
32, p. 328-39 (Combs, D. J. e Keller, P. S. 2010), Copyright © 2010 Routledge. Reimpresso
com permissão de Taylor & Francis Ltd, http://www.tandfonline.com; Excerto da página
199 from Evaluation of a new measure of mood intolerance, the Tolerance of Mood States
Scale (TOMS): Psychometric properties and associations with eating disorder symptoms,
Eating Behaviors, 13, Iss. 4 (Allen, K.L., Mclean, N.J. e Byrne, S.M. 2012), Copyright
© 2012, com permissão de Elsevier; Trecho na página 203 de Age-related differences in
recognition memory for items and associations: contribution of individual differences in
working memory and metamemory, Psychology & Aging, 27 (Bender, R. e Raz, N 2012),
reimpresso com permissão de Taylor & Francis Ltd, http://www.tandfonline.com; Excertos
nas páginas 198-99 from Sexting as an intervention: relationship, satisfaction and motiva-
tion considerations, The American Journal of Family Therapy, 41 (Parker, T.S. Blackburn,
K.M., Perry, M.S. e Hawks, J.M. 2013), Copyright © 2013 Routledge, reimpresso com per-
missão de Taylor & Francis Ltd, http://www.tandfonline.com; Trecho na página 228 de A
comparative study on the attitudes and uses of music by adults with visual impairments
and those who are sighted – JVIB Abstract, Journal of Visual Impairment & Blindness,
109 (Park, H.Y., Chong, H.J. e Kim, S.J. 2015), republicado com permissão de American
Foundation for the Blind; permissão por Copyright Clearance Center, Inc.; Trecho na pági-
na 241 de Beyond the null ritual: Formal modeling of psychological processes, Journal of
Psychology, 217 (Marewski, J. N., e Olsson, H. 2009), Copyright © 2009 American Psycho-
logical Association; Citação na página 241 de Statistical procedures and the justification of
knowledge in psychological science, American Psychologist, 44 (Rosnow, R.J. e Rosenthal,
R. 1989), Copyright © 1989 American Psychological Association; Trecho na página 241 de
On statistical testing in psychology, British Journal of Psychology, 88 (Macdonald, R.R.
1997), British Journal of Psychology by BRITISH PSYCHOLOGICAL SOCIETY Repro-
duzido com permissão de CAMBRIDGE UNIVERSITY PRESS. via Copyright Clearance
Center; Trecho na página 282 de Collectivism and the meaning of suffering, Journal of Per-
sonality and Social Psychology, 103 (Sullivan, D., Landau, M. J., Kay, A. C. e Rothschild,
Z. K. 2012), Copyright © 2012 American Psychological Association; Trecho nas páginas
349-350 de A quick eye to anger: An investigation of a differential effect of facial featu-
res in detecting angry and happy expressions, International Journal of Psychology (Lo,
L. Y., e Cheng, M. Y. 2015), International journal of psychology by INTERNATIONAL
UNION OF PSYCHOLOGICAL SCIENCE Reproduzido com permissão de PSYCHOLO-
GY PRESS via Copyright Clearance Center; Trecho na página 359 de Smartphone applica-
tions utilizing biofeedback can aid stress reduction, Frontiers in Psychology, 7, 832 (Dillon,
A., Kelly, M., Robertson, I. H., & Robertson, D. A. 2016), Copyright © 2016 Dillon, Kelly,
Robertson e Robertson.
http://www.tandfonline.com
http://www.tandfonline.com
http://www.tandfonline.com
http://www.tandfonline.com
http://www.tandfonline.com
Agradecimentos e créditos xvii
Créditos das imagens
Agradecemos às seguintes pessoas pela permissão para reproduzir suas fotografias:
Dra. Karina Allen (p. 199); Manna Alma (p. 310, canto superior esquerdo); Ellen Bo-
ddington (p. 452, à esquerda); Jonathan Lent (p. 395, à direita); Geoffrey Loftus (p. 241,
parte inferior); Professor Mark McDermott (p. 452, à direita); Dra. Liz Moores (p. 98,
canto inferior direito); Peter Reddy (p. 98, à direita); Robert Rosenthal (p. 243, canto
inferior direito); Sarah Partington (p. 84, parte inferior); Daniel Sullivan (p. 281, canto
superior direito).
Todas as outras imagens © Pearson Education.
Esta página foi deixada em branco intencionalmente.
Sumário
1 Variáveis e delineamento de pesquisa 1
2 Introdução ao SPSS 25
3 Estatística descritiva 41
4 Probabilidade, amostragem e distribuições 95
5 Testagem de hipóteses e significância estatística 130
6 Análise de correlação: o r de Pearson 169
7 Análise de diferenças entre duas condições: o teste-t 211
8 Questões de significância 240
9 Medidas de associação 259
10 Análise de diferenças entre três ou mais condições 290
11 Análise de variância com mais de uma VI 319
12 Análise de regressão 367
13 Análise de três ou mais grupos controlando os efeitos de uma
covariável 403
14 Introdução à análise de fatores 434
15 Introdução à análise multivariada de variância (MANOVA) 468
16 Estatística não paramétrica 502
Respostas das atividades e dos exercícios no SPSS 537
Apêndice 1: Tabela dos escores-z e da proporção da
distribuição normal padrão que está abaixo e acima desse escore 579
Apêndice 2: Tabela de r para zr 583
Esta página foi deixada em branco intencionalmente.
Sumário detalhado
1 Variáveis e delineamento de pesquisa 1
Visão geral do capítulo 1
1.1 Por que ensinar estatística sem fórmulas matemáticas? 1
1.2 Variáveis 3
1.3 Níveis de mensuração 7
1.4 Delineamentos de pesquisa 9
1.5 Delineamentos entre e intraparticipantes 17
Resumo 21
Questões de múltipla escolha 22
Referências 24
Respostas das questões de múltipla escolha 24
2 Introdução ao SPSS 25
Visão geral do capítulo 25
2.1 Aspectos básicos 25
2.2 Iniciando o SPSS 25
2.3 Trabalhando com dados 29
2.4 Inserção de dados 31
2.5 Salvando os dados 34
2.6 Inserindo dados para delineamentos entre e intraparticipantes 35
2.7 Delineamentos intraparticipantes 39
Resumo 40
Exercícios no SPPS 40
3 Estatística descritiva 41
Visão geral do capítulo 41
3.1 Amostras e populações 41
3.2 Medidas de tendência central 44
3.3 Erro amostral 49
SPSS: obtendo medidas de tendência central 52
3.4 Descrição gráfica dos dados 55
SPSS: gerando gráficos descritivos 65
3.5 Diagramas de dispersão (scattergrams) 67
SPSS: gerando diagramas de dispersão 70
3.6 Erro de amostragem e relações entre variáveis 70
3.7 A distribuição normal 73
xxii Sumário detalhado
3.8 Variação ou dispersão de distribuições 74
SPSS: obtendo medidas de variação 79
3.9 Outras características das distribuições 80
3.10 Distribuições não normais 81
SPSS: gerando curvas normais em histogramas 88
3.11 Relatando as estatísticas descritivas 89
Resumo 90
Exercícios no SPPS 90
Questões de múltipla escolha 91
Referências 93
Respostas das questões de múltipla escolha 94
4 Probabilidade, amostragem e distribuições 95
Visão geral do capítulo 95
4.1 Probabilidade 95
4.2 A distribuição normal padrão 99
4.3 Aplicando probabilidade à pesquisa 106
4.4 Distribuições amostrais 106
4.5 Intervalos de confiança e erro-padrão 109
SPSS: obtendo intervalos de confiança 118
4.6 Diagramas de barras de erro 119
4.7 Sobreposição de intervalos de confiança 120
SPSS: gerando diagramas de barras de erro 122
4.8 Intervalos de confiança para outras estatísticas 125
Resumo 125
Exercícios no SPPS 126
Questões de múltipla escolha 127
Referências 129
Respostas das questões de múltipla escolha 129
5 Testagem de hipóteses e significância estatística 130
Visão geral do capítulo 130
5.1 Outra forma de aplicar probabilidades à pesquisa: teste de hipóteses 130
5.2 Hipótese nula 135
5.3 Lógica do teste da hipótese nula 136
5.4 O nível de significância 138
5.5 Significância estatística140
5.6 A interpretação correta do valor-p 142
5.7 Testes estatísticos 143
5.8 Erro do tipo I 144
Sumário detalhado xxiii
5.9 Erro do tipo II 146
5.10 Por que estabelecer α em 0,05? 147
5.11 Hipóteses unilaterais e bilaterais 148
5.12 Pressupostos subjacentes ao uso dos testes estatísticos 152
SPSS: Conselheiro estatístico 160
Resumo 163
Exercícios no SPPS 164
Questões de múltipla escolha 165
Referências 167
Respostas das questões de múltipla escolha 168
6 Análise de correlação: o r de Pearson 169
Visão geral do capítulo 169
6.1 Correlações bivariadas 169
SPSS: correlações bivariadas – o r de Pearson 183
SPSS: obtendo uma matriz de diagramas de dispersão 192
6.2 Correlações de primeira e de segunda ordens 195
SPSS: correlações parciais – r de Pearson 196
6.3 Padrões de correlações 203
Resumo 204
Exercício no SPPS 205
Questões de múltipla escolha 205
Referências 210
Respostas das questões de múltipla escolha 210
7 Análise de diferenças entre duas condições: o teste-t 211
Visão geral do capítulo 211
7.1 Análise de duas condições 212
SPSS: para um teste-t independente 223
SPSS: delineamento de medidas repetidas para duas
amostras: teste-t pareado 230
Resumo 235
Exercício no SPPS 235
Questões de múltipla escolha 236
Referências 239
Respostas das questões de múltipla escolha 239
8 Questões de significância 240
Visão geral do capítulo 240
8.1 Critérios de significância 240
xxiv Sumário detalhado
8.2 Tamanho do efeito 245
8.3 Poder 245
8.4 Fatores que influenciam o poder 246
8.5 Calculando o poder 250
8.6 Intervalos de confiança 253
Resumo 254
Questões de múltipla escolha 255
Referências 257
Respostas das questões de múltipla escolha 258
9 Medidas de associação 259
Visão geral do capítulo 259
9.1 Frequências (dados categóricos) 259
9.2 χ2 de uma variável, ou teste de aderência 261
SPSS: χ2 de uma variável 263
SPSS: χ2 de uma variável, utilizando frequências diferentes
das esperadas sob a hipótese nula 267
9.3 Teste χ2 de independência: 2 × 2 270
SPSS: χ2 2 × 2 273
9.4 Teste χ2 de independência: r × c 279
Resumo 284
Exercícios no SPPS 284
Questões de múltipla escolha 285
Referências 289
Respostas das questões de múltipla escolha 289
10 Análise de diferenças entre três ou mais condições 290
Visão geral do capítulo 290
10.1 Visualização do delineamento 291
10.2 Significado da análise de variância 292
SPSS: executando a ANOVA de um fator 297
10.3 Estatísticas descritivas 299
10.4 Comparações planejadas 300
10.5 Controle para testes múltiplos 301
10.6 Testes post hoc 301
10.7 ANOVA de medidas repetidas 304
SPSS: instruções para a ANOVA de medidas repetidas 305
Resumo 312
Exercícios no SPPS 312
Questões de múltipla escolha 313
Sumário detalhado xxv
Referências 318
Respostas das questões de múltipla escolha 318
11 Análise de variância com mais de uma VI 319
Visão geral do capítulo 319
11.1 Introdução 319
11.2 Fontes de variação 320
11.3 Delineamentos apropriados para uma ANOVA fatorial 322
11.4 Terminologia da ANOVA 323
11.5 Duas variáveis independentes entre participantes 324
SPSS: análise de dois fatores entre participantes 337
11.6 Duas variáveis intraparticipantes 342
SPSS: ANOVA com dois fatores intraparticipantes 350
11.7 Uma variável entre participantes e outra intraparticipantes 353
SPSS: ANOVA com um fator entre participantes e
um intraparticipantes 359
Resumo 361
Exercícios no SPPS 361
Questões de múltipla escolha 363
Referências 365
Respostas das questões de múltipla escolha 366
12 Análise de regressão 367
Visão geral do capítulo 367
12.1 Propósito da regressão linear 367
SPSS: traçando a linha de melhor aderência 370
SPSS: análise de regressão linear 381
12.2 Regressão múltipla 388
Resumo 397
Exercícios no SPPS 397
Questões de múltipla escolha 398
Referências 401
Respostas das questões de múltipla escolha 402
13 Análise de três ou mais grupos controlando
os efeitos de uma covariável 403
Visão geral do capítulo 403
SPSS: obtendo um diagrama de linhas de regressão 405
13.1 Grupos preexistentes 411
13.2 Delineamentos pré e pós-teste 417
xxvi Sumário detalhado
SPSS: obtendo os resultados de uma ANCOVA 421
Resumo 429
Exercício no SPPS 429
Questões de múltipla escolha 430
Referências 433
Respostas das questões de múltipla escolha 433
14 Introdução à análise de fatores 434
Visão geral do capítulo 434
14.1 Qual é o objetivo da análise de fatores? 434
14.2 Principais tipos de análise de fatores 436
14.3 Uso da análise de fatores na psicometria 436
14.4 Visualização de fatores 437
14.5 Conceito da análise de fatores 438
14.6 Nomeando os fatores 440
14.7 Cargas de variáveis em fatores 441
14.8 Matriz de correlações 443
14.9 Matrizes com e sem rotação 444
14.10 Plotagem das variáveis no espaço dos fatores 445
14.11 Rotação da matriz 447
14.12 Etapas para a execução da análise de fatores 450
14.13 Uso de fatores ou componentes em análises posteriores 454
14.14 Significado das cargas negativas 455
SPSS: análise de fatores – análise de componentes principais 456
Resumo 464
Questões de múltipla escolha 464
Referências 467
Respostas das questões de múltipla escolha 467
15 Introdução à análise multivariada de variância
(MANOVA) 468
Visão geral do capítulo 468
15.1 Estatística multivariada 468
15.2 Por que usar a análise multivariada de variância? 469
15.3 Análise multivariada de variância 469
15.4 Lógica da MANOVA 470
15.5 Pressupostos da MANOVA 472
15.6 Qual valor-F? 477
15.7 Análises post hoc de VDs individuais 478
15.8 VDs correlacionadas 480
Sumário detalhado xxvii
15.9 Como relatar essas análises 481
SPSS: executando a MANOVA com uma VI entre participantes
e duas VDs 482
15.10 Delineamentos intraparticipantes 484
SPSS: uma VI intraparticipantes e duas VDs 491
Resumo 494
Exercícios no SPPS 494
Questões de múltipla escolha 495
Referências 501
Textos recomendados 501
Respostas das questões de múltipla escolha 501
16 Estatística não paramétrica 502
Visão geral do capítulo 502
16.1 Alternativa ao r de Pearson: o ρ de Spearman 502
SPSS: análise de correlação – o ρ de Spearman 503
Exercício no SPSS 507
16.2 Alternativas ao teste-t: Mann-Whitney e Wilcoxon 507
SPSS: teste de duas amostras para grupos independentes –
Mann-Whitney 510
Exercício no SPSS 513
SPSS: teste para duas amostras de medidas repetidas – Wilcoxon 517
Exercício no SPSS 521
16.3 Alternativas à ANOVA 522
SPSS: teste para amostras independentes com mais de duas
condições – Kruskal-Wallis 523
Exercício no SPSS 526
SPSS: teste para medidas repetidas com mais de duas
condições – teste de Friedman 528
Exercício no SPSS 530
Resumo 531
Questões de múltipla escolha 531
Referências 535
Respostas das questões de múltipla escolha 535
Respostas das atividades e dos exercícios no SPSS 537
Apêndice 1: Tabela dos escores-z e da proporção da
distribuição normal padrão que está abaixo e acima desse escore 579
Apêndice 2: Tabela de r para zr 583
Esta página foi deixada em branco intencionalmente.
1
Variáveis e delineamento de pesquisa
V I S Ã O G E R A L D O C A P Í T U L O
Com o objetivo de explicar como utilizar e entender a estatística, talvez seja melhor ini-
ciar destacando os fatores principais para delinear uma pesquisa. Descreveremos, en-
tão, os aspectos mais importantes de um projeto de pesquisa com o objetivo de mostrar
como ele influencia o uso da estatística. Neste capítulo, portanto, pretendemos ensinar
sobre o seguinte:
●● variáveis contínuas, discretas e categóricas;
●● variáveis dependentes e independentes;
●● delineamentos correlacionais, experimentais e quase-experimentais;
●● delineamentos entre e intraparticipantes.
1.1 Por que ensinar estatística sem fórmulas
matemáticas?
A estatística como conteúdo tende a despertar medo nos corações e mentes de muitos es-
tudantes de ciências sociais e humanas e nos de muitos professores também. Entender os
conceitos estatísticos não deve, no entanto, ser mais difícil do que compreender qualquer
outro conceito teórico (p. ex., o conceito de inteligência).De fato, alguém poderia pensar
que entender um conceito bastante concreto, tal como o de média aritmética, seria bem
mais fácil do que compreender o vago conceito psicológico de “atitude”. Ainda assim, a
cada ano, parece que a maioria dos estudantes, que aparentemente compreende muitos con-
ceitos não estatísticos com relativa facilidade, tem dificuldade para entender estatística. No
nosso modo de ver, muitas pessoas temem a estatística porque os conceitos estão perdidos
em meio às fórmulas matemáticas. Dessa forma, procuramos explicar a estatística de uma
forma conceitual sem confundir os estudantes com fórmulas matemáticas desnecessárias
– isto é, desnecessárias hoje, na era dos programas computacionais. Se o estudante quer
aprender essas fórmulas para melhorar o seu conhecimento, que ponto de partida melhor do
que um entendimento conceitual da estatística?
A estatística geralmente tem uma má reputação, conforme ilustrado por esta citação
do ex-primeiro ministro britânico Benjamin Disraeli: “Há três tipos de mentiras: mentiras,
mentiras deslavadas e estatística”. Entretanto, o problema não é a estatística, mas sim a for-
ma como ela é utilizada. Afinal, não culpamos o revólver por matar uma pessoa, mas sim
quem puxou o gatilho. Com frequência, particularmente na política, a estatística é utilizada
fora de contexto ou até mesmo seletivamente. Esse problema está claramente ilustrado em
uma carta de Ed Humpherson, um diretor executivo da U.K. Statistics Authority (instituto
que fornece as estatísticas oficiais do Reino Unido), para Siobhan Carey, diretora de esta-
tística do Departamento de Negócios, Inovação e Habilidades do governo do Reino Unido,
enviada em 16 de fevereiro de 2016. Nessa carta, Ed Humpherson adverte o Ministro de
Estado Joseph Johnson sobre o uso de estatísticas complexas relacionadas ao baixo desem-
penho das universidades do Reino Unido, que não estavam definidas claramente e que não
2 Estatística sem matemática para psicologia
haviam sido previamente publicadas. Ed Humpherson observa que, pelo fato de não haver
clareza nessas estatísticas, não estava evidente que a proporção das universidades com pés-
simo desempenho era alta, como Joseph Johnson deixou implícito. A carta termina com o
seguinte: “a Authority solicita que você discuta essas questões com seus colegas e tome me-
didas para garantir que futuras referências a estatísticas sejam sustentadas por publicações
com comentários e orientações suficientes para possibilitar debates fundamentados”. Isso
indica claramente uma expectativa de que a estatística seja usada dentro de um contexto
apropriado e seja claramente definida e explicada. A carta de Ed Humpherson, junto com
outras cartas relativas ao uso oficial da estatística no Reino Unido, podem ser encontradas
no site da U.K. Statistics Authority (www.statisticsauthority.gov.uk). Esse é um site muito
bom porque fornece uma percepção de como os políticos usam, em geral indevidamente,
as estatísticas. Outro site de pesquisa muito bom é “Sense about Science” (www.sensea-
boutscience.org), que fornece muitas informações úteis com a intenção de ajudar as pessoas
a entenderem melhor a ciência e as descobertas científicas. Em uma parte do site, na seção
“For the record”, é dado destaque a maus exemplos de divulgações da pesquisa científica
nos noticiários. Um caso recente desse tipo foi um estudo publicado na imprensa do Reino
Unido (p. ex., Daily Mail e The Daily Telegraph). As descobertas de um estudo original
não publicado foram apresentadas em uma conferência acadêmica nos Estados Unidos e
destacaram as diferenças entre ratos nascidos de mães expostas a vapores de cigarros ele-
trônicos e daqueles nascidos de mães expostas ao ar puro. O estudo foi relatado na mídia
como fornecendo evidências de que o uso de cigarros eletrônicos durante a gravidez é tão
ruim quanto fumar cigarros – ou até pior. No site “Sense About Science”, o Professor Peter
Hajek destaca claramente os problemas com o relato desse estudo na imprensa. Ele informa
que este foi um estudo não publicado e que, portanto, os dados não podem ser checados ou
verificados e que, mais especificamente, o estudo não compara os ratos expostos aos vapo-
res do cigarro eletrônico àqueles expostos à fumaça do tabaco. Assim, as comparações com
o uso de cigarros nas manchetes e nos artigos de jornal são injustificáveis.
Esses exemplos mostram alguns dos problemas com a compreensão e o relato de pes-
quisas baseadas em estatística. No entanto, os políticos e a imprensa nacional continuam
usando estatísticas mal relatadas para persuadir nossos julgamentos sobre uma grande va-
riedade de assuntos tendo em vista seus próprios propósitos. Devemos destacar que esse
não é um problema apenas com políticos que estão no governo no momento, mas sim com
todos os políticos. Ele foi até mesmo reconhecido em um relatório da Statistics Comission
do Reino Unido, que foi precursora da Statistics Authority. Nesse relatório (2008), a Comis-
sion declara:
A estatística foi, e sempre será, usada seletivamente pelos políticos e comentaristas no
âmbito do debate público. A seleção e a ênfase a uma determinada informação estatís-
tica para favorecer ou contestar um argumento político deve ser tolerada como parte do
processo político. Entretanto, é essencial que, para equilibrar o uso político e seletivo
da estatística, os próprios números, com as explicações necessárias, sejam igualmente
acessíveis e compreensíveis por todos. Deve haver, também, correções públicas de in-
terpretações enganosas.
Esses exemplos ilustram claramente a importância de se colocar estatísticas no con-
texto correto. Pode-se dizer, por exemplo, que a altura média de um adulto é 173 cm; isso
pode ser correto para um homem brasileiro, mas não necessariamente para um homem de
uma tribo africana de pigmeus, na qual a altura média pode ser de apenas 145 cm. Acredi-
tamos que ser capaz de interpretar as estatísticas e perceber se elas foram ou não utilizadas
apropriadamente é uma habilidade muito importante, especialmente na era da internet e da
grande disponibilidade de informações (tanto de boa quanto de péssima qualidade) sobre
todos os aspectos da vida.
Capítulo 1 • Variáveis e delineamento de pesquisa 3
1.2 Variáveis
Explicamos um aspecto muito importante da estatística: que ela só tem sentido em um
contexto. Mas o que a estatística realmente faz? Essencialmente, a estatística fornece infor-
mações sobre fatores que podemos medir. Na pesquisa, as coisas que medimos são deno-
minadas variáveis.
As variáveis são o foco principal da pesquisa na ciência. Uma variável é simplesmente
algo que pode variar, isto é, que pode assumir valores ou categorias diferentes. Alguns
exemplos de variáveis são sexo, velocidade de digitação, velocidade máxima de um carro,
número de sintomas de uma doença relatados, temperatura, público em um festival de rock
(p. ex., o festival Download), nível de ansiedade, número de gols em uma partida de fute-
bol, inteligência, número de encontros sociais ao levar o cachorro para passear, quantidade
de violência na televisão, ocupação, número de carros que uma pessoa possui, número de
crianças por família e cores favoritas. Esses são exemplos de coisas que se pode medir e
registrar e que variam de uma situação ou pessoa para outra.
Mas por que estamos interessados em variáveis? Geralmente estamos interessados em
variáveis porque queremos entender o motivo da sua variação. Para compreender essa va-
riação, devemos ter a capacidade de medir e registrar as alterações em qualquer situação
dada.
1.2.1 Características das variáveis
Será possível notar, pelos exemplos anteriores, que as variáveis apresentam diferentes ca-
racterísticas. Pode-se medir a temperatura em termos de graus Celsius ou Fahrenheit e
atribuir um valor ao resultado, mas não se pode fazer o mesmo com o tipo de ocupação, por
exemplo. Isso representa uma característica importante das variáveis, isto é, como elas defato mudam. Em uma extremidade do espectro, temos variáveis consideradas contínuas,
ou seja, elas podem assumir qualquer valor em um determinado intervalo. Ou, mais preci-
samente, a variável não varia de forma discreta, isto é, de maneira que possa ser contada.
Um exemplo de variável contínua é a temperatura. Ela é contínua porque podemos medir a
temperatura como 40°C ou, então, se pode medi-la de forma mais precisa como 40,2558°C.
Outro exemplo menos óbvio é a quantidade de violência na televisão. Pode-se medi-la em
termos da quantidade de tempo que ela aparece na tela por dia. Se avaliada dessa forma,
isto é, em termos do tempo, a variável pode assumir qualquer valor em termos de segundos
ou partes de segundo, como, 1.000 segundos ou 1.000,1235672 segundos por dia. A única
limitação na precisão da medida de tal tipo de variável é a acurácia do equipamento de me-
dida. Com variáveis contínuas existe a hipótese implícita de que ela é contínua mesmo que a
forma de medi-la não o seja. Dos exemplos fornecidos anteriormente, temperatura, nível de
ansiedade, velocidade máxima de um carro, velocidade de digitação e inteligência podem
ser consideradas contínuas, enquanto as demais não (ver Tab. 1.1).
Tabela 1.1 Exemplos de variáveis contínuas, discretas e categóricas
Contínuas Discretas Categóricas
●● Temperatura
●● Velocidade máxima de
um carro
●● Velocidade de digitação
●● Inteligência
●● Nível de ansiedade
●● Número de sintomas de uma doença relatados
●● Número de carros que uma pessoa possui
●● Número de gols em uma partida de futebol
●● Número de encontros sociais ao levar o ca-
chorro para passear
●● Público em um festival de rock
●● Número de crianças por família
●● Sexo
●● Ocupação
●● Cor favorita
●● Tipo de restaurante
4 Estatística sem matemática para psicologia
Uma variável pode também ser discreta, ou seja, assumir somente valores discretos
dentro de um determinado intervalo. Um exemplo desse tipo de variável é o “número de
sintomas relatados de uma doença que uma pessoa possui”. Isso somente pode ser registra-
do em termos de presença ou não do sintoma. Outro exemplo seria se escolhêssemos medir
a quantidade de violência na televisão de acordo com o número de incidentes violentos por
semana. Nesse caso, poderíamos apenas relatar o número de incidentes violentos discretos.
Não poderíamos medir essa variável em termos de frações de um incidente violento; assim,
o número de incidentes violentos semanais na televisão é uma variável discreta. Dos exem-
plos dados anteriormente, as variáveis discretas mais óbvias são o número de sintomas de
uma doença relatados, o número de encontros sociais ao levar o cachorro para passear, o
público em um festival de rock, o número de carros que uma pessoa possui, o número de
crianças em uma família e o número de gols em uma partida de futebol.
Um problema que surge quando lidamos com variáveis discretas e contínuas é o perigo
de confundir a variável subjacente com a forma como ela é mensurada. Em teoria, uma
variável pode ser contínua, mas a forma de medi-la é sempre discreta, não importa o nos-
so grau de precisão. Poderíamos medir a ansiedade (uma variável teoricamente contínua)
utilizando um questionário (p. ex., o Inventário de Ansiedade Traço-Estado de Spielberger,
Spielberger et al., 1983), cujo escore total fornece uma indicação do nível de ansiedade de
uma pessoa. O escore total nesse questionário pode aumentar somente em unidades intei-
ras, digamos de 38 para 39 ou de 61 para 62. Assim, a forma de mensuração da ansiedade é
discreta, enquanto a variável subjacente é de fato contínua.
Além disso, ao analisar variáveis discretas, elas são frequentemente tratadas como se fos-
sem contínuas. Muitos dos testes estatísticos que usamos presumem que estamos lidando com
variáveis contínuas. Geralmente quando uma variável discreta pode assumir um grande nú-
mero de valores dentro de certo intervalo (p. ex., público em um festival de rock), elas podem,
para fins práticos, ser tratadas como se fossem contínuas na utilização do teste estatístico.
Outro tipo de variável é a categórica, isto é, aquela em que os valores assumidos são
categorias. Um bom exemplo é o sexo, que pode ter apenas dois valores: masculino e femi-
nino. Variáveis categóricas também podem apresentar muitos valores possíveis, como em
tipo de ocupação (p. ex., juiz, professor, advogado, engenheiro, etc.). Quando lidamos com
dados categóricos temos um número infinito de variáveis que poderíamos de investigar.
Poderíamos, se quiséssemos, categorizar pessoas com base em se elas comeram ou não bolo
de chocolate com ketchup às 6h30 desta manhã. Os únicos exemplos óbvios de variáveis
categóricas apresentadas na lista do início desta seção são ocupação, sexo e cor favorita.
É necessário entender os diferentes tipos de variáveis que se está medindo, pois isso é
importante para decidir como analisar os dados.
Variáveis contínuas podem assumir qualquer valor dentro de um determinado intervalo.
Variáveis discretas podem assumir apenas certos valores em um intervalo.
Variáveis categóricas são aquelas nas quais alocamos pessoas ou objetos em categorias.
Definições
1.2.2 Dicotomizando variáveis contínuas e discretas
Frequentemente, os pesquisadores convertem variáveis discretas e contínuas em variáveis
categóricas. Por exemplo, poderíamos querer comparar a habilidade espacial de pessoas
altas e baixas. Podemos fazer isso comparando pessoas que têm mais de 193 cm de altura
com aquelas que têm menos de 147 cm de altura em um teste de habilidade espacial. Dessa
Capítulo 1 • Variáveis e delineamento de pesquisa 5
maneira, escolhemos pontos na escala contínua (altura) e decidimos comparar aqueles par-
ticipantes que estão acima e abaixo desses pontos (ver Fig. 1.1).
Outro exemplo poderia ser comparar a habilidade de memória de pessoas ansiosas e
não ansiosas. Podem-se medir os níveis de ansiedade utilizando um questionário, isto é,
uma variável contínua medida em uma escala discreta. Por exemplo, a Escala Hospitalar de
Ansiedade e Depressão apresenta valores que variam de 0 a 21. Para convertê-la em uma
variável categórica, iremos simplesmente comparar aqueles escores acima de certo valor
(digamos, 11) com aqueles abaixo desse mesmo valor.
Essa dicotomização (divisão em duas categorias) de variáveis discretas e contínuas é
comum na psicologia e permite que se encontrem diferenças entre grupos que podem estar
nos extremos de variáveis discretas ou contínuas (p. ex., pessoas altas e baixas). No entanto,
não recomendamos tal prática, pois reduz a sensibilidade da análise estatística. Há uma boa
discussão desses problemas em Streiner (2002), Maxwell e Delaney (1993) e, mais recente-
mente, em Altman e Royston (2007). Mencionamos isso aqui para que você esteja ciente do
que ocorre na literatura científica e, assim, possa entender o que os pesquisadores têm feito.
193
Variável contínua
Alto Baixo
Altura (cm)
Variável categórica
147
Figura 1.1 Ilustração da conversão de variáveis contínuas em categóricas.
Dicotomização de variáveis contínuas
Por que os pesquisadores dicotomizam variáveis? Streiner (2002) ressalta o fato de que muitas
decisões em psicologia, psiquiatria e medicina são binárias. Nesse tipo de decisão têm-se
apenas duas escolhas, como se a pessoa apresenta ou não problema mental, se tem ou não
uma determinada doença, se precisa ou não ser hospitalizada ou se deve ou não receber alta
do hospital. O argumento utilizado é que, se esses profissionais precisam tomar decisões bi-
nárias, então é legítimo investigar variáveis dessa forma. Tal raciocínio é utilizado para dar
suporte à prática disseminada de dicotomizar variáveis contínuas.
Streiner argumenta que não precisamos ver as decisões que os médicos tomam como
binárias. Ele sugere que seria melhor pensar em uma doença mental, por exemplo, como um
Ponto de discussão
6 Estatística sem matemática para psicologia
contínuo: quanto mais sintomas uma pessoa apresenta,

Estatistica sem Matematica para Psicologia - Christine Dancey e John Reidy

Humanas / Sociais

Ferramentas de estudo

Conteúdos escolhidos para você

PROBABILIDADE E ESTATÍSTICA

APOSTILA-COMPLETA-ESTATÍSTICA-APLICADA-ÀS-CIÊNCIAS-SOCIAIS docx

Introdução à Bioestatística

Métodos Quantitativos

UNIDADE 2 - Estatística Básica - Descritiva (Com exercícios)

Perguntas dessa disciplina

1. Variável é toda característica que, observada em uma unidade da população ou amostra, pode variar de um indivíduo para outro (Callegari-Jacques...

Questão 10/10 - ENSINO DE ESTATÍSTICA E TRATAMENTO DA INFORMAÇÃO NA EDUCAÇÃO BÁSICA Ler em voz alta Considere o excerto de texto a seguir: “As medidas

Para entender as características gerais de um conjunto de dados, pesquisadores podem avaliar imagens como gráficos, que resumem os resultados. Contudo

Questão 08 1 PONTO "Os testes estatísticos podem ser divididos em dois grandes grupos, conforme fundamentem ou não os seus cálculos na premissa de ...

Sobre os conceitos fundamentais em estatistica, considere as seguintes afirmações e julgue os itens em VERDADEIRO (V) ou FALSO (F). ( ) Consideran...

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Crie sua conta grátis para liberar esse material. 🤩

Conteúdos escolhidos para você

PROBABILIDADE E ESTATÍSTICA

APOSTILA-COMPLETA-ESTATÍSTICA-APLICADA-ÀS-CIÊNCIAS-SOCIAIS docx

Introdução à Bioestatística

Métodos Quantitativos

UNIDADE 2 - Estatística Básica - Descritiva (Com exercícios)

Perguntas dessa disciplina

1. Variável é toda característica que, observada em uma unidade da população ou amostra, pode variar de um indivíduo para outro (Callegari-Jacques...

Questão 10/10 - ENSINO DE ESTATÍSTICA E TRATAMENTO DA INFORMAÇÃO NA EDUCAÇÃO BÁSICA Ler em voz alta Considere o excerto de texto a seguir: “As medidas

Para entender as características gerais de um conjunto de dados, pesquisadores podem avaliar imagens como gráficos, que resumem os resultados. Contudo

Questão 08 1 PONTO "Os testes estatísticos podem ser divididos em dois grandes grupos, conforme fundamentem ou não os seus cálculos na premissa de ...

Sobre os conceitos fundamentais em estatistica, considere as seguintes afirmações e julgue os itens em VERDADEIRO (V) ou FALSO (F). ( ) Consideran...

Mais conteúdos dessa disciplina