Buscar

231GGR0085A_ Unidade 1

Prévia do material em texto

29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 1/52
ANÁLISE DEANÁLISE DE
REGRESSÃOREGRESSÃO
UNIVARIADAUNIVARIADA
UNIDADE 1 – ASSOCIAÇÃOUNIDADE 1 – ASSOCIAÇÃO
E CAUSAÇÃOE CAUSAÇÃO
Autor: Antonio Carlos Fonseca PontesAutor: Antonio Carlos Fonseca Pontes
Revisor: Catia AlmeidaRevisor: Catia Almeida
INICIAR
Introdução
Caro(a) estudante,
Prepare-se para uma nova experiência na área. Nesta primeira unidade da disciplina
Análise de Regressão Univariada, associação e causação, você irá ampliar os seus
horizontes, adentrando em uma atmosfera bivariada. Naturalmente que essa ampliação
gera maiores dificuldades, tanto do ponto de vista teórico como prático, mas, ao mesmo
tempo, você estará em uma atmosfera mais realista, utilizável e prática. Você verá como
é estudada a associação entre variáveis através dos coeficientes de correlação mais
utilizados. A verificação do relacionamento entre variáveis, sem a preocupação com a
causação neste primeiro momento, tem como objetivo observar o comportamento de um
conjunto de variáveis populacionais, através de suas amostras. O texto reflete as
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 2/52
1.1 Aspectos gerais
Ao iniciar uma nova disciplina, espera-se que uma nova janela seja aberta para você e
despontem novas aplicações. Uma disciplina dentro de um curso não é isolada, mas faz
parte de um conjunto de conhecimentos que é agregado aos anteriormente adquiridos.
Esta nova disciplina, denominada Análise de Regressão Univariada, é mais um elemento
deste conjunto que pretende abrir novas possibilidades de aplicações da Estatística.
Alguns conhecimentos básicos, adquiridos em outras disciplinas, serão utilizados nesta e
deverão ser revistos por você antes de iniciar. Incluem-se os seguintes tópicos:
a. Análise descritiva de dados: medidas de posição (média e mediana), medidas de
dispersão (variância, desvio-padrão, covariância);
b. Análise gráfica: gráficos cartesianos de pontos e box-plot (diagrama de caixas), com
a verificação de dados discrepantes ( outliers );
c. Probabilidade: distribuição normal, distribuição t de Student, distribuição F de
Snedecor e distribuição bivariada (binormal);
d. Verificação de normalidade de dados, através dos testes de Shapiro-Wilk ou
Kolmogorov-Smirnov ou ainda outro teste de normalidade estudado;
e. Verificação do ajuste de um conjunto de pares de dados à distribuição binormal;
f. Intervalos de confiança: entendimento do que é um intervalo de confiança e como é
construído;
g. Testes de hipóteses: construção de um teste de hipóteses estatístico e condições
para sua rejeição ou não rejeição.
preocupações com a utilização correta desta ferramenta poderosa que é a correlação e
algumas armadilhas que poderão ser colocadas no seu caminho na interpretação dos
resultados.
Bons estudos!
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 3/52
Assim, a abertura deste novo horizonte para você é condicional, ou seja, é necessário
que você tenha base de sustentação para poder caminhar em direção a estes novos
conhecimentos.
Naturalmente, alguns destes conhecimentos básicos, que pressupomos conhecidos,
deverão ser revistos sob a ótica dos novos conceitos que serão incluídos para gerar
novos conhecimentos e, consequentemente, a possibilidade de novas aplicações.
Os estudos nas disciplinas anteriores em geral tratavam as variáveis de forma isolada,
buscando verificar a distribuição que melhor se adaptava aos dados obtidos e às
estimativas de seus parâmetros (média e variância). Entretanto, sabe-se que os
fenômenos não ocorrem de forma univariada. Assim, chega o momento de ampliar um
pouco o seu espectro, observando duas ou mais variáveis de forma conjunta.
Para tal, inicialmente, temos dois aspectos a serem considerados: a associação e
causação (observe a interação):
Associação e causação
» Clique nas setas ou arraste para visualizar o conteúdo
No presente caso, a associação é mensurada através de coeficientes de correlação,
enquanto a causação, em geral, leva à necessidade de estabelecer o tipo de relação
existente entre a variável independente e a dependente através de métodos de
regressão, no caso de variáveis quantitativas.
A associação refere-se ao relacionamento entre as variáveis, ou seja,
se existe algum grau de dependência entre elas.
CAUSAÇÃO
A causação se refere à noção de que a modificação de valores em uma
das variáveis (considerada independente) causa modificações na outra
(considerada dependente).
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 4/52
Um terceiro conceito que pode ser explorado é o de casualidade. A casualidade, ou
aleatoriedade, ocorre quando duas variáveis aparentemente têm um comportamento que
indica uma associação e/ou uma causação entre elas quando, na realidade, isto ocorre
somente por acaso.
Assim, vamos considerar alguns exemplos e ver se há associação, causação ou somente
casualidade:
» Exemplo 1
Se considerarmos anos de estudo (AE) e rendimento mensal (RM) de um conjunto de
pessoas, é possível verificar se há relação entre essas variáveis. Em geral, pessoas com
maior número de anos de estudo tendem a ter maiores rendimentos. Naturalmente, o
discente vai contra-argumentar que existem diversos casos que ele conhece ou soube de
pessoas com poucos anos de estudo que ganham fortunas ou ainda pessoas que
estudaram a vida toda para terem um salário mensal baixo. Apesar de parecerem como
normais, tais casos são anomalias que ocorrem e, por serem anomalias, acabam
chamando mais atenção do que os casos “normais”.
» Exemplo 2
Um exemplo na área de agronomia é referente à adubagem. A dose (variável D) de um
determinado adubo influencia na produção (variável P). Quanto maior a dose de adubo,
maior a produção, certo? Isso é real dentro de certo intervalo de dosagem, mas o
aumento excessivo de produtos químicos afeta o solo e faz com que a produção, a partir
de uma certa dosagem, comece a decair. Além disso, a aplicação indiscriminada de
adubo pode levar ao cansaço do solo e prejudicar futuras colheitas.
» Exemplo 3
O número de filhos de um determinado domicílio tem relação com a renda e com a
escolaridade da mãe. O aumento da renda e da escolaridade têm sido fatores
determinantes no tamanho da prole. Incluindo nesta equação o aumento da expectativa
de vida, temos uma situação em que o número de pessoas com idade acima de 60 anos
está crescendo, proporcionalmente, em relação à população economicamente ativa,
impactando na previdência, no sistema de saúde, etc.
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 5/52
» Exemplo 4
A partir de dados obtidos nos sistemas de informação, vem-se buscando informações
que levam a alguma indicação de quais fatores são fundamentais para diminuir o
contágio na pandemia da COVID-19. Tem-se preconizado que o uso de máscaras, o
distanciamento entre as pessoas, dentre outras ações preventivas, são elementos
importantes para a não proliferação desta doença. Entretanto, para realizar experimentos
visando a comprovar este tipo de associação, seria necessário expor pessoas não
acometidas da doença às situações de risco, o que é eticamente reprovável. No caso do
distanciamento, seria necessária a realização de um experimento em que pessoas, com
e sem máscara, fossem expostas a pessoas sintomáticas com distâncias controladas
(0,5 m, 1 m, 1,5 m, 2 m, 2,5 m, 3,0 m) conversando normalmente, cantando ou discutindo
e, a partir disso, aguardar para ver se elas contrairiam a doença. Com isso, talvez fosse
possível definir distâncias seguras entre pessoas nas diversas situações. Assim, tais
precauções não foram comprovadas por métodos estatísticos, mas foram baseadas em
evidências médicas e, principalmente,bom senso. Ainda, países que fizeram o
confinamento social, uso massivo de máscaras, dentre outras providências, tiveram
menor incidência da doença e de mortes pela COVID-19.
» Exemplo 5
Em Psicologia, existem baterias de testes que têm como finalidade verificar a situação de
uma determinada pessoa com relação ao grau de estresse, burnout, dentre outras. Esses
testes necessitam ser validados para que possam ser utilizados pelos psicólogos. A
validação desses testes é feita com base na percepção do profissional em comparação
com as pontuações obtidas pelos indivíduos (correlação). Dessa forma, é construída uma
categorização.
» Exemplo 6
A altura tem relação com o peso de pessoas? Se lembrarmos que a altura das pessoas
aumenta até uma certa idade, é possível estabelecer uma relação nessa faixa etária. As
crianças são pesadas e medidas, muitas vezes, com o intuito de saber se seu
desenvolvimento pode ser considerado normal. Já nos adultos, a altura praticamente não
varia, mas o peso sim. Assim, é necessário considerar essas peculiaridades ao estudar
essas variáveis conjuntamente.
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 6/52
» Exemplo 7
Algumas variáveis são difíceis de serem mensuradas diretamente. Uma dessas variáveis
é a satisfação de uma determinada pessoa em relação a um produto ou um atendimento.
Nestes casos, assim como em Psicologia, utilizamos questionários com várias perguntas
para poder estabelecer, de forma indireta, qual o nível de satisfação desse consumidor e,
ao fim, buscar relacionar o nível de satisfação com a possibilidade desse indivíduo voltar
a consumir aquele produto.
» Exemplo 8
Seria possível relacionar renda com a distância percorrida pelo indivíduo de casa até seu
local de trabalho? Ou seria mais indicado buscar saber a relação entre renda e o tempo
médio de deslocamento ao local de trabalho? Neste caso, tem-se três variáveis: renda,
distância percorrida e tempo de deslocamento. A distância percorrida tende a ser
relacionada com o tempo de deslocamento, mas a associação entre renda e distância ou
a renda e o tempo de deslocamento depende fundamentalmente do local (município,
região metropolitana) que está sendo avaliado. Entretanto, não é medida a qualidade
deste deslocamento (automóvel, serviço de transporte público, vans, ônibus das
empresas, etc.). Observa-se que é necessária, portanto, uma visão mais ampla do
pesquisador e não somente a obtenção de um resultado numérico de associação ou de
causação.
» Exemplo 9
A mídia tem hoje inúmeros canais de comunicação. O consumo de mídia se dá através
da imprensa física, rádio, transmissão de TV, TV on-line/ streaming , podcasts,
videogames, livros/literatura, dentre outros. Para a área do mercado é fundamental saber
que tipo de mídia é consumida dentro dos diversos canais e que tipo de pessoa os utiliza.
O tipo da pessoa pode se referir à idade, à renda, situação social, etc. Assim, através de
pesquisas, é possível estabelecer o tempo de utilização de cada um dos canais de mídia
e comparar essa informação com a idade, estrato de renda ou outra variável de
interesse.
» Exemplo 10
Em muitas situações, os dados obtidos de duas variáveis X e Y indicam uma alta
correlação, mas não conseguimos enxergar nenhuma relação entre elas. Nestes casos,
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 7/52
não há nem associação nem causação, ou seja, a correlação obtida ocorre por acaso
(casualidade) ou por elas serem relacionadas com uma terceira variável. Por exemplo, a
quantidade de sorvete vendida em um determinado estabelecimento de uma cidade
(variável X) e o número de casos de dengue no referido município (variável Y) pode gerar
um coeficiente de correlação alto. Entretanto, não podemos dizer que o consumo de
sorvete causa a dengue ou vice-versa. Neste caso, as duas variáveis são ligadas
(linkadas) por uma terceira, que é a temperatura ambiente. A temperatura é
correlacionada com o consumo de sorvete e, mais ainda, com o aumento da temperatura
a tendência é de aumento do consumo de sorvete, gerando o fenômeno da causação ou
causalidade.
» Exemplo 11
O número de casos de dengue tem correlação com a quantidade de chuva. Mas porque
a dengue tende a afetar mais uma região do município que outra região, supondo o
mesmo volume de chuva? Isto porque o volume de chuva é um fator que faz aumentar o
número de criadouros dos mosquitos que, por sua vez, possibilita o aumento no número
de casos de dengue. O número de criadouros do mosquito está ligado à quantidade de
chuva mas, principalmente, aos hábitos de higiene da área do município e da existência
ou não de locais que proporcionem que a água fique parada. Assim, na realidade, o
número de casos de dengue está correlacionado com o hábito de higiene que,
numericamente, pode ser relacionado com o número de criadouros, que aumenta com a
quantidade de chuva. Assim, em muitos estudos, verifica-se o efeito da quantidade de
chuva ( X ) sobre o número de casos de dengue ( Y ), ou seja, X e Y são associados
através de uma terceira variável (número de criadouros), que é difícil de ser mensurada.
» Exemplo 12
Outras situações ocorrem nas quais a correlação existe, do ponto de vista numérico, mas
não é possível estabelecer nenhuma relação entre as variáveis. Assim, o número mensal
de vítimas fatais em acidentes de automóvel nas rodovias paulistas (variável X) poderia,
hipoteticamente, estar relacionado com a quantidade mensal produzida de açaí no
estado do Acre (variável Y) em um determinado ano, mas não existe nenhum indício de
relacionamento entre estas variáveis. Neste caso, observamos um movimento casual
(casualidade ou aleatoriedade), que gerou uma situação em que a associação
mensurada é espúria (ou sem sentido).
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 8/52
Após ler este texto você deverá ser capaz de verificar se existe alguma relação entre
pares de variáveis como peso e altura de pessoas, população e área de países ou
municípios, notas de alunos em disciplinas diferentes, peso e pressão sistólica, idade e
níveis de colesterol, dentre outros. Caso se perceba esta relação, verificar se ela é
consistente tanto do ponto de vista estatístico como do ponto de vista da coerência.
Lembrando ainda que a primeira unidade contempla o início de uma ampliação dos
conhecimentos da Estatística, sendo ainda uma preparação para as unidades
posteriores. Assim, depois de saber se existe relação entre as variáveis, nas etapas
posteriores buscaremos descobrir qual a forma dessa relação (linear ou não linear).
VAMOS PRATICAR
Que tal buscar novas associações, além daquelas apresentadas nos exemplos
acima? Você está convidado a pensar e apresentar cinco combinações de
variáveis que tendem a ser relacionadas. Entretanto, você deve lembrar que a
associação deve ser analisada de forma ampla nos seus aspectos, mas restrita
na condição temporal e geográfica. Uma associação pode ser verdadeira em
uma determinada parte do País, mas não ter validade em outra. Por outro lado,
uma relação pode ser válida hoje, mas não ter o mesmo resultado em outra
época. A ideia é não só apresentar a possibilidade de associação, mas também
entender sua amplitude e suas restrições. Que tal começar com as variáveis
“consumo de energia elétrica” e “renda familiar”? E qual o comportamento do
“valor de seguro de automóvel” e a “idade do segurado”? E se o seguro for de
vida, a mesma associação é válida?
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 9/52
1.2 Correlação linear de Pearson
Karl Pearson, em 1896, criou um coeficiente de correlação que, além de ser
adimensional, varia no intervalo de -1 a +1. Esse coeficiente, denominado coeficiente de
correlação de Pearson (CCP), utiliza as variáveis X e Y de forma padronizada(estandartizada) no seu cálculo.
Aliás, você tem interesse em história? O conhecimento é adquirido a partir de
necessidades de expansão de negócios, da curiosidade humana em relação ao seu
papel no universo, das possibilidades de obter vantagens sobre seus adversários, dentre
outros fatores. O desenvolvimento da Estatística acompanha, naturalmente, fatos
históricos e, em alguns casos, é fruto de situações fortuitas. Observe a interação a
seguir.
Cronologia da estatística na Antiguidade (a.C.)
» Clique nas abas para saber mais sobre o assunto
Fonte: PERDONA, G. Mundo. Portal da Cronologia da Estatística , [s.l.], [s.d.]. Disponível em: <
http://redeabe.org.br/historia_estatistica/ >. Acesso em: 14 dez. 2020.
Assim, voltando ao coeficiente de correlação de Pearson, que também pode ser
denominado de produto momento, gerado a partir da covariância após sua padronização.
Supondo as variáveis aleatórias X e Y, mensuradas sobre um mesmo elemento i, com i
variando do 1 a N (no caso populacional) ou de 1 a n (no caso da amostra), temos, para
a obtenção do coeficiente de correlação de Pearson:
 5000 a.C 2000 a.C 1500 a.C 1100 a.C
585 a.C
 540 a.C 430 a.C 400 a.C 300 a.C 140 a.C
100 a.C
http://redeabe.org.br/historia_estatistica/
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 10/52
#PraCegoVer : inicialmente, temos a interação entre as variáveis X e
Y; em B, a variável X menos a média de X é dividida pelo desvio-
padrão de X e a variável Y menos a média de Y é dividida pelo
desvio-padrão de Y; em C, utiliza-se a função soma, com índice de 1
até N de X índice i menos a média de X, que é dividida pelo desvio-
padrão de X, tudo isto multiplicado por Y índice i menos a média de
Y, dividido pelo desvio-padrão Y; em D, colocamos os desvios
padrões em evidência na equação, ou seja, 1 divide a multiplicação
entre o desvio-padrão de X e o desvio-padrão de Y, que é
multiplicado pelo somatório, que vai de 1 a N, de X índice i menos a
média de X, que é multiplicado pela diferença entre Y índice i menos
a média de Y.
A sequência de obtenção do coeficiente de correlação se inicia em A, na qual temos as
variáveis X e Y que, em B, são padronizadas. Na sequência, em C, são utilizados os
dados populacionais e, por último, em D, fazemos as operações algébricas para
obtenção do referido coeficiente, baseados no produto.
O coeficiente de correlação de Pearson (ou simplesmente coeficiente de correlação),
denotado por ρ, é, portanto, a covariância dos dados dividida pelos respectivos desvios
padrões, indicando a padronização (estandartização) deste parâmetro. O ρ é o parâmetro
populacional que tem sua estimativa dada por r, que é obtida substituindo os parâmetros
da equação (1) pelas suas respectivas estimativas. Assim, tem-se que:
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 11/52
#PraCegoVer : para a fórmula do coeficiente de correlação tem-se n
o tamanho da amostra, r o coeficiente de correlação amostral, X e Y
as variáveis, x-barra a média de X, y-barra a média de Y, sx o desvio-
padrão de X, sy o desvio-padrão de Y e os somatórios variando
sempre de 1 até n. Assim r é igual ao somatório da multiplicação de
(abre parênteses) x índice i menos x-barra (fecha parênteses)
multiplicado por, (abre parênteses) y índice i menos y-barra (fecha
parênteses), tudo isso dividido pela multiplicação de sx com o sy.
Isto equivale à covariância estimada entre x e y dividida pela
multiplicação do desvio-padrão de x pelo desvio-padrão de y. Uma
terceira forma do coeficiente de correlação é: no numerador temos
o somatório da multiplicação entre X e Y, ambos com o índice i,
menos (abre parênteses) o somatório da variável x índice i (fecha
parênteses), vezes (abre parênteses) o somatório em i da variável y
índice i (fecha parênteses); estes dois somatórios são divididos por
n. No denominador: raiz quadrada (abre colchete) da soma de x
índice i ao quadrado menos (abre parênteses) o quadrado da soma
de x índice i (fecha parênteses) dividido por n (fecha colchete)
vezes (abre colchete) a soma de y índice i ao quadrado menos (abre
parênteses) o quadrado da soma de y índice i (fecha parênteses)
dividido por n (fecha colchete).
É possível demonstrar que o valor do coeficiente de correlação de Pearson está entre -1
e 1, ou seja, o valor absoluto do coeficiente de correlação é menor ou igual a 1, utilizando
a desigualdade de Cauchy-Stewart (Bonelli, 2017). Como percebemos, o sinal do
coeficiente depende do sinal da covariância, já que o denominador é sempre positivo (sx
> 0 e sy > 0). O sinal da covariância será positivo se, em geral, as diferenças entre os
valores e suas médias tiverem os mesmos sinais (+ e +; - e -). Isto significa que o
aumento em uma variável implica no aumento de outra variável e vice-versa. Por
exemplo: estudos indicam que o aumento no número de anos de estudo impacta
diretamente no salário da pessoa; outro exemplo, seria o referente à adubagem, no qual
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 12/52
é possível verificar que, dentro de um determinado intervalo que varia em cada caso, o
aumento nas doses de adubo faz com que a produtividade aumente. Então, as variáveis
tempo de estudo e salário ou, ainda, a dosagem de adubo e produtividade do solo para
uma determinada cultura, têm covariância positiva.
Se estes sinais forem trocados, no entanto, a covariância tenderá a ser negativa; mas,
sinais trocados indicam que, para um mesmo elemento amostral, o aumento de uma
variável, em geral, gera a diminuição da outra variável. Assim, por exemplo, o aumento
da dose de um remédio para a dor implica na diminuição desta dor. Portanto, para um
remédio efetivo, a dosagem (dentro de uma faixa de valores) tem covariância negativa
com a dor (medida em uma escala adequada).
Assim, a correlação acompanha o sinal da covariância, mas como seu cálculo gera um
valor adimensional (sem dimensão ou sem unidade de medida) e limitado entre -1 e 1, é
sempre tentador buscar classificar seus resultados em classes, indicando baixa
correlação, média correlação ou alta correlação, etc.
Entretanto, é necessário ter claro que cada situação deve ser estudada separadamente,
já que esse tipo de classificação depende das variáveis: o local de coleta dos dados,
época, precisão das informações, tamanho da amostra, etc.
Naturalmente que, para situações em que já foram feitos dezenas de estudos de
relacionamento entre as variáveis, é possível estabelecer este tipo de classificação,
como no caso do coeficiente de variação.
VAMOS PRATICAR
O artigo de Passos e colaboradores (2012) denominado “Análise estatística da
evolução do produto interno bruto da indústria da construção civil brasileira,
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 13/52
utilizando regressão linear simples” é um exemplo de utilização do coeficiente
de correlação de Pearson para verificar a associação entre duas variáveis.
Faça a leitura do artigo e observe as Tabelas 1, 2 e 3 e o Gráfico 3. Os dados
são trimestrais, ou seja, há quatro informações para cada ano estudado
(exceto 2012) perfazendo 85 pares. Descubra quais são as variáveis que estão
sendo realmente estudadas e se o resultado da correlação apresentado no
artigo está de acordo com a sua percepção a respeito destas variáveis? Se os
dados fossem anuais e não trimestrais, você esperaria que os resultados
fossem idênticos?
Assim, uma classificação que pode ser estabelecida é através de gráficos de dispersão já
discutidos. Observa-se que, no caso da correlação, a inversão das variáveis, ou seja, a
troca de eixos no diagrama de dispersão, pode ser realizada, e o coeficiente não se
modificará, ou seja, r = r . O coeficiente de correlação de Pearson, portanto, serve
somente para mediras relações lineares e devem ser acompanhadas do teste de
hipóteses para termos algum grau de certeza que uma relação numérica existe; já que é
possível ainda observar correlação entre duas variáveis, sem que haja realmente relação
entre elas (correlações espúrias).
1.2.1 Coeficiente de correlação de postos de Spearman
A correlação obtida através do coeficiente de Pearson, que é a medida de correlação
mais conhecida, é linear. Assim, nos casos em que a relação entre as variáveis seja não
linear (quadrática, cúbica, exponencial, etc.), ela não será medida adequadamente.
Nesses casos, os dados devem ser transformados para a obtenção da medida
adequada.
O coeficiente de correlação de Spearman, que utiliza os dados transformados por seus
postos ou ranks, pode ser utilizado nas situações em que a relação entre os pares de
dados não é linear. Outra aplicação para o coeficiente de correlação de Spearman é
quando as variáveis (ou uma delas) não é adequadamente mensurada ou coletada.
Existem casos em que a mensuração só é possível para valores aproximados; outra
xy yx 
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 14/52
situação é aquela em que a medida é feita em escala ordinal, ou seja, sabe-se a ordem,
mas não o valor exato da medida. Nesses casos, a utilização do coeficiente de
correlação do Spearman (CCS) é aconselhada.
Observa-se que, no caso do CCP, os valores -1 e +1 são apenas hipotéticos e não
ocorrem na prática. Para o CCS, é possível a ocorrência desses valores extremos, ou
seja, pode ocorrer o valor -1, que indica perfeita correlação negativa ou inversa, ou +1 ,
que indica perfeita correlação positiva ou direta. Naturalmente, valores negativos da
correlação de Spearman indicam que o crescimento de uma das variáveis implica no
decrescimento da outra. Valores positivos indicam, em geral, o crescimento ou
decrescimento concomitante das duas variáveis consideradas.
Para obter o CCS devemos, inicialmente, manualmente, ou com o auxílio de ferramentas
computacionais, classificar os dados de uma amostra x1, x2,...,xn-1, xn em ordem
crescente. Os dados, ordenados dessa forma, formam uma sequência denotada por x(1),
x(2),...,x(n-1), x(n) , onde os parênteses no subscrito indicam ordem. De modo formal,
dizemos que x(1), x(2),...,x(n) são as chamadas estatísticas de ordem da amostra, e x(i)
indica a i-ésima estatística de ordem, ou seja, a i-ésima observação ordenada.
Com base nessa ordenação, pode-se definir o posto ou rank de uma observação. Em
geral, tem-se que o posto de x(i) é igual a i , ou seja, o posto é dado pelo subscrito da
estatística de ordem. Assim, temos os postos crescentes.
Teoricamente, observações empatadas, ou seja, que têm valores iguais, não ocorrem. Na
prática, entretanto, tais situações são comuns e, nesse caso, valores equivalentes devem
ter postos iguais. Uma maneira encontrada para solucionar tais problemas é considerar,
para os casos em que existam empates, a média dos postos. Assim, quando duas
observações, que teriam supostamente os postos k e k+1 forem iguais, considera-se a
média desses postos para ambas. Assim, o posto para essas observações seria igual a
[k+k+1]/2 = k+1/2 . Um procedimento equivalente é feito se há três ou mais observações
empatadas.
Nesse sentido, a discussão sobre estatísticas de ordem é especialmente útil na definição
e aplicação de testes não paramétricos, em que os dados originais são substituídos por
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 15/52
seus respectivos postos. Os testes não paramétricos são poderosos substitutos dos
testes paramétricos, especialmente nos casos em que as amostras são pequenas,
naqueles em que a distribuição dos dados não é normal ou ainda quando dados
discrepantes ( outliers ) ocorrem. Dentre as técnicas não paramétricas, o coeficiente de
correlação de Spearman ( r ) é uma das mais conhecidas e utilizadas na prática. Esse
coeficiente é utilizado em substituição ao coeficiente de correlação de Pearson ( r ) nos
casos em que a binormalidade dos dados não ocorre, bem como em situações
envolvendo poucos pares de dados.
Dadas duas variáveis, X e Y , cujos valores são Xi e Yi, i = 1, 2, ..., n , podemos
relacionar essas variáveis mediante o uso do coeficiente de correlação. O coeficiente de
correlação linear de Spearman, conhecido como o coeficiente de correlação de postos,
equivale ao coeficiente de correlação de Pearson adaptado aos dados transformados em
postos de acordo com a transformação de Wilcoxon. A atribuição de postos, nesse caso,
é feita separadamente para cada uma das variáveis. Assim, para a variável X atribui-se o
posto 1 à menor variável, posto 2 à segunda menor variável, e assim por diante, até o
posto n para a maior variável. O mesmo procedimento é feito para a variável Y ,
independente dos valores da variável X . Os empates são tratados como usuais, ou seja,
valores iguais de cada uma das variáveis devem receber o mesmo posto. Assim, se X 
= X , ou seja, se os valores de ordem k e de ordem k + 1 estão empatados, para
ambos se atribui o posto:
#PraCegoVer : (abre parênteses) k mais k mais 1 (fecha parênteses)
divido por dois que é igual a (abre parêntesis) duas vezes k (fecha
parêntesis) dividido por dois (que é igual a k mais meio).
O coeficiente de correlação de postos (Spearman) é dado por:
s 
(k)
(k+1) 
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 16/52
#PraCegoVer : r índice s (coeficiente de correlação de Spearman) é
igual a um menos seis vezes o somatório de d índice i ao quadrado,
dividido por n ao cubo menos n.
Em que:
com P e P variando de 1 a n.
#PraCegoVer : d índice i é igual ao posto P (ou rank) de x índice i
menos o posto P de y índice i).
Sabe-se que:
#PraCegoVer : sendo r subscrito s o coeficiente de correlação de
Spearman, tem-se o máximo de r subscrito s é igual ao máximo de
(abre parênteses) um menos seis vezes o somatório de d índice i ao
quadrado, dividido por n ao cubo menos n. Isto equivale a um
menos o mínimo de (abre parênteses) seis vezes o somatório de d
índice i ao quadrado, dividido por n ao cubo menos n (fecha
parênteses) que é igual a um menos o mínimo do (abre parênteses)
somatório de d índice i ao quadrado (fecha parênteses), ou seja, um
menos zero que é igual a um.
A correlação negativa ocorre quando há uma inversão dos valores dos postos da variável
Y em relação à variável X . A correlação positiva ocorre se os postos das duas variáveis
seguem, aproximadamente, o mesmo padrão. A obtenção de coeficientes de correlação
de postos com valores próximos de zero sugere a não existência de correlação entre as
duas variáveis.
Xi Yi 
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 17/52
Pode-se observar que o CCS nada mais é do que o CCP aplicado aos dados
transformados em postos.
VOCÊ SABIA?
O coeficiente de correlação de Pearson pode ser obtido no Excel. Para tal fim, devemos
utilizar a função “=correl(matriz1;matriz2)”. Selecionamos, para a matriz1, todos os dados
da variável X e, para a matriz2, todos os dados da variável Y . O resultado será dado na
célula em que a função foi escrita.
Teste seus conhecimentos
Atividade não pontuada.
1.3 Gráfico de dispersão
Gráficos de dispersão são gráficos cartesianos de pontos nos quais, na abscissa, temos
os valores de uma das variáveis (digamos, X ), e na ordenada, a outra variável ( Y ).
Como são variáveis que, em geral, têm unidades diferentes, deve-se tomar cuidado com
as escolhas das escalas de cada uma das coordenadas, para que a visualização gráfica
não seja distorcida. Nestes casos, ainda, nem sempre a escala tem origem no zero, pois
a intenção é observar o comportamento conjunto dessas variáveis.
O gráfico de dispersão pode servir como um balizador para indicar se há ou não relaçãoentre as variáveis estudadas. A nuvem de pontos formada indica esta relação, mas não a
associação ou a causação. Se os pontos estiverem alinhados dentro de uma elipse com
inclinação, positiva ou negativa, pode-se intuir que há uma relação entre as variáveis. Se
os pontos ficarem inseridos em um círculo ou quadrado é uma indicação de que não há
relação entre as variáveis. Ainda, se os pontos se apresentarem em duas ou mais
formações distintas, temos um indicador de que temos grupos diferentes num mesmo
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 18/52
gráfico. Observa-se que o Gráfico de Dispersão nos dá uma visão inicial, que deve ser
homologada ou não pelo coeficiente de correlação e seu teste de hipóteses.
Através dos gráficos de dispersão podemos, antes de realizar os cálculos, observar como
os pontos são distribuídos no plano cartesiano e intuir se há e, caso positivo, qual o tipo
de relação existente entre as variáveis estudadas. Ainda é possível verificar, neste gráfico
de dispersão, a ocorrência ou não de pontos discrepantes ( outliers ).
Todos os softwares estatísticos apresentam o gráfico de dispersão em seu menu de
alternativas para a plotagem de dados. Existem muitos softwares estatísticos, que são
utilizados pelos profissionais que utilizam a Estatística como ferramenta para seus
trabalhos. Podemos dividi-los em dois grupos: os de livre acesso e os pagos (veja a
interação).
Softwares estatísticos
» Clique nas abas para saber mais sobre o assunto
A preferência por um ou outro destes, em geral, se dá por conta da utilização que se
pretende, o valor a ser despendido para a aquisição da licença de uso, dentre outros.
Dentre os de livre acesso, o de maior destaque, atualmente, é o R, um software
colaborativo extremamente poderoso e que abrange praticamente todas as áreas da
Estatística. Por ser colaborativo, ele está sendo atualizado constantemente. Entretanto, o
R, em algumas situações, exige um pouco de conhecimento de programação, o que
pode complicar sua utilização. Dentre os softwares livres, pode-se destacar o Bioestat
(nacional), o GRETL, o OpenStat, dentre outros. Em casos de utilização de técnicas
simples, como cálculos de medidas de posição e dispersão, regressão linear simples,
correlação, ANOVA, etc. temos uma terceira opção: o uso do Excel ou de seu
equivalente. O Excel, apesar de não ser um software livre, vem instalado no pacote
Office em muitos dos computadores adquiridos. Entretanto, existe um pacote equivalente
ao Office, denominado Libreoffice, no qual está incluso um software equivalente ao Excel,
 Sofwares de livre acesso Sofwares pagos
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 19/52
denominado CALC.
Vamos agora explorar graficamente algumas situações que podem ocorrer quando
construímos um gráfico de dispersão:
a) As variáveis X e Y têm entre si uma relação linear perfeita positiva (ou direta): X e Y
são ligados por uma função linear e, portanto, r = 1 ; este caso ocorre somente na teoria.
No exemplo, a cada 3 cm de altura, o indivíduo teria um aumento de 4 kg em seu peso
(massa).
Gráfico 1 – Peso vs altura – valores hipotéticos
Fonte: Elaborado pelo autor, 2020.
#PraCegoVer : gráfico com fundo branco em que são incluídos onze
pontos amarelos alinhados numa reta com inclinação aproximada
de sessenta e seis graus, iniciando no ponto (50,150) e terminando
no ponto (90,180). A escala do eixo das abscissas vai de 40 a 100 e a
do eixo das ordenadas, de 145 a 185. Os pontos, pintados em
amarelo, estão dispostos totalmente na reta Y = 0,75X + 112,5.
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 20/52
b) As variáveis X e Y têm uma relação linear direta, ou seja, o crescimento de uma, em
geral, leva ao crescimento da outra e vice-versa; entretanto, essa relação não é perfeita.
Assim, temos 0 < r < 1 . É o caso dos dados referentes ao peso (em kg) e altura (em cm)
para n = 11 alunos da Universidade Federal do Acre.
Gráfico 2 - Peso vs altura – masculino
Fonte: Elaborado pelo autor, 2020.
#PraCegoVer : figura com onze pontos amarelos plotados num
gráfico cartesiano de fundo branco, com o peso na ordenada e a
altura na abscissa, para pessoas do sexo masculino. O eixo das
abscissas vai de 50 a 95 e o eixo das ordenadas de 160 a 190. Da
esquerda para a direita, o primeiro ponto é (55, 165) e o último
ponto é (92,185). De baixo para cima, o primeiro ponto também é
(55, 165) e o último (92,185). Os pontos estão dispersos como numa
elipse com inclinação positiva em relação ao eixo das abscissas.
c) A relação linear entre X e Y é inversa, mas não é perfeita, de tal forma que o
crescimento de uma variável leva, em geral, ao decrescimento da outra; o valor de r ,
neste caso, é negativo, ou seja, -1 < r < 0 . No exemplo, foram anotados os pesos e as
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 21/52
alturas de 11 discentes da Universidade Federal do Acre (discussões a respeito deste
resultado e do resultado anterior serão feitas ainda neste texto).
Gráfico 3 – Peso (em kg) vs altura (em cm) de mulheres
Fonte: Elaborado pelo autor, 2020.
#PraCegoVer : figura que representa um gráfico de dispersão com
pontos amarelos num fundo branco, representando o peso e a
altura de onze discentes do sexo feminino. Os pontos estão
dispersos numa forma de elipse, com inclinação negativa em
relação ao eixo das abscissas. Da esquerda para direita, o primeiro
ponto é (45,165) e o último ponto é (67,162); de cima para baixo, o
primeiro ponto é (66, 158) e os dois últimos pontos são (49,167) e
(52, 167).
d) Relação linear inversa perfeita entre X e Y , ou seja, r = -1 , um caso apenas teórico.
Gráfico 4 – Exemplo de relação linear inversa perfeita
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 22/52
Fonte: Elaborado pelo autor, 2020.
#PraCegoVer : gráfico de pontos amarelos com fundo branco, com
os pesos na abscissa e as alturas na ordenada, com valores
coincidentes com uma reta que inicia no ponto (50,180) e termina no
ponto (90,150). Os pontos estão dispostos sobre a reta Y é igual a
menos zero vírgula setenta e cinco X mais 217,5.
e) Não é possível verificar relação linear entre as variáveis X e Y e, nesta situação, temos
dois casos a considerar:
a. Não existe relação entre X e Y ;
Gráfico 5 – Exemplo de variáveis não correlacionadas
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 23/52
b.
Fonte: Elaborado pelo autor, 2020.
#PraCegoVer : gráfico de dispersão com 22 pontos amarelos sobre
o fundo branco, com a abscissa de 40 a 75 e a ordenada de 160 a
190. Os pontos amarelos estão espalhados em um retângulo que vai
de 45 a 73, na abcissa e de 165 a 185, na ordenada. O espalhamento
dos pontos não mostra uma tendência, parecendo que os pontos
foram aleatoriamente espalhados pelo retângulo. Da esquerda para
direita temos os pontos limites inferiores (45, 167), (45, 175) e
(45,182) e o ponto (73,177) como limite superior. No eixo das
ordenadas, os pontos limites inferiores são (55,165), (66,165) e
(69,165) e os superiores (52,185) e (67,185).
Existe relação entre X e Y , mas essa relação não é linear, ou os dados são
compostos de dois ou mais grupos. Na primeira situação, estão incluídas relações
quadráticas, exponenciais, logarítmicas ou outros tipos de relação não lineares.
Na segunda situação, incluem-se aquelas nas quais o pesquisador não separou
corretamente as variáveis e, portanto, temos dois ou mais grupos sendo
examinados em um mesmo gráfico ou, ainda, dois períodos que deveriam ser
observados separadamente. Na situação apresentada na Figura 6, claramente
29/04/23, 11:12 Unidade1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 24/52
temos que as variáveis apresentam um relacionamento (correlação) mas,
aparentemente, temos dois blocos que não foram claramente separados. O
primeiro, representado pelos pontos em que a variável Y vai de 155 a 168 (e a
variável X de 40 a 66), e outro em que a variável Y varia de 169 a 185 (e a
variável X varia de 66 a 92). No primeiro grupo, temos uma correlação linear
positiva e no segundo grupo uma relação não linear entre X e Y . Nestes casos,
percebe-se a necessidade de estudar melhor o conjunto de dados, dividindo-o em
dois grupos. Esta situação é geralmente examinada na análise descritiva inicial.
Gráfico 6 – Relação entreXeY– situação hipotética
Fonte: Elaborado pelo autor, 2020.
#PraCegoVer : gráfico de dispersão com dados hipotéticos, no qual
os valores aparentemente pertencem a dois grupos: o primeiro,
com pontos que variam de 45 a 66, na abscissa e de 157 a 167 na
ordenada, apresentam-se na forma de uma elipse com inclinação
positiva; o segundo grupo, com pontos que de 66 a 91, na abscissa
e de 169 a 185, na ordenada, apresentam a forma de uma função
logarítmica.
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 25/52
1.4 Coeficientes de correlação
A associação entre duas variáveis pode ser mensurada através de um coeficiente,
denominado coeficiente de correlação. O prefixo “co” é encontrado em várias palavras,
tais como cooperação (operação conjunta), coordenação (ordenação compartilhada),
colaboração (trabalho ou labor conjunto). No caso específico, correlação indica a relação
entre duas variáveis, de forma conjunta. Antes de tudo, vamos relembrar a variância e a
covariância. A variância é uma medida de dispersão positiva (se for nula, não há
variação), calculada pela soma das diferenças quadráticas entre as variáveis e uma
medida de posição específica – a média, ponderada pelo tamanho da população (no
caso de variância populacional) ou pelo tamanho da amostra, menos uma unidade, no
caso em que desejamos obter a variância amostral. Assim, considerando N o tamanho da
população, μ a média populacional e os N valores da variável X (X , X , ,X ) , a
variância é dada por:
#PraCegoVer : sigma ao quadrado é igual a um dividido por ene
maiúsculo vezes o somatório que vai de um a ene maiúsculo de
(abre parênteses) X índice i menos mu (fecha parênteses) elevado
ao quadrado que é igual a um dividido por ene maiúsculo vezes
(abre chave) somatório que vai de um a ene maiúsculo de X índice i
elevado ao quadrado menos (abre parênteses) somatório que vai de
um até ene maiúsculo de X índice i (fecha parênteses) ao quadrado,
dividido por ene maiúsculo (fecha colchete).
A estimativa da variância, obtida através da amostra com n elementos e com média X ,
denotada por S é dada por:
1 2 N 
2 
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 26/52
#PraCegoVer : esse maiúsculo ao quadrado é igual a um dividido
por ene minúsculo menos um vezes o somatório que vai de um a
ene minúsculo de (abre parênteses) X índice i menos X barra (fecha
parênteses) elevado ao quadrado que é igual a um dividido por ene
minúsculo menos um vezes (abre colchetes) somatório que vai de
um a ene minúsculo de X índice i elevado ao quadrado menos (abre
parênteses) somatório que vai de um até ene minúsculo de X índice
i (fecha parênteses) ao quadrado, dividido por ene minúsculo (fecha
colchetes).
O cálculo da variância e da média é conhecido e já praticado anteriormente. Assim, a
covariância ou variância conjunta entre duas variáveis X e Y é obtida por:
#PraCegoVer : lembrando que todos os somatórios vão de um até
ene maiúsculo, covariância de X e Y é igual a um dividido por ene
maiúsculo vezes o somatório de (abre parênteses) X índice i menos
mu de X (fecha parênteses) (abre parênteses) Y índice i menos mu
de Y (fecha parênteses) que é igual a um dividido por ene maiúsculo
vezes (abre colchetes) somatório de X índice i vezes Y índice i
menos (abre parênteses) somatório de X índice i (fecha parênteses)
vezes (abre parênteses) somatório de Y índice i (fecha parênteses)
dividido por ene maiúsculo (fecha colchetes).
Ou por sua estimativa:
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 27/52
#PraCegoVer : como se trata de uma estimativa, os somatórios vão
de um até ene minúsculo e assim, a covariância estimada de X e Y é
igual a um dividido por ene maiúsculo menos um vezes o somatório
de (abre parênteses) X índice i menos X barra (fecha parênteses)
(abre parênteses) Y índice i menos Y barra (fecha parênteses) que é
igual a um dividido por ene minúsculo menos um vezes (abre
colchete) somatório de X índice i vezes Y índice i menos (abre
parênteses) somatório de X índice i (fecha parênteses) vezes (abre
parênteses) somatório de Y índice i (fecha parênteses) dividido por
ene minúsculo (fecha colchete).
A covariância pode variar de:
#PraCegoVer : de menos infinito a mais infinito.
Temos duas considerações a fazer a respeito da covariância: sua magnitude e seu sinal.
Em relação à magnitude, quanto mais distante da média são os valores de X e de Y ,
maior a covariância. Em relação ao sinal da covariância, esse depende do
comportamento conjunto das variáveis. Se a maioria das diferenças entre a variável X e
sua média, e entre a variável Y e sua média, tiverem sinais iguais, a covariância tende a
ser positiva. Se os sinais forem opostos (+ para X e – para Y ou vice-versa), então a
covariância tenderá a ser negativa.
A covariância mede, portanto, o quão distante os valores das variáveis X e Y , de forma
conjunta, estão de suas respectivas médias. A unidade da covariância é igual à da
variância, ou seja, o quadrado da unidade em que a variável foi mensurada. Assim como
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 28/52
no caso da variância, o valor da covariância é comparável somente se os dados forem
tomados na mesma unidade e em grupos semelhantes. O tamanho das amostras não é
tão decisivo, já que a covariância, assim como a variância, é ponderada em número de
graus de liberdade (tamanho da amostra menos uma unidade).
Pela covariância, podemos apenas saber qual a direção da relação entre as variáveis –
direta, se a covariância for positiva, ou inversa, se a covariância for negativa. Assim,
torna-se necessária a obtenção de uma medida que seja independente da escala que
estamos trabalhando e que também seja adimensional, além de estar dentro de um
intervalo de valores, tornando-o comparável. Na sequência, discutiremos dois
coeficientes de correlação utilizados para dados em escalas ordinais, intervalares e de
razão.
Ademais, é importante lembrar que padronizar ou estandartizar uma variável, no contexto
da estatística é realizar a transformação linear que consiste em, para cada valor da
variável, subtrair a média e a diferença, dividir pelo desvio-padrão S (no caso de
amostras), ou seja:
#PraCegoVer : X com índice sti é igual à X índice i menos x barra
dividido pelo desvio-padrão de x).
Este procedimento foi utilizado, entre outros, para permitir a utilização da distribuição
normal padrão em casos em que a média era diferente de zero e a variância diferente de
1. Esta normalização é geralmente apresentada apenas de passagem, como em Bussab
& Morettin (2017), mas tem uma importância fundamental na utilização de dados em
Estatística. Outros tipos de normalização podem ser encontrados utilizando, por exemplo,
a mediana no lugar da média. Entretanto, neste caso, as propriedades matemáticas não
são simples como no caso da média.
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 29/52
VOCÊ QUER LER?
Para variáveis qualitativas,existem procedimentos específicos que geram, entre
outros resultados, coeficientes de correlação como os de Yule, de Kendall, a
correlação tetracórica e outros. Tais coeficientes são obtidos a partir de tabelas de
contingência que utilizam, em suas células, valores obtidos através de contagens
de casos. Para maiores informações sobre a obtenção de tabelas de contingência
e as medidas de associação entre variáveis qualitativas, consultar, dentre outros,
o Capítulo 8 do livro Métodos Estatísticos para as Ciências Sociais , de Alan
Agresti e Barbara Finlay (AGRESTI, A.; FINLAY, B., 2012).
1.4.1 Teste de hipóteses para o coeficiente de correlação
Como estamos tratando de inferência estatística, é possível criar um teste de hipóteses
para o coeficiente de correlação de Pearson. O coeficiente de correlação de Pearson é
um teste estatístico que tem suas etapas de desenvolvimento baseadas nas etapas de
construção de um teste de hipótese (1) Definição de hipóteses; (2) Estatística do teste;
(3) Regra ou critério de decisão.
O teste mais comum é aquele em que a hipótese nula é da não correlação entre as
variáveis, ou seja:
#PraCegoVer : Agá zero dois pontos letra grega “rô” igual a zero
versus Agá um, dois pontos, “rô” diferente de zero.
Neste caso, utilizamos o teste t de Student para a seguinte expressão:
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 30/52
#PraCegoVer : r vezes raiz de n menos dois, dividido pela raiz de um
menos o quadrado de r tem distribuição de t de Student com n
menos 2 graus de liberdade.
Ou seja, a expressão tem distribuição t de Student com n-2 graus de liberdade. Observa-
se que, nessa expressão, a diferença entre o denominador e o numerador cresce
rapidamente quando o tamanho da amostra n cresce. Assim, para valores grandes de n é
comum valores baixos de r serem significativos.
Nestes casos, é necessária muita cautela na análise do valor- p obtido. Assim, deve-se
estar atento para a realização do teste de hipóteses pois, para que ele seja válido, são
necessárias algumas pressuposições (veja a interação).
Pressuposições para o teste de hipóteses
Tais pressuposições são necessárias para que o teste do coeficiente de correlação de
Pearson seja consistente. O coeficiente de correlação de Spearman é não paramétrico e
estas pressuposições não são necessárias (ver Kendall, 1975). O uso da distribuição t de
Student para testar este coeficiente só é adequado do ponto de vista assintótico.
Devemos lembrar que o tamanho da amostra, que é suficientemente grande para a
utilização de testes estatísticos, não é simples de ser definido. Em alguns casos, em que
o ajuste à distribuição normal é obtido, a amostra pode ser menor. Em outras situações,
em que os dados não se comportam normalmente, há a presença de dados discrepantes
( outliers ), o tamanho da amostra tem que ser maior para poder gerar testes robustos.
Além disso, é importante ressaltar que a interpretação geométrica do coeficiente de
correlação de Pearson indica que se X e Y são vetores n -dimensionais, tem-se que ρ =
 
1ª pressuposição 2ª pressuposição 3ª pressuposição
 
4ª pressuposição 5ª pressuposição
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 31/52
cos (α) , sendo α o ângulo entre estes vetores. Assim, se ρ = 1, α = 0 (vetores
colineares); se ρ = 0, α = 90º (vetores ortogonais) e se ρ = -1; α = 180º (vetores
colineares com sentidos opostos).
Outros tipos de relacionamento não são mensurados corretamente através do coeficiente
de correlação de Pearson, mas podem ser indicados através do coeficiente de
determinação ( R ). O coeficiente de determinação, dado por R = r (coeficiente de
correlação ao quadrado) é uma medida de força da relação entre as variáveis e pode ser
expresso através de percentual, indicando o quanto da variação de Y (variável
dependente) é devido à variação de X (variável dependente) no caso em que temos uma
relação de causação.
Para realizar testes de hipóteses sobre o coeficiente de correlação de Spearman, em
geral, utiliza-se o procedimento assintótico aplicado ao coeficiente de correlação de
Pearson. Tais procedimentos, entretanto, não são adequados quando o número de pares
de variáveis é pequeno. Nesses casos, é possível obtermos o nível de significância
(valor- p ) exato para o coeficiente obtido, ou ainda utilizar testes de permutação
aleatórios para a obtenção de valores-p aproximados, nos casos em que o número das
possíveis permutações é grande.
VOCÊ SABIA?
Teste para o coeficiente de correlação de Pearson no Excel. Para fazer o teste de
hipóteses do coeficiente de correlação no Excel, devemos, primeiramente, calcular o
coeficiente, através da função “=correl”. Na sequência, calculamos =r*raiz(n-2)/raiz(1-r*r).
Supondo que a amostra foi de 15 elementos e o valor de r foi calculado anteriormente na
célula E1, calculamos “=E1*raiz(13)/raiz(1-E1*E1).
Teste seus conhecimentos
Atividade não pontuada.
2 2 2 
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 32/52
1.4.2 Exemplos de aplicação
Em sala de aula, são vários os exemplos em que o coeficiente de correlação pode ser
utilizado abordando situações (dados) cotidianas. Assim, pode-se calcular o coeficiente
de correlação existente entre a altura e o peso dos alunos, entre o número de horas de
estudo e a nota obtida, entre as idades do pai e a idade da mãe dos alunos, dentre
outros. Outros exemplos podem ser buscados em situações do dia a dia, como, por
exemplo, entre o preço de determinados bens duráveis e o número de famílias
possuidoras daquele tipo de bem, entre a área construída da residência e o número de
membros da família etc.
Uma aplicação bem interessante, portanto, é relacionar a pontuação no CCEB (Critério
de Classificação Econômica Brasil) e a renda familiar. O CCEB é um indicador da ABEP
(Associação Brasileira de Pesquisa) que indica, por meio de uma pontuação para um
grupo de bens que uma família possui, qual a classe de renda presumida para aquele
determinado domicílio. Outro exemplo hipotético seria aquele em que as variáveis são o
preço e o lucro de uma determinada empresa. Quando aumentamos o preço do produto,
o lucro da empresa aumenta, certo? Isso pode ser verdade, mas até certo ponto, já que
se aumentarmos o preço do produto além de uma certa quantia, as vendas decrescem
significativamente, afetando o lucro negativamente.
» Exemplo 1
Para exemplificar o cálculo do coeficiente de correlação, utilizaremos parte dos dados de
Pontes (2003), que apresenta as notas médias de cinco juízes para a preocupação
ambiental de 27 produtores rurais do Assentamento Sumaré II. Detalhes sobre a maneira
de obtenção dessas notas podem ser obtidos no trabalho original. Utilizaremos aqui as
notas dos primeiros seis moradores (Quadro 1) para que os cálculos sejam mais simples.
Quadro 1 – Notas de três juízes para a preocupação ecológica de seis famílias do
assentamento Sumaré II
CASA JUIZ 1 (IREc1) JUIZ 2 (IREc2) JUIZ 3 (IREc3)
1 2,73,8 2,9
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 33/52
Fonte: PONTES, 2003.
» Clique nas setas ou arraste para visualizar as imagens
2
3
4
4,3
5
4,6
6
4,5
2,1 1,7
2,6
4,6
2,2 2,43,3
1,5
4,53,7
4,4 3,1
Gráfico 7 – Gráfico de dispersão - Juiz 1 (X) vs Juiz 2 (Y)
Fonte: PONTES, 2003.
#PraCegoVer : o gráfico 7 inclui seis pontos amarelos, distribuídos
entre os valores 2,1 e 4,4 na abscissa e 1,5 e 4,6, na ordenada, na
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 34/52
forma de uma elipse com inclinação positiva. A abscissa e a
ordenada iniciam no ponto 0 e terminam no ponto 5. Os valores dos
pontos inseridos estão no Quadro 1, colunas 2 e 3.
Gráfico 8 - Gráfico de dispersão - Juiz 1(X) vs Juiz 3 (Y)
Fonte: PONTES, 2003.
#PraCegoVer : o gráfico 8 inclui seis pontos amarelos, distribuídos
entre os valores 2,1 e 4,4 na abscissa e 1,7 e 4,6, na ordenada, na
forma de uma elipse com inclinação positiva. A abscissa e a
ordenada iniciam no ponto 0 e terminam no ponto 5. Os valores dos
pontos inseridos estão no Quadro 1, colunas 2 e 4. A dispersão dos
pontos nos gráficos 7 e 8 são semelhantes.
Gráfico 9 – Gráfico de dispersão – Juiz 2 (X) vs Juiz 3 (Y)
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 35/52
A partir do Quadro 1 são obtidos os três (C3,2) coeficientes de correlação de Pearson
entre as notas dos cinco juízes.
Quadro 2 – Coeficientes de correlação e seus respectivos valores-p
PARES DE JUÍZES
COEFICIENTE DE
CORRELAÇÃO DE
PEARSON
VALOR-P
1 e 2 0,1820,6277
Fonte: PONTES, 2003.
#PraCegoVer : o gráfico 9 é resultado da plotagem de seis pontos
amarelos referentes aos juízes 2 e 3 (colunas 3 e 4 do Quadro 1,
distribuídos entre os valores 1,5 e 4,6 na abscissa e 1,7 e 4,6, na
ordenada, na forma de uma elipse com inclinação positiva. Neste
caso os pontos estão quase totalmente em linha reta. A abscissa e a
ordenada variam de 0 a 5.
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 36/52
Fonte: PONTES, 2003.
Os valores-p obtidos no quadro referem-se ao teste do coeficiente de correlação linear de
Pearson. Esses valores definem se podemos dizer que duas variáveis são linearmente
correlacionadas do ponto de vista estatístico. Em geral, se esse valor for menor que 0,05,
considera-se que a correlação entre as variáveis trabalhadas é significativa. Assim, no
exemplo, as notas dos juízes 1 e 3 são positivamente correlacionadas entre si, ou seja,
ambos têm a mesma visão referente à percepção ecológica dos moradores do
assentamento. Entretanto, quando se consideram os pares de juízes 1,2 e 1,3, a
correlação não é significativa, ou seja, não há correspondência entre as notas destes
juízes no que concerne à percepção ecológica dos moradores amostrados.
Naturalmente, temos um exemplo em que o número de observações é pequeno, ou seja,
a amostra não é suficiente para que possamos ter dados considerados fidedignos.
Nesses casos, o teste, em geral, apresenta falhas.
» Exemplo 2
Os dados apresentados, neste exemplo, referem-se à altura, peso e idade de alunos da
Universidade Federal do Acre. Além destas variáveis quantitativas, foi ainda considerada
a variável nominal sexo, com duas categorias: F = feminino e M = masculino. Os dados
dos 44 estudantes, 20 do sexo feminino e 24 do sexo masculino, estão na Quadro 3.
Quadro 3 – Dados referentes a sexo, idade, peso e altura de 44 estudantes
1 e 3
2 e 3
0,1100,7157
0,9911 < 0,001
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 37/52
Fonte: Elaborado pelo autor, 2020.
Inicialmente obtemos o box-plot para verificar como os dados se comportam.
Naturalmente, devemos fazer um box-plot para cada variável, contendo os dados dos
dois sexos para comparação.
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 38/52
Gráfico 10 – Box-plot da idade, por sexo
Fonte: Elaborado pelo autor.
VOCÊ SABIA?
Box-plot é uma representação dos dados por meio de uma caixa com um traço em seu
interior e hastes em seu exterior. O traço no interior da caixa indica o valor da mediana. O
tamanho da caixa mostra a variabilidade; já seus pontos limites são o 1º quartil (limite
inferior da caixa) e o 3º quartil (limite superior da caixa). Os limites das hastes inferior e
superior indicam o menor e o maior valor, respectivamente, sem considerar os valores
discrepantes (outliers). Em geral, estes valores discrepantes podem ser de dois tipos:
influentes (indicado por um asterisco) e não influentes (assinalado por uma bola, como
no exemplo). (BUSSAB; MORETTIN, 2017).
#PraCegoVer : o Gráfico 10 apresenta o box-plot da idade, por sexo,
ou seja, tem-se duas caixas. A caixa referente ao sexo feminino é
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 39/52
Percebe-se que a idade dos discentes do sexo masculino tem maior variabilidade e um
elemento discrepante (Aluno 44, com 38 anos). No caso feminino, o elemento
discrepante é a Aluna 19, com 30 anos. As medianas, para ambos os sexos, são iguais.
Gráfico 11 – Peso de 44 discentes, por sexo
Fonte: Elaborado pelo autor.
estreita, indo de 19 (1º quartil) a 21 anos (3º quartil), a haste inferior
vai até o valor 18 (ponto de mínimo é 18 anos) e a haste superior vai
até o ponto 24. O máximo é 30, sendo um ponto discrepante,
representado por uma bolinha. A caixa que representa o sexo
masculino é mais alta (três vezes maior), indo de 18 (1º quartil) a 25
anos (3º quartil). O valor mínimo é 17 que coincide com o final da
haste inferior. A haste superior vai até o ponto 32, restando ainda,
como ponto discrepante, o valor 38 marcado por uma bolinha. O
traço central das duas caixas, que corresponde à mediana,
encontra-se no ponto 20.
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 40/52
Gráfico 12 – Altura, por sexo, de 44 estudantes
Fonte: Elaborado pelo autor.
#PraCegoVer : o gráfico 11, do peso dos discentes, tem duas caixas,
uma para cada sexo. A caixa do sexo feminino é mais estreita, indo
de 52 (1º quartil) a 65 (3º quartil), com o traço no ponto 59
(mediana). Não há valores discrepantes e, portanto, o valor mínimo
da haste inferior é 45 e o valor máximo é 79, que coincide com os
valores mínimo e máximo dos dados. No caso do sexo masculino, a
caixa inicia em 61 (1º quartil) e termina em 84 (3º quartil), com traço
em 78 (mediana). Não há valores discrepantes e, assim, a haste
inferior (que corresponde ao valor mínimo) inicia em 49, e a haste
superior termina em 105 (que corresponde ao valor máximo).
#PraCegoVer : o gráfico 12 apresenta o box-plot da altura, em
centímetros, por sexo (duas caixas separadas). Em ambas não há
valores discrepantes. No caso do sexo feminino, a haste inferior
inicia em 150 (valor mínimo) e a superior termina em 177. A caixa vai
de 157 (1º quartil) a 166 (3º quartil), com traço interior em 161
(mediana). Para o sexo masculino, o traço central é no ponto 175
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 41/52
Para as variáveis peso e altura não foram encontrados dados discrepantes. O peso dos
estudantes do sexo masculino tem maior variabilidade e também sua mediana é maior.
No caso da altura, a variabilidade é semelhante para os dois sexos, mas a mediana da
altura dos estudantes do sexo masculino é maior que a dos estudantes do sexo feminino.
A análise dos dados, quando separamos os elementos da amostra por sexo, mostra um
comportamento diferente para cada grupo em termos de variabilidade (idade e peso) e
valores medianos (peso e altura). Este é um indicativo de que a separação, por sexo,
deve ser realizada para que os dados sejam corretamente analisados. Essa conclusão
coincide com o senso comum, que indica que altura e peso de pessoas adultas tendem a
ser diferentes, quando se trata de sexo. Em geral, pessoas do sexo masculino são mais
altas e têm maior peso do que as do sexo feminino.
Na sequência, iremos plotar os gráficos de dispersão para observar o comportamento de
cada uma das variáveis. Podemos incluir três gráficos para cada sexo, totalizando seis
gráficos de dispersão, que levaria ao cálculo de seis coeficientes de correlação de
Pearson: uma para as variáveis idade x peso; outro para as variáveis idade x altura; e o
terceiro para as variáveis peso x idade. Faremos, no exemplo, apenas os dois gráficos
para as variáveis peso x idade,para os sexos masculino e feminino. Os outros serão
deixados como exercício.
VAMOS PRATICAR
(mediana) e a caixa está entre os valores 170 (1º quartil) e 181 (3º
quartil). A haste inferior inicia no valor 165 e a superior termina em
185. As caixas têm tamanhos semelhantes, indicando que a
variabilidade da altura do sexo feminino é semelhante à do sexo
masculino.
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 42/52
Com os dados do Quadro 3, no Excel ou em outro software de sua preferência,
você pode reproduzir os Gráficos 13 e 14 e fazer os outros quatro gráficos de
dispersão não disponibilizados no texto. No Excel, basta escolher os valores a
serem plotados, que estão em colunas diferentes, mas contêm o mesmo
número de pontos e, na sequência, selecionar INSERIR – GRÁFICO DE
DISPERSÃO. Para melhor visualização, sugere-se fazer modificações na
escala da abcissa e da ordenada (LEVINE e colaboradores, 2016 p. 57 e 58).
Gráfico 13 – Dispersão de peso e altura – sexo feminino
Fonte: Elaborado pelo autor.
Gráfico 14 – Dispersão de peso e altura – sexo masculino
#PraCegoVer : gráfico de dispersão de peso (na abscissa) e altura
(na ordenada). Dos 20 pontos amarelos presentes no gráfico, 18
deles apresentam-se espalhados em um retângulo que vai de 45 a
67 (na abscissa) e de 150 a 172, na ordenada. Os outros dois pontos
são (74,173) e (78,176), e indicam diversa dos demais.
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 43/52
Fonte: Elaborado pelo autor.
Percebe-se, observando os gráficos de dispersão, que está bem clara a relação linear
entre peso e altura para os discentes do sexo masculino (Figura 5). Por outro lado, essa
relação não é facilmente observada no caso dos discentes do sexo feminino.
Iremos, agora, calcular os valores dos coeficientes de correlação entre o peso e a altura,
para cada sexo, através da função correl do Excel. No caso feminino, nossa amostra é
de 20 elementos e o coeficiente de correlação de Pearson é dado por:
#PraCegoVer : o Gráfico 14 representa a dispersão entre peso e
altura para pessoas do sexo masculino. Neste gráfico, com 24
pontos amarelos, todos os pontos estão dispersos dentro de uma
elipse imaginária com inclinação positiva. A abcissa varia de 40 a
110, e a ordenada, de 160 a 190. Da esquerda para a direita, na
abcissa, o menor valor é (49,170) e o maior valor é (106,179). De
baixo para cima, na ordenada, o menor valor é (55,165) e os maiores
são (92,185) e (100,185).
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 44/52
É possível, ainda, calcular o coeficiente de correlação utilizando a fórmula da divisão da
covariância pelos desvios padrões individuais. No caso específico, tem-se:
Para os 24 dos elementos do sexo masculino, realizando a mesma sequência de
cálculos, tem-se que:
#PraCegoVer : sendo a covariância entre peso e altura igual a vinte
e sete inteiros e cinco mil, duzentos e onze décimos de milésimos,
o desvio-padrão do peso igual a oito inteiros e seis mil, cento e
cinquenta e dois décimos de milésimos, o desvio-padrão da altura
igual a sete inteiros e três mil, quinhentos e quatro décimos de
milésimos, então o coeficiente de correlação é igual a divisão do
valor da covariância de x e y pela (abre parênteses) multiplicação
entre os desvios padrões de x e y (fecha parênteses). No numerador
o valor é vinte e sete inteiros e cinco mil, duzentos e onze décimos
de milésimos, e no denominador o valor é sessenta e três inteiros e
três mil, duzentos e cinquenta e dois décimos de milésimos,
resultante da multiplicação dos desvios padrões. O resultado final,
a coeficiente de correlação de Pearson, é quatro mil, trezentos e
quarenta e seis décimos de milésimos.
#PraCegoVer : o coeficiente de correlação de Pearson para os
elementos do sexo masculino, denotado por erre índice eme é igual
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 45/52
Em ambos os casos, o coeficiente de correlação de Pearson foi positivo, indicando que,
caso se comprove a relação, ela é direta, tanto no caso do sexo feminino quanto no caso
do sexo masculino, ou seja, o crescimento da altura é relacionado com o crescimento do
peso ou vice-versa. Quando tratarmos da regressão, deveremos verificar se uma variável
causa a outra (causação) e, neste caso, aparentemente, a altura é um elemento
importante na variação do peso. Contudo, este não é um ponto importante quando
estamos trabalhando com a correlação.
Por último, é necessário verificar a hipótese:
#PraCegoVer : sendo “rô” o coeficiente de correlação linear de
Pearson populacional, a hipótese nula (denominada agá zero) é “rô”
igual a zero versus a hipótese alternativa (denominada agá um ou
agá a) é “rô” diferente de zero.
Para isto, lembramos que:
#PraCegoVer : r vezes raiz de n menos 2 dividido por raiz de 1
menos o quadrado de r.
Tem distribuição t de Student com n-2 graus de liberdade. No caso do sexo feminino, a
amostra é de 20 elementos, que resulta em 18 graus de liberdade.
a sete mil, oitocentos e oitenta e seis décimos de milésimos.
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 46/52
#PraCegoVer : o valor de t calculado é igual a r vezes raiz de n
menos 2 e dividido por raiz de 1 menos o quadrado de r. Usando os
valores obtidos anteriormente para o caso feminino temos quatro
mil, trezentos e quarenta e seis décimos de milésimos vezes raiz de
20 menos 2, dividido por 1 menos o quadrado de quatro mil,
trezentos e quarenta e seis décimos de milésimos, que resulta no
valor dois inteiros e quarenta e sete milésimos.
Podemos, a partir deste valor, obter o valor-p (ou p-valor) diretamente no Excel ou
podemos utilizar uma tabela de t ‑ Student para comparar o valor obtido com o valor para
um determinado nível de significância α. Este nível α é, em geral, 0,05 ou 0,01 (5% ou
1%). Para α = 0,05, o valor tabelado é de 2,101, e para α = 0,01 o valor tabelado é 2,878
(lembrando que o teste é bicaudal). Comparando o valor obtido para o teste, tem-se que t
< t0,05, ou seja, não rejeitamos a hipótese nula. Isto significa que a correlação entre
o peso e a altura não é significativa. Utilizando a função o Excel para obtenção do valor-
p temos que calcular:
#PraCegoVer : igual a dois vezes (abre parênteses) um menos a
função DIST PONTO T (abre parênteses) dois inteiros e quarenta e
sete milésimos ponto e vírgula dezoito ponto e vírgula
VERDADEIRO (fecha parênteses) e (fecha parênteses).
Sabe-se que DIST.T calcula o valor da probabilidade para o primeiro argumento (2,047)
com o número de graus de liberdade dado pelo segundo argumento (18). O argumento
VERDADEIRO indica que estamos calculando a função acumulada. Ao retirarmos este
valor de 1, obtemos o valor da probabilidade de uma cauda. Como o teste é bilateral e a
distribuição t de Student é simétrica, multiplicamos o resultado por dois para obter o
valor-p. Neste caso específico, o valor-p é igual a 0,0555. Sendo esse valor maior que
0,05, a indicação é de que a hipótese de correlação nula não é rejeitada, ou seja, não
temos indícios suficientes para afirmar que existe correlação entre peso e altura, no caso
calc 
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 47/52
das discentes do sexo feminino.
Repetindo o procedimento para o coeficiente de correlação obtido para os dados dos
elementos masculinos da amostra, tem-se que:
#PraCegoVer : r índice M (valor do coeficiente de correlação para o
caso masculino) é igual a sete mil, oitocentos e oitenta e seis
décimos de milésimos.
#PraCegoVer : o valor de t calculado é igual a seis inteiros e cento e
sessenta e dois décimos de milésimos,cujo valor de probabilidade
é igual a sete milionésimos que é menor que cinco centésimos (ou
cinco porcento).
Assim, a hipótese de que o coeficiente de correlação é nulo é rejeitada. Conclui-se que
há uma correlação positiva entre as variáveis peso e altura para os discentes do sexo
masculino.
Para uma análise completa de correlação, é necessária a construção do gráfico de
diagrama de dispersão seguido do cálculo do coeficiente de correlação. O gráfico de
dispersão indica o comportamento dos dados, o cálculo do coeficiente de correlação
informa o grau de relacionamento entre as duas variáveis. Ressalta-se, ainda, que o
comportamento dos dados no gráfico de dispersão dialoga com o coeficiente de
correlação.
Observa-se, ainda, que nem sempre o fato de termos um teste significativo indica a real
condição de relacionamento entre variáveis. Nesse sentido, observe a interação a seguir
para ter alguns exemplos de correlações espúrias.
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 48/52
Correlações espúrias
Fonte: VIGEN, s.d.
Assim, duas variáveis podem ter um alto valor de coeficiente de correlação e um p-valor
baixíssimo e mesmo assim não haver nenhuma indicação de que as variáveis são
correlacionadas, as chamadas correlações espúrias. Dessa forma, como observamos
anteriormente, é preciso cautela ao interpretamos as relações entre as variáveis, de
forma a evitarmos erros elementares nas análises.
Síntese
Nesta unidade, os conceitos univariados foram ampliados para uma perspectiva
bivariada. As ideias de associação e causação foram apresentadas, embora tenha-se
discutido somente a associação. A noção de correlação foi apresentada em alguns de
seus aspectos, e os coeficientes de correlação linear de Pearson e de correlação de
postos foram discutidos com maiores detalhes. O teste de hipóteses para o coeficiente
de correlação foi contemplado também. Um aspecto importante desta unidade foi a
discussão de casos e resultados que indicam que não basta apenas calcular o
coeficiente de correlação e verificar sua significância estatística. Conhecer as variáveis
que estão sendo estudadas, os aspectos que envolvem sua aplicação, incluindo sua
temporalidade, são fatores importantes para um melhor entendimento dos resultados
obtidos através das técnicas estatísticas apresentadas.
SAIBA MAIS
1ª correlação 2ª correlação 3ª correlação
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 49/52
Título : Estatística – Teoria e Aplicações usando MS Excel em português
Autores : David M. Levine, David F. Stephan e Kathryn A. Szabat
Editora : Grupo GEN
Ano : 2016
Comentário : Sugerimos a leitura deste livro caso queira saber mais
detalhes sobre como obter o coeficiente de correlação de Pearson (r), seu
valor de teste (tcalc) e o valor de probabilidade (valor-p ou p-valor).
Onde encontrar : Livrarias virtuais e físicas.
Referências bibliográficas
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 50/52
AGRESTI, A.; FINLAY, B. Métodos estatísticos para as ciências sociais . Porto Alegre:
Penso, 2012.
BONELLI, R. C. Desigualdades matemáticas e aplicações . 2017. 114 f. Dissertação
(mestrado profissional em matemática) – Instituto de Geociências e Ciências Exaras,
UNESP, Rio Claro, 2017. Disponível em < http://hdl.handle.net/11449/151180 >. Acesso
em: 20 dez. 2020.
BUSSAB, W. O.; MORETTIN, P. A. Estatística básica . São Paulo: Saraiva, 2017.
CHEN, P. Y.; POPOVICH, P. M. Correlation : parametric and nonparametric measures.
Thousand Oaks: Sage, 2006.
DIETZ, T.; KALOF, L. Introdução à estatística social : a lógica do raciocínio estatístico.
Rio de Janeiro: LTC, 2015.
FÁVERO, L. P. Análise de Dados - Modelos de Regressão Com Excel, Stata e Spss. Rio
de Janeiro: Elsevier, 2015.
KENDALL, M. Rank correlation methods . London: Charles Griffin & Company LTD.,
1975.
LARSON, R.; FARBER, B. Estatística aplicada . São Paulo: Pearson, 2010.
LEVINE, D. M.; STEPHAN, D. F.; SZABAT, K. A. Estatística – Teoria e aplicações usando
MS Excel em português. Rio de Janeiro: Grupo GEN, 2016.
PASSOS, A. et al. Análise estatística da evolução do produto interno bruto da indústria da
construção civil brasileira utilizando regressão linear simples. Revista GEINTEC , São
Cristóvão, v. 2, n. 5, p. 505-524, 2012. Disponível:<
http://www.revistageintec.net/index.php/revista/article/view/74/153 >. Acesso: 14 de nov.
2020.
PONTES, L. O. Agricultura Familiar : Recuperação e Valoração da Floresta no
Assentamento Rural de Sumaré II. 2003. 102 f. Dissertação (Mestrado) – Escola Superior
http://hdl.handle.net/11449/151180
http://www.revistageintec.net/index.php/revista/article/view/74/153
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 51/52
de Agricultura, Universidade de São Paulo, Piracicaba, 2003.
VIGEN, T. Spurious Correlations , s.d. Disponível em: < http://www.tylervigen.com/
spurious-correlations >. Acesso em: 30 nov. 2020.
http://www.tylervigen.com/%20spurious-correlations
29/04/23, 11:12 Unidade 1 - Análise de regressão univariada
https://ambienteacademico.com.br/mod/url/view.php?id=778687 52/52

Continue navegando