CAPÍTULO 2

Estatística I

•
UAM

MARCIO CAMPOS
17/06/2020
E aí, curtiu este material?
Ajude a incentivar outros estudantes a melhorar o conteúdo
Gostou desse material? Compartilhe! 🧡
Estatística I

57.219 Materiais compartilhados
Baixe o app para aproveitar ainda mais
Leia os materiais offline, sem usar a internet. Além de vários outros recursos!
Prévia do material em texto
20/02/2020 Ead.br
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 1/28
introdução
Introdução
Como foi visto, por meio de medidas resumo é possível tirar conclusões sobre um conjunto de dados, de
números, e transformar todos esses números em informações. Dessa forma, é possível ver o todo de forma
simpli�cada, rápida e objetiva. As medidas de posições que estudamos até o momento trazem muita
informação sobre o conjunto de dados a serem analisados, mas também podem levar a erros no caso de falta
de atenção.
Nesse momento, você me pergunta: Professora, mas se pode levar a erro, por que eu iria utilizá-las? Simples,
porque, de agora em diante, você aprenderá a identi�car os erros e a colocar con�abilidade nas informações
adquiridas por meio dos dados.
ESTATÍSTICAESTATÍSTICA
MEDIDAS DE DISPERSÃO E ANÁLISEMEDIDAS DE DISPERSÃO E ANÁLISE
BIDIMENSIONALBIDIMENSIONAL
Autor: Me. Viviane de Jesus Leite
R e v i s o r : R e b e c c a M a n e s c o Pa i x ã o
I N I C I A R
20/02/2020 Ead.br
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 2/28
Então, neste capítulo, vamos estudar as medidas de dispersão e um pouquinho de análise bidimensional, para
que suas análises �quem mais robustas.
Vamos lá?
20/02/2020 Ead.br
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 3/28
As medidas de dispersão servem para que você realize uma análise mais profunda do conjunto de dados.
Observe que, às vezes, não se pode tirar conclusões realistas de um conjunto de dados tomando como base
apenas as medidas de posição centrais estudadas – média, moda e mediana. Imagine que você tem dois
bombons para duas pessoas, você e eu. Caso eu coma os dois bombons sozinha, em média, cada um comeu
um bombom. Você concorda?
Como assim? Não compreendi, professora!
Vamos lá!
Digamos que você deseja tirar conclusões de um conjunto de dados e, para isso, lança mão de algumas das
medidas de posição, ou medidas de tendência central. Será que com apenas algumas dessas medidas você
conseguirá representar o conjunto de dados de modo que possa tirar conclusões realistas?
Pense comigo:
Há quatro salas (A, B, C e D) e cada uma contém 5 pessoas.
As idades das pessoas que estão na sala A são:
10    10    10    10    10
As idades das pessoas que estão na sala B são:
8    9    10    11    12
As idades das pessoas que estão na sala C são:
1    1    10    18    20
E as idades das pessoas que estão na sala D são:
2    5    10    11    22
Pelo cálculo da média, vamos relembrar:
Considere as variáveis em estudo e o número de elementos, ou seja, o número de variáveis presente.
Medidas de Dispersão e AnáliseMedidas de Dispersão e Análise
BidimensionalBidimensional
=           (1)x
−
Σxi
n
xi  n
20/02/2020 Ead.br
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 4/28
Então, na sala A, temos como média de idade das pessoas , sendo
que a mediana, valor que �ca na posição central, também será 10 anos.
Na sala B, temos como média da idade , sendo que a mediana será
10 anos.
Já na sala C, temos como média , sendo que a mediana será 10 anos.
E por �m, na sala D, a média das idades das pessoas é , sendo que a
mediana será 10 anos.
Então, agora re�ita sobre isso.
As medidas de posição central, média e mediana representam bem as pessoas das salas? Se você tivesse que
comprar uma roupa ou um presente para essas pessoas com base na idade delas e tomasse a média para
comprar, em todas as salas, você se sairia bem?
Desse modo, é por isso a necessidade de se estudar as medidas de dispersão, que medem a dispersão dos
dados em torno da média. Ou seja, a medida de dispersão serve para complementar a informação adquirida
por meio das medidas de posição e perceber o quanto os dados estão dispersos em torno da média, para mais
ou para menos.
As medidas de dispersão mais conhecidas são a amplitude total, o desvio médio, a variância, o desvio-padrão
e o coe�ciente de variação. Contudo, existem outras medidas de dispersão que não estudaremos neste
momento.
Amplitude total
A amplitude total (AT) é a diferença entre os limites superior e inferior, conforme Batista e Santos (2007).
Como assim? Limite superior e limite inferior? Sim, o limite superior é o maior valor do conjunto de dados; e o
limite inferior é o menor valor do conjunto de dados. Assim, a amplitude total é a diferença entre o maior
valor e o menor valor do conjunto de dados a ser analisado. Simples assim, um subtraído do outro.
Observe que quanto menor o resultado, menor é a variação entre os dados analisados.
No nosso exemplo, observe que na sala A, em que as pessoas têm 10, 10, 10, 10 e 10 anos, a amplitude total é
igual a 0 ano.
A amplitude total das idades das pessoas que estão na sala A é:
10    10    10    10    10
AT = 10 - 10 = 0 ano
A amplitude total das idades das pessoas que estão na sala B é:
8    9    10    11    12
AT = 12 - 8 = 4 anos
A amplitude total das idades das pessoas que estão na sala C é:
1    1    10    18    20
=   = = 10 anosx
−
10+10+10+10+10
5
50
5
=   = = 10 anosx
−
8+9+10+11+12
5
50
5
=   = = 10anosx
−
1+1+10+18+20
5
50
5
=   = = 10 anosx
−
2+5+10+11+22
5
50
5
AT = Limite superior − Limite inferior          (2)
20/02/2020 Ead.br
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 5/28
AT = 20 - 1 = 19 anos
E a amplitude total das idades das pessoas que estão na sala D é:
2    5    10    11    22
AT = 22 - 2 = 20 anos
Segundo Costa Neto (1977), a amplitude total traz consigo uma quantidade relativamente pequena de
informação quanto à dispersão dos dados. Então, exceto para as aplicações de controle de qualidade, essa
medida de dispersão não é muito utilizada.
Desvio médio absoluto
O desvio médio absoluto (DM) é a média dos desvios médios absolutos dos valores em relação à média, de
acordo com Batista e Santos (2007).
Você deve estar pensando: não entendi nada.
Calma, vou explicar.
Vamos lá!
Na matemática, quase sempre que se utiliza o termo “absoluto” é para dizer que você precisará utilizar
módulo (lembra daquelas duas barrinhas em pé?).
Aqui, elas vão servir para que o resultado do seu cálculo seja sempre positivo. E desvio ou erro, aqui, é para
dizer que você precisa subtrair.
Agora que você recordou alguns itens utilizados na matemática, vamos re�etir sobre o que a de�nição diz?  
Você precisa calcular a média de uma certa subtração que estará em módulo.
Vamos ver como isso funciona?
Você lembra que é a média, é o valor da variável do seu conjunto de dados e é o número de dados que
seu conjunto tem?
Então, agora é só calcular.
Vamos ver isso no exemplo que utilizamos.
O desvio médio absoluto das idades das pessoas que estão na sala A é:
10    10    10    10    10
Como calculamos anteriormente, , então, vamos ao desvio médio:
O desvio médio absoluto das idades das pessoas que estão na sala B é:
| |
DM =               (3)
Σ xi  −  ∣∣∣ x−
∣
∣∣
n
x
−
xi n
= 10 anosx
−
DM = = = 0 ano
|10 − 10| + |10 − 10| + |10 − 10| + |10 − 10| + |10 − 10|
5
 0 
5
20/02/2020 Ead.br
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 6/28
8    9    10    11    12
Com , vamos calcular o desvio médio:
O desvio médio absoluto das idades das pessoas que estão na sala C é:
1    1    10    18    20
Novamente com , o desvio médio:
E o desvio médio absoluto das idades das pessoas que estão na sala D é:
2    5    10    11    22
Novamente com , o cálculo do desvio médio é:
Você conseguiu observar que quanto maior a variação dos valores, maior o valor do desvio médio absoluto?
Então vamos para a próxima medida de dispersão!
Variância
Segundo Costa Neto (1977), a variância de um conjunto de dados é a média dos quadrados das diferenças
dos valores em relação à sua média.
Vamos fazer uma observação:
Sempreque seu espaço amostral for a população, você irá utilizar o sigma ao quadrado para
representar a variância. E sempre que seu espaço amostral for apenas uma porção da população, ou seja,
amostra, você utilizará um para representar a variância amostral. Isso foi convencionado, então sempre
que se deparar com o sigma , já saberá que se trata da população, e sempre que encontrar um , saberá
que se trata da amostra.
O mesmo vale para a média: vai representar a população e a média amostral.
Então, você me pergunta: mas, professora, como eu saberei o que usar?
Simples: se é você que está realizando a análise, conhece os seus dados, então saberá se é amostra ou
população.
Se você está respondendo a alguma questão, em alguma prova, a questão precisa fornecer essa informação.
Ela dirá se é população ou amostra em algum momento do texto, ou dará dados, ou pelos símbolos utilizados
você saberá do que se trata. Se falar de variância ou desvio-padrão, e apresentar um , você já saberá que se
trata de amostra, da mesma forma se der a média com .
Assim, para calcular a variância, você utilizará as seguintes fórmulas:
= 10 anosx
−
DM = = = = 1, 2ano
|8 − 10| + |9 − 10| + |10 − 10| + |11 − 10| + |12 − 10|
5
 2 + 1 + 0 + 1 + 2 
5
 6 
5
= 10 anosx
−
DM = = = = 7, 2 a
|1 − 10| + |1 − 10| + |10 − 10| + |18 − 10| + |20 − 10|
5
 9 + 9 + 0 + 8 + 10 
5
 36 
5
=  10 anosx
−
DM = = = = 5, 2 a
|2 − 10| + |5 − 10| + |10 − 10| + |11 − 10| + |22 − 10|
5
 8 + 5 + 0 + 1 + 12 
5
 26 
5
( )σ2
S2
(σ) S
μ x
−
S
x
−
20/02/2020 Ead.br
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 7/28
Variância para população:
 ou 
Variância para amostra:
~~~~ou 
Vale lembrar que:
N é o número de elementos da população;
 são as variáveis estudadas;
 é a média populacional;
 o número de elementos da amostra; e
 a média amostral.
Ainda usando o exemplo das pessoas nas salas, temos:
A variância das idades das pessoas que estão na sala A é:
\(\underset{\scriptscriptstyle-}{x}=~10 \text{anos}\]
A variância das idades das pessoas que estão na sala B é:
Com 
Já a variância das idades das pessoas que estão na sala C é:
Novamente com 
E por �m, a variância das idades das pessoas que estão na sala D é:
Novamente com 
Observe que a variância eleva os dados e a média ao expoente de grau 2, ou seja, eleva tudo ao quadrado. O
que isso signi�ca na prática? A unidade da variância é diferente da unidade utilizada nos dados e diferente da
unidade da média. Vamos a um exemplo!
Digamos que você resolve correr e anota diariamente a distância que corre, em metros. Assim, a medida de
seus dados e a média deles estão em metro ( ), um comprimento linear. No entanto, a variância está em ,
= Σσ2  1 
N
( − μ)xi
2 = {Σ − }               (4)σ2  1 
N
x2i
 (Σ )xi
2
n
= ΣS2  1 
n−1
( − )xi x
−
2
= {Σ − }             (5)S2  1 
n−1
x2i
 (Σ )xi
2
n
xi
μ
n
x
−
= = = 0S2
+ + + +(10 − 10)2 (10 − 10)2 (10 − 10)2 (10 − 10)2 (10 − 10)2
5 − 1
 0 
4
ano2
=  10anosx
−
= = = = 2S2
+ + + +(8 − 10)2 (9 − 10)2 (10 − 10)2 (11 − 10)2 (12 − 10)2
5 − 1
 4 + 1 + 0 + 1 + 4
4
 10 
4
=  10anosx
−
= = =S2
+ + + +(1 − 10)2 (1 − 10)2 (10 − 10)2 (18 − 10)2 (20 − 10)2
5 − 1
 81 + 81 + 0 + 64 + 100
4
 32
4
=  10anosx
−
= = =S2
+ + + +(2 − 10)2 (5 − 10)2 (10 − 10)2 (11 − 10)2 (22 − 10)2
5 − 1
 64 + 25 + 0 + 1 + 144
4
 234
4
m m2
20/02/2020 Ead.br
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 8/28
ou seja, é área. Então, ao analisar, você corre o risco de analisar informações em unidades diferentes.
Compreende? Por exemplo, se a unidade dos seus dados fosse , a média também estaria em , mas a
variância seria . Olhe o problema!
Para resolver isso, temos o desvio-padrão.
Desvio-Padrão
O desvio-padrão nada mais é que a raiz quadrada da variância. Como assim?
É apenas isso!
O desvio-padrão da população é igual a:
E a variância para população é:
 ou 
Assim, o desvio-padrão é:
E o desvio-padrão amostral é igual a:
A variância para amostra é:
 ou 
Assim, o desvio-padrão amostral é:
Dessa forma, a representação da dispersão dos dados em torno da média voltará a ter a mesma unidade que
a média e que os dados em si.
Ainda seguindo o nosso exemplo:
, pois 
O desvio-padrão das idades das pessoas que estão na sala B é 1,58 ano, uma vez que:
 , então 
Já o desvio-padrão das idades das pessoas que estão na sala C é 9,03 anos, já que a variância é:
, logo 
E por �m, o desvio-padrão das idades das pessoas que estão na sala D é 7,65 anos, dado que a variância foi
de:
, assim 
g g
g2
σ =             (6)σ2
−−√
= Σσ2  1 
N
( − μ)xi
2 = {Σ − }σ2  1 
N
x2i
 (Σ )xi
2
n
σ = Σ
 1 
N
( − μ)xi
2
− −−−−−−−−−−
√
S =             (7)S2
−−√
= ΣS2  1 
n−1 ( − )xi x
−
2
= {Σ − }S2  1 
n−1 x
2
i
 (Σ )xi
2
n
S = Σ
 1 
n − 1
( − )xi x
−
2− −−−−−−−−−−−−−
√
= 0S2 ano2 S = = 0ano0 
−−√
= 2, 5S2 anos2 S = = 1, 58ano2, 5 
− −−
√
= 81, 5S2 anos2 S = = 9, 03anos81, 5 
− −−−
√
= 58, 5 S2 anos2 S = = 7, 65anos58, 5
− −−−
√
20/02/2020 Ead.br
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 9/28
Você conseguiu observar que, ainda que a média seja a mesma para as idades das pessoas das quatro salas (A,
B, C e D), o desvio-padrão, ou seja, o quanto a idade dos indivíduos pode variar, muda de sala para sala.
Quanto maior a “distância” entre as idades, maior o desvio-padrão.
Caro(a) aluno(a), observe que, ou utilizamos o módulo no desvio médio absoluto, ou elevamos ao quadrado
na variância e, consequentemente, no desvio-padrão, de modo que os resultados nunca poderão ser
negativos. Pode até ser 0, mas nunca negativo. Se você calculou tudo e ao �nal encontrou um resultado
negativo, sinto informar, há alguma coisa errada no processo dos seus cálculos.
Coeficiente de variação
O coe�ciente de variação traz uma ideia de porcentagem (%) da precisão dos dados analisados. Quanto
menor o valor do coe�ciente de variação, menor será a variação existente entre os dados relativos à média,
conforme Batista e Santos (2007).
Assim, sua fórmula se dá da seguinte maneira:
Vale lembrar que:
 e 
Média e desvio padrão da idade das pessoas que estão na sala A:
A idade das pessoas que estão na sala A são: 10 10 10 10 10. Então a Média
da idade  das pessoas que estão na sala A é 10. E o desvio padrão da idade
das pessoas que estão na sala A é 0.
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
A
10 10
Pessoas
Idades
Desvio 
Padrão
Média
Idade
10 10 10
B C D E
CV = × 100            (8)
 S
x
−
S = desvio − padrão = médiax
−
20/02/2020 Ead.br
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 10/28
Seguindo o exemplo das salas:
O coe�ciente de variação das idades das pessoas que estão na sala A é:
Já o coe�ciente de variação das idades das pessoas que estão na sala B é:
Para as idades das pessoas que estão na sala C, o coe�ciente de variação é:
E por �m, para as idades das pessoas que estão na sala D, o coe�ciente de variação é:
Observe que sempre que a média tender a 0, não faz sentido calcular o coe�ciente de variação, pois, nesse
caso, o coe�ciente de variação tenderá ao in�nito. Lembra quando vimos limite em Cálculo? Então, é disso
que falamos.
CV = × 100  =  0%
 0
10
CV = × 100  =  15, 8%
 1, 58
10
CV = × 100  =  90, 3%
 9, 03
10
CV = × 100  =  76, 5%
 7, 65
10
20/02/2020 Ead.br
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 11/28
Até agora trabalhamos com a análise estatística em uma única variável de um conjunto de dados. Contudo,
existe a possibilidade de você analisar ao mesmo tempo duas ou mais variáveis de um conjunto de dados.
Nessa situação, você poderá veri�car se existe uma relação entre elas ou uma dependência.
Por exemplo, ao analisar as idades das pessoas que estão nas salas A, B, C e D, você também irá veri�carpeso
e altura dessas pessoas.
Considere que, em cada espaço amostral S, que são salas (A, B, C e D), você irá veri�car o peso (X) de cada
indivíduo e a altura (Y) de cada indivíduo. Lembre-se de que você já sabe a idade deles.
Veremos, então, como saber se existe uma relação entre duas dessas três variáveis e qual a importância
dessa relação para os seus dados. Desse modo, estudaremos a covariância, a regressão linear simples e a
correlação linear simples.
Tabela 2.1 - Idade, peso e altura das pessoas da sala A
Fonte: Elaborada pela autora.
Análise BidimensionalAnálise Bidimensional
Pessoas presentes na sala A
Idade em anos Peso em kg Altura em cm
10 25,0 129
10 25,9 130
10 27,2 131
10 30,3 129
10 31,9 130
20/02/2020 Ead.br
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 12/28
Tabela 2.2 - Idade, peso e altura das pessoas da sala B
Fonte: Elaborada pela autora.
Tabela 2.3 - Idade, peso e altura das pessoas da sala C
Fonte: Elaborada pela autora.
Tabela 2.4 - Idade, peso e altura das pessoas da sala D
Fonte: Elaborada pela autora.
Pessoas presentes na sala B
Idade em anos Peso em kg Altura em cm
8 22,4 123
9 24,0 127
10 24,7 130
11 28,5 136
12 29,7 136
Pessoas presentes na sala C
Idade em anos Peso em kg Altura em cm
1 9,2 76
1 10,5 80
10 25,5 130
18 55,2 169
20 60,0 172
Pessoas presentes na sala D
Idade em anos Peso em kg Altura em cm
2 12,2 89
5 17,1 112
10 27,5 135
11 35,0 140
22 52,1 159
20/02/2020 Ead.br
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 13/28
Covariância
Por meio da covariância, podemos medir o grau de dispersão e de associação linear de um conjunto de dados
com duas ou mais variáveis.
Onde:
 = variável x;
= variável y;
= i-ésima variável x;
= i-ésima variável y;
= média das variáveis x;
= média das variáveis y;
 = número de elementos que relacionam a variável x à y.
Seguindo os exemplos das salas A, B, C e D, vamos, inicialmente, realizar os cálculos com as salas A e B.
O primeiro passo para desenvolver os cálculos é determinar o valor da média.
Sabemos que o valor da média das idades é 10 anos, então . Calculando a média dos pesos e das
alturas dos indivíduos da sala A, tem-se que:
 quilos e 
Em seguida, subtraímos da média cada elemento da sua respectiva variável e multiplicamos pelo equivalente
da outra variável. Logo após, somamos tudo isso.
É trabalhoso, mas com calma chegamos ao resultado. O importante é entender o que está sendo feito!
Para a sala A, primeiro veremos a covariância entre peso e altura:
Com esse resultado, iremos dividir pelo número de elementos, nesse caso, indivíduos na sala A:
 , então .
Observe que, na sala A, todos têm 10 anos, logo a média também será 10. Caso você subtraia o valor de cada
elemento da média, �caria 10 - 10 = 0. Dessa forma, ao realizar esse mesmo procedimento para 
 ou , o resultado será 0, pois multiplicamos o zero das idades pelas outras
variáveis.
Que tal experimentar essa curiosidade calculando?
Vamos realizar o mesmo processo para a sala B?
Co =                 (9)vxy
 Σ  [ ( − )]( − )xi x
−
yi y
−
n
x
y
xi
yi
x
−
y
−
n
= 10x
− idade
= 28, 06y
−peso
= 129, 8centímetrosz
−altura
(129 − 129, 8) + (25, 9 − 28, 06) (130 − 129, 8)(25 − 28, 06)
+ (27, 2 − 28, 06) (131 − 129, 8) + (30, 3 − 28, 06) (129 − 129, 8) + (31, 9 − 28, 06) = −(130 − 129, 8)
Co =vpeso x altura
 −0,040 
5
Co = −0, 008vpeso x altura
Covidade x peso Covidade x altura
20/02/2020 Ead.br
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 14/28
Primeiro passo: calcular a média das variáveis.
, quilos e centímetros.
Segundo passo: subtrair da média cada elemento da sua respectiva variável e multiplicar pelo equivalente da
outra variável. Em seguida, somar tudo isso.
Vamos começar com a covariância entre idade e peso:
Agora, vamos dividir pelo número de elementos:
 , então .
Vamos realizar o mesmo procedimento para idade x altura:
, então .
E para covariância de peso x altura:
, então \(Co{{v}_{Idade~x~peso~}}= 13,87\].
Regressão linear simples
A regressão linear simples é estudada ao analisar duas variáveis que oscilam linearmente. Busca-se observar
se uma variável é dependente e a outra variável é independente. Nesse caso, você poderá estimar o quanto a
variável dependente está oscilando em função da variação da variável independente, de acordo com Batista
e Santos (2007).
Observe que se você analisar os pesos e as idades das pessoas das salas, essas duas variáveis têm uma
relação, mas a idade é independente, enquanto o peso é dependente.
= 10anosx
− idade
= 25, 85y
−peso
= 130, 4z
−altura
(22, 3 − 25, 8) + (23, 9 − 25, 8) + (24, 7 − 25, 8)(8 − 10) (9 − 10) (10 − 10)
+ (28, 5 − 25, 8) + = 19, 29(11 − 10) (12 − 10)(29, 7 − 25, 8)
Co =vIdade x peso
 19,29 
5
Co = 3, 85vIdade x peso 
(123 − 130, 4) + (127 − 130, 4) + (130 − 130, 4)(8 − 10) (9 − 10) (10 − 10)
+ (136 − 130, 4) + (136 − 130, 4) =  (11 − 10) (12 − 10) 35
Co =vIdade x peso
 35 
5
Co = 7vIdade x peso 
(123 − 130, 4) + (127 − 130, 4) + (130 − 130, 4)(22, 3 − 25, 8) (23, 9 − 25, 8) (24, 7 − 25, 8)
+ (28, 5 − 25, 8) (136 − 130, 4) + (136 − 130, 4) = 69, 38(29, 7 − 25, 8) =
Co =vIdade x peso
 69,38 
5
Figura 2.1 - Grá�co de regressão linear entre peso e idade
Fonte: Elaborada pela autora.
20/02/2020 Ead.br
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 15/28
Desse modo, tem-se a seguinte fórmula para a reta de ajuste:
Em que:
 é o coe�ciente linear;
 é o coe�ciente angular ou coe�ciente de regressão linear simples;
= i-ésima variável x.
Assim:
 ou 
Considere a parcela de ${{x}_{{}}}$relacionada à variável independente.
Observe que, ao seguirmos nosso exemplo, no caso da regressão, não fará sentido calcular entre as variáveis
peso e altura, pois ambas são variáveis dependentes. Então, realizaremos os cálculos entre idade e peso, e
entre idade e altura, pois a idade é uma variável independente.
Começaremos pela sala A. Novamente, você lembra que a média tem o mesmo valor que todas as variáveis?
Desse modo, ao utilizarmos a fórmula , nessa parcela da fórmula em que se subtrai a
variável da média, o resultado será zero, , logo o resultado geral será zero.
Mas se , isso quer dizer que não há angulação. Você lembra que é o coe�ciente angular?
Então: 
, logo , em que é o coe�ciente linear.
= +               (10)ŷ i â b̂xi
â
b̂
xi
= −                (11)â ŷ b̂ x
−
=  b̂
 Σ( − ) ( − )xi x
−
yi y
−
Σ( − )xi x
−
2
=             (12)b̂
 Σ −xiyi
 Σ Σxi yi
n
Σ −x2i
  (Σ )xi
2
n
=  b̂
 Σ( − ) ( − )xi x
−
yi y
−
Σ( − )xi x
−
2
( − )  ( − )xi x
−
yi y
−
= 0b̂ b̂
= +ŷ i â b̂xi
= + 0ŷ i â xi =ŷ i â â
Figura 2.2 - Grá�co da regressão linear peso x idade da turma A
Fonte: Elaborada pela autora.
20/02/2020 Ead.br
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 16/28
Agora, vamos para a sala B?
Primeiramente, iremos calcular a regressão para idade e peso. Lembra-se de que na covariância você já
calculou este trecho ? Utilizaremos ele para fazer o cálculo.
Temos que , então vamos descobrir o valor de .
Nesse momento, você vai elevar cada diferença ao quadrado e depois somar.
Agora, iremos calcular a reta de regressão para idade e altura pelo cálculo utilizado na covariância: 
.
Temos que .
Assim, .
Σ( − )  ( − )xi x
−
yi y
−
Σ( − )  ( − ) = 19, 29para idade × pesoxi x
−
yi y
−
 19,29
Σ( − )xi x
−
2
Σ( − )xi x
−
2
Σ = + + + + = 10( − )xi x
−
2
(8 − 10)2 (9 − 10)2 (10 − 10)2 (11 − 10)2 (12 − 10)2
Σ = 10( − )xi x
−
2
=   = 1, 92b̂
19, 29
10
Figura 2.3 - Grá�co da regressão linear peso x idade da turma B
Fonte: Elaborada pela autora.
Σ( − )  ( − ) =  35xi x
−
yi y
−
Σ = 10( − )xi x
−
2
=   = 3, 5b̂ 35
10
20/02/2020 Ead.br
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller17/28
Observe que enquanto a sala A apresentou uma reta, sem inclinação, na sala B, ao comparar idade x peso
com idade x altura, a idade x peso apresentou uma inclinação bem mais suave que a inclinação de idade x
altura.
Correlação linear simples
Na correlação linear simples, você analisará duas variáveis que oscilam linearmente, sendo que, nesse caso,
as duas são dependentes, de acordo com Batista e Santos (2007).
No caso do nosso exemplo, veremos o peso e a altura das pessoas nas salas.
Ao estudar a correlação linear, deve-se observar sempre o seu coe�ciente de correlação linear.
Figura A: Correlação linear positiva, negativa, correlação não linear e sem correlação.
Figura 2.4 - Grá�co da regressão linear altura x idade da turma B
Fonte: Elaborada pela autora.
Figura 2.5 - Correlação linear positiva
Fonte: Elaborada pela autora.
20/02/2020 Ead.br
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 18/28
Coeficiente de correlação linear
No coe�ciente de correlação linear, se você observar que à medida que uma variável aumenta, a outra
aumenta, ou à medida que uma diminui, a outra diminui, isso é sinal de que o coe�ciente de correlação linear
é positivo. Mas, caso você observe que à medida que uma variável aumenta, a outra diminui, e vice-versa, o
coe�ciente de correlação linear, nesse caso, será negativo, conforme Batista e Santos (2007).
Assim, o coe�ciente de correlação linear simples ($r$) é calculado da seguinte forma:
Figura 2.6 - Correlação linear negativa
Fonte: Elaborada pela autora.
Figura 2.7 - Correlação não linear
Fonte: Elaborada pela autora.
Figura 2.8 - Sem correlação
Fonte: Elaborada pela autora.
20/02/2020 Ead.br
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 19/28
 ou 
Onde:
= i-ésima variável x;
= i-ésima variável y;
= média das variáveis x;
= média das variáveis y;
 = número de elementos que relacionam a variável x à y.
Observe que varia sempre de -1 a 1, assim, . Ou seja, deve estar entre -1 e 1.
= -1 irá caracterizar uma correlação linear simples negativa perfeita.
= 1 irá caracterizar uma correlação linear simples positiva perfeita.
= 0 indica que não haverá correlação linear simples entre as variáveis.
E mais ainda:
Se , ou seja, está entre -1 e 0, quer dizer que à medida que uma variável aumenta, a outra
diminui, e vice-versa.
Se   , ou seja, está entre 0 e 1, quer dizer que à medida que uma variável aumenta, a outra
também aumenta; ou à medida que uma variável diminui, a outra também diminui.
Agora, vamos usar nosso exemplo para a sala A e para a sala B.
Iniciaremos pela sala A.
A fórmula para o coe�ciente de correlação é a seguinte:
Vamos separar por parcela?
Inicialmente, já calculamos as seguintes parcelas:
Falta, então, apenas esta parte da fórmula: [ ].
Como a idade é nossa variável independente, iremos calcular o coe�ciente de correlação para peso e altura.
r =
 Σ( − ) ( − )xi x
−
yi y
−
Σ Σ( − )xi x
−
2
( − )yi y
−
2
√
r =         (13)
 Σ −xiyi
 Σ Σxi yi
n
[Σ − ][Σ − ]x2
i
  (Σ )xi
2
n
y2
i
  (Σ )yi
2
n
√
xi
yi
x
−
y
−
n
r −1 ≤ r ≤ 1 r
r
r
r
−1 ≤ r ≤ 0 r
0 ≤ r ≤ 1 r
r =             (14)
 Σ( − )  ( − )xi x
−
yi y
−
Σ Σ( − )xi x
−
2
( − )yi y
−
2
− −−−−−−−−−−−−−−−−−−
√
Σ( − )( − ) = −0, 040xi x
−
yi y
−
(129 − 129, 8) + (25, 9 − 28, 06) (130 − 129, 8) + (27, 2 − 28, 06) (131 − 129, 8)(25 − 28, 06)
+ (30, 3 − 28, 06) (129 − 129, 8) + (31, 9 − 28, 06) = −0, 040(130 − 129, 8)
Σ(x − )x
−
2
Σ(y − )y
−
2
20/02/2020 Ead.br
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 20/28
Aplicando na fórmula, temos:
Agora, vamos calcular o coe�ciente de correlação para a sala B:
Falta calcular esta parte da fórmula: [ ].
Como a idade é nossa variável independente, iremos calcular o coe�ciente de correlação para peso e altura.
Aplicando na fórmula, temos:
Σ =(x − )x
−
2
(25 − 28, 06)2
+ +(25, 9 − 28, 06)2 (27, 2 − 28, 06)2
+ +(30, 3 − 28, 06)2 (31, 9 − 28, 06)2
Σ = 34, 53(x − )x
−
2
Σ + +(y − )y
−
2
=(129 − 129, 8)2 (130 − 129, 8)2 (131 − 129, 8)2
+ +(129 − 129, 8)2 (130 − 129, 8)2
Σ =  2, 8(y − )y
−
2
r = = −0, 004
  − 0, 040
34, 53 x 2, 8
− −−−−−−−−√
Σ( − )( − ) = 69, 38xi x
−
yi y
−
(123 − 130, 4) + (127 − 130, 4) + (130 − 130, 4)(22, 3 − 25, 8) (23, 9 − 25, 8) (24, 7 − 25, 8)
+ (28, 5 − 25, 8) (136 − 130, 4) + (136 − 130, 4) = 69, 38(29, 7 − 25, 8) =
Σ(x − )x
−
2
Σ(y − )y
−
2
Σ =(x − )x
−
2
(22, 35 − 25, 85)2
+ +(23, 95 − 25, 85)2 (24, 72 − 25, 85)2
+ $ + $(28, 52 − 25, 85)2 (29, 71 − 25, 85)2
Σ = 39, 16(x − )x
−
2
Σ(y − )y
−
2
=(123 − 130, 4)2
+ + +(127 − 130, 4)2 (130 − 130, 4)2 (136 − 130, 4)2
+ (136 − 130, 4)2
Σ = 129, 2(y − )y
−
2
r = = 0, 97
 69, 38
39, 16 x 129, 2
− −−−−−−−−−−
√
20/02/2020 Ead.br
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 21/28
Foi possível observar que, na sala A, com os dados apresentados com - 0,004, que a correlação entre as
variáveis é bem pequena, praticamente nula, pois o valor de está bem próximo de 0, e à medida que uma
variável cresce, a outra diminui.
Já na sala B, com os dados apresentados com 0,97, a correlação entre as variáveis é muito forte, quase
perfeita, uma vez que esta é perfeita quando é igual a 1. Pode-se observar também que a correlação é
positiva, ou seja, à medida que uma variável cresce, a outra irá crescer também, ou vice-versa.
AT = Limite superior - Limite inferior
Tabela 2.5 - Idade, peso e altura das pessoas da sala A
Fonte: Elaborada pela autora.
r
DM =
Σ xi  −  ∣∣∣ x−
∣
∣∣
n
= ΣS2
 1 
n − 1
( − )xi x
−
2
S = S2
−−√
CV = × 100
 S
x
−
Pessoas presentes na sala A
Idade em anos Peso em kg Altura em cm
10 25,0 129
10 25,9 130
10 27,2 131
10 30,3 129
10 31,9 130
20/02/2020 Ead.br
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 22/28
Tabela 2.6 - Idade, peso e altura das pessoas da sala B
Fonte: Elaborada pela autora.
Tabela 2.7 - Idade, peso e altura das pessoas da sala C
Fonte: Elaborada pela autora.
Tabela 2.8 - Idade, peso e altura das pessoas da sala D
Fonte: Elaborada pela autora.
Pessoas presentes na sala B
Idade em anos Peso em kg Altura em cm
8 22,4 123
9 24,0 127
10 24,7 130
11 28,5 136
12 29,7 136
Pessoas presentes na sala C
Idade em anos Peso em kg Altura em cm
1 9,2 76
1 10,5 80
10 25,5 130
18 55,2 169
20 60,0 172
Pessoas presentes na sala D
Idade em anos Peso em kg Altura em cm
2 12,2 89
5 17,1 112
10 27,5 135
11 35,0 140
22 52,1 159
20/02/2020 Ead.br
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 23/28
praticarVamos Praticar
1) Como primeira atividade, realize os cálculos de amplitude total, desvio médio, variância, desvio-padrão e
coe�ciente de variação para o peso das pessoas de cada sala (A, B, C e D).
Dados:
Amplitude total: A = 6,9             B = 7,36       C = 50,8         D = 39,9
Desvio médio: A = 2,43              B = 2,59       C = 20,42       D = 11,82
Variância: A = 8,63                      B = 9,63      C = 586,57      D = 249,05
Desvio-padrão: A = 2,94            B = 3,10       C = 24,21       D = 15,78
Coe�ciente de variação: A = 10,48%  B = 11,98%  C = 75,50% D=54,87%
Escreva sua resposta aqui...
praticarVamos Praticar
Para a segunda atividade, você irá realizar os cálculos de amplitude total, desvio médio, variância, desvio-padrão e
coe�ciente de variação para a altura das pessoas de cada sala (A, B, C e D).
Dados:
Amplitude total: A=2            B=13               C=96               D=70
Desvio médio: A=0,64          B=4,48            C=37,92         D=21,2
Variância: A=0,7                    B=32,3            C=2148,8       D=731,5
Desvio-padrão: A=0,83        B=5,68            C=46,35         D=27,04
Coe�ciente de variação: A=0,64%      B=4,36%      C=36,96%      D=21,29%
Escreva sua respostaaqui...
20/02/2020 Ead.br
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 24/28
praticarVamos Praticar
Na terceira atividade, você irá realizar os cálculos de covariância, regressão linear simples, coe�ciente de correlação
e, posteriormente, fará uma análise com os dados apresentados para a sala C.
Dados:
Covariância: idade 172,86, peso 333,6, altura 877,78.
Regressão linear simples: idade x peso 2,65 e idade x altura 5,11.
Coe�ciente de correlação: 0,977.
Escreva sua resposta aqui...
praticarVamos Praticar
Por �m, na quarta atividade, você irá realizar os cálculos de covariância, regressão linear simples, coe�ciente de
correlação e, posteriormente, fará uma análise com os dados apresentados para a sala D.
Dados:
Covariância: idade 95,44, peso 155,2 e altura 324,66.
Regressão linear simples: idade x peso 2,04 e idade x altura 3,31.
Coe�ciente de correlação: 0,95.
Escreva sua resposta aqui...
20/02/2020 Ead.br
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 25/28
indicações
Material Complementar
L I V R O
Estatística Básica
Sônia Vieira
Editora: Cengage Learning
ISBN: 978-85-221-2631-6
Comentário: Leia no capítulo 4 - A questão da variabilidade: o índice 4.1 -
Mínimo,máximo e amplitude, página 50 e índice 4.4 - Desvio padrão, página
58. Já no capítulo 5 - Relação entre duas variáveis, leia o índice 5.1 Correlação,
página 66 e índice 5.3 Regressão e Correlação linear simples, página 75. Neste
capítulos você poderá se aprofundar um pouco mais sobre o tema.  Caso
encontre di�culdades e precise relembrar alguns tópicos de outra unidade, o
capítulo 3 - Medidas de tendência central, da página 36 à 45 te ajudará a
relembrar. Leve em consideração que esta indicação não limita nem esgota a
sua busca por materiais que te levem ao aprofundamento do tema. Você pode
e deve buscar outras bibliogra�as para auxiliar seus estudos.
20/02/2020 Ead.br
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 26/28
conclusão
Conclusão
Nesta unidade, aprendemos sobre medidas de posição, amplitude total, desvio médio, variância, desvio-
padrão e coe�ciente de variação. Vimos como são importantes para uma análise mais aprimorada dos dados
e como sem elas os dados podem nos enganar com informações corretas, mas incompletas.
Evoluímos para a análise bidimensional e abordamos a covariância, a regressão linear simples com sua reta
de ajuste e a correlação linear simples com seu coe�ciente de correlação. Vimos quando empregar cada uma
dessas metodologias e como analisar seus resultados.
Este material não é limitador de seus estudos, dessa forma, você pode e deve pesquisar mais, buscar outras
fontes e se aprofundar no assunto. Busque, por exemplo, diariamente, em jornais ou mídias sociais,
informações que se passam por certas, tendenciando os leitores, mas que estão incompletas. Você, agora,
com esta unidade, já é capaz de identi�car e buscar uma leitura mais profunda dos dados estatísticos.
referências
Referências Bibliográ�cas
BATISTA, L. B.; SANTOS, K. B. Estatística e Bioestatística. Rio de Janeiro: Lauro Boechat Batista, 2007.
BUSSAB, W. O.; MORETTIN, P. A. Estatística Básica. São Paulo: Saraiva, 2002.
COSTA, G. G. O. Curso de estatística inferencial e probabilidade: teoria e prática. São Paulo: Atlas, 2012.
COSTA NETO, P. L. O. Estatística. São Paulo: Edgard Blücher, 1977.
20/02/2020 Ead.br
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 27/28
20/02/2020 Ead.br
https://anhembi.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 28/28