ED Daniel

•
UFLA

Mayra Motta
20/05/2018
Prévia do material em texto
Universidade Federal de Lavras
Departamento de Ciências Exatas
Prof. Daniel Furtado Ferreira
1a Aula Prática Técnicas de somatório
Notação e propriedades:
1) Variáveis e índices: o símbolo xj (leia x índice j) representa qualquer um dos n valores x1, x2,
. . ., xn assumidos por uma variável aleatória X na amostra (conjunto de dados). A letra j, usada
como índice, indica um dos possíveis valores de 1 a n, assumidos pela variável aleatória. Assim, por
exemplo, se for considerada uma amostra de tamanho n = 3 de coelhos ao abate aos noventa dias e se
X representa uma variável relativa ao peso em kg, então uma possibilidade de resultados é: 2,56, 2,43
e 2,60. Logo, x1 = 2,56, x2 = 2,43 e x3 = 2,60. Os valores da variável aleatória são representados
por letras minúscula e as variáveis aleatórias, por letras maiúscula.
2) Notação por somatório: para representarmos a soma de n variáveis aleatórias podemos utilizar o
símbolo
∑
, letra grega maiúscula sigma. Assim, x1 +x2 + . . . +xn pode ser representada por
∑n
j=1 xj ,
ou seja,
n∑
j=1
xj =x1 + x2 + · · ·+ xn.
A variação do índice j pode não ir de 1 a n, mas estar em qualquer subintervalo desses limites.
3) Algumas propriedades:
a)
n∑
j=1
axj = ax1 + ax2 + . . . + axn = a
n∑
j=1
xj
b)
n∑
j=1
xjyj = x1y1 + x2y2 + . . . + xnyn 6=
 n∑
j=1
xj
 n∑
j=1
yj

c)
n∑
j=1
(axj + byj) = a
n∑
j=1
xj + b
n∑
j=1
yj
d)
n∑
j=1
k = nk
em que a, b e k são constantes.
Exercícios propostos:
1) Sejam as amostras de tamanho n = 5 dadas por:
X = {2,7,4,3,2}
Y = {1,2,3,6,5} ,
obter:
2
a)
4∑
j=1
xj b)
5∑
j=1
yj c)
5∑
j=1
2x2j
d)
5∑
j=1
xjyj e)
5∑
j=1
(3xj + 2yj) f)
4∑
j=2
xjyj +
5∑
j=1
y2j
2) Sejam
X¯ =
n∑
j=1
Xj
n
e S2 =
1
n− 1

n∑
j=1
X2j −
 n∑
j=1
Xj
2
n

,
os estimadores da média e da variância, respectivamente, obtidos em uma amostra aleatória de
tamanho n.
Considerando o conjunto de dados X = {2, 4, 5, 6, 1, 8}, calcular a média e a variância.
3) Mostrar numericamente, a partir do conjunto X do exercício proposto número 2 e de forma algébrica,
para qualquer amostra de tamanho n, que
∑n
j=1(Xj − X¯) = 0.
4) Demonstrar que o valor de
Q =
n∑
j=1
(Xj −A)2
n− 1
representa um ponto de mínimo se o valor de A for igual a X¯. Representar em um gráfico o esboço
da função Q.
5) Criar dois conjuntos de valores de tamanho n = 5 para que seguinte igualdade se verifique:
Q =
n∑
j=1
(
Xj − X¯
)2
n− 1 = 0.
6) Desenvolver a expressão
Q =
n∑
j=1
(
Xj − X¯
)2
n− 1
considerando as propriedades de somatório e mostrar que Q = S2. A partir deste resultado e daquele
obtido no exercício 4, qual é o significado que você atribui à variância S2?
Estatística Básica - GEX112 Ferreira, D.F.
3
Resolução
1) Sejam as amostras de tamanho n = 5 dadas por:
X = {2,7,4,3,2}
Y = {1,2,3,6,5} ,
então:
a)
4∑
j=1
xj = x1 + x2 + x3 + x4 = 2 + 7 + 4 + 3 = 16;
b)
5∑
j=1
yj = y1 + . . . + y5 = 1 + 2 + . . . + 5 = 17;
c)
5∑
j=1
2x2j = 2
5∑
j=1
x2j = 2× (22 + 72 + . . . + 22) = 2× 82 = 164;
d)
5∑
j=1
xjyj = 2× 1 + 7× 2 + . . . + 2× 5 = 2 + 14 + . . . + 10 = 56;
e)
5∑
j=1
(3xj + 2yj) = 3
5∑
j=1
xj + 2
5∑
j=1
yj = 3× 18 + 2× 17 = 88; e
f)
4∑
j=2
xjyj +
5∑
j=1
y2j = 44 + (1
2 + 22 + . . . + 52) = 44 + 75 = 119.
2) Considerando o conjunto de dados X = {2, 4, 5, 6, 1, 8}, a média e a variância são:
X¯ =
n∑
j=1
Xj
n
=
2 + 4 + · · ·+ 8
6
=
26
6
= 4,3333
e
S2 =
1
n− 1

n∑
j=1
X2j −
 n∑
j=1
Xj
2
n

=
1
5
[
146− 26
2
6
]
= 6,6667.
3) Mostrar numérica e algebricamente que as somas de desvios em relação a média aritmética é nula,
qualquer que seja a amostra.
a) Numericamente
n∑
j=1
(Xj − X¯) = (2− 13/3) + (4− 13/3) + . . . + (8− 13/3) = (−7− 1 + 2 + 5− 10 + 11)/3 = 0;
Estatística Básica - GEX112 Ferreira, D.F.
4
b) algebricamente
n∑
j=1
(Xj − X¯) =
n∑
j=1
Xj −
n∑
j=1
X¯ =
n∑
j=1
Xj − nX¯
=
n∑
j=1
Xj −
�n
n∑
j=1
Xj
�n
=
n∑
j=1
Xj −
n∑
j=1
Xj = 0 C.Q.M.
4) Expandindo o somatório e derivando Q em relação a A tem-se:
Q =
1
n− 1
n∑
j=1
(Xj −A)2 = 1
n− 1
n∑
j=1
(X2j − 2AXj + A2)
=
1
n− 1
 n∑
j=1
X2j −
n∑
j=1
2AXj +
n∑
j=1
A2

=
1
n− 1
 n∑
j=1
X2j − 2A
n∑
j=1
Xj + nA
2

dQ
dA
=
1
n− 1
−2 n∑
j=1
Xj + 2nA

Igualando a derivada a zero, e resolvendo em relação a A, tem-se:
dQ
dA
=
1
n− 1
−2 n∑
j=1
Xj + 2nA
 = 0
2nA = 2
n∑
j=1
Xj
A =
n∑
j=1
Xj
n
= X¯
O ponto ótimo, obtido igualando a derivada primeira a zero, pode ser de máximo, de mínimo ou
de inflexão. Para certificar-se de que o valor de Q é um valor mínimo, quando A é igual à média
amostral, basta mostrar que a segunda derivada é positiva. A segunda derivada de Q em relação a A
é dada por:
d2Q
dAdA
=
2n
n− 1 > 0
ou seja, a segunda derivada para qualquer tamanho de amostra será positiva, ficando concluída assim
a demonstração. Veja o gráfico da função a seguir, em que Qmin = S2.
Estatística Básica - GEX112 Ferreira, D.F.
5
A
Q
X¯
Qmin
5) Para que o somatório em questão seja nulo é necessário que cada parcela seja igual a zero. Para
isso acontecer é preciso que cada valor xj seja igual a média da amostra, ou seja, xj = X¯. Assim,
concluímos que os n valores da amostra têm de ser iguais. Logo, podemos construir quaisquer amostra
de tamanho n = 5 com valores iguais, como, por exemplo, X = {1,1,1,1,1} ou Y = {5,5,5,5,5}.
6) Desenvolvendo
Q =
n∑
j=1
(
Xj − X¯
)2
n− 1 =
1
n− 1
n∑
j=1
(X2j − 2X¯Xj + X¯2)
=
1
n− 1
 n∑
j=1
X2j −
n∑
j=1
2X¯Xj +
n∑
j=1
X¯2

=
1
n− 1
 n∑
j=1
X2j − 2X¯
n∑
j=1
Xj + nX¯
2

=
1
n− 1

n∑
j=1
X2j − 2
n∑
j=1
Xj
n
n∑
j=1
Xj + n

n∑
j=1
Xj
n

2
=
1
n− 1

 n∑
j=1
Xj
2 −
2
 n∑
j=1
Xj
2
n
+
�n
 n∑
j=1
Xj
2
n�2

=
1
n− 1

n∑
j=1
X2j −
 n∑
j=1
Xj
2
n

= S2
Assim, a variância é função da soma de quadrados de desvios em relação a média e é um valor mínimo,
se for considerada outra constante no lugar da média. Se tomarmos Q como uma função de A, que
representa uma parábola, a variância representa o ponto de mínimo desta parábola, quando A = X¯.
A variância é tanto menor, próximo de zero, quanto maior for a semelhança dos dados amostrais, ou
seja, em amostras com pouca variação. Crescerá para infinito, quando a variabilidade aumentar.
Estatística Básica - GEX112 Ferreira, D.F.
Universidade Federal de Lavras
Departamento de Ciências Exatas
Prof. Daniel Furtado Ferreira
2a Aula Prática Coleta, organização e apresentação de dados
1) Os dados apresentados a seguir referem-se ao tempo que uma bateria levou para apresentar uma
falha grave, em anos, ou seja, para descarregar completamente. A amostra de tamanho n = 20 foi
obtida com objetivo de caracterizar a robustez das baterias e é dada por:
8,52 4,19 2,52 1,91 8,78 5,91 0,76 12,04 2,60 1,69
5,63 6,36 5,07 3,03 1,13 1,39 12,58 2,03 0,60 0,45
a) Agrupar os dados do tempo até a falha das baterias em uma distribuição de frequências, deter-
minando o número de classes pelo critério k =
√
n.
Dado: A = X(n)−X(1) (amplitude total), c = A/(k−1) (amplitude de casse), LI1 = X(1)−c/2,
LS1 = LI1 + c, LI2 = LS1, etc.; computar as frequências a partir dos dados originais(de
preferência dos dados elaborados, ordenados).
b) Obter o histograma (classes na abscissa e frequências na ordenada) e o polígono de frequência
(linha poligonal unindo os centros dos retângulos) em um mesmo gráfico.
c) Construir as distribuições de frequências acumuladas: utilizar os limites de classes e calcular as
frequências acumuladas abaixo e acima destes limites e construir a tabela correspondente.
d) Traçar as ogivas no mesmo plano cartesiano. As ogivas são os gráficos correspondentes às
frequências acumuladas abaixo e acima (ordenada) dos limites de classes (abscissa).
e) Qual é a porcentagem de baterias com tempo até falhar superior a 3 anos? Utilizar as ogivas
(leitura gráfica) e a interpolação algébrica na distribuição de frequência para responder a esta
pergunta. Comparar e discutir os resultados obtidos com a proporção obtida diretamente na
amostra.
f) Acima de qual valor em anos estão 50% das baterias?
g) Qual a porcentagem de baterias com tempo até falhar inferior a 8 anos?
h) Obtenha o tempo em que 20% das baterias falham antes deste valor? Determine também o
tempo em que apenas 20% das baterias falham além deste valor.
Obs. Utilize nos casos 1f, 1g e 1h a distribuição de frequência para realizar os cálculos.
2) Os dados a seguir referem-se ao número de empresas/ano que decretaram falência observadas em
n = 85 anos na cidade de Lavras, MG.
Empresas Frequências
0 36
1 19
2 16
3 7
4 4
5 2
6 1
a) Obter o gráfico da ocorrência de empresas falidas.
b) É possível, em sua opinião, encontrar uma ano em que mais de seis empresas venham a falir?
Justificar sua resposta.
c) Qual é a natureza da distribuição de frequências? (simétrica, assimétrica à direita ou à esquerda)
d) Existe diferença entre a variável apresentada neste exercício e a do exercício 1? Se afirmativo ,
qual é a diferença?
2
Resolução
1) Antes de realizar-se qualquer análise, ordena-se o conjunto de dados, obtendo:
0,45 0,60 0,76 1,13 1,39 1,69 1,91 2,03 2,52 2,60
3,03 4,19 5,07 5,63 5,91 6,36 8,52 8,78 12,04 12,58
a) Para agrupar os dados deve-se obter:
O número de classe é dado por k =
√
n =
√
20 ≈ 4 e amplitude total por A = x(20) − x(1) =
12,58−0,45 = 12,13. Assim, a amplitude de classe é dada por c = A/(k−1) = 12,13/3 ≈ 4,04 e o
limite inferior da primeira classe por LI1 = x(1)−c/2 = 0,45−4,04/2 = −1,57. Os demais limites
de classe são obtidos somando-se c = 4,04 aos limites anteriormente obtidos. A distribuição de
frequências obtida desta forma é:
Classes dos tempos X¯i Fi Fri Fpi(%)
−1,57 ` 2,47 0,45 8 0,40 40
2,47 ` 6,51 4,49 8 0,40 40
6,51 ` 10,55 8,53 2 0,10 10
10,55 ` 14,59 12,58 2 0,10 10
b) O histograma e o polígono de frequências foram plotados em um mesmo gráfico, obtendo:
x
Fi
−3,59 0,45 4,49 8,53 12,58 16,62
2
8
0
c) A distribuição de frequência acumuladas abaixo de e acima de é
Limites FC(X < Xi) FC(X ≥ Xi)
−1,57 0 20
2,47 8 12
6,51 16 4
10,55 18 2
14,59 20 0
d) As ogivas são:
Estatística Básica - GEX112 Ferreira, D.F.
3
x
Fc
−1,57 2,47 6,51 10,55 14,59
2
4
6
8
10
12
14
16
18
20
0
Fc ↓
Fc ↑
e) Acima de 3 anos, pela ogiva, estão aproximadamente 10,5 baterias. Se 20 baterias correspondem
a 100%, então 10,5 correspondem a 10,5× 100/20% = 52,5%.
Utilizando a interpolação na distribuição de frequências, tem-se: As duas últimas classes possuem
tempos de falhas superiores a 3. Se as suas frequências forem somadas, têm-se 4 baterias,
certamente com tempo de falha superior a 3 anos. Assim, tem-se a segunda classe que possui
8 baterias com valores entre 2,47 e 6,51. É necessário identificar quantas das 8 são superiores
a 3 anos, ou seja, quantas possuem tempo de falha entre 3 e 6,51. Para isso faz-se a suposição
que a distribuição dos dados em cada classe é uniforme e estima-se a frequência de baterias
que superam o tempo de 3 anos na classe em questão. A variação na classe toda é de 4,04 e
corresponde a uma frequência de 8 baterias. A variação de 3 a 6,51, que corresponde a variação
de tempo de falhas das baterias que possuem valores superiores a 3 anos, é 6,51 − 3 = 3,51.
Assim,
Variação Frequências
4,04 8
3,51 x
Logo, x = (8 × 3,51)/4,04 = 6,95. Portanto, têm-se 6,95 + 4 = 10,95 baterias com tempo de
falha superior a 3 anos, o que corresponde a 10,95× 100/20% = 54,75%.
Finalmente, pode-se obter a contagem direta na amostra original. O número de baterias com
tempo de falha superior a 3 anos é 10, correspondendo a 10× 100/20% = 50,0%.
Os três métodos apresentaram resultados parecidos. A contagem direta na amostra é a mais
precisa, mas pode-se observar que a utilização da tabela de frequências e o gráfico das ogivas são,
relativamente, eficientes, pois a diferença em pontos percentuais não ultrapassou 5%. É natural
que, ao se simplificar a informação por meio de tabelas e gráficos, haja uma perda de precisão,
mas espera-se que ainda seja confiável utilizar os dados sumariados para extrair informações
úteis a respeito do que se está estudando.
f) A percentagem de 50% corresponde a 10 baterias. Se for utilizado o seguinte raciocínio: acima
de 10,55 estão apenas 2 baterias, acima de 6,51, estão 4 baterias, as duas da classe e as duas da
classe posterior, e acima de 2,47 estão 12 baterias, as 8 da classe e as 4 das classes posteriores.
Assim, pode-se concluir que o tempo de falha que deixa 10 baterias acima dele está entre 2,47 e
6,51. Se este número for denominado de y, concluí-se que entre y e 6,51 tem-se 6 baterias, pois
acima de y, sem limite superior, há 10 baterias e acima de 6,51 há 4. Logo, basta realizar uma
regra de três simples. Se a variação entre y e 6,51 for denominada de x, o valor de y poderá ser
calculado por y = 6,51 − x. Entre 2,47 e 6,51 há uma variação de 4,04 (amplitude de classe) e
corresponde a 8 baterias e entre y e 6,51 há uma variação de x, correspondendo a 6 baterias.
Logo,
Variação Frequências
4,04 8
x 6
Estatística Básica - GEX112 Ferreira, D.F.
4
Logo, x = (6× 4,04)/8 = 3,03. Portanto, têm-se y = 6,51− 3,03 = 3,48 anos. Portanto 50% das
baterias possuem tempo de falha superior a 3,48 anos.
g) A porcentagem de baterias com tempo de falha inferior a 8 anos pode ser computada da seguinte
forma. O valor 8 anos pertence a terceira classe e todas as baterias das duas primeiras classes,
16, possuem tempos de falha inferiores a 8. É necessário determinar na terceira classe, quantas
das duas baterias possuem tempos de falhas inferiores a 8 anos. Assim, realiza-se a seguinte
regra de três:
Variação Frequências
4,04 2
8− 6,51 = 1,49 x
Logo, x = (2×1,49)/4,04 = 0,74 baterias possuem tempo de falha entre 6,51 e 8 anos. Portanto,
tem-se 16 + 0,74 = 16,74 baterias com tempo de falha inferior a 8 anos, totalizando 100 ×
16,74/20 = 83,7% das baterias.
h) Para se determinar tempo de falha que deixa 20% das baterias, 4, abaixo dele, tem-se que aplicar
regras de três semelhantes às anteriores. Verifica-se que abaixo de 2,47 anos tem-se 8 baterias,
indicando que o tempo de falha almejado está na primeira classe. Assim,
Variação Frequências
4,04 8
x 4
Logo, x = (4×4,04)/8 = 2,02 representa a variação em tempo de falha das baterias entre −1,57 e
y anos. Portanto, tem-se 20% das baterias com tempo de falha inferior a y = −1,57+2,02 = 0,45
anos.
Para se determinar tempo de falha que deixa 20% das baterias, 4, acima dele, verifica-se que
além dos 6,51 anos existem 4 baterias, indicando que o tempo de falha almejado é exatamente
este limite. Assim, tem-se que 20% das baterias possuem tempo de falha superior a 6,51 anos.
2) A variável número de empresas falidas por ano foi analisada da seguinte forma:
a) O gráfico da ocorrência de empresas falidas/ano é dado por:
x
Fi
0 1 2 3 4 5 6
0
36
19
16
7
4
2
b) É possível encontrar tal ano, mesmo em uma região (município) que tem baixa incidência de
falências deempresas como essa. Para isso é necessário apenas aumentar o tamanho da amos-
tra, pois anos com tal número de falência, pelo que indica os dados e o gráfico anterior, são
potencialmente pouco prováveis na população amostrada.
Estatística Básica - GEX112 Ferreira, D.F.
5
c) A natureza da distribuição é assimétrica à direita.
d) Sim, a variável do exercício 1 é quantitativa contínua e a variável do exercício atual é quantitativa
discreta.
Estatística Básica - GEX112 Ferreira, D.F.
Universidade Federal de Lavras
Departamento de Ciências Exatas
Prof. Daniel Furtado Ferreira
3a Aula Prática Medidas de Posição
1) Os dados apresentados a seguir referem-se ao tempo que um determinado computador levou para
apresentar a primeira falha grave, em anos, obtidos em uma amostra de n = 30 computadores
realizada na região de Lavras, MG. Os resultados do tempo de falhas em anos são dados por:
8,13 8,23 8,60 8,80 8,97 9,05 9,12 9,30 9,35 9,78
9,80 9,86 9,90 9,95 10,00 10,11 10,13 10,15 10,16 10,23
10,31 10,33 10,40 10,46 10,50 11,14 11,29 11,46 12,05 12,14
a) Obter a média aritmética X¯.
b) Calcular a mediana md.
c) Se o tempo de falha de cada computador for multiplicada pela constante 0,27, qual será o valor
médio amostral da variável transformada?
d) Agrupar os dados em uma tabela de distribuição de frequências e estimar a média, a mediana e
a moda.
2) Os dados a seguir referem-se ao número de empresas falidas por ano observadas em uma amostra
de n = 85 anos obtida em Lavras, MG.
Empresas falidas Frequências
0 36
1 19
2 16
3 7
4 4
5 2
6 1
Determinar:
a) A média.
b) A mediana e a moda.
c) Qual dessas medidas você considera melhor para representar o número de empresas falidas/ano?
Por quê?
2
Resolução
1) As medidas de posição e as demais quantidades solicitadas a respeito dos dados dos tempos de
falhas dos computadores são:
a) A média aritmética é dada por:
X¯ =
n∑
i=1
xi
n
=
x1 + x2 . . . + x30
30
=
8,13 + 8,23 + . . . + 12,14
30
=
299,7
30
= 9,99 anos
b) Como n é par, a mediana é dada por:
md =
x(n
2
) + x(n+2
2
)
2
=
x( 30
2
) + x( 32
2
)
2
=
x(15) + x(16)
2
=
10,00 + 10,11
2
= 10,0550
c) Utilizando as propriedades da média, a nova média X¯∗ é dada por:
X¯∗ =kX¯ = 0,27× 9,99 = 2,6973
=2,70
d) Calcular as medidas de posição: média, mediana e moda.
i) Para agrupar os dados deve-se obter:
O número de classe é dado por k =
√
n =
√
30 ≈ 5 e amplitude total por A = x(30)−x(1) =
12,14−8,13 = 4,01. Assim, a amplitude de classe é dada por c = A/(k−1) = 4,01/4 ≈ 1,00
e o limite inferior da primeira classe por LI1 = x(1) − c/2 = 8,13 − 1,00/2 = 7,63. Os
demais limites de classe são obtidos somando-se c = 1,00 aos limites anteriormente obtidos.
A distribuição de frequências obtida desta forma é:
Classes de tempo X¯i Fi Fri Fpi(%)
7,63 ` 8,63 8,13 3 0,10 10,00
8,63 ` 9,63 9,13 6 0,20 20,00
9,63 ` 10,63 10,13 16 0,53 53,33
10,63 ` 11,63 11,13 3 0,10 10,00
11,63 ` 12,63 12,13 2 0,07 6,67
ii) A média aritmética é dada por:
X¯ =
k∑
i=1
FiX¯i
n
=
8,13× 3 + 9,13× 9 + 10,13× 16 + 11,13× 3 + 12,13× 2
30
=
298,9
30
=9,9633
A diferença encontrada para a média dos dados não agrupados pode ser atribuída ao agru-
pamento. Toda forma de representar os dados de uma maneira mais simplificada conduz a
algum tipo de perda de precisão. Mas o que deve ficar claro é que apesar de menos precisa,
a estimativa obtida a partir dos dados agrupados é uma “estimativa confiável” da média
Estatística Básica - GEX112 Ferreira, D.F.
3
populacional, tanto quanto a estimativa dos dados originais. A perda de precisão é, em
geral, pequena e pode ser considerada desprezível.
iii) A mediana é obtida da seguinte maneira. A classe mediana é aquela que contém a posição
número n/2 = 30/2 = 15. Portanto, a classe mediana é a terceira, pois as frequências
acumuladas das duas primeiras classes somam apenas 9, que é inferior a 15. Logo,
md =LImd +
n
2 − FA
Fmd
cmd = 9,63 +
15− 9
16
× 1,00
=10,0050
A mesma observação feita para a diferença das estimativas da média vale para a mediana.
iv) Para obter a moda, é necessário determinar a classe de maior frequência, ou seja, a classe
modal. A classe modal neste exercício é a terceira. A diferença das frequências da classe
modal e classe anterior é ∆1 = 16− 6 = 10 e a diferença das frequências da classe modal e
classe posterior é ∆2 = 16− 3 = 13. Assim, tem-se
mo =LImo +
∆1
∆1 + ∆2
cmo = 9,63 +
10
10 + 13
× 1,00
=10,0648.
As três medidas, média, mediana e moda, estão muito próximas e isso é um indicativo que
a distribuição dos dados deve ser aproximadamente simétrica.
2) Para a variável número de empresas falidas por ano tem-se:
a) A média aritmética:
X¯ =
n∑
i=1
xi
n
=
x1 + x2 . . . + x85
85
=
0 + 0 + . . . + 5 + 6
85
=
0× 36 + 1× 19 + . . . + 6× 1
85
=
104
85
=1,2235 empresas falidas/ano
b) Como n = 85 é ímpar, a mediana é obtida por
md =x(n+1
2
) = x( 86
2
) = x(43)
= 1,
pois da posição 37 até a posição 45, na amostra ordenada, está o valor 1.
A moda é o valor mais frequente, pois os dados são quantitativos discretos. Assim, a moda é
dada por mo = 0, que é o valor que repete mais vezes, ou seja, possui frequência 36 que é a
maior de todas.
c) A distribuição é assimétrica à direita, portanto, a média não é uma boa medida para representar
estes dados, uma vez que é influenciada por valores extremos. Assim, pode-se utilizar tanto a
mediana, quanto a moda para isso.
Estatística Básica - GEX112 Ferreira, D.F.
Universidade Federal de Lavras
Departamento de Ciências Exatas
Prof. Daniel Furtado Ferreira
4a Aula Prática Medidas de Dispersão
1) Os dados apresentados a seguir referem-se ao levantamento dos intervalos de parto em meses para
uma amostra em n = 20 produtores rurais atendidos pelo plano “Panela Cheia” (Roesler, 1997),
realizado na região oeste do Paraná, no município de Marechal Cândido Rondon, em 1992. Os
resultados dos intervalos entre partos em meses são dados por:
11,80 11,90 12,00 12,30 12,80 12,99 13,10 13,50 13,80 14,10
14,55 14,65 14,70 15,00 15,10 15,20 15,50 15,80 15,90 15,96
a) Obter a amplitude total (A). Qual é o seu significado e suas limitações?
b) Obter a variância S2 e o desvio padrão S.
c) Determinar o coeficiente de variação CV . Qual é seu significado? Qual é a principal diferença
entre o desvio padrão e de variância?
d) Erro padrão da média. A média do intervalo entre parto foi calculada com alta ou baixa precisão?
e) Se você fosse solicitado a apresentar duas medidas (estatísticas) para sintetizar os dados, quais
você recomendaria?
f) Se cada dado for dividido por 12, para se obter o intervalo entre partos em anos, quais serão os
novos valores da amplitude, variância, desvio padrão, CV e erro padrão da média?
2) Agrupar os dados do intervalo entre partos em classes (distribuição de frequências), resolver e
responder as questões apresentadas a seguir.
(a) Determinar a média, a mediana e a moda.
(b) Calcular a amplitude, variância, desvio padrão, CV , erro padrão da média e CP .
(c) Após o programa Panela Cheia o intervalo de partos apresentou média de 13,85 e desvio padrão
de 2,00 meses. Qual é a situação que apresentou maior variabilidade, anterior ou posterior ao
Plano Governamental? Em qual caso a média foi calculada com maior precisão? Justifique
sua resposta com os cálculos apropriados.
3) Os dados a seguir referem-se ao número empresas falidas/ano observadas em n = 85 anos. A
amostra foi obtida em Lavras, MG.
Empresas falidas Frequências
0 36
1 19
2 16
3 7
4 4
5 2
6 1
Determinar:
a) Calcular: a amplitude, variância, desvio padrão e o erro padrão da média.
b) Determinar: CV e CP .
c) Se os dados forem multiplicados por k = 10, quais são osnovos valores de todas estas medidas
de dispersão?
2
Resolução
1) As medidas de dispersão e as demais quantidades solicitadas a respeito dos dados dos intervalos de
partos do município de Marechal Cândido Rondon são:
a) A amplitude é dada por:
A =x(n) − x(1) = 15,96− 11,80 = 4,16 meses.
A amplitude total representa a variação entre o menor e o maior valor, sendo simples de calcular
e interpretar. Possui a limitação de tender a aumentar com o aumento da amostra, pois quanto
maior a amostra maior a chance de amostrar valores extremos da população que ocorrem com
baixa frequência. Também é influenciada por valores extremos, os outliers, pois envolve apenas
o valor mínimo e máximo da amostra. Da mesma forma, por considerar apenas os dois valores
extremos da amostra, pode não retratar a real variabilidade do conjunto de dados. Veja o
exemplo: 2, 4, 4, 4, 4, 4, 4, 10. A amplitude total é igual a 8, mas os dados intermediários da
amostra não apresentam variabilidade.
b) A variância e o desvio padrão são:
S2 =
1
19
[
(11,802 + . . . + 15,962)− (11,80 + . . . + 15,96)
2
20
]
=
1
19
[
3975,717− 280,65
2
20
]
= 1,973451 mes2
e S =
√
1,973451 = 1,404796 mes.
c) O coeficiente de variação CV é dado por:
CV =
1,404796
14,0325
× 100%
=10,01102%.
O coeficiente de variação expressa a variabilidade da amostra em porcentagem da média, sendo
uma medida adimensional que não depende da grandeza dos dados. Já a variância e o desvio
padrão, são medidas de variabilidade absoluta dos dados em torno da média. A diferença entre
as duas medidas é que a variância é uma grandeza que está na unidade dos dados ao quadrado
(meses2) e o desvio padrão, na mesma unidade dos dados, sendo mais fácil de interpretar.
d) O erro padrão da média é dado por:
SX¯ =
S√
n
=
1,404796√
20
= 0,3141219.
Para responder a questão formulada, é necessário obter o coeficiente de precisão por
CP =
SX¯
X¯
× 100% = 0,3141219
14,0325
× 100% = 2,238531%.
Como o erro padrão representou apenas 2,24% do valor médio, concluí-se que a média popula-
cional foi estimada com alta precisão, pois o erro relativo (CP ) foi muito pequeno.
e) Para representar um conjunto de dados com duas medidas descritivas, deve-se utilizar uma
medida de posição e outra de dispersão. Se a amostra possuir uma distribuição simétrica ou com
Estatística Básica - GEX112 Ferreira, D.F.
3
pequena assimetria apenas, deve-se utilizar a média como medida de posição. Se a distribuição
for assimétrica, as medidas de posição robustas, como mediana e moda, devem ser preferidas,
pois são pouco influenciadas por valores extremos. Como medida de dispersão, podemos utilizar
ou a variância, ou o desvio padrão ou o coeficiente de variação, se o interesse for retratar a
variabilidade entre os elementos da amostra em relação a sua média. Se por outro lado, o
interesse for na precisão da estimativa da média populacional, ou o erro padrão ou o CP devem
ser utilizados. A escolha entre uma medida absoluta e relativa fica a critério do pesquisador,
pois podemos facilmente migrar de uma para outra.
f) As novas medidas de variabilidade após a divisão dos dados originais pela constante k = 12 são:
i) A nova amplitude total é:
A∗ =
A
k
=
4,16
12
= 0,3466667 ano.
ii) A nova variância é:
S2∗ =
S2
k2
=
1,973451
122
= 0,01370452 ano2.
iii) O novo desvio padrão é:
S∗ =
S
k
=
1,404796
12
= 0,1170663 ano.
iv) O novo CV é:
CV ∗ =
S∗
X¯∗
× 100% = S/k
X¯/k
× 100% = CV
=10,01102%.
Isto indica que a variabilidade relativa não se altera, com a transformação de unidade, mas
as variabilidades absolutas são alteradas.
v) O novo erro padrão da média e o novo CP são:
S∗¯X =
SX¯
k
=
0,3141219
12
= 0,02617682
e
CP ∗ =CP = 2,238531%.
2) Para agrupar os dados deve-se obter:
O número de classe é dado por k =
√
n =
√
20 ≈ 4 e amplitude total por A = X(20) − X(1) =
15,96 − 11,80 = 4,16. Assim, a amplitude de classe é dada por c = A/(k − 1) = 4,16/3 ≈ 1,39
e o limite inferior da primeira classe por LI1 = x(1) − c/2 = 11,80 − 1,39/2 = 11,11. Os demais
limites de classe são obtidos somando-se c = 1,39 aos limites anteriormente obtidos. A distribuição
de frequências é:
Classes dos tempos X¯i Fi Fri Fpi(%)
11,11 ` 12,50 11,81 4 0,20 20
12,50 ` 13,89 13,20 5 0,25 25
13,89 ` 15,28 14,59 7 0,35 35
15,28 ` 16,67 15,98 4 0,20 20
a) A média aritmética é dada por:
Estatística Básica - GEX112 Ferreira, D.F.
4
X¯ =
k∑
i=1
FiX¯i
n
=
11,81× 4 + 13,20× 5 + 14,59× 7 + 15,98× 4
20
=
279,29
20
=13,9645 meses.
A diferença encontrada para a média dos dados não agrupados (14,0325) pode ser atribuída ao
agrupamento. Toda forma de representar os dados de uma maneira mais simplificada conduz a
algum tipo de perda de precisão. Ms o que deve ficar claro é que apesar de menos precisa, a
estimativa obtida a partir dos dados agrupados é uma “estimativa confiável” da média popula-
cional, tanto quanto a estimativa dos dados originais. A perda de precisão é, em geral, pequena
e pode ser considerada desprezível.
A mediana é obtida da seguinte maneira. A classe mediana é aquela que contém a posição número
n/2 = 20/2 = 10. Portanto, a classe mediana é a terceira, pois as frequências acumuladas das
duas primeiras classes somam apenas 9, que é inferior a 10. Logo,
md =LImd +
n
2 − FA
Fmd
cmd = 13,89 +
10− 9
7
× 1,39
=14,08857 meses.
Para obter a moda, é necessário determinar a classe de maior frequência, ou seja, a classe modal.
A classe modal neste exercício é a terceira. A diferença das frequências da classe modal e classe
anterior é ∆1 = 7 − 5 = 2 e a diferença das frequências da classe modal e classe posterior é
∆2 = 7− 4 = 3. Assim, tem-se
mo =LImo +
∆1
∆1 + ∆2
cmo = 13,89 +
2
2 + 3
× 1,39
=14,446 meses.
As três medidas, média, mediana e moda, estão muito próximas e isso é um indicativo que a
distribuição dos dados deve ser aproximadamente simétrica.
b) As medidas de dispersão para os dados agrupados são dadas na sequência. A amplitude total é
dada por
A =X¯k − X¯1 = 15,98− 11,81 = 4,17 meses,
a variância, por
S2 =
1
n− 1

k∑
i=1
X¯2i Fi −
(
k∑
i=1
X¯iFi
)2
n

=
1
19
[
11,812 × 4 + 13,202 × 5 + 14,592 × 7 + 15,982 × 4−
− (11,81× 4 + 13,20× 5 + 14,59× 7 + 15,98× 4)
2
20
]
=
1
19
(
3940,623− 279,29
2
20
)
=2,130394 meses2,
Estatística Básica - GEX112 Ferreira, D.F.
5
o desvio padrão, por S =
√
2,130394 = 1,459587 meses, o CV , por
CV =
1,459587
13,9645
× 100% = 10,45213%,
o erro padrão da média,
SX¯ =
S√
n
=
1,459587√
20
= 0,3263736 mes,
e o CP , por
CP =
SX¯
X¯
× 100% = 0,3263736
13,9645
× 100% = 2,337166%.
c) Para responder estas questões é necessário determinar o CV e o CP , antes e após o plano panela
cheia. Na tabela seguinte foram resumidas as informações necessárias.
Medida de variabilidade Antes do plano Após o plano
CV 10,01% 14,44%
CP 2,24% 3,23%
Como o CV do pós plano é maior do que o CV pré plano, há uma maior variabilidade dos
intervalos de parto após o plano panela cheia ter sido implementado. Da mesma forma, houve
uma menor precisão na estimativa da média populacional na situação pós plano, pois o erro
padrão expresso em porcentagem da média (CP ) foi maior do que na situação pré plano.
3) Para a variável número de empresas falidas por ano tem-se:
a) As medidas de dispersão para este conjunto de dados são apresentadas na sequência. A amplitude
total é
A =x(n) − x(1) = x(85) − x(1) = 6− 0 = 6 empresas falidas/ano.
A variância é
S2 =
1
n− 1

k∑
i=1
x2iFi −
(
k∑
i=1
xiFi
)2
n

=
1
84
[
02 × 36 + 12 × 19 + . . . + 62 × 1− (0× 36 + 1× 19 + . . . + 6× 1)
2
85
]=
1
84
(
296− 104
2
85
)
=2,008964 (empresas falidas/ano)2,
em que k é o número de categorias da variável, 7 no caso; o desvio padrão é S =
√
2,008964 =
1,417379 empresa falida/ano e o erro padrão da média
SX¯ =
S√
n
=
1,417379√
85
= 0,1537364 empresa falida/ano.
Estatística Básica - GEX112 Ferreira, D.F.
6
b) O CV e o CP são
CV =
S
X¯
× 100% = 1,417379
1,223529
× 100%
=115,8435%
e
CP =
SX¯
X¯
× 100% = 0,1537364
1,223529
× 100%
=12,56499%,
respectivamente. Estes valores indicam que há uma grande variabilidade dos dados em torno
da média e que a precisão da estimativa da média populacional não é muito alta, embora seja
boa. Convém salientar que, tanto para o CV quanto para o CP , o pesquisador deve buscar na
literatura experimentos semelhantes ao seu, ou seja, com as mesmas características utilizadas e
com a mesma variável, entre outros fatores, para fazer uma comparação da variabilidade e da
precisão adequadamente.
c) Utilizando a constante de multiplicação k = 10, tem-se:
A∗ =kA = 10× 6 = 60, S2∗ =k2S2 = 100× 2,008964 = 200,8964,
S∗ =kS = 10× 1,417379 = 14,17379, S∗¯X =kSX¯ = 10× 0,1537364 = 1,537364,
CV ∗ =CV = 115,8435% e CP ∗ =CP = 12,56499%.
Estatística Básica - GEX112 Ferreira, D.F.