Buscar

Teorica_Medidas_posicao_dispersao

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 3, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 6, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes
Você viu 9, do total de 12 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você também pode ser Premium ajudando estudantes

Prévia do material em texto

1
UNIVERSIDADE FEDERAL DE LAVRAS
DEPARTAMENTO DE ESTATÍSTICA
Disciplina: GES104 – Estatística aplicada à Engenharia
Docente responsável: Camilla Marques Barroso
MEDIDAS DE POSIÇÃO E DISPERSÃO
1 Estatística Descritiva
Nessa seção veremos que podemos usar métodos numéricos para resumir dados. Discutiremos algu-
mas medidas de posição (média, mediana, quantis e moda) e medidas de dispersão (variância, desvio padrão,
amplitude, coeficiente de variação e erro padrão da média).
2 Medidas de posição
Em geral, é útil descrever numericamente as características dos dados. Ao observar que um conjunto
de dados se concentra nas proximidades de alguns valores, podemos usar esses valores para representar todos
os dados. São denominadas medidas de posição ou medidas de tendência central. Entre os vários tipos
destacam-se a média, a mediana, quantis e a moda.
2.1 Média
Definição 1. Se as n observações em uma amostra forem denotadas por x1, x2, ..., xn, então a média da
amostra, denotada por x̄, será
x̄ =
x1 + x2 + ...+ xn
n
=
∑n
i=1 xi
n
Exemplo 1. Suponha que um engenheiro esteja projetando um conector de náilon para ser usado em uma
aplicação automotiva. Para isso, oito unidades do protótipo são produzidas e suas forças de remoção são
medidas resultando nos seguintes dados (em libras): x1 = 12, 6;x2 = 12, 9;x3 = 13, 4;x4 = 12, 3;x5 =
13, 6;x6 = 13, 5;x7 = 12, 6;x8 = 13, 1. A média da amostra é:
x̄ =
x1 + x2 + ...+ x8
8
=
12, 6 + 12, 9 + ...+ 13, 1
8
=
104
8
= 13, 0
Se os dados da amostra, considerando variáveis aleatórias discretas, estiverem agrupados em uma tabela
de distribuição de frequências podemos encontrar a média da seguinte forma
x̄ =
∑k
i=1 fiXi
n
em que k é o número de classes, fi é a frequência absoluta da classe i, Xi é o elemento da classe i e n é a soma
das frequências.
Exemplo 2. O número de ovos danificados por dúzia e as frequências obtidas em uma inspeção feita em 30
embalagens de uma dúzia cada estão representados na Tabela 2.1.
2
Número de ovos quebrados Frequências (fi)
0 13
1 9
2 3
3 3
4 1
5 1
Tabela 2.1 – Número de ovos danificados por dúzia e frequências obtidas em uma inspeção feita em 30 emba-
lagens de uma dúzia cada
A média é dada por
x̄ =
0× 13 + 1× 9 + 2× 3 + 3× 3 + 4× 1 + 5× 1
30
= 1, 1 ovos
que nada mais é que a média ponderada dos dados, em que as frequências são os pesos.
Para dados quantitativos contínuos agrupados em uma Tabela de distribuição de frequências (TDF), a
média deve ser obtida ponderando-se o valor médio da classe (X̄i) pela sua respectiva frequência. A ideia é
considerar que todas as observações contidas num intervalo de classe são iguais ao ponto médio da classe. Essa
hipótese é conhecida como Hipótese Tabular Básica.
A média amostral para esse caso é dada por:
x̄ =
∑k
i=1 fiX̄i
n
em que em que k é o número de classes, fi é a frequência absoluta da classe i, n é a soma das frequências
absolutas e X̄i é o ponto médio da classe i calculado como a média dos extremos (limite inferior e limite
superior) do intervalo.
Exemplo 3. A Tabela 2.2 apresenta a distribuição de frequências das viscosidades em alta temperatura de 27
amostras.
Viscosidade fa fr fp (%)
[48,05;52,55) 7 0,26 26
[52,55;57,05) 7 0,26 26
[57,05;61,55) 7 0,26 26
[61,55;66,05) 5 0,18 18
[66,05;70,55) 1 0,04 4
Total 27 1,00 100
Tabela 2.2 – Distribuição de frequências das viscosidades em alta temperatura de 27 amostras.
Para encontrar a média vamos criar uma coluna auxiliar à direita com os pontos médios, X̄i, de cada
classe. Portanto,
Viscosidade fa fr fp (%) X̄i
[48,05;52,55) 7 0,26 26 50.3
[52,55;57,05) 7 0,26 26 54.8
[57,05;61,55) 7 0,26 26 59.3
[61,55;66,05) 5 0,18 18 63.8
[66,05;70,55) 1 0,04 4 68.3
Total 27 1,00 100
Tabela 2.3 – Distribuição de frequências das viscosidades em alta temperatura de 27 amostras.
3
Veja que X̄1 =
48.05 + 52.55
2
e assim por diante encontramos os pontos médios das classes.
A média é então dada por
x̄ =
∑k
i=1 fiX̄i
n
=
7× 50.3 + 7× 54.8 + 7× 59.3 + 5× 63.8 + 1× 68.3
27
' 56.97
A média da amostra é o valor médio de todas as observações do conjunto de dados. Em geral, esses
dados representam uma amostra de observações que foram selecionadas a partir de alguma população maior
de observações.
Pensando agora em uma população finita com N valores igualmente prováveis, podemos dizer que a
média da população é o valor médio de todas as observações da população, denotada por µ, e representada por
µ =
∑N
i=1 xi
N
Propriedades da média
i) A soma dos desvios em relação à média é igual a zero para qualquer amostra.
ii) A soma ou subtração de uma constante (k) aos dados altera a média de tal forma que a nova média
fica adicionada ou subtraída pela constante.
iii) A multiplicação dos dados ou divisão por uma constante (k) aos dados altera a média de tal forma
que a nova média fica multiplicada ou dividida pela constante.
iv) A média é influenciada por valores extremos.
v) possui a mesma unidade de cada observação.
Figura 2.1 – Esquema representando população e amostra com seus respectivos símbolos para representação da
média.
2.2 Mediana
A mediana é definida como o valor central em um conjunto de dados, ou seja, metade dos dados está
abaixo da mediana e metade está acima da mediana. Aqui é importante que os dados estejam ordenados em
forma crescente ou decrescente.
Definição 2. A mediana, denotada por md, é definida como o valor central em um conjunto de dados ordenados
(de forma crescente ou decrescente). Assim,
md =

X(n+12 )
n ı́mpar
X(n2 )
+X(n+22 )
2
n par
4
Exemplo 4. Considere o seguinte conjunto de dados
X = 1, 3, 3, 5, 7, 9, 11
Aqui os dados já foram apresentados em forma ordenada, crescente. A mediana é o valor central dado
por md = 5. Assim, temos três valores à esquerda de 5 e três valores à direita.
Figura 2.2 – Esquema representando a posição da mediana em um conjunto de dados com número ímpar de
elementos.
Para grandes conjuntos de dados podemos usar a fórmula apresentada na Definição 2. Para ilustrar
vamos usá-la no Exemplo 4 que apresentamos anteriormente.
Como temos um conjunto de dados com n = 7 elementos, n é ímpar, então para o cálculo da mediana
usamos:
md = X(n+12 )
= X( 7+12 )
= X(4) = 5
em que X(4) representa o elemento da posição 4 (quando ordenados) do conjunto X .
Exemplo 5. Considere outro conjunto de dados dado por
X = 1, 3, 3, 5, 7, 9, 11, 15
Agora nosso conjunto de dados X possui n = 8 elementos, então n é par, logo a mediana é calculada
usando a seguinte expressão:
md =
X(n2 )
+X(n+22 )
2
=
X( 82)
+X( 8+22 )
2
=
X(4) +X(5)
2
=
5 + 7
2
= 6
Figura 2.3 – Esquema representando a mediana em um conjunto de dados com número par de elementos.
Portanto, neste caso, a mediana é a média dos dois valores centrais dada por md =
5 + 7
2
= 6.
Para dados contínuos agrupados em uma tabela de distribuição de frequências podemos encontrar a
mediana através dos seguintes passos:
Passo 1) Encontrar a posição da mediana fazendo (n + 1)/2, em que n é o tamanho da amostra ou
número total de frequências.
Passo 2) Identificar a classe mediana através das frequências acumuladas, ou seja, a classe que contém
a mediana a partir da posição definida no Passo 1.
Passo 3) Calcular a mediana através da fórmula:
md = LImd +
(
0, 5× n− Fc
fmd
)
× c
5
em que
LImd: Limite inferior da classe mediana;
Fc: Frequência acumulada das classes anteriores à classe mediana. Se a primeira classe for a classe
mediana,Fc será igual a 0;
fmd: Frequência absoluta da classe mediana;
c: Amplitude da classe mediana
Exemplo 6. Considere os dados apresentados na Tabela 2.2 do Exemplo 3.
Passo 1) A posição da mediana é dada por (n+ 1)/2 = (27 + 1)/2 = 14, ou seja, a mediana ocupa a
14ª posição nos dados.
Passo 2) Observando a coluna de frequências acumuladas (Fa) na Tabela 2.4 podemos ver que a
primeira classe contém do 1º ao 7º elemento, a segunda classe contém do 8º ao 14º elemento. Portanto o
elemento de posição 14 se encontra na 2ª classe. Logo, a mediana será um valor no intervalo [52,55; 57, 05).
Viscosidade fa Fa
[48,05;52,55) 7 7
[52,55;57,05) 7 14
[57,05;61,55) 7 21
[61,55;66,05) 5 26
[66,05;70,55) 1 27
Total 27 -
Tabela 2.4 – Distribuição de frequências das viscosidades em alta temperatura de 27 amostras.
Para calcular a mediana usamos a fórmula apresentada no Passo 3.
Passo 3) Calculando a mediana:
O limite inferior da classe mediana é o menor valor dessa classe, ou seja,
LImd = 52, 55
Para o cálculo da frequência acumulada das classes anteriores devemos somas todas as frequências
absolutas anteriores à classe mediana. No nosso exemplo, temos somente a frequência da classe 1. Então,
Fc = 7
A frequência da classe mediana é dada pela frequência absoluta dessa classe, dada por:
fmd = 7
A amplitude da classe mediana é dada pela diferença entre os extremos do intervalo da classe mediana,
ou seja,
c = 57, 05− 52, 55 = 4, 5
Aplicando esses valores da fórmulas encontramos a mediana,
md = LImd +
(
0, 5× n− Fc
fmd
)
× c = 52.55 +
(
0, 5× 27− 7
7
)
× 4.5 ' 56.73
Propriedades da mediana
i) A soma ou subtração de uma constante (k) aos dados altera a mediana de tal forma que a nova
mediana fica adicionada ou subtraída pela constante.
6
ii) A multiplicação ou divisão dos dados por uma constante (k) altera a mediana de tal forma que a nova
mediana fica multiplicada ou dividida pela constante.
ii) A mediana não é afetada por valores extremos.
Da mesma forma que a mediana é definida como a medida que divide a amostra em duas partes,
podemos especificar outras quantidades que tomam outras frações dos dados. Essas medidas são denominadas
quantis.
2.3 Quantis
Definição 3. Os quantis são pontos estabelecidos em intervalos regulares em um conjunto de dados. Os quantis
dividem os dados ordenados em subconjuntos de dados de igual dimensão.
Vimos que a mediana é um quantil que deixa metade dos dados abaixo dela e metade acima. De modo
geral um quantil de ordem p pode ser indicado por q(p), em que p é uma proporção qualquer, 0 < p < 1, tal
que 100p% das observações sejam menores do que q(p).
No Exemplo 6, a mediana é o quantil que deixa 50% dos dados abaixo dele, ou seja q(0, 5) = 56.73.
Temos p = 0, 5, ou seja 50% das observações são menores do que q(0, 5) = 56.73.
Os quantis mais empregados são os quartis, que dividem a amostra em quatro partes iguais, os decis,
que dividem em 10 partes iguais e os percentis que dividem em 100 partes iguais.
Alguns quartis e seus nomes particulares:
q(0, 25) = Q1: 1º quartil
q(0, 50) = Q2: 2º quartil = mediana
q(0, 75) = Q3: 3º quartil
Figura 2.4 – Esquema representando os quartis em um conjunto de dados.
Um gráfico frequentemente usado em análises que leva em conta os quartis de um conjunto de dados é
conhecido como boxplot. O boxplot ou diagrama de caixa é uma ferramenta gráfica que permite visualizar a
distribuição e valores discrepantes (outliers) dos dados.
As medidas estatísticas descritivas como o mínimo, máximo, primeiro quartil, segundo quartil ou me-
diana e o terceiro quartil formam o boxplot.
7
Observe a Figura 2.5 que apresenta um esquema de gráfico do tipo boxplot. Note que o local onde
a haste vertical começa (de baixo para cima) indica o mínimo (excetuando algum possível valor extremo ou
outlier) e, onde a haste termina indica o máximo (também excetuando algum possível outlier).
Figura 2.5 – Exemplo de um gráfico boxplot.
O retângulo no meio dessa haste possui três linhas horizontais: a linha de baixo, que é o próprio
contorno externo inferior do retângulo, indica o primeiro quartil. A de cima, que também é o próprio contorno
externo superior do retângulo, indica o terceiro quartil. A linha interna indica o segundo quartil ou mediana.
Os asteriscos ou pontos que às vezes aparecem no boxplot indicam que aquelas observações são atípi-
cas, valores discrepantes, extremos ou outliers.
2.4 Moda
Definição 4. A moda, denotada por mo, é definida como o valor mais frequente na amostra.
Para os dados brutos basta procurar o valor ou atributo que mais aparece na amostra.
Exemplo 7. No seguinte conjunto de dados X = {0, 8, 11, 0, 1, 1, 3, 5, 9, 7, 1, 7, 5, 5, 1}, a moda é igual a 1,
que é o número que aparece mais vezes, aparecendo quatro vezes.
A moda para dados agrupados em Tabelas de distribuição de frequências pode ser encontrada da se-
guinte forma:
Passo 1) Encontrar a classe modal (classe de maior frequência absoluta)
Passo 2) Encontrar a moda, mo, através da seguinte expressão:
mo = LImo +
41
41 +42
× c
em que
LImo: limite inferior da classe modal;
41: diferença entre as frequências da classe modal e da imediatamente inferior (de cima);
42: diferença entre as frequências da classe modal e da imediatamente posterior (de baixo);
c: amplitude da classe modal.
Exemplo 8. Considere os dados a seguir que apresentam os pesos de peças (em gramas) usadas em construção
civil.
74.5 95.9 69.8 61.9 86.0 67.5 64.0
100.0 90.7 90.8 81.5 73.5 61.0 81.6
65.6 87.9 60.2 87.0 82.7 100.8 101.6,
103.1 106.5 107.2 108.9 109.9 111.2 113.3
8
A tabela de distribuição de frequências é dada por
Pesos fa
[59.5980; 68.7372) 6
[68.7372; 77.8763) 3
[77.8763; 87.0155) 5
[87.0155; 96.1547) 4
[96.1547; 105.294) 4
[105.294; 114.433) 6
Total 28
Tabela 2.5 – Distribuição de frequências das produções de grãos em g/plantas obtidas em plantas de feijão.
Para encontrar a moda seguimos os passos a seguir:
Passo 1) De acordo com a Tabela 3.1 temos duas classes modais, a primeira e a última, pois ambas
possuem frequência absoluta igual a 6 que é maior entre todas as frequências absolutas. Assim, nosso conjunto
de dados terá duas modas.
Passo 2) Para a primeira classe modal temos
LImo = 59.5980
41 = 6− 0 = 6
42 = 6− 3 = 3
c = 68.7372− 59.5980 = 9.1392
Portanto,
mo = LImo +
41
41 +42
× c = 59.5980 + 6
6 + 3
× 9.1392 ' 65.6908
Para a segunda classe modal fazemos o mesmo procedimento encontrando, mo = 107.5787.
Propriedades da moda
i) A soma ou subtração de uma constante (k) aos dados altera a moda de tal forma que a nova moda
fica adicionada ou subtraída pela constante;
ii) A multiplicação dos dados ou divisão por uma constante (k) aos dados altera a moda de tal forma
que a nova moda fica multiplicada ou dividida pela constante;
iii) Uma amostra pode ser unimodal (uma moda), bimodal (duas modas), multimodal (várias modas) e
amodal (nenhuma moda).
3 Medidas de dispersão
3.1 Variância
A média da amostra, x̄, é uma estimativa razoável da média da população, µ. Embora a média, assim
como as outras medidas de posição estudadas anteriormente, sejam medidas úteis, elas não transmitem toda
informação acerca das observações.
O resumo de um conjunto de dados por uma única medida de posição esconde toda a informação sobre
a variabilidade do conjunto de observações. Por exemplo, suponha que dois grupos de alunos submeteram-se a
um teste, no qual obtiveram as seguintes notas:
GRUPO A: {3, 4, 5, 6, 7}
GRUPO B: {1, 3, 5, 7, 9}
A média nos dois grupos é a mesma, ou seja, x̄A = x̄B = 5. A identificação de cada uma destas séries
por sua média nada informa sobre suas diferentes variabilidades. Precisamos, então, de medidas que resumam
9
a variabilidade de um conjunto de observações e que, nos permita, por exemplo, comparar conjuntos diferentes
de valores, como os dados acima, segundo algum critério estabelecido.
A variabidade ou dispersão nos dados pode ser descrita pela variância da amostra ou pelo desvio padrão
da amostra.
Definição 5. Se x1, x2, ..., xn for uma amostra de n observações, então a variância da amostra, denotada por
s2, será
s2 =
∑n
i=1 x
2
i −
(
∑n
i=1 xi)
2
n
n− 1
Exemplo 9. Podemos calcular as variâncias dos conjuntos A e B apresentados anteriormente
GRUPO A: {3, 4, 5, 6, 7}
GRUPO B: {1, 3, 5, 7, 9}
Então, para o Grupo A, temos
s2A =
∑n
i=1 x
2
i −
(
∑n
i=1 xi)
2
n
n− 1
=
(32 + ...+ 72)− (3+...7)
2
5
5− 1
= 2, 5
Para o Grupo B temos,
s2B =
∑n
i=1 x
2
i −
(
∑n
i=1 xi)
2
n
n− 1
=
(12 + ...+ 92)− (1+...9)
2
5
5− 1
= 10
Assim, temos que o grupo B tem uma maior variabilidade dos dados.Para dados contínuos organizados em uma tabela de distribuição de frequências (TDF), a variância
amostral é definida por
s2 =
∑k
i=1 fiX̄
2
i −
(
∑k
i=1 fiX̄i)
2
n
n− 1
em que k é o número de classes, fi é a frequência absoluta da classe i e X̄i é o ponto médio da classe i.
Exemplo 10. Considere os dados apresentados no Exemplo 3.1 que apresentam a distribuição de frequências
dos pesos de peças usadas na construção civil.
Pesos fa
[59.5980; 68.7372) 6
[68.7372; 77.8763) 3
[77.8763; 87.0155) 5
[87.0155; 96.1547) 4
[96.1547; 105.294) 4
[105.294; 114.433) 6
Total 28
Tabela 3.1 – Distribuição de frequências das produções de grãos em g/plantas obtidas em plantas de feijão.
Podemos criar colunas auxiliares para o cálculo da variância:
10
Pesos fi X̄i X̄2i fiX̄i
¯fiX2i
[59.5980; 68.7372) 6 64.16766 4117.48 385.01 24704.88
[68.7372; 77.8763) 3 733068 5373.89 219.82 16121.67
[77.8763; 87.0155) 5 82.4459 6797.33 412.23 33986.65
[87.0155; 96.1547) 4 91.5851 8387.83 366.34 33551.32
[96.1547; 105.294) 4 100.7244 10145.40 402.89 40581.60
[105.294; 114.433) 6 109.8635 12069.99 659.18 72419.94
Total 28 - 46891.92 2445.57 221366.1
Portanto, a variância é dada por
s2 =
∑k
i=1 fiX̄
2
i −
(
∑k
i=1 fiX̄i)
2
n
n− 1
=
221366.1− 2445.57228
28− 1
' 287.62
Para dados quantitativos discretos esse mesmo estimador pode ser usado substituindo X̄i, ponto médio
da classe i, por Xi, valor da categoria i.
Análoga à variância da amostra s2, a variabilidade na população é definida pela variância da popu-
lação denotada por σ2. Quando a população for finita e consistir de N valores igualmente prováveis, podemos
definir a variância da população como
σ2 =
∑N
i=1 (xi − µ)
2
N
Propriedades da variância
i) A unidade da variância não é a mesma de cada dado. Esta unidade não tem significado físico por
estar ao quadrado.
ii) A variância é sempre positiva ou nula.
iii) A variância é igual a zero quando todas as medidas são iguais entre si e aumenta à medida que se
aumentam as diferenças entre os elementos do conjunto.
iv) A variância não se altera quando os dados são adicionados ou subtraídos de uma constante.
v) Quando os dados são multiplicados ou divididos por uma constante, a variância do novo conjunto de
dados é igual à variância do conjunto original multiplicada ou dividida pela constante ao quadrado.
3.2 Desvio padrão
A unidade de medida para a variância da amostra é o quadrado da unidade original da variável. Assim,
se x for medido em libras, as unidades para a variância da amostra serão em libras2. O desvio padrão tem a
propriedade desejável de variabilidade nas unidades originais da variável de interesse, x.
Definição 6. O desvio padrão da amostra, denotado por s, é uma medida de dispersão dos dados em torno da
média. É a raiz quadrada da variância da amostra s2. Da mesma forma, o desvio padrão da população, σ, é
a raiz quadrada da variância da população σ2.
Um desvio padrão grande significa que os valores amostrais estão bem distribuídos em torno da média,
enquanto que um desvio padrão pequeno indica que eles estão condensados próximos da média. Em poucas
palavras, quanto menor o desvio padrão, mais homogênea é a amostra.
11
Figura 3.1 – Distribuições com mesma média e desvios padrão diferentes.
Propriedades do desvio padrão
i) Desvio padrão é sempre positivo ou nulo.
ii) Se os dados são adicionados ou subtraídos de uma constante, o novo desvio padrão não se altera.
ii) Quando os dados são multiplicados ou divididos por uma constante, o novo desvio padrão fica
multiplicado ou dividido pela constante.
Além da variância e do desvio padrão da amostra, a amplitude da amostra é uma medida útil de varia-
bilidade.
3.3 Amplitude
Definição 7. Se as n observações em uma amostra forem denotadas por x1, x2, ..., xn, então a amplitude da
amostra será
A = max(xi)−min(xi)
Exemplo 11. No conjunto de dados X = {8, 12, 23, 1, 4, 11, 9, 7, 3, 10} a amplitude é
A = max(xi)−min(xi) = 23− 1 = 22
Devemos ter o devido cuidado na sua utilização, pois a amplitude é uma medida de dispersão afetada
por valores extremos. Basta haver na amostra uma observação muito maior ou muito menor que as outras para
que a amplitude não reflita a dispersão do conjunto dos dados. Por exemplo, os conjuntos A e B representados
a seguir,
A = {1, 1.2, 1.5, 1.7, 1.8, 1.9, 2, 2.3, 2.5, 2.6, 8}
B = {1, 2, 2.5, 4, 4.5, 5.5, 6, 6.4, 7, 7.5, 8}
têm a mesma amplitude, igual a 7, mas a sua variabilidade é muito diferente como ilustrado na Figura 3.2.
Figura 3.2 – Representação da dispersão de um conjunto de dados com mesma amplitude
12
3.4 Coeficiente de variação
O desvio padrão e a variância são medidas de variabilidade absoluta dos dados. Essa medidas são de-
pendentes da grandeza, escala ou unidade de medida empregada. Conjuntos de dados com diferentes unidades
não podem ter suas dispersões comparadas usando variância ou desvio padrão. Por exemplo, não podemos
comparar um desvio padrão em metros com outro desvio padrão em quilogramas.
Mesmo para uma única unidade, se os conjuntos possuem médias diferentes, suas variabilidades não
devem ser comparadas por essas medidas de dispersão. Nesses casos podemos usar outra medida de dispersão
denominada coeficiente de variação.
Definição 8. O coeficiente de variação é usado para analisar a dispersão em termos relativos a seu valor
médio quando dois ou mais conjuntos de valores apresentam unidades de medidas diferentes ou, se mesmo
apresentando medidas iguais, ainda possuírem médias diferentes. Dessa forma, podemos dizer que o coefi-
ciente de variação é uma forma de expressar a variabilidade dos dados excluindo a influência da ordem de
grandeza da variável. O cálculo do coeficiente de variação amostral é feito através da fórmula:
CV =
s
x̄
× 100%
em que s é o desvio padrão amostral e x̄ é a média amostral.
Como o coeficiente de variação analisa a dispersão em termos relativos, ele será dado em %. Quanto
menor for o valor do coeficiente de variação, mais homogêneos serão os dados, ou seja, menor será a dispersão
em torno da média.
Exemplo 12. Em um grupo de moradores de determinada região foram analisadas a idade (em anos) e a altura
(em metros) das pessoas. Deseja-se comparar a dispersão dos dois conjuntos de dados, a fim de verificar qual
deles é mais homogêneo. Na coleta dos dados verificou-se que:
Idade das pessoas: x̄ = 41.6 e s = 0.82
Altura das pessoas: x̄ = 1.67 e s = 0.2
Qual conjunto de dados apresenta menor dispersão relativa em torno da média?
Como os dados apresentam variáveis com grandezas diferentes, podemos usar o coeficiente de variação como
método de comparação. Os coeficientes de variação das variáveis idade e altura são, respectivamente,
CVidade =
0.82
41.6
× 100% ' 1.97%
CValtura =
0.2
1.67
× 100% ' 11.98%
Portanto, a idade apresenta menor dispersão relativa em torno da média. Note que, se tivéssemos usado,
erroneamente, o desvio padrão como comparação, a conclusão estaria errada, pois o desvio padrão da variável
altura é menor que o desvio padrão da variável idade o que nos faria concluir que altura teria menor dispersão,
o que não é verdade.
Referências
[1] P. A. Bussab, W. de O. e Morettin, Estatística Básica. Saraiva, 2017.
[2] J. L. Devore, Probabilidade e estatística para engenharia e ciências. Cengage Learning Edições Ltda.,
2018.
[3] D. F. Ferreira, Estatística básica. UFLA, 2009.
[4] G. C. Montgomery, Douglas C e Runger, Estatística aplicada e probabilidade para engenheiros. Grupo
Gen-LTC, 2020.

Outros materiais