Buscar

Medidas de Posição em Estatística

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 3, do total de 50 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 6, do total de 50 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Você viu 9, do total de 50 páginas

Faça como milhares de estudantes: teste grátis o Passei Direto

Esse e outros conteúdos desbloqueados

16 milhões de materiais de várias disciplinas

Impressão de materiais

Agora você pode testar o

Passei Direto grátis

Prévia do material em texto

Estatística Vital
Prof. Maria Lídia Coco Terra
Departamento de Estatística
Universidade Federal da Paraíba - UFPB
João Pessoa, 26 de outubro de 2011
Medidas de Posição
Vimos anteriormente a sintetização dos dados sob a forma de
tabelas, gráficos e distribuições de frequências. Aqui, vamos
aprender o cálculo de medidas que possibilitem representar um
conjunto de dados (valores de uma variável quantitativa, isto é,
informações numéricas), relativos à observação de determinado
fenômeno de forma reduzida.
Estes índices estatísticos são as Medidas de Posição que são
também chamadas de medidas de tendência central e
estabelecem valores em torno dos quais os dados se distribuem.
Dizemos ainda que esse nome é dado pelo fato dos dados
observados tenderem, em geral, a se concentrar em torno de valores
centrais.
Média Aritmética Simples
Se dispomos de um conjunto de valores da amostra(ordenados ou não)
podemos calcular sua média aritmética simples por
X =
n∑
i=1
Xi
n
=
X1 + . . .+ Xn
n
,
no caso amostral, em que n representa o número de indivíduos da
amostra.
Média Aritmética Simples
Exemplo: Abaixo, temos uma amostra de 10 crianças de 5 anos de
idade em uma creche de João Pessoa, onde foram coletadas
informações referentes a seus pesos (em Kg).
23, 0 20, 2 22, 0 19, 0 25, 0
28, 8 24, 0 21, 0 27, 0 21, 0
Temos que n = 10 e obtemos X através de
X =
23, 0+ 20, 2+ 22, 0+ 19, 0+ 25, 0+ 28, 8+ 24, 0+ 21, 0+ 27, 0+ 21, 0
10
=
230, 0
10
= 23, 0.
Propriedades da Média Aritmética
P1) A soma dos desvios com relação à média é nula, isto é,
n∑
i=1
(Xi − X ) = 0.
P2) Somando-se ou subtraindo-se uma constante “a” a todos os
valores do conjunto, a média fica aumentada ou diminuida
dessa constante. Ou seja, Y = X + a, a média de Y é
Y = X + a.
P3) Multiplicando-se ou dividindo-se uma constante “b” a todos os
valores do conjunto, a média fica multiplicada ou dividida por
essa constante. Ou seja, Y = bX , a média de Y é Y = bX .
Vantagens e desvantagens da média
V 1 É a medida mais conhecida e de maior uso;
V 2 É facilmente calculável;
V 3 Pode ser tratada algebricamente;
V 4 Serve para compararmos conjuntos semelhantes;
V 5 É particularmente indicada para dados que possuem os valores
simétricos em relação a um valor médio e de frequência máxima
(um histograma pode ajudar nessa identificação);
D1 É uma medida de tendência central que por uniformizar os valores
de um conjunto de dados, não representa bem os conjuntos que
revelam tendências extremas. Ou seja, é grandemente influenciada
pelos valores extremos (grandes) do conjunto;
D2 Não pode ser calculada para distribuições de frequências com limites
indeterminados (indefinidos);
D3 Só deve ser utilizada quando a distribuição dos dados for simétrica
(normal ou Gaussiana).
Mediana
A mediana de um conjunto de dados, que denotaremos por Md ,
pode ser definida como o valor que divide a série ordenada em duas
partes iguais, em relação à quantidade de elementos. Em outras
palavras, é o valor que ocupa o centro da distribuição, ou seja, 50%
dos elementos da série são menores do que ela e 50% dos
elementos da série são maiores do que ela.
Exemplo: No Rol, temos:
Mediana
Podemos encontrar o elemento mediano de um conjunto de dados
da seguinte forma:
1) Se n é ímpar: a mediana será o elemento que ocupar a posição
n+1
2 no rol de dados ordenados, ou seja, EMd =
n+1
2 , em que EMd
representa o elemento mediano.
Exemplo: Sejam X1 = 2, X2 = −2, X3 = 6, X4 = 1 e X5 = 3.
Ordenando os valores temos, −2, 1, 2, 3, 6. O elemento mediano é
dado por EMd = n+12 =
5+1
2 =
6
2 = 3. Ou seja, a mediana será o
valor que ocupar a posição 3 do rol. Daí, concluimos que Md = 2.
Mediana
2) Se n é par: a mediana será a média aritmética simples dos
elementos que ocuparem as posições n2 e
n
2 + 1 no rol de dados
ordenados. Ou seja, teremos dois elementos centrais ou dois
elementos medianos, dados por 1o¯EMd = n2 e 2
o
¯EMd = n2 + 1.
Exemplo: Sejam X1 = 2, X2 = −2, X3 = 6, X4 = 1, X5 = 3 e
X6 = 5. Ordenando os valores temos, −2, 1, 2, 3, 5, 6. Os
elementos centrais são dados por 1o¯EMd = n2 =
6
2 = 3 e
2o¯EMd = n2 + 1 =
6
2 + 1 = 3+ 1 = 4. A mediana será a média
aritmética simples entre os valores que ocuparem as posições 3 e 4,
ou seja, Md = 2+32 =
5
2 = 2, 5.
Vantagens e desvantagens da Mediana
V 1 A mediana não é influenciada por valores extremos (grandes)
de uma série ou conjunto de dados;
V 2 A mediana é utilizada especialmente para distribuições
assimétricas, mas pode ser utilizada para dados com
distribuição simétrica também.
D1 Suas propriedades não são bem compreendidas por muitas
pessoas;
D2 Não é levada em consideração na maior parte dos testes
estatísticos.
Moda
A moda de um conjunto de dados, que denotaremos por Mo, é o
valor que ocorre com maior frequência.
Exemplo: 1, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 6, 6, 6, 6, 6, 6, 7, 7, 8. Temos que
o valor mais frequente é 6, logo, Mo = 6.
Observação:
1 A moda pode não existir. Neste caso, dizemos que o conjunto
de dados é amodal.
Exemplo: 1, 1, 2, 2, 3, 3, 4, 4, 5, 5
2 A moda pode não ser única.
Exemplo: 2, 2, 3, 3, 3, 4, 4, 5, 5, 5. Temos dois valores mais
frequentes: 3 e 5.
Moda de Dados Tabulados Não-agrupados em
Classes
Neste caso, obtemos a moda simplesmente identificando o valor
mais frequente na tabela.
Exemplo:
Tabela: Tipo sanguíneo em uma amostra de 820 doadores do HEMOPE.
Recife, 2007.
Tipo Sanguíneo Número de Doadores
O 417
A 292
B 94
AB 17
Total 820
Fonte: Dados Hipotéticos
Moda de Dados Tabulados Não-agrupados em
Classes
Nessa amostra, o grupo sanguíneo O ocorreu com maior frequencia.
Então, a moda nessa amostra é o tipo sanguíneo O.
Vantagens e desvantagens da moda
V 1 Não é influenciada por valores extremos (grandes) do conjunto
de dados;
V 2 Pode ser calculada para distribuições com limites
indeterminados (indefinidos) na maioria dos casos.
D1 Não depende de todos os valores do conjunto de dados,
podendo mesmo não se alterar com a modificação de alguns
deles;
Medidas de Dispersão
As medidas de posição apresentadas fornecem a informação dos
dados apenas a nível pontual, sem ilustrar outros aspectos
referentes à forma como os dados estão distribuídos na amostra.
Exemplo: Sejam quatro conjuntos A, B , C e D com os seguintes
valores:
A: 7, 7, 7, 7, 7
B: 5, 6, 7, 8, 9
C: 4, 5, 7, 9, 10
D: 0, 5, 10, 10, 10
Note que XA = 7, XB = 7, XC = 7 e XD = 7
Medidas de Dispersão
• No exemplo, percebe-se que apesar de constituídos de valores
diferentes, os grupos revelam uma mesma média aritmética.
• É possível notar que em cada grupo os valores se distribuem
diferentemente em relação à média.
• É preciso uma medida estatística complementar para melhor
caracterizar cada conjunto apresentado.
• As medidas estatísticas responsáveis pela variação ou dispersão
dos valores de um conjunto são as medidas de dispersão ou de
variabilidade, onde se destacam a amplitude total, a variância,
o desvio padrão e o coeficiente de variação. Em princípio,
diremos que entre dois ou mais conjuntos de dados, o mais
disperso (ou menos homogêneo) é aquele que tem a maior
medida de dispersão.
Medidas de Dispersão
• As medidas de dispersão são úteis para avaliar o grau de
variabilidade ou de dispersão dos valores de um conjunto.
Essas medidas proporcionam um conhecimento mais completo
sobre o fenômeno que se está analisando, permitindo
estabelecer comparações entre fenômenos de mesma natureza.
• O objetivo maior será, portanto, construir medidas que avaliem
a representatividade da média.
• Veremos algumas dessas medidas a seguir.
Amplitude Total
É a diferença entre o maior e o menor valor da série, ou seja,
AT = Xmáx− Xmín
A amplitude é útil para nos dar uma ideia do campo de variação da
série. Verifica-se que a amplitude como medida de dispersão é
limitada.
Desvio Médio
É definido como a média aritmética dos desvios absolutos e pode
ser obtido através de
DM =
n∑
i=1
∣∣Xi − X ∣∣
n
,
onde X é a média aritmética simples.
Variância
A variância de um conjunto de dados (amostra ou população) mede
a variabilidade do conjunto em termos de desvios quadrados em
relação à média aritmética do conjunto. É uma quantidade sempre
não negativa e expressa em unidades quadradas do conjunto de
dados, sendo de difícil interpretação.
Variância
A variância é definida como a soma dos quadrados dos desvios com
relação à média, dividida pelo número de elementos (ou pelo
número de elementos menos um, no caso amostral, como veremos).
Ou seja, dada a amostra, temos que
S2 =
n∑
i=1
(
Xi − X
)2
n − 1 =
1
n − 1
{(
n∑
i=1
X 2i
)
− nX 2
}
,
Variância
Observação Importante: A equação de S2 é utilizada quando
nosso interesse não se restringe à descrição dos dados mas,
partindo da amostra, visamos tirar inferências válidas para sua
respectiva população.
Desvantagem de uso da Variância
• Quando elevemos ao quadrado a diferença Xi − X , a unidade
de medida dos dados também fica elevada ao quadrado.
• Exemplo: se a unidade de medida dos dados for metros, a
variância será expressa em metros quadrados.
• Em alguns casos, a unidade de medida ao quadrado nem fará
sentido.
Desvantagem de uso da Variância
Comentários Importantes
• Apesar de útil para descrever a variabilidade do conjunto de
observações, o fato mencionado torna um pouco inviável a
análise, dado que a unidade de medida fica elevada ao
quadrado.
• O interessante é ter uma medida que descreva a variabilidade
das informações com a mesma eficiência da variância, porém,
que esteja na mesma escala em que estão os dados fornecidos.
• Esta medida se chama Desvio Padrão.
Desvio Padrão
É definido como a raiz quadrada positiva da variância e apresenta
as mesmas propriedades desta, com a vantagem de ser expresso na
mesma unidade dos dados. De fato, é a medida de dispersão mais
utilizada. Dada a amostra, a expressão do desvio padrão é dada por
s =
√
s2
Exemplo:
Sejam as notas de quatro alunos em cinco provas de estatística.
Aluno Prova 1 Prova 2 Prova 3 Prova 4 Prova 5
Antônio 5 5 5 5 5
João 6 4 5 4 6
José 10 5 5 5 0
Pedro 10 10 5 0 0
Vamos calcular todas as medidas descritas anteriormente.
Exemplo:
Aluno P1 P2 P3 P4 P5 X AT DM Var D.P.
Antônio 5 5 5 5 5 0 0 0 0 0
João 6 4 5 4 6 5 2 0, 8 1 1
José 10 5 5 5 0 5 10 2 12, 5 3, 54
Pedro 10 10 5 0 0 5 104 4 25 54
• O que observamos no cálculo das 4 medidas apresentadas até
o momento: Que as notas de Antônio não variaram, as notas
de João variaram menos que as de José e as notas de Pedro
variaram mais do que as dos outros.
• Note que o desvio padrão torna mais viável a comparação.
Você pode falar da variação em relação à média a partir do
desvio padrão
• Casos como o de Antônio são muito difíceis de se encontrar na
prática. A variabilidade faz com que essa dificuldade seja
considerada naturalmente.
Coeficiente de Variação de Pearson
• É uma medida de dispersão relativa que serve para comparar
dois ou mais conjuntos de dados de unidades diferentes.
• É útil para responder perguntas do tipo:
(1) Dada uma pesquisa com 50 pacientes em um hospital, será
que o grau de variação de peso e altura é o mesmo?
(2) Dada uma amostra com 50 pacientes diabéticos tratados com
um medicamento que contém 5% de uma substância X , será
que o nível de variação em relação ao efeito do tratamento
será o mesmo se utilizarmos 10% da substância X?
Coeficiente de Variação de Pearson
• Mede o grau de concentração dos dados em torno de sua
média. É obtido através das expressões
CV =
S
X
• Nas expressões acima temos que: X é a média aritmética da
variável na amostra e S é o desvio-padrão amostral.
• Pode-se denotar CV também em termos percentuais,
bastando fazer CV × 100%.
Exemplo:
• As alturas (em cm) de uma amostra de crianças de 8 anos
foram medidas e destas foi concluído que a altura média era de
128 cm.
• O desvio-padrão das alturas era de 12 cm.
• O mesmo foi feito para uma amostra de crianças de 12 anos,
onde a média obtida foi 158 cm e desvio-padrão igual a 14 cm.
Exemplo:
GRUPO X s CV
Crianças de 8 anos 128 12 CV = 12128
∼= 0, 093
Crianças de 12 anos 158 14 CV = 14158
∼= 0, 088
Embora, observando o desvio-padrão dos grupos, pareça que a
altura de crianças de 12 anos tem maior variabilidade, observando o
Coeficiente de Variação de Pearson, verificamos que a altura de
crianças de 8 anos varia mais que a altura de crianças de 12 anos.
Outro exemplo:
Considere a tabela de valores a seguir:
Valores X S CV (X )
1 - 2 - 3 2 1 0, 5
100 - 200 - 300 200 100 0, 5
Novamente:
• O coeficiente de variação mede o grau de concentração dos
dados em torno de sua média.
• Embora, observando o desvio-padrão dos grupos, pareça que o
segundo grupo tem maior variabilidade, porém observando o
Coeficiente de Variação, verificamos que a não há diferença
entre os grupos no que diz respeito à variabilidade.
Introdução ao estudo da correlação
• Existem situações nas quais há interesse em estudar o
comportamento conjunto de uma ou mais variáveis;
• Em muitos casos, a explicação de um fenômeno de interesse
pode estar associado a outros fatores (variáveis) que
contribuem de algum modo para a ocorrência deste fenômeno.
• O comportamento conjunto de duas variáveis quantitativas
pode ser observado por meio de um tipo de gráfico, chamado
gráfico de dispersão.
Gráfico de Dispersão
Estudo da Correlação
Para desenhar um diagrama de dispersão, é necessário sempre fazer
o eixo cartesiano para identificar os pontos das variáveis
quantitativas consideradas:
• Representa-se primeiramente uma das variáveis no eixo das
abscissas (variável X) e a outra variável no eixo das ordenadas
(variável Y)
• Os valores das variáveis são marcados sob os respectivos eixos
e então marca-se um ponto para cada par de valores.
Exemplo
Quadro 1: Comprimento (em cm) e peso (em kg) de cães
No Comprimento Peso No Comprimento Peso
1 104 23.5 11 98 15.0
2 107 22.7 12 95 14.9
3 103 21.1 13 92 15.1
4 105 21.5 14 104 22.2
5 100 17.0 15 94 13.6
6 104 28.5 16 99 16.1
7 108 19.0 17 98 18.0
8 91 14.5 18 98 16.0
9 102 19.0 19 104 20.0
10 99 19.5 20 100 18.3
Fonte: ARAÚJO e HOSSNE (1977)
Exemplo
Figura 1: Comprimento (em cm) e peso (em kg) de cães
Correlação
O objetivo do estudo da correlação é a determinação do grau de
relacionamento entre duas variáveis emparelhadas. O termo
“correlação” significa “co-relacionamento”, pois indica até que ponto
os valores de uma variável estão relacionados com os da outra.
Se os pontos observados das variáveis, digamos (X ,Y )
representados num diagrama de dispersão parecem descrever um
comportamento próximo a uma reta, dizemos que temos uma
correlação linear.
Correlação Positiva e Correlação Negativa
Uma vez que há uma relação entre X e Y , isto é, quando há um
comportamento de Y em relação ao aumento de X no mesmo
sentido, temos a existência de tipos de relações entre as variáveis.
Dizemos que a correlação é positiva se a tendência é crescente, ou
seja, valores pequenos de X fornecem valores pequenos de Y e
vice-versa (ver figura (a) a seguir) . A correlação é negativa se a
tendência é decrescente (figura (b) a seguir) e é nula se nenhuma
tendência é observada (figura (c) a seguir).
Correlação Positiva e Correlação Negativa
Observações importantes:
• Uma correlação positiva não indica que aumentos sucessivos
em uma variável causam aumentos sucessivos naoutra. O
mesmo acontece se tivermos uma correlação negativa.
• É mais correto falar sobre o comportamento das variáveis
estatisticamente. Ou seja, é mais correto afirmar que há
evidência estatística suficiente para afirmar que uma
variável pode influenciar no aumento ou diminuição da
outra variável. O que contribuirá para um poder de decisão
maior dada a evidência será o cálculo de um coeficiente,
chamado coeficiente de correlação.
Exemplo
Tabela 1: Consumo individual diário de proteínas de origem animal, em
gramas, e coeficiente de natalidade, em 14 países
País Consumo Diário de Proteínas Coeficiente de Natalidade
Formosa 4.7 45.6
Malásia 7.5 39.7
Índia 8.7 33.0
Japão 9.7 27.0
Iugoslávia 11.2 25.9
Grécia 15.2 23.5
Itália 15.2 23.4
Bulgária 16.8 22.2
Alemanha 37.3 20.0
Irlanda 46.7 19.1
Dinamarca 56.1 18.3
Austrália 59.9 18.0
Estados Unidos 61.4 17.9
Suécia 62.6 15.0
Fonte: CASTRO (1961)
continuação
No exemplo, temos uma correlação negativa:
Coeficiente de Correlação Linear
Como dito anteriormente, o coeficiente de correlação dará uma
contribuição para a tomada de decisão sobre a relação entre duas
variáveis de interesse.
Mais especificamente, o coeficiente de correlação fornece uma
medida do grau e do sinal da correlação linear entre estas variáveis.
Coeficiente de Correlação Linear
Fórmula do coeficiente de correlação:
r =
n∑
i=1
xiyi −
(
n∑
i=1
xi
)(
n∑
i=1
yi
)
n√√√√√√√√√√

n∑
i=1
x2i −
(
n∑
i=1
xi
)2
n


n∑
i=1
y2i −
(
n∑
i=1
yi
)2
n

Coeficiente de Correlação Linear
Com alguma simplificação, temos que
r =
n∑
i=1
xiyi − n · X · Y√√√√( n∑
i=1
x2i − nX 2
)
·
(
n∑
i=1
y2i − nY 2
)
=
n∑
i=1
xiyi − n · X · Y√
(n − 1)S2X
√
(n − 1)S2Y
Coeficiente de Correlação Linear
Temos que
−1 ≤ r ≤ 1
• Se r = −1, dizemos que a correlação é perfeita negativa.
• Se r = 0, dizemos que a correlação é nula.
• Se r = 1, dizemos que a correlação é perfeita positiva.
• Se 0 < r < 1, dizemos que a correlação é positiva.
• Se −1 < r < 0, dizemos que a correlação é negativa.
Alguns exemplos
Correlação
Positiva Negativa
x y x y
1 1 1 7
2 2 2 4
3 4 3 4
4 5 4 3
5 8 5 1
Alguns exemplos
Alguns exemplos
Cálculos intermediários para obtenção do coeficiente de correlação
linear no caso de correlação positiva
x y x2 y2 xy
1 1 1 1 1
2 2 4 4 4
3 4 9 16 12
4 5 16 25 20
5 8 25 64 40
15 20 55 110 77
r =
77− 15·205√(
55− 1525
)(
110− 2025
) = 0.98
Alguns exemplos
Cálculos intermediários para obtenção do coeficiente de correlação
linear no caso de correlação negativa
x y x2 y2 xy
1 7 1 49 7
2 4 4 16 8
3 4 9 16 12
4 3 16 9 12
5 1 25 1 5
15 19 55 91 44
r =
44− 15·195√(
55− 1525
)(
91− 1925
) = −0.95

Outros materiais