Medidas de dispersão e Gráficos- Bioestatística

•

UNINOVE

3

0

3

0

Victoria Awada

14/09/2021

E aí, curtiu este material?

Ajude a incentivar outros estudantes a melhorar o conteúdo

Gostou desse material? Compartilhe! 🧡

Bioestatística I

12.760 Materiais compartilhados

Baixe o app para aproveitar ainda mais

Leia os materiais offline, sem usar a internet. Além de vários outros recursos!

Prévia do material em texto

UNINOVE
Medidas de
Dispersão e
Gráficos
Bioestatístic�
Medidas de tendência central
➔ Como estatísticos, nosso trabalho é
pegar os dados disponíveis e
utilizá-los de uma forma apropriada e
isso, frequentemente, envolve
construir modelos estatísticos do
fenômeno de interesse.
➔ A média é um valor hipotético que
pode ser calculado para qualquer
conjunto de dados; ela não precisa ser
um valor realmente observado no
conjunto de dados;
Ex: se pegarmos cinco professores de
estatística e contarmos o número de amigos
que eles tem, poderemos encontrar os
seguintes dados: 1 2, 3, 3 e 4. Se pegarmos a
média do número de amigos:
Resposta: isso poderá ser calculado
adicionando os valores obtidos e dividindo
pelo número de valores contados:
(1+2+3+3+4)/5= 2,6.
Obs: sabemos que é impossível ter 2,6 amigos
(a não ser que você corte alguém com uma
serra e seja amigo do seu braço), assim, a
média é um valor hipotético. Portanto, a média
é um modelo estatístico criado para resumir
nossos dados.
Essas linhas representam os desvios entre os
dados observados e o nosso modelo e podem
ser pensadas como o erro do modelo.
Podemos calcular a magnitude desses desvios
simplesmente subtraindo a média de cada
um dos valores observados (xi)1.
Gráfico mostrando as diferenças entre o
número observado de amigos que cada
professor de estatística tem e o número médio
de amigos (linha tracejada).
➔ Por exemplo, o professor 1 tem
somente 1 amigo, portanto, a
diferença é: xi - = 1 - 2,6= -1,6. Você
deve notar que o desvio é um número
negativo e ele representa o fato de
que nosso modelo superestimou a
popularidade desse professor: ele
prevê que o professor terá 2,6 amigos
quando, na verdade, ele tem somente 1
amigos.
➔ O resultado diz que não há um erro
total entre nosso modelo e os dados
observados, assim, a média é uma
representação perfeita dos dados. Mas
isso obviamente não é verdade: houve
1
UNINOVE
erros, alguns deles foram positivos e
alguns negativos e eles simplesmente
cancelaram uns aos outros.
➔ Devemos evitar o problema de erro
direcionado (isto é, positivo ou
negativo) e uma maneira matemática
de fazer isso é elevar cada erro ao
quadrado, ou seja, multiplicar cada
erro por ele mesmo. Assim, em vez de
calcularmos a soma dos erros,
calculamos a soma dos quadrados dos
erros;
Ex:
➔ A soma dos erros ao quadrado (SS)
é uma boa medida da acurácia do
nosso modelo. Contudo, é óbvio que a
soma dos erros ao quadrado depende
do total de dados que foram
coletados- quanto mais dados, maior
o SS. Para solucionar esse problema,
calculamos a média dos erros
dividindo o SS pelo número de
observações (N).
➔ Se estivermos somente interessados
na média do erro para a amostra,
podemos dividir apenas por N.
Entretanto, geralmente estamos
interessados em usar o erro na
amostra para estimar o erro na
população e, assim, dividimos o SS
pelo número de observações menos 1.
Essa medida é conhecida como
Variância.
➔ A variância é, portanto, a média do
erro entre a média e as observações
feitas (e é medida de como o modelo
corresponde aos dados reais).
➔ Existe um problema da variância como
medida: ela é expressa em unidades
quadradas (porque colocamos cada
erro ao quadrado no cálculo). Em
nosso exemplo, teremos que dizer que
a média do erro em nossos dados (a
variância) foi 1,3 amigos ao quadrado.
➔ Geralmente tiramos a raiz quadrada
da variância (o que garante o erro
médio será expresso na mesma
unidade da variável). Essa medida é
conhecida como desvio padrão e é
simplesmente a raiz quadrada da
variância.
➔ O desvio padrão é, portanto, uma
medida de quão bem a média
representa os dados. Pequenos
desvios padrões (relativos ao valor da
próprio média) indicam que pontos de
dados estão próximos da média. Um
desvio padrão grande (relativo a
média) indica que os pontos de dados
estão distantes da média (isto é, a
média não é uma representação
precisa de dados), Um desvio padrão
de 0 significaria que todos os escores
são os mesmos.
2
UNINOVE
➔ Os gráficos mostram um índice geral
(em uma escala de cinco pontos) dos
dois professores depois de cada uma
das cinco aulas. Ambos os professores
tiveram uma média de 2,6 em uma
escala de 5 pontos. Entretanto, o
primeiro professor tem um desvio
padrão de 0,55 (relativamente
pequeno se comparado a média). Deve
ficar claro no gráfico que os índices
para esse professor estavam
consistentemente próximos do valor
da média. Houve uma pequena
flutuação, mas em geral suas aulas
não variaram em popularidade.
➔ A média deve ser de boa aderência
aos dados. O segundo professor,
entretanto, teve um desvio padrão de
1,82 (relativamente alto comparado a
média). Os índices para esse professor
estão claramente mais espalhados em
torno da média.
➔ Como lidar com outliers (valores
atípicos)?
◆ Existem duas formas de fazer
isso:
● (1) olhar o diagrama
de caixa e bigodes;
● (2) olhar os escores-z;
● (1) olhar o diagrama de caixa e bigodes
(Box splot);
● O diagrama de caixa e bigodes nos
mostra o menor escore (a linha
horizontal inferior em cada figura) e o
maior (a linha superior horizontal de
cada figura). A distância entre a linha
mais inferior e a aresta inferior da
caixa é a amplitude onde os 25%
escores mais baixos podem ser
encontrados (é denominado quartil
inferior). A caixa mostra os 50% dos
escores situados no meio do conjunto
de valores (denominado intervalo
interquartílico):
● isto é, 50% dos escores são maiores
do que a parte mais baixa da figura. A
distância entre a aresta superior da
caixa e a linha horizontal superior
mostra o intervalo onde os 25%
maiores escores (quartil superior). No
meio da caixa há uma linha horizontal
levemente mais grossa que as arestas
(bordas) da caixa.
● Essa linha representa a mediana, que
seria o escore do meio se todos os
escores da higiene fossem colocados
em ordem. Assim como os
histogramas, eles também nos
3
UNINOVE
informam se a distribuição é simétrica
ou não. No primeiro dia, em que a
distribuição é simétrica, os bigodes
em cada lado apresentam o mesmo
tamanho (o intervalo entre os 25%
valores superiores e os 25% inferiores
são iguais). No entanto, nos dias dois e
três, os bigodes situados no topo são
maiores do que os situados embaixo,
mostrando que a distribuição é
assimétrica (isto é, 25% dos escores
superiores estão espalhados em um
intervalo maior do que os 25%
escores inferiores). Finalmente, você
terá notado alguns círculos acima de
cada um dos diagramas.
● Esses casos são os valores atípicos
(outliers). Cada círculo apresenta um
número próximo a ele, informando em
que linha do editor de dados esse caso
poderá ser encontrado.
➔ O mínimo de um conjunto de dados é
o número de menor valor;
➔ O máximo de conjunto de dados é o
número de maior valor;
➔ A amplitude de um conjunto de dados,
definida como a diferença entre o
máximo e o mínimo, é uma medida de
dispersão ou variabilidade;
➔ AMPLITUDE= MÁX. - MÍNIMO.
➔ A amplitude é fácil de calcular e é fácil
de interpretar. Mas essa medida não
mede bem a variabilidade por uma
razão simples: para calculá-la,
usam-se apenas dados que podem ter
variabilidades diferentes e apresentar
a mesma amplitude. Ainda, um valor
discrepante- por ser muito grande, ou
muito pequeno- faz a amplitude
aumentar muito. Amplitude é muito
sensível aos valores discrepantes.
4
UNINOVE
Gráficos
5