Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNINOVE Medidas de Dispersão e Gráficos Bioestatístic� Medidas de tendência central ➔ Como estatísticos, nosso trabalho é pegar os dados disponíveis e utilizá-los de uma forma apropriada e isso, frequentemente, envolve construir modelos estatísticos do fenômeno de interesse. ➔ A média é um valor hipotético que pode ser calculado para qualquer conjunto de dados; ela não precisa ser um valor realmente observado no conjunto de dados; Ex: se pegarmos cinco professores de estatística e contarmos o número de amigos que eles tem, poderemos encontrar os seguintes dados: 1 2, 3, 3 e 4. Se pegarmos a média do número de amigos: Resposta: isso poderá ser calculado adicionando os valores obtidos e dividindo pelo número de valores contados: (1+2+3+3+4)/5= 2,6. Obs: sabemos que é impossível ter 2,6 amigos (a não ser que você corte alguém com uma serra e seja amigo do seu braço), assim, a média é um valor hipotético. Portanto, a média é um modelo estatístico criado para resumir nossos dados. Essas linhas representam os desvios entre os dados observados e o nosso modelo e podem ser pensadas como o erro do modelo. Podemos calcular a magnitude desses desvios simplesmente subtraindo a média de cada um dos valores observados (xi)1. Gráfico mostrando as diferenças entre o número observado de amigos que cada professor de estatística tem e o número médio de amigos (linha tracejada). ➔ Por exemplo, o professor 1 tem somente 1 amigo, portanto, a diferença é: xi - = 1 - 2,6= -1,6. Você deve notar que o desvio é um número negativo e ele representa o fato de que nosso modelo superestimou a popularidade desse professor: ele prevê que o professor terá 2,6 amigos quando, na verdade, ele tem somente 1 amigos. ➔ O resultado diz que não há um erro total entre nosso modelo e os dados observados, assim, a média é uma representação perfeita dos dados. Mas isso obviamente não é verdade: houve 1 UNINOVE erros, alguns deles foram positivos e alguns negativos e eles simplesmente cancelaram uns aos outros. ➔ Devemos evitar o problema de erro direcionado (isto é, positivo ou negativo) e uma maneira matemática de fazer isso é elevar cada erro ao quadrado, ou seja, multiplicar cada erro por ele mesmo. Assim, em vez de calcularmos a soma dos erros, calculamos a soma dos quadrados dos erros; Ex: ➔ A soma dos erros ao quadrado (SS) é uma boa medida da acurácia do nosso modelo. Contudo, é óbvio que a soma dos erros ao quadrado depende do total de dados que foram coletados- quanto mais dados, maior o SS. Para solucionar esse problema, calculamos a média dos erros dividindo o SS pelo número de observações (N). ➔ Se estivermos somente interessados na média do erro para a amostra, podemos dividir apenas por N. Entretanto, geralmente estamos interessados em usar o erro na amostra para estimar o erro na população e, assim, dividimos o SS pelo número de observações menos 1. Essa medida é conhecida como Variância. ➔ A variância é, portanto, a média do erro entre a média e as observações feitas (e é medida de como o modelo corresponde aos dados reais). ➔ Existe um problema da variância como medida: ela é expressa em unidades quadradas (porque colocamos cada erro ao quadrado no cálculo). Em nosso exemplo, teremos que dizer que a média do erro em nossos dados (a variância) foi 1,3 amigos ao quadrado. ➔ Geralmente tiramos a raiz quadrada da variância (o que garante o erro médio será expresso na mesma unidade da variável). Essa medida é conhecida como desvio padrão e é simplesmente a raiz quadrada da variância. ➔ O desvio padrão é, portanto, uma medida de quão bem a média representa os dados. Pequenos desvios padrões (relativos ao valor da próprio média) indicam que pontos de dados estão próximos da média. Um desvio padrão grande (relativo a média) indica que os pontos de dados estão distantes da média (isto é, a média não é uma representação precisa de dados), Um desvio padrão de 0 significaria que todos os escores são os mesmos. 2 UNINOVE ➔ Os gráficos mostram um índice geral (em uma escala de cinco pontos) dos dois professores depois de cada uma das cinco aulas. Ambos os professores tiveram uma média de 2,6 em uma escala de 5 pontos. Entretanto, o primeiro professor tem um desvio padrão de 0,55 (relativamente pequeno se comparado a média). Deve ficar claro no gráfico que os índices para esse professor estavam consistentemente próximos do valor da média. Houve uma pequena flutuação, mas em geral suas aulas não variaram em popularidade. ➔ A média deve ser de boa aderência aos dados. O segundo professor, entretanto, teve um desvio padrão de 1,82 (relativamente alto comparado a média). Os índices para esse professor estão claramente mais espalhados em torno da média. ➔ Como lidar com outliers (valores atípicos)? ◆ Existem duas formas de fazer isso: ● (1) olhar o diagrama de caixa e bigodes; ● (2) olhar os escores-z; ● (1) olhar o diagrama de caixa e bigodes (Box splot); ● O diagrama de caixa e bigodes nos mostra o menor escore (a linha horizontal inferior em cada figura) e o maior (a linha superior horizontal de cada figura). A distância entre a linha mais inferior e a aresta inferior da caixa é a amplitude onde os 25% escores mais baixos podem ser encontrados (é denominado quartil inferior). A caixa mostra os 50% dos escores situados no meio do conjunto de valores (denominado intervalo interquartílico): ● isto é, 50% dos escores são maiores do que a parte mais baixa da figura. A distância entre a aresta superior da caixa e a linha horizontal superior mostra o intervalo onde os 25% maiores escores (quartil superior). No meio da caixa há uma linha horizontal levemente mais grossa que as arestas (bordas) da caixa. ● Essa linha representa a mediana, que seria o escore do meio se todos os escores da higiene fossem colocados em ordem. Assim como os histogramas, eles também nos 3 UNINOVE informam se a distribuição é simétrica ou não. No primeiro dia, em que a distribuição é simétrica, os bigodes em cada lado apresentam o mesmo tamanho (o intervalo entre os 25% valores superiores e os 25% inferiores são iguais). No entanto, nos dias dois e três, os bigodes situados no topo são maiores do que os situados embaixo, mostrando que a distribuição é assimétrica (isto é, 25% dos escores superiores estão espalhados em um intervalo maior do que os 25% escores inferiores). Finalmente, você terá notado alguns círculos acima de cada um dos diagramas. ● Esses casos são os valores atípicos (outliers). Cada círculo apresenta um número próximo a ele, informando em que linha do editor de dados esse caso poderá ser encontrado. ➔ O mínimo de um conjunto de dados é o número de menor valor; ➔ O máximo de conjunto de dados é o número de maior valor; ➔ A amplitude de um conjunto de dados, definida como a diferença entre o máximo e o mínimo, é uma medida de dispersão ou variabilidade; ➔ AMPLITUDE= MÁX. - MÍNIMO. ➔ A amplitude é fácil de calcular e é fácil de interpretar. Mas essa medida não mede bem a variabilidade por uma razão simples: para calculá-la, usam-se apenas dados que podem ter variabilidades diferentes e apresentar a mesma amplitude. Ainda, um valor discrepante- por ser muito grande, ou muito pequeno- faz a amplitude aumentar muito. Amplitude é muito sensível aos valores discrepantes. 4 UNINOVE Gráficos 5
Compartilhar