Buscar

MEDIDAS DE POSIÇÃO E DISPERSÃO

Prévia do material em texto

Medidas de posição, dispersão e blox plot
Medidas resumo
Quando a necessidade é de entender as características de um grupo como um todo, precisamos utilizar técnicas da estatística descritiva ou realizar a análise exploratória dos dados.
Medidas resumo: divididas em medidas de posição (moda, média, mediana, quartil e percentil), que indicam a localização dos dados dentro do conjunto, e medidas de dispersão (amplitude, variância e desvio padrão), que indicam a variabilidade dos dados.
Medidas de posição
· Moda: valor que ocorre com maior frequência, sendo que é possível que não haja nenhuma ou mais de uma moda;
· Média: soma de todas as observações dividida pelo número total de observações, ou seja, é o “ponto de equilíbrio” da distribuição dos dados;
A média leva em conta todos os valores da variável e é afetada por valores extremos.
· Mediana: valor que divide o conjunto de dados ao meio, não sendo afetada por valores extremos.
Quando o número de dados é ímpar, a mediana é o valor central. Já quando o número de dados é par, a mediana é a média aritmética dos valores centrais.
· Quartis: dividem os dados ordenados em quatro partes iguais;
· Decis: dividem um conjunto de dados em 10 partes iguais;
· Percentis: dividem um conjunto de dados em 100 partes iguais.
Medidas de dispersão
Avaliam a variabilidade de um conjunto de dados, isso porque um conjunto de dados pode ter a mesma média, mas com variabilidades diferentes. Essa variabilidade pode ser medida verificando a distância entre o maior e o menor valor ou verificando a distância de cada valor em relação à média.
· Amplitude: diferença entre os valores máximo e mínimo de um conjunto de dados, não levando em consideração a distribuição dos dados;
· Variância: medida que indica o quão longe, em geral, os valores do conjunto de dados se encontram da média;
Para qualquer conjunto de dados, a soma dos desvios em relação à variância é zero. Como solução, calcula-se a distância quadrática em relação à média, eliminando os números negativos.
· Desvio padrão: raiz quadrada da variância.
Desvio padrão pequeno: dados homogêneos.
Desvio padrão grande: dados heterogêneos.
Quanto mais espalhados estiverem os dados, maior será o desvio padrão.
· Coeficiente de variação: razão entre o desvio padrão e a média.
Útil para comparar duas distribuições de dados, pois, por ser uma medida de dispersão relativa, ele elimina o efeito de magnitude dos dados.
Costuma-se considerar que o CV superior a 50% indica alto grau de dispersão e, consequentemente, pequena representatividade da média.
Boxplot
Gráfico utilizado para variáveis quantitativas e fornece posição, dispersão, assimetria e dados discrepantes.
Devemos desenhar o eixo do gráfico de acordo com as variáveis da escala de interesse. A reta interna à caixa representa o segundo quartil (ou mediana), a base da caixa representa o primeiro quartil e o topo da caixa representa o terceiro quartil. O comprimento da cauda inferior será determinado pelo valor mínimo da variável de interesse que não seja outlier, assim como o comprimento da cauda superior será determinado pelo valor máximo da variável de interesse que também não seja um outlier. Cada asterisco representa um valor extremo/discrepante (outlier).
Um valor será considerado outlier caso exceda os limites inferior ou superior. A cauda superior que parte do topo do retângulo para cima segue uma linha até o ponto mais remoto que não exceda o limite superior. O mesmo serve para o limite inferior. Os valores compreendidos entre esses limites são denominados valores adjacentes.
O boxplot também nos dá ideia da simetria ou assimetria da distribuição da variável de interesse.
Distribuição simétrica: distância entre mediana e mínimo = distância entre mediana e máximo; distância entre primeiro quartil e mediana = distância entre mediana e terceiro quartil; distância entre mediana e primeiro quartil e mediana e terceiro quartil devem ser menores entre os extremos e o primeiro e terceiro quartis.
Construção do boxplot:
· ordenar os dados de forma crescente;
· calcular os quartis;
· calcular os limites;
· identificar valores discrepantes;
· identificar o mínimo e o máximo dentre os valores adjacentes.

Continue navegando