Baixe o app para aproveitar ainda mais
Prévia do material em texto
Medidas de dispersão O resumo de um conjunto de dados por uma única medida representativa de posição central esconde toda a informação sobre a variabilidade do conjunto de observações. Por exemplo, suponhamos que cinco grupos de alunos submeteramse a um teste, obtendose as seguintes notas: grupo A: 3, 4, 5, 6, 7 grupo B: 1, 3, 5, 7, 9 grupo C: 5, 5, 5, 5, 5 grupo D: 3, 5, 5, 7 grupo E: 3, 5, 5, 6, 6 A identificação de cada uma destas séries por sua média (5, em todos os casos) nada informa sobre suas diferentes variabilidades. Notamos, então, a conveniência de serem criadas medidas que sumarizem a variabilidade de um conjunto de observações e que nos permita, por exemplo, comparar conjuntos diferentes de valores, como os dados acima, segundo algum critério estabelecido. Um critério frequentemente usado para tal fim é aquele que mede a dispersão dos dados em torno de sua média, e duas medidas são as mais usadas: desvio médio e variância. O princípio básico é analisar os desvios das observações em relação à média dessas observações. Para o grupo A acima os desvios são: –2, –1, 0, 1, 2. É fácil ver que, para qualquer conjunto de dados, a soma dos desvios é igual a zero. Nestas condições, a soma dos desvios �não é uma boa medida de dispersão para o conjunto A. Duas opções são: (a) considerar o total dos desvios em valor absoluto; (b) considerar o total dos quadrados dos desvios. Para o grupo A teríamos, respectivamente, 6 e 10, conforme tabela abaixo: Existem diversas formas de quantificar a variabilidade ou dispersão de um conjunto de dados. Todas estas formas usam uma medida de posição como referência e “medem” a proximidade ou afastamento dos dados com relação à medida de posição usada. De todas as medidas de variabilidade existentes, as mais conhecidas e usadas são a variância (S2) e o desvio padrão (S). A variância amostral é definida pela soma dos quadrados dos desvios dividida por N 1, já o desvio padrão é a raiz quadrada da variância. Assim, para o exemplo acima, temse: S2 = 10/(5 1) = 10/4 = 2,5 S = Raiz(2,5) = 1,58 Quantis Tanto a média como o desvio padrão podem não ser medidas adequadas para representar um conjunto de dados, pois: (a) são afetados, de forma exagerada, por valores extremos; (b) apenas com estes dois valores não temos idéia da simetria ou assimetria da distribuição dos dados. Para contornar esses fatos, outras medidas têm de ser consideradas. Vimos que a mediana é um valor que deixa metade dos dados abaixo dela e metade acima. De modo geral, podemos definir uma medida, chamada quantil de ordem p ou pquantil, indicada por q(p), onde p é uma proporção qualquer, 0 < p < 1, tal que 100p% das observações sejam menores do que q(p). Abaixo estão indicados alguns quantis e seus nomes particulares. q(0,25) = q1: 1o Quartil = 25o Percentil q(0,50) = q2: Mediana = 2o Quartil = 50o Percentil q(0,75) = q3: 3o Quartil = 75o Percentil q(0,40): 4o Decil q(0,95): 95o Percentil Primeiro quartil O primeiro quartil é a observação que divide o conjunto de dados ordenados em duas partes, 25% dos dados com valores menores a este quartil e 75% com valores superiores. Terceiro quartil O terceiro quartil é a observação que divide o conjunto de dados ordenados em duas partes, 75% dos dados com valores menores a este quartil e 25% com valores superiores. Amplitude e amplitude interquartílica A diferença entre o maior valor e o menor valor de um conjunto de dados é chamada de amplitude. Já a variação entre o terceiro quartil e o primeiro quartil é conhecido como amplitude interquartílica. Construindo um Box Plot Para construir este diagrama, consideremos um retângulo onde estão representados a mediana e os quartis. A partir do retângulo, para cima, segue uma linha até o ponto mais remoto que não exceda o limite superior = q3 + (1,5)amplitude interquartílica. De modo similar, da parte inferior do retângulo, para baixo, segue uma linha até o ponto mais remoto que não seja menor do que o limite inferior = q1 – (1,5)amplitude interquartílica. Os valores compreendidos entre esses dois limites são chamados valores adjacentes. As observações que estiverem acima do limite superior ou abaixo do limite inferior estabelecidos serão chamadas pontos exteriores (ou extremos) e representadas por asteriscos ou pontos. Essas são observações destoantes das demais e podem ou não ser o que chamamos de outliers ou valores atípicos. O box plot dá uma idéia da posição, dispersão, assimetria, caudas e dados discrepantes. A posição central é dada pela mediana e a dispersão pela amplitude interquartílica. As posições relativas de q1, q2, q3 dão uma noção da assimetria da distribuição. Os comprimentos das caudas são dados pelas linhas que vão do retângulo aos valores remotos e pelos valores atípicos. Referências Bussab, W. O. e Morettin, P. A. (2014). Estatística Básica. São Paulo, SP: Editora Saraiva. Corty, E. W. (2016). Using and Interpreting Statistics. New York, NY: Macmillan Learning. Velarde, L. G. C. (2008). Noções de Bioestatística. Rio de Janeiro, RJ: Universidade Federal Fluminense. Exercício 1: A tabela abaixo representa a distribuição de frequência dos salários de um grupo de 50 empregados de uma empresa, em certo mês. O salário médio desses empregados, nesse mês, foi de: A R$ 2 637,00 B R$ 2 520,00 C R$ 2 500,00 D R$ 2 420,00 E R$ 2 400,00 Comentários: Essa disciplina não é ED ou você não o fez comentários Exercício 2: Em um grupo de pessoas, as idades são: 10, 12, 15 e 17 anos. Caso uma pessoa de 16 anos juntese ao grupo, o que acontece com a média das idades do grupo? A Permanece inalterada. B Diminui em um ano. C Aumenta e passa ser 16. D Passa a ser 14. E Aumenta em 2 anos. Comentários: Essa disciplina não é ED ou você não o fez comentários Exercício 3: Determine a média da distribuição abaixo. Observação Frequência 5 2 7 3 8 6 10 4 13 1 A 8,25 B 8 C 10 D 8,5 E 6 Comentários: Essa disciplina não é ED ou você não o fez comentários Exercício 4: Em um ambulatório infantil, anotaramse a idade d e algumas crianças atendidas e chegouse aos dados abaixo. Classes Frequência 02 anos 8 2 4 anos 12 4 6 anos 15 6 8 anos 5 Considere as afirmativas abaixo: I. Não há moda nesta distribuição. II. A média é de 2 anos. III. O tamanho da amostra é 40 Está correto o que se afirma somente em: A I B II C III D I e III E II e III Comentários: Essa disciplina não é ED ou você não o fez comentários
Compartilhar