Baixe o app para aproveitar ainda mais
Prévia do material em texto
1 Universidade Federal de Campina Grande Centro de Educação e Saúde – CES Disciplina: Bioestatística Prof. Alecxandro Alves Vieira, Dr Nota de Aula - 04 Medidas de Posição OUTUBRO - 2020 2 MEDIDAS DE POSIÇÃO 1. Introdução Na Estatística Descritiva, ou na análise descritiva de dados, além da realização do resumo e organização de dados por meio de tabelas e gráficos estatísticos, consiste também no cálculo de valores numéricos que ajudam na produção de uma visão global dos dados, denominados medidas descritivas. Tais medidas, se calculadas a partir de dados populacionais, são denominadas parâmetros e se calculadas a partir de dados amostrais são denominadas estatísticas. Nesta seção veremos algumas medidas descritivas, denominadas medidas de posição (ou medidas resumo), que tem como objetivo resumir um conjunto de dados por meio de valores representativos. As medidas de posição se dividem em dois grupos: as medidas de tendência central e as medidas separatrizes. 2. Medidas de Tendência Central As medidas de tendência central são assim denominadas por indicarem um ponto em torno do qual se concentram os dados. Essas medidas sumarizam certas características importantes da distribuição de frequências da variável de interesse. Em nossos estudos iremos nos limitar as medidas de tendência central mais importantes: a média aritmética, a mediana e a moda. Para o cálculo de tais medidas, devemos levar em conta o agrupamento ou não dos dados. ✓ dados não agrupados (dados brutos); ✓ dados agrupados em tabelas de frequências (pontual ou intervalar). 2.1 Media Aritmética 2.1.1 Dados não agrupados (média aritmética simples) Sejam x1, x2 , ... , xn os valores assumidos por determinada variável quantitativa X em uma amostra de n observações. Neste caso, definimos a média amostral — indicada por 𝜲 (lê-se: x-barra), como a medida aritmética dos dados, obtida através do quociente entre soma de todos os valores observados da variável e o número total de observações: Observação 01: Quando calculada a partir de dados populacionais, a média aritmética será denominada média populacional, simbolizada pela letra grega µ Χ = x1 + x2 + ... + xn n = ∑ xi n i=1 n 3 Exemplo 01: Suponha que os pesos em Kg de 10 recém-nascidos, são os seguintes: 3,2--3,2--2,8--2,1--2,9--3,1--3,2--3,0--3,5--4,0 Neste caso, a média será dada por: ou seja, os recém-nascidos mediram, em média, 3,1 Kg de peso. Obviamente alguns recém- nascidos têm peso abaixo e outros acima deste valor, mas a média é um valor típico. 2.1.2 Propriedades da média aritmética I. A média só pode ser calculada para dados quantitativos e seu valor depende de todas as observações; II. A média é única em um conjunto de dados e nem sempre tem existência real, ou seja, nem sempre é igual a um determinado valor observado; III. A média é afetada por valores extremos observados; IV. Por depender de todos os valores observados, qualquer modificação nos dados fará com que a média fique alterada. Em particular, somando-se, subtraindo-se, multiplicando-se ou dividindo-se uma constante a cada valor observado, a média ficará acrescida, diminuída, multiplicada ou dividida desse valor; V. A soma da diferença de cada valor observado em relação à média é zero, ou seja, a soma dos desvios é zero. ∑(𝑥𝑖 − �̅�) = 0 2.1.3 Vantagens e desvantagens da média aritmética Embora possua maior poder matemático e ser a medida de tendência central mais utilizada (e preferida), a média tem a desvantagem de ser afetada por valores extremos e em distribuições assimétricas, com valores muito discrepantes (muito altos ou muito baixos em relação ao valor médio), pode apresentar uma informação distorcida, não representando adequadamente os dados. Para estas situações o cálculo de outras medidas de tendência central, a mediana e/ou a moda pode ser uma alternativa adequada para descrever o conjunto de dados. 𝜲 = 𝟑, 𝟐 + 3,2 + 𝟐, 𝟖 + 𝟐, 𝟏 + 𝟐, 𝟗 + 𝟑, 𝟏 + 𝟑, 𝟐 + 𝟑, 𝟎 + 𝟑, 𝟓 + 𝟒, 𝟎 𝟏𝟎 = 𝟑𝟏 𝟏𝟎 = 𝟑, 𝟏 kg 4 2.1.4 Média para dados agrupados em tabelas de frequências Quando se tem os dados resumidos e organizados por meio de tabelas de frequências, a média processa-se por meio do cálculo da média aritmética ponderada. Nesse caso, a ponderação é feita pelas frequências absolutas (fi) de cada classe da tabela. Caso 01 (Tabela de frequências pontual) - Se tivermos n observações da variável X, das quais f1 são iguais a x1, f2 são iguais a x2, . . ., fk são iguais a xk, então a média pode ser definida por: Exemplo 02: Consideremos a distribuição de 27 funcionários de uma empresa, tomando para variável o número de filhos: Assim, teremos uma média de 2,3 filhos por funcionário. Caso 02 (Tabela de frequências intervalar) - No caso de variáveis quantitativas resumidas em tabelas de frequência com intervalos de classe, a média pode ser calculada, supondo que os valores dentro de cada intervalo sejam iguais aos seus respectivos pontos médios (PMi). Neste caso, a média aproximada será dada por: Exemplo 3: A tabela abaixo mostra a distribuição de frequências das alturas de 40 moradores de uma localidade. Qual a altura média dos moradores. Ou seja, a média das alturas, nessa amostra, é de 173 cm. Nº de filhos (xi) fi 0 2 1 4 2 10 3 6 4 5 Total (n) 27 Altura (cm) PMi fi fr (%) 151 |⎯ 159 155 2 5,0% 159 |⎯ 167 163 9 22,5% 167 |⎯ 175 171 14 35,0% 175 |⎯ 183 179 8 20,0% 183 |⎯ 191 187 6 15,0% 191 |⎯ 199 195 1 2,5% Total (n) --- 40 100% Χ = x1f1 + x2 f2 + ... + xkfk f1 + f2 + ... + fk = ∑ xifi k i=1 n Χ = PM1f1 + PM2 f2 + ... + PMkfk f1 + f2 + ... + fk = ∑ PMifi k i=1 n Χ= 155x2 + 163x9+171x14+179x8+187x6+195x1 2+9+14+8+6+1 Χ= 6920 40 =173cm Χ = 0x2 + 1x4 + 2x10 + 3x6 + 4x5 2+4+10+6+5 = 62 27 = 2,3 5 2.2 Moda (Mo) É o valor (ou os valores) no conjunto de dados que ocorre(m) com maior frequência. Esse valor é denominado “valor modal”. Ex. 04: Na série 3, 4, 5, 7, 7, 7, 9, 9 → Mo = 7. Ex. 08: ▪ Série Unimodal (tem uma única moda) Ex. 05: 3, 5, 6, 6, 6, 7, 8. → Mo = 6 ▪ Série Bimodal (ocorrem duas modas) Ex. 06: 2, 5, 5, 5, 6, 7, 9, 9, 9, 10, 10. → Mo = 5 e 9. • Série Amodal (não existe moda) Ex. 07: 0, 1, 3, 4, 7, 8, não existe moda. Mo = sangue do tipo "O" Ex. 09: Para a tabela do exemplo 02, a moda será de 2 filhos. Mo= 2 filhos (valor com maior frequência absoluta). Veja que, quando os dados estão apresentados em forma de rol ou agrupados em tabelas de frequências pontuais, para se encontrar o valor modal, basta identificar o valor (ou valores) da variável que ocorre com maior frequência. 2.2.1 Cálculo da Moda para dados agrupados em tabelas de frequências intervalares Após o agrupamento dos dados em classes intervalares, a classe modal corresponderá à classe que apresenta a maior frequência. Neste caso, a moda pode ser determinada através de dois processos principais: 1. Moda Bruta (MoB) - corresponde ao ponto médio da classe modal, Mo𝐵 = 𝐿𝑖+𝐿𝑠 2 2. Moda de Czuber (Moz) - O cálculo do valor modal é feito por meio da fórmula: Onde: lMo= limite inferior da classe modal. d1 = diferença entre a frequência absoluta da classe modal e a frequência absoluta da classe anterior à classe modal, ou seja, d1=fMo-fant. d2 = diferença entre a freqüência da classe modal e a freqüência da classe posterior à classe modal, ou seja, d2=fMo-fpost. hMo= amplitude da classe modal. Ex. 10: Para a tabela de distribuição de frequências do exemplo 03, temos: Classe modal: 167 |⎯ 175; d1=14-9=5; d2=14-8=6. Donde a modabruta é, MoB = 167+175 2 = 171 metros e a moda de Czuber: Tipo de Sangue f O 547 A 441 B 123 AB 25 Total 1136 Mo = lMo + ( d1 d1 + d2 ) . hMo Mo = 167 + ( 5 5 + 6 ) x 8 = 170,6 metros 6 2.3 Mediana (Md) O valor mediano ocupa a posição central do conjunto dos dados ordenados, dividindo esse conjunto de dados em duas metades iguais: uma com números menores ou iguais à mediana, outra com números maiores ou iguais à mediana. Em outras palavras, 50% das observações são menores ou iguais ao valor mediano e 50% das observações são maiores ou igual ao valor mediano. Para se obter o valor da mediana se faz necessário seguir as seguintes etapas: I - Ordenar o conjunto de dados em ordem crescente; II- Identificar a posição central (PMd) do conjunto de dados, ou seja, a posição onde se encontra o valor da mediana. Para um conjunto com uma quantidade de n dados, a posição central pode ser obtida a partir da seguinte regra: PMd = 𝐧+𝟏 𝟐 . Decorre, portanto, que o valor mediano será o valor observado na posição 𝒏+𝟏 𝟐 . Ou seja, 𝐌𝐝 = 𝐗𝐧+𝟏 𝟐 . Observação 02: Se n for par, a posição central, PMd = 𝐧+𝟏 𝟐 , não será um número inteiro, neste caso, toma-se como mediana a média dos dois valores que estão nas posições imediatamente abaixo e acima de (n +1)/2. Exemplo 11: a) Em { 5, 7, 10, 13, 15 }, temos n=5. Neste caso, Χ=10 e a Md = X5+1 2 = X3 = 10. b) Em { 5, 7, 10, 13, 65 }, temos n=5. Neste caso, Χ= 20 e a Md = X5+1 2 = X3 = 10. Perceba que a média do segundo conjunto de dados é maior do que a do primeiro, sofrendo influência do valor discrepante 65, ao passo que a mediana permanece a mesma. Esta é uma das principais vantagens da mediana em relação a média, não ser afetada por valores extremos. c) Em { 5, 7, 10, 13, 15, 15 }, temos n=6. Neste caso, Χ= 10,8 e a mediana será dada por: Md = X6+1 2 = X3,5 = X3+X4 2 = 10+13 2 = 11,5. Exemplo 12: Consideremos a distribuição de 27 funcionários de uma empresa, segundo a variável o número de filhos. Qual o número mediano de filhos dos empregados: Neste caso, n=27, e, portanto: Md = X27+1 2 = X14 = 2 filhos Conclusão: Metade dos funcionários tem dois filhos ou menos (até dois filhos), e a outra metade, tem 2 filhos ou mais. Nº de filhos (xi) fi 0 2 1 4 2 10 3 6 4 5 Total (n) 27 7 2.3.1 Mediana para dados agrupados em tabelas de frequências intervalares Neste caso, para a obtenção do valor mediano, devemos executar os seguintes passos: 1. Determinamos as frequências acumuladas de todos os intervalos da tabela. 2. Calculamos a metade da quantidade de dados, 𝑛 2 . 3. Determinamos a classe mediana (onde está localizado o valor mediano), que corresponde a classe com frequência acumulada (FAC) imediatamente superior à 𝑛 2 . 4. Em seguida, o valor mediano pode ser obtido a partir da fórmula: Onde: lMd= limite inferior da classe mediana. FAC_ant = frequência acumulada da classe anterior à classe mediana. fMd= frequência absoluta da classe mediana. hMd= amplitude da classe mediana. Exemplo 13: Dada a seguinte tabela de distribuição frequências da variável X = salário (em s.m) de 36 empregados: Faixas de salários Ponto médio (PMi) Freq. Absoluta (fi) Freq. Rel. (fRi) % Freq. Absoluta Acum. (Fi) 4 |----- 8 6 10 28% 10 8 |----- 12 10 12 33% 22 12 |----- 16 14 8 22% 30 16 |----- 20 18 5 14% 35 20 |----- 24 22 1 3% 36 Total (n) ---- 36 100% ---- Neste caso, a classe mediana (onde está localizado o valor mediano), corresponde a classe com frequência acumulada (FAC) imediatamente superior à 𝑛 2 = 36 2 = 18. Assim, 8 |----- 12, será a classe ou intervalo mediano. Assim, o valor mediano será: Conclusão: Metade dos funcionários recebem até 10,7 s.m. e a outra metade recebem salário a partir de 10,7 s.m. 𝐌𝐝 = 𝐥𝐌𝐝 + ( 𝐧 𝟐 − 𝐅𝐀𝐂_𝐚𝐧𝐭 𝐟𝐌𝐝 ) . 𝐡𝐌𝐝 𝐌𝐝 = 𝟖 + ( 𝟑𝟔 𝟐 −𝟏𝟎 𝟏𝟐 ) . 𝟒 =10,7 salários mínimos 8 2.4 Influência da forma da distribuição de frequências sobre posição das medidas de tendência central Exercício: Dada a seguinte tabela de distribuição de frequências da variável X = Quantidade de creatinina na urina em mg/ml de 36 pacientes de uma clínica X. Faixa de creatinina Ponto médio (PMi) Nº de pacientes (fi) Freq. Rel. (fi) % Freq. Abs. Acum. (Fi) 1,08 ├ 1,36 10 28% 1,36 ├ 1,64 12 33% 1,64 ├ 1,92 8 22% 1,92 ├ 2,20 5 14% 2,20 ├ 2,48 1 3% Total (n) ---- 36 100% ---- a) Qual a média, a moda bruta, a moda de Czuber e a mediana das quantidades de creatinina presente na urina dos 36 pacientes? b) Comparando os valores das medidas obtidos no item a), o que se pode dizer sobre a forma da distribuição dos dados? 9 3. Medidas Separatrizes Além das medidas de tendência central, que indicam um ponto em torno do qual se concentram os dados, há outras medidas de posição que, consideradas individualmente, não são medidas de tendência central, mas se baseiam em sua posição na série. Essas medidas - os quartis, os decis e os percentis - são, juntamente com a mediana, conhecidas pelo nome genérico de separatrizes. Para o cálculo das medidas separatrizes utilizam-se técnicas semelhantes àquelas do cálculo da mediana. As medidas separatrizes recebem o nome de acordo com a quantidade de partes em que é dividida o conjunto de dados ordenados: • A mediana (Md): divide a série de dados em duas partes iguais; • Os quartis (Q1, Q2 e Q3): dividem a série de dados em quatro partes iguais. Ou seja: Q1 separa os 25% inferiores dos 75% superiores; Q1 = Xn+1 4 = X[0,25.(n+1)] Q2 separa os 50% inferiores, ou seja, Q2 = X2 4 (𝑛+1) = X[0,50.(n+1)] = Md Q3 separa os 75% inferiores dos 25% superiores; Q3 = X3 4 (𝑛+1) = X[0,75.(n+1)] • Os decis (D1; D2; D3; D4; D5; D6; D7; D8 e D9): dividem a série em dez partes iguais; Por exemplo: D1 separa os 10% inferiores dos 90% superiores; Q1 = Xn+1 10 = X[0,10.(n+1)] D5 separa os 50% inferiores, ou seja, D5 = X 5 10 (𝑛+1) = X[0,50.(n+1)] = Md D8 separa os 80% inferiores dos 20% superiores; D8 = X 8 10 (𝑛+1) = X[0,80.(n+1)] • Os percentis (P1; P2; P3; ...; P99): dividem a série em cem partes iguais. Por exemplo: P1 separa os 1% inferiores dos 99% superiores; P1 = Xn+1 100 = X[0,01.(n+1)] P50 separa os 50% inferiores, ou seja, P50 = X 50 100 (𝑛+1) = X[0,50.(n+1)] = Md P75 separa os 75% inferiores dos 25% superiores; P75 = X 75 100 (𝑛+1) = Q3 Observação 03: Se o valor calculado para as posições de tais medidas não for inteiro, calcula-se a média entre os valores imediatamente anterior e imediatamente posterior, a posição calculada. Por exemplo: Para uma medida com posição 22,5 (não inteira), X22,5, o valor da medida será obtido através da média entre o X22 e X23; 10 Exemplo 14: Numa companhia A, a média dos salários é R$ 10.000 e o 3º quartil (Q3) é igual a R$ 5.000. Se você se apresentasse como candidato a funcionário nessa empresa e se o salário de um candidato fosse escolhido ao acaso entre todos os possíveis salários pagos pela empresa, o que seria mais provável: ele ganhar mais ou menos que R$ 5.000? Justifique! Resolução: O Q3 = R$ 5.000, nos diz que 75% dos funcionários recebem salários até R$ 5.000. Assim, embora tenhamos uma média de R$ 10.000, somente 25% ganham mais de R$5.000 (distribuição assimétrica a direita). Portanto, seria mais provável o candidato a emprego ganhar menos de R$ 5.000. Exemplo 15: O tempo (em meses) entre a remissão de uma doença e a recidiva foram registrados em 24 pacientes de uma determinada clínica médica. Os dados, já ordenados, foram os seguintes: 2 2 3 4 4 4 6 7 7 7 8 9 10 10 12 15 15 15 16 18 18 22 22 27. Determine: (a) A mediana para esses valores; (b) Os quartis.Resolução: a) A mediana será dada por Md = X24+1 2 = X12,5 = X12+X13 2 = 9+10 2 = 9,5 meses. b) O 1º quartil será dado por Q1 = X24+1 4 = X[0,25.(24+1)] = X6,25 = X6+X7 2 = 4+6 2 = 5 meses. O 2º quartil, Q2 = Md = 9,5 meses; O 3º quartil será dado por Q3 = X[0,75.(24+1)] = X18,75 = X18+X19 2 = 15+16 2 = 15,5 meses. Exemplo 16: A distribuição do número de defeitos presentes em 27 peças de mesmo tipo é dada abaixo. Determine o 1º quartil, a mediana e o 90º percentil dessa distribuição de frequências. Nº de defeitos 0 1 2 3 4 Total fi 2 4 10 6 5 27 Resolução: O 1º quartil será dado por Q1 = X[0,25.(27+1)] = X7 = 2 defeitos. A mediana será dada por Md = X[0,50.(27+1)] = X14 = 2 defeitos. O 90º percentil será dado por P90 = X[0,90.(27+1)] = X25,2 = X25+X26 2 = 4+4 2 = 4 defeitos. Observação 04: Quando os dados são agrupados em tabelas de frequências intervalares, para determinar, por exemplo, os quartis, usamos a mesma técnica do cálculo da mediana, bastando substituir, na fórmula da mediana, 𝑛 2 (por: kn 4 , sendo k o número de ordem do quartil), e proceder a localização da classe onde se encontra o quartil de interesse. Para ver exemplos consulte a seção 6.6 do livro Estatística Fácil. https://drive.google.com/file/d/1mRF-ubpzLyNogeH9YCrMCMViwBsUkuvc/view?usp=sharing 11 Sugestão de exercícios para aprendizagem acerca das medidas de posição: • Livro Estatística Fácil (capítulo 06, páginas 100 e 101) Questões: 01, 02, 03, 04, 05, 06, 07, 08, 09, 10 e 14. • Livro Introdução à Bioestatística (capítulo 04, páginas 80 e 82) Questões: 4.6.3; 4.6.4; 4.6.7; 4.6.9. https://drive.google.com/file/d/1mRF-ubpzLyNogeH9YCrMCMViwBsUkuvc/view?usp=sharing https://drive.google.com/file/d/1c7JQ9UHMh5oTVa0OAVZ6whxsG_Q8SHZ3/view?usp=sharing
Compartilhar