Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIVERSIDADE ESTADUAL DO OESTE DO PARANÁ - UNIOESTE Curso: Enfermagem – 2º Ano Disciplina: Bioestatística Professor: Wilson Alves de Oliveira 1 ESTATÍSTICA DESCRITIVA (Análise exploratória de dados) 1.1 Estatística e a Bioestatística O primeiro uso da palavra estatística parece datar de 1589 e apareceu em um trabalho do historiador italiano Girolomo Ghilini quando se referiu a uma “Ciência Civil, política, estatística e militar”, segundo Berquó, Souza e Gotlieb1. Costuma-se dividir a estatística em geral ou metodológica e aplicada. A estatística geral visa elaborar métodos gerais aplicáveis a todas as fases do estudo dos fenômenos de massa, desde a coleta dos dados necessários até a apresentação e interpretação dos resultados. A estatística aplicada é todo ramo do conhecimento científico que proceda única ou principalmente por intermédio da metodologia estatística. Compreende a demografia, a biometria, a econometria, a psicometria, a mecânica estatística, etc. Segundo o vocábulo brasileiro de estatística, “Bioestatística é a estatística aplicada que tem por objetivo o estudo e a exposição da situação e do movimento das populações humanas em seus característicos biológicos”. Para Greenberg, “Bioestatística é a ciência que trata com os planos e métodos de coleta, tabulação e análise de fatos numéricos nas ciências da vida”. Os métodos estatísticos abrangem as áreas da estatística vital, biometria, sociometria e psicometria. O fato de bio e vita significarem ambos vida, em grego e latim, respectivamente, explica por que esta igualdade literal levou alguns autores a pensarem na igualdade, também quanto ao objeto, da bioestatística e da estatística vital. Esta última, para Greenberg, limita-se ao estudo dos dados provenientes dos registros de nascimentos e óbitos. Para Berquó, Souza e Gotlieb, Bioestatística é a estatística aplicada às ciências da vida. 1 BERQUÓ, E.S.; PACHECO, J.M.P.; GOTLIED, S.L.P. Bioestatística, São Paulo, E.P.U. 1980. 2 1.2 Tipos de Variáveis A estatística trabalha com informações referentes a conjunto de dados observados. Estes elementos constituem uma amostra retirada da população que se deseja estudar ou a população toda. De um modo geral, para cada elemento observado, tem-se associado um resultado (ou mais de um resultado) correspondendo à realização de uma variável (ou variáveis). As variáveis podem ser classificadas em dois grupos: variáveis quantitativas e variáveis qualitativas. Variáveis quantitativas: são aquelas que descrevem quantidades e são associadas a números. As variáveis quantitativas são classificadas em discretas e contínuas. Variáveis quantitativas discretas: são aquelas que assumem apenas determinados valores no campo dos reais. Em geral, descrevem problemas de contagem. Assumem, portanto, somente valores inteiros. Exemplos: a) Número de filhos em casais residentes em uma determinada cidade. b) Pontos obtidos jogando-se 5 vezes um dado. c) Número de sementes germinadas, de uma determinada planta, em 6 vasos com 5 sementes por vaso, após 2 semanas. Variáveis quantitativas contínuas: são aquelas que podem teoricamente assumir qualquer valor de um subconjunto dos números reais. Exemplos: a) Idade de pessoas residentes em uma determinada cidade. b) Peso de pessoas residentes em uma determinada cidade. c) Altura de pessoas residentes em uma determinada cidade Variáveis qualitativas: são usada para descrever qualidades, categorias, etc. Exemplos: a) Conceito obtido pelos alunos de pós-graduação de uma determinada Universidade (A, B, C, D, E). b) Sexo dos alunos da UNIOESTE (M, F). c) Classe de renda dos operários do bairro B (baixa, média, alta). d) Causa mortis (moléstias cardiovasculares, cânceres, moléstias do aparelho digestivo, etc.) em um hospital, nos últimos 5 anos. OBS. As variáveis qualitativas são classificadas em ordinais e nominais. Variáveis qualitativas ordinais: quando houver um sentido de ordenação em seus possíveis valores, como nas variáveis citadas nos itens a e c. Variáveis qualitativas nominais: quando não houver sentido de ordenação, em seus valores, como nas variáveis citadas nos itens b e d. Bioestatística – Prof. Wilson Alves de Oliveira 3 Variáveis Bidimensionais ou multidimensionais Pode ocorrer, em problemas práticos, que tenhamos interesse em estudar simultaneamente dois ou mais atributos quantitativos, qualitativos ou ambos. Exemplo: Visando planejar uma dieta alimentar padrão para os funcionários de certa empresa, um nutricionista anotou o peso e a altura de 10 deles. Tomando X e Y para descrever, respectivamente, as variáveis quantitativas contínuas peso em kg e altura em cm, temos a variável bidimensional (X, Y) e um conjunto de pares ordenados (xi, yi). Por exemplo: (X, Y) = {(65, 175), (82, 181), ... , (70, 172)}. Note que o nutricionista poderia ter julgado relevante tomar a idade Z dos funcionários. Neste caso, teríamos uma variável tridimensional (X, Y, Z) descrita por ternas ordenadas (xi, yi, zi). Poderia-se incluir, também, a variável sexo (qualitativa). 1.3 Distribuição de Frequências Alguns conceitos fundamentais: População é um conjunto de indivíduos ou objetos que apresentam pelo menos uma característica em comum. A população pode ser finita ou infinita. Amostra – Considerando-se a impossibilidade, na maioria das vezes, do tratamento de todos os elementos da população, retira-se uma amostra. Portanto, amostra é um subconjunto da população. Os procedimentos para a representação das distribuições de frequências são dados a seguir. 1. Dados brutos. O conjunto dos dados numéricos obtidos após a crítica dos valores coletados constitui-se nos dados brutos. 2. Rol. É o arranjo dos dados brutos em ordem de frequência crescente ou decrescente. 3. Amplitude total ou “range” (R). É a diferença entre o maior e o menor valor observado. 4. Frequência absoluta (fi). É o número de vezes que o elemento aparece na amostra, ou o número de elementos pertencentes a uma classe. 5. Distribuição de frequência. É o arranjo dos valores e suas respectivas frequências. 6. Número de classes (K). Não há uma fórmula exata para o cálculo do número de classes. A mais utilizada é fórmula de Sturges, nK log22,31+≅ . Bioestatística – Prof. Wilson Alves de Oliveira 4 7. Amplitude das classes (h). É a diferença entre o limite superior e o limite inferior da classe correspondente, KRh ÷≅ . 8. Limites das classes. Existem diversas maneiras de expressar os limites das classes. a) a | b, a classe compreende valores de a, inclusive, até b, exclusive. b) a | b, a classe compreende valores de a, exclusive, até b, inclusive. c) a b, a classe compreende valores de a, exclusive, até b, exclusive. d) a || b, a classe compreende valores de a, inclusive, até b, inclusive. 9. Ponto médio das classes (xi). É a média aritmética entre o limite superior e o limite inferior da classe. 10. Frequência absoluta acumulada (Fac). É a soma das frequências dos valores inferiores ou iguais ao valor dado. 11. Frequência relativa (ri). É o quociente entre a frequência simples da classe e o total de elementos, n f r ii = , onde n = ∑ fi. 12. Frequência relativa acumulada (Ri). É o quociente entre a frequência acumulada da classe e o total de elementos, n F R aci = . 13. Histograma. É a representação gráfica de umadistribuição de frequências por meios de retângulos justapostos. 14. Polígono de frequências. Unindo por linhas retas os pontos médios das bases superiores dos retângulos do histograma, obtém-se outra representação dos dados, denominada polígono de frequências. Bioestatística – Prof. Wilson Alves de Oliveira 5 Exemplo: Dado o rol de 50 notas, formar uma distribuição de frequências, construir o histograma e o polígono de frequências. 33 35 35 39 41 41 42 45 47 48 50 52 53 54 55 55 57 59 60 60 61 64 65 65 65 66 66 66 67 68 69 71 73 73 74 74 76 77 77 78 80 81 84 85 85 88 89 91 94 97 Solução: Amplitude total (R): R = 97 – 33 = 64; Número de classes (K): .log22,31 nK +≅ Como n = 50 e log 50≅ 1,7. Então, .47,647,51)7,1(22,31 =+=+=K Portanto, K ≅ 7. Amplitude das classes (h): 14,9 7 64 ==h . Logo, h 10≅ . Para facilitar a contagem das frequências, iniciaremos a primeira classe por 30. Porém, poderíamos iniciar por 33. Logo, a distribuição de frequências será: Classes fi Fac xi ri Ri 30 | 40 4 4 35 0,08 0,08 40 | 50 6 10 45 0,12 0,20 50 | 60 8 18 55 0,16 0,36 60 | 70 13 31 65 0,26 0,62 70 | 80 9 40 75 0,18 0,80 80 | 90 7 47 85 0,14 0,94 90 | 100 3 50 95 0,06 1,00 Total 50 - - 1,00 - Obs. A finalidade de uma distribuição de frequências é resumir os dados e tirar conclusões sobre os mesmos. Observa-se, por exemplo, pela frequência acumulada, que 31 alunos obtiveram nota inferior a 70. Isto corresponde, pela frequência acumulada relativa, a 62% dos alunos. Podemos observar, também, que a classe que teve maior frequência (13 alunos) foi a de 60 a 70. E a de menor frequência (3 alunos) foi a de 90 a 100. Bioestatística – Prof. Wilson Alves de Oliveira 6 Histograma e Polígono de Frequências Expected Normal Histograma e polígono de frequência Notas N ú m e ro d e a lu n o s 0 2 4 6 8 10 12 14 16 20 30 40 50 60 70 80 90 100 1.4 Representações estatísticas - Tabelas e Gráficos (Capítulo 2 e 3 do livro da Sonia Vieira). LISTA DE EXERCÍCIOS Nº 1 Utilizando os dados da tabela 1. 1. Classifique as variáveis: Estado civil, Grau de instrução, Nº de filhos, Salário, Idade e Região de procedência, quanto aos tipos de variáveis. 2. Faça uma tabela de distribuição de frequências e um gráfico de setores para a variável grau de instrução. Comente os resultados. 3. Faça uma tabela de distribuição de frequências e o histograma para a variável salário. Faça o mesmo para a variável idade. Comente os resultados. 4. Repita o item 2 para a variável região de procedência, utilizando um outro tipo de gráfico para representar esta variável. 5. Represente graficamente a variável número de filhos considerando apenas os funcionários casados. 7 Tabela 1. Informações sobre estado civil, grau de instrução, salário, idade e procedência de 36 funcionários da Companhia Milsa. Nº Estado Civil Grau de Instrução Nº de filhos Salário (X sal. Min.) Idade anos meses Região de procedência 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 Solteiro casado casado solteiro solteiro casado solteiro solteiro casado solteiro casado solteiro solteiro casado casado solteiro casado casado solteiro solteiro casado solteiro solteiro casado casado casado solteiro casado casado casado solteiro casado casado solteiro casado casado 1º grau 1º grau 1º grau 2º grau 1º grau 1º grau 1º grau 1º grau 2º grau 2º grau 2º grau 1º grau 2º grau 1º grau 2º grau 2º grau 2º grau 1º grau superior 2º grau 2º grau 2º grau 1º grau superior 2º grau 2º grau 1º grau 2º grau 2º grau 2º grau superior 2º grau superior superior 2º grau Superior --- 1 2 --- --- 0 --- --- 1 --- 2 --- --- 3 0 --- 1 2 --- --- 1 --- --- 0 2 2 --- 0 5 2 --- 1 3 --- 2 3 4,00 4,56 5,25 5,73 6,26 6,66 6,86 7,39 7,59 7,44 8,12 8,46 8,74 8,95 9,13 9,35 9,77 9,80 10,53 10,76 11,06 11,59 12,00 12,79 13,23 13,60 13,85 14,69 14,71 15,99 16,22 16,61 17,26 18,75 19,40 23,30 26 32 36 20 40 28 41 43 34 23 33 27 37 44 30 38 31 39 25 37 30 34 41 26 32 35 46 29 40 35 31 36 43 33 48 42 03 10 05 10 07 00 00 04 10 06 06 11 05 02 05 08 07 07 08 04 09 02 00 01 05 00 07 08 06 10 05 04 07 07 11 02 Interior Capital Capital Outro Outro Interior Interior Capital Capital Outro Interior Capital Outro Outro Interior Outro Capital Outro Interior Interior Outro Capital Outro Outro Interior Outro Outro Interior Interior Capital Outro Interior Capital Capital Capital Interior FONTE: Estatística Básica - BUSSAB, Wilton O. e MORETIN, Pedro A. Bioestatística – Prof. Wilson Alves de Oliveira 1.5 Principais medidas de posição As medidas de posição mais importantes são as medidas de tendência central que fornecem o valor do ponto em torno do qual os dados se distribuem. São medidas de tendência central: a média aritmética, a mediana e a moda. Média aritmética Sejam x1, x2, ... , xn, n valores da variável X. A média aritmética de X, representada por x é definida por: n x x n i i∑ == 1 , onde n é o número elementos do conjunto. Exemplo: Determinar a média aritmética dos valores 3, 7, 8, 10 e 12. 8 5 40 5 12108731 == ++++ == ∑ = n x x n i i . Média aritmética para dados agrupados Sejam x1, x2, ... , xn, n valores da variável X e sejam f1, f2, ... , fn as respectivas frequências. A média aritmética de X é dada por: ∑ ∑ = = == n i i n i ii fn n fx x 1 1 onde , . Exemplo: Seja a tabela 2 de distribuição de frequências. Tabela 2: Nascidos vivos segundo o peso ao nascer, em kg. Bioestatística – Prof. Wilson Alves de Oliveira CLASSES fi 1,5 | 2,0 3 2,0 | 2,5 16 2,5 | 3,0 31 3,0 | 3,5 34 3,5 | 4,0 11 4,0 | 4,5 4 4,5 | 5,0 1 Total 100 9 Neste caso, o valor de xi é obtido pelo ponto médio da classe correspondente. Os cálculos para obtenção da média aritmética ficam facilitados com o uso de uma tabela auxiliar. Logo, a média aritmética é dada por: 00,3 100 00,3001 === ∑ = n fx x n i ii . Portanto, o peso médio destes 100 recém nascidos é de 3,00 kg. Mediana Se a amostra é constituída por um número ímpar de observações, a mediana (Md) é o valor que fica no centro dos dados ordenados. Por exemplo, a mediana dos valores 1, 2, 3, 5, e 9 é 3. Se a amostra é constituída por um número par de observações,a mediana é a média aritmética dos dois valores centrais dos dados ordenados. Por exemplo, a mediana dos valores 1, 2, 3, 4, 7 e 9 é a média aritmética entre os valores 3 e 4, ou seja, Md = 3,5. Mediana para dados agrupados em classes Procedimentos: 1º) Calcula-se o termo n/2; 2º) Pela frequência acumulada (Fac) identifica-se a classe que contém a mediana (classe Md); 3º) Aplica-se a fórmula: h f f n lMd md ant md . 2 − += , em que: Bioestatística – Prof. Wilson Alves de Oliveira CLASSES fi xi xifi 1,5 | 2,0 3 1,75 5,25 2,0 | 2,5 16 2,25 36,00 2,5 | 3,0 31 2,75 85,25 3,0 | 3,5 34 3,25 110,50 3,5 | 4,0 11 3,75 41,25 4,0 | 4,5 4 4,25 17,00 4,5 | 5,0 1 4,75 4,75 Total 100 - 300,00 10 lmd é o limite inferior da classe Md; fant é a frequência acumulada da classe anterior à classe Md; fmd é a frequência absoluta da classe Md; h é a amplitude da classe Md. Exemplo: Obtenha a mediana para os dados da tabela 2. 1º) 50 2 100 2 == n ; 2º) Clase Md: 2,5 | 3,0 ; 3º) lmd = 2,5; fant = 19; fmd = 31 e h = 0,5. 35,0. 31 1950 5,2.2 = −+= − += h f f n lMd md ant md . Moda A moda (Mo) é o valor que ocorre com maior frequência. Por exemplo, a moda dos valores 3, 4, 5, 7, 7, 7, 9 e 9 é 7, porque o 7 é o valor que ocorre mais vezes. Existem conjuntos de dados que não apresentam moda e são chamados de amodal. Por outro lado, existem conjuntos com duas ou mais modas. Exemplos: a) 1, 2, 3, 4 e 5 ⇒ este conjunto não possui moda, ou seja, é amodal. b) 1, 2, 2, 3, 4, 4 e 5 ⇒ este conjunto possui duas modas, ou seja, 2 e 4. A moda diferentemente das outras medidas de tendência central, pode ser obtida mesmo que a variável seja qualitativa. Exemplo: Tabela 3: Indivíduos segundo o tipo de sangue. Observa-se na tabela 3 que o sangue tipo O ocorreu com maior frequência. Então, a moda desta amostra é o sangue tipo O. Bioestatística – Prof. Wilson Alves de Oliveira Tipo de Sangue fi O A B AB 547 441 123 25 FONTE: GARCIA (1977) 11 Moda para dados agrupados em classes Existem diversas fórmulas para o cálculo da moda. Uma delas é a fórmula de CZUBER. Procedimentos: 1º) Identifica-se a classe modal (a de maior frequência). 2º) Aplica-se a fórmula: h dd d lMo 21 1 + += , onde: l é o limite inferior da classe modal; d1 é a diferença entre a frequência da classe modal e a imediatamente anterior; d2 é a diferença entre a frequência da classe modal e a imediatamente posterior; h é a amplitude da classe modal. Exemplo: Calcular a moda para os dados da tabela 2: 1º) Classe modal: 3,0 | 3,5 ; 2º) l = 3,0; d1 = 34 – 31 = 3; d2 = 34 – 11 = 23; h = 0,5; então, )5,0( 233 3 0,3 + +=Mo = 3,06. Portanto, .06,30,3;0,3 === MoeMdx Relação entre média, mediana e moda Em uma distribuição simétrica, observa-se que a média = mediana = moda. Bioestatística – Prof. Wilson Alves de Oliveira MoMdx == 12 Em uma distribuição assimétrica positiva, observa-se que a média ≥ mediana ≥ moda. Em uma distribuição assimétrica negativa, observa-se que a média ≤ mediana ≤ moda. Outras Medidas de Posição A mediana caracteriza um conjunto de dados devido à sua posição central. Mas ela tem outra característica importante, pois divide o conjunto de dados em dois grupos com o mesmo número de elementos. Existem outras medidas de posição com esta característica. São os quartis, decis, e percentis que são chamadas de “separatrizes”. Quartis Os quartis dividem um conjunto de dados em quatro partes iguais. Assim: Q1 = 1º quartil, deixa 25% dos elementos abaixo. Q2 = 2º quartil, coincide com a mediana, deixa 50% dos elementos abaixo. Q3 = 3º quartil, deixa 75% dos elementos abaixo. As fórmulas para a determinação de Q1 e Q3 são semelhantes à usada para o cálculo da mediana. Bioestatística – Prof. Wilson Alves de Oliveira Mo Md x x Md Mo 13 Determinação de Q1: 1º Passo: calcula-se n/4. 2º Passo: identifica-se a classe Q1 pela frequência acumulada. 3º Passo: aplica-se a fórmula: ( ) 1 1 . 4 1 Q n Q f hf lQ ∑−+= . Determinação de Q3: 1º Passo: calcula-se 3n/4. 2º Passo: identifica-se a classe Q3 pela frequência acumulada. 3º Passo: aplica-se a fórmula: ( ) 3 3 . 4 3 3 Q n Q f hf lQ ∑−+= . Exemplo: Determinar Q1 e Q3 para a seguinte distribuição: Renda Familiar (Salário Mínimo) Número de Famílias (fi) Fac 2 | 4 4 | 6 6 | 8 8 | 10 10 | 12 5 10 14 8 3 5 15 (Q1) 29 37 (Q3) 40 Total 40 - 1º Passo: n = 40; 10 4 40 4 == n (Q1); 30 4 )40(3 4 3 == n (Q3); 2º Passo: pela frequência acumulada identifica-se a classe Q1 e a classe Q3. 3º Passo: aplicam-se as fórmulas: ( ) ( ) 5 10 2.510 4 . 1 1 4 1 = − += − += ∑ Q n Q f hf lQ e ( ) ( ) 25,8 8 2.2930 8 . 3 3 4 3 3 = − += − += ∑ Q n Q f hf lQ . Então, 25% dos elementos estão abaixo de Q1 = 5, ou seja, 25% das famílias ganham menos que 5 salários mínimos e 75% das famílias ganham menos que 8,25 salários mínimos. Bioestatística – Prof. Wilson Alves de Oliveira 14 Decis Os decis são valores que dividem um conjunto de dados em 10 partes iguais. O cálculo é dado por: 1º Passo: calcula-se 10 ni× , onde i = 1, 2, 3, 4, 5, 6, 7, 8 e 9. 2º Passo: identifica-se a classe Di pela frequência acumulada. 3º Passo: aplica-se a fórmula: ( ) i i D in Di f hf lD . 10 ∑−+= . Percentis São medidas que dividem um conjunto de dados em 100 partes iguais. O cálculo é dado por: 1º Passo: calcula-se 100 ni× , onde i = 1, 2, 3, ... , 98, 99. 2º Passo: identifica-se a classe Pi pela frequência acumulada. 3º Passo: aplica-se a fórmula: ( ) i i P in Pi f hf lP . 100 ∑−+= . Exemplo: Determinar o decil 8 (D8) e o percentil 95 (P95) para a distribuição usada no exemplo anterior. 1º Passo: n = 40; 32 10 )40(8 10 == in (D8); 38 100 )40(95 100 == in (P95); 2º Passo: pela frequência acumulada identifica-se a classe D8 e a classe P95. 3º Passo: aplicam-se as fórmulas: ( ) ( ) 75,8 8 2.2932 8 . 8 8 10 8 = − += − += ∑ D in D f hf lD e ( ) ( ) 67,10 3 2.3738 10 . 95 95 100 95 = − += − += ∑ p in P f hf lP . Portanto, 80% das famílias ganham menos que 8,75 salários mínimos e 95% ganham menos que 10,67 salários mínimos. Obs. Md = Q2 = D5 = P50. Bioestatística – Prof. Wilson Alves de Oliveira 15 1.6 Principais Medidas de Dispersão Ainformação fornecida pelas medidas de posição necessita, em geral, ser complementada pelas medidas de dispersão. Estas indicam o grau de variação existente no conjunto de dados. A dispersão (variação) dos dados pode ser verificada através das seguintes medidas de dispersão: amplitude, variância, desvio padrão e coeficiente de variação. Amplitude Por definição, amplitude é a diferença entre o maior e o menor valor observado. A utilização da amplitude é limitada, pois, leva em consideração apenas os valores extremos, não sendo afetada pela dispersão dos valores internos. Variância O grau de dispersão de um conjunto de dados pode ser medido pelos desvios em relação à média, que é a diferença entre cada valor e a média do conjunto. Não se pode calcular a média dos desvios porque a soma é sempre igual a zero. Exemplo: Considere os valores: 0, 4, 6, 7 e 8. A média destes valores é 5. Os desvios em relação à média, representados por (x - x ) são os seguintes: -5, -1, 1, 2 e 3. Portanto, ( ) 0 1 =−∑ = n i i xx . Qualquer que seja o conjunto de dados, a soma dos desvios é sempre igual a zero. Então, para medir a dispersão dos dados em torno da média utiliza-se a variância que leva em consideração a soma dos quadrados dos desvios e o tamanho da amostra. A variância pode ser definida como a soma dos quadrados dos desvios dividida pelo número de elementos da amostra, menos 1 (n – 1), ou seja: ( )∑ = − − = n i i xx n s 1 22 1 1 . Desenvolvendo algebricamente a fórmula da variância, obtém-se: ( ) − − = ∑∑ n x x n s i i i 2 22 1 1 . Exemplo: Obtenha a variância para os dados 0, 4, 6, 7 e 8, utilizando as duas fórmulas anteriores. Bioestatística – Prof. Wilson Alves de Oliveira 16 Para facilitar os cálculos, utiliza-se a seguinte tabela auxiliar. Então, pela fórmula ( )∑ = − − = n i i xx n s 1 22 1 1 , tem-se que 10)40( 15 12 = − =s e pela fórmula ( ) − − = ∑∑ n x x n s i i i 2 22 1 1 , tem-se que ( ) { } 10125165 4 1 5 25 165 15 1 22 =−= − − =s . Variância para dados agrupados O cálculo da variância para dados agrupados é dado por: ( ) − − = ∑∑ n fx fx n s ii i ii 2 22 1 1 . Obs. Usa-se s2 para obter a variância dos dados provenientes de uma amostra. Quando os dados são provenientes de uma população, usa-se a fórmula: ( ) −= ∑∑ n fx fx n ii i ii 2 22 1σ . Desvio Padrão O desvio padrão é definido como a raiz quadrada positiva da variância e é representado por s (se os dados são provenientes de uma amostra) ou porσ ( se os dados são provenientes de uma população). Bioestatística – Prof. Wilson Alves de Oliveira xi (xi - x ) (xi - x ) 2 2 ix 0 4 6 7 8 -5 -1 1 2 3 25 1 1 4 9 0 16 36 49 64 25 0 40 165 17 Exemplos: 1) Obtenha a variância e o desvio padrão para os dados da tabela 2 (peso de nascidos vivos). Os cálculos para obtenção da variância ficam facilitados com o uso da tabela auxiliar. Então, ( ) { } 34,026,33 99 1 100 300 26,933 1100 1 22 ≅= − − =s e 58,034,02 ≅== ss . Portanto, o peso médio destes 100 recém nascidos é de 3,00 kg, com uma variância de aproximadamente 0,34 kg2 e um desvio padrão de 0,58 kg, ou seja, a dispersão (variação) dos dados em relação a média é de aproximadamente s = 0,58 kg. 2) Considere os dados da tabela 4. Qual aluno teve maior variação, em relação à média, nas suas notas. Observa-se, na tabela 4, que todos os alunos obtiveram média 5, mas a variação das notas em torno da média não é a mesma e será verificada através das seguintes medidas de dispersão: amplitude, variância e desvio padrão. As notas de Antônio têm amplitude: h = 5 – 5 = 0. As notas de João têm amplitude: h = 6 – 4 = 2. As notas de José têm amplitude: h = 10 – 0 = 10. As notas de Pedro têm amplitude: h = 10 – 0 = 10. Bioestatística – Prof. Wilson Alves de Oliveira CLASSES fi P.M.(xi) xi fi ii fx 2 1,5 | 2,0 3 1,75 5,25 9,19 2,0 | 2,5 16 2,25 36,00 81,00 2,5 | 3,0 31 2,75 85,25 234,44 3,0 | 3,5 34 3,25 110,50 359,13 3,5 | 4,0 11 3,75 41,25 154,69 4,0 | 4,5 4 4,25 17,00 72,25 4,5 | 5,0 1 4,75 4,75 22,56 Total 100 - 300,00 933,26 Tabela 4: Notas de quatro alunos em cinco provas Aluno Notas Média Antônio João José Pedro 5 6 10 10 5 4 5 10 5 5 5 5 5 4 5 0 5 6 0 0 5 5 5 5 18 Cálculo das variâncias Para as notas de Antônio, que não variaram, s2 = 0 ⇒ s = 0. Para as notas de João: ( ) − − = ∑∑ n x x n s i i i 2 22 1 1 = { } 14 4 1 5 )25( 129 4 1 2 == − ⇒ s = 1. Para as notas de José: { } 5,1250 4 1 5 )25( 175 4 1 22 == −=s ⇒ s = 3,54. Para as notas de Pedro: { } 25100 4 1 5 )25( 225 4 1 22 == −=s ⇒ s = 5. Portanto, as notas de Pedro tiveram maior variação (dispersão) em relação a média. Coeficiente de Variação O coeficiente de variação é o quociente entre o desvio padrão e a média aritmética e expressa a dispersão dos dados em termos relativos ao seu valor médio, sendo dado pela fórmula )100( x s CV = . Exemplo: Considere dois grupos com idades de pessoas. Grupo A: 3, 1 e 5; Grupo B: 55, 57 e 53. Para o grupo A, tem-se que: x = 3; s2 = 4 ⇒ s = 2; %67,66)100( 3 2 )100( === x s CV . Para o grupo B, tem-se que: x = 55; s2 = 4 ⇒ s = 2; %64,3)100( 55 2 )100( === x s CV . Um CV = 66,67 % indica uma dispersão dos dados em relação à média muito grande, ou seja, a dispersão relativa é alta. Já um CV = 3,64 % indica que a dispersão dos dados em relação à média é pequena. Bioestatística – Prof. Wilson Alves de Oliveira 19 1.7 Medidas de assimetria e curtose As medidas de assimetria caracterizam como e quanto a distribuição de frequências se afasta da condição de simetria. Dentre os vários estimadores da assimetria, tem-se o coeficiente de assimetria de Pearson, dado por s Mox PAs − =)( , onde se As(P) = 0, a distribuição é simétrica; se As(P) > 0, a distribuição é assimétrica positiva; se As(P) < 0, a distribuição é assimétrica negativa. Para os dados da tabela 2 (peso de nascidos vivos), tem-se que: 1034,0 58,0 06,33 )( −= − = − = s Mox PAs , portanto, a distribuição tem uma leve assimetria negativa. Quando |As(P)| < 0,15, podemos considerar a distribuição como praticamente simétrica. Por outro lado, costuma-se considerar a assimetria como moderada se 0,15 < |As(P)| < 1, e forte se |As(P)| > 1. O coeficiente de curtose de uma distribuição forneceuma medida do achatamento da curva que a descreve. Uma distribuição cuja curva tem a forma da curva 1, tem seu coeficiente de curtose C = 0,263 e é dita mesocúrtica. Se ela tem uma curva mais afilada, como a curva 2, ela é dita leptocúrtica e tem C < 0,263. Se a curva é mais achatada, como a curva 3, ela é dita platicúrtica e tem coeficiente de curtose C > 0,263. Dentre os vários coeficientes de curtose disponíveis, tem-se o coeficiente de Keley, definido com base nas separatrizes, ( )19 13 2 )( DD QQ KC − − = . Bioestatística – Prof. Wilson Alves de Oliveira 2 1 3
Compartilhar