Baixe o app para aproveitar ainda mais
Prévia do material em texto
Prof.: Dr. José Rodrigo de Moraes (GET/UFF) Prof.: José Rodrigo de Moraes (GET/UFF) - Estatístico (ENCE), Mestre em Estatística Social (ENCE) e Doutor em Saúde Coletiva (IESC/UFRJ) 1 1 Bioestatística Aplicada à Farmácia (3ª, 4ª e 5ª Aulas) Prof.: Dr. José Rodrigo de Moraes 2 Medidas de Posição 3 Agora vocês vão aprender como obter algumas medidas estatísticas consideradas importantes para efetuar a análise descritiva (ou exploratória) dos dados. É importante destacar que: as fórmulas a serem utilizadas para o cálculo de medidas estatísticas (média, mediana, moda, variância, desvio-padrão, coeficiente de variação, etc.) depende se os dados estão ou não agrupados, mas nesse curso se concentramos no cálculo de medidas estatísticas para dados não agrupados (com exceção da média que também será calculada para dados agrupados). 4 � Dados agrupados: � Tabela de distribuição de freqüências simples (sem intervalos de classes). � Tabela de distribuição de freqüências com intervalos de classes. � Dados não agrupados: Lista de valores (ordenados ou não). 5 Medidas de Posição: Polígonos de freqüência das distribuições dos pesos (em kg) de um grupo de homens e mulheres: Peso (Kg) Homens Mulheres 35 40 - 1 40 45 - 5 45 50 1 27 50 55 2 31 55 60 9 15 60 65 18 8 65 70 9 2 70 75 5 1 75 80 2 - 80 85 1 - 85 90 2 - 90 95 1 - 0 5 10 15 20 25 30 35 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 Peso (kg) N º d e in d iv íd u o s Mulheres Homens Que conclusões podemos tirar com base nos polígonos ? 6 Medidas de Posição As medidas de posição são medidas estatísticas utilizadas para representar um conjunto de dados fornecendo informações sobre a posição da distribuição em relação ao eixo das abscissas (eixo em que se representa os valores da variável em estudo). As medidas de posição são classificadas em : � Medidas de Tendência Central: fornecem o valor do ponto em torno do qual os dados se distribuem. Exs: Média, Mediana e Moda. � Separatrizes: Quartis, Decis e Percentis. Prof.: Dr. José Rodrigo de Moraes (GET/UFF) Prof.: José Rodrigo de Moraes (GET/UFF) - Estatístico (ENCE), Mestre em Estatística Social (ENCE) e Doutor em Saúde Coletiva (IESC/UFRJ) 2 7 Média: Ponto de equilíbrio de um conjunto de dados. Histograma para a variável peso (kg) N º d e in d iv íd u o s 30 20 10 0 40 50 60 70 80 90 100 95,071,058,555,050,0 87,070,058,055,050,0 86,068,558,054,549,2 85,266,058,054,549,0 84,063,558,054,049,0 80,963,057,852,548,0 75,060,057,052,047,4 73,060,056,052,047,0 73,060,055,051,647,0 72,859,055,050,544,0 Peso (em kg) de n=50 indivíduos 60,7 kg (peso médio) Como calcular o peso médio ? 8 Média Aritmética - Dados Não Agrupados: A média aritmética de X, representada por , é definida por: onde: n → número total de valores da variável X (tamanho da amostra). xi → i-ésimo valor da variável X. Exemplo resolvido: Suponha que uma amostra de dez pacientes internados num hospital devido a doenças crônicas foi selecionada e o número de medicamentos de uso contínuo (MUC) usados foi registrado: 3, 2, 3, 0, 2, 1, 3, 1, 2, 3. Determine a média e interprete-a. n x x n i i∑ == 1 x 9 Resolução do exemplo: X → número de medicamentos de uso contínuo (MUC) valores da variável X: 3, 2, 3, 0, 2, 1, 3, 1, 2, 3 n=10 pacientes MUC2 10 20 10 3213120323 x 10 xxx n x x 1021 n 1i i == +++++++++ = +++ == ∑ = L 10 Média Aritmética - Dados Não Agrupados: Exercício 1: Suponha que em um posto de vacinação, obteve informações sobre o tempo (em meses) no qual cinco mães alimentaram seus filhos (recém-nascidos) exclusivamente com leite materno (AME): 3, 4, 5, 6 e 10. a) Qual a variável em estudo? Classifique - a. b) Qual o tempo médio de AME ? Exercício 2: As notas de uma aluna em seis provas da disciplina “Epidemiologia Social”, cuja média mínima para aprovação é 6,0, foram: 8,4; 9,1; 7,2; 5,0; 6,0 e 4,0. Pergunta-se: qual a situação da aluna ? Justifique a sua resposta. Resps.: Ex.1 – b): 5,6 meses Ex.2: 6,6 11 Propriedades gerais da média aritmética: 1ª) A soma algébrica dos desvios dos valores de uma variável tomados em relação à média aritmética do conjunto de valores é zero. 2ª) Somando-se (ou subtraindo-se) uma constante arbitrária a cada um dos valores da variável, a média aritmética resultante fica somada (ou subtraída) por essa constante. 3ª) Multiplicando-se (ou dividindo-se) cada valor da variável por uma constante arbitrária, a média aritmética resultante fica multiplicada (ou dividida) por essa constante. 12 Exemplo resolvido: Considerando o exemplo do número de medicamentos de uso contínuo (MUC) tomados por dez pacientes (n=10): 3, 2, 3, 0, 2, 1, 3, 1, 2, 3. a) Qual o número médio de medicamentos de uso contínuos tomados ? Já calculamos e foi igual a 2. b) Qual o valor da soma dos desvios dos números de MUC tomados por cada paciente em relação ao número médio de MUC ? Mostre. c) Somando 1 unidade ao número de MUC de todos os pacientes, o que ocorrerá com a nova média ? Mostre. d) Se dobrasse o número de MUC de todos pacientes, o que ocorrerá com a nova média? Mostre. Prof.: Dr. José Rodrigo de Moraes (GET/UFF) Prof.: José Rodrigo de Moraes (GET/UFF) - Estatístico (ENCE), Mestre em Estatística Social (ENCE) e Doutor em Saúde Coletiva (IESC/UFRJ) 3 13 Resolução do exemplo: X → número de medicamentos de uso contínuo (MUC) valores da variável X: 3, 2, 3, 0, 2, 1, 3, 1, 2, 3 n=10 pacientes b) Qual o valor da soma dos desvios dos números de MUC tomados por cada paciente em relação ao número médio de MUC ? Mostre. 14 Resolução do exemplo: c) Somando 1 unidade ao número de MUC de todos os pacientes, o que ocorrerá com a nova média ? Mostre. valores da variável X: 3, 2, 3, 0, 2, 1, 3, 1, 2, 3 valores da variável Y: 4, 3, 4, 1, 3, 2, 4, 2, 3, 4 15 Resolução do exemplo: d) Se dobrasse o número de MUC de todos pacientes, o que ocorrerá com a nova média? Mostre. valores da variável X: 3, 2, 3, 0, 2, 1, 3, 1, 2, 3 valores da variável Y: 6, 4, 6, 0, 4, 2, 6, 2, 4, 6 16 Média Aritmética - Dados Agrupados: Quando os dados estão agrupados numa distribuição de freqüência simples a média aritmética é o somatório dos (distintos) valores x 1 , x 2 , ..., x k da variável X multiplicados pelas suas respectivas freqüências simples f 1 , f 2 , ..., f k , dividido pelo número total de valores. Neste caso, a média aritmética é dada por: onde: xi → i-ésimo distinto valor da variável X. fi → freqüência simples do i-ésimo distinto valor da variável X. k → número de distintos valores da variável X. n → número total de valores (tamanho da amostra): n fx x k i ii∑ == 1 ∑ = = k i ifn 1 17 Exemplo: Considerando a distribuição de frequência abaixo, pede-se: a) Determine a variável em estudo e classifique-a. b) Determine a média aritmética e interprete-a. c) Determine as freqüências relativas, as frequências absolutas acumuladas e as frequências relativas acumuladas. Interprete as seguintes freqüências: f2, fr3, Fr4 e %Fr2. 38 57 66 55 14 Nº de mães duração do AME (em meses) Resp.: 6,2 18 Exemplo – Distribuição de frequência simples: a) X→ _____________________________________________ b) . Total 38 57 66 55 14 xi fiNº de mães (fi) duração do AME (xi) === ∑ = n fx x k i ii 1 Prof.: Dr. José Rodrigo de Moraes (GET/UFF) Prof.: José Rodrigo de Moraes (GET/UFF) - Estatístico (ENCE), Mestre em Estatística Social (ENCE) e Doutor em Saúde Coletiva (IESC/UFRJ) 4 19 Exercício: Durante o mês de setembro de um determinado ano, o número de acidentes por dia em certo trecho de uma rodovia é apresentado na tabela abaixo: Pede-se: a) Determine a variável em estudo e classifique-a. b) Determine a média aritmética e interprete-a. c) Determine as freqüências relativas, as frequências absolutas acumuladas e as relativas acumuladas. 26 25 53 72 91 50 Nº de diasNº de acidentes Resp.: 2 20 Média Aritmética Simples - Dados Agrupados: Quando os dados estão agrupados numa distribuição de freqüência com intervalos de classes a média aritmética é o somatório dos pontos médios de cada intervalo de classe x 1 , x2, ..., xk multiplicados pelas suas respectivas freqüências simples f1, f2, ..., fk, dividido pelo número total de valores. Neste caso, a média aritmética é dada por: , onde: xi → ponto-médio do i-ésimo intervalo de classe: fi → freqüência simples do i-ésimo intervalo de classe. k → número de intervalos de classes. n → número total de valores (tamanho da amostra): n fx x k i ii∑ == 1 ∑ = = k i ifn 1 2 1 ii i LL x + = − 21 Exemplo: Com base na distribuição de freqüência abaixo determine o peso médio ao nascer. Peso (em kg) Nº de nascidos vivos 1,5 2,0 3 2,0 2,5 16 2,5 3,0 31 3,0 3,5 34 3,5 4,0 11 4,0 4,5 4 4,5 5,0 1 Σ 100 22 Exemplo – Distribuição de frequência com intervalos: Peso (em kg) Nº de nascidos vivos (f i ) x i x i f i 1,5 2,0 3 1,75 5,25 2,0 2,5 16 2,25 36 2,5 3,0 31 2,75 85,25 3,0 3,5 34 3,25 110,50 3,5 4,0 11 3,75 41,25 4,0 4,5 4 4,25 17 4,5 5,0 1 4,75 4,75 Σ 100 - 300 === ∑ = n fx x k i ii 1 Ponto-médio 23 Exercício: Considerando a distribuição de frequências dos salários quinzenais de um grupo de funcionários de uma clínica médica, pede-se: a) o salário médio dos funcionários. Resp.: R$ 221,70 b) suponha que o diretor da clínica dê um reajuste de 15% a todos os seus funcionários. Qual o novo salário médio ? Resp.: R$ 254,96 Salário quinzenal (R$) Nº de funcionários 185 195 10 195 205 15 205 215 12 215 225 19 225 235 21 235 245 35 Total 112 24 Mediana (Md): A mediana é o valor da variável que divide o conjunto ordenado de dados em duas partes iguais. Mediana - Dados Não Agrupados: Passos para calcular a mediana: 1º Passo: Ordenar os valores de forma crescente. 2º Passo: Verificar se n é par ou impar: Se n for par (n=2k): Se n for ímpar (n=2k+1): 2 )1( ++= kk xx Md )1( += kxMd A Md é a média aritmética dos valores centrais. A Md é o valor central. Md 50% dos valores estão abaixo 50% dos valores estão acima Valores ordenados Prof.: Dr. José Rodrigo de Moraes (GET/UFF) Prof.: José Rodrigo de Moraes (GET/UFF) - Estatístico (ENCE), Mestre em Estatística Social (ENCE) e Doutor em Saúde Coletiva (IESC/UFRJ) 5 25 Mediana - Dados Não Agrupados: Exemplo resolvido: Número de medicamentos de uso contínuo (MUC) usados por oito pacientes internados num determinado hospital: 3, 2, 3, 0, 2, 1, 3, 3. Determine a mediana. Resolução: X → número de medicamentos de uso contínuo (MUC) valores da variável X: 3, 2, 3, 0, 2, 1, 3, 3 Rol: 0, 1, 2, 2, 3, 3, 3, 3 n=8 (par): ( ) ( ) MUC2,5 2 5 2 32 2 xx Md 54 == + = + = 26 Mediana - Dados Não Agrupados: Exemplo resolvido: Número de acidentes ocorridos em 7 semanas numa rodovia: 100, 52, 41, 37, 82, 24, 68. Determine o número mediano de atendimentos. Resolução: X → número de acidentes ocorridos numa rodovia valores da variável X: 100, 52, 41, 37, 82, 24, 68 Rol: 24, 37, 41, 52, 68, 82, 100 n=7 (ímpar): ( ) ( ) acidentes52xxMd 413 === + 27 Mediana x Média Aritmética: Em alguns casos é preferível usar a mediana ao invés da média para caracterizar o centro de um conjunto de dados. Para o conjunto de dados (X → renda semanal familiar, em reais), a seguir: 340, 370, 410, 520, 630, 680, 820, temos que: Pergunta-se: O que aconteceria com a média e a mediana se substituirmos o número 820 pelo número 8.200, por exemplo ? A média e a mediana vão sofrer influência ? ( ) reais520xMdereais538,577 3.770 n x x 4 n 1i i ==≅== ∑ = 1.592,86 reais 28 Moda (Mo): É o valor da variável que aparece com maior freqüência em um conjunto de dados. Moda - Dados Não Agrupados: Exemplo: Para cada um dos conjuntos de dados abaixo, determine a moda: a) X → Peso ao nascer de crianças (g): 2.100, 2.000, 3.000, 3.000, 2.500, 3.100, 3.100, 3.100, 2.810, 2.810, 2.700, 2.600, 2.600, 2.600 b) X → Nº de medicamentos (de uso contínuo) usados por sete pessoas com doenças crônicas e ou degenerativas: 2, 3, 3, 2, 1, 0, 1 c) X → Nota de seis alunos na prova de bioestatística: 7, 6, 5, 8, 9, 10 d) X → Número de pacientes consultados por dia numa clínica médica: 10, 10, 12, 12, 13, 13. Exercício: Considere a pressão arterial sistólica (mmHg) de 15 pacientes: 130, 130, 150, 100, 140, 110, 120, 120, 130, 130, 150, 150, 130, 140, 130. Qual a PAS modal ? Interprete-a. 29 Comentários sobre as medidas de tendência central: A média pode ser calculada a partir dos dados brutos, sem recorrer a qualquer agrupamento ou ordenação dos valores originais da variável em estudo, o que não ocorre com a mediana e a moda. A moda pode ser determinada para variáveis qualitativas e quantitativas, ao contrário da média e da mediana que somente podem ser calculadas para variáveis quantitativas. A mediana é preferível à média quando se está interessado em conhecer exatamente o valor da variável que divide a distribuição em duas partes exatamente iguais. Além disso, a mediana é preferível ainda quando existem valores extremos que afetem substancialmente o valor da média (outliers, valores atípicos ou discrepantes). 30 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 84 86 Kg65=Md kg 67=x Exemplo: Peso (em kg) de 12 indivíduos escolhidos aleatoriamente: 50, 55, 58, 60, 62, 64, 66, 70, 74, 77, 82, 86 Diagrama de pontos →→→→ cada valor da variável corresponde a um ponto na reta de números reais. Mediana (separatriz) Média aritmética E qual o valor modal ? Prof.: Dr. José Rodrigo de Moraes (GET/UFF) Prof.: José Rodrigo de Moraes (GET/UFF) - Estatístico (ENCE), Mestre em Estatística Social (ENCE) e Doutor em Saúde Coletiva (IESC/UFRJ) 6 31 Separatrizes: Quartis, Decis e Percentis A idéia da mediana como vimos é a de dividir (separar) um conjunto ordenado de dados em dois grupos com 50% dos dados em cada grupo. Essa idéia pode ser generalizada !!! Surgem, assim, os chamados quartis, decis e percentis, também conhecidos pelo nome genérico de separatrizes. 32 Quartis – Qp, onde p =1, 2, 3 ( p é a ordem do quartil): Os quartis (denotados por: Q1, Q2 e Q3) são valores da variável que dividem os dados em quatro grupos com cerca de 25% deles em cada grupo. Há, portanto, 3 quartis. O 1º Quartil - Q1: valor da variável situado de tal modo na série que adivide em duas partes, tais que somente 25% dos valores são menores ou iguais a ele, e 75% dos valores restantes são maiores ou iguais a ele. O 2º Quartil - Q2: valor da variável situado de tal modo na distribuição que a divide em duas partes iguais, tais que 50% dos valores são menores ou iguais a ele, e 50% dos valores restantes são maiores ou iguais a ele. Logo temos a seguinte relação: Md = Q2 . O 3º Quartil - Q3: valor da variável situado de tal modo na distribuição que a divide em duas partes, tais que 75% dos valores são menores ou iguais a ele, e somente 25% dos valores restantes são maiores ou iguais a ele. 33 Quartis – Qp, onde p =1, 2, 3 ( p é a ordem do quartil): 2Q x 25% 25% 25% 25% 1Q 3Q 50% 25% 34 5D x 10% 10% 10% 10% 4D 6D 10% 10% 10% 10% 10%10% 2D1D 3D 8D7D 9D 50% 20% 70% Decis – Dp , onde p = 1, 2, ..., 9 ( p é a ordem do decil): São valores da variável que dividem os dados em 10 grupos com cerca de 10% deles em cada grupo. Há portanto 9 decis, denotados por: D1, D2, ..., D9. 35 Percentis - Pp , onde p =1,2,..., 99 (p é a ordem do percentil): São valores da variável que dividem os dados em 100 grupos com cerca de 1% deles em cada grupo. Há portanto neste caso 99 percentis, denotados por: P1, P2, ..., P99 Algumas relações com percentis: P50 = Md = Q2 P25 = Q1 P75 =Q3 D1=P50 D2=P20 ... D9 =P90 36 Cálculo dos Percentis – Dados Não Agrupados: Para determinar o percentil de ordem p ( p =1,2, ..., 99) emprega-se a fórmula abaixo. Observação: Como possuem estreita relação com os percentis; os quartis e decis também podem ser obtidos com base nesta fórmula, bastando converter a ordem do quartil (ou do decil se for o caso) para a ordem do percentil. Por exemplo: calcular o quartil de ordem três (Q3) é o mesmo que calcular o percentil de ordem setenta e cinco (P75) . Fórmula para o cálculo de Pp para dados não agrupados: k = np / 100 , onde: n→ número total de valores do conjunto (tamanho da amostra). p → ordem do percentil de interesse. k → indicador da posição de um dado valor no conjunto ordenado. Pp → percentil de ordem p (ou o p-ésimo percentil). Prof.: Dr. José Rodrigo de Moraes (GET/UFF) Prof.: José Rodrigo de Moraes (GET/UFF) - Estatístico (ENCE), Mestre em Estatística Social (ENCE) e Doutor em Saúde Coletiva (IESC/UFRJ) 7 37 Fluxograma para auxiliar no cálculo de percentis (Pp): Início Ordenar os valores do menor para o maior Calcular: k = np /100, n → número total de valores p → ordem do percentil de interesse k é um número inteiro? Modificar k, aproximando seu valor para o maior inteiro mais próximo O valor de Pp é o k-ésimo valor a contar do mais baixo O valor do Pp está a meio caminho entre o k-ésimo valor e o próximo valor mais alto no conjunto ordenado de dados. Obtém-se então o percentil de ordem p (Pp) somando o valor da variável na posição k com o valor da variável na posição (k+1) e dividindo-se o resultado da soma por 2. Sim Não 38 2970295029502940293029302920292029202910 291029002900290028902890289028902890288028702870286028602860 286028502850285028402840284028402830283028302830283028302820 282028202820282028202810281028102810280028002800279027902790 278027802780278027802780278027702770277027702770277027702770 276027602760276027602750275027502750274027402740274027302730 273027302730273027202720272027202720271027102700270027002700 270027002700270026902690269026902680268026802680268026802680 268026802670267026602650265026502640263026302630263026302620 262026202620262026102600259025902580257025702560256025602540 252025202510251025002480242024202410236023402300230022802250 223022302200218021702150209020802080206020602040204020102000 Exemplo: Peso ao nascer (em gramas) de n=175 crianças Calcule e interprete as seguintes medidas descritivas: P40, D2, Q1, Q2 e Q3 39 Resolução do exemplo – Cálculo de percentis: ( ) ( ) g2.690 2 2.6902.690 2 xx P 717040 = + = + = = ?P40 ( ) ( ) g2.570 2 2.5702.570 2 xx PD 3635202 = + = + == == ?PD 202 40 Resolução do exemplo – Cálculo de percentis: ( ) ( ) ( ) g2.820xPQ g2.730xPQ g2.620xPQ 132753 88502 44251 === == === == === == ?PQ ?PQ ?PQ 753 502 251 41 Exercício: Usando os dados fornecidos abaixo calcule o 1º, 2º e 3º Quartis. Mostre os cálculos necessários para a sua obtenção, e interprete os resultados encontrados. Dosagem de bilirrubina (mg/dL) de n=46 mães chagásicas 3,2 3,2 3,1 3,1 2,9 2,9 2,8 2,8 2,1 2,0 1,9 1,5 1,3 Letícia Tatiane Priscila Silvia Verônica Laura Lúcia Teresa Ivone Joana Mariana Célia Alba 4,9 4,4 4,3 4,3 4,0 3,9 3,8 3,7 3,7 3,3 3,2 3,2 3,2 Patrícia Caroline Cristiane Márcia Beatriz Kátia Karoline Daniele Geórgia Ana Fábia Thalita Vanilda 8,8Martha 8,3Yolanda 8,2Vânia 7,8Kelly 6,8Penélope 6,8Paula 12,5Lurdes6,7Joana 11,3Juliana6,6Renata 11,2Júlia6,3Tãnia 10,7Vilma6,3Telma 10,1Antonieta6,2Claudia 9,7Fernanda6,1Carla 9,5Jaqueline6,0Maria Adaptado de Siqueira & Tibúrcio (2011) Repostas: Q1=3,2 ; Q2= 4,3 e Q3= 6,8 42 Medidas de dispersão ou variabilidade Prof.: Dr. José Rodrigo de Moraes (GET/UFF) Prof.: José Rodrigo de Moraes (GET/UFF) - Estatístico (ENCE), Mestre em Estatística Social (ENCE) e Doutor em Saúde Coletiva (IESC/UFRJ) 8 43 Medidas de Dispersão ou Variabilidade: Quando se deseja fazer uma análise descritiva de dados estatísticos, não basta saber através de um único valor o centro de um conjunto de dados (da variável de interesse), através do cálculo das medidas de tendência central (ou de posição). Necessita-se saber também o quanto os dados se apresentam dispersos em torno da medida de tendência central utilizada (em geral, utiliza-se a média). As medidas de dispersão, como o próprio nome indica, são medidas utilizadas para avaliar o grau de dispersão ou variabilidade dos dados. Para melhor entender o conceito de dispersão, vejamos o exemplo a seguir: 44 Medidas de Dispersão ou Variabilidade: Exemplo: Considere as notas de 4 alunos tiradas em cinco avaliações da disciplina “Bioestatística”. Então pergunta-se: Como medir a dispersão dos dados ? Aluno Nota 1 Nota 2 Nota 3 Nota 4 Nota 5 Média Antônio 5 5 5 5 5 João 6 4 5 4 6 José 10 5 5 5 0 Pedro 10 10 5 0 0 5 5 5 5 45 Medidas de Dispersão ou Variabilidade: Estudaremos as seguintes medidas de dispersão: � Amplitude Total (AT) � Variância (S2) � Desvio-Padrão (S) � Coeficiente de Variação (CV) 46 Amplitude Total (AT): é a diferença entre o valor máximo e o valor mínimo de um conjunto de dados. Dados Não Agrupados: AT = x MAX – x MIN onde: x MAX → valor máximo. x MIN → valor mínimo. Exemplo: Considere os dados sobre temperatura corporal, em graus Celsius (ºC), de seis pacientes internados: 36ºC; 36,8ºC; 37,5ºC; 38ºC; 39ºC; 40ºC . Determine a amplitude total. 47 Voltando ao exemplo das notas em Bioestatística, determine a amplitude total das notas de cada aluno: Calculando a amplitude total das notas de cada aluno, verifica-se a seguinte relação: AT Pedro = AT José > AT João > AT Antônio Pergunta-se: Existe algum problema na conclusão obtida com base na amplitude total ? Aluno Nota 1 Nota 2 Nota 3 Nota 4 Nota 5 Média AT Antônio 5 5 5 5 5 5 0 João 6 4 5 4 6 5 2 José 10 5 5 5 0 5 10 Pedro 10 10 5 0 0 5 10 48 Variância (S2) e Desvio-Padrão (S): A variância e o desvio-padrão são medidas de dispersão muito utilizadas, pois levam em consideração a totalidadedos valores observados. Variância (S2) - Dados Não Agrupados: 1 )( 1 2 2 − − = ∑ = n xx S n i i x i → i-ésimo valor da variável X. n → número total de valores da variável X (tamanho da amostra). → média aritmética de X: x n x x n i i∑ == 1 Prof.: Dr. José Rodrigo de Moraes (GET/UFF) Prof.: José Rodrigo de Moraes (GET/UFF) - Estatístico (ENCE), Mestre em Estatística Social (ENCE) e Doutor em Saúde Coletiva (IESC/UFRJ) 9 49 Variância (S2) – Dados Não Agrupados: 1 1 22 2 − − = ∑ = n xnx S n i i (fórmula ramificada) 1 )( 1 2 2 − − = ∑ = n xx S n i i 50 Variância (S2) – Dados Não Agrupados: No caso de usar a fórmula é aconselhável montar a seguinte tabela: 1 )( 1 2 2 − − = ∑ = n xx S n i i ix xxi − ( xxi − ) 2 1x xx −1 ( xx −1 ) 2 2x xx −2 ( xx −2 ) 2 nx xxn − ( xxn − ) 2 ∑ = n i ix 1 0 ∑ = − n i i xx 1 2)( 51 Variância (S2) – Dados Não Agrupados: No caso de usar a fórmula ramificada é aconselhável montar a tabela abaixo: 1 1 22 2 − − = ∑ = n xnx S n i i ix 2ix 1x 21x 2x 22x nx 2nx ∑ = n i ix 1 ∑ = n i ix 1 2 52 Desvio Padrão (S) – Dados Não Agrupados: O desvio padrão é definido como a raiz quadrada da variância. Ao contrário da variância, o desvio padrão é expresso na mesma unidade de medida dos dados originais. 2SS = Exemplo: Determine o desvio-padrão para as notas de cada aluno, e explique que conclusão chegou com base nos resultados obtidos. Monte a tabela sugerida para o cálculo da variância. 11 )( 1 22 1 2 − − = − − = ∑∑ == n xnx n xx S n i i n i i 53 É bom saber !!! Desvio-Padrão (S): � De maneira geral, quanto maior o desvio-padrão maior o espalhamento ou dispersão dos valores da variável em torno da média, e quanto menor o desvio-padrão, mais aproximados estão os valores da variável em torno da média. � Se o desvio-padrão for zero, então todos os valores da variável são iguais. � Se o desvio-padrão for grande, os valores da variável estão muito afastados de sua média. 54 Variância (S2) e Desvio Padrão (S) - Dados Não Agrupados: Calculando a variância e o desvio-padrão das notas dos alunos em Bioestatística, chegamos na seguinte relação: S2 Pedro > S2 José > S2 João > S2 Antônio S Pedro > S José > S João > S Antônio Aluno Nota 1 Nota 2 Nota 3 Nota 4 Nota 5 Média AT S2 S Antônio 5 5 5 5 5 5 0 0 0 João 6 4 5 4 6 5 2 1 1 José 10 5 5 5 0 5 10 12,5 3,54 Pedro 10 10 5 0 0 5 10 25 5 Prof.: Dr. José Rodrigo de Moraes (GET/UFF) Prof.: José Rodrigo de Moraes (GET/UFF) - Estatístico (ENCE), Mestre em Estatística Social (ENCE) e Doutor em Saúde Coletiva (IESC/UFRJ) 10 55 Quadro – Resumo: Dados Não Agrupados NnTamanho SSPadrãoDesvio x N xx -n SVariância x N x n xMédia N i i n i i N i i n i i 2 1= 2 1= 1 2 1=1= 1 = 1 = 1 = 1 = σσ µσ µ ==− −− 2 22 ∑∑ ∑∑ )()( PopulaçãoAmostraaEstatísticMedida 56 OBSERVAÇÃO IMPORTANTE: No caso de se desejar calcular a variância populacional (denotada pela letra grega σ2) utiliza-se na expressão a média populacional (denotada pela grega µ) e no denominador da expressão o tamanho da população (N). E para calcular a variância amostral (denotada por S2) utiliza-se na expressão a média amostral (denotada por ) e no denominador da expressão o tamanho da amostra menos um (n -1). As expressões da média amostral ( ) e populacional (µ) são similares, apenas se faz uma mudança na representação do número total de valores da variável, podendo ser n (tamanho da amostra) ou N (tamanho da população), no caso de estar trabalhando com dados amostrais ou populacionais, respectivamente. x x 57 Exemplo: Considere um amostra de dez recém-nascidos em um determinado hospital, para os quais registrou os seus pesos ao nascer (em kg): 3,2 ; 3,2; 2,8; 2,1; 2,9; 3,1; 3,2; 3,0; 3,5; 4,0 Calcule a variância e o desvio-padrão dos pesos ao nascer. Mostre todos os cálculos necessários. x 58 Resolução – usando a “fórmula ramificada”: X → peso ao nascer de recém-nascidos em um det. hospital 2 ix 98,2431Total 16410 12,253,59 938 10,243,27 9,613,16 8,412,95 4,412,14 7,842,83 10,243,22 10,243,21 i ix === ∑ = n x x n 1i i ∑ ix ∑ 2ix ≅== ≅== − = ∑ = 2 2 n 1i 2 i 2 ss s 1-n x nx s 2 59 Propriedades do desvio-padrão (S): 1ª Propriedade: Somando (ou subtraindo) um valor constante e arbitrário c, a cada elemento de um conjunto de números, o desvio-padrão não se altera. No caso da soma: X = { x1, x2, ..., xn } → SX Y = { x1+ c, x2 + c, ..., xn + c } → SY SY = SX No caso da subtração: X = { x1, x2, ..., xn } → SX Y = { x1- c, x2 - c, ..., xn - c } → SY SY = SX 60 Propriedades do desvio-padrão (S) – continuação: 2ª Propriedade: Multiplicando (ou dividindo) por um valor constante e arbitrário c, a cada elemento de um conjunto de números, o desvio-padrão fica multiplicado (ou dividido) pela constante. No caso da multiplicação: X = { x1, x2, ..., xn } → SX Y = { c x1, c x2, ..., c xn } → SY SY = c SX No caso da divisão: X = { x1, x2, ..., xn } → SX Y = { x1/ c, x2 / c , ..., xn / c } → SY SY = SX / c Prof.: Dr. José Rodrigo de Moraes (GET/UFF) Prof.: José Rodrigo de Moraes (GET/UFF) - Estatístico (ENCE), Mestre em Estatística Social (ENCE) e Doutor em Saúde Coletiva (IESC/UFRJ) 11 61 Coeficiente de Variação (CV): O coeficiente de variação trata-se de uma medida relativa de dispersão, cujo cálculo resulta da comparação entre o desvio- padrão e a média. Medida adimensional (expressa em %) Se: CV ≤ 15% →→→→ baixa dispersão 15% < CV < 30% →→→→ média dispersão CV ≥ 30% →→→→ alta dispersão 100. = x S CV 100⋅ = µ σ CV Dados amostrais: Dados populacionais: 62 Quando usar o CV ? Exemplo: Tomemos os resultados das medidas das alturas e dos pesos de um mesmo grupo de indivíduos selecionados. Altura (X): = 175 cm e SX = 5cm → CVX = 2,86% Peso (Y): = 68 kg e SY = 2 kg → CVY = 2,94% Que conclusão tirar ? X Y 63 Exemplo: Considerando ainda a amostra de dez recém- nascidos em um determinado hospital, para os quais registrou os seus pesos ao nascer (em kg): 3,2 ; 3,2; 2,8; 2,1; 2,9; 3,1; 3,2; 3,0; 3,5; 4,0 Calcule o coeficiente de variação (CV) dos pesos ao nascer. Resolução: X → peso ao nascer de recém-nascidos em um det. hospital =⋅= 100 x s CV Pergunta: Qual a conclusão obtida quanto a variabilidade dos pesos desse grupo de recém-nascidos ? 64 A média e o desvio-padrão nada informam sobre a forma da distribuição dos dados. Sendo assim, devemos estudar as chamadas medidas de assimetria. 65 Medidas de Assimetria 66 Medidas de Assimetria: As distribuições de freqüências não diferem apenas quanto ao posição e a variabilidade, mas também quanto à sua forma. Medidas de Assimetria são medidas utilizadas para identificar o grau de assimetria de umadistribuição. Assimetria significa deformação, ou ainda, desvio ou afastamento da simetria. Prof.: Dr. José Rodrigo de Moraes (GET/UFF) Prof.: José Rodrigo de Moraes (GET/UFF) - Estatístico (ENCE), Mestre em Estatística Social (ENCE) e Doutor em Saúde Coletiva (IESC/UFRJ) 12 67 Quanto ao tipo de assimetria, uma distribuição de freqüência pode ser classificada em: Distribuição Simétrica: Uma distribuição simétrica apresenta como característica principal o fato das três medidas de tendência central – moda, média e mediana – serem iguais, ou seja: MoMdx == MoMdx == 68 Distribuição Assimétrica Positiva (ou à Direita): Uma distribuição assimétrica positiva apresenta uma cauda mais alongada à direita. Nas distribuições assimétricas positivas ou à direita, a média é maior do que a mediana, que por sua vez, é maior do que a moda, ou seja: MoMdx >> xMdMo 69 Distribuição Assimétrica Negativa (ou à Esquerda): Uma distribuição assimétrica negativa apresenta uma cauda mais alongada à esquerda. Nas distribuições assimétricas negativas ou à esquerda, a média é menor do que a mediana, que por sua vez, é menor do que a moda, ou seja: MoMdx << MoMdx 70 Principais métodos para identificação do tipo e grau de assimetria: 1º Método: Comparar as medidas de tendência central. Trata-se do método mais rudimentar, o qual não permite quantificar o grau de assimetria da distribuição da variável analisada. →→→→ A distribuição é simétrica →→→→ A distribuição é assimétrica positiva →→→→ A distribuição é assimétrica negativa. MoMdx ======== MoMdx >>>>>>>> MoMdx <<<<<<<< 71 2º Método: Calcular o coeficiente de assimetria de Pearson. Uma medida muito usada para identificar e avaliar o grau de assimetria ou deformação de uma dada distribuição é o coeficiente sugerido por (Karl) Pearson: 1º Coef. de Assimetria de Pearson 2º Coef. de Assimetria de Pearson ASi = 0 →→→→ a distribuição do dados é simétrica. (i=1,2) ASi > 0 →→→→ a distribuição dos dados é assimétrica positiva. (i=1,2) ASi < 0 →→→→ a distribuição dos dados é assimétrica negativa. (i=1,2) S Mox AS - =1 S Mdx AS )-3( =2 72 Classificação do grau de assimetria de uma distribuição com base no 1º e 2º coeficiente de Pearson: |ASi| ≤ 0,15 →→→→ a distribuição do dados é praticamente simétrica. 0,15<|ASi|< 1 →→→→ a distribuição dos dados é levemente assimétrica. |ASi| ≥ 1 →→→→ a distribuição dos dados é fortemente assimétrica. Prof.: Dr. José Rodrigo de Moraes (GET/UFF) Prof.: José Rodrigo de Moraes (GET/UFF) - Estatístico (ENCE), Mestre em Estatística Social (ENCE) e Doutor em Saúde Coletiva (IESC/UFRJ) 13 73 Exemplo: Considerando novamente a amostra de n=10 recém-nascidos em um determinado hospital, para os quais registrou os seus pesos ao nascer (em kg): 3,2 ; 3,2; 2,8; 2,1; 2,9; 3,1; 3,2; 3,0; 3,5; 4,0 Calcule o 1º e o 2º coeficientes de assimetria de Pearson para a variável “peso ao nascer”, e classifique a distribuição dos dados quanto ao tipo e ao grau de assimetria. Justifique. 74 Resolução do exemplo: X → peso ao nascer de recém-nascidos em um det. hospital � Usando o 1º coeficiente de assimetria de Pearson: � Usando o 2º coeficiente de assimetria de Pearson: ≅== S Mo-x AS1 ( ) ≅= ⋅ = S Md-x3 AS2 Pergunta: Qual o tipo e o grau de assimetria da distribuição dos pesos ao nascer ? 75 Em geral: Dado um conjunto de valores de um determinada variável X, a média (aritmética) é a medida de posição (ou localização) mais adequada quando tais valores apresentam uma distribuição aproximadamente simétrica, enquanto que a mediana surge como uma medida alternativa para representar a posição central em distribuições muito assimétricas. Como vimos a média usa efetivamente em seu cálculo a totalidade dos valores da variável de interesse, enquanto a mediana usa somente a ordenação dos valores.
Compartilhar