Baixe o app para aproveitar ainda mais
Prévia do material em texto
Universidade Salgado de Oliveira Reconhecida pela Portaria Ministerial nº 1283 de 08/09/93, publicada no D.O.U. de 09/09/93 Mantida pela Associação Salgado de Oliveira de Educação e Cultura (ASOEC) BIOESTATÍSTICA PARA O CURSO DE FARMÁCIA Professor Antonio Rodolfo Barreto 2 DISTRIBUIÇÃO DE FREQUÊNCIAS Freqüentemente, ao coletar dados, o pesquisador se depara com uma grande massa de valores numéricos, que se repetem algumas vezes, dificultando sua análise e interpretação. Surge então a necessidade de organizar esses dados em uma tabela onde os valores observados se apresentam associados individualmente ou em classes com os números de suas repetições, isto é, com suas respectivas frequências. Esta tabela recebe o nome de Distribuição de Frequências. A seguir são apresentados alguns conceitos fundamentais para a compreensão dessas tabelas. Dados Brutos É a apresentação dos dados observados na sequência em que foram coletados, isto é, sem nenhuma ordenação numérica. Exemplo: Rol É a organização dos dados brutos em ordem crescente ou decrescente. Exemplo: Amplitude Total (AT) É a diferença entre o maior valor e o menor valor da sequência dos dados observados. AT = valor máximo – valor mínimo Exemplo: Frequência Absoluta Simples (ou simplesmente frequência): if Denotada por if , a frequência indica o número de ocorrências de cada valor ou o número de valores pertencentes a uma classe. 3 Frequência Relativa Simples, ou simplesmente, Frequência Relativa: ifr Simbolizada por ifr , a frequência relativa simples fornece a proporção de cada valor ou de casos ocorridos em cada classe, em relação ao número total de observações. Portanto é um número relativo. Para calcular a frequência relativa, basta dividir a frequência absoluta da ordem em questão pelo número de observações. n f fr ii As comparações expressas através de porcentagem são mais usuais. Para obter a porcentagem de cada valor ou de casos ocorridos em cada classe, multiplica-se o quociente obtido por 100, ou seja: 100 n f fr ii Frequência Absoluta Acumulada: iF Denotada por iF , a frequência absoluta acumulada fornece a informação de quantos elementos se situam até determinado valor. A frequência acumulada do i-ésimo valor ou i-ésima classe (frequência acumulada de ordem i) é obtida somando-se a frequência desse valor ou classe com as frequências anteriores, ou seja, é a soma de todas as frequências de ordens menores ou igual a da ordem em questão. Por exemplo: 3F = 3 1i fi = f1 + f2 + f3 Frequência Acumulada Relativa: iFr Denotada por iFr , fornece a proporção de elementos situados até determinado valor. Consiste na soma da frequência relativa de cada valor ou classe com as frequências relativas dos valores ou classes anteriores, ou seja, é a soma das frequências simples relativas de ordens menores ou iguais a da ordem em questão. Por exemplo: 3Fr = 3 1i fri = fr1 + fr2 + fr3 DISTRIBUIÇÃO DE FREQUÊNCIAS SIMPLES (dados não agrupados ou não tabulados em classes de valores) É uma tabela onde os valores da variável analisada aparecem individualmente correlacionados com os números de suas repetições (frequências). Atividade 1. Um pesquisador perguntou a 15 crianças quantas refeições diárias ela realiza e obteve as seguintes respostas: 3 4 2 2 5 4 4 3 4 2 5 3 3 4 4 Confeccione a tabela de distribuição de frequências para dados agrupados, considere as freqüências: absolutas, relativas percentuais e a freqüência absoluta acumulada. 4 Atividade 2. Uma companhia de ônibus urbano fez uma pesquisa, na sexta feira, perguntando quantas vezes os passageiros que estavam na fila às 15 h 00 haviam utilizado do ônibus daquela companhia durante a semana. As informações foram as seguintes: 4 8 6 4 2 7 2 3 6 4 2 7 2 2 4 2 3 3 5 7 2 5 7 4 3 6 2 5 2 2 Confeccione a tabela de distribuição de frequências para dados agrupados, considere as freqüências: absolutas, relativas percentuais e a freqüência absoluta acumulada. DISTRIBUIÇÃO DE FREQUÊNCIAS POR CLASSES (dados agrupados ou tabulados em classes de valores) Quando a variável analisada apresenta um grande número de valores torna-se mais vantajoso o agrupamento destes em classes de frequência, evitando assim grande extensão da tabela e facilitando a visualização do fenômeno como um todo. A distribuição de frequências por classes é uma tabela onde os valores observados são agrupados em classes, isto é, em intervalos de variações da variável em questão. Número de Classes (k) Não existe uma regra fixa que forneça o número de classes. No entanto, como o objetivo da distribuição de frequências é facilitar a compreensão dos dados, é importante que a distribuição contenha um número adequado de classes. Intervalo de Classe ou Classe A notação | indica um intervalo de classe fechado à esquerda. Classes são intervalos de variações da variável, ou seja, é cada um dos grupos de valores em que se subdivide a amplitude total do conjunto de valores observados da variável. O número de classes de uma distribuição de frequências será denotado por k. 5 Limites de Classe São os valores extremos de cada classe. O menor valor denomina-se limite inferior da classe il e o maior, limite superior da classe iL . Amplitude do Intervalo de Classe (h) A amplitude do intervalo de classe é o comprimento da classe, sendo definida como a diferença entre o limite superior e o limite inferior da classe. iii lLh Atividade 3. Os dados abaixo se referem à idade de 36 doentes que recorreram à certo terapeuta durante o primeiro semestre de 2013 para corrigir problemas de coluna. 27 28 29 31 31 32 33 33 34 35 35 35 36 36 36 37 37 37 38 38 38 39 39 39 39 39 40 40 40 40 40 41 41 42 43 44 Com base nestes dados confeccione uma distribuição de freqüências utilizando 6 classes. 6 Atividade 4. Os números abaixo representam o comprimento, em centímetros, de cobaias de 90 dias: 25,5 27,0 26,0 27,5 26,0 25,0 25,5 26,0 27,5 27,0 26,0 27,0 25,0 24,5 26,0 25,0 26,5 25,0 26,0 27,0 27,5 25,5 24,0 25,0 Montar a tabela de freqüência utilizando 4 classes. Ponto Médio da Classe (xi) Considerando que os valores de uma classe estão distribuídos uniformemente, o ponto médio ou valor médio de uma classe é o valor que melhor a representa para efeito de cálculo de certas medidas. O ponto médio de uma classe i é definido por: 2 L x iii Uma outra maneira de obter o ponto médio é adicionar a metade da amplitude ao limite inferior da classe. Atividade 5. Determine os pontos médios da distribuição a seguir. Salários dos Funcionários da Indústria HeleStar S/A Salários (R$) fi 1.000 | 1.600 40 1.600 | 2.200 30 2.200 | 2.800 10 2.800 | 3.400 5 3.400 | 4.000 5 Total 907 Trabalho em Grupo 1 (TG1) 1) As alturas, em centímetros, de 18 alunos da Universidade Salgado de Oliveira são apresentadas a seguir. 149 162 170 157 152 171 158 164 169 154 155 167 157 163 167 165 164 171 Construa a tabela de freqüência utilizando 3 classes. 2) As notas obtidas por 20 alunos de uma turma em uma avaliação de Bioestatística estão abaixo relacionadas: 3,3 4,3 2,1 5,6 6,2 7,4 4,8 1,9 8,0 4,8 6,5 3,2 3,5 8,6 4,5 3,8 5,3 1,2 5,4 9,3 a) Agrupe os dados em seis classes de intervalo, cada uma com amplitude 1,5 a partir da nota 1,0, e faça uma tabela de freqüência. b) Qual a porcentagem de alunos com nota menor ou igual a 4? 3) Os dados a seguir representam as notas de 50 alunos. Agrupar estes elementos em uma distribuição de freqüências por classes: 33 35 35 39 41 41 42 45 47 48 50 52 53 54 55 55 57 59 60 60 61 64 65 65 65 66 66 66 67 68 69 71 73 73 74 74 76 77 77 78 80 81 84 85 85 88 89 91 94 97 4) Assinale a opção CORRETA. Frequência relativa simples de um valor da variável é: a) O número de repetições desse valor b) A porcentagem de repetições desse valor c) O número de observações acumuladas até esse valor d) A quantidade de elementos maiores que esse valor e) As outras alternativas estão incorretas 5) Considere a seguinte distribuição de frequências correspondente aos diferentes preços de um determinado medicamento pesquisado em 20 lojas. Preços do Medicamento A Preço (R$) Número de Lojas 10 2 11 5 12 6 13 6 14 1 Total 20 FONTE: Dados Fictícios a) Quantas lojas apresentam preços de R$ 12,00? b) Quantas lojas apresentaram um preço de até R$ 12,00 (inclusive)? 8 c) Qual é a percentagem de lojas com preços de até R$ 13,00 (inclusive)? 6) Dada a distribuição de frequências: Indústria de Equipamentos Eletrônicos – IEE Número de Falhas em Componentes durante o período de garantia Janeiro de 2000 Nº de Falhas (xi) Número de Equipamentos (fi) 0 148 1 52 2 34 3 26 4 13 5 7 Total 280 a) Determinar as frequências relativas percentuais. b) Responder qual a porcentagem de: b.1) equipamentos que não apresentaram falha em seus componentes; b.2) equipamentos que apresentaram pelo menos uma falha em seus componentes; b.3) equipamentos trocados, sabendo-se que a indústria se compromete a trocar o equipamento que apresente 4 ou mais falhas em seus componentes. 9 MEDIDAS DE TENDÊNCIA CENTRAL Os valores que representam o conjunto de dados observados ou então promovem uma partição sobre este conjunto são chamados de medidas de posição. Entre as medidas de posição destacam-se as medidas de tendência central e as separatrizes. MÉDIA ARITMÉTICA ( x ) a) Média aritmética para dados não agrupados Sejam x1, x2, ..., xn, n valores da variável x. A média aritmética simples, denotada por x , é definida por: n x x n i i 1 onde n é o número de valores observados da variável x. Atividade 1. As notas finais de 15 alunos estão apresentadas abaixo. Determine a média aritmética das notas obtidas. 7,5 9,0 4,5 4,0 5,5 8,0 8,5 9,0 7,5 7,5 7,0 6,5 7,5 9,0 6,5 Atividade 2. A seleção Brasileira de basquete preparou-se, durante quatro meses, para um torneio internacional, contando com 10 atletas com média de altura de 1,94 m. Na véspera do embarque, um atleta de 2,06 m contundiu-se e o técnico decidiu substituí-lo, convocando, às pressas, um pivô de 1,95 m. Determine a nova média de altura da seleção que embarcou para o torneio. b) Média aritmética para dados agrupados Neste caso, usamos a média aritmética dos valores x1, x2, ..., xk, ponderada pelas suas respectivas frequências absolutas f1, f2, f3, ... , fk. Desta forma, temos: n fx x i n i i 1 onde: n = f1 + f2 + ... + fk = k 1i if 10 Atividade 3. Abaixo está representada a distribuição do número de irmão de 20 alunos da turma A. Determinar a média aritmética dessa distribuição. xi fi 0 4 1 8 2 3 3 3 4 1 5 1 Total 20 Atividade 4. Um comerciante mistura 4 kg do café tipo A, que custa R$ 6,00 o quilo; 10 kg do café B, que custa R$ 5,60 o quilo; e 6 Kg do café C, que custa R$ 5,00 o quilo. Qual o preço por quilo da mistura? Atividade 5. Dada a distribuição abaixo determine a renda média familiar destas 40 famílias. OBS: Quando se tratar de uma distribuição de frequência por classe, xi corresponde ao ponto médio da classe, ou seja, 2 ii i L x . Renda Familiar de 40 Famílias i Salários (R$ 1.000) fi 1 2 | 4 5 2 4 | 6 10 3 6 | 8 14 4 8 | 10 8 5 10 | 12 3 TOTAL 40 Atividade 6. Houve uma denúncia de intoxicação por mercúrio em uma remessa de 20 latas de certo produto que chegaram a um supermercado. Então, foi feita uma inspeção para determinar a massa de mercúrio (material tóxico) presente em cada lata. Os resultados da inspeção são dados a seguir (em g de mercúrio por 1000g do produto): 0,3 0,4 0,5 0,4 0,4 0,4 0,6 0,2 0,15 0,35 0,4 0,55 0,35 0,4 0,4 0,4 0,55 0,6 0,5 0,45 Uma remessa é confiscada quando, em média, a massa de mercúrio é superior a 0,4 g. a) Deve essa remessa ser confiscada? Justifique. b) Para evitar o confisco, o fornecedor propôs acrescentar cinco novas latas a essa remessa, garantindo que todas as novas latas contêm massas iguais de mercúrio. Qual a massa máxima de mercúrio que cada lata pode conter, a fim de que a “nova” remessa não seja confiscada? 11 Trabalho em Grupo 2 (TG2) 1) Em certo ano, uma indústria farmacêutica teve a produção bimestral de certo medicamento conforme mostra a tabela a seguir: Mês Jan./fev. Mar./abr. Maio/jun. Jul./ago. Set./out. Nov./dez Produção 6.000 11.000 13.000 15.000 25.000 10.000 Responda: Qual a média bimestral de produção? 2) Os valores de glicemia em jejum em mg medidos fotocolorimetricamente no sangue de 10 adultos do sexo masculino, clinicamente normais e sem história familial de diabetes mellitus, foram: 79 86 91 96 100 102 108 108 110 120 Para os dados acima determine a média aritmética. 3) Em uma amostra com 50 notas a média é 7,5. Os valores 4,5 e 5,7 foram retirados. Então determine a nova média da amostra. 4) Em um estudo realizado com 100 pacientes portadores de asma foram registrados no mês de agosto os seguintes dados: Nº de crises Nº de pacientes 0 14 1 18 2 32 3 29 4 5 5 2 TOTAL 100 Qual foi neste mês o número médio de crises por paciente? 5) A academia Boa Forma fez uma pesquisa sobre o peso dos seus clientes. A tabela abaixo mostra o resultado obtido: Peso (kg) Nº de pessoas 50 | 55 9 55 | 60 10 60 | 65 25 65 | 70 18 70 | 75 8 Total 70 Com base nos dados acima, determine o peso médio dos clientes. 6) A média mínima para aprovação em uma matériaé 5. Se um estudante obteve as notas 7,5; 8,0; 3,5; 6,0; 2,5; 2,0; 5,5 e 4,0 nos trabalhos mensais desta matéria, pergunta-se: ele foi ou não aprovado? 12 ALTURA DOS ATLETAS DA EQUIPE DE NATAÇÃO 0 1 2 3 4 5 6 7 8 9 ALTURA (cm) Nº de Atletas 160 170 180 190 200 7) O histograma, a seguir, apresenta a altura média de 20 atletas de uma equipe de natação. Com base nos dados do histograma determine a altura média dos atletas. 13 MEDIANA (Md) A mediana, denotada por Md, é o valor que divide o rol em duas partes contendo, cada uma, a mesma quantidade de elementos. Assim, a mediana é o valor que ocupa a posição central de uma série de dados. 50% 50% Md a) Mediana para dados não agrupados i) Se n é ímpar – o rol admite apenas um termo central que ocupa a posição 2 1n . O valor do elemento que ocupa esta posição é a mediana. Atividade 1. Determinar a mediana da série: 20; 12; 23; 20; 8; 12; 2. ii) Se n é par – neste caso o rol admite dois termos centrais que ocupam as posições 2 n e 1 2 n . Neste caso a mediana é definida como a média aritmética destes dois termos centrais. Atividade 2. Determinar a mediana da série: 7; 21; 13; 15; 10; 8; 9; 13. Atividade 3. Os dados ordenados abaixo referem-se ao tempo de espera (em minutos) de 10 pessoas que foram atendidas em um posto de saúde durante uma manhã: 1 5 8 9 x 16 18 y 23 26 Sabendo que o tempo médio de espera foi de 14 minutos e o tempo mediano foi de 15 minutos, determine os valores de x e de y. 14 b) Mediana para dados agrupados sem intervalos de classes O procedimento para o cálculo da mediana para dados agrupados sem intervalos de classes é o mesmo utilizado para dados não agrupados, ou seja: Se n for ímpar, a mediana será o termo central, isto é, o termo de ordem 2 1n . Se n for par, a mediana será a média aritmética entre os elementos centrais, isto é, os elementos de ordem 2 n e 1 2 n . Atividade 4. Determinar a média e a mediana da distribuição: xi fi Fi 2 1 1 5 4 5 8 10 15 10 6 21 12 2 23 Total 23 Atividade 5. Determinar a média e a mediana da distribuição: xi fi 0 3 1 5 2 8 3 10 5 6 Total 32 15 c) Mediana para dados agrupados com intervalos de classes Calcula-se 2 n , independente de n ser par ou ímpar; Localiza-se, através das frequências acumuladas, a classe mediana, ou seja, a classe que contém o termo de ordem 2 n ; Aplica-se a fórmula: h f F n Md Md ant Md 2 onde: ℓMd = limite inferior da classe mediana; Fant = frequência acumulada da classe anterior à classe mediana; h = amplitude da classe mediana; fMd = frequência absoluta da classe mediana. Atividade 6. Determine a média e a mediana da distribuição: Preço (R$) fi 12 | 14 2 14 | 16 4 16 | 18 5 18 | 20 12 20 | 22 2 Total 25 Atividade 7. Determine a média e a mediana da distribuição: Altura (cm) fi 150 | 154 4 154 | 158 9 158 | 162 11 162 | 166 8 166 | 170 5 170 | 174 3 Total 40 16 Trabalho em Grupo 3 (TG3) 1) Determinar a média e a mediana das séries: a) 2; 5; 8; 10; 12; 8; 5; 12 b) 3,4; 5,2; 4,7; 6; 8,4; 9,3; 2,1; 4,8 2) Durante uma epidemia de cólera, recolheu-se certo número de mortos em 35 cidades de um país, obtendo-se a seguinte tabela: (nº) Mortos (nº) Cidades 0 9 1 9 2 11 3 3 4 2 5 1 Total 35 Com base nos dados, determine o número mediano de mortos. 3) A Secretaria de Saúde do Estado suspeita que os fornecedores de um determinado medicamento, com fábrica num município do interior, estejam fazendo uma política combinada de preços (cartel). Para verificar essa suspeita, foram tomados os preços praticados por uma amostra de 25 fábricas. Preço (R$) Nº de fábricas 12 | 14 2 14 | 16 4 16 | 18 5 18 | 20 12 20 | 22 2 Total 25 Determine a mediana. 4) A tabela abaixo mostra a distribuição de frequência obtida de uma amostra aleatória dos salários anuais em reais de uma firma. Classes de Salários (R$) Frequências Acumuladas 5.000 | 6.500 12 6.500 | 8.000 28 8.000 | 9.500 52 9.500 | 11.000 74 11.000 | 12.500 89 12.500 | 14.000 97 14.000 | 15.500 100 Determine o salário mediano. 5) Na tabela ao lado são dadas as idades de 54 pessoas. Pede-se para calcular a idade mediana. Idades Nº de pessoas 10 | 15 6 15 | 20 11 20 | 25 16 25 | 30 13 30 | 35 5 35 | 40 3 54 17 MODA (Mo) É o valor mais frequente do conjunto de dados observados. a) Moda para dados não agrupados Para determinar a moda, basta identificar o(s) elemento(s) que mais se repete(m). Atividade 1. Determinar a moda dos conjuntos de dados abaixo: a) 2; 8; 3; 5; 4; 5; 3; 5; 1 b) 6; 10; 5; 6; 10; 2 c) 2; 2; 8; 8; 5; 5; 6; 6 b) Moda para dados agrupados sem intervalos de classes Neste caso, basta identificar o(s) elemento(s) de maior frequência. Atividade 2. Determinar a moda da distribuição: Atividade 3. Determinar a moda da distribuição: xi fi 0 2 2 5 3 8 4 3 5 1 Total 19 xi fi 1 2 2 5 3 4 4 5 5 1 Total 17 18 Atividade 4. Determinar a moda da distribuição: c) Moda para dados agrupados com intervalos de classes Neste caso há diversos processos para o cálculo da moda, entre eles: a moda bruta e a moda de Czuber. i) Fórmula da Moda Bruta Identifica-se a classe modal (a que possui maior frequência); Aplica-se a fórmula: 2 L Mo MoMo onde: ℓMo = limite inferior da classe modal. L Mo = limite superior da classe modal. ii) Fórmula da Moda de Czuber Identifica-se a classe modal (a que possui maior frequência); Aplica-se a fórmula: hMo 21 1 Mo onde: ℓMo = limite inferior da classe modal. 1 = diferença entre a frequência absoluta da classe modal e a frequência absoluta da classe anterior à classe modal. 2 = diferença entre a frequência absoluta da classe modal e a frequência absoluta da classe posterior à classe modal. h = amplitude da classe modal. Atividade 5. Dada a distribuição abaixo calcule a moda bruta e a moda de Czuber classes fi 0 | 1 3 1 | 2 10 2 | 3 17 3 | 4 8 4 | 5 5 TOTAL 43 xi fi 4 5 5 5 8 5 10 5 Total 20 19 Atividade 6. Dada a distribuição abaixo calcule a média, a mediana, a moda bruta e a moda de Czuber. classes fi 5 | 10 3 10 | 15 8 15 | 20 620 | 25 7 25 | 30 6 TOTAL 30 Trabalho em Grupo 4 (TG4) 1) Os tempos, em segundos, que 8 atletas mirins levam para percorrer uma distância de 400 metros na prova de atletismo, são: 90 85 100 92 92 87 84 98 Assinale a alternativa CORRETA. Neste caso, o valor 91 representa: a) a média b) a média e a mediana c) a média e a moda d) a mediana e a moda e) a média, a mediana e a moda 2) Em um estudo realizado com 100 pacientes portadores de asma foram registrados no mês de março os seguintes dados: Nº de crises Nº de pacientes 0 14 1 18 2 32 3 29 4 5 5 2 TOTAL 100 Qual o número modal de crises por paciente? 20 3) A academia Boa Forma fez uma pesquisa sobre o peso dos seus clientes. A tabela abaixo mostra o resultado obtido: 1. Peso (kg) Nº de pessoas 50 | 55 9 55 | 60 10 60 | 65 25 65 | 70 18 70 | 75 8 Total 70 Assinale a alternativa CORRETA. Com base nos dados acima, podemos concluir que o peso modal (moda bruta), é de: a) 62,5 kg b) 62,9 kg c) 63,2 kg d) 63,4 kg e) 64,0 kg 4) A Secretaria de Saúde do Estado suspeita que os fornecedores de um determinado medicamento, com fábrica num município do interior, estejam fazendo uma política combinada de preços (cartel). Para verificar essa suspeita, foram tomados os preços praticados por uma amostra de 25 fábricas. Preço (R$) Nº de fábricas 12 | 14 2 14 | 16 4 16 | 18 5 18 | 20 12 20 | 22 2 Total 25 Assinale a alternativa CORRETA. A moda de Czuber desta distribuição é: a) 17,60 b) 18,25 c) 18,50 d) 18,80 e) 19,90 5) A distribuição de freqüências abaixo representa o peso em Kg de 20 pessoas. Sejam as sentenças: I O peso mediano da distribuição é 73 kg. II – O peso médio da distribuição é 74,5 kg. III – O peso modal da distribuição (moda bruta) é 100 kg. Marque a alternativa CORRETA: a) Todas as sentenças estão corretas. b) Todas as sentenças estão erradas. c) Apenas a sentença I está correta. d) Apenas a sentença III está errada. e) Nenhuma das anteriores Pesos (kg) Freq. acumulada 55 65 6 65 | 75 11 75 | 85 15 85 | 95 19 95 | 105 20 21 MEDIDAS DE DISPERSÃO São medidas estatísticas utilizadas para avaliar o grau de variabilidade, ou dispersão, dos valores em torno da média. Servem para medir a representatividade da média. Essa avaliação é necessária, pois quando se trata de interpretar dados estatísticos, mesmo aqueles já convenientemente simplificados, como a média aritmética, deve-se ter uma ideia retrospectiva de como se apresentavam esses mesmos dados nas tabelas. Assim, não é o bastante dar uma medida de posição para caracterizar perfeitamente um conjunto de valores, devemos, também, medir a variabilidade do conjunto de valores em relação à essa medida de posição. Se observarmos as sequências: X: 10, 1, 18, 20, 35, 3, 7, 15, 11, 10 Y: 12, 13, 13, 14, 12, 14, 12, 14, 13, 13 Z: 13, 13, 13, 13, 13, 13, 13, 13, 13, 13 concluiremos que todas possuem a mesma média 13. No entanto, são sequências completamente distintas do ponto de vista da variabilidade de dados. Na sequência Z não há variabilidade de dados. A média 13 representa bem qualquer valor da série. Na sequência Y, a média 13 representa bem a série, mas existem elementos da série levemente diferenciados da média 13. Na sequência X existem muitos elementos bastante diferenciados da média 13. Concluímos que a média 13 representa otimamente a sequência Z, representa bem a sequência Y, mas não representa bem a sequência X. a) Variância e desvio padrão para dados não agrupados Se a sequência representa uma população, a variância é calculada pela fórmula: n )xx( 2i2 , e o desvio padrão é 2 . Atividade 1. Calcule a variância e o desvio padrão da sequência: 4, 5, 8, 5. 22 Atividade 2. Com o objetivo de verificar o comportamento do consumidor, um órgão de defesa do consumidor registrou o seguinte número de queixas ao longo de 7 dias: 58 39 63 60 95 48 71 a) Determine a média e a mediana do número de queixas recebidas. b) Qual o desvio padrão dos dados acima? b) Variância e desvio padrão para dados agrupados sem intervalos de classes Como há repetições de elementos na série, definimos a variância como sendo uma média aritmética ponderada dos quadrados dos desvios dos elementos da série para a média da série. Se a variável é representativa de uma população, então a variância é dada por: n f)xx( i 2 i2 . Atividade 3. Calcule a variância e o desvio padrão da série abaixo, representativa de uma população: xi fi 2 3 3 5 4 8 5 4 Total 20 23 Atividade 4. Em um estudo realizado com 100 pacientes portadores de asma foram registrados no mês de agosto os seguintes dados: Nº de crises Nº de pacientes 0 14 1 18 2 32 3 29 4 5 5 2 TOTAL 100 Calcule e variância e o desvio padrão dos dados obtidos. c) Variância e desvio padrão para dados agrupados com intervalos de classes Novamente, por desconhecer os particulares valores xi da série, substituiremos nas fórmulas anteriores estes valores pelos pontos médios das classes. Atividade 5. Determinar a variância e o desvio padrão da distribuição: Classes fi 0 | 4 1 4 | 8 3 8 | 12 5 12 | 16 1 TOTAL 10 24 Atividade 6. Determinar a mediana, a moda bruta, a variância e o desvio padrão da distribuição: Classes fi 2 | 6 2 6 | 10 4 10 | 14 7 14 | 18 1 TOTAL 14 Trabalho em Grupo 5 (TG5) 1) Calcule a variância e o desvio padrão de cada um dos conjuntos: a) 23 43 34 23 25 27 22 b) 25 14 19 25 19 2) Entre os funcionários de uma clínica, foi retirada uma amostra de dez indivíduos. Os números que representam as ausências ao trabalho registradas para cada um deles, no último ano, são: {0; 0; 0; 2; 2; 2; 4; 4; 6; 10}. Sendo assim, determine o valor do desvio padrão desta amostra. 3) A prefeitura de Goiânia encomendou uma pesquisa que avaliasse o grau de satisfação dos moradores da cidade. Cada um dos oitenta entrevistados atribuiu uma nota de 0 a 100 para a administração do prefeito. Os resultados estão apresentados na tabela seguinte: Nota Frequência Absoluta 0 ├ 20 4 20 ├ 40 13 40 ├ 60 32 60 ├ 80 25 80 ├ 100 6 a) Determine a nota média dada ao prefeito nesta pesquisa. b) Calcule o desvio padrão 25 4) Um radar fotográfico, instalado em uma rodovia na qual o limite de velocidade é de 100 km/h, registrou em uma semana x multas por excesso de velocidade, assim distribuídas: Velocidade em Km/h Número de ocorrências 101 ├ 108 34 108 ├ 115 41 115 ├ 122 35 122 ├ 129 22 129 ├ 136 18 a) Determine o valor de x. b) Calcule a média e o desvio padrão da velocidade dos veículos multados. 5) Em uma classe de 40 alunos as notas obtidas em teste formaram a seguinte distribuição: Notas 1 2 3 4 5 6 78 9 10 Nº se alunos 4 4 8 1 2 7 7 5 1 1 Calcule a média, a mediana, a moda e o desvio padrão das notas apresentadas. 6) Em um determinado dia da semana foram atendidas 10 crianças em um Posto de Saúde na periferia de Goiânia, cujas idades eram: 3 11 2 10 11 13 7 7 12 4 Determine o desvio-padrão das idades. 26 COEFICIENTE DE VARIAÇÃO (CV) Trata-se de uma medida relativa de dispersão útil para a comparação em termos relativos do grau de concentração em torno da média de séries distintas. O desvio padrão por si só não nos diz muita coisa. Assim, se uma série X apresenta x = 10 e )x( =2 e uma série Y apresenta y = 100 e )y( = 5, do ponto de vista da dispersão absoluta, a série Y apresenta maior dispersão que a série X. No entanto, se levarmos em consideração as médias das séries, o desvio padrão de Y que é 5 em relação a 100 é um valor menos significativo que o desvio padrão de X que é 2 em relação a 10. Além disso, o fato de o desvio padrão ser expresso na mesma unidade dos dados limita o seu emprego quando desejamos comparar duas ou mais séries de valores, relativamente à sua dispersão ou variabilidade, quando expressas em unidades diferentes. Para contornar essas dificuldades e limitações, podemos caracterizar a dispersão ou variabilidade dos dados em termos relativos a seu valor médio através do coeficiente de variação: 100 x CV que é expresso em porcentagens. Diz-se que a distribuição possui pequena variabilidade (dispersão), isto é, a distribuição é mais homogênea, quando o coeficiente der até 15%; média dispersão quando estiver acima de 15% até 30%; e grande dispersão quando superar 30%. Ou seja: Baixa dispersão: CV 15% Média dispersão: 15% < CV < 30% Alta dispersão: CV 30% Atividade 1 Numa empresa, o salário médio dos homens é de R$ 4.000,00, com desvio padrão de R$ 1.500,00, e o das mulheres é em média de R$ 3.000,00 com desvio padrão de R$1.200,00. Qual grupo é mais homogêneo em relação aos salários? Atividade 2. A distribuição das estaturas de um grupo de pessoas apresentou uma estatura média de 175 cm e um desvio padrão de 12 cm, enquanto que a distribuição dos pesos apresentou um peso médio de 78 kg, com um desvio padrão de 15 kg. Com base nestes dados, qual é a variável mais homogênea deste grupo? 27 Atividade 3. Marque a alternativa CORRETA Os dados abaixo representam os pesos de crianças na enfermaria da clínica X: 15,0 18,6 20,5 21,2 22,3 25,6 28,6 29,4 35,2 Sabendo-se que a variância dos dados acima é 38,9, podemos afirmar que: a) 0% CV < 10% b) 10% CV < 20% c) 20% CV < 30% d) 30% CV < 40% e) CV 40% Atividade 4. A tabela a seguir contém algumas estatísticas associadas aos tempos de vida da população de certa comunidade (pessoas falecidas nos anos 2000-2007). Média Mediana Moda Desvio padrão Homens 69,2 73 80 16,4 Mulheres 78,7 80 83 13,7 Com base nestas informações, assinale a alternativa CORRETA. a) O tempo de vida dos homens apresenta maior CV e por isso apresenta maior homogeneidade. b) O tempo de vida dos homens apresenta menor variabilidade. c) O tempo de vida das mulheres apresenta o menor CV e por isso apresenta maior homogeneidade. d) Como a média de tempo de vida das mulheres é menor então elas apresentam menor variabilidade e) O tempo de vida das mulheres possui maior dispersão porque tem a maior média. Atividade 5. Realizada uma pesquisa referente à renda familiar de um grupo de dez alunos obtiveram-se os seguintes resultados. 8,5 15,2 13 17,2 14,5 15,7 12,8 19 18 1 5,7 a) Montar a tabela de freqüência para a variável renda familiar utilizando 3 classes; b) Determine a renda média familiar destas 10 famílias. c) Calcule o coeficiente de variação dessa amostra e interprete. 28 Atividade 6. O número de erros de português (ortografia, acentuação, concordância, etc) encontrado por pagina de um trabalho escolar está relacionado na tabela seguinte: Número de erros Frequência Absoluta 0 ├ 2 6 2 ├ 4 4 4 ├ 6 3 6 ├ 8 1 Determine: a) A média; b) O desvio padrão; c) O coeficiente de variação dessa amostra e interprete Trabalho em Grupo 6 (TG6) 1) Marque a alternativa CORRETA. A homogeneidade de uma série de valores ou de uma distribuição de frequências é dada pela razão entre o desvio padrão e a média aritmética. Podemos afirmar que : a) Quanto maior o coeficiente de variação maior homogeneidade. b) Quanto menor o coeficiente de variação menor homogeneidade. c) Quanto menor o coeficiente de variação maior a homogeneidade. d) Quando o desvio padrão é igual a média menor a homogeneidade. e) As alternativa "a" e "b" estão corretas. O enunciado abaixo se refere às questões 2 e 3. Encontram-se a seguir alguns valores de Média e Desvio Padrão extraídos de uma pesquisa no hospital X. Variável Média ± DP (mg/dL) Glicemia 85,86 ± 14,77 Triglicerídeos 174,36 ± 75,24 Colesterol HDL 46,43 ± 11,71 2) Marque a alternativa CORRETA. Para medir a variabilidade relativa das três variáveis mensuradas, e compará-las, a melhor medida é: a) a média b) o desvio padrão c) a moda d) a mediana e) o coeficiente de variação 29 3) Marque a alternativa CORRETA: a) O Triglicerídeos é a variável mais homogênea porque possui o maior CV. b) O Colesterol HDL é a variável mais homogênea porque possui o menor desvio padrão. c) A Glicemia é a variável mais homogênea porque possui o menor CV. d) A variável que apresenta menor homogeneidade é a Glicemia. e) A variável que apresenta menor homogeneidade é o Colesterol HDL. 4) Conhecidas as médias e os desvios-padrões da pressão sanguínea (mm/Hg) segundo o tipo de anestesia (halotano ou morfina), determine qual tipo apresenta os dados mais homogêneos. Informações sobre a amostra Anestesia Halotano Morfina Média 66,9 75 Desvio-Padrão 12,5 13,5 5) A seguir apresenta-se o nível de colesterol de 5 pessoas 233 291 310 250 196 Calcule o coeficiente de variação dessa amostra e interprete. 6) Em um exame final de Matemática Básica, o grau médio de um grupo de 150 alunos foi 6,8 e o desvio padrão 1,2. Em Bioestatística, entretanto, o grau médio final foi 6,9 e o desvio padrão, 1,3. Em que disciplina foi maior a dispersão? 30 MATERIAL EXTRA CONCEITOS BÁSICOS ESTATÍSTICA é um conjunto de métodos e processos quantitativos que serve para estudar e medir os fenômenos coletivos. ESTATÍSTICA é a ciência que estuda as técnicas necessárias para coletar, organizar, apresentar, analisar e interpretar os dados, a fim de extrair informações a respeito de uma população. POPULAÇÃO é o conjunto de todos os elementos (pessoas ou objetos) que interessam ao estudo de um fenômeno coletivo segundo alguma característica. AMOSTRA é qualquer subconjunto não vazio de uma população. PARÂMETRO é uma característica numérica estabelecida para toda uma população. ESTIMADORé uma característica numérica estabelecida para uma amostra. CENSO é um levantamento estatístico (pesquisa) que abrange todos os elementos de uma população. Principais propriedades do Censo: Confiabilidade 100% Custo elevado Lento Nem sempre é viável AMOSTRAGEM é o processo de obter as amostras, com a finalidade de fazer generalizações sobre a população sem precisar examinar cada um de seus elementos. Principais propriedades da Amostragem: Confiabilidade menor que 100% Mais barata que o Censo Mais rápida que o Censo É sempre viável DADO ESTATÍSTICO é toda informação devidamente coletada e registrada. Todo dado se refere a uma variável. VARIÁVEL é uma característica dos elementos de uma população ou de uma amostra, que pode assumir diferentes valores, sejam numéricos ou não, e que interessa ao estudo. CLASSIFICAÇÃO DAS VARIÁVEIS: VARIÁVEIS QUALITATIVAS – quando seus valores são expressos por atributos ou qualidades; VARIÁVEIS QUANTITATIVAS – quanto seus valores são expressos em números. PARTES DA ESTATÍSTICA Estatística Descritiva – é a parte da Estatística que trabalha com a organização e a apresentação dos dados. 31 Estatística Indutiva ou Inferência Estatística – é a parte da Estatística que trabalha com análise e interpretação dos dados, com o objetivo de obter e generalizar conclusões para a população a partir de uma amostra. ESTATÍSTICA DESCRITIVA ATRIBUIÇÕES DA ESTATÍSTICA DESCRITIVA - Fases do Método Estatístico Definição do problema O que exatamente se pretende pesquisar? Delimitar o tema. Planejamento Como levantar informações? Que dados deverão ser obtidos? Qual levantamento a ser utilizado? Censo? Amostragem? Qual é o cronograma de atividades? Quais são os custos envolvidos no processo? Obtenção ou coleta de dados – normalmente feita através de um questionário ou de observação direta Crítica, Apuração e Organização dos dados – consiste na ordenação e crítica dos dados para evitar erros que possam vir a alterar os resultados Apresentação dos dados – através de tabelas e gráficos Obtenção de algumas informações como médias, proporções, dispersões, índices que facilitam a descrição e análise dos fenômenos observados. ORGANIZAÇÃO DE DADOS EM TABELAS Objetivo: apresentar resumidamente, de maneira clara e precisa, um conjunto de dados estatísticos. ELEMENTOS DAS TABELAS Título – texto conciso, indicador do conteúdo de uma tabela. Localizado no topo da tabela, responde às perguntas: O quê? Quando? Onde? Corpo – conjunto de linhas e colunas que contém informações sobre a variável em estudo. Cada cruzamento de uma linha com uma coluna constitui uma casa ou célula. Cabeçalho – parte superior da tabela que especifica o conteúdo das colunas. Coluna Indicadora – parte da tabela que especifica o tipo de informação que cada linha contém. Fonte – identificador do responsável (pessoa física ou jurídica) pelo fornecimento dos dados. Não se indica a fonte no caso em que a tabela é apresentada pelo próprio pesquisador, ou pelo próprio grupo de pesquisadores, ou pela própria instituição que obteve os dados. É inscrita na primeira linha do rodapé (parte inferior da tabela) e deve ser precedida da palavra Fonte. Notas – são informações de natureza geral que servem para esclarecer o conteúdo das tabelas ou para explicar o método utilizado no levantamento dos dados. As notas são colocadas logo após a fonte. Chamadas – são informações de natureza específica que servem para explicar ou conceituar determinados dados. As chamadas são inscritas no rodapé após a Fonte e as Notas. Exemplo de tabela: EFETIVO DO REBANHO BOVINO Título 2005-2009 Coluna ANOS PRODUÇÃO (1.000 t) Cabeçalho Indicadora 2005 207.157 2006 205.886 Casa ou célula 2007 199.752 2008 202.307 2009 205.260 Rodapé FONTE: IBGE Corpo 32 SÉRIES ESTATÍSTICAS SÉRIE ESTATÍSTICA é toda tabela que apresenta a distribuição de um conjunto de dados estatísticos em função do tempo, do local ou do fenômeno. Tipos Básicos de Séries: Temporal, Cronológica ou Histórica Geográfica, Territorial ou de Localização Categórica ou Específica SÉRIE TEMPORAL Usada para apresentar dados observados em determinado local, discriminados ao longo do tempo. Exemplo: Produção Brasileira de Cana-de-açúcar 1980/2006 Ano Produção (toneladas) 1980 139.584.521 1985 229.882.037 1996 259.806.703 2006 384.165.158 Fonte: IBGE SÉRIE GEOGRÁFICA Usada para apresentar dados de diferentes regiões geográficas, em determinado tempo. Exemplo: ÓBITOS POR NEOPLASIAS MALIGNAS 2009 Regiões Quantidade (por 100 mil habitantes) Norte 46,7 Nordeste 66,2 Sudeste 102,8 Sul 121,1 Centro-Oeste 73,2 Fonte: Ministério da Saúde/Indicadores e Dados Básicos-Brasil-2010 O Instituto do Câncer (Inca) é o órgão de referência Técnica nacional para um só do indicador SÉRIE CATEGÓRICA Usada para apresentar dados que se distribuem em diferentes categorias, em determinado tempo e local. Exemplo: Vendas das empresas brasileiras de tecnologia 2006 Setores Vendas (milhões de dólares) Comunicação 56.927,70 Hardware 20.488,20 Serviços de Software 7.300,40 Serviços 5.603,50 Software 2.419,10 D Distribuição 1.380,40 Internet 657,40 Fonte: Info Exame-ago.2007 *200 maiores empresas de tecnologia do Brasil 33 REPRESENTAÇÃO GRÁFICA DAS SÉRIES ESTATÍSTICAS Os gráficos produzem uma visão mais rápida e viva do fenômeno em estudo, ajudando a visualizar as tendências e a interpretar os valores representativos deste fenômeno. Requisitos Fundamentais na Representação Gráfica: O gráfico deve ser simples, claro e deve expressar a verdade sobre o fenômeno em estudo; Todo gráfico deve ter título e escala, para que possa ser interpretado sem que haja necessidade de esclarecimentos adicionais no texto; O título do gráfico pode ser escrito acima ou abaixo do gráfico. O IBGE escreve o título acima do gráfico; As variáveis devem ser claramente identificadas; A escala deve iniciar-se na origem do sistema de eixos cartesianos. Quando os valores iniciais dos dados são muito altos, deve ser feita uma interrupção no eixo, com indicação clara da posição do zero; O sistema de eixos cartesianos e as linhas auxiliares devem ter traçado mais leve do que a parte do gráfico que se pretende evidenciar; Para facilitar a leitura, podem ser feitas linhas auxiliares. Nesses casos, o gráfico é feito dentro de um retângulo. Principais Tipos de Gráficos: Diagramas Cartogramas Pictogramas CARTOGRAMAS: São representações através de mapas (cartas geográficas). Este gráfico é empregado quando o objetivo é o de relacionar os dados estatísticos diretamente com áreas geográficas ou políticas. PICTOGRAMAS: É a representação gráfica através de figuras. Por se tratar de uma apresentação atraente, é um gráfico que desperta muito a atenção do leitor. 34 Exemplo: DIAGRAMAS: São gráficos geométricos construídos, em geral, no sistema cartesiano. Principais Diagramas: Gráfico emLinha, Gráfico em Colunas, Gráfico em Barras, Gráfico em Colunas ou em Barras Múltiplas e Gráfico em Setores. GRÁFICO EM LINHA Usado para apresentar as séries temporais. Representado num sistema de coordenadas cartesianas, cada par de valores da série corresponde a um ponto. Estes pontos são unidos por segmentos de reta. Exemplo: GASTO FEDERAL COM SAÚDE COMO PROPORÇÃO DO PIB 2000-2009 ANOS Percentual/PIB 2000 0,87 2001 0,81 2002 0,75 2003 0,67 2004 0,54 2005 0,48 2006 0,52 2007 0,47 2008 0,46 2009 0,60 FONTE: IBGE 35 GRÁFICO EM COLUNAS Usado para representar as séries cronológicas, geográficas e categóricas. Representado por meio de retângulos de mesma base, dispostos verticalmente (em colunas). Exemplo 5: LEITOS EM HOSPITAIS PÚBLICOS 2009 ESTADO Quantidade (leito/1000 habitantes) Bahia 0,9 Distrito Federal 1,39 Espírito Santo 0,58 Goiás 0,87 Minas Gerais 0,55 Paraná 0,61 Rio de Janeiro 1,04 São Paulo 0,58 Tocantins 1,65 FONTE: IBGE, Pesquisa de Assistência Médico-Sanitária 36 GRÁFICO EM BARRAS Usado para representar as séries geográficas e categóricas. Representado por meio de retângulos dispostos horizontalmente (em barras). Exemplo 6: Famílias residentes em domicílios particulares permanentes 2011 ESTADOS Famílias ( 1000) Norte 4.832 Nordeste 17.001 Sudeste 27.904 Sul 9.695 Centro-Oeste 4.926 FONTE: IBGE, Pesquisa Nacional por Amostra de Domicílios 2001/2011 OBSERVAÇÕES: 1) O procedimento para a construção de um gráfico em colunas (ou barras) é análogo ao do gráfico em linhas, observando que no gráfico em barras deve-se fazer a inversão nos eixos cartesianos (o eixo x corresponde a altura e o eixo y corresponde a largura). 2) Sempre que os dizeres a serem inscritos forem extensos, deve-se dar preferência ao gráfico em barras (séries geográficas e específicas). 37 GRÁFICO EM SETORES Construído com base em um círculo, este gráfico é usado para comparar proporções. Exemplo REBANHO SUÍNO DO SUDESTE DO BRASIL 2009 ESTADOS QUANTIDADE (mil cabeças) Minas Gerais 4.640 Espírito Santo 263 Rio de Janeiro 150 São Paulo 1.639 Total 6.692 FONTE: IBGE Regras para a elaboração de um gráfico em setores: Trace uma circunferência. A área do círculo representa o total, isto é, 100%, devendo ser dividida em tantos setores quantas sejam as partes. Lembre-se de que uma circunferência tem 360. Então, se ao total correspondem 360, a cada parte corresponderá um setor cujo ângulo x é dado por: TOTAL 360PARTE x Marque os valores dos ângulos calculados na circunferência e trace os raios, separando os setores. Para facilitar a distinção, faça um tracejado diferente em cada setor. Coloque título e legenda no gráfico. IMPORTANTE: Para clareza dos dados, deve-se usar no máximo sete setores.
Compartilhar