Baixe o app para aproveitar ainda mais
Prévia do material em texto
UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE CIÊNCIAS EXATAS E DA TERRA DEPARTAMENTO DE ESTATÍSTICA Elementos de Bioestatística Professor: Msc. André Luiz Sena da Rocha andre.rocha@ufersa.edu.br Natal / RN ÍNDICE UNIDADE I - ESTATÍSTICA DESCRITIVA ........................................ 1 1.1 - NATUREZA E CAMPO DA ESTATÍSTICA ................................................................................... 1 1.2 - O MÉTODO ESTATÍSTICO ........................................................................................................ 2 1.3 - POPULAÇÃO, AMOSTRA E TIPOS DE VARIÁVEIS ..................................................................... 3 1.4 - REPRESENTAÇÃO TABULAR .................................................................................................. 10 1.4.1 - Distribuição de Frequências ............................................................................................ 11 1.5 - REPRESENTAÇÃO GRÁFICA ......................................................................................... 19 1.5.1 - Gráfico de Setores ........................................................................................................... 19 1.5.2 - Gráfico de Colunas e Barras ............................................................................................ 20 1.5.3 - Histograma e Polígono de Frequências ........................................................................... 21 1.6 – MEDIDAS DE TENDÊNCIA CENTRAL ..................................................................................... 24 1.6.1 - Média Aritmética ............................................................................................................. 24 1.6.2 - Mediana ........................................................................................................................... 26 1.6.3 - Moda ................................................................................................................................ 30 1.6.4 – Separatrizes ..................................................................................................................... 33 1.7 - MEDIDAS DE DISPERSÃO ....................................................................................................... 39 1.7.1 – Variância ......................................................................................................................... 40 1.7.2 - Desvio Padrão .................................................................................................................. 42 1.7.3 - Coeficiente de Variação .................................................................................................. 44 1.8 - ANÁLISE EXPLORATÓRIA DE DADOS .................................................................................... 45 1.8.1 – Ramo-e-Fohas ................................................................................................................. 45 1.8.2 - Esquema dos 5-Números ................................................................................................. 48 1.8.3 - Box-Plot........................................................................................................................... 49 UNIDADE II - PROBABILIDADE ........................................................ 52 2.1 - EXPERIMENTOS ALEATÓRIOS ............................................................................................... 52 2.2 - ESPAÇO AMOSTRAL ............................................................................................................... 53 2.3 - EVENTOS ................................................................................................................................ 54 2.4 - RESULTADOS EQUIPROVÁVEIS .............................................................................................. 57 2.5 - FORMULAÇÃO AXIOMÁTICA DO CONCEITO DE PROBABILIDADE ........................................ 58 2.5.1 - Teoremas Fundamentais do Cálculo das Probabilidades ................................................ 58 2.6 - PROBABILIDADE CONDICIONAL ............................................................................................ 59 2.7 - EVENTOS INDEPENDENTES .................................................................................................... 60 2.8 – VARIÁVEL ALEATÓRIA UNIDIMENSIONAL ........................................................................... 62 2.9 - MODELOS DE PROBABILIDADE DISCRETOS .......................................................................... 63 2.9.1 - Distribuição de Bernoulli ................................................................................................ 63 2.9.2 - Distribuição Binomial ..................................................................................................... 65 2.10 - MODELOS PROBABILÍSTICOS CONTÍNUOS .......................................................................... 69 2.10.1 - Distribuição Normal ...................................................................................................... 69 2.10.2 - A Distribuição t de Student ........................................................................................... 77 2.10.3 - Distribuição F de Snedecor ........................................................................................... 79 UNIDADE III - INFERÊNCIA ESTATÍSTICA .................................. 81 3.1 - DISTRIBUIÇÃO AMOSTRAL DA MÉDIA E DA PROPORÇÃO .................................................... 84 3.1.1 – Distribuição Amostral da Média ..................................................................................... 84 3.1.2 – Distribuição Amostral da Proporção .............................................................................. 85 3.2 - ESTIMAÇÃO POR PONTO E INTERVALO .................................................................................. 86 4.2.1 - Estimação Pontual ........................................................................................................... 86 3.2.2 - Estimação Intervalar ........................................................................................................ 87 3.2.2.1- Intervalo de confiança para a média ....................................................................................................... 88 3.2.2.2 - Intervalo de confiança para a proporção ................................................................................................ 92 3.3 - TESTES DE HIPÓTESES ........................................................................................................... 93 3.3.1 - Teste para a Média quando σ2 é conhecido ..................................................................... 96 3.3.2 - Teste para a Média quando σ2 é desconhecido .............................................................. 101 3.3.3 - Teste para Proporções ................................................................................................... 106 3.3.4 - Valor-P .......................................................................................................................... 108 UNIDADE IV - PLANEJAMENTO DE EXPERIMENTOS ............ 110 4.1 – OBSERVAÇÃO × EXPERIMENTAÇÃO ................................................................................... 110 4.2 – RELACIONADO DUAS VARIÁVEIS ......................................................................................... 111 4.3 – VARIÁVEL DE CONFUNDIMENTO ......................................................................................... 114 4.4 – TIPOS DE ESTUDOS OBSERVACIONAIS .................................................................................115 4.5 – DIFICULDADES ENCONTRADAS EM ESTUDOS OBSERVACIONAIS ........................................ 117 4.6 – PRINCÍPIOS BÁSICOS DA EXPERIMENTAÇÃO ..................................................................... 118 4.6.1 – Aleatorização ................................................................................................................ 121 4.6.2 – Replicação ..................................................................................................................... 121 4.6.3 – Blocagem ...................................................................................................................... 121 4.7 – PLANEJAMENTO E ANÁLISE DE EXPERIMENTOS COM UM ÚNICO FATOR .......................... 122 4.7.1 - Análise de Variância com um único fator ..................................................................... 123 4.7.8 - Teste de Tukey para comparações múltiplas ................................................................. 135 REFERÊNCIAS BIBLIOGRÁFICAS ANEXOS ANEXO A - DISTRIBUIÇÃO NORMAL PADRÃO ANEXO B - DISTRIBUIÇÃO T DE STUDENT ANEXO C - DISTRIBUIÇÃO F DE FISHER ANEXO D – DISTRIBUIÇÃO DE TUKEY ANEXO E - ELEMENTOS DE MATEMÁTICA ANEXO F – ALFABETO GREGO EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 1 UNIDADE I ESTATÍSTICA DESCRITIVA O que é Bioestatística? Bioestatística é a aplicação de estatística ao campo biológico e médico. Ela é essencial ao planejamento, coleta, avaliação e interpretação de todos os dados obtidos em pesquisa na área biológica e médica. É fundamental a Epidemiologia (Ciência que estuda quantitativamente a distribuição dos fenômenos de saúde/doença, e seus fatores condicionantes e determinantes, nas populações humanas), à ecologia e à medicina baseada em evidência. Resumindo, Bioestatística é um conjunto de técnicas ou processos que permite observar, descrever numericamente e analisar fatos numéricos nas ciências da vida, logo também pode ser chamada de “a Estatística Médica”. 1.1 - Natureza e Campo da Estatística Estatística é a ciência que diz respeito à coleta, apresentação e análise de dados quantitativos, de tal forma que seja possível efetuar julgamentos sobre os mesmos. Ramos da Estatística: a) Estatística descritiva → trata da observação de fenômenos de mesma natureza, da coleta de dados numéricos referentes a esses fenômenos, da sua organização e classificação através de tabelas e gráficos, bem como da análise e interpretação. b) Probabilidade estatística → utilizada para analisar situações que envolvem o acaso (aleatoriedade). c) Inferência estatística → estuda as características de uma população com base em dados obtidos de amostras. OBS: Estatística Indutiva pode ser denominada como inferência. Portanto, a estatística indutiva estuda as características de uma população, com base em dados obtidos de amostras. Inferência = Indução + Margem de Erro EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 2 1.2 - O Método Estatístico A realização de uma pesquisa deve passar, necessariamente pelas fases apresentadas abaixo: 1) Definição do problema →→→→ Saber exatamente o que se pretende pesquisar, ou seja, definir corretamente o problema. 2) Planejamento →→→→ determinar o procedimento necessário para resolver o problema, como levantar informações sobre o assunto objeto do estudo. É importante a escolha das perguntas em um questionário, que na medida do possível, devem ser fechadas. � O levantamento de dados pode ser de dois tipos: Censitário e Amostragem. � Outros elementos do planejamento de uma pesquisa são: • Cronograma das atividades; • Custos envolvidos; • Exame das informações disponíveis; • Delineamento da amostra. 3) Coleta de Dados →→→→ consiste na busca ou compilação dos dados. Pode ser classificado, quanto ao tempo em: • Contínua (inflação, desemprego, etc.); • Periódica (Censo); • Ocasional (pesquisa de mercado, eleitoral). 4) Crítica dos dados →→→→ objetiva a eliminação de erros capazes de provocar futuros enganos. Faz-se uma revisão crítica dos dados suprimindo os valores estranhos ao levantamento. Coletas dos Dados Definição do problema Planejamento Crítica dos Apresentação dos dados Tabelas e Gráficos Análise e interpretação dos dados →→→→ →→→→ →→→→ →→→→ →→→→ EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 3 5) Apresentação dos dados →→→→ a organização dos dados denomina-se “Série Estatística”. Sua apresentação pode ocorrer por meio de tabelas e gráficos. 6) Análise e Interpretação dos Dados →→→→ consiste em tirar conclusões que auxiliem o pesquisador a resolver seu problema, descrevendo o fenômeno através do cálculo de medidas estatísticas, especialmente as de posição e as de dispersão. 1.3 - População, Amostra e Tipos de Variáveis Inferência Obtenção de resultados para uma população com base em observações Estatística extraídas a partir de uma amostra retirada desta população. POPULAÇÃO: É o conjunto de elementos (na totalidade) que têm, em comum, uma determinada característica. Pode ser finita, como o conjunto de alunos de uma determinada escola, ou infinita, como o número de vezes que se pode jogar um dado. AMOSTRA: É qualquer subconjunto da população. A técnica de seleção desse subconjunto de elementos é chamada de Amostragem. População (N) Amostra (n) X: determinada característica de interesse da população; Ө: parâmetro populacional; Ө Como já vimos, a inferência estatística tem como objetivo a estimação de parâmetros para uma população tendo como base às informações extraídas através de uma amostra. Neste contexto, o estudo dos mais diversos tipos de procedimentos de amostragem se faz necessário. X EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 4 Exercício 1.1: Dentre os 3000 alunos de uma escola, selecionaram-se 30 e inquiriram-se sobre o programa de televisão preferido. Sendo respondidos como programas preferidos “Telejornal”, “Novelas” e “Cinema”, com 10, 12 e 8 alunos, respectivamente. Responda: a) a população; b) a amostra. Exercício 1.2: Para saber a aceitação de uma nova ração canina para filhotes de médio porte, uma empresa selecionou 200 filhotes com até 6 meses de idade de diversas raças de médio portem, e contabilizou a engorda deles. Indique: a) a população; b) a amostra; Exercício 1.3: Para realizar um estudo sobre o tempo gasto, em segundos, por 100 atletas na corrida dos 100 metros com obstáculos, registrou-se o tempo gasto por 16 desses atletas e obtiveram-se os seguintes resultados: Indique: a) a população; b) a amostra; As técnicas de amostragem podem ser classificadas em doisgrandes grupos: a amostragem probabilística e a amostragem não probabilística. a) Amostragem Probabilística: neste grupo encontram-se os planos amostrais que utilizam mecanismos aleatórios de seleção dos elementos da amostra, atribuindo a cada um deles uma probabilidade, conhecida à priori, de pertencer à amostra. b) Amostragem Não Probabilística: neste grupo encontram-se os planos amostrais que não utilizam mecanismos aleatórios de seleção dos elementos da amostra, e dessa forma, não existe nenhuma probabilidade associada à seleção desses elementos. Ambos os procedimentos têm vantagens e desvantagens. A grande vantagem das amostras probabilísticas é medir a precisão da amostra obtida. Tais medidas já são bem mais difíceis para os procedimentos do outro grupo. Diante disso, amostras probabilísticas são comumente utilizadas na EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 5 prática. Com base em Pinho & Spyrides (2004), os principais tipos de planos de amostragem probabilísticos são os seguintes: 1. AMOSTRAGEM ALEATÓRIA SIMPLES (AAS) - Cada elemento da população tem a mesma chance (ou probabilidade) de ser selecionado. - Os elementos são escolhidos através de sorteio. - Para isso, tabelas de números aleatórios são frequentemente utilizadas. - Exemplo 1.1: Selecionar cinco filhotes de uma ninhada com 12 cães. 2. AMOSTRAGEM ESTRATIFICADA (AAE) - A população é dividida em estratos (ou grupos) homogêneos, sendo selecionada uma amostra aleatória simples de cada estrato. - Exemplo 1.2: Estudo de uma nova vacina para filhotes. No experimento, é utilizado duas ninhadas de cães. Um de médio porte e outro de pequeno porte. Nesse caso, será mais seguro retirar uma AAS de cada ninhada. Neste caso, cada ninhada corresponde a um estrato, e de cada estrato uma amostra aleatória simples dos filhotes é extraída, lembrando que pra tanto seria necessário sorteio a partir da identificação de todos os filhotes. 3. AMOSTRAGEM SISTEMÁTICA (AS) - Os elementos são selecionados segundo uma regra pré-definida Nk n = . - É bastante utilizada quando os elementos da população estão arranjados em uma ordem ou são homogêneos. - Por exemplo, se em uma concessionária deseja-se estimar o preço total dos seus carros a partir de uma amostra de 10 carros selecionar possuindo para tanto uma lista dos carros em ordem de preço do maior para o menor, ou do menor para o maior. - Uma observação importante é que, por exemplo, se os elementos escolhidos estiverem em ordem, não se deve selecionar APENAS os primeiros elementos, nem os últimos, muito menos os centrais. Deve-se percorrer elementos de cada uma dessas partes mencionadas, obtendo assim, uma representatividade de todas as partes da amostra. - Exemplo 1.3: Em um laboratório, há camundongos utilizados em experimentos, em que todos estão identificados com numeração de 1 a 24. Deseja-se ter uma ideia de seu peso médio sem ter que pesar todos os animais. Uma alternativa seria sortear um número (por exemplo 15º) e após EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 6 um número previamente especificado “k”, selecionar o próximo. Nesse caso, se retirarmos uma amostra de tamanho 8, então k=3, teríamos o 1º sorteado (15º), 2º sorteado (18º + 3 = 21º) e assim por diante. Quando chegar ao final da amostra, retomar do inicio e continuar o procedimento até que chegue no primeiro elemento sorteado (15º nesse caso). 4. AMOSTRAGEM POR CONGLOMERADOS (AC) - A amostragem é feita sobre os conglomerados, e não mais sobre os indivíduos da população. - Metodologia mais econômica. - Em uma amostragem por conglomerados, as unidades da população são agrupadas formando conglomerados. Um ou mais desses agrupamentos são selecionados aleatoriamente. Se um conglomerado é selecionado, TODAS as unidades dele farão parte da amostra. - Usada quando a população pode ser dividida em sub-populações (conglomerados) heterogêneos representativos da população global. - Nesse tipo de amostragem, é utilizado com maior frequência dois tipos de conglomerados. Em “um estágio” e “dois estágios”. O número de estágios estão relacionados com o número de sorteios que serão realizados. EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 7 - O objetivo maior com uma amostra por conglomerados é a economia de tempo e custo. - Menos energia e dinheiro são gastos se os entrevistados estão dentro de uma específica região geográfica, ao invés de espalhados em todas as direções. - Exemplo 1.4 (AC em 1 estágio): Um médico deseja fazer uma pesquisa com os pacientes que fazem hemodiálise, no entanto, há 8 hospitais em sua região. Uma possível solução seria utilizar uma amostragem por conglomerados! Pode-se realizar, por exemplo, um sorteio de quatro hospitais. Para as instituições de saúde selecionadas, deve-se examinar TODOS os pacientes que fazem hemodiálise (conglomerados em 1 estágio). - Exemplo 1.5 (AC em 2 estágios): Um médico deseja fazer uma pesquisa com pacientes de qualquer especialidade médica. No entanto, há 8 hospitais em sua região. Uma possível solução seria utilizar uma amostragem por conglomerados! Pode-se realizar, por exemplo, um sorteio de quatro hospitais. Para as instituições de saúde selecionadas, deve-se realizar UM NOVO SORTEIO para saber de qual especialidade médica serão examinados TODOS os pacientes (conglomerados em 2 estágios – sorteio do hospital e sorteio da especialidade médica). EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 8 DIFERENÇA ENTRE AAEXTRATIFICADA E POR CONGLOMERADOS - É muito comum confundir uma amostra estratificada com uma amostra por conglomerados. Ambas dividem a população em grupos mutuamente exclusivos. Todavia, as duas principais diferenças são: - Na estratificação uma AAS é feita em cada estrato, já no conglomerado é feita uma AAS dos conglomerados; - A variação das unidades dentro dos estratos é menor do que a variação entre os estratos, já nos conglomerados a variação dentro é normalmente maior que a variação entre os conglomerados. Exercício 1.4: Para cada uma das seguintes situações diga qual o tipo de amostragem foi utilizada. a) O conselho universitário de uma universidade deseja conhecer a opinião dos alunos e professores sobre uma resolução a ser votada, que estabelece horários fixos para o atendimento de alunos pelos professores. Para compor a amostra foram sorteados aleatoriamente 10% dos alunos matriculados e 10% dos professores. b) Um treinador de uma confederação esportiva deseja dividir 20 times em dois grupos. Para o primeiro grupo seleciona aleatoriamente 10 times, e considera os 10 restantes para o segundo grupo. c) Uma lista de corredores de uma maratona contém 1000 nomes, numerados consecutivamente de 1 a 1000. Iniciando-se do 5º nome, uma amostra foi composta considerando sorteados os nomes referentes aos números 15º, 25º, 35º, 45º, 55º e assim sucessivamente até que fossem escolhidos 100 nomes. d) Um sociólogo na Universidade de Charleston seleciona 12 homens e 12 mulheres de cada uma de quatro turmas de educação física. e) Um treinador sorteia 6 jogadores de seu time de futebol sem mais critério s deseleção e tira uma amostra de urina de cada um. f) O programa Planned Parenthood (Planejamento Familiar) pesquisa 500 homens e 5000 mulheres sobre seus pontos de vista sobre o uso de anticoncepcionais. EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 9 g) Um pesquisador médico da Universidade de Johns Hopkins sorteia alguns hospitais de sua região, e posteriormente, entrevista todos os pacientes de cada um de 20 hospitais, que foram selecionados aleatoriamente. h) Um pesquisador médico da Universidade de Johns Hopkins sorteia alguns hospitais de sua região, e posteriormente, sortea-se uma das especialidades médicas a serem estudadas. Após os sorteios, ele entrevistou todos os pacientes da especialidade médica selecionada, de cada um dos 20 hospitais amostrados aleatoriamente. TIPOS DE VARIÁVEIS: É condição inerente a uma população natural existir variação quanto aos atributos que lhe podem ser estudados. Portanto, a variabilidade é uma característica comum aos dados de observação e experimentos. Um atributo sujeito à variação é descrito em Estatística por uma variável. Nominal Qualitativa Ordinal Variável Discreta Quantitativa Contínua Variável Qualitativa: os dados podem ser distribuídos em categorias mutuamente exclusivas. Por exemplo, sexo (masculino, feminino), cor, causa de morte, grupo sanguíneo, etc. - Nominal: as categorias podem ser permutáveis (não existe ordem natural dos seus níveis); Exemplo 1.6: [masculino, feminino], [sim, não], [fuma, não fuma]; - Ordinal: as categorias descrevem uma ordenação natural dos seus níveis. Exemplo 1.7: [péssimo, ruim, regular, bom, ótimo]. EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 10 Variável Quantitativa: os dados são expressos através de números. Por exemplo, idade, estatura, peso, etc. - Discreta: Assumem valores que podem ser associados aos números naturais ( 1, 2,3,...=� ). Dá uma ideia de contagem. Exemplo 1.8: Número de irmãos dos 30 alunos da turma de biomedicina [0, 1, 2, 5, 3, 4, 1, 0, 2, 3, 5, 4, 0, 1, 2, 2, 1, 0, 1, 1, 2, 0, 0, 3, 2 , 3, 4, 2, 1, 2]. - Contínua: Assume infinitos valores em um dado intervalo. Dá uma ideia de medição. Exemplo 1.9: altura e/ou peso de animais ou de pessoas. [1.70, 1.57, 1.80, 1.94, 1.68, 1.71] Exercício 1. 5: Classifique com relação ao tipo de variável as seguintes informações: a) Sexo (“Masculino” ou “Feminino”); b) Idade de ratos de uma certa espécie (em meses completos); c) Tempo em horas para término de uma maratona; d) Altura de jogadores de vôlei de certo time (em metros); e) Fuma (“Sim” ou “Não”); f) Peso de pacientes de um hospital (em quilogramas); g) Número de filhotes de uma ninhada; h) Tolerância ao cigarro (indiferente, incomoda pouco, incomoda muito); i) Horas que gasta estudando. j) Resultado final de uma disciplina da UFRN (“Aprovado” ou “Reprovado”) 1.4 - Representação Tabular Consiste em dispor os dados em linhas e colunas, distribuídas de modo ordenado, segundo algumas regras práticas e obedecendo (ainda) à Resolução nº 886/66, de 26 de outubro de 1966, do Conselho Nacional de Estatística. As tabelas devem conter: a) Título - O quê? (fenômeno). Onde? (época). Quando? (local). b) Cabeçalho - indica o conteúdo das colunas c) Coluna Indicadora - especifica o conteúdo das linhas d) Cabeçalho da coluna indicadora - indica o conteúdo da coluna indicadora e) Corpo - caselas ou células, onde são registrados os dados. f) Rodapé - notas e identificação da fonte de onde foram coletados os dados. EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 11 1.4.1 - Distribuição de Frequências Tabelas com grandes números de dados são cansativas e não dão uma visão rápida e geral do fenômeno. Dessa forma, é necessário que os dados sejam organizados em uma tabela de distribuição de frequências. Estas podem ser simples (dados não-agrupados) ou por classes (dados agrupados). DISTRIBUIÇÃO DE FREQUÊNCIAS SIMPLES: Série estatística para dados nominais, ordinais e discretos, organizados em uma tabela. Construção de uma Distribuição de Frequências: Para a construção de uma distribuição de frequências os seguintes componentes são necessários: � Dados Brutos: são os dados apresentados desordenadamente, da forma como foram coletados. Exemplo 1.10o: Peso de alunos da disciplina: 74 58 69 80 74 95 56 74 76 81 60 57 64 62 EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 12 � Rol: são os dados apresentados em ordem crescente. Exemplo 1.11: Peso de alunos da disciplina (em forma de rol): 56 57 58 60 62 64 69 74 74 74 76 80 81 95 Construção de uma Distribuição de frequências simples 1. Ordenar os dados brutos em forma de rol (ordem crescente) 2. Listar todos os elementos diferentes, numa coluna de nome “X”. 3. Listar a frequência de todos os elementos diferentes numa coluna de nome "fi" ou "frequência". 4. Somar todos os elementos da coluna "fi" (total). Exemplo 1.12: Numa pesquisa feita para detectar o número de filhos de empregados de uma multinacional, foram encontrados os seguintes valores: 1 4 2 5 3 2 0 3 2 1 5 4 2 5 0 3 2 4 2 3 2 3 2 1 4 2 1 3 4 2 Solução: � Rol (dados em ordem crescente): 0 0 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 4 4 4 4 4 5 5 5 � Tabela de Distribuição de Frequências: Fonte: Número de filhos por empregado de uma multinacional Número de filhos (X) fi f i% 0 2 6,7 1 4 13,3 2 10 33,3 3 6 20 4 5 16,7 5 3 10 Total 30 100 Fonte: Dados Fictícios EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 13 Algumas considerações ou conclusões: Qual o número de funcionários que não tem filhos? Qual o seu percentual? Quantos funcionários têm cinco filhos e qual o seu percentual? A maioria dos funcionários tem quantos filhos? E a minoria? Informe o percentual de ambos. INFORMAÇÕES ADICIONAIS NUMA DISTRIBUIÇÃO DE FREQUÊNCIAS Além das informações contidas na tabela, destaca-se outros parâmetros relevantes: - LI = limite inferior de cada classe; - LS = limite superior de cada classe; - Pm = ponto médio de cada classe � x = (Li + Ls) / 2; - fi = frequência absoluta = número de ocorrências de cada classe; - fi % = frequência percentual � fi % = (fi / n) 100; - ↓F = frequência absoluta acumulada "abaixo de"; - ↑F = frequência absoluta acumulada "acima de"; - ↓F% = frequência percentual acumulada "abaixo de"; - ↑F% = frequência percentual acumulada "acima de"; Exemplo 1.13: Veremos como fica a distribuição de freqüências simples com essas informações adicionais: Número de filhos de empregados de uma multinacional Nº de filhos fi f % F↓ F↑ F↓% F↑% 0 2 6,7 2 30 6,7 100 1 4 13,3 6 28 20 93,3 2 10 33,3 16 24 53,3 80 3 6 20 22 14 73,3 46,7 4 5 16,7 27 8 90 26,75 3 10 30 3 100 10 Total 30 100 - - - - Fonte: Dados fictícios EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 14 Responda: a) Quantos empregados têm até 2 filhos? Resp: Se dá por F↓, sendo igual a 16 filhos. b) Quantos empregados têm ao menos 4 filhos? Resp: Se dá por F↑, sendo igual a 8 filhos. c) Qual o percentual de empregados com no máximo 1 filho? Resp: Se dá por F%↓, sendo igual a 93,3%. d) Qual o percentual de empregados com no mínimo 2 filhos? Resp: Se dá por F↑%, sendo igual a 80%. Exercício 1.6: OS dados abaixo representam a quantidade de pacientes com entrada de urgência em determinado hospital da cidade durante 60 dias. Construa uma distribuição de freqüências simples para os dados e calcule seu percentual. 0 0 0 5 5 5 5 5 5 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 12 12 12 12 12 12 12 12 12 12 12 12 DISTRIBUIÇÃO DE FREQUÊNCIAS POR CLASSES: Série estatística para dados contínuos. Os números são agrupados em classes, com suas respectivas frequências absolutas, relativas e percentuais, com o objetivo de facilitar ao analista o seu estudo. Os seguintes componentes são utilizados apenas em distribuição de frequências em classes: � Amplitude Total (A): é a diferença entre o maior valor do rol (LS) e o menor valor (LI). A = LS - LI � Número de Classes (c): corresponde à quantidade de classes, nas quais serão agrupados os elementos do rol. Para determinar c, utiliza-se a fórmula de Sturges: C = 1 + (3,33333.....) · log(n) em que n = número de elementos do rol. EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 15 � Amplitude ou Intervalo de Classe (i): geralmente utilizam-se intervalos iguais, obtidos através da fórmula: i = A/C Construção de uma Distribuição de frequências por classes 1) Ordenar os dados brutos em forma de rol (ordem crescente) 2) Calcular a amplitude total: A = LS - LI 3) Calcular o número de classes e arredondar o valor final para um número inteiro utilizando a regra e arredondamento: C = 1 + (3,33333.....) • log(n) 4) Calcular o intervalo entre classes: i = A / C. 5) A 1º coluna será a das classes. O menor número dos dados em rol será o limite inferior da primeira classe (“LI” da fórmula utilizada na amplitude total “A”), a partir do qual todas as outras classes serão definidas a partir deste número, somando ele ao intervalo entre classes. Exemplo 1.14: Para C = 5, i = 1,5 e LI = 7,4 (menor número dos dados em forma de rol). O limite inferior da 1º classe será 7,4 e o limite superior da mesma classe será LI + i = 7,4 + 1,5 = 8,9. Por sua vez, o limite inferior da 2º classe será 8,9 e o superior: 8,9 + i = 8,9 + 1,5 = 10,4. Este procedimento será realizado até termos o número “C” de classes (este previamente calculado). 6) Para indicar o intervalo, utilizaremos o símbolo |- . Por exemplo, no caso de haver o limite inferior 7,4 e o limite superior 8,9. Indicaremos este intervalo como : 7,4 |- 8,9. Isso significa todos os números que estão entre 7,4 e o mais próximo possível de 8,9, porém, caso haja um número igual ao limite superior dessa classe, este deverá ser computado apenas na próxima classe (para o Exemplo 1.14, na 2º classe, sendo esta: 8,9 |- 10,4). 7) Uma vez definidas as classes, a tabela de freqüências pode ser construída, a partir da 2º coluna de nome “frequência” ou simplesmente “fi”, fazendo-se o processo de contagem, que consiste em verificar a qual classe cada dado pertence. OBS: Em algumas situações, pode-se utilizar uma distribuição de freqüências por classes para dados discretos quando todos os números ou a maioria são diferentes. Exemplo 1.15: Construir uma distribuição de frequências para o número diário de experimentos realizados em um laboratório durante duas semanas. [0, 2, 3 ,4 , 5, 10, 12, 7, 9, 0, 5, 13, 17, 10, 6]. EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 16 Para essa situação, a mais viável será uma distribuição por classes, que deverá seguir o mesmo procedimento, apenas com o cuidado ao calcular o intervalo entre classes (i), o mesmo deverá ser arredondado para um número inteiro. Exemplo 1.16: Construa de uma Distribuição de Frequências com CLASSES para os dados referentes ao peso (kg) de uma turma de 14 alunos: 56 57 58 60 62 64 69 74 74 74 76 80 81 95 Solução: Amplitude Total (A): A = LS – LI = 95 – 56 = 39. Número de Classes (C): C = 1 + (3,33333.....) · log(n) = 1 + 3,333 · log (14) = 4,82 ≈ 5. Intervalo de Classe (i): A=39 e C=5 � i = A/C = 39/5 = 7,8. Peso de 14 alunos de uma turma Peso dos alunos fi fi% 56,0 |- 63,8 5 35,71% 63,8 |- 71,6 2 14,28% 71,6 |- 79,4 4 28,58% 79,4 |- 87,2 2 14,28% 87,2 |-| 95 1 7,14% Total 14 100% Fonte: Dados Fictícios EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 17 Exemplo 1.17: Um determinado hospital está interessado em analisar a quantidade de creatinina (em miligramas por 100 mililitros) encontrada na urina (de 24 horas) de seus pacientes internados com problemas renais. Os dados são os seguintes: 1,51 1,65 1,58 1,54 1,65 1,40 1,61 1,08 1,81 1,38 1,56 1,83 1,69 1,22 1,22 1,68 1,47 1,68 1,49 1,80 1,33 1,83 1,50 1,46 1,67 1,60 1,23 1,54 1,73 1,43 2,18 1,46 1,53 1,60 1,59 1,49 1,46 1,72 1,56 1,43 1,69 1,15 1,89 1,47 2,00 1,58 1,37 1,40 1,76 1,62 1,96 1,66 1,51 1,31 2,29 1,58 2,34 1,66 1,71 1,44 1,66 1,36 1,43 1,26 1,47 1,52 1,57 1,33 1,86 1,75 1,57 1,83 1,52 1,66 1,90 1,59 1,47 1,86 1,73 1,55 1,52 1,40 1,86 2,02 Solução: � Rol (dados em ordem crescente): 1,08 1,15 1,22 1,22 1,23 1,26 1,31 1,33 1,33 1,36 1,37 1,38 1,40 1,40 1,40 1,43 1,43 1,43 1,44 1,46 1,46 1,46 1,47 1,47 1,47 1,47 1,49 1,49 1,50 1,51 1,51 1,52 1,52 1,52 1,53 1,54 1,54 1,55 1,56 1,56 1,57 1,57 1,58 1,58 1,58 1,59 1,59 1,60 1,60 1,61 1,62 1,65 1,65 1,66 1,66 1,66 1,66 1,67 1,68 1,68 1,69 1,69 1,71 1,72 1,73 1,73 1,75 1,76 1,80 1,81 1,86 1,86 1,86 1,86 1,86 1,86 1,89 1,90 1,96 2,00 2,02 2,18 2,29 2,34 � Amplitude Total (dá uma ideia do campo de variação dos dados): A = LS - LI = (2,34) - (1,08) = 1,26 Analisando-se a quantidade de creatinina encontrada na urina dos 84 pacientes verificou-se que, ocorreu a variação de 1,26 no seu campo (de 1,08 a 2,34). � Estabelecer o Número de Classes (c): c = 1 + (3,3333.....) · log(n) = 1 + (3,3333....) · log(84) = 7,414 ���� c = 7 � Estabelecer o Intervalo de Classe (i): i = A / c = (1,26) / 7 = 0,18 EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 18 Quantidade de creatinina (ml) encontrada na urina de 84 pacientes com problemas renais. Classes fi f % Pm (X) ↓%f ↑%f ↓F ↑F 1,08 ├ 1,26 5 5,9 1,17 5,9 100 5 84 1,26 ├ 1,44 13 15,5 1,35 21,4 94,1 18 79 1,44 ├ 1,62 32 38,1 1,53 59,5 78,6 50 66 1,62 ├ 1,80 18 21,4 1,71 80,9 40,5 68 34 1,80 ├ 1,98 11 13,1 1,89 94,0 19,1 79 16 1,98 ├ 2,16 2 2,4 2,07 96,4 6,0 81 5 2,16 2,34 3 3,6 2,25 100 3,6 84 3 Total 84 100 - - - - - Fonte:Dados fictícios Observação 1: O melhor valor para representar cada classe é o ponto médio (Pm), o qual se obtém pela fórmula: Pm = Li + (i / 2), ou ainda, Pm = (Li + Ls) / 2 Observação 2: 1,08 |- 1,26, intervalo fechado à esquerda (pertencem a classe valores iguais ao extremo inferior) e aberto à direita (não pertencem a classe valores iguais ao extremo superior). De forma análoga, 2,16 |-| 2,34, intervalo fechado à esquerda e à direita. Responda: a) Quantos pacientes têm até 1,79 ml de creatinina? Resp: Se dá por F↓, sendo igual a 68 pacientes. b) Quantos pacientes têm ao menos 1,98 ml de creatinina? Resp: Se dá por F↑, sendo igual a 5 pacientes. c) Qual o percentual de pacientes com no máximo 1,61 ml de creatinina? Resp: Se dá por F%↓, sendo igual a 59,5%. (mais da metade). d) Qual o percentual de pacientes com no mínimo 1,98 ml de creatinina? Resp: Se dá por F↑%, sendo igual a 6%. EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 19 Exercício 1.7: Construir uma distribuição de frequências, utilizando a fórmula de Sturges e analisá- la com base nos elementos abaixo, correspondente ao faturamento bruto mensal (US$ mil) de 50 pequenas empresas: 2,1 4,4 2,7 32,3 9,9 9 2 6,6 3,9 1,6 14,7 9,6 16,7 24 1,4 18 5,8 1,6 26,7 3,7 4,3 3,3 1,2 4,1 18,4 0,2 3,5 11,4 7,4 8,2 19,2 6,9 8,2 12,6 23,1 5,6 0,4 18 8,7 6,1 13,5 7,4 0,2 8,3 0,3 1,3 14,1 1 2,4 2,4 1.5 - REPRESENTAÇÃO GRÁFICA Todo o gráfico deve apresentar título (pode ser colocado tanto acima como abaixo) e escala (crescem da esquerda para a direita e de baixo para cima). As legendas devem ser colocadas à direita ou abaixo do gráfico. A seguir vemos os principais tipos de gráficos: 1.5.1 - Gráfico de Setores Também conhecido como Gráfico de Pizza, este gráfico é usado quando cada valor representa uma parte de um todo. É, então, usado um círculo de raio qualquer, com a área ou ângulo total sendo proporcional ao total (100%) da série de dados a representar e a área ou ângulo de cada setor circular sendo proporcional a cada dado da série. Exemplo 1.18: Exemplo de um gráfico de setores Tabela 1.1: Principais rações caninas vendidas numa certa cidade em 2010 Marca da Ração Percentual (%) Caninu’s 18 Campeão 15 Foster 24 Pedigree 43 Fonte: Dados Fictícios EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 20 Figura 1.1: Principais rações caninas vendidas numa certa cidade em 2010 1.5.2 - Gráfico de Colunas e Barras As variações quantitativas da tabela são representadas por colunas dispostas verticalmente ou horizontalmente. É usado para representar qualquer tipo de série. Exemplo 1.19: Exemplo de um Gráfico de Barras Tabela 1.2: Principais causas de morte nos EUA em 2004 Tipo de morte Frequência Percentual (%) Acidentes de carro 856 23,70 Álcool 457 12,65 Armas de fogo 985 27,27 Cigarro 247 6,84 Doenças Infecciosas 112 3,10 Doenças Venéreas 98 2,71 Drogas 631 17,47 Obesidade 124 3,43 Outras 102 2,82 Total 3612 100 Fonte: Ie Estatísticas, 2004. EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 21 Figura 1.2: Principais causas de morte nos EUA em 2004 Exemplo 1.20: Exemplo de um Gráfico de Colunas (Referente ao Exemplo 1.18) Figura 1.3: Principais rações caninas vendidas numa certa cidade em 2010 1.5.3 - Histograma e Polígono de Frequências A apresentação tabular dos dados é feita através de uma distribuição de frequências. Fica complementada com uma representação gráfica desses mesmos dados. O histograma e o polígono EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 22 de frequências são tipos de gráficos usados para representar uma distribuição de frequências simples de uma variável quantitativa contínua. Exemplo 1.21: Exemplo de um histograma e de um polígono de frequências Tabela 1.3: Distribuição de frequências dos preços de ovos - EUA - 1990 Preço dos ovos f fr F↓ F%↓ 47 ├ 68 19 38 19 38 68 ├89 19 38 38 76 89 ├110 9 18 47 94 110 ├131 2 4 49 98 131 ├152 1 2 50 100 Total 50 100 - - Fonte: GUJARATI. Basic Econometrics. McGraw-Hill, 3a ed. 1995. Um histograma é um conjunto de retângulos com bases sobre um eixo horizontal dividido de acordo com os comprimentos de classes, centros nos pontos médios das classes e áreas proporcionais ou iguais às frequências. Um polígono de frequências é um gráfico de linha que se obtém unindo por uma poligonal os pontos correspondentes às frequências das diversas classes, centradas nos respectivos pontos médios. Para obter as interseções da poligonal com o eixo, cria-se em cada extremo uma classe com frequência nula. Note que esses gráficos podem ser construídos com base nas frequências absolutas ou relativas. O importante é que a escala nos eixos horizontal e vertical, bem como os retângulos, sejam construídos de forma a que suas áreas espelhem a proporcionalidade dessas frequências. Na Figura 1.10 apresentamos o histograma para a distribuição de frequências dada na Tabela 1.17, referente ao preço da dúzia de ovos nos estados americanos em 1990. Aqui cabe uma observação sobre o histograma, que foi construído com o software free R; cada retângulo foi construído de modo que sua área fosse exatamente igual à frequência relativa. Por exemplo, todos os retângulos têm base 21, que é a amplitude de classe. A altura dos dois primeiros retângulos é [área/base = 0,38 / 21 = 0,0180952], de modo que a área resultante é 0,38. Para a terceira classe, temos que [altura = área/base = 0,18 / 21 = 0,0085714]. O ponto fundamental na interpretação de um histograma é compreender que as áreas dos retângulos representam as frequências de cada classe. Como a variável é contínua e a frequência dada se refere a uma classe de valores, a suposição que se faz é que essa frequência se distribui EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 23 uniformemente pela classe. Na Figura 1.10, a frequência relativa da classe 47 ├ 68 é 0,38 (ou 38%) e ela está uniformemente distribuída pela classe, o que significa que subclasses de mesmo comprimento teriam a mesma frequência. Por exemplo, as frequências das classes 47├57,5 e 57,5├68 seriam ambas iguais 0,19. Já a subclasse 89├95 teria uma frequência de 0,0085714 × (95−89) = 0,0514286. Mais uma vez, o princípio é que área = frequência. Com relação ao polígono de frequências, a ideia é representar o comportamento “típico” de cada classe através do seu ponto médio. Assim, o polígono de frequência está representado na Figura 1.11 HISTOGRAMA Figura 1.4: Histograma da distribuição de frequência dos preços dos ovos nos estados POLÍGONO DE FREQUÊNCIAS Figura 1.5: Polígono de frequência dos preços dos ovos nos estados americanos EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 24 1.6 – Medidas de Tendência Central Os dados quantitativos, apresentados emtabelas e gráficos, constituem a informação básica do problema. Mas é conveniente apresentar medidas que mostrem a informação de maneira resumida. Medidas de Tendência Central São medidas que tendem para o centro da distribuição e têm a capacidade de representá-la como um todo. Dão o valor do ponto em torno do qual os dados se distribuem. As principais são: Média Aritmética, Mediana e Moda e algumas. 1.6.1 - Média Aritmética A média aritmética pode ser definida em dois tipos: populacional ( µ ) e amostral ( X ). Nos dois casos existem três situações quanto aos cálculos. 1. Dados apresentados em forma de rol: A média será: rol do elementos de número rol do elementos os todosde soma n x X n i == ∑ =1i Exemplo 1.22: Peso em gramas de ratos (50, 62, 70, 86, 60, 64, 66, 77, 58, 55, 82, 74) � X =67 Análise: o peso médio dos 12 ratos observados é de 67 gramas. Exercício: Um gerente de supermercado quer estudar a movimentação de pessoas em seu estabelecimento, constata que 195, 1.002, 941, 768 e 1.283 pessoas entraram no seu estabelecimento nos últimos cinco dias. Descubra o número médio de pessoas que entraram diariamente neste estabelecimento nos últimos cinco dias. 2. Dados apresentados em forma de distribuição de frequência simples: A média será: ∑ ∑ = = = n 1i i n ii f fx X 1i EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 25 Exemplo 1.23: Número de cáries em crianças X 0 1 2 3 4 Total f 2 4 10 6 5 27 2,3 27 (4).(5) (3).(6) (2).(10) (1).(4)(0).(2) f fx X n 1i i n ii = ++++ == ∑ ∑ = =1i Análise: Verifica-se que o número médio de cáries das 27 crianças observadas no estudo é de 2,3. Exercício: As informações abaixo apresentam a idade dos usuários de drogas internos numa clínica para tratamento. Determine a idade média dos internos. Idade fi 17 2 18 4 19 5 20 6 21 3 22 4 23 2 Total 26 3. Dados apresentados em forma de distribuição de frequência em classes: A média será: ∑ ∑ = = = n 1i i n 1i im f fP X EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 26 Exemplo 1.24: Nascidos vivos segundo o peso ao nascer, em kg. Classes fi Pm 1,5 ├ 2,0 3 1,75 2,0 ├ 2,5 16 2,25 2,5 ├ 3,0 31 2,75 3,0 ├ 3,5 34 3,25 3,5 ├ 4,0 11 3,75 4,0 ├ 4,5 4 4,25 4,5 5,0 1 4,75 Total 100 - 3 100 (4,75).(1) )(2,25).(16(1,75).(3) f fP X n 1i i n im = +++ == ∑ ∑ = = …1i Análise: Verifica-se que o peso médio dos 100 nascidos vivos observados é 3 kg. 1.6.2 - Mediana Valor que divide a distribuição em duas partes iguais, em relação à quantidade de elementos. Isto é, é o valor que ocupa o centro da distribuição, de onde se conclui que 50% dos elementos ficam abaixo dela e 50% ficam acima. Colocados em ordem crescente, a mediana (Med ou Md) é ou valor que divide a amostra, ou população, em duas partes iguais. 0 Med 100% EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 27 a) Variável Discreta: os dados estão dispostos em forma de rol ou em uma distribuição de frequência simples. � Se "n" for ímpar: Med = elemento central (de ordem 1 2 n + ) - Exemplo 1.25: Dados em forma de rol: Seja a amostra: 8, 10, 12, 14, 16 � Med = 5 1 3 2 + = � elemento do rol = 12 Interpretação: o 3º elemento do rol (12) divide 50% da distribuição dos dados à direita e à esquerda. - Exemplo 1.26: Dados em uma distribuição de frequência simples: Suponha a seguinte distribuição de frequência simples. X fi ↓F 1 1 1 2 3 4 3 5 9 4 2 11 Total 11 - n = 11 (ímpar) Elemento mediano: [(n+1)/2]º = 6º elemento 3ª classe contém o 6º elemento � Med = 3. � Se "n" for par: Med = média aritmética dos dois elementos centrais (de ordem 2 n e 1 2 n + ) - Exemplo 1.27: Dados em forma de rol: Seja a amostra: 8, 10, 12, 14, 16, 19 EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 28 6 3 elemento do rol 2 2 61 1 4 elemento do rol 2 2 n n = = + = + = � � Med = 3 elemento 4 elemento 12 14 13 2 2 Mediana + += = = � � Interpretação: a média do 3º e 4º elemento do rol (13) divide 50% da distribuição dos dados à direita e à esquerda. - Exemplo 1.28: Dados em uma distribuição de frequência simples: Suponha a seguinte distribuição de frequência simples. X fi ↓F 82 5 5 85 10 15 87 15 30 89 8 38 90 4 42 Total 42 - n = 42 (par) Elemento mediano: (n/2)º = 21º elemento (n/2)º + 1 = 22º elemento 3ª classe contém o 21º e o 22º elemento Med = (87 + 87)/2 = 87 b) Variável Contínua: os dados estão agrupados em uma distribuição de frequências em classes, então: • 1º Passo: Organizar os dados em forma de rol (ordem crescente); • 2º Passo: Calcular a ordem (n/2)º. Como a variável é contínua não importa se é par ou ímpar. • 3º Passo: Através da ↓F identificar a classe que contém a mediana, isto é, a posição da mediana. • 4º Passo: Utilizar a fórmula: EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 29 Med Med Med Med .if FP LIMed ↓− += − - LIMed = limite inferior da classe que contém a mediana; - PMed = posição da mediana = 2f i /∑ = xº elemento; - -F ↓ = frequência absoluta acumulada "abaixo de" da classe anterior à classe que contém a mediana; - fMe = frequência absoluta da classe que contém a mediana; - iMe = intervalo da classe que contém a mediana; Exemplo 1.29: Nascidos vivos segundo peso ao nascer, em kg. Neste caso, a mediana é dada por: Classes fi Pm ↓F 1,5 ├ 2,0 3 1,75 3 2,0 ├ 2,5 16 2,25 19 2,5 ├ 3,0 31 2,75 50 3,0 ├ 3,5 34 3,25 84 3,5 ├ 4,0 11 3,75 95 4,0 ├ 4,5 3 4,25 98 4,5 5,0 1 4,75 99 Total 99 - - Fonte: Dados fictícios PMe = (n/2)� (99/2)� 49,5 ≈ 50º elemento � 3ª classe: [2,5; 3,0) 3)0,5.( 31 19-502,5.i f FP LIMed Med Med Med Med = += ↓− += − EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 30 Exercício 1.8: Um determinado hospital está interessado em analisar a quantidade de creatinina (em miligramas por 100 mililitros) encontrada na urina (de 24 horas) de seus pacientes internados com problemas renais. Calcule a Mediana. Quantidade de creatinina (ml) encontrada na urina de 84 pacientes com problemas renais.Classes fi F↓ 1,08 |- 1,26 5 5 1,26 |- 1,44 13 18 1,44 |- 1,62 32 50 1,62 |- 1,80 18 68 1,80 |- 1,98 11 79 1,98 |- 2,16 2 81 2,16 |-| 2,34 3 84 Total 84 - Fonte: Dados fictícios 1.6.3 - Moda É o valor que ocorre com maior frequência na série, ou seja, aquele que mais se repete. Exemplo 1.30: Na série 3, 4, 5, 7, 7, 7, 9, 9 � Mo = 7 � SÉRIE UNIMODAL (TEM UMA ÚNICA MODA) Exemplo 1.31: Na série 3, 5, 6, 6, 6, 7, 8 � Mo = 6 � SÉRIE BIMODAL (OCORREM DUAS MODAS) Exemplo 1.32: Na série 2, 5, 5, 5, 6, 7, 9, 9, 9, 10, 10 � Mo1 = 5 e Mo2 = 9 � SÉRIE TRIMODAL (OCORREM TRÊS MODAS) Exemplo 1.33: Na série 4, 4, 4, 5, 6, 7, 7, 7, 8, 9, 9, 9 � Mo1 = 4, Mo2 = 7 e Mo3 = 9 � SÉRIE POLIMODAL (OCORREM QUATRO OU MAIS MODAS) Exemplo 1.34: Na série 0, 0, 1, 3, 3, 4, 7, 8, 8, 11, 12, 12, 13, 13 � Mo1 = 0, Mo2 = 3, Mo3 = 8, Mo4 = 12 e Mo5 = 13 EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 31 � SÉRIE AMODAL (NÃO EXISTE MODA) Exemplo 1.35: Na série 0, 1, 3, 4, 7, 8 � não existe moda a) DADOS APRESENTADOS EM UMA DISTRIBUIÇÃO DE FREQUÊNCIA SIMPLES. Mo = elemento que tenha maior frequência Exemplo 1.36.: X fi 1 13 3 15 6 25 10 8 Total 61 Mo = 6 Exemplo 1.37.: Tipo de Sangue fi O 547 A 441 B 123 AB 25 Total 1136 Mo = sangue do tipo "O" b) DADOS APRESENTADOS EM UMA DISTRIBUIÇÃO DE FREQUÊNCIA CLASSES. Nesse caso, a moda pode ser determinada através de quatro processos. EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 32 1. Moda Bruta (MoB) Corresponde ao ponto médio da classe modal, ou seja, MoB = (li + ls)/2 Exemplo 1.38: Quantidade de Creatinina Classes fi 1,08 ├ 1,26 5 1,26 ├ 1,44 13 1,44 ├ 1,62 32 1,62 ├ 1,80 18 1,80 ├ 1,98 11 1,98 ├ 2,16 2 2,16 2,34 3 Fonte: Dados fictícios 2. Moda de Pearson (MoP) Utilizada mais especificamente, juntamente com X e Med, para mostrar o comportamento da distribuição, em relação a concentração ou não de seus elementos. Mo 3 Med- 2 X= ⋅ ⋅ Utiliza-se a MoP para a análise da assimetria. a) Assimetria à esquerda ou negativa: oPMMedX << A cauda da distribuição está do lado esquerdo do gráfico; b) Simétrica: XMedM oP == (concentração no centro); c) Assimetria à direita ou positiva: XMedM oP << A cauda da distribuição está do lado direito do gráfico. EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 33 Observação: A forma como averiguar a simetria de uma distribuição por esse método, não permite a possibilidade de comparação entre medidas de duas ou mais distribuições. Por esse motivo, veremos mais adiante outra forma de averiguar sobre a simetria de uma distribuição. Exemplo 1.39: Calcule a moda de Pearson para os seguintes dados X = 1,61 e Med = 1,57. Mo 3 Med- 2 X = 3(1,57) -2(1,61) =1,49= ⋅ ⋅ Análise: XMedM oP << , o que indica uma assimetria à direita, isto é, uma maior concentração à esquerda (ou em direção aos valores menores). 1.6.4 – Separatrizes Além das medidas de posição que estudamos, há outras que, consideradas individualmente, não são medidas de tendência central, mas estão ligadas à mediana, já que se baseiam em sua B C A Moda < Mediana < Média Média < Mediana < Moda Moda = Mediana = Média EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 34 posição na série. Essas medidas - os quartis, os percentis e os decis - são, juntamente com as medianas, conhecidas pelo nome genérico de separatrizes. Os quartis, decis e percentis são muito similares à mediana, uma vez que também subdividem a distribuição de medidas de acordo com a proporção das frequências observadas. Enquanto a mediana divide a distribuição em duas metades, os quartis dividem-se em quatro quartos, os decis em 10 partes e os pontos percentis dividem a distribuição em 100 partes. Mediana (Me) divide em duas partes iguais Quartis (Q1, Q2 e Q3) dividem em quatro partes iguais Decis (D1, D2, ..., D9) dividem em dez partes iguais Percentis (P1, P2, ..., P99 ) dividem em cem partes iguais São utilizadas para se conhecer, com precisão, as distribuições dos dados como um todo. As separatrizes podem ser utilizadas tanto em dados não-agrupados (em forma de rol ou em distribuição de frequência simples) tanto quanto em dados agrupados (distribuição de frequências em classes). Relação visual das separatrizes !-------------------!-------------------! Md !---------!---------!---------!---------! Q1 Q2 Q3 !-----!-----!-----!-----!-----!-----!-----!-----!-----!-----! D1 D2 D3 D4 D5 D6 D7 D8 D9 !----------!----------!----------!----------!----------!----------!----------!----------!----------!----------! P10 P20 P30 P40 P50 P60 P70 P80 P90 SEPARATRIZES PARA DADOS NÃO-AGRUPADOS Primeiro encontra-se a posição e em seguida identifica a classe para cada separatriz. As posições são calculadas da seguinte maneira: EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 35 1 – Posição da Mediana: PMe = 2 n 2 – Posição dos Quartis: PQx = . n4 x , x = 1, 2, 3 3 – Posição dos Decis: PDx = . n 10 x , x = 1, 2, ..., 9 4 – Posição dos Percentis: PPx = . n 100 x , x = 1, 2, ..., 99 em que: x refere-se à determinação da separatriz (exemplo para quartil, x=1,2,3); n refere-se ao número de elementos dos dados ou distribuição. Exemplo 1.40: Considere as idades de 24 alunos da disciplina de Estatística Básica do Curso de Ciências Biológicas. Calcule os Quartis. 17 18 19 20 21 22 23 24 25 26 27 29 32 33 35 38 39 42 44 46 48 50 54 57 Calculando os quartis, temos: 1 2 3 1 24 6 elemento=22 4 4 2 24 12 elemento=29 4 3 24 18 elemento=42 4 o o o x nEq Eq Mediana Eq ⋅ ⋅ = = = ⋅ = = = ⋅ = = Em relação aos quartis, encontramos os 6º, 12º e o 18º elemento da distribuição dos dados, que correspondem aos números 22, 29 e 42. Assim, podemos concluir que 25% dos alunos têm idade de até 22 anos, como também metade dos alunos têm até 29 anos de idade e 25% têm ao menos 42 anos. E, 25% dos alunos têm mais de 42 anos de idade. Calculando os Decis 3, 7 e 9, temos: 3 5 9 3 24 7 8 23 247,2 23,5 10 10 2 2 5 24 12 elemento=29 10 9 24 21 22 48 5021,6 49 10 2 2 o o o o o x n elemento elementoEd Ed Mediana elemento elementoEd ⋅ ⋅ + + = = = ≈ = = ⋅ = = = ⋅ + + = = ≈ = = EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 36 Em relação aos decis calculados, encontramos os 7º, 12º e o 22º elemento da distribuição dosdados, que correspondem aos números 23,5, 29 e 49. Assim, podemos concluir que 30% dos alunos têm idade de até 23,5 anos, como também metade dos alunos têm até 29 anos de idade e 90% têm ao menos 49 anos. E, 10% dos alunos têm mais de 49 anos de idade. Calculando os Percentis 30, 70 e 90, temos: 17 35 83 17 24 4 5 20 214,08 elemento 20,5 100 100 2 2 35 24 8 9 24 258,4 elemento 24,5 100 2 2 83 24 19 20 44 4619,92 elemento 45 100 2 2 o o o o o o o o o x nEp Ep Ep ⋅ ⋅ + + = = = ≈ = = ⋅ + + = = ≈ = = ⋅ + + = = ≈ = = Em relação aos percentis calculados, encontramos os 4º, 8º e o 20º elemento da distribuição dos dados, que correspondem aos números 20,5; 24,5 e 45. Assim, podemos concluir que 17% dos alunos têm idade de até 20,5 anos, como também 35% deles têm até 24,5 anos de idade e 65% têm ao menos 24,5 anos. Conclui-se também que 83% dos alunos têm até 45 anos de idade e 17% têm no mínimo 45 anos. SEPARATRIZES PARA DADOS AGRUPADOS QUARTIS Para esse caso, usamos a mesma técnica do cálculo da mediana, bastando substituir o Ponto da Mediana em sua fórmula por (0,25·∑fi) para a determinação do primeiro quartil (Q1), substituir por (0,50·∑fi) para a determinação do segundo quartil (Q2) e substituir por (0,75·∑fi) para a determinação do terceiro quartil (Q3). Assim a fórmula genérica para determinação dos quartis será: . Q i k Qk Qk Qk f FQ LI if θ − ⋅ − ↓ = + ∑ em que: - θQ = 0,25; 0,50 ou 0,75. - LIMed = limite inferior da classe que contém o quartil; - PMed = posição do quartil; EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 37 - -F ↓ = frequência absoluta acumulada "abaixo de" da classe anterior à classe que contém o quartil; - fMe = frequência absoluta da classe que contém o quartil; - iMe = intervalo da classe que contém o quartil; Exemplo 1.41: Calcule os quartis da tabela abaixo: Classes fi F↓ 50 ├ 54 4 4 54 ├ 58 9 13 Q1 58 ├ 62 11 24 Q2 62 ├ 66 8 32 Q3 66 ├ 70 5 37 70 ├ 74 3 40 Total 40 - O primeiro passo será encontrar a classe onde está Q1. Para tanto, devemos utilizar a seguinte equação (0,25· ∑fi). Aplicando a equação na tabela, teremos que 0,25 · 40 = 10. Dispondo deste valor, vamos a coluna das frequências acumuladas (F↓) e encontramos o primeiro valor igual ou maior a 10. Neste caso, o Q1 encontra-se na 2ª classe da tabela, pois 13 é maior que 10. Resolvendo teremos: 1 1 1 1 10 4 . 54 4 56,67 9 Q i Q Q Q f FQ LI if θ − ⋅ − ↓ − = + = + = ∑ Para encontrarmos o 2º quartil, seguimos o mesmo procedimento descrito acima, ou seja, encontramos a classe do Q2 fazemos, (0,50· ∑fi) � (0,50 · 40) = 20. Na coluna (F↓), verifica-se que o primeiro valor maior ou igual a 20 é 24, que se encontra na 3ª classe, então: 2 2 2 2 20 13 . 58 4 60,54 11 Q i Q Q Q f FQ LI if θ − ⋅ − ↓ − = + = + = ∑ Para saber em que classe está Q3, fazemos, (0,75· ∑fi) � (0,75 · 40) = 30, que está na 4ª classe em (F↓). Ou seja: EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 38 3 3 3 3 30 24 . 62 4 65 8 Q i Q Q Q f FQ LI if θ − ⋅ − ↓ − = + = + = ∑ DECIS A definição dos decis obedece ao mesmo princípio dos quartis, com a modificação da porcentagem de valores que ficam aquém e além do decil que se pretende calcular. A fórmula básica será (θD · ∑fi), em que θD = 1, 2, 3, ..., 8, 9. Indicamos os decis por D1, D2, ..., D9. Deste modo precisamos de 9 decis para dividir uma série em 10 partes iguais. Exemplo 1.42: Encontre o 3º decil da tabela de distribuição de classes citada no Exemplo 1.41. Como o 3º decil vale 30%, basta fazermos (0,30· ∑fi) � (0,30 · 40) = 12. A interpretação a ser dada a este valor é a mesma já apresentada nos quartis, assim, este resultado corresponderá a 2ª classe. 30 30 30 30 12 4 . 54 4 57,55 9 D i D D D f F D LI if θ − ⋅ − ↓ − = + = + = ∑ PERCENTIL OU CENTIL Denominamos percentis ou centis como sendo os noventa e nove valores que separam uma série em 100 partes iguais. Indicamos por P1, P2, ... , P99. O cálculo de um centil segue a mesma técnica de cálculo já demonstrada anteriormente, ou seja, (θP · ∑fi), em que θP = 1, 2, 3, ..., 98, 99. Exemplo 1.43: Encontre o 8º percentil da tabela de distribuição de frequência do Exemplo 1.41. Como o 8º percentil vale 8%, basta fazermos (0,08· ∑fi) � (0,08 · 40) = 3,2. A interpretação a ser dada a este valor é a mesma já apresentada nos quartis, assim, este resultado corresponderá a 1ª classe. 8 8 8 8 3,2 0 . 50 4 53,2 4 D i P P P f F P LI if θ − ⋅ − ↓ − = + = + = ∑ Observação: Chama-se atenção para a equivalência de algumas separatrizes, sendo estas: D5=Q2=P50=Md ; P25 = Q1 & P75 = Q3. EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 39 1.7 - Medidas De Dispersão Utilizaremos o termo dispersão para indicar o grau de afastamento de um conjunto de números em relação a sua média, pois ainda que consideremos a média como um número que tem a faculdade de representar uma série de valores ela não pode por si mesma, destacar o grau de homogeneidade ou heterogeneidade que existe entre os valores que compõem o conjunto. O nosso objetivo é construir medidas que avaliem a representatividade da média, para isto usaremos as medidas de dispersão. Uma breve reflexão sobre as medidas de tendência central permite-nos concluir que elas não são suficientes para caracterizar totalmente uma sequência numérica. Se observarmos as seguintes sequências: X: 70, 70, 70, 70, 70 Y: 68, 69, 70, 71, 72 Z: 5, 15, 50, 120, 160 Calculando a média aritmética de cada um desses conjuntos, obtemos: 350 70 5 ixX X n = ⇒ = = ∑ iy 350Y 70 n 5 = = = ∑ iz 350Z 70 n 5 = = = ∑ Observamos, então, que os três conjuntos apresentam a mesma média aritmética igual a 70. No entanto, são sequências completamente distintas do ponto de vista da variabilidade de dados. Na sequência X, não há variabilidade dos dados. A média 70 representa bem qualquer valor da série. Na sequência Y, a média 70 representa bem a série, mas existem elementos da série levemente diferenciados da média 70. Na sequência Z, existem muitos elementos bastante diferenciados da média 70. Concluímos que a média 70 representa otimamente a sequência X, representa razoavelmente bem a sequência Y, mas não representa bem a sequência Z. Nosso objetivo é construir medidas que avaliem a representatividade da média. Para isto, usaremos as medidas de dispersão. Observe que na sequência X os dados estão totalmente concentrados sobre a média 70, não há dispersão de dados. Na sequência Y, há forte concentração dos dados sobre a média 70, mas há EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 40 fraca dispersão de dados. Já na série Z há fraca concentração de dados em torno da média 70 e forte dispersão de dados em relação à média70. As principais medidas de dispersão absolutas são: amplitude total, variância, desvio padrão e coeficiente de variação. 1.7.1 – Variância È a medida de dispersão mais utilizada. É definida como sendo o quociente entre a soma dos quadrados dos desvios e o número de elementos. É classificada em dois tipos: Variância Populacional ( 2σ ) ⇒ ( ) ( )2 22 21i i i X X X X N N N σ − = = − ∑ ∑ ∑ Variância Amostral (s2) ⇒ ( ) ( )2 22 21 1 1 i i i X X X S X n n n − = = − − − ∑ ∑ ∑ Exemplo 1.44: Calcule a variância da estatura de 5 jogadores de basquete disponibilizados a seguir: 1,92 1,72 1,82 1,80 1,84 Antes de calcular a variância, é necessário calcular a média ( X ). Logo: 1,92 1,72 1,82 1,80 1,84 9,1 1,82 5 5 X + + + += = = ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 2 2 2 2 2 2 2 2 2 2 2 1,92 1,82 1,72 1,82 1,82 1,82 1,80 1,82 1,84 1,82 1 5 1 0,1 0,1 0 0,02 0,02 0,01 0,01 0 0,0004 0,0004 4 4 0,0208 0,0052. 4 iX XS n − − + − + − + − + − = = − − + − + + − + + + + + = = = = = ∑ EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 41 Exercício 1.9: Calcule a variância do número de incisões feitas em três crianças numa cirurgia dos membros superiores e inferiores. Comenta sobre a variabilidade de cada criança. Criança Mão Esquerda Mão Direita Perna Esquerda Perna Direita Paulo 2 1 1 4 Xaianne 1 1 1 1 Thiago 0 0 3 7 IMPORTANTE: Quando os dados estão dispostos em uma tabela de distribuição de frequência (simples ou em classes), utilizam-se as seguintes fórmulas: 1º Caso – Frequência Simples ( ) ⋅ −⋅ − = ∑ ∑ n fxfx n s i i 2 22 1 1 ( ) ⋅ −⋅= ∑ ∑ N fxfx N i i 2 22 1σ 2º Caso – Frequência em Classes ( ) ⋅ −⋅ − = ∑ ∑ n fPmfPm n s 2 22 1 1 ( ) ⋅ −⋅= ∑ ∑ N fPmfPm N 2 22 1σ ATENÇÃO: “Desvantagem” do uso da variância No cálculo da variância, quando elevamos ao quadrado a diferença )x(x i −−−− , a unidade de medida da série fica também elevada ao quadrado. Portanto, a variância é dada sempre no quadrado da unidade de medida da série. Se os dados são expressos em metros, a variância é expressa em metros quadrados. Em algumas situações, a unidade de medida da variância nem faz sentido. É o caso, por exemplo, em que os dados são expressos em litros. A variância será expressa em litros quadrados. Logo, o valor da variância não pode ser comparado diretamente com os dados da série, ou seja: variância não tem interpretação. Solução: Utilizar o DESVIO PADRÃO como medida. EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 42 1.7.2 - Desvio Padrão Medida de dispersão que apresenta as propriedades da variância e tem a mesma unidade de medida dos dados. É a raiz quadrada da variância. Notações: 1) Quando a sequência de dados representa uma população a variância será denotada por 2σ e o desvio padrão correspondente por σ . 2) Quando a sequência de dados representa uma amostra a variância será denotada por 2S e o desvio padrão correspondente por S . Desvio Padrão Populacional (σ) ⇒ ( ) 2 iX X N σ − = ∑ Desvio Padrão Amostral (s) ⇒ ( )2 1 iX XS n − = − ∑ OBS: Quanto maior o valor do desvio padrão significa que mais dispersos estão os elementos em torno da média. Exercício 1.10: Calcule o desvio-padrão do número de suturações realizadas em 5 cães da caça num determinada procedimento cirúrgico: 2 2 3 5 7 Interpretação do Desvio Padrão O desvio padrão é, sem dúvida, a mais importante das medidas de dispersão. É fundamental que o interessado consiga relacionar o valor obtido do desvio padrão com os dados da série. Quando uma curva de frequência representativa da série é perfeitamente simétrica ( MoMdX ======== ), podemos afirmar que os intervalos: ] x ,x[ σσσσσσσσ ++++−−−− contém aproximadamente 68% dos valores da série. ]2 x ,2x[ σσσσσσσσ ++++−−−− contém aproximadamente 95% dos valores da série. ]3 x ,3x[ σσσσσσσσ ++++−−−− contém aproximadamente 99% dos valores da série. EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 43 OBS: Quando a distribuição não é perfeitamente simétrica, estes percentuais apresentam pequenas variações para mais ou para menos, segundo o caso. Ou seja, na presença de assimetria ou outliers, as três propriedades definidas acima não ocorrem com exatidão. Exemplo 1.45: Suponha uma série com média 100====x e desvio padrão 5====σσσσ , podemos interpretar estes valores da seguinte forma: 1. Os valores da série estão concentrados em torno de 100. 2. O intervalo [95, 105] contém aproximadamente 68% dos valores da série. O intervalo [90, 110] contém aproximadamente 95% dos valores da série. O intervalo [85, 115] contém aproximadamente 99% dos valores da série. EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 44 1.7.3 - Coeficiente de Variação Dissemos antes que, por serem as unidades do desvio-padrão as mesmas que as unidades dos dados originais, é mais fácil entender o desvio-padrão do que a variância. No entanto, aquela mesma propriedade torna difícil comparar a variação para valores originados de diferentes populações, ou seja, quando as medidas de duas ou mais variáveis são expressas em unidades diferentes como peso/altura, capacidade/comprimento, etc. Usa-se então o Coeficiente de Variação (CV), que é uma medida relativa, que expressa o desvio padrão como uma porcentagem da média aritmética e ele não tem unidade específica. Quanto mais próximo de zero, mais homogênea é a distribuição. Quanto mais distante, mais dispersas. O CV mede a dispersão em relação à média. É a razão entre o desvio padrão e a média. O resultado obtido dessa operação é multiplicado por 100, para que o coeficiente de variação seja dado em porcentagem. 100sCV X = ⋅ ANÁLISE • DISPERSÃO BAIXA: CV ≤ 15% • DISPERSÃO MÉDIA: 15% ≤ CV ≤ 30% • DISPERSÃO ALTA: CV ≥ 30% OBS.: Um CV alto indica que a dispersão dos dados em torno da média é muito grande. Exemplo 1.46: Alturas e Pesos de Homens. Usando os dados amostrais de alturas e pesos de 40 homens de uma turma de estatística, encontramos as estatísticas dadas na tabela a seguir. Média - X Desvio padrão - S Altura (cm) 168 7,56 Peso (kg) 72 10,98 Calcule o coeficiente de variação para altura e peso, e a seguir, compare os dois resultados. EST0234 – Elementos de Bioestatística – Prof. Msc. André Luiz Sena da Rocha andrerochaest@yahoo.com.br 45 Solução: CV para Altura: 7,56100 100 0,045 100 4,5%. 168Altura SCV X = ⋅ = ⋅ = ⋅ = CV para Peso: 10,98100 100 0,1525 100 15,25%. 72Peso SCV X = ⋅ =
Compartilhar