Baixe o app para aproveitar ainda mais
Prévia do material em texto
BIOESTÁTICA APLICADA A AUDITORIA 1 _Toc433107203Apresentação ...................................................................................................... 4 Aula 1: Conceitos fundamentais de estatística ............................................................................. 4 ............................................................................................................................. 4 Introdução ................................................................................................................................ 6 Conteúdo Estatística na saúde ........................................................................................................... 6 Elemento, universo e população .................................................................................... 6 Amostra ............................................................................................................................... 8 Amostragem ....................................................................................................................... 8 Parâmetros .......................................................................................................................... 9 Variável e seus tipos ........................................................................................................ 10 Séries estatísticas ............................................................................................................. 11 Série temporal, histórica, cronológica ou marcha .................................................... 11 Série geográfica ou territorial ........................................................................................ 12 Série específica, especificativa ou categórica ............................................................ 13 Distribuição de frequência ............................................................................................. 14 Frequências ....................................................................................................................... 16 Atividade proposta .......................................................................................................... 18 ............................................................................................................................... 18 Referências ............................................................................................................. 19 Exercícios de fixação Chaves de resposta ..................................................................................................................... 22 ..................................................................................................................................... 22 Aula 1 Exercícios de fixação ....................................................................................................... 22 Aula 2: Medidas de posição (tendência central), medidas de dispersão e assimetria e entendendo as separatrizes ........................................................................................................ 24 ........................................................................................................................... 24 Introdução .............................................................................................................................. 25 Conteúdo Medidas de posição (tendência central) ..................................................................... 25 Média aritmética .............................................................................................................. 25 Mediana (md) .................................................................................................................... 26 Moda (mo) ......................................................................................................................... 28 Tendência central ............................................................................................................ 29 Relação empírica entre a média, a mediana e a moda ............................................ 29 Medidas de dispersão ...................................................................................................... 30 Amplitude total ................................................................................................................. 31 BIOESTÁTICA APLICADA A AUDITORIA 2 Variância ............................................................................................................................ 31 Interpretação: ................................................................................................................... 32 Coeficiente de variação .................................................................................................. 32 Medidas separatrizes ....................................................................................................... 33 Quartis ................................................................................................................................ 33 Amplitude Interquartis .................................................................................................... 34 Cálculo dos quartis .......................................................................................................... 34 Decis ................................................................................................................................... 35 Centis ................................................................................................................................. 35 Atividade proposta .......................................................................................................... 35 ............................................................................................................................... 35 Referências ............................................................................................................. 36 Exercícios de fixação Chaves de resposta ..................................................................................................................... 42 ..................................................................................................................................... 42 Aula 2 Exercícios de fixação ....................................................................................................... 42 ........................................................................................................................... 45 Introdução .............................................................................................................................. 46 Conteúdo Descobrindo a distribuição de probabilidade normal .............................................. 46 Distribuição Normal ........................................................................................................ 47 Distribuição Normal Padronizada................................................................................. 48 Tabela normal padronizada ........................................................................................... 49 Intervalos de confiança e erro padrão da média ....................................................... 50 Desvio padrão ................................................................................................................... 52 Exemplos de desvio padrão ........................................................................................... 53 Teste de hipóteses ........................................................................................................... 54 Nível descritivo ou probabilidade de significância (p-value) .................................. 58 ...........................................................................................................................59 Referências ......................................................................................................... 59 Exercícios de fixação Chaves de resposta ..................................................................................................................... 63 ..................................................................................................................................... 63 Aula 3 Exercícios de fixação ....................................................................................................... 63 Aula 4: Representação gráfica de dados, teste estatístico: x² e construção de indicadores de saúde ........................................................................................................................................... 66 ........................................................................................................................... 66 Introdução .............................................................................................................................. 67 Conteúdo Representação gráfica de dados ................................................................................... 67 BIOESTÁTICA APLICADA A AUDITORIA 3 Principais tipos de representações gráficas da área ................................................. 67 Gráficos de informação .................................................................................................. 67 Gráficos de análise........................................................................................................... 68 Gráficos de barras ou colunas ....................................................................................... 68 Diagramas circulares ou por setores ........................................................................... 69 Histogramas ...................................................................................................................... 70 Gráficos de linha ou sequência ..................................................................................... 71 Polígonos de frequência ................................................................................................. 72 Gráficos de ogiva ............................................................................................................. 72 Diagramas de dispersão ................................................................................................. 73 Teste do Qui-Quadrado (X²) .......................................................................................... 73 Objetivos do teste do Qui-Quadrado (X²) ................................................................... 75 Fórmulas do teste do X² ................................................................................................. 75 Analisando dados conforme o teste do X² ................................................................. 76 Estabelecendo a comparação ....................................................................................... 77 Aplicando o teste do X² .................................................................................................. 78 Indicadores de saúde ...................................................................................................... 80 Taxa de Mortalidade ........................................................................................................ 80 Taxa de Mortalidade Geral ............................................................................................. 81 Taxa de Mortalidade Específica ..................................................................................... 81 Taxa de Mortalidade Infantil .......................................................................................... 81 Taxa de Mortalidade Infantil Neonatal ........................................................................ 83 Taxa de Mortalidade Materna ........................................................................................ 84 ............................................................................................................................... 85 Referências ............................................................................................................. 86 Exercícios de fixação Chaves de resposta ..................................................................................................................... 92 ..................................................................................................................................... 92 Aula 4 Exercícios de fixação ....................................................................................................... 92 BIOESTÁTICA APLICADA A AUDITORIA 4 Introdução A Estatística é um valioso instrumento de mensuração de dados. Como parte da Matemática Aplicada, a Estatística trata da coleta, da análise e da interpretação de dados observados, assim, transformando em informação o que nos parecia um emaranhado de dados. Estudando os mais variados fenômenos das diversas áreas do conhecimento, a Estatística representa um valioso instrumento de trabalho nos dias de hoje, em especial, na capacidade de permear todas as ciências e, aqui, em especial, trataremos a Estatística nas ciências biológicas. Pode-se até pensar que suas técnicas nasceram neste mundo contemporâneo em que se valoriza cada vez mais a rapidez e a agilidade das informações, de um mundo onde o avanço tecnológico (através da criação de computadores que processam uma imensa quantidade de dados em um "piscar de olhos") é constante, porém, a utilização da estatística como suporte para a tomada de decisão é muito antiga. A Estatística é um instrumento fundamental quando se deseja realizar uma pesquisa científica ou acessar um material científico para a obtenção de informações. Trata-se de uma ferramenta indispensável para qualquer profissional que necessita analisar informações em suas tomadas de decisões, seja no seu trabalho ou na sua vida pessoal. Objetivo: 1. Conhecer os conceitos fundamentais de Estatística; BIOESTÁTICA APLICADA A AUDITORIA 5 2. Fazer leitura e construção de tabelas de dados. BIOESTÁTICA APLICADA A AUDITORIA 6 Conteúdo Estatística na saúde Vamos começar a aula com o questionamento: Por que a Estatística é necessária em saúde? Porque somos humanos! Por mais que isso nos pareça óbvio, o ser homem, no seu afã por conquistas, busca respostas e soluções para a longevidade com a maior qualidade de vida. Na área biomédica, os ensaios clínicos constituem-se numa poderosa ferramenta para a avaliação de intervenções para a saúde, sejam elas medicamentosas ou não. Um dos primeiros ensaios clínicos, nos moldes que hoje conhecemos, foi publicado no final da década de 40 quando o estatístico Sir Austin Bradford Hill alocou aleatoriamente pacientes com tuberculose pulmonar em dois grupos: os que receberiam estreptomicina e os que não receberiam o medicamento. Desta forma, ele pode avaliar, de maneira não tendenciosa, a eficácia do medicamento. Isso se repete nos dias de hoje com inúmeros assuntos das áreas biomédicas, ou seja, seremos incessantes descobridores ao realizarmos ou participarmos de uma pesquisa científica ou, simplesmente, ser um usuário dessas informações. Elemento, universo e população É importante entender que todas as vezes que se recorre a uma pesquisa estatística é preciso, como ponto inicial, identificar o elemento a ser estudado/observado, ou seja, o público-alvo, ou ainda mais, o universo a ser estudo e onde esses elementos estão inseridos, pois é com base nesse conjunto de elementos que os dados são coletados e analisados de acordo com os princípios e objetivos da pesquisa.BIOESTÁTICA APLICADA A AUDITORIA 7 Esse público-alvo recebe o nome de universo e constitui um conjunto de elementos que apresenta características próprias, por exemplo: os usuários de um plano de saúde, os postos de saúde de uma localidade, os membros de uma equipe de futebol, as turmas de uma universidade, os funcionários de uma empresa, as habitações de um país*, e várias situações que envolvem um grupo geral de elementos. Atenção Observe, também, que o elemento não se restringe a pessoas/indivíduos. * O censo demográfico tem como principal característica a observação de todos os elementos que, nesse caso, são os domicílios/habitações/residências de onde se obtém o total de habitantes de uma localidade. Aprofundando mais sobre população, a definirmos como um conjunto de elementos com características e definidas no tempo e espaço. Na Estatística, a população pode ser classificada como finita ou infinita. População finita Quando o número de elementos de um universo não é muito grande e a entrevista e a análise das informações podem abordar a todos do grupo. Por exemplo: os pacientes internados com determinada patologia, hospital e data. População infinita Quando o número de elementos é muito elevado ou não há fim para a coleta dos dados. Por exemplo: a população de negros de uma grande cidade como São Paulo ou os vitimados de violência doméstica que chegam a um hospital municipal de uma grande cidade (sem especificar a data). BIOESTÁTICA APLICADA A AUDITORIA 8 Amostra Entrando para um campo mais específico, temos a amostra, que é qualquer subconjunto do universo, fração ou uma parte do grupo que, de alguma forma, representa o universo. Em alguns casos seria impossível ou muito dispendioso (de tempo ou outros recursos) entrevistar/observar todos os elementos de um universo, assim, a amostra é a parte que representará o todo. Quando estamos interessados em observar o sangue de um paciente, obviamente, não poderemos retirar todo o sangue e, assim, recorremos ao princípio da Estatística ao retirar uma amostra, por exemplo, de 5 ml como representante de todo o sangue de sua corrente sanguínea. Amostragem Trabalhar com amostra é mais conveniente, pois a pesquisa torna-se mais fácil, mais rápida e mais econômica, além de que muitas vezes é impossível trabalhar com todo o universo que se deseja alcançar. Pela importância da representatividade dessa parte – amostra – para com o todo, exige-se o uso de técnicas para obtenção de amostras não tendenciosas e/ou imparciais. Existem diversas técnicas e, a seguir, veremos as mais comuns Amostras Aleatórias: Amostra Aleatória Simples - quando todos os elementos do universo tem a mesma chance de serem selecionados para a amostra, ou seja, neste tipo de amostra a premissa é de que cada componente do universo a ser estudado tem a mesma probabilidade de ser escolhido para compor a amostra. Por exemplo, o sorteio das bolinhas da MegaSena. Amostra Aleatória Estratificada - quando o universo é dividido em estratos (subconjuntos do todo) e, em seguida, é selecionada uma amostra aleatória de cada estrato guardando-se suas proporções, assim, a amostra mantém as proporções do universo. Esta é geralmente aplicada quando o evento estudado tem características distintas para diferentes categorias que dividem o universo a ser estudado. BIOESTÁTICA APLICADA A AUDITORIA 9 Por exemplo, quando o sorteio de pacientes num hospital é feito proporcionalmente ao tipo de internação. Amostra Aleatória por Conglomerados - quando o universo é dividido em subconjuntos distintos (conglomerados) e sorteamos um ou mais conglomerados, tal como na amostra aleatória simples e, então, são observados todos os elementos do(s) conglomerado(s) selecionado(s). Por exemplo, quando o sorteio de pacientes em um hospital é feito nos andares pares. Amostra Aleatória Sistemática - quando se obedece ao mesmo princípio da amostra aleatória simples, no entanto, prevê a coleta de elementos ao longo de um período de tempo e arbitra um ritmo para tomada de unidades da população para compor a amostra. A amostra sistemática é utilizada quando se quer planejar um período de tempo para execução da coleta de dados ou quando se deseja cobrir um determinado período de tempo com a amostra estudada. O número de observações pode ser calculado, como na amostragem aleatória simples e o intervalo sistemático pode ser arbitrado a partir da frequência esperada do evento estudado. Por exemplo, numa população de atendimentos médicos ambulatoriais, tomam- se para amostra das primeiras pessoas que se apresentam para consulta médica. A partir de um nome sorteado, selecionamos um a cada dez indivíduos (o décimo, vigésimo e assim por diante). Parâmetros O ideal seria trabalharmos com todos os elementos do universo objeto de nosso estudo estatístico. E, deste, representar os elementos pelos parâmetros estudados e necessários para alcançar nossos objetivos. Assim, não perguntaremos a altura de um indivíduo se esse parâmetro não é importante para o estudo/trabalho. BIOESTÁTICA APLICADA A AUDITORIA 10 Variável e seus tipos Em Estatística, uma variável é uma característica qualquer de interesse associada aos elementos do universo ou amostra e apresenta variação de elemento para elemento. Assim, idade, altura, peso, sexo, quantidade de plaquetas, opinião sobre um atendimento e bairro onde mora são variáveis dos elementos de um universo. Variável Qualitativa Seus possíveis valores são categorias, tem a qualidade como referência e não são mensuradas numericamente. Esta se subdivide em: Variável Qualitativa Ordinal - a que pode ser colocada em ordem. Por exemplo, a classe social (A, B, C, D ou E). Variável Qualitativa Nominal - a que não pode ser hierarquizada ou ordenada, não tem nenhuma ordem de variação. Por exemplo, a cor dos olhos, o local de nascimento, sexo, carreira e região onde mora. Variável Quantitativa São numericamente mensuráveis, ou seja, suas observações são valores que podem ser uma contagem (discreta) ou medida (contínua). Esta se subdivide em: Variável Quantitativa Discreta - a que apresenta uma contagem, sem que se possa fracionar, ou seja, os resultados possíveis podem ser enumeráveis e finitos. Por exemplo, número de filhos e alunos numa escola. Variável Quantitativa Contínua - a que expressa uma medida e forma um intervalo ou união de números reais. Por exemplo: peso, altura, pressão sistólica e nível de açúcar no sangue. BIOESTÁTICA APLICADA A AUDITORIA 11 Séries estatísticas A princípio, é toda tabela que apresenta um conjunto de dados estatísticos em função da época, do local ou da espécie/fenômeno". O meio mais comum para apresentação de resultados é a tabela que deve ser clara e objetiva, dispensando consulta a um texto. A finalidade básica da tabela é sintetizar dados de maneira a fornecer o máximo de informação. Em geral, uma tabela é composta de: Ex: Título: apresentado na parte superior da tabela deve informar três questões: o que se está sendo estudado, onde foi feito o estudo e quando este foi realizado. Cabeçalho: é a parte superior da tabela, contendo informações sobre o conteúdo de cada coluna. Para grandezas físicas, coloca-se também a unidade utilizada, de modo que no corpo irão aparecer números puros. Coluna indicadora: indica o conteúdo das linhas. Normalmente é colocada na coluna mais à esquerda. Corpo: é onde se coloca o resultado que se deseja relatar. Muito comum, a tabela abaixo é um exemplo de série mista, por haver dupla entrada evidenciada nas colunas (bebida preferida) e linhas (estado civil) e, ambas, são variáveis do tipo qualitativa. Série temporal, histórica, cronológica ou marcha Serie temporal é uma sequência de realizações(observações) de uma variável ao longo de um determinado tempo, ou seja, é uma sequência de observações (dados numéricos) em ordem cronológica, geralmente ocorrendo em intervalos uniformes (iguais, por exemplo, diariamente, semanalmente, ou mensalmente). BIOESTÁTICA APLICADA A AUDITORIA 12 Ex: Portanto, uma série temporal é, tão simplesmente, uma sequência de números coletados em intervalos regulares durante um período de tempo. No exemplo abaixo, além de ser uma série temporal, também é apresentado mais de um fenômeno/espécie (população, óbitos e incidência) nas colunas, o que faz com que ela também seja uma série específica (que veremos mais adiante). Incidência de óbitos por AVC/1000 habitantes de 2000 a 2009 no Brasil Série geográfica ou territorial Elaborada a partir do registro de observações de fatos ou ocorrências num determinado momento, mas em lugares distintos. Então, o tempo e o fenômeno são fixos e o que está apresentando variação é o local, território ou região. BIOESTÁTICA APLICADA A AUDITORIA 13 Além de ser uma série geográfica, também é uma série específica (que veremos mais adiante) ao apresentar o sexo (masculino ou feminino) por região. Série específica, especificativa ou categórica Representa os fatos mencionando-os por grupos específicos ou categorias em um determinado tempo e local. BIOESTÁTICA APLICADA A AUDITORIA 14 Observe no título que os tipos de causa de internação ocorrem no Hospital Municipal de São José dos Campos em 2003. Tem-se uma tabela de dupla entrada específica, pois os tipos de causa (nas linhas) estão abertos nas colunas por internações, valor total, tempo médio etc. Além das três séries apresentadas, uma quarta série estatística, muito importante, trabalha com as três características (época, local e fenômeno). Trata-se da distribuição de frequência. Vamos aprofundar mais sobre essa quarta série estatística a seguir. Distribuição de frequência Embora se apresentem fixas as três características época, local e fenômeno, este último (que, em sua maioria, é uma variável do tipo quantitativa contínua) é agrupado em classes mutuamente exclusivas, ou seja, um mesmo elemento observado não pode estar em mais de uma das classes apresentadas. De maneira sintética, na primeira coluna de uma distribuição de frequência são apresentadas as classes e, na sequência, o Ponto Médio (PMi) e a Frequência Simples Absoluta (Fi) de cada uma das classes. Além desses princípios, as demais possíveis colunas serão construídas na medida em que forem necessárias. BIOESTÁTICA APLICADA A AUDITORIA 15 Comumente, na sequência, Frequência Acumulada Absoluta (Fai), Frequência Relativa (Fri) e Frequência Acumulada Relativa (Fari). As Frequências Relativas podem ser apresentadas em percentual (mais comum) ou decimais de unidade. Acompanhe um exemplo a seguir. Vejamos um exemplo apresentado num quadro de dados brutos e seu rol abaixo da observação da taxa de colesterol (mg/dl) em 30 paciente internados no Hospital ABC em mmm/aaaa: Dados Brutos é o conjunto dos dados que ainda não foram numericamente organizados. Dados brutos da taxa de Colesterol (mg/dl) em pacientes internados no Hospital ABC em mmm/aaaa: Rol é o conjunto organizado dos dados brutos por ordem de valor, podendo ser crescente ou decrescente. ROL da taxa de Colesterol (mg/dl) em pacientes internados no Hospital ABC em mmm/aaaa: Observe que estão presentes a época (mmm/aaaa), o local (Hospital ABC) e o Fenômeno (taxa de colesterol em mg/dl). Agora, o Fenômeno será agrupado em classes mutuamente exclusivas de maneira em que se possa colocar cada uma dessas taxas numa só classe. Para isso, usaremos intervalos de classe do tipo fechada à esquerda e aberta à direita ( ), o que quer dizer que uma observação será considerada se estiver exatamente entre o limite inferior da BIOESTÁTICA APLICADA A AUDITORIA 16 classe e "quase" no limite superior, afinal, observa-se que o limite superior de uma classe é o limite inferior da classe seguinte, onde será considerada. Frequências Continuando o raciocínio, as classes foram estabelecidas previamente com intervalos iguais (32 mg/dl) de tal forma que chegamos a 6 classes (i). A necessidade de trazer mais detalhes nos obrigaria a diminuir o intervalo para que se possam ter mais classes. Não necessariamente precisa que o limite inferior da 1ª classes seja o primeiro valor do rol (124 mg/dl). Estabelecidas as classes, a coluna seguinte é a do Ponto Médio (PMi) que é o valor que representa a classe e encontrado calculando-se, meramente, a média aritmética simples entre os limites das classes (p.e.: Na 1ª classes, 138 = [122 + 154 ] / 2; na 2ª classes, 170 = [154 + 186 ] / 2 e assim, para cada uma das seis classes). Na coluna seguinte apresentamos a Frequência Simples Absoluta (Fi); conheça agora cada uma das classes: Frequência Simples Absoluta (Fi) é a quantidade de observações em cada uma das classes. Conte no rol a quantidade de observações que estão entre 122 mg/dl (inclusive) e "quase" 154 mg/dl e veja como na 1ª classe da Distribuição de Frequência informamos 7 na coluna Fi e ainda, na sequência, são informadas 5 observações, contadas no rol, entre 154 mg/dl (inclusive) e BIOESTÁTICA APLICADA A AUDITORIA 17 "quase" 186mg/dl, então, a única observação com 186 mg/dl não integra a 2ª classe e, sim, a 3ª classe e será contadas nos 5 outros elementos encontrados entre 186 mg/dl (inclusive) e "quase" 218 mg/dl. A próxima coluna, se necessária, será a Frequência Acumulada Absoluta (Fai). Frequência Acumulada Absoluta (Fai) é a soma das Frequências Simples Absolutas (Fi). Em quantos pacientes foi observado até (quase) 218 ml/dl? A resposta está na coluna Fai que somou 17 = 7+5+5. Na sequência das colunas está a Frequência Relativa (Fri). Frequência Relativa (Fri) que apresenta a relação (em sua maioria, percentual) de cada quantidade observada na Frequência Simples Absoluta (Fi) em relação ao total de elementos observados, ou seja, é a relação de cada grupo de observações da classe para com o total de observações (em nosso exemplo, 30 paciente/observações). Então, na 1ª classe há 7 (Fi) observações que correspondem a 23,3% do total (30) e na 5ª classe encontramos 20% = 0,20 = 6 / 30. E, finalmente, a Frequência Acumulada Relativa (Fari). Frequência Acumulada Relativa (Fari) que, tão simplesmente, corresponde ao que verificamos na Frequência Relativa (Fri) aplicada a Frequência Acumulada Absoluta (Fai), ou seja, observa-se que pouco mais da metade (56,7%) das observações tem até (quase) 218ml/dl e o cálculo é o mesmo da coluna que a antecede - Frequência Relativa (Fri). Vejamos que 40% = 0,40 = 12 / 30 dos pacientes tem até (quase) 186 ml/dl. Então, em nosso exemplo da Distribuição de Frequência podemos ler, dentre outras, as seguintes informações: Dois pacientes têm taxa de colesterol entre 218 mg/dll e (quase) 250 mg/dll; Dezessete pacientes apresentam taxa de colesterol abaixo de (quase) 218mg/dll; BIOESTÁTICA APLICADA A AUDITORIA 18 Vinte por cento dos pacientes tem entre 250 mg/dll e (quase) 282 mg/dll; Quarenta por cento dos pacientes apresentam entre 154 mg/dll e (quase) 186mg/dll. Atividade proposta Discuta com os colegas quais as ações que devem ser tomadas para que as organizações sejam homologadas com grau 5 no CMMI. Chave de resposta: O CMMI procura estabelecer um modelo único para o processo de melhoria corporativo, integrando diferentes modelos e disciplina. Material complementar Para saber mais sobre análise de pesquisa e demais características da bioestatística, leia os textos disponíveis em nossa biblioteca virtual. Referências CRESWELL, John W. Projeto de pesquisa: métodosqualitativo, quantitativo e misto. Porto Alegre: Artmed, 2010. FIELD, Andy. Descobrindo a estatística usando o SPSS. 2. ed. Porto Alegre: Artmed, 2009. BISQUERRA, Rafael; SARRIERA, Jorge Castellá; MATÍNEZ, Francesc - Introdução à Estatística - Enfoque Informático com Pacote Estatítico SPSS - Editora Artmed, Maio 2004. BIOESTÁTICA APLICADA A AUDITORIA 19 Exercícios de fixação Questão 1 Classifique as seguintes variáveis em Qualitativa, Quantitativa Discreta ou Contínua: O número de filhos de pacientes (p.e.: 0, 1, 2, 3); A droga aplicada em pacientes (p.e.: Droga A, B, C ou placebo) O teor de gordura medido em gramas por 24 horas nas fezes de crianças de 1 a 3 anos de idade (p.e.: 23,4 g). a) (1) Quantitativa Discreta, (2) Qualitativa e (3) Quantitativa Contínua. b) (1) Quantitativa Discreta, (2) Qualitativa, (3) Quantitativa Discreta. c) (1) Qualitativa, (2) Quantitativa Contínua e (3) Quantitativa Discreta. d) (1) Quantitativa Contínua, (2) Qualitativa e (3) Quantitativa Discreta. e) (1) Quantitativa Contínua, (2) Quantitativa Contínua e (3) Qualitativa. Questão 2 Desejando-se saber as horas de sono de alunos de uma determinada escola, perguntou-se a hora em que se deitam e a hora que acordam a 250 alunos de um total de 2600 alunos. Então, marcando-se [F] Falso ou [V] Verdadeiro nas sentenças abaixo, tem-se: [ ] 250 é a quantidade de elementos que foram coletados para a amostra; [ ] 2.600 é a quantidade de elementos do universo em estudo; [ ] as horas em que deitaram e acordaram são os parâmetros que levarão os pesquisadores a encontrar a variável tempo de sono dos alunos. a) V - V - V b) V - V - F c) V - F - F d) F - V - F e) F - F - V Questão 3 Um exemplo de Variável do tipo Discreta é: a) Condições sanitárias de uma comunidade BIOESTÁTICA APLICADA A AUDITORIA 20 b) Salário de uma pessoa em dólares c) Altura média das montanhas de uma cidade d) Porcentagem de acertos ao alvo, de um atirador e) Votos anulados em uma seção eleitoral Questão 4 Ao nascerem, os bebês são pesados e medidos para saber se estão dentro das tabelas-padrão. Essas duas variáveis (peso em quilos e altura em centímetros) são variáveis: a) Ambas qualitativas b) Ambas quantitativas discretas c) Ambas quantitativas contínuas d) Quantitativa Contínua e Discreta, respectivamente e) Quantitativa Discreta e Contínua, respectivamente Questão 5 Numa pesquisa de Estatística, como designamos o grupo de elementos da população/universo convenientemente escolhida para representá-la e de onde coletaremos os dados? a) Variável b) Rol c) Inferência d) Amostra e) Atributo Questão 6 Uma série estatística é denominada temporal quando: a) O local varia enquanto o tempo e o fenômeno são fixos. b) O tempo varia enquanto o local e o fenômeno são fixos. c) O fenômeno varia enquanto o local e o tempo são fixos. d) O tempo é apresentado em intervalos de classe. e) O fenômeno é apresentado em intervalos de classe. BIOESTÁTICA APLICADA A AUDITORIA 21 Questão 7 Como chamamos a série estatística em que, embora se apresentem fixas as três características época, local e fenômeno, o fenômeno é agrupado em classes mutuamente exclusivas? a) Temporal ou Histórica b) Específica ou Categórica c) Geográfica ou Territorial d) Distribuição de Frequência e) Mista ou Conjugada Questão 8 Foram apuradas as quantidades de pacientes atendidos em um dia em diversas especialidades de um hospital em mmm/aaaa que resultaram no seguinte: 364 pacientes foram atendidos no Pronto-Socorro, 286 na Pediatria, 127 na Psicologia. 86 na Neurologia e 176 na Ginecologia. Pela descrição, podemos construir uma série estatística: a) Temporal ou Histórica b) Específica ou Categórica c) De Dupla Entrada d) Distribuição de Frequência e) Mista ou Conjugada Questão 9 Com base na distribuição de frequência apresentada, podemos afirmar que, dos 30 pacientes observados, 11 apresentaram taxa de Colesterol acima de 250 mg/dl. Sobre a base dessa informação podemos afirmar que: a) É a soma das frequências absolutas simples das duas últimas classes. b) É a subtração das frequências relativas simples das 3ª e 4ª classes mais 1 do erro estimado. c) É a média aritmética ponderada das frequências absolutas simples. d) É a moda média ponderada das frequências absolutas simples. BIOESTÁTICA APLICADA A AUDITORIA 22 e) É a soma das frequências relativas simples das 2ª a 4ª classes menos 1 do erro estimado. Questão 10 Com base na distribuição de frequência, qual o percentual de pacientes que apresentaram mais de 250 ml/dl de colesterol? a) 20% b) 36,7% c) 11% d) 83,3% e) 6,7% Aula 1 Exercícios de fixação Questão 1 - A Justificativa: O número de filhos é do tipo Quantitativa Discreta, a droga aplicada é do tipo Qualitativa e o teor de gordura é do tipo Quantitativa Contínua. Questão 2 - A Justificativa: Todas as três sentenças são [V] verdadeiras. Questão 3 - E Justificativa: Votos anulados é a única variável que não pode ser fracionada ou apresentada em decimal de uma unidade e, por isso, trata-se de uma Variável do tipo Discreta. Questão 4 - C Justificativa: Por serem variáveis que podem ser fracionadas, ambas são do tipo Quantitativas Contínuas. BIOESTÁTICA APLICADA A AUDITORIA 23 Questão 5 - D Justificativa: Amostra é qualquer subconjunto do universo, fração ou uma parte do grupo que, de alguma forma, representa o universo. Questão 6 - B Justificativa: O tempo é o único elemento que varia numa série temporal. Questão 7 - D Justificativa: A distribuição de frequência é a única série estatística em que, embora se apresentem fixas as três características época, local e fenômeno, este último é agrupado em classes mutuamente exclusivas. Questão 8 - B Justificativa: A série estatística específica é a que se deve aplicar nesse caso apresentado. Questão 9 - A Justificativa: Basta somar as frequências absolutas simples das duas últimas classes para encontrar os 11 elementos que apresentaram taxa de colesterol acima de 250 ml/dl. Questão 10 - B Justificativa: Soma-se as Frequência Relativa (Fri) das duas últimas classes que equivalem aos pacientes que apresentaram colesterol acima de 250 ml/dl. BIOESTÁTICA APLICADA A AUDITORIA 24 Introdução A Bioestatística visa capacitar os profissionais da saúde sobre os conhecimentos estatísticos básicos, proporcionando-lhes os meios necessários para análise e compreensão de variáveis, relacionadas com a área de atuação dos mesmos, bem como aplicar os conhecimentos estatísticos no desenvolvimento de suas atividades profissionais. Objetivo: 1. Desenvolver a habilidade do manuseio de dados e medidas estatísticas utilizadas na saúde; 2. Introduzir o pensamento estatístico por meio da discussão de conceitos básicos e instrumentalização em ferramentas estatísticas; 3. Aprender as medidas separatrizes. BIOESTÁTICA APLICADA A AUDITORIA 25 Conteúdo Medidas de posição (tendência central) São medidas que visam localizar o centro de um conjunto de dados, isto é, identificar um valor em torno do qual os dados tendem a se agrupar. As medidas de posição ou de tendência central mais utilizadas são: média aritmética, mediana e moda. Vamos aprofundar em cada uma delas a seguir. Média aritmética A média aritmética é o ponto de equilíbrio dos dados, isto é, tendo um conjunto de n valores x1, x2, ..., xn de uma variável X, é o quociente entre a soma desses valores e o número deles. A média aritmética pode ser representada pela seguinte fórmula matemática: x = Σ xi / n => é a soma de todas as observações dividida pelo número de acordo com o material bruto. Exemplo: Nívelde colesterol de um conjunto de 10 pacientes clínicos (mg/1.000 ml): 233 291 312 250 246 197 268 224 239 239 Colesterol: 233+291+312+250+246+197+268+224+239+239 = 249,90 mg/1.000 ml médio 10 Numa amostra seriada os valores x1, x2, ..., xk ocorrem n1, n2, ..., nk vezes, respectivamente, a média aritmética será x = Σ ni.xi / n = Σ fi.xi Vamos acompanhar agora os dois dados agrupados da média aritmética: Sem intervalos de classe: BIOESTÁTICA APLICADA A AUDITORIA 26 Com intervalos de classe: Mediana (md) É o valor que ocupa a posição central dos dados ordenados; é o valor que deixa metade dos dados abaixo e metade acima dele, dispostos segundo uma ordem (crescente ou decrescente). Se o número de observações for par, a mediana será a média aritmética dos dois valores centrais. Exemplo 1: Dada uma série de valores como, por exemplo: { 5, 2, 6, 13, 9, 15, 10 } De acordo com a definição de mediana, o primeiro passo a ser dado é o da ordenação (crescente ou decrescente) dos valores: { 2, 5, 6, 9, 10, 13, 15 } BIOESTÁTICA APLICADA A AUDITORIA 27 O valor que divide a série acima em duas partes iguais é igual a 9, logo a Md = 9. Método prático para o cálculo da Mediana: Se a série dada tiver número ímpar de termos, o valor mediano será o termo de ordem dado pela fórmula: ( n + 1 ) / 2 Exemplo 2: Calcule a mediana da série { 1, 3, 0, 0, 2, 4, 1, 2, 5 } 1º - ordenar a série { 0, 0, 1, 1, 2, 2, 3, 4, 5 } n = 9 logo (n + 1)/2 é dado por (9+1) / 2 = 5, ou seja, o 5º elemento da série ordenada será a mediana A mediana será o 5º elemento = 2 Se a série dada tiver número par de termos, o valor mediano será o termo de ordem dado pela fórmula: [( n/2 ) +( n/2+ 1 )] / 2 Obs.: n/2 e (n/2 + 1) serão termos de ordem e devem ser substituídos pelo valor correspondente. Exemplo 3: Calcule a mediana da série { 1, 3, 0, 0, 2, 4, 1, 3, 5, 6 } 1º - ordenar a série { 0, 0, 1, 1, 2, 3, 3, 4, 5, 6 } n = 10 logo a fórmula ficará: [( 10/2 ) + (10/2 + 1)] / 2 [( 5 + 6)] / 2 será na realidade (5º termo+ 6º termo) / 2 5º termo = 2 6º termo = 3 A mediana será = (2+3) / 2 ou seja, Md = 2,5. A mediana no exemplo será a média aritmética do 5º e 6º termos da série. A mediana deverá ser utilizada quando: BIOESTÁTICA APLICADA A AUDITORIA 28 • Se deseja conhecer o ponto médio exato da distribuição; • Existem resultados extremos que afetariam grandemente a média. Importa salientar que a mediana não é influenciada pelos resultados extremos. Exemplo: na série 10, 13, 15, 16, 18, 19, 21, tanto a média como a mediana são 16; se substituirmos 21 por 50 e os restantes resultados permanecerem os mesmos, a mediana é 16 e a média será de 20,1; • A distribuição é truncada, isto é, incompleta nas extremidades ‐ exemplo: desejamos medir os tempos de reação em Psicologia e as várias respostas ultrapassam as capacidades de medida do aparelho; vemo‐nos, assim, impossibilitados de calcular a média, já que não dispomos de todos os valores da variável, sendo, no entanto, possível calcular o valor da mediana, já que conhecemos o número de medidas efetuadas. Moda (mo) A moda (ou valor modal) de uma série de n valores x1, x2, ..., xn de uma variável X é o valor onde a frequência atinge o máximo (relativo) ou o valor mais frequente na distribuição. Exemplo: O conjunto de tempo de serviço (em anos) de cinco funcionários: 3, 7, 8, 8 e 11. Qual a moda deste conjunto de dados. Mo = 8 => distribuição unimodal ou modal O conjunto de tempo de serviço (em anos) de seis funcionários: 3, 3, 7, 8, 8 e 11. Qual a moda deste conjunto de dados? Mo = 3 Mo = 8 Distribuição bimodal A moda é utilizada quando desejamos obter uma medida rápida e aproximada de posição ou quando a medida de posição é o valor mais típico da distribuição. Já a média aritmética é a medida de posição que possui a maior estabilidade. A moda deverá ser utilizada quando: BIOESTÁTICA APLICADA A AUDITORIA 29 • Uma medida rápida e aproximada da tendência central for suficiente; • Se deseja conhecer o valor mais típico de uma distribuição. Exemplos: descrever o estilo de vestido usado pela mulher média, salário preponderante em determinada empresa, etc. É de salientar que, apesar das vantagens apresentadas para a moda, esta tem a desvantagem de ser de determinação imprecisa, no caso das variáveis contínuas. Tendência central A medida de tendência central mais usada é a média aritmética, que apresenta em relação à mediana e à moda vantagens apreciáveis, tais como: Relação empírica entre a média, a mediana e a moda Existem diversos modos, todos obtidos empiricamente, de se calcular o coeficiente de assimetria (AS), para as distribuições unimodais e moderadamente assimétricas: 1º Coeficiente de Pearson 1º Coeficiente de Pearson: AS = (média - moda) desvio-padrão Quando: • AS = 0 temos que a distribuição é simétrica; • AS > 0 temos que a distribuição é assimétrica positiva; BIOESTÁTICA APLICADA A AUDITORIA 30 • AS < 0 temos que a distribuição é assimétrica negativa 2º Coeficiente de Pearson 2º Coeficiente de Pearson: AS = 3 (Média ‐ Mediana) desvio-padrão Assim, quando: • AS = 0 temos que a distribuição é simétrica; • AS > 0 temos que a distribuição é assimétrica positiva; • AS < 0 temos que a distribuição é assimétrica negativa. Vejamos a relação existente entre essas três medidas no caso das figuras, conforme abaixo: Curva assimétrica à direita (positivamente) Características: Média > Moda Média > Mediana => Média > Mediana > Moda Mediana > Moda Curva assimétrica à esquerda (negativamente) Características: Moda > Mediana Moda > Média => Moda > Mediana > Média Mediana > Média Medidas de dispersão Vamos acompanhar agora as ferramentas estatísticas. Uma medida de tendência central não nos dá, por si só, uma informação exaustiva da distribuição considerada; pelo contrário, a capacidade que se lhe atribui de representar os elementos de uma distribuição depende do modo como estes se concentram ou dispersam em torno dela. BIOESTÁTICA APLICADA A AUDITORIA 31 Assim, podemos dizer que os parâmetros de tendência central não são suficientes para caracterizar uma série estatística, apesar de a mediana e os quantis darem já uma ideia sumária do modo como estão distribuídas as observações. Assim, para melhor caracterizarmos uma distribuição, temos de considerar, além das medidas de tendência central, uma outra medida que exprima o grau de dispersão ou variabilidade dos dados. Amplitude total A amplitude total é a diferença entre o maior e o menor valor, isto é, a amplitude total de uma variável estatística é a diferença entre o valor máximo e o valor mínimo dos valores observados. É a forma mais simples de avaliar a dispersão dos dados, de tal modo que quanto maior for a amplitude total maior é a dispersão dos dados. A amplitude total pode ser também denominada de intervalo total ou campo de variação; representa‐se, habitualmente, por A e apenas usa valores extremos. Numa amostra seriada: A = Valor maior – Valor menor Exemplo: Nível de colesterol de um conjunto de 10 pacientes clínicos (mg/1.000 ml): 233 291 312 250 246 197 268 224 239 239 Amplitude = 312 – 197 = 115 mg/1.000 ml Variância Outra maneira de eliminarmos os sinais dos desvios consiste em elevá-los ao quadrado. Por isso, em vez da média dos valores absolutos dos desvios considera-se a média dos quadrados dos desvios. Obtém-se, assim, uma outra medida de dispersão bastante usada - a variância. BIOESTÁTICA APLICADA A AUDITORIA 32 Dados n valores x1, x2, ..., xn de uma variável X, chama-se variância e representa-se, habitualmente, por S2, é a média dos quadrados dos desvios dos valores a contar da média,isto é: S2 = Σ (xi - x)2 / (n - 1) É o desvio padrão elevado ao quadrado. A variância é uma medida que tem pouca utilidade como estatística descritiva, porém é extremamente importante na inferência estatística e em combinações de amostras. Exemplo: Nível de colesterol de um conjunto de 10 pacientes clínicos (mg/1.000 ml): 233 291 312 250 246 197 268 224 239 239 Interpretação: Para eliminarmos o quadrado da unidade de medida, extraímos a raiz quadrada do resultado da variância, que dá origem à 3ª medida de dispersão, chamada de Desvio-padrão. Desvio-padrão (S) = √ S2 = √ 1.097,88 mg2 /1.000 ml2 = 33,13 mg/1.000 ml Fórmula do desvio-padrão: Coeficiente de variação Coeficiente de Variação (CV) - coeficiente de variação de Pearson: Trata-se de uma média relativa à dispersão. É útil para a comparação e observação em termos relativos do grau de concentração em torno da média de séries de dados distintos. BIOESTÁTICA APLICADA A AUDITORIA 33 Coeficiente = desvio-padrão x 100% = 33,13 mg / 1.000ml x 100% = 13,26% de variação média 249,90 mg / 1.000 ml Características do CV: • Medida relativa da dispersão; • Útil para comparar a variabilidade de dados expressos em unidades distintas; • Útil para comparar a variabilidade de dados que são expressos nas mesmas unidades, mas que apresentam valores distintos. Medidas separatrizes São números que dividem uma sequência ordenada de dados em partes que contêm a mesma quantidade de elementos da série. Desta forma, a mediana que divide a sequência ordenada em dois grupos, cada um deles contendo 50% dos valores da sequência, é também uma medida separatriz. Além da mediana, as outras medidas separatrizes são: quartis, quintis, decis e percentis. Quartis Os quartis dividem a série ordenada em 4 partes iguais, contendo cada uma delas 1/4 ou 25% das observações (elementos). Os elementos que separam esses grupos são chamados de quartis. Q1 = 1º quartil (corresponde ao quantil de ordem p=1/4) Q2 = 2º quartil (corresponde ao quantil de ordem p=1/2) Q3 = 3º quartil (corresponde ao quantil de ordem p=3/4) BIOESTÁTICA APLICADA A AUDITORIA 34 O 1º quartil (Q1) separa a sequência ordenada deixando 25% de seus valores à esquerda e 75% de seus valores à direita. O 2º quartil (Q2) separa a sequência ordenada deixando 50% de seus valores à esquerda e 50% de seus valores à direita. O 3º quartil (Q3) obedece à mesma regra dos anteriores. Amplitude Interquartis Os quartis fornecem indicação quanto à forma como as observações se distribuem em torno da mediana. Como o 1º e o 3º quartis representam valores abaixo dos quais estão, grosso modo, respectivamente, 25% e 75% das observações, entre eles existirão, assim, 50% das observações centrais. Consequentemente, quanto mais aproximados estiverem esses quartis, maior será a concentração das observações em torno da mediana. A amplitude interquartis (intervalo interquartil) é definida como a diferença entre o Quartil 3 e o Quartil 1 (Q1 - Q3). Cálculo dos quartis As notas dos testes de 15 funcionários matriculados em um curso de treinamento são listadas a seguir. Encontre o primeiro, o segundo e o terceiro quartis das notas dos testes. 13 9 18 15 14 21 7 10 11 20 5 18 37 16 17 Em primeiro lugar é necessário ordenar os dados em ordem crescente: Q1 Q2 Q3 BIOESTÁTICA APLICADA A AUDITORIA 35 Determinar a posição dos quartis: Decis Os decis dividem a série ordenada em 10 partes iguais, contendo cada uma delas 1/10 ou 10% das observações (elementos). Os elementos que separam esses grupos são chamados de decis. D1=1º decil (corresponde ao quantil de ordem p=1/10) D2=2º decil (corresponde ao quantil de ordem p=2/10) O 1º decil (D1) separa a sequência ordenada deixando 10% de seus valores à esquerda e 90% de seus valores à direita. De modo análogo são definidos os outros decis. Centis Os centis dividem a série ordenada em 100 partes iguais, contendo cada uma delas 1/100 ou 1% das observações. C1=1º centil (corresponde ao quantil de ordem p=1/100) C2=2º centil (corresponde ao quantil de ordem p=2/100) Atividade proposta Discuta com os colegas quais as ações que devem ser tomadas para que as organizações sejam homologadas com grau 5 no CMMI. Chave de resposta: O CMMI procura estabelecer um modelo único para o processo de melhoria corporativo, integrando diferentes modelos e disciplina. Referências CRESWELL, John W. Projeto de pesquisa: métodos qualitativo, quantitativo e misto. Porto Alegre: Artmed, 2010. BIOESTÁTICA APLICADA A AUDITORIA 36 FIELD, Andy. Descobrindo a estatística usando o SPSS. 2. ed. Porto Alegre: Artmed, 2009. BISQUERRA, Rafael; SARRIERA, Jorge Castellá; MATÍNEZ, Francesc - Introdução à Estatística - Enfoque Informático com Pacote Estatítico SPSS - Editora Artmed, Maio 2004. NETO, Silvany, Bioestatística sem segredos, AM. 1a Ed. Bahia, 2008. Exercícios de fixação Questão 1 Média, mediana e moda são medidas estatísticas de: a) Dispersão b) Assimetria c) Separatriz d) Posição e) Curtose Questão 2 Na série 10, 20, 40, 50, 70, 80 a mediana será: a) 30 b) 35 c) 40,5 d) 40 e) 45 Questão 3 50% dos dados de um distribuição situam-se: a) Abaixo da média. b) Acima da mediana. c) Abaixo da moda. d) Acima da média. BIOESTÁTICA APLICADA A AUDITORIA 37 e) Acima da moda. Questão 4 Assinale a resposta CORRETA. a) Uma distribuição de dados simétrica apresenta a média, a moda e a mediana iguais. b) Se o histograma de uma variável apresenta uma cauda mais alongada à esquerda do que à direita, então essa variável possui assimetria positiva. c) Numa distribuição assimétrica à esquerda, o valor da moda é menor que o valor da mediana e menor que o valor da média. d) Numa distribuição assimétrica à direita, o valor da moda é maior que o valor da mediana e menor que o valor da média. e) O intervalo interquartil não é uma medida de dispersão dos dados observados. Questão 5 Sejam duas distribuições de probabilidade fortemente assimétricas: A e B. A distribuição A apresenta moda > mediana > média. A distribuição B apresenta média > mediana > moda. Com essas afirmações pode-se, corretamente, afirmar que: a) A distribuição A é negativamente assimétrica. b) A distribuição B é negativamente assimétrica. c) A distribuição A é assimétrica à esquerda. d) As distribuições A e B são positivamente assimétricas. e) Os valores das medidas de tendência central da distribuição A são maiores do que os de B. Questão 6 A tabela a seguir mostra a média e desvio-padrão das notas dos alunos em um exame nacional em cinco Estados diferentes: Média Desvio-padrão BIOESTÁTICA APLICADA A AUDITORIA 38 Estado I 500 100 Estado II 600 120 Estado III 500 140 Estado IV 450 120 Estado V 600 100 Assinale a opção que indica o Estado que apresentou o menor coeficiente de variação das notas. a) I b) II c) III d) IV e) V Questão 7 Com base na tabela acima, pode-se afirmar que a(s): I - menor dispersão das notas ocorre no grupo dos alunos concluintes; II - amplitude total das notas é menor no grupo dos concluintes; III - variância das notas é menor no grupo de ingressantes; IV - medidas de posição na distribuição de notas são menores no grupo dos ingressantes. São verdadeiras APENAS as afirmações: a) I e III b) I e IV c) II e III BIOESTÁTICA APLICADA A AUDITORIA 39 d) II e IV e) III e IV Questão 8 Numa pesquisa na área de saúde foram avaliados os níveis de colesterol (mg/dg), glicemia (mg/dl), triglicérides (mg/dl) e hemoglobina (g/dl) de um grupo de adultos numa determinada comunidade. Os resultados são apresentados na tabela: Com basenos resultados da tabela acima, a variável que apresentou a maior variação foi? a) Colesterol (LDL) b) Glicemia c) Triglicérides d) Hemoglobina e) Colesterol (HDL) Questão 9 Para melhor caracterizarmos uma distribuição, temos de considerar, além das medidas de tendência central, calcular uma medida que expresse o grau de dispersão ou variabilidade dos dados. Neste caso, a estatística mais apropriada é: a) Variância b) Amplitude total c) Coeficiente de variação d) Desvio-padrão e) Amplitude relativa BIOESTÁTICA APLICADA A AUDITORIA 40 Questão 10 Um casal tem 4 filhos com idades de 1, 6, 8 e 15 anos, respectivamente. O desvio-padrão das idades dos filhos é de, aproximadamente: a) 30 b) 15 c) 14 d) 7,5 e) 7 Questão 11 A fim de incentivar os funcionários a participarem de um programa de emagrecimento, fez-se um levantamento dos pesos dos 150 funcionários de determinado departamento. Os resultados estão na tabela a seguir: Peso (kg) Percentagem 60 |– 70 8 70 |– 80 18 80 |– 90 30 90 |– 100 22 100 |– 110 16 110 |– 120 6 O 20º percentil dessa distribuição é, aproximadamente, igual a: a) 78,7 b) 76,7 c) 74,7 d) 72,7 e) 70,7 Questão 12 A amplitude interquartil será determinada pela? BIOESTÁTICA APLICADA A AUDITORIA 41 a) Diferença entre o Quartil 4 e o Quartil 1 (Q1‐43). b) Diferença entre o Quartil 3 e o Quartil 1 (Q1‐Q3). c) Diferença entre o Quartil 4 e o Quartil 2 (Q2‐Q4). d) Diferença entre o Quartil 3 e o Quartil 2 (Q2‐Q3). e) Diferença entre o Quartil 4 e o Quartil 3 (Q3‐Q4). Questão 13 As medidas separatrizes são números que dividem uma sequência ordenada de dados em partes que contêm a mesma quantidade de elementos da série, em relação à (ao): a) Média b) Moda c) Mediana d) Desvio-padrão e) Variância Questão 14 Os Quartis dividem os dados em: a) Cem partes iguais. b) Dez partes iguais. c) Cinco partes iguais. d) Quatro partes iguais. e) Duas partes iguais. Questão 15 Considere o conjunto de valores que representa as idades de um grupo de crianças de uma comunidade. Determine a idade que corresponde a 25% das crianças (Q1). a) Q1=3 b) Q1=5 c) Q1=4 d) Q1=6 BIOESTÁTICA APLICADA A AUDITORIA 42 e) Q1=8 Aula 2 Exercícios de fixação Questão 1 - D Justificativa: São medidas que visam localizar o centro de um conjunto de dados, isto é, identificar um valor em torno do qual os dados tendem a se agrupar. Questão 2 - E Justificativa: Como a série tem um número par de termos, a mediana: (40+50) / 2 = 45. Questão 3 - B Justificativa: A média é o valor que deixa metade dos dados abaixo e metade acima dele. Questão 4 - A Justificativa: Quando a distribuição de dados for simétrica, as três medidas de posição (média, moda e mediana) apresentam o mesmo valor. Questão 5 - B Justificativa: Quando a distribuição dos dados a Moda; Mediana; Média, ela é assimétrica à esquerda ou negativamente assimétrica. Questão 6 - E Justificativa: Aplicando-se a fórmula do coeficiente de variação: (desvio-padrão / média) x 100%. Neste caso, o coeficiente de variação do Estado V será (100 / 600) x 100% = 16,7%. BIOESTÁTICA APLICADA A AUDITORIA 43 Questão 7 - E Justificativa: A afirmativa I está incorreta porque a menor dispersão, medida pelo desvio-padrão, é de ingressantes. A afirmativa II está incorreta porque a amplitude total, medida pelo erro padrão da média, é menor na coluna total. Questão 8 - D Justificativa: Quando se compara a variabilidade de dados expressos em unidades distintas, utiliza-se o coeficiente de variação. Questão 9 - D Justificativa: Porque expressa a variabilidade média dos dados em relação à sua média. Questão 10 - C Justificativa: Calculando-se a amplitude total, que é a diferença entre o maior e o menor valor, chegamos a: 15 – 1 = 14. Questão 11 - B Justificativa: A classe que conterá o 20º percentil (20%) da distribuição será a 2ª classe (70 |– 80), pois até a 1ª classe temos apenas 8% da distribuição. Para encontrar o valor do P20, é através de interpolação, fazendo uma simples proporção: 18 = 12 => X = 6,7 10 X A frequência na classe (18) está para a amplitude de classe (10) assim como a frequência procurada (12), é o que falta para chegar a 20, considerando a frequência acumulada da classe anterior) está para uma amplitude x (que desejamos descobrir). Para encontrar o valor do P20, basta acrescentar o valor encontrado (x = 6,7) ao limite inferior da classe do P20, que é igual a 70. Portanto: P20 = 70 + 6,7 = 76,7 Questão 12 - B BIOESTÁTICA APLICADA A AUDITORIA 44 Justificativa: A amplitude interquartil é definida pela diferença entre Quartil 3 e o Quartil 1 (Q1‐Q3). Questão 13 - B Justificativa: Como as medidas separatrizes dividem os dados em partes iguais, neste caso elas mantêm relação com a mediana. Questão 14 - D Justificativa: Os quartis dividem a série ordenada em 4 partes iguais, contendo cada uma delas 1/4 ou 25% das observações (elementos). Questão 15 - C Justificativa: Primeiro, ordenamos os dados {2, 3, 3, 4, 4, 5, 5, 6, 6, 8, 9, 9, 10, 11}. Aplicando-se a fórmula, Q1 = 1 / 4 x ( n+1) = 0,25 x (14+1) = 3,75. BIOESTÁTICA APLICADA A AUDITORIA 45 Introdução O objetivo de uma pesquisa é, sempre, fazer afirmações sobre as características de uma população, ou saber o efeito geral de algum fator sobre a referida característica, de forma a poder tomar uma decisão válida a toda a população. Pelo exposto, seria sempre necessário fazer um censo (pesquisa em todos os elementos), o que é difícil de fazer por muitos fatores. A inferência estatística fornece mecanismos que permitem, a partir de uma amostra aleatória, obter conclusões válidas para a população. Como um fundamental instrumento de mensuração de dados, a estatística gera informações para as tomadas de decisões e, então, é o que a estatística trata como inferência. É habitual a utilização da estatística como suporte para a tomada de decisão, tendo como base as ferramentas de inferência que veremos nesta aula. Objetivo: 1. Conhecer a Probabilidade e a Distribuição de Probabilidade Normal; 2. Entender as ferramentas de Inferência, tais como, Intervalo de Confiança e Teste de Hipóteses. BIOESTÁTICA APLICADA A AUDITORIA 46 Conteúdo Descobrindo a distribuição de probabilidade normal Probabilidade vem da palavra em latim "probare" que significa testar, provar, então, trata-se de uma palavra utilizada em circunstâncias nas quais não temos a certeza de que algo irá ocorrer e são associadas chances a cada ocorrência possível. A probabilidade está em nosso dia a dia quando pensamos: "Será que amanhã vai chover?" "É provável que esse avião chegue atrasado." "É pequena a chance deste time ganhar este jogo!” Ao pensarmos dessas formas, associamos a existência de que existe uma chance de ocorrer um determinado evento (favorável ou não). As probabilidades são úteis quando uma variável é observada em um experimento aleatório. O comportamento de uma variável chamada de aleatória pode ser representado através da distribuição de probabilidades. Isto significa que seria necessário achar a referida distribuição para cada problema/variável em estudo. Porém, algumas situações padrões podem ser identificadas, gerando os chamados modelos probabilísticos. A Distribuição Normal ou curva Normal, também chamada de Distribuição de Gauss ou Gaussiana e, até mesmo, conhecida como "Curva em forma de Sino" ou de "Montanha" é a mais usada devido às propriedades matemáticas que a tornam a basede grande parte da teoria da inferência. BIOESTÁTICA APLICADA A AUDITORIA 47 A Distribuição Normal é muito usada quando a variável em estudo apresenta valores concentrados em torno de um valor, como mostrado a seguir. A Distribuição Normal é meramente definida por dois parâmetros, a Média (u = letra grega chamada de Mi) e o Desvio Padrão (o = letra grega chamada de Sigma). Como vimos na aula anterior, a Média (u) define a posição em torno da qual se encontram os demais valores e o Desvio Padrão (o) expressa a dispersão dos valores em torno da Média (u). Distribuição Normal É um modelo teórico e tem forma de Sino ou Montanha; É simétrica em relação à Média (µ), que também é a de máxima frequência (Moda); Dada a simetria, 50% dos valores são inferiores à Média (µ) e os outros 50% são superiores. Então, a área sob a curva é igual a 1 = 100% de probabilidade; É unimodal e, no seu pico, coincidem a Moda, a Média (µ) e a Mediana; Fica completamente especificada pela Média (µ) e Desvio Padrão (σ) da variável e, assim, há uma curva Normal para cada combinação de Média (µ) e Desvio Padrão (σ). A função matemática que define essa curva é: BIOESTÁTICA APLICADA A AUDITORIA 48 O que, para o cálculo de qualquer probabilidade, num determinado intervalo, teríamos que recorrer à integral da função. Distribuição Normal Padronizada É a Distribuição Normal transformada para uma distribuição com Média = 0 (zero) e Variância = 1, representada por N(0,1). A transformação se dá pela fórmula abaixo e as probabilidades acumuladas para essa distribuição encontram-se em tabela, como a apresentada no final desta aula. Nota-se que a tabela de Z apresenta a área a partir do número de desvios padrão, os quais são encontrados, assim: Z = A, BC onde A é o inteiro lido na 1ª coluna, B é o decimal lido também na 1ª coluna e C é a centésima lida na 1ª linha da tabela. Então, por exemplo, quando achamos Z = 1,25, percorre-se a 1ª coluna até 1,2 (A,B_) e encontre o valor da interseção com a coluna 5 (_,_C) e veja que a probabilidade acumulada entre 0 (zero) e 1,25 desvios padrão é igual a 0,39435 = 39,44%. Assista ao vídeo sobre distribuição da probabilidade e conheça mais sobre: • Propriedades da distribuição normal; • Tipos de tabela; • Exemplos de uso de tabela. O vídeo mostra como usar a tabela da distribuição normal para calcular probabilidades. É possível (e recomendado) a conversão (ou redução) de qualquer Distribuição Normal para uma Normal Padrão e este procedimento é comumente chamado de padronização, passando a ser uma forma muito mais simples de encontrar o BIOESTÁTICA APLICADA A AUDITORIA 49 resultado da probabilidade de um determinado intervalo pela padronização e consulta da tabela da probabilidade acumulada. Como exemplo, suponha que a quantidade de colesterol em 100ml de plasma sanguíneo humano tem Distribuição Normal com Média = 200mg e Desvio Padrão = 20mg. Pergunta-se, qual a probabilidade de uma pessoa apresentar entre 200mg e 225mg de colesterol por 100ml de plasma? Vejamos, X ~ N (200mg;20mg) ... Z ~ (0;1) Tabela normal padronizada Então, ao consultarmos a tabela da Normal Padronizada, encontramos que a probabilidade é igual a 0,3944, que se escreve, P ( 0; Z; 1,25 ) = 0,3944 = 39,44%. Sobre as mesmas condições da quantidade de colesterol em 100ml de plasma sanguíneo humano, tem Distribuição Normal com Média = 200mg e Desvio Padrão = 20mg, uma outra pergunta: qual a probabilidade de uma pessoa apresentar menos do que 180mg de colesterol por 100ml de plasma? Vejamos: Como o resultado é negativo, está se querendo uma probabilidade antes da média = 200mg. Então, como na tabela a probabilidade em Z = 1,00 é igual a 0,3413, temos que subtrair da área antes da média (0,50 = 50%) a probabilidade encontrada de 0,3413 = 34,13%. Então, escreve-se P ( X < 180mg ) = P ( Z < - 1,00 ) = 0,50 - P ( 0; Z; -1 ) = 0,50 – 0,3413 = 0,1587 = 15,87%. BIOESTÁTICA APLICADA A AUDITORIA 50 Intervalos de confiança e erro padrão da média Médias, Moda e Medianas são estimativas pontuais, pois são valores únicos e absolutos e, até então, características que nos davam a posição dos valores de um grupo em estudo. BIOESTÁTICA APLICADA A AUDITORIA 51 Existem também as estimativas por intervalos, que são expressas por limites (inferior e superior) entre os quais se acredita estar o verdadeiro valor do parâmetro em estudo. Por exemplo, num estudo em pacientes hipertensos, pode-se dizer que a pressão arterial (PA) Média é 87,5, variando de 85,7 a 89,3 (intervalo de confiança = [ 85,7 ; 89,3 ]). Uma das utilidades dos intervalos é dar a ideia da dispersão ou variabilidade (visto na aula anterior) das estimativas expressas pelo tamanho desse intervalo. Um intervalo muito grande indica que a estimativa calculada não é tão acurada quanto outra com intervalo menor, ou seja, quanto maior a amplitude do intervalo, menor a confiabilidade da estimativa. Existem vários métodos para expressar intervalos, sendo exemplos o valor máximo e o valor mínimo e os intervalos de percentis (visto na aula anterior), como o intervalo 25% - 75%. O mais conhecido e o mais correto tecnicamente é o “Intervalo de Confiança” que permite incorporar uma probabilidade de erro. Esta probabilidade de erro é inferida a partir de um conhecimento do modelo de Distribuição de Frequências do fenômeno estudado. O modelo que mais habitualmente se ajusta à ocorrência de fenômenos biológicos é o de distribuição normal (que vimos logo no início dessa aula), cujo intervalo de confiança envolve para sua construção o conhecimento da variância de onde chegaremos ao desvio padrão. Os intervalos podem ser construídos com diferentes coeficientes de confiança, sendo em geral mais utilizados os coeficientes de 95% ou 99% (matematicamente, não é possível aplicar 100% de confiança). BIOESTÁTICA APLICADA A AUDITORIA 52 De maneira simples, podemos expressar o Intervalo de Confiança (IC) como IC = estimativa pontual (Média) ± valor crítico da distribuição * desvio padrão da estimativa. Quando se constrói um intervalo de confiança para se descrever a variabilidade de uma medida, o desvio padrão utilizado é o da medida em questão, mas quando se constrói um intervalo de confiança para valores possíveis de uma estimativa pontual, por exemplo, uma média, o desvio padrão utilizado é uma estimativa do desvio padrão para uma suposta série de médias como se as médias formassem um grupo em estudo. Desvio padrão Este é um caso especial de desvio padrão que recebe o nome de erro padrão da média. Veja agora um pequeno resumo de algumas importantes considerações: O comprimento do intervalo de confiança está associado à precisão, quanto menor for o comprimento mais precisa é a média; Se diminuirmos a, isto é, aumentarmos 1−a (grau de confiança), mantendo fixo n (tamanho da amostra), vai aumentar e consequentemente, também, o comprimento do intervalo. Não é possível fazer a = 0. Quando aumentamos n, mantendo a fixo, diminui-se o comprimento do intervalo. Graficamente, podemos ilustrar: Então, tal como ilustrado e expresso em nosso texto, a fórmula que define o Intervalo de Confiança é: BIOESTÁTICA APLICADA A AUDITORIA 53 Assim, o Intervalo de Confiança para a média, neste caso, é entre 83,14 e 86,86. Exemplos de desvio padrão De experiências passadas, sabe-se que o Desvio Padrão da altura de crianças da 5ª série é 5cm. Colhendo uma amostra de 36 dessas crianças, observou-se a média de 150 cm. Calcule um intervalo de 95% de confiança para a altura média dessas crianças. Calculando, tem-se: n = 36; Média = 150cm; Desvio Padrão = 5cm e Confiança de95%. BIOESTÁTICA APLICADA A AUDITORIA 54 Com Confiança de 95%, divide-se pelos dois lados da curva e, então, busca-se 0,475 na tabela Normal e encontra-se Z = 1,96. Assim, com coeficiente de confiança de 95%, o Intervalo de Confiança para a altura das crianças da 5ª série é entre 148,37cm e 151,63cm. E se, com base nesse mesmo caso, trabalhássemos com uma confiança de 90%? O que se espera para o intervalo de confiança, mais, ou menos amplo? Menos amplo, porque reduzindo-se a probabilidade de confiança, pode-se ter um intervalo menor. Vejamos: Com Confiança de 90%, divide-se pelos dois lados da curva e, então, busca-se 0,45 na tabela Normal e encontra-se Z = 1,64, calculemos: Assim, com coeficiente de confiança de 90%, o Intervalo de Confiança para a altura das crianças da 5ª série é entre 148,63cm e 151,37cm. Teste de hipóteses Muitas análises estatísticas envolvem comparações entre tratamentos ou procedimentos, ou entre grupos de indivíduos. Pode-se definir como hipóteses questões levantadas relacionadas ao problema em estudo e que, se respondidas, podem ajudar a solucioná-lo. O principal objetivo da hipótese na pesquisa científica é sugerir explicações para os fatos. BIOESTÁTICA APLICADA A AUDITORIA 55 Uma vez formuladas as hipóteses, estas devem ser comprovadas (ou não) através do estudo com a ajuda de testes estatísticos. Num teste de hipóteses estatístico, são formuladas duas hipóteses chamadas hipótese nula (H0) e hipótese alternativa (H1). Hipótese nula (H0) é a que colocamos à prova, enquanto que a hipótese alternativa (H1) é a que poderá ser aceita caso a hipótese nula (H0) seja rejeitada. Ou seja, todo o procedimento de teste de hipótese está baseado na suposição de que a hipótese nula (H0) é verdadeira. Se isto é verdade, então, espera-se que os dados confirmem a referida hipótese. Caso contrário, o critério de decisão previamente definido levará à rejeição da hipótese nula (H0), o que implicará na aceitação da hipótese alternativa (H1). Nos casos mais simples da área biomédica, a hipótese nula (H0) pode estar associada a uma igualdade entre médias ou proporções que podem indicar a não associação (independência) entre fatores de interesse. Imagine, por exemplo, um estudo sobre fatores de risco para doenças cardiovasculares, uma hipótese nula (H0) poderia ser “a proporção de doentes cardiovasculares entre hipertensos é igual à proporção entre não hipertensos“ ou, de uma outra forma, “a chance da doença cardiovascular é a mesma para hipertensos e não hipertensos”. Esta análise poderia nos levar a dizer que “não existe associação entre hipertensão e doença cardiovascular”. Outro exemplo, desta vez considerando igualdade de médias, pode ser descrito por um estudo sobre tempo de recuperação de pacientes transplantados. Supondo que desejamos comparar três procedimentos cirúrgicos diferentes, uma possível hipótese seria “o tempo médio de recuperação é o mesmo nos BIOESTÁTICA APLICADA A AUDITORIA 56 três procedimentos cirúrgicos”, ou seja, “o tipo de procedimento cirúrgico não influencia no tempo de recuperação do paciente”. Todo o teste de hipótese possui erros associados a ele. Um dos mais importantes é chamado “erro do tipo I” que corresponde à rejeição da hipótese nula quando esta for verdadeira. No exemplo da doença cardiovascular, a probabilidade do erro do tipo I seria a probabilidade de se concluir que há associação quando, na verdade, não há, ou seja, afirmar uma associação que não existe (que é devida ao acaso). No exemplo do tempo de recuperação, o erro do tipo I corresponderia a dizer que o tipo de procedimento cirúrgico influencia no tempo de recuperação quando, na realidade, o tempo médio é o mesmo nos três procedimentos. A probabilidade do erro do tipo I chama-se nível de significância e é expressa através da letra grega . Os níveis de significância usualmente adotados são 5%, 1% e 0,1%. Numa tabela, podemos resumir o que foi dito: Hipótese colocada à prova ( ) Verdadeira Falsa ACEITAR CONCLUSÃO CORRETA Erro Tipo II REJEITAR Erro Tipo I ( ) CONCLUSÃO CORRETA Também podemos ilustrar graficamente os tipos de erro: BIOESTÁTICA APLICADA A AUDITORIA 57 Se o parâmetro de interesse for representado como θ e o efeito como θ0, então, é possível definir uma entre as três opções de hipóteses: 1ª opção: H0: θ = θ0 contra H1: θ ≠ θ0 2ª opção: H0: θ ≥ θ0 contra H1: θ < θ0 3ª opção: H0: θ ≤ θ0 contra H1: θ > θ0 Na 1ª opção, a hipótese alternativa é bilateral, pois caso a hipótese nula seja rejeitada, a hipótese alternativa leva a valores maiores ou menores a θ0. Nos outros dois casos, existe só uma alternativa, o verdadeiro valor do parâmetro é menor a θ0, hipótese alternativa unilateral esquerda, ou maior a θ0, hipótese alternativa unilateral direita. A definição das hipóteses nula e alternativa demanda cuidado especial devido às consequências da decisão final e é recomendável que esta definição seja feita previamente à coleta dos dados. Uma vez definidas as hipóteses, é necessário um critério para decidir qual das duas é a verdadeira. Este critério deve usar a informação amostral. Nas ciências biomédicas, é costume usar o valor p como um critério de decisão, podendo ser calculado para qualquer teste. De forma alternativa ao valor p, pode ser definido um procedimento baseado na existência de dois tipos de erros (I e II, conforme vimos no início desse tópico). BIOESTÁTICA APLICADA A AUDITORIA 58 Nível descritivo ou probabilidade de significância (p-value) Em trabalhos científicos, é recorrente o uso do nível descritivo (p-value), que é o que está associado ao que chamamos de Testes de Hipóteses. Então, formalmente, o nível descritivo é definido como o “menor nível de significância (a) que pode ser assumido para se rejeitar H0. De maneira muito generalizada, os pesquisadores ao rejeitarem a hipótese nula costumam dizer que existe “significância estatística” ou que o resultado é “estatisticamente significante”. Poderíamos definir o nível descritivo (p) como a “probabilidade mínima de erro ao concluir que existe significância estatística”. É importante ressaltar que o nível de significância (a) é um valor arbitrado previamente pelo pesquisador, enquanto que o nível descritivo (p) é calculado de acordo com os dados obtidos. Fixado a e calculado o “p”, a pergunta é: “será que posso dizer com segurança que o resultado é estatisticamente significante?”. Para responder a esta questão, é necessário avaliar se a probabilidade de erro é “aceitável” ou não, isto é, se o “valor do p” é pequeno o suficiente para concluir que existe “significância estatística” dentro de uma margem de erro tolerável. Mas saber “o que é pequeno ou grande” depende do nível de significância adotado, portanto, a decisão do pesquisador sempre estará baseada na comparação entre os dois valores. Se o valor do p for menor que o nível de significância (α), deve-se concluir que o resultado é significante, pois o erro está dentro do limite fixado. BIOESTÁTICA APLICADA A AUDITORIA 59 Fixado a e calculado o “p”, a pergunta é: “será que posso dizer com segurança que o resultado é estatisticamente significante?”. Por outro lado, se o valor de p for superior à a significa que o menor erro que podemos estar cometendo ainda é maior do que o erro máximo permitido, o que nos levaria a concluir que o resultado é não significante, pois o risco de uma conclusão errada seria acima do que se deseja assumir. A grande vantagem de se utilizar o nível descritivo é a possibilidade de “quantificar” a significância, ou seja, no lugar de uma resposta do tipo “sim ou não”, temos a informação de “quanto”. Material
Compartilhar