Baixe o app para aproveitar ainda mais
Prévia do material em texto
Apostila Bioestatística - MTM 364 Clandio Marques e Rodrigo Fioravanti Conteúdo I Princípios 4 1 Introdução 5 1.1 O Método Científico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.2 Definição de Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3 Fases do Método Estatístico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.3.1 Coleta dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.3.2 Crítica dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.3.3 Apuração dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.3.4 Exposição ou Apresentação dos Dados . . . . . . . . . . . . . . . . . . . . . 10 1.3.5 Análise dos Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.4 Leitura Complementar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 II Estatística Descritiva 12 2 Conceitos Básicos 13 2.1 População e Amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2 Variáveis Estatísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.3 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3 Tabelas e Distribuições de Frequência 16 3.1 Dados Absolutos e Dados Relativos . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.2 Distribuição de Frequências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.3 Exercícios no Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.4 Gráficos de Colunas e Histogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.5 Gráfico de Pizza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.6 Box Plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.7 A Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.8 Distribuição de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4 Medidas de Posição 30 4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.2 Média Aritmética (x) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.3 Moda (M o ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.4 Mediana (M d ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 4.5 Exercícios no Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 5 Separatrizes 37 5.1 Quartis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 5.2 Decis e Percentis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 5.3 Exercícios no Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 1 CONTEÚDO CONTEÚDO 6 Medidas de Dispersão 39 6.1 Dispersão ou Variabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 6.2 Amplitude Total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 6.3 Variância e Desvio Padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 6.4 Exercícios no Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 6.5 Coeficiente de Variação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 6.6 Exercícios no Excel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 7 Assimetria e Curtose 44 7.1 Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 7.2 Trabalho 02 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 III Teoria da Amostragem com Bioestat 47 8 Amostragem 48 8.1 Amostragem vs Censo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 8.2 Amostragem Probabilística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 8.2.1 Amostragem Aleatória Simples . . . . . . . . . . . . . . . . . . . . . . . . . . 50 8.2.2 Amostragem Aleatória Estratificada . . . . . . . . . . . . . . . . . . . . . . . 51 8.2.3 Amostragem Aleatória Sistemática . . . . . . . . . . . . . . . . . . . . . . . . 52 8.2.4 Amostragem Aleatória por Conglomerados . . . . . . . . . . . . . . . . . . . 53 8.3 Amostragem Não-Probabilística: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 8.4 Exercícios no Bioestat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 8.5 Tamanho Mínimo da Amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 8.6 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 8.7 Leitura Complementar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 8.8 Trabalho 03 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 IV Estatística Inferencial com Bioestat 64 9 Probabilidade 66 9.1 Interpretações da Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 9.2 A Interpretação da Probabilidade Segundo o Jogador . . . . . . . . . . . . . . . . . . 68 9.3 Probabilidade de Ocorrência de Um Evento . . . . . . . . . . . . . . . . . . . . . . . 68 9.4 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 9.5 Eventos Independentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 9.6 Nível de Confiança e de Significância . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 10 Estimação de Parâmetros 71 10.1 Estimativas pontuais e intervalares . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 10.2 Intervalo de Confiança para Média Populacional quando a Variância é Conhecida . . . 71 10.3 Intervalo de Confiança para Proporção . . . . . . . . . . . . . . . . . . . . . . . . . . 73 10.4 Exercícios no Bioestat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 11 Testes de Hipóteses 77 11.1 A Hipótese Nula e a Hipótese Alternativa . . . . . . . . . . . . . . . . . . . . . . . . 77 11.2 Erro Tipo 1 e Tipo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 11.3 Uso dos Testes de Hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 11.3.1 Testes uni e bilateral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 11.3.2 Testes Paramétricos e Não-Paramétricos . . . . . . . . . . . . . . . . . . . . 82 2 CONTEÚDO CONTEÚDO 12 Testes Paramétricos 84 12.1 Teste t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 12.2 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 12.3 Análise de Variância - ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 12.4 Teste de Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 13 Teste Não-Paramétricos 92 13.1 Vantagens e Desvantagens dos Testes Não-Paramétricos . . . . . . . . . . . . . . . . 92 13.2 Teste Qui-Quadrado para Independência . . . . . . . . . . . . . . . . . . . . . . . . . 93 13.2.1 Aplicação do Teste Qui-Quadrado . . . . . . . . . . . . . . . . . . . . . . . . 93 13.2.2 Detalhes do Teste Qui-Quadrado . . . . . . . . . . . . . . . . . . . . . . . . 94 13.3 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 13.4 Trabalho 04 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 13.5 Teste Exato de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 13.6 Exercícios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 13.7 Teste de Kruskal-Wallis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 13.8 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 13.9 Trabalho 05 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 14 Correlação Linear 104 14.1 Diagrama de Dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 14.2 Coeficiente de Correlação Linear - r . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 14.3 Regressão Linear Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 14.4 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 3 Parte I Princípios 4 Capítulo 1 Introdução Por Sidia C. Jaques Na literatura científica, consultada por profissionais das áreas biológica e da saúde, encontramos expressões como "diferença estatisticamente significativa", "teste qui-quadrado de associação"e "P < 0,01", que refletem a importância, cada vez maior, dada pelos pesquisadores ao tratamento estatístico de seus dados. Quais serão as razões para o emprego de métodos estatísticos nos trabalhos científicos? Em primeiro lugar, a estatística, longe de ser mais uma complicação matemática, tem se mostrado um instrumento extremamente útil na organização e na interpretação dos dados. Em segundo lugar, esta ciência propicia uma avaliação adequada da variabilidade observada nos processos biológicos. É sabido que existem diferenças entre os indivíduos e que eles reagem de forma diferente a estímulos idênticos; por outro lado, o mesmo indivíduo apresenta variações de um momento para outro. Em vista disto, o pesquisador consciencioso deseja saber qual o grau de confiabilidade de seus resultados. Ele se pergunta, por exemplo, se os resultados poderiam ter sido obtidos por acaso, se o novo tratamento proposto foi realmente mais eficiente, se a associação observada entre as variáveis é real, se o método de seleção de indivíduos foi adequado, se a análise dos dados empregou os métodos adequados s variáveis estudadas. Todas essas questões podem ser respondidas com o auxílio da estatística. O papel da estatística na investigação científica vai além de indicar a sequência de cálculos a serem realizados com os dados obtidos. No planejamento, ela auxilia na escolha das situações experimentais e na determinação da quantidade de indivíduos a serem examinados. Na análise dos dados, indica técnicas para resumir e apresentar as informações, bem como para comparar as situações experimen- tais. Na elaboração das conclusões, os vários métodos estatísticos permitem generalizar a partir dos resultados obtidos. De um modo geral, não existe certeza sobre a correção das conclusões científicas; no entanto, os métodos estatísticos permitem determinar a margem de erro associada s conclusões, com base no conhecimento da variabilidade observada nos resultados. Inicialmente, a estatística ocupava-se em descrever quantitativamente os vários aspectos dos as- suntos de um governo ou estado 1 , remontando época em que surgiram as primeiras cidades. Come- çava, então, a necessidade de se enumerarem coisas e pessoas para a avaliação das riquezas e para o cadastramento das propriedades. Os censos 2 já eram realizados anualmente em Atenas e, a cada quadriênio, em Roma, nas festas de purificação da comunidade, quando era necessário saber se todos estavam presentes ou representados. Um dos primeiros censos de que se tem notícia escrita foi o ordenado pelo imperador romano César Augusto, realizado na Palestina, por volta do ano zero da era cristã. Outro recenseamento famoso foi o realizado, na Inglaterra, por Guilherme I, duque normando que havia derrotado os ingleses. O cadastro geral das coisas inglesas com fins de tributação, feito em 1085-1086, foi chamado pelos ingleses de 1 O termo estatística surge da expressão em latim statisticum collegium palestra sobre os assuntos do Estado, de onde surgiu a palavra em língua italiana statista, que significa "homem de estado", ou político, e a palavra alemã Statistik, designando a análise de dados sobre o Estado. A palavra foi proposta pela primeira vez no século XVII, em latim, por Schmeitzel na Universidade de Jena e adotada pelo acadêmico alemão Godofredo Achenwall. Aparece como vocabulário na Enciclopédia Britânica em 1797, e adquiriu um significado de coleta e classificação de dados, no início do século XIX. 2 Ela vem do Latim CENSUS, �lista de nomes e propriedades dos cidadãos romanos� 5 1.1. O MÉTODO CIENTÍFICO CAPÍTULO 1. INTRODUÇÃO "Domesday (ou Doomsday) Book", o livro do juízo final, nome que bem revela as expectativas da população quanta carga tributária por vir. Por muito tempo, o aspecto descritivo da estatística manteve-se como a única faceta desta ciência. As coisas começaram a mudar no século XVII, com as primeiras interpretações de dados. Em 1693, foram publicados, em Londres, os primeiros totais anuais de falecimentos, discriminados por sexo. Eram o resultado de levantamentos iniciados em 1517, quando a peste atacava periodicamente a Europa. Christian Huygens (1629-1695), físico e astrônomo holandês, construiu depois uma curva de mortalidade a partir dos dados publicados. O estudo formal da teoria de probabilidades, iniciado por Blaise Pascal (1623-1662) e Pierre de Fermat (1601-1665), constitui-se em importante marco no desenvolvimento da estatística. Graças a esses conceitos, a estatística começou a ser estruturada de modo a poder desempenhar seu papel mais nobre, o de auxiliar na tomada de decisões científicas. Estudiosos de diferentes campos do conhecimento fizeram a ligação entre os aspectos teóricos de probabilidade e estatística e a prática. Lambert Adolphe Jacques Quetelet (1796-1874), astrônomo e matemático belga, foi o primeiro a usar a curva normal fora do contexto da distribuição dos erros e aplicou conhecimentos estatísticos na solução de problemas de biologia, medicina e sociologia. Francis Galton (1822-1911) , por sua vez, empregou a estatística no estudo da variação biológica e tentou, sem sucesso, resolver problemas de hereditariedade. Karl Pearson (1857-1936) também interessou-se pela aplicação dos métodos estatísticos à biologia, em especial, a estudos sobre a seleção natural. Além de ser o pai do teste qui-quadrado, a ele se devem inúmeros estudos e medidas de correlação entre variáveis. Um aluno de Pearson, William S. Gosset (1876-1937), dedicou-se a solucionar problemas práticos com amostras pequenas. Um dos resultados de seus estudos é a distribuição t, de ampla aplicação em vários campos da ciência. Uma das figuras modernas mais importantes da bioestatística (e da estatística em geral, já que desenvolveu métodos para solucionar vários tipos de problemas) foi, sem dúvida, Fisher , que assentou as bases para a experimentação estatisticamente controlada. Vários modos de analisar os dados de amostras pequenas foram propostos por Fisher, que também tem importantes contribuições na análise simultânea de muitas variáveis, dando considerável impulso ao uso da estatística em inúmeras áreas do conhecimento, particularmente na agronomia, na biologia e na genética. Figura 1.1: Sir Ronald Aylmer Fisher (1890-1962) 1.1 O Método Científico Adaptado de "Serviço de Bioestatística e Informática Médica da Faculdade de Medicina da Universidade do Porto"(MedStatWeb) em http://stat2.med.up.pt/cursop/index.html 6 1.1. O MÉTODO CIENTÍFICO CAPÍTULO 1. INTRODUÇÃO O termo "Método"refere-se a um processo ordenado e padronizado de execução de uma determi- nada atividade e implica num conjunto de regras que especificam o modo como o conhecimentodeve ser adquirido e apresentado e o modo de avaliação da verdade ou falsidade do mesmo. Três ideias elementares constituem a base do Método Científico: O ceticismo, isto é, a noção de que qualquer proposição ou afirmação, mesmo quando proferida por grandes autoridades, está sujeita à dúvida e à análise; O determinismo, ou seja, a noção de que a realidade está dependente de leis e causas regulares e constantes e não dos caprichos ou desejos dos "demônios"ou "bruxas"; O empirismo segundo o qual a investigação científica deve ser conduzida pela observação e veri- ficação através da experiência. A indução é uma outra noção chave, provavelmente a mais importante e controversa do Método Científico e será focada mais adiante. Observação, descrição e medição: A descrição dos fenômenos naturais, envolvendo o registo preciso e válido de observações sobre pessoas, objetos ou acontecimentos, constitui a base empírica de todos os ramos da Ciência. As observações podem ser na forma de descrições nominais ou conjuntos de medições. As percepções pessoais e subjetivas têm que dar lugar às formulações descritivas e medições que possam ser enten- didas e replicadas por outros investigadores. Muitos dos avanços da Ciência, ao longo dos últimos séculos, devem-se diretamente ao desenvolvimento de instrumentos de auxílio à observação cada vez mais potentes. Não deve ser esquecido, no entanto, que o uso de instrumentação complexa não é indispensável à realização de observações científicas. As características essenciais para uma obser- vação poder ser considerada científica são a precisão, validade e reprodutibilidade. As observações, quando adequadamente sintetizadas e confirmadas por outros, constituem a base factual, empírica, do conhecimento científico. Generalização e Indução: Afirmações e medições representando observações são integradas em sistemas interpretativos de- signados Hipóteses e Teorias. A lógica subjacente à generalização inerente ao método científico é designada Indução. A indução permite o estabelecimento de proposições gerais sobre uma classe de fenômenos com base na análise de um número limitado de observações de elementos selecionados. Por exemplo, tendo verificado que a penicilina é útil na cura da pneumonia num número limitado de doentes, propõe-se a generalização - "A administração de penicilina cura a pneumonia (em todos os doentes)". Hipóteses: A proposição "A administração de penicilina cura a pneumonia"é uma hipótese. Hipóteses ci- entíficas são proposições que especificam a natureza da relação entre dois ou mais conjuntos de observações. No exemplo exposto, o primeiro conjunto de observações relaciona-se com a adminis- tração de penicilina, e o segundo, relaciona-se com as modificações das observações ou medições do estado clínico dos doentes no que se refere à pneumonia. Uma hipótese científica deve ser apresentada usando referências claras e observáveis, não podendo depender de interpretações subjetivas. Teorias: Teorias científicas são, essencialmente, conjecturas que representam o nosso atual estado de conhecimento sobre o mundo real. As hipóteses são integradas em sistemas interpretativos mais abrangentes, designados teorias. A teoria tenta explicar as relações existentes entre diversos tipos de observações e hipóteses. Por exemplo, uma teoria que pretenda explicar porque certos fármacos designados antibióticos são eficazes na cura de certas doenças infecciosas terá que integrar evidências de variadas fontes, tais como a microbiologia, a farmacologia, a fisiologia celular e a medicina clínica. Deste modo, as teorias identificam as causas dos acontecimentos, e proporcionam meios conceituais de predição e influência sobre esses mesmos acontecimentos. 7 1.2. DEFINIÇÃO DE ESTATÍSTICA CAPÍTULO 1. INTRODUÇÃO Dedução: As teorias científicas devem levar à formulação de um conjunto de proposições empiricamente ve- rificáveis, ou seja, hipóteses. As hipóteses são deduzidas, obedecendo à lógica formal, das proposições e/ou modelos matemáticos que especificam a relação causal postulada pela teoria. Por exemplo, se aceitarmos a teoria de que um conjunto de neurônios, anatomicamente adjacentes, do lobo occipital são responsáveis pela visão nos seres humanos, então, a hipótese que pode ser deduzida é a de que a ativação desses neurônios (por exemplo, através de estimulação por eletrodos) provocará o apare- cimento de certas sensações visuais. O teste das hipóteses através da observação deve ser levada a cabo, preferencialmente, em condições controladas. A observação deve ser controlada de modo a permitir o afastamento de hipóteses alternativas na explicação dos fenômenos sobre os quais se fez a predição. Por exemplo, se quisermos demonstrar que a estimulação do lobo occipital provoca sensações visuais, temos que mostrar que estamos controlando a observação para outro tipo de esti- mulação cerebral que possa estar provocando tais sensações. Inversamente, teríamos, também, que demonstrar que a estimulação do lobo occipital não leva a uma série de outras sensações que não as visuais. Verificação: Depois da evidência ter sido colhida, o investigador decide se os achados são consistentes ou não com as predições da hipótese. Se a hipótese é confirmada pela evidência, então, a teoria de onde proveio a hipótese é fortalecida ou verificada. Porém, quando os dados não confirmam a hipótese, a teoria não é verificada. Se uma teoria não continua a conseguir predizer ou explicar as observações torna-se menos útil, e é normalmente substituída por novas teorias mais fortes e consistentes. Assim, as teorias científicas não devem ser entendidas como verdades absolutas e finais, mas meras explicações provisórias da evidência existente até ao momento. Foi a aplicação do processo acima descrito que permitiu o espetacular crescimento do conhecimento científico a que temos assistido nos últimos séculos e, em especial, nos últimos cem anos. É desta forma que o método científico contribui para a concretização dos nossos objetivos, ajudando-nos a descrever, explicar, predizer e, por vezes, controlar o mundo em que vivemos. 1.2 Definição de Estatística Fonte: http://www.usp.br/aun/exibir.php?id=5023 Para Magalhães 3 estatística é a ciência que utiliza-se das teorias probabilísticas para explicar a frequên- cia da ocorrência de eventos, tanto em estudos observacionais quanto em experimentos que visam a modelar a aleatoriedade e a incerteza de forma a estimar valores nesses eventos. �É claro que nem todas as pessoas têm formação para entender os cálculos feitos por quem trabalha na área, mas todos devem compreender as informações passadas por eles, pois lidamos com estatística o tempo todo�, afirmou Magalhães. A compreensão se daria a partir do momento em que os professores �desmistificam� a matemática, fazendo isso, principalmente, com a �alfabetização estatística�, isto é, fazer os estudantes entender gráficos e diagramas encontrados no cotidiano das pessoas, de modo a contextualizar a importância do que está sendo dito (Magalhães). A palavra estatística de do latim STATUS que significa ESTADO. Em suma, a Estatística é a ciência que aplica processos próprios para coletar, apresentar e interpretar adequadamente os dados, sendo numéricos ou não. Tem como objetivo apresentar informações sobre dados em análises para que se tenha maior compreensão dos fatos que os mesmos representam. É considerada um método científico pois resulta de um conjunto de regras e princípios que pro- duzem resultados �controlados� ou �previsíveis� a partir de dados aleatórios levando a um objetivo almejado. Há três ramos da estatística: descritiva, probabilística e inferencial. 3 Marcos Magalhães, do Departamento de Estatística (MAE) do Instituto de Matemática e Estatística da Universidade de SãoPaulo (IME-USP) 8 1.3. FASES DO MÉTODO ESTATÍSTICO CAPÍTULO 1. INTRODUÇÃO Estatística Descritiva: O conjunto de dados recolhidos em um estudo científico, pode variar desde poucas dezenas a vários milhares de valores. Esta informação bruta dificilmente poderá ser compreendida ou interpretada sem métodos que, de alguma forma, a sintetizem e descrevam. Estes métodos de síntese são designados por métodos de Estatística Descritiva. Assim, como o próprio nome diz, a estatística descritiva, organiza, sumariza e descreve um conjunto de dados, através da construção de gráficos, tabelas, e com cálculo de medidas com base em uma coleção de dados numéricos. Ou seja, tenta tornar os dados mais fáceis de ler, interpretar e discuti-los. Tabela: é um quadro que resume um conjunto de observações. Gráficos: são formas didáticas de apresentar os dados, com o objetivo de produzir uma impressão mais rápida dos dados ou fenômenos. Medidas descritivas: são formulações matemáticas usadas para interpretar grandes quantidades de dados agrupados (médias, desvios,...). Estatística Probabilística: É onde se estuda o acaso, ou seja, através de cálculos matemáticos, pretende-se prever a ocorrência de dados aleatórios. Estatística Inferencial: Destina-se à análise e interpretação de dados amostrais, ou seja, consiste em efetuar determinada mensuração sobre uma parcela pequena, mas típica, de determinada população e utilizar essa infor- mação para fazer inferências sobre a população toda. A exemplo: colocar a ponta do pé na água para avaliar a temperatura desta na piscina. 1.3 Fases do Método Estatístico Os dados estatísticos lidam com números, ou seja, envolvem a análise e interpretação de números. Para interpretar estes números faz-se necessária uma organização racional dos dados, portanto, inicia-se determinando a diferença entre dados e informação. Dados são números ou valores coletados primariamente, e quase sempre não tem sentido. Já a informação compreende o processamento dos dados, reduzindo a quantidade de detalhes e facilitando o encontro de relações. Portanto os dados, quando coletados, são reunidos através de técnicas estatísticas e posteriormente apresentados na forma de TABELAS ou GRÁFICOS; isto faz com que sejam eliminados detalhes não importantes e enfatizados os aspectos cruciais dos dados. Estes dados estatísticos são obtidos através de um processo que envolve a observação; e os itens observados são chamados de variáveis. Variáveis são valores que tendem a exibir certo grau de variabilidade quando se fazem mensurações sucessivas. 1.3.1 Coleta dos Dados Após o cuidadoso planejamento e a devida determinação das características mensuráveis do fenô- meno coletivamente típico que se quer pesquisar, damos início à coleta de dados numéricos necessários a sua descrição. A coleta pode ser direta ou indireta. A coleta é direta quando feita sobre elementos informativos de registro obrigatório (nascimento, casamento e óbitos, importação e exportação de mercadorias), elementos pertinentes aos prontuários dos alunos de uma escola ou, ainda, quando os dados são coletados pelo próprio pesquisador através de inquéritos e questionamentos, como e o caso das notas de verificação e de exames, do censo demográfico, etc.. A coleta direta de dados pode ser classificada relativamente ao fator tempo em: 9 1.3. FASES DO MÉTODO ESTATÍSTICO CAPÍTULO 1. INTRODUÇÃO Contínua (registro) � quando feita continuamente, tal como a de nascimento e óbitos e a de frequência dos alunos nas aulas; Periódica � quando feita em intervalos constantes de tempo, como os censos (de 10 em 10 anos) e as avaliações mensais dos alunos; Ocasional � quando feita extemporaneamente, a fim de atender a uma conjuntura ou a uma emergência, como no caso de epidemias. A coleta se diz indireta quando é inferida de elementos conhecidos (coleta direta) e/ou do conhe- cimento de outros fenômenos relacionados com o fenômeno estudado. Como exemplo, podemos citar a pesquisa sobre a mortalidade infantil, que e feita através de dados colhidos por uma coleta direta. Mas se levarmos em consideração a natureza dos dados estes podem ser: Contínuos: trata-se de dados quantitativos em que as variáveis podem assumir virtualmente qual- quer valor num intervalo de valores, ou quando feita continuamente. Exemplo: altura, peso, comprimento, espessura, velocidade, etc. Discretos: também são dados quantitativos que só podem assumir valores inteiros. Os dados discretos surgem na contagem do número de itens com determinada característica. Exemplo: número diário de clientes, alunos numa sala, número de acidentes diários numa fábrica e outros. Nominais: são dados qualitativos e caracterizam-se pela denominação de categorias ou nomes, geralmente compreendem variáveis que não relacionam-se a priori com números. Exemplo: sexo, cor dos olhos, campo de estudo, desempenho no trabalho, etc. Por Posto: apesar de lidarem com números, são considerados dados de natureza qualitativa, pois se referem a avaliações subjetivas; quando se dispõem os itens segundo preferência ou desempenho. São valores relativos atribuídos para denotar ordem. Exemplo: primeiro, segundo, terceiro ... 1.3.2 Crítica dos Dados Obtidos os dados, eles devem ser cuidadosamente criticados a procura de possíveis falhas e im- perfeições, a fim de não incorrermos em erros grosseiros ou de certo vulto, que possam influir sensi- velmente nos resultados. A crítica é externa quando visa as causas dos erros por parte do informante, por distração ou má interpretação das perguntas que lhe foram feitas; e interna, quando visa observar os elementos originais dos dados da coleta. 1.3.3 Apuração dos Dados Nada mais é do que a soma e o processamento dos dados obtidos e a disposição mediante critérios de classificação. Pode ser manual, eletromecânica ou eletrônica. 1.3.4 Exposição ou Apresentação dos Dados Por mais diversa que seja a finalidade que se tenha em vista, os dados devem ser apresentados sob forma adequada (tabela ou gráfico), tornando mais fácil o exame daquilo que está sendo objeto de tratamento estatístico e ulterior obtenção de medidas típicas. 1.3.5 Análise dos Resultados O objetivo da Estatística e tirar conclusões sobre o todo (população) a partir de informações for- necidas por parte representativa do todo (amostra). Assim, realizadas as fases anteriores (Estatística Descritiva), fazemos uma análise dos resultados obtidos, através dos métodos da Estatística Indutiva ou Inferencial e tiramos desses resultados as conclusões e previsões. 10 1.4. LEITURA COMPLEMENTAR CAPÍTULO 1. INTRODUÇÃO 1.4 Leitura Complementar INFORMAÇÃO EM SAÚDE Arlinda B. Moreno Claudia Medina Coeli Sergio Munck GÊNESE DO CONCEITO E DESENVOLVIMENTO HISTÓRICO Para refletir sobre a expressão Informação em Saúde podemos nos remeter à necessidade existente, desde a antiguidade, do ser humano comunicar algo a alguém (ou a alguma coletividade) sobre sua própria saúde ou sobre a saúde de alguém (ou de algum grupo de pessoas) a ele relacionado. Ou seja, preliminarmente, a Informação em Saúde pode ser pensada como um compósito de transmissão e/ou recepção de eventos relacionados ao cuidado em saúde. Assim sendo, podemos inferir que não é tarefa fácil demarcar o início do uso dessa terminologia no campo da saúde. Mas, certamente, é a partir do século XIX, período que marca o recrudescimento dos estudos em epidemiologia, que a necessidade de comunicar questões relacionadas à saúde das populações se torna a grande alavanca para a disseminação das Informações em Saúde. Quase que concomitantemente, a estatística do final desse século XIX e início do século XX, inspiradora de estudiosos como Benthan, Price, Laplace, Galton (Rosen, 1994) pode ser vista, também,como um ponto de partida importante para a geração de Informações em Saúde de forma agregada e preditiva. Daí, pode-se partir, sem muito pecado, para as primeiras peças da Informação em Saúde, compostas pelas Estatísticas Vitais, pelas Tábuas de Sobrevida, enfim, por instrumentos de predição e inferência de estados de saúde a partir do status atual de um grupo de pessoas em determinado contexto de saúde. E, no correr da história, numerosos desdobramentos para a expressão Informação em Saúde transformaram-se, praticamente, em subáreas distintas e dirigidas, principalmente, a subsidiar, não apenas a população em geral, mas também gestores da área saúde: sobre: perfil da população (de que adoece e morre, dados demográficos e socioeconômicos); serviços prestados; materiais e medicamentos consumidos; força de trabalho envolvida; para conhecer: necessidades da população atendida; uso potencial e real da rede instalada; investimentos necessários; a fim de planejar, controlar e avaliar as ações e serviços de saúde (EPSJV, 2005). Como marcos históricos para tanto, tem-se, no século XVII, na Alemanha, o surgimento da cha- mada `topografia política ou uma descrição das condições atuais do país', proposta por Leibniz, em cuja descrição deveriam constar: o número de cidades (maiores e menores) e de aldeias; a popula- ção total e a área do país em acres; a enumeração de soldados, mercadores, artesãos e diaristas; as informações sobre as relações entre os ofícios; o número de mortes e das causas de morte (Rosen, 1980). Em decorrência dessa e de outras ações semelhantes, surgiram os inquéritos de morbidade e as estatísticas dos serviços de saúde. Na gênese da vigilância epidemiológica, é inegável a influência de Farr, que realizou atividades de coleta, processamento e análise de dados e sua divulgação para as autoridades sanitárias. Quando observamos o célebre estudo sobre o cólera realizado por Snow, é impossível negar o uso das Informações em Saúde constantes dos mapas de ponto e do raciocínio epidemiológico no controle desta doença, já no século XIX. A essa altura é, também, de suma importância destacar o papel fundamental do desenvolvimento das ciências da computação, no século XX, e, portanto, da informática como instrumental necessário e multiplicador tanto das metodologias estatísticas quanto das Informações em Saúde. Ressalte-se, também, que esse desenvolvimento tecnológico tem papel crucial em inovações intrínsecas à área da saúde, tais como: a) a disseminação e facilitação da acessibilidade à s bases de dados em saúde; b) o surgimento e a propagação da informática médica; c) a concepção e a implementação do prontuário eletrônico do paciente, entre outros. 11 Parte II Estatística Descritiva 12 Capítulo 2 Conceitos Básicos 2.1 População e Amostra População é o conjunto de entes portadores de, pelo menos, uma característica comum. Ex. fazer uma pesquisa entre os alunos das escolas de Ensino Fundamental: precisamos definir quais são os alunos que formam o universo, ou seja, os que atualmente estão no colégio ou devemos incluir os que já passaram pela escola? A solução do problema depende de cada caso em particular. Na maioria das vezes, por impossibilidade ou inviabilidade econômica ou temporal, limitamos a pesquisa a apenas uma parte da população. A essa parte proveniente da população em estudo denominamos amostra. Exemplo: O número de enfermeiros de um hospital é 233. Uma pesquisa sobre opção de horário de trabalho pode ser feita com apenas 20 enfermeiros tomados ao acaso. Tabela 2.1: Exemplos de População e Amostra Variável de Interesse População Amostra 1 Insalubridade Todos os enfermeiros do hospital 20 enfermeiros do hospital 2 Tipo Sanguíneo Total de enfermeiros do hospital enfermeiros do bloco cirúrgico 3 Tipo Sanguíneo Sangue num indivíduo de 70kg 3 gotas de sangue 4 Salário Enfermeiros no território brasileiro Alguns enfermeiros de cada estado 5 Anos de Trabalho Total de enfermeiros do hospital enfermeiros do pronto socorro 6 Número de Filhos Total de enfermeiros do hospital enfermeiros da pediatria 2.2 Variáveis Estatísticas Qualquer atributo medido numa pesquisa: renda familiar, número de indivíduos de uma família, etc. � Variáveis Qualitativas: expressam qualidade. Representadas por palavras. Exemplo: sexo (masculino ou feminino), grau de instrução (fundamental, médio ou superior), estado civil (solteiro, casado, ...). 13 2.3. EXERCÍCIOS CAPÍTULO 2. CONCEITOS BÁSICOS � Nominal: Os indivíduos são classificados em categorias segundo uma característica. Exemplo: hábito de fumar (fumante, não fumante), sobrepeso (sim, não). Não existe ordem entre as categorias e suas representações, se numéricas, são destituídas de significado numérico. Exemplo: sexo masculino = 1, sexo feminino = 2. Os valores 1 e 2 são apenas rótulos. Exemplo: Você tem diabetes? Sim. Não. Não sei. Você é fumante? Sim. Não. Já fui. Exemplo: Qual é o seu tipo de sangue? A. B. AB. O. Não sei. � Ordinal: Os indivíduos são classificados em categorias que possuem algum tipo inerente de ordem. Neste caso, uma categoria pode ser "maior"ou "menor"do que outra. Exemplo: nível sócio-econômico (A, B, C e D; onde A representa maior poder aquisitivo); nível de retinol sérico (alto, aceitável, baixo, deficiente) onde alto: maior ou igual a 50,0 �g/dl; aceitável: 20,0 a 49,9 �g/dl, baixo: 10,0 a 19,9 �g/dl e deficiente: menor ou igual a 10,0 �g/dl. Estes critérios são do Commitee on Nutrition for National Defense ICNND/USA, 1963 (in Prado MS et al , 1995). � Variáveis Quantitativas: expressam quantidade. Representadas por números. � Discretas: o resultado numérico da mensuração é um valor inteiro. Exemplo: número de refeições em um dia (nenhuma, uma, duas, três, quatro, ...), frequên- cia de consumo semanal de determinado alimento (1 vez, 2 vezes, 3 vezes, 4 vezes, 5 vezes, 6 vezes, 7 vezes), número de filhos. � Contínuas: podem assumir qualquer valor do intervalo. Exemplo: estatura, salário, nível de retinol sérico (�g/dl), circunferência da cintura (cm). Observação: É incorreto fazer a simplificação "se tem número é quantitativo", pois muitas vezes, os números podem ser meros rótulos, tal como o número na camisa de um jogador. Exercício: Preencha o quadro abaixo VQO(variável qualitativa ordinal), VQN(variável qualitativa nominal), VQTD(variável quantitativa discreta), VQTC(variável quantitativa contínua) Tipos de variáveis. População Variável Opção para a variável Classificação Enfermeiros Salário bruto R$ 2003,52 do Brasil mensal Odontólogos de Anos de 1,5/2/4 uma clínica trabalho Professores do Produção 0, 1, 2, 3,... curso de Farmácia científica Funcionários Tipo A, B, AB, O de um hospital sanguíneo Enfermeiros Insalubridade Recebe, não recebe de um hospital Candidatos ao Sexo M, F curso de Nutrição Professores Número de 0, 1, 2, 3, ... UNIFRA nutricionistas Professores Nível de stress Alto, médio, baixo de um curso 2.3 Exercícios 1. Foi encomendado um estudo para avaliação de uma entidade de ensino superior. Para isso, aplicou-se um questionário e obtiveram-se respostas de 110 alunos. Indique: 14 2.3. EXERCÍCIOS CAPÍTULO 2. CONCEITOS BÁSICOS (a) a variável em estudo; (b) a população em estudo; (c) a amostra escolhida. 2. Os dados abaixo referem-se a medidas de prostaglandina (pg/ml) e cálcio (ml/dl) em pacientes com câncer apresentando ou não hipercalcemia. Classifique as variáveis envolvidas no estudo, o tamanho amostral e as populações de interesse. Prostaglandina e cálcio em pacientes com câncer. IPGE Calcium status 500.00 13.30 hyper 301.00 13.40 hyper 254.00 10.10 nonhyper 150.00 8.60 nonhyper 100.00 9.70 nonhyper 3. Classifique as seguintes variáveis em: Quantitativas (Discretasou Contínuas) ou Qualitativas (Nominais ou Ordinais). (a) A cor da pele de pessoas (ex.: branca, negra, amarela). Variável do tipo e . (b) O número de consultas médicas feitas por ano por um associado de certo plano de saúde. Variável do tipo e . (c) O teor de gordura, medido em gramas por 24 horas, nas fezes de crianças de 1 a 3 anos de idade. (Ex: 23,4 g) Variável do tipo e . (d) O tipo de droga que os participantes de certo estudo tomaram, registrados como: Droga A, Droga B e placebo. Variável do tipo e . (e) A pressão intra-ocular, medida em mmHg, em pessoas. Variável do tipo e . (f) O número de filhos das pacientes participantes de certo estudo. Variável do tipo e . 15 Capítulo 3 Tabelas e Distribuições de Frequência As tabelas sintetizam informações relevantes sobre uma ou mais variáveis a fim de que tenhamos uma visão geral sobre a variável. Tabela é um quadro que resume um conjunto de observações. As tabelas devem obedecer ao seguinte postulado: "Obter um máximo de esclarecimentos com um mínimo de espaço e tempo." Exemplos: Taxa de Colesterol (mg/dl) em 30 pacientes. 248 157 124 124 215 312 254 156 132 145 214 256 258 298 189 178 186 231 301 265 298 178 196 152 144 185 132 289 264 256 Distribuição de idade dos pacientes portadores de mieloma múltiplo. Idade (anos) Frequência Absoluta Frequência Relativa 10 - 19 57 18,54 20 - 29 113 37,42 30 - 39 57 18,87 40 - 49 32 10,62 50 - 59 19 6,29 60 - 69 7 2,29 > 70 2 0,67 Indeterminada 13 4,3 Total 302 100 Pacientes portadores de mieloma múltiplo. Ano do Diagnóstico Sexo Total Masculino Feminino 1998 50 44 94 1999 54 46 100 2000 59 49 108 Total 163 139 302 Uma tabela e mesmo um gráfico podem ser decompostos em partes: Cabeçalho, Corpo e Rodapé. Partes de uma tabela. 16 CAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA Cabeçalho - O cabeçalho, que é a apresentação do que a tabela está procurando representar, deve conter o suficiente para que sejam respondidas as seguintes questões: O QUÊ? (referente ao fato), ONDE? (relativo ao lugar), QUANDO? (correspondente ao tempo). Exemplo: Acidentes de trabalho ocorridos no Hospital X em 2006. O quê? - (fato): Acidentes de trabalho. Onde? - (lugar): Hospital X. Quando? - (tempo): 2006. Corpo - O corpo de uma tabela é representado por uma série de colunas e subcolunas, dentro das quais são colocados os dados apurados. Segundo o corpo, as tabelas podem ser: de Entradas Simples, de Dupla Entrada e de Múltipla Entrada. Rodapé - No rodapé de uma tabela devemos colocar a legenda e todas as observações que venham a esclarecer a interpretação da tabela Geralmente também é no rodapé que se coloca a fonte dos dados embora em alguns casos ela possa ser colocada também no cabeçalho. A fonte serve para dar maior autenticidade à tabela. CONSIDERAÇÕES As tabelas utilizadas nos cálculos estatísticos em geral não servem para artigos científicos pois são organizadas para facilitar os cálculos e entendimento das variáveis e não para a sua apresentação. por Sidia C. Jacques. Abaixo seguem as principais regras para a construção de tabelas em artigos científicos: � A tabela deve ser precedida de um título, suficientemente claro para que o leitor não necessite voltar ao texto para entender o conteúdo da mesma. � a tabela é limitada por uma linha limitante superior e outra inferior, que indica seu final. o cabeçalho deve ser separado do restante do texto por uma linha horizontal. � Não se usam linhas verticais separando as colunas; usam-se espaços em branco. � As abreviaturas e os símbolos pouco conhecidos devem se explicados no rodapé da tabela. � Deve ser indicada a fonte dos dados. 17 3.1. DADOS ABSOLUTOS E DADOS RELATIVOSCAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA Nosso Padrão: No Excel, as tabelas devem conter todas as células centralizadas, o título e o rodapé devem ter o tamanho da tabela e suas células devem estar mescladas. A palavra tabela, o seu número e o traço devem estar em negrito, bem como a palavra fonte, quando existir. A palavra fonte deve estar também em itálico. O cabeçalho deve estar em negrito. Deve haver quatro linhas horizontais: uma limitante superior, uma inferior, uma separando o título do cabeçalho e uma entre o cabeçalho e o corpo da tabela. A palavra total, quando existir, deve estar em negrito. 3.1 Dados Absolutos e Dados Relativos Os dados estatísticos resultantes da coleta direta da fonte, sem outra manipulação senão a con- tagem ou medida, são chamados dados absolutos. A leitura dos dados absolutos é sempre cansativa e inexpressiva; embora esses dados traduzam um resultado exato e fiel, não tem a virtude de ressaltar de imediato as suas conclusões numéricas. Dados relativos são o resultado de comparações por quociente (razões) que se estabelecem entre dados absolutos e tem por finalidade realçar ou facilitar as comparações entre quantidades. Traduzem- se os dados relativos, em geral, por meio de percentagens. Exemplo: A tabela abaixo apresenta o número de irmãos relatados por 115 estudantes universi- tários da UFRGS (dados obtidos entre 1986 e 1992) Quantidade de irmãos de alunos da UFRGS. N o de irmãos Frequência 0 8 1 20 2 40 3 26 4 9 5 7 6 4 7 0 8 0 9 1 Total Determine o percentual de estudantes que têm 3 irmãos. 3.2 Distribuição de Frequências É uma tabela, onde os dados encontram-se dispostos em classes ou não, juntamente com as frequências correspondentes. Desta forma, podemos dividir as distribuições de frequências em dois tipos: Tabela de agrupamento simples Mostram os valores obtidos e o número de vezes que cada dado foi observado. Os valores obtidos, em geral, são colocados em ordem crescente e ao seu lado coloca-se a quantidade de vezes que cada valor ocorreu (frequência). Exemplo: 18 3.2. DISTRIBUIÇÃO DE FREQUÊNCIASCAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA Número de médicos na população, países selecionados, 1984. País Habitantes por Médico Chile 1.230 Brasil 1.080 França 320 EUA 470 Argentina 370 Exemplo: Número de cáries dos alunos do 1 o ano do Colégio X; quantidade de livros de bioesta- tística na biblioteca da UNIFRA. Número de cáries por aluno em uma escola X da cidade (Santa Maria/2008). Número de Cáries (X i ) Número de Alunos (f i ) 0 35 1 20 2 13 3 6 4 4 5 ou mais 2 Total 80 Usada para variáveis qualitativas ou então quantitativas discretas com poucos valores diferentes. Tabela de agrupamento por intervalo de classe As classes são cada um dos intervalos que se subdivide os dados brutos a fim de condensar a informação, mesmo que este procedimento perca algumas informações. Usada para variáveis quantitativas contínuas ou discretas com muitos valores diferentes. Geral- mente esta variável provém de medições. Exemplo: A seguir temos as notas finais dos estudantes, as quais, se não forem agrupadas em classes, geram tabelas com pouca utilidade prática. Notas finais de 50 estudantes da disciplina de bioestatística. 22 46 9 40 57 22 22 13 50 42 35 2 15 41 34 52 32 75 69 44 26 42 60 56 30 3 17 79 45 37 0 12 62 50 45 41 59 11 66 39 43 33 70 50 47 20 36 40 67 29 Então, agrupamos os dados em classes cujas notas variam de 10 em 10 e contamos quantas notas observadas estão em cada classe. A distribuição de frequência resultante será expressa pela tabela: Tabela 3.1: Notas finais de estudantes da disciplina de bioestatística. Notas f i 0 7!10 4 107!20 5 207!30 6 307!40 8 407!50 12 507!60 7 607!70 5 707!80 3 Total 50 Onde f i é a frequência absoluta das classes. 19 3.2. DISTRIBUIÇÃO DE FREQUÊNCIASCAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA Para explicara colocação das notas dos alunos, segundo uma distribuição em classes, necessitamos de algumas definições: 1. Dados Brutos: Aqueles que não foram numericamente organizados, como é o caso das 50 notas dos alunos. 2. Rol: É o arranjo dos dados brutos em ordem de grandeza crescente ou decrescente: 0 2 3 9 11 12 13 15 17 20 22 22 22 26 29 30 32 33 34 35 36 37 39 40 40 41 41 42 42 43 44 45 45 46 47 50 50 50 52 56 57 59 60 62 66 67 69 70 75 79 3. Intervalo de Classe: Existem várias maneiras de apresentarmos o intervalo de classes: iguais ou diferentes entre si. Porém, sempre que possível, deveremos optar por intervalos iguais, o que facilitará os cálculos posteriores. O tamanho do intervalo de classe é definido pelo pesquisador. Mas mesmo com intervalos iguais, as distribuições poderão apresentar-se da seguinte forma: 0 � 10: compreende todos os valores entre 0 e 10, exclusive os extremos. 0 `a 10: compreende todos os valores entre 0 e 10, inclusive os extremos. 0 a 10: compreende todos os valores entre 0 e 10, inclusive o 10 e exclusive o 0. 0 7!10 (ou 0 ` 10): compreende todos os valores entre 0 e 10, inclusive o 0 e exclusive o 10. Como optamos por este último tipo (0 7! 10), podemos definir como intervalo de classe a diferença entre o limite superior e o limite inferior da classe. Portanto, no exemplo, 10 � 0 = 10 é o intervalo ou amplitude da classe. 4. Amplitude Total ou "Range": é a diferença entre o maior e o menor dado. Em nosso caso, a nota maior é 79 é a menor é 0; logo, nossa amplitude total é 79� 0 = 79. 5. Número de Classes (K): quantas classes serão necessárias para representar o fato? Existem vários critérios que podem ser utilizados a fim de possuirmos uma idéia do melhor número de classes, porém tais critérios servirão apenas como indicação e nunca como regra fixa, pois caberá sempre ao pesquisador estabelecer o melhor número, levando-se em conta o intervalo de classe e a facilidade para os posteriores cálculos numéricos. 6. Amplitude ou Intervalo de Classes (h): h = amplitude total número de classes Teríamos no exemplo: 79 7 = 12 Dessa forma, o pesquisador, usando o bom-senso e a sua experiência, verificará que seria mais conveniente a utilização de um intervalo de classe igual a 10 e de um número de classes igual a 8, para que facilite as operações posteriores. Assim sendo: Exemplo de intervalos de classe. Classe (i) Notas (c i ) Freq. (f i ) 1 0 7! 10 4 2 10 7! 20 5 3 20 7! 30 6 4 30 7! 40 8 5 40 7! 50 12 6 50 7! 60 7 7 60 7! 70 5 8 70 7! 80 3 Total 50 20 3.3. EXERCÍCIOS NO EXCEL CAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA Observação: O número de classes e a amplitude são usados como base para a montagem de uma tabela. Podemos aumentar ou diminuir o número de classes e arredondar uma amplitude decimal. Use o bom senso. 7. Frequência Relativa da Classe Corresponde ao quociente entre a frequência absoluta da classe e o total de elementos. No exemplo, a frequência relativa da 7 a classe é: f r7 = 5 50 = 0; 1 = 10% Resumindo, teríamos: Tabela 3.2: Exemplo de intervalos de classe. Classe (i) Notas (c i ) Freq. (f i ) F.Rel.(f (r i) ) 1 0 7! 10 4 2 10 7! 20 5 3 20 7! 30 6 4 30 7! 40 8 5 40 7! 50 12 6 50 7! 60 7 7 60 7! 70 5 10 8 70 7! 80 3 Total 50 3.3 Exercícios no Excel 1. Os pesos dos 40 alunos de uma classe estão abaixo descritos: Pesos de 40 alunos. 69 57 72 54 93 68 72 58 64 62 65 76 60 49 74 59 66 83 70 45 60 81 71 67 63 64 53 73 81 50 67 68 53 75 65 58 80 60 63 53 Construir a distribuição de frequência simples desta tabela. 2. Organizar os dados em uma tabela de frequência simples e relativa. Dados brutos. 154 160 164 166 170 155 160 164 166 170 156 160 164 166 171 157 161 164 167 172 158 161 164 167 172 158 161 165 168 173 159 162 165 168 173 159 162 165 168 174 159 162 165 169 176 159 164 165 169 177 3. Os dados abaixo referem-se à taxa de creatinina na urina de 24 horas (mg/100 ml), em uma amostra de 36 homens normais. Distribua os dados em classes e represente sua frequência absoluta e relativa. Nível de creatinina na urina (24h) 1,51 1,61 1,69 1,49 1,67 2,18 1,46 1,89 1,76 1,08 1,66 1,52 1,40 1,22 1,46 1,43 1,49 1,54 1,38 1,47 1,73 1,60 1,43 1,58 1,66 1,26 1,59 1,40 1,44 1,52 1,37 1,86 2,02 1,75 1,83 1,66 21 3.4. GRÁFICOS DE COLUNAS E HISTOGRAMASCAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA 4. Os dados da tabela mostram o peso (kg) de 80 mulheres. Apresente-os em uma tabela de frequência. Pesos de 80 mulheres. 5. Substituir por uma única tabela o trecho do relatório a seguir: �Assim sendo, podemos concluir que este banco, em 1995, contou com a colaboração de 345 funcionários, distribuídos pelas nossas 5 agências, a saber: Niterói, 43; Rio de Janeiro, 102; São Paulo, 98; Belo Horizonte, 75; Vitória, 27. Em Niterói, 38 eram do sexo masculino e no Rio de Janeiro, 87. Apenas em Vitória não existiam funcionárias, mas em São Paulo trabalharam 11 delas, enquanto que em Belo Horizonte, apenas 3.� 6. A taxa de mortalidade infantil corresponde ao número médio de mortes, dentre 1000 crianças nascidas vivas, antes de completarem um ano de vida. Os dados da tabela representam a Taxa de mortalidade infantil dos municípios da Microrregião Oeste Catarinense (1982) e foram extraídos da publicação Municípios Catarinenses - Dados Básicos, 1987, GAPLAN - SC, que utiliza dados levantados pelo IBGE. Taxa de mortalidade infantil da microrregião. 32,3 62,2 10,3 22,0 13,1 9,9 18,3 33,0 20,0 22,7 27,2 11,9 36,4 23,5 18,0 22,6 20,3 38,3 32,9 29,9 29,7 39,2 25,4 19,6 28,9 18,4 27,3 21,7 23,7 13,9 23,8 15,7 17,0 36,3 Agrupe convenientemente os dados da tabela em classes (Distribuição de frequências). 3.4 Gráficos de Colunas e Histogramas Os gráficos de colunas (bastões) são comumente utilizados para representarem distribuições de frequências de grupamento simples enquanto que os histogramas representam distribuições em classes. Um histograma é composto por retângulos justapostos onde a base de cada um deles corresponde ao intervalo de classe e a sua altura à respectiva frequência. Exemplo: Construa o histograma da distribuição de frequência abaixo: Pressão arterial sistólica de 96 recém-nacidos. PAS(mmHg) f 55 ` 59 3 59 ` 63 5 63 ` 67 40 67 ` 71 24 71 ` 75 15 75 ` 79 8 79 ` 83 1 No Excel: Copie a tabela para o grid do Excel: 22 3.4. GRÁFICOS DE COLUNAS E HISTOGRAMASCAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA Selecione toda a tabela e clique sobre inserir > colunas > colunas 2D (primeira opção) Você vai obter o seguinte gráfico de colunas: Agora basta transformar este gráfico de colunas num histograma, para isto, clique com o botão direito sobre qualquer uma das colunas e selecione �Formatar Séries de Dados�. Na janela que se abre, defina �Largura do Espaçamento� como 0% e clique sobre "fechar". Você obterá o histograma abaixo. 23 3.5. GRÁFICO DE PIZZA CAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA A construção de histogramas tem caráter preliminar em qualquer estudo e é um importante indica- dor da distribuição de dados. Podem indicar se uma distribuição aproxima-se de uma função normal, como pode indicar mistura de populações quando se apresentam bimodais. 3.5 Gráfico de Pizza Um gráfico de setores (pizza) apresenta uma circunferência onde as "fatias"têm tamanhos pro- porcionais à s frequências da distribuição considerada. Para o exemplo da pressão arterial visto acima, criamos um gráfico de pizza selecionando: inserir > pizza > pizza 2D (primeira opção), obtendo a figura abaixo: 24 3.6. BOX PLOTS CAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA 3.6 Box Plots O boxplot (gráfico de caixa)é um gráfico utilizado para avaliar a distribuição do dados. O boxplot é formado pelo primeiro e terceiro quartil e pela mediana. As linhas que se projetam para fora da caixa em ambos os lados estendem-se para valores adjacentes do gráfico. Os valores adjacentes são as observações mais extremas no conjunto de dados que não estão a mais de 1,5 vez a altura da caixa além dos quartis. Todos os pontos fora do intervalo dos dados adjacentes são repesentados por círculos. Essas observações são consideradas fora do padrão e são chamadas de valores extremos. Exemplo: A tabela abaixo categoriza 10614 visitas ao consultório de especialistas de doenças cardiovasculares por duração de cada visita. Uma duração de 0 minuto implica que o paciente não teve contato direto com o especialista. 25 3.6. BOX PLOTS CAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA Duração Visitas (min) (milhares) 0 390 1 a 5 227 6 a 10 1023 11 a 15 3390 16 a 30 4431 31 a 60 968 mais de 61 185 No Bioestat: Gráficos > Box-Plot: mediana e quartis Obs: O Bioestat não mostra os valores extremos para o gráfico Box-Plot: mediana e quartis. Para saber quais são os valores mostrados no gráfico é preciso fazer a estatística descritiva: Estatísticas > Estatística Descritiva 26 3.7. A DISTRIBUIÇÃO NORMALCAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA 3.7 A Distribuição Normal Suponha que você faça um gráfico das probabilidades dos números de caras esperados em 15 jogadas sucessivas de uma moeda, ou suponha 1.000 pessoas na rua, escolhidas aleatoriamente, para cujas alturas você faz um diagrama de frequência: Distribuição de probabilidade. Histograma 27 3.8. DISTRIBUIÇÃO DE PROBABILIDADECAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA Esses dois gráficos são semelhantes. Essa curva em forma de sino, chamada curva normal, é a curva mais importante da estatística. Há inúmeros exemplos de grandezas que se distribuem segundo a curva normal: � a altura, o peso, ou o QI de uma população; � os resultados da medida de uma grandeza física, como o peso molecular de um composto químico; � o total que aparece quando vários dados são jogados simultaneamente; � o número de clientes semanais em muitos negócios. A distribuição normal se aplica frequentemente em situações em que valores extremos são menos prováveis do que valores moderados. 3.8 Distribuição de Probabilidade A frequência relativa de um valor estima a probabilidade de ocorrência deste valor. Exemplo: A tabela tem sua representação gráfica dada pelo gráfico de colunas. Número de irmãos relatados por 115 estudantes da UFRGS entre 1986 e 1992. N o de irmãos f f r F r 0 8 0,07 0,07 1 20 0,17 0,24 2 40 0,35 0,59 3 26 0,23 0,82 4 9 0,08 0,90 5 7 0,06 0,96 6 4 0,03 0,99 7 0 0,00 0,99 8 0 0,00 0,99 9 1 0,01 1,00 Gráfico de colunas relativo à tabela. 28 3.8. DISTRIBUIÇÃO DE PROBABILIDADECAPÍTULO 3. TABELAS E DISTRIBUIÇÕES DE FREQUÊNCIA A frequência relativa associada a x = 2 irmãos é de 0,35 na amostra estudada. Estima-se, então, que 35% dos universitários tem 2 irmãos. Isto equivale a dizer que se estima em 0,35 a probabilidade de que um universitário, selecionado ao acaso desta população, tenha dois irmãos. No gráfico de bastões, a probabilidade estimada para cada valor é a altura do bastão. Exemplo: A tabela tem sua representação gráfica dada pelo histograma. Pesos (kg) de 256 alunas da UFRGS. Peso (kg) f f r 40 7! 45 9 0,035 45 7! 50 36 0,141 50 7! 55 78 0,304 55 7! 60 55 0,215 60 7! 65 53 0,207 65 7! 70 11 0,043 70 7! 75 7 0,027 75 7! 80 5 0,020 80 7! 85 1 0,004 85 7! 90 1 0,004∑ 256 1,000 Histograma relativo à tabela. No histograma, a área do retângulo referente ao intervalo 45 7! 50 corresponde a 14% da área de todo o histograma (100%). Portanto, a área deste retângulo é a representação geométrica da probabilidade estimada de se encontrar valores entre 45 e 50 na população. 29 Capítulo 4 Medidas de Posição 4.1 Introdução O estudo que fizemos sobre distribuições de frequência, até agora, permite-nos descrever, de modo geral, os grupos dos valores que uma variável pode assumir. Dessa forma, podemos localizar a maior concentração de valores de uma dada distribuição, isto é, se ela se localiza no início, no meio ou no final, ou ainda, se há uma distribuição por igual. Porém, para ressaltar as tendências características de cada distribuição, isoladamente, ou em con- fronto com outras, necessitamos introduzir conceitos que se expressem através de números, que nos permitam traduzir essas tendências. Esses conceitos são denominados elementos típicos da distribui- ção e são as: a. medidas de posição; b. medidas de variabilidade ou dispersão; c. medidas de assimetria; d. medidas de curtose. Dentre os elementos típicos, destacamos, nesta unidade, as medidas de posição: estatísticas que representam uma série de dados orientando-nos quanto à posição da distribuição em relação ao eixo horizontal (eixo das abscissas). As medidas de posição mais importantes são as medidas de tendência central, que recebem tal denominação pelo fato de os dados observados tenderem, em geral, a se agrupar em torno dos valores centrais. Dentre as medidas de tendência central, destacamos: a média aritmética; a mediana e a moda. As outras medidas de posição são as separatrizes, que englobam a própria mediana; os quartis e os percentis. 4.2 Média Aritmética (x) Existem vários tipos de média (aritmética, ponderada, geométrica, harmônica, etc.), mas estuda- remos apenas a média aritmética. Média aritmética é o quociente da divisão da soma dos valores da variável pela quantidade deles: x = ∑ x i n onde, x é a média aritmética, x i são os valores da variável e n é a quantidade de valores. Dados com agrupamento simples Quando desejamos conhecer a média dos dados não-agrupados, determinamos a média aritmética simples. 30 4.2. MÉDIA ARITMÉTICA (X) CAPÍTULO 4. MEDIDAS DE POSIÇÃO Exemplo: Sabendo-se que a produção leiteira diária da vaca A, durante uma semana, foi de 10, 14, 13, 15, 16, 18 e 12 litros, temos, para produção média da semana: x = 10 + 14 + 13 + 15 + 16 + 18 + 12 7 = 98 7 = 14 Logo, a média da produção de leite foi de 14 litros por dia. Às vezes, a média pode ser um número diferente de todos os da série de dados que ela representa. É o que acontece quando temos os valores 2, 4, 8 e 9, para os quais a média é 5. Esse será o número representativo dessa série de valores, embora não esteja nos dados originais. Neste caso, diz-se que a média não tem existência concreta. Exemplo: Determine a média dos volumes respiratórios forçados em um segundo para 10 adoles- centes que sofrem de asma, representados na tabela: Volumes respiratórios por indivíduo. Indivíduo FEV(litros) 1 2,30 2 2,15 3 3,50 4 2,60 5 2,75 6 2,82 7 4,05 8 2,25 9 2,68 10 3,00∑ = Resp.: 2,81 litros Consideremos a distribuição relativa a 34 famílias de 4 filhos, tomando para variável o número de filhos do sexo masculino: Número de filhos por família. Número de meninos f i 0 2 1 6 2 10 3 12 4 4∑ = 34 Neste caso, como as frequências são números indicadores da intensidade de cada valor da variável, elas funcionam como fatores de ponderação, o que nos leva a calcular a média aritmética ponderada, dada pela fórmula: x = ∑ x i � f i∑ f i Um modo prático de obtenção da média ponderada é abrir, na tabela, uma coluna correspondente aos produtos x i � f i . Assim, temos: Número de filhos por família. Número de meninos f i x i � f i 0 2 1 6 2 10 3 12 4 4 TOTAL 34 31 4.2. MÉDIA ARITMÉTICA(X) CAPÍTULO 4. MEDIDAS DE POSIÇÃO Observação: O valor médio obtido acima de 2,3 meninos sugere, neste caso, que o maior número de famílias tem 2 meninos e 2 meninas, sendo, porém, a tendência geral uma leve superioridade numérica em relação ao número de meninos. Com Intervalos de Classes Neste caso, convencionamos que todos os valores incluídos em um determinado intervalo de classe coincidem com o seu ponto médio, e determinamos a sua média aritmética ponderada por meio da fórmula que já conhecemos: x = ∑ x i �f i∑ f i , porém, agora, x i é o ponto médio de cada classe. Exemplo: Altura de 40 alunos da escola X - Santa Maria - 2007. i Estaturas (cm) f i 1 150 ` 154 4 2 154 ` 158 9 3 158 ` 162 11 4 162 ` 166 8 5 166 ` 170 5 6 170 ` 174 3 TOTAL 40 Primeiro vamos abrir uma coluna para os pontos médios e outra para os produtos x i � f i . Altura de 40 alunos da escola X - Santa Maria - 2007. i Estaturas (cm) f i x i x i � f i 1 150 ` 154 4 2 154 ` 158 9 3 158 ` 162 11 4 162 ` 166 8 5 166 ` 170 5 6 170 ` 174 3 TOTAL 40 � Resp.: 161cm Exercício: Determine a média de níveis séricos de colesterol entre os homens indicados na tabela: Níveis séricos de colesterol para homens de Santa Maria com idades entre 25 e 34 anos. Nível de colesterol(mg=10ml) f i x i x i � f i 80 ` 120 13 120 ` 160 150 160 ` 200 442 200 ` 240 299 240 ` 280 115 280 ` 320 34 320 ` 360 9 360 ` 400 5 TOTAL 1067 � Resp.: 199,34 Vantagens e desvantagens da média aritmética Por ser muito influenciada por valores extremos da série, a média aritmética não representa bem as distribuições em que existem valores extremos em relação aos demais, como, por exemplo, a série 32 4.3. MODA (M O ) CAPÍTULO 4. MEDIDAS DE POSIÇÃO cujos elementos são os seguintes: 18, 20, 22, 24 e 850 (onde a média aritmética é igual a 186,8, resultado que foi muito influenciado pelo elemento 850). 1) Apesar de a média aritmética situar-se entre o menor e o maior resultado da distribuição de frequências, ela não tem, necessariamente, a existência real. Podemos obter, por exemplo, uma média do tamanho de família de 4,5 pessoas, que é um valor inexistente. 2) Pode ser calculada para distribuições com classes, mas os seus resultados não são considerados reais. 3) Pode ser calculada diretamente usando qualquer calculadora eletrônica. 4) Depende de todos os valores da distribuição. 5) Evidencia bastante estabilidade de amostra para amostra, ou seja, se pesquisarmos numerosas amostras extraídas de uma mesma população, os valores das médias obtidas tendem a variar pouco (pouca variabilidade com amostras da mesma população). 4.3 Moda (M o ) Denominamos moda o valor que ocorre com maior frequência em uma série de valores. Dados com agrupamento simples Quando lidamos com valores não-agrupados, a moda é facilmente reconhecida: basta procurar o valor que mais se repete. Exemplo: A série de dados: 7, 8, 9, 10, 10, 10, 11, 12, 13, 15 tem moda igual a 10. Podemos, entretanto, encontrar séries nas quais não exista valor modal, isto é, nas quais nenhum valor apareça mais vezes que outros. É o caso da série: 3, 5, 8, 10, 12, 13, que não apresenta moda (amodal). Em outros casos, ao contrário, pode haver dois ou mais valores de concentração. Dizemos, então, que a série tem dois ou mais valores modais. Na série: 2, 3, 4, 4, 4, 5, 6, 7, 7, 7, 8, 9 temos duas modas: 4 e 7 (bimodal). A moda é utilizada: quando desejamos obter uma medida rápida e aproximada de posição; quando a medida de posição deve ser o valor mais típico da distribuição. 33 4.4. MEDIANA (M D ) CAPÍTULO 4. MEDIDAS DE POSIÇÃO 4.4 Mediana (M d ) A mediana é outra medida de posição, definida como o número que se encontra no centro de uma série de números, estando estes dispostos segundo uma ordem (em Rol). Em outras palavras, a mediana de um conjunto de valores, ordenados segundo uma ordem de grandeza, é o valor situado de tal forma no conjunto que o separa em dois subconjuntos de mesmo número de elementos. Exemplo: Seja a seguinte série de valores: 5, 13, 10, 2, 18, 15, 6, 16, 9. O primeiro passo é ordenar os números (ordem crescente ou decrescente): 2, 5, 6, 9, 10, 13, 15, 16, 18. Em seguida, tomamos aquele valor central que apresenta o mesmo número de elementos à direita e à esquerda. Em nosso exemplo, esse valor é o 10, já que, há quatro elementos acima dele e quatro abaixo. Temos, então: M d = 10 Se, porém, a série dada tiver um número par de termos, a mediana será, por definição, qualquer dos números compreendidos entre os dois valores centrais da série. Convencionou-se utilizar o ponto médio. Assim, a série de valores: 2, 6, 7, 10, 12, 13, 18, 21 tem para mediana a média aritmética entre 10 e 12. M d = 10 + 12 2 = 11 Verificamos que, estando ordenados os valores de uma série e sendo n o número de elementos da série, o valor mediano será: o termo de ordem n+1 2 , se n for ímpar; a média aritmética dos termos de ordem n 2 e n 2 + 1 , se n for par. A mediana é utilizada: quando desejamos obter o ponto que divide a distribuição em partes iguais; quando há valores extremos que afetam de uma maneira acentuada a média. Observação: No cálculo da média, todos os valores da amostra são levados em conta, ao passo que no caso da mediana isto não acontece. Por esta razão, valores muito grandes ou muito pequenos, comparados aos demais valores da amostra, causam grandes variações na média, o que em geral não ocorre com a mediana. Por isso, dizemos que a mediana é robusta, isto é, ela é resistente a valores atípicos. 4.5 Exercícios no Excel 1. A tabela abaixo lista as durações das terapias para dez pacientes inscritos em um estudo que investiga os efeitos da interrupção das transfusões de sangue. Determine a média desses valores. Duração da terapia de transfusão para 10 pacientes com doenças falciformes. Indivíduo Duração 1 12 2 11 3 12 4 6 5 11 6 11 7 8 8 5 9 5 10 5 TOTAL Resp.: 8,6 anos 34 4.5. EXERCÍCIOS NO EXCEL CAPÍTULO 4. MEDIDAS DE POSIÇÃO 2. Na sequência temos a massa (peso) em gramas, de ratos da raça Wistar com 30 dias de idade. (Fonte: Vieira, S., 1980). Calcule a média aritmética. 50 62 70 86 66 55 60 77 82 64 58 74 Resp.: 67 3. Os tempos de reação de um indivíduo a determinados estímulos foram medidos por um psico- logista como sendo 0,53; 0,46; 0,50; 0,49; 0,52; 0,53; 0,44 e 0,55 segundos, respectivamente. Determinar: os tempos médio, modal e mediano de reação do indivíduo a esses estímulos. Resp.: 0,50; 0,53; 0,51 4. Calcule a média dos números de dentes perdidos ou danificados em uma amostra de 50 pessoas tratadas em determinada clínica dentária (Fonte: Callegari- Jacques, S. 2003). Dentes perdidos ou danificados. Número de dentes (x) Número de pessoas (f i ) x � f i 0 9 1 5 2 6 3 7 4 9 5 5 6 4 7 3 8 2 TOTAL 50 Resp.: 3,2 dentes 5. Calcule o número médio de dentes cariados, para cada sexo, a partir dos dados apresentados na tabela a seguir: Resp.: Masc.: 0,88 e Fem.: 1,6 Número de dentes cariados das pessoas tratadas em uma clínica dentária � Santa Maria/RS. Número de Sexo dentes cariados Masculino Feminino 0 16 14 1 2 6 2 3 7 3 2 8 4 2 5 Total Resp.: Média Masc.: 0,88; Média Fem.: 1,6 6. Quinze indivíduos foram sujeitos à recolha de urina em dois momentos, antes da toma de um diurético e após a tomada desse diurético, tendo-se obtido os valores em litros/dia mostrados na tabela: Coleta de urina. Indiv. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Sem 1,2 1,2 1,2 1,2 1,1 1,3 1,8 1,21,1 1,4 1,1 1,3 1,1 1,2 1,3 Com 1,4 1,3 1,5 1,4 1,3 1,6 2,1 1,4 1,3 1,5 1,2 1,4 1,2 1,2 1,3 35 4.5. EXERCÍCIOS NO EXCEL CAPÍTULO 4. MEDIDAS DE POSIÇÃO a) Determine as medidas de localização central da urina sem diurético. Resp.: x = 1; 25; M d = 1; 2 e M o = 1; 2. b) Determine as medidas de tendência central da urina com diurético. Resp.: x = 1; 41; M d = 1; 4 e M o = 1; 3 e 1; 4. 7. Durante uma epidemia de escarlatina, recolheu-se um certo número de mortos, em 40 cidades de um país, obtendo-se os dados da tabela .(DIAZ e LOPEZ, 2007) Quantidade de mortos devido à escarlatina. Mortos(número) 0 1 2 3 4 5 6 7 Cidades 7 11 10 7 1 2 1 1 a) Calcule as medidas de posição central. Resp.: x = 1; 98; M d = 2 e M o = 1. b) Calcule a porcentagem de cidades com pelo menos dois mortos. Resp.: 55% c) Calcule a porcentagem de cidades com no máximo 2 mortos. Resp.: 70% d) Calcule a porcentagem de cidades com no mínimo 3 mortos. Resp.: 30% 8. A tabela mostra a composição por idade e sexo de um grupo de trabalhadores, com tuberculose pulmonar, numa determinada cidade. Distribuição da tuberculose por sexo. Idade(anos) Homem Mulher Total 14 ` 19 2 2 4 19 ` 24 10 5 15 24 ` 29 33 9 42 29 ` 34 45 12 57 34 ` 39 39 8 47 39 ` 44 21 4 25 Total Pede-se: Qual é a média de idade dos trabalhadores do sexo masculino e feminino com tuberculose pulmonar. Resp.: F: 30,38 anos; M: 32,23 anos 36 Capítulo 5 Separatrizes Como vimos, a mediana separa uma série de valores em dois grupos que apresentam a mesma quantidade de elementos. Assim, além das medidas de posição que estudamos, há outras que, consideradas individualmente, não são medidas de tendência central, já que se baseiam em sua posição na série. Essas medidas � os quartis, os percentis e os decis � são, juntamente com a mediana, conhecidas pelo nome genérico de separatrizes. 5.1 Quartis Denominamos quartis os valores de uma série que a dividem em quatro partes iguais. Há, portanto, três quartis: a) O primeiro quartil (Q 1 ): valor situado de tal modo na série que uma quarta parte (25%) dos dados é menor que ele e as três quartas partes restantes (75%) são maiores. b) O segundo quartil (Q 2 ): evidentemente, coincide com a mediana (Q 2 = M d ). c) O terceiro quartil (Q 3 ) � valor situado de tal modo que as três quartas partes (75%) dos termos são menores que ele e uma quarta parte (25%) é maior. 5.2 Decis e Percentis Os decis D i são valores que dividem os dados em 10 partes iguais enquanto que os percen- tis são os noventa e nove valores que separam uma série em 100 partes iguais. Indicamos por P 1 ; P 2 ; P 3 ; � � � ; P 32 ; � � � ; P 99 . P 50 = M d , P 25 = Q 1 e P 75 = Q 3 5.3 Exercícios no Excel 1. Com o objetivo de estudar a eficácia de um regime alimentar para tratamento de diabetes foram recolhidas 12 amostras de sangue em diabéticos e analisada a quantidade de açúcar. 37 5.3. EXERCÍCIOS NO EXCEL CAPÍTULO 5. SEPARATRIZES Obtiveram-se os resultados mostrados na tabela abaixo: Glicose de amostras sanguíneas (mg/100ml) 187.45 187.57 187.37 187.49 187.58 187.37 187.46 187.62 187.47 187.53 187.39 187.46 (a) Determine a média, moda e mediana. Resp.: x = 187:48 ; M o = 187:37; M d = 187:465 (b) Determine os quartis Q 1 e Q 3 . Resp.: Q 1 = 187:42 ; Q 3 = 187:55 2. Os dados referentes ao número de dentes cariados, perdidos ou obturados em uma amostra de 20 pessoas tratadas em uma determinada clínica dentária estão apresentados na tabela a seguir. Considerando dados brutos, pede-se: Dentes cariados, perdidos ou obturados. 6 4 1 0 2 3 0 5 0 4 4 6 0 1 3 5 8 3 2 7 Primeiro e o terceiro quartil . Interprete os resultados. Resp.: Q 1 = 1 (25% do total tem 0 ou 1 cárie); Q 3 = 3 3. Considerando 12 observações (ordenadas) do tempo de internação (dias) de acidentados no trabalho, em um certo hospital: 1, 4, 7, 9, 10, 13, 15, 17, 17, 18, 19, 21. Obtenha os quartis e interprete estes valores. Resp.: Q 1 = 8, Q 2 = 14 Q 3 = 17; 5 38 Capítulo 6 Medidas de Dispersão 6.1 Dispersão ou Variabilidade As medidas de dispersão procuram verificar o quanto os dados estão dispersos em torno de uma medida de posição (média, mediana ou moda), ou seja, elas informam o quanto os dados estão afastados, em média, do ponto central. Assim, não é o bastante dar uma das medidas de posição para caracterizar perfeitamente um conjunto de valores, pois, mesmo sabendo, por exemplo, que a temperatura média de duas cidades é a mesma, e igual a 24 � C, ainda assim somos levados a pensar a respeito do clima dessas cidades. Em uma delas poderá a temperatura variar entre limites de muito calor e de muito frio e haver, ainda, uma temperatura média de 24 � C. A outra poderá ter uma variação pequena de temperatura e possuir, portanto, no que se refere à temperatura, um clima mais favorável. Vemos, então, que a média � ainda que considerada como um número que tem a faculdade de representar uma série de valores � não pode, por si mesma, destacar o grau de homogeneidade ou heterogeneidade que existe entre os valores que compõem o conjunto. Exemplo: Consideremos os seguintes conjuntos de valores das variáveis x, y e z: X: 70, 70, 70, 70, 70. Y: 68, 69, 70, 71, 72. Z: 5, 15, 50, 120, 160. Calculando a média aritmética de cada um desses conjuntos, obtemos: X = 350 5 = 70 , Y = 350 5 = 70 e Z = 350 5 = 70. Vemos, então, que os três conjuntos apresentam a mesma média aritmética: 70. Entretanto, é fácil notar que o conjunto X é mais homogênea que os conjuntos Y e Z, já que todos os valores são iguais à média. O conjunto Y, por sua vez, é mais homogêneo que o conjunto Z, pois há menor diversificação entre cada um de seus valores e a média representativa. Chamando de dispersão ou variabilidade a maior ou menor diversificação dos valores de uma variável em torno de um valor de tendência central tomado como ponto de comparação, podemos dizer que o conjunto X apresenta dispersão ou variabilidade nula e que o conjunto Y apresenta uma dispersão ou variabilidade menor que o conjunto Z. Portanto, para qualificar os valores de uma dada variável, ressaltando a maior ou menor dispersão ou variabilidade entre esses valores e a sua medida de posição, a Estatística recorre à s medidas de dispersão ou de variabilidade. Dessas medidas, estudaremos a amplitude total, a variância, o desvio padrão e o coeficiente de variação. 39 6.2. AMPLITUDE TOTAL CAPÍTULO 6. MEDIDAS DE DISPERSÃO 6.2 Amplitude Total É a diferença entre o maior e o menor valores observados e serve para ajudar a entender a dispersão dos dados, assim, amplitudes grandes indicam dados dispersos enquanto que amplitudes pequenas indicam que os dados são mais homogêneos. Exemplo: Consideremos quatro grupos de alunos cujas notas são: Grupo A � 7, 5, 6, 9 e 8; Grupo B � 9, 10, 4, 1, 8 e 10; Grupo C � 5, 7, 7, 7,7, 7, 7, 7, 7 e 9; Grupo D � 7, 7, 7 e 7. Com base na amplitude ou intervalo total, qual é o mais homogêneo? Resp.: Grupo B, Grupos A e C (empatados) e Grupo D. Comentário: Vimos acima que os grupos A e C são considerados igualmente homogêneos por terem o mesmo intervalo total. No entanto, um simples exame visual das notas respectivas nos leva a concluir que certamente o grupo C é o mais homogêneo, uma vez que dá para perceber que os seus elementos estão mais próximos entre si que os elementos do grupo A. O que de fato ocorre é que, infelizmente, o intervalo total não é uma medida capaz de quantificar de modo eficiente a dispersão de uma série, uma
Compartilhar