Prévia do material em texto
universidade federal de santa maria centro de ciências naturais e exatas departamento de estatística núcleo de estatística aplicada Anaelena B. Moraes | Luciane F. Jacobi | Roselaine R. Zanini ESTATÍSTICA 22ª edição universidade federal de santa maria centro de ciências naturais e exatas departamento de estatística núcleo de estatística aplicada Anaelena B. Moraes Luciane F. Jacobi Roselaine R. Zanini Santa Maria, 2011 ESTATÍSTICA Esse caderno é uma produção da Série Naturais e Exatas/ ccne/ ufsm Contato: sne.ufsm@gmail.com Felipe Martins Müller reitor Dalvan José Reinert vice-reitor Martha Bohrer Adaime diretora do ccne Paulo Roberto Magnago vice-diretor do ccne João Eduardo da Silva Pereira chefe do departamento de estatística Ligia Manara Miletto Marcuz João Alfredo Carvalho Lopes coordenação Laboratório de Design Grágico da ufsm projeto gráfico Mariane Alves Rodrigues diagramação & produção gráfica Francielli Mancio Ferreira Sabrina dos Santos Cardoso revisão ortográfica Anaelena Bragança de Moraes Luciane Flores Jacobi Roselaine Ruviaro Zanini elaboração do conteúdo Murilo Wehner Flores colaborador Ficha catalográfica elaborada por Maristela Eckhardt crb–10/737 Biblioteca Central - ufsm Moraes, Anaelena B. Estatística / Anaelena B. Moraes, Luciane F. Jacobi, Roselaine R. Zanini. – Santa Maria : ufsm, ccne, Departamento de Estatística, Núcleo de Estatística Aplicada, 2011. 152 p. : il. ; 29 cm. – (Série Naturais & Exatas) 1. Estatística 2. Probabilidade 3. Inferência I. Jacobi, Luciane F. II. Zanini, Roselaine R. III. Título IV. Série cdu 519.2 M827e sumário Apresentação �������������������������������������������������������������������������������������������������� 6 Capítulo 1 | Conceitos iniciais ���������������������������������������������������������������������� 7 1�1�|�Conceito�de�estatística�������������������������������������������������������������������������������8� 1�2�|�Divisão�da�estatística����������������������������������������������������������������������������������8 1�3�|�População������������������������������������������������������������������������������������������������� 10� 1�4�|�Amostra����������������������������������������������������������������������������������������������������� 10 1�5�|�Dados�estatísticos������������������������������������������������������������������������������������ 10� 1�6�|�Variável����������������������������������������������������������������������������������������������������� 10 1�7�|�Níveis�de�mensuração�de�uma�variável��������������������������������������������������� 11� 1�8�|�Arredondamento�de�dados���������������������������������������������������������������������13 1�9�|�Método�estatístico����������������������������������������������������������������������������������� 14 1�10�|�Representação�tabular����������������������������������������������������������������������������15 1�11�|�Séries�estatísticas������������������������������������������������������������������������������������� 16 1�12�|�Representação�gráfica�����������������������������������������������������������������������������17 Capítulo 2 | Distribuições de frequências ������������������������������������������������� 23 2�1�|�Representação�de�variáveis��������������������������������������������������������������������� 24 2.1.1 | Discretas .............................................................................................. 24 2.1.2 | Contínuas ............................................................................................ 24 2�2�|�Alguns�conceitos�básicos������������������������������������������������������������������������ 24 2.2.1 | Dados brutos ...................................................................................... 25 2.2.2 | Rol ....................................................................................................... 25 2.2.3 | Amplitude total .................................................................................. 25 2.2.4 | Classe .................................................................................................. 25 2.2.5 | Limites de classe ................................................................................. 25 2.2.6 | Amplitude de classe .......................................................................... 26 2.2.7 | Ponto médio de classe ....................................................................... 26 2.2.8 | Tipos de frequências .......................................................................... 26 2.2.9 | Exemplos de distribuições de frequências ....................................... 27 2.2.10 | Gráficos representativos de uma distribuição de frequências em classes ............................................................................................................ 28 Capítulo 3 | Medidas descritivas ������������������������������������������������������������������ 33 3�1�|�Introdução������������������������������������������������������������������������������������������������ 34 3�2�|�Medidas�de�tendência�central���������������������������������������������������������������� 35 3.2.1 | Média aritmética ................................................................................. 35 3.2.2 | Mediana .............................................................................................. 36 3.2.3 | Moda .................................................................................................. 38 3�3�|�Separatrizes��������������������������������������������������������������������������������������������� 40 3.3.1 | Quartis .................................................................................................40 3.3.2 | Decis ................................................................................................... 42 3.3.3 | Percentis ............................................................................................. 42 3�4�|�Medidas�de�dispersão����������������������������������������������������������������������������� 43 3.4.1 | Amplitude de variação ....................................................................... 44 3.4.2 | Soma de quadrados ........................................................................... 44 3.4.3 | Variância ............................................................................................. 44 3.4.4 | Desvio padrão ....................................................................................46 3.4.5 | Coeficiente de variação .....................................................................46 3�5�|�Assimetria�e�curtose��������������������������������������������������������������������������������47 3.5.1 | Assimetria ............................................................................................ 47 3.5.2 | Curtose ...............................................................................................49 Capítulo 4 | Probabilidade ������������������������������������������������������������������������� 53 4�1�|�Introdução������������������������������������������������������������������������������������������������54� 4�2�|Noções�de�experimento,�espaço�amostral�e�eventos���������������������������54 4.2.1 | Experimento aleatório ........................................................................ 55 4.2.2 | Espaço amostral ................................................................................. 55 4.2.3 | Evento ................................................................................................. 55 4�3�|�Álgebra�de�eventos����������������������������������������������������������������������������������57 4�4�|�Conceitos�de�probabilidade������������������������������������������������������������������57 4.4.1 | Conceito empírico .............................................................................57 4.4.2 | Definição clássica de probabilidade ................................................58 4.4.3 | Definição axiomática ........................................................................59 4�5�|�Probabilidade�condicionada������������������������������������������������������������������59 4�6�|�Independência�estatística��������������������������������������������������������������������� 60 4�7�|�Teorema�de�Bayes�����������������������������������������������������������������������������������62 4�8�|�Resumo�das�propriedades�do�cálculo�de�probabilidades�������������������62 4�9�|�Avaliação�de�testes�diagnósticos�����������������������������������������������������������63 4.9.1 | Sensibilidade e especificidade ..........................................................64 4.9.2 | Valores de predição de um teste .....................................................65 4�10�|�Coeficientes�e�índices���������������������������������������������������������������������������65 4.10.1 | Estatística vital ...................................................................................66 4.10.2 | Frequência relativa ou proporção ..................................................66 4.10.3 | Número-índice ................................................................................67 4.10.4 | Coeficiente ou taxa .........................................................................67 4.10.5 | Índice ...............................................................................................68 4.10.5 | Alguns coeficientes na área da saúde .............................................69 5 | Variáveis aleatórias ��������������������������������������������������������������������������������� 70 5�1�|�Noções�sobre�variáveis�aleatórias���������������������������������������������������������� 70� 5�2�|�Variáveis�aleatórias�discretas������������������������������������������������������������������ 71 5.2.1 | Função de probabilidade .................................................................. 72 5.2.2 | Valor esperado ou média de uma variável aleatória discreta .......... 72 5.2.3 | Variância de uma variável aleatória discreta .................................... 73 5�3�|�Variáveis�aleatórias�contínuas���������������������������������������������������������������� 73 5.3.1 | Função densidade de probabilidade ................................................74 5.3.2 | Valor esperado ou média de uma variável aleatória contínua ........74 5.3.3 | Variância de uma variável aleatória contínua ................................... 75 5�4�|�Modelos�probabilísticos�para�variáveis�aleatórias�������������������������������75 5.4.1 | Distribuição binomial ........................................................................76 5.4.2 | Distribuição de Poisson ....................................................................78 5.4.3 | Distribuição normal .......................................................................... 81 5.4.4 | Distrubuição qui-quadrado (2) ....................................................... 81 5.4.5 | Distribuição “t” de Student ...............................................................82 5.4.6 | Distribuição “F” (Fisher) de Snedecor ..............................................85 Capítulo 6 | Amostragem ��������������������������������������������������������������������������� 86 6�1�|�Introdução����������������������������������������������������������������������������������������������� 86 6.1.1 | Definição de amostragem ..................................................................87 6.1.2 | Importância da utilização da amostragem ........................................87 6.1.3 | Situações em que pode não valer a pena a realização de uma amostragem ...................................................................................................88 6.1.4 | Tipos de investigação .........................................................................88 6�2�|�Tipos�de�amostragem�probabilística���������������������������������������������������� 88 6.2.1 | Amostragem aleatória simples (a.s.s) ............................................... 89 6.2.2 | Amostragem sistemática ..................................................................90 6.2.3 | Amostragem estratificada ................................................................. 91 6�3�|�Distribuição�por�amostragem��������������������������������������������������������������� 92 6.3.1 | Amostragem com ou sem reposição ................................................92 6.3.2 | Distribuição amostral das médias .................................................... 93 6�4�|Determinação�do�tamanho�da�amostra������������������������������������������������ 94 6.4.1 | Para estimar uma média populacional ............................................. 95 6.4.2 | Para estimar uma proporção populacional ..................................... 97 Capítulo 7 | Estimação de parâmetros �������������������������������������������������������98 7�1�|�Introdução����������������������������������������������������������������������������������������������� 99 7�2�|�Estimativas�pontuais�e�intervalares������������������������������������������������������� 99 7�3�|�Tipos�de�intervalos��������������������������������������������������������������������������������� 99 7.3.1 | Intervalo de confiança para uma média populacional .................. 100 7.3.2 | Intervalo de confiança para uma proporção populacional ........... 101 7.3.3 | Intervalo de confiança para a diferença entre duas médias popula- cionais ......................................................................................................... 104 7.3.4 | Intervalo de confiança para a diferença entre duas proporções populacionais ............................................................................................. 104 Capítulo 8 | Testes de hipóteses paramétricos ��������������������������������������� 105 8�1�|�Introdução��������������������������������������������������������������������������������������������� 106 8�2�|�Hipótese�estatística������������������������������������������������������������������������������ 106 8�3�|�Teste�de�hipótese��������������������������������������������������������������������������������� 106 8.3.1 | Hipóteses .........................................................................................107 8.3.2 | Tipos de erros ..................................................................................107 8.3.3 | Níveis de significência do teste ..................................................... 108 8.3.4 | Graus de liberdade .........................................................................108 8.3.5 | Teste bilateral ..................................................................................108 8.3.6 | Teste unilateral ............................................................................... 109 8.3.7 | Probabilidade exata do teste ..........................................................109 8.3.8 | Procedimento para a realização de um teste de hipóteses ..........109 8�4�|�Testes�de�hipóteses�paramétricos������������������������������������������������������� 110 8.4.1 | Teste para uma média com variância populacional s2 conhecida . 110 8.4.2 | Teste para uma média com variância populacional s2 desconhecida .........................................................................................................................111 8.4.3 | Teste para uma proporção populacional ....................................... 112 8.4.4 | Teste para a diferença entre duas médias populacionais indepen- dentes ...........................................................................................................116 8.4.5 |Teste para a diferença entre duas amostras dependentes –Teste t pareado .........................................................................................................119 8.4.6 | Teste para a diferença entre duas proporções populacionais ..... 121 8.4.7 | Teste para a diferença entre duas variâncias populacionais .......... 121 Capítulo 9 | Análise de variância – anova �������������������������������������������������122 9�1�|�Introdução���������������������������������������������������������������������������������������������� 122 9�2�|�Pressuposições�básicas�à�aplicação�da�anova������������������������������������� 122 9�3�|�anova�–�Uma�classificação:�amostras�de�mesmo�tamanho���������������� 125 9�4�|�anova�–�Uma�classificação:�amostras�de�tamanhos�diferentes��������� 125 9�5�|Comparação�de�médias������������������������������������������������������������������������126 9.5.1 | Teste de Tuckey .................................................................................129 Capítulo 10 | Testes de hipóteses não-paramétricos ������������������������������ 130 10�1�|�Testes�de�adequação����������������������������������������������������������������������������132 10�2�|�Teste�de�independência�����������������������������������������������������������������������133 10�3�|�Coeficiente�de�contingência����������������������������������������������������������������137 Capítulo 11 | Correlação e regressão linear simples �������������������������������� 138 11�1�|�Correlação�linear�simples��������������������������������������������������������������������� 140 11.1.1 | Estimativa do coeficiente de correlação .......................................... 140 11.1.2 | Teste para o coeficiente de correlação.............................................142 11�2�|�Regressão�linear�simples���������������������������������������������������������������������� 142 11.2.1 | Considerações na análise de regressão ............................................145 11�3�|�Teste�para�a�significância�da�regressão����������������������������������������������� 146 11�4�|�Coeficiente�de�determinação�������������������������������������������������������������� 146 Capítulo 12 | Referências bibliográficas ��������������������������������������������������� 149 O objetivo principal deste texto é oferecer um material didático básico, em português, para o desenvolvimento das disciplinas de estatística ofer- tadas nos cursos de graduação e pós-graduação da Universidade Federal de Santa Maria. O texto se originou de notas de aulas das disciplinas de estatística minis- tradas pelas autoras. Existem vários livros sobre os assuntos abordados nesse material didá- tico, mas os materiais já existentes não apresentam a seqüência aconse- lhada e a objetividade necessária para o desenvolvimento do conteúdo programático das disciplinas. Este texto certamente não está livre de erros. Portanto, comentários e sugestões dos leitores são sempre bem-vindos. Santa Maria, 2011 Anaelena Bragança de Moraes Luciane Flores Jacobi Roselaine Ruviaro Zanini apresentação CCNE��.�UFSM estatística 8 conceitos iniciais Conceito de estatística Divisão da estatística População Amostra Dados estatísticos Variável Níveis de mensuração de uma variável Arredondamento de dados Método estatístico Representação tabular Séries estatísticas Representação gráfica 1 CCNE��.�UFSM estatística 10 1 | Conceitos iniciais 1.1 | conceito de estatística Existem muitas definições propostas por autores, objetivando estabelecer com clareza o que é estatística, como por exemplo: • a estatística é um conjunto de métodos destinados à coleta, organi- zação, resumo, apresentação e análise de dados de observação, bem como a tomada de decisões razoáveis baseadas em tais análises; • a estatística é a matemática aplicada aos dados de observação; • a estatística é um conjunto de processos ou técnicas empregadas na investigação e análise de fenômenos coletivos ou de massa. 1.2 | divisão da estatística A estatística divide-se em estatística geral ou metodológica e estatística aplicada. A estatística geral subdivide-se em descritiva e indutiva. Estatística geral Visa a elaborar métodos gerais aplicáveis a todas as fases do estudo dos fenômenos de massa. A estatística matemática é a parte da estatística geral que tem por finalidade o estudo das propriedades matemáticas dos fenô- menos de massa e a dedução e demonstração rigorosa dos procedimen- DEPARTAMENTO DE ESTATÍSTICA conceitos iniciais 11 tos e fórmulas usadas. A estatística geral ainda pode ser dividida em dois grandes campos: Estatística descritiva Trata da coleta, organização, classificação, apresentação e descrição dos dados de observação. Refere-se à maneira de apresentar um conjunto de dados em tabelas e gráficos e à maneira de resumir, através de certas me- didas, as informações contidas nestes dados. Estatística indutiva ou inferencial Visa a tirar conclusões sobre a população a partir de amostras. Refere-se à maneira de estabelecer conclusões para toda uma população quando se observar apenas parte desta população. Estatística aplicada É todo o ramo do conhecimento científico que proceda, única ou princi- palmente, por intermédio da metodologia estatística. Exemplos: Biometria (ciência que trata da mensuração da vida e dos processos vitais), Demo- grafia, Econometria, Psicometria (mensuração da personalidade, do de- senvolvimento mental e do comportamento de indivíduos e grupos e seus ajustamentos a mudanças no meio ambiente), Mecânica Estatística, Socio- metria (maneira como as pessoas vivem, sua cultura, opiniões e atitudes, assim como o relacionamento de uns com os outros). Algumas aplicações da estatística A estatística é uma ciência de múltiplas aplicações e de fundamental im- portância no campo da investigação científica, sendo de utilização cada vez mais acentuada em qualquer atividade profissional. Então, é razoável que os profissionais de diversas áreas adquiram um mínimo de conheci- mento técnico sobre estatística que possibilite a compreensão de termos como: variabilidade, regressão, correlação, significância, etc. que apare- cem com frequência em artigos de publicações especializadas. CCNE��.�UFSM estatística 12 1.3 | população É todo conjunto de elementos que possuam ao menos uma característica comum observável. Obs.: elementos = objetos, animais, pessoas, material contínuo (sólido, líquido ou gás). 1.4 | amostra É uma parte da população, sendo que essa parcela deve ser selecionada de acordo com algum critério para que possa ser representativa da população. 1.5 | dados estatísticos São as características observadas ou medidas nos elementos, sendo que os dados de observação constituem a matéria-prima da estatística. 1.6 | variável É um símbolo, como X, Y, Z, ..., que pode assumir resultados de um con- junto, os quais lhe são atribuídos. Este conjunto é chamado domínio da variável; se a variável pode assumir somente um valor, ela é denominada constante. As variáveis podem ser classificadas em: Variáveis qualitativas ou atributos: indica alguma propriedade do fenô- meno de observação; Variáveis quantitativas discretas: quando podem assumir apenas al- guns valores de um conjunto; Variáveis quantitativas contínuas: quando podem assumir, teoricamen- te, qualquer valor de um conjunto. Em geral, as medições dão origem a variáveis contínuas, enquanto as enumerações ou contagens resultam em variáveis discretas. Exemplo: Classificar as variáveis em qualitativas ou quantitativas (discretas DEPARTAMENTO DE ESTATÍSTICA conceitos iniciais 13 ou contínuas). a) quantidade de alcatrão em cigarros; b) altitude de um avião; c) número de assinantes de um serviço de computador on-line; d) precipitação pluviométrica durante um ano; e) salário dos funcionários de uma empresa; f) gênero dos filhos de casais residentes em uma cidade. Solução: a) variável quantitativa contínua;b) variável quantitativa contí- nua; c) variável quantitativa discreta; d) variável quantitativa contínua; e) variável quantitativa discreta; f) variável qualitativa. 1.7 | níveis de mensuração de uma variável Nível de mensuração significa a escala em que foi medida a variável, obje- to de investigação. São quatro os níveis de mensuração: nominal, ordinal, intervalar e de razão. Nível nominal A mensuração, em seu mais baixo nível, existe quando números ou ou- tros símbolos são utilizados para classificar um elemento. Estes números ou símbolos constituem uma escala nominal ou classificadora. As únicas estatísticas aplicáveis são: a moda e as frequências. Nível ordinal Pode ocorrer que os elementos em uma categoria de dada escala não se- jam apenas diferentes dos elementos de outras categorias da mesma escala, mas que guardem certo tipo de “relação” com eles. Isto é, a variável em es- tudo é partida em categorias ordenadas em graus convencionados haven- do uma relação entre categorias do tipo: “maior do que”. Pode-se calcular a mediana e todas as estatísticas de postos, além da moda e das frequências. Nível intervalar Quando a escala tem todas as características de uma escala ordinal e, além CCNE��.�UFSM estatística 14 disso, conhecem-se as distâncias entre dois números quaisquer da escala, consegue-se uma mensuração consideravelmente mais forte que a ordinal. Atribui-se à variável um número real, uma unidade constante e comum de mensuração. A unidade de mensuração e o ponto zero são arbitrários. A escala intervalar é a primeira escala verdadeiramente quantitativa. Neste nível todas as estatísticas paramétricas comuns são aplicáveis. Nível de razão Quando uma escala tem todas as características de uma escala de interva- los e, além disso, tem um verdadeiro ponto zero como origem, é chamada escala de razão. Como no nível anterior, todas as estatísticas são aplicáveis. Exemplo: Determinar o nível de mensuração mais adequado (nominal, or- dinal, intervalar ou razão). a) classificação como acima da média, médio ou abaixo da média para encontros marcados com desconhecidos; b) conteúdo de nicotina (em miligramas) de cigarros; c) números de inscrição do inss; d) temperaturas (em graus Celsius); e) anos em que ocorreram eleições presidenciais; f) graus finais (a, b, c, d, f) de estudantes de estatística; g) códigos de endereçamento postal (cep); h) rendas anuais de enfermeiras; i) carros classificados como subcompacto, compacto, intermediário ou grande; j) cores de uma amostra de confetes m&m. Solução: a) nível ordinal; b) nível de razão; c) nível nominal; d) nível inter- valar; e) nível intervalar; f) nível ordinal; g) nível nominal; h) nível razão; i) nível ordinal; j) nível nominal. 1.8 | arredondamento de dados Arredondar um número significa reduzir a sua quantidade de algarismos DEPARTAMENTO DE ESTATÍSTICA conceitos iniciais 15 significativos após a vírgula. O objetivo é reduzir os erros por arredonda- mento, nos casos em que é grande o volume de números a arredondar. A Portaria 36, do Instituto Nacional de Pesos e Medidas, de 6 de agosto de 1965, estabelece os seguintes critérios para o arredondamento de dados. Regras de arredondamento • Quando o primeiro algarismo após aquele que será arredondado for 0, 1, 2, 3, 4, conserva-se o algarismo a ser arredondado e desprezam-se os seguintes; • quando o primeiro algarismo após aquele que será arredondado for 6, 7, 8, 9 ou 5, este último seguido de outros algarismos, em que pelo menos um é diferente de zero, aumenta-se uma unidade no algarismo a ser arredondado e desprezam-se os seguintes; • quando o primeiro algarismo após aquele que será arredondado for 5 seguido de zeros, conserva-se o algarismo a ser arredondado se ele for par, ou aumenta-se uma unidade, se ele for ímpar, desprezando os seguintes. Par 5 Ímpar Conserva Soma uma unidade 0, 1, 2, 3 ou 4 6, 7, 8, 9 ou 5+ Exemplo: Dados os valores abaixo, fazer o arredondamento para centésimo. a) 33,5630; b) 9,5194; c) 10,32500; d) 63,4850000001; e) 6,7153; f) 0,9880; Solução: a) 33,56; b) 9,52; c)10,32; d) 63,49; e) 6,72; f) 0,99 1.9 | método estatístico Quando se pretende empreender um estudo estatístico completo, exis- tem diversas fases do trabalho que devem ser desenvolvidas para se chegar aos resultados finais do estudo. CCNE��.�UFSM estatística 16 Fases do método estatístico Definição do problema: a primeira fase do trabalho estatístico consiste em uma definição ou formulação correta do problema a ser estudado. Além de considerar detidamente o problema objeto do estudo, o analis- ta deverá examinar outros levantamentos realizados no mesmo campo e análogos, uma vez que parte da informação de que necessita pode, muitas vezes, ser encontrada nesses últimos. Planejamento da pesquisa: o passo seguinte, após a definição do pro- blema, compreende a fase do planejamento, que consiste em determinar o procedimento necessário para resolver o problema e, em especial, em como levantar informações sobre o assunto objeto do estudo. É nessa fase que será escolhido o tipo de levantamento a ser utilizado. Outros elemen- tos importantes que devem ser tratados nessa mesma fase são: o crono- grama das atividades; através do qual são fixados os prazos para as várias fases; os custos envolvidos; o exame das informações disponíveis; o deli- neamento da amostra e a forma como serão escolhidos os dados. Coleta ou levantamento dos dados: o terceiro passo é essencialmente operacional, compreendendo a coleta das informações propriamente di- tas. Formalmente, a coleta de dados se refere à obtenção, à reunião e ao registro sistemáticos de dados, com um objetivo determinado. Crítica e digitação dos dados: antes de começar a analisar os dados, é conveniente que lhes seja dado algum tratamento prévio, a fim de torná- los mais expressivos. É um trabalho de condensação e de tabulação dos dados, que chegam ao analista de forma desorganizada, tornando impos- sível a tarefa de apreender todo o seu significado pela simples leitura. Organização e representação dos dados: a apresentação ou exposição dos dados observados constitui a quinta fase do método estatístico. Há duas formas de apresentação, que não se excluem mutuamente. a) A apresentação tabular é uma apresentação numérica dos dados. Con- siste em dispor os dados em linhas e colunas distribuídas de modo ordenado, segundo algumas regras práticas adotadas pelos diversos sistemas estatísticos. b) A apresentação gráfica dos dados numéricos constitui uma apresen- tação geométrica. Embora a apresentação tabular seja de extrema im- DEPARTAMENTO DE ESTATÍSTICA conceitos iniciais 17 portância, no sentido de facilitar a análise numérica dos dados, não permite ao analista obter uma visão tão rápida, fácil e clara do fenô- meno e de sua variação como a conseguida através de um gráfico. Análise dos dados e interpretação dos resultados: a última fase do trabalho estatístico é a mais importante e também a mais delicada. Nesta etapa, o interesse maior reside em tirar conclusões que auxiliem o pes- quisador a resolver seu problema. A análise dos dados estatísticos está ligada essencialmente ao cálculo de medidas, cuja finalidade principal é descrever o fenômeno. Assim, o conjunto de dados a ser analisado pode ser expresso por números-resumos, as estatísticas, que evidenciam carac- terísticas particulares desse conjunto. 1.10 | representação tabular Consiste em dispor os dados em linhas e colunas distribuídas de modo or- denado. A elaboração de tabelas deve obedecer às normas editadas pelo Instituto Brasileiro de Geografia e Estatística - ibge. Abaixo, apresenta-se uma tabela esquemática sendo indicados os seus elementos. Figura 1.10 | Tabela esquemáticaNo rodapé de uma tabela podem aparecer, se necessárias a fonte (en- tidade responsável pelas informações contidas na tabela), notas (observa- Título: O quê?; Onde?; Quando? Cabeçalho Total Total Coluna indicadora Corpo da tabela Fonte: * Chamada Nota: Rodapé CCNE��.�UFSM estatística 18 ções gerais sobre a tabela) e/ou chamadas (observações feitas em relação a pontos específicos da tabela cujos símbolos usados são: *, **, ...; ’, ”, ...; i, ii, ... e k). 1.11 | séries estatísticas Uma série estatística é um conjunto de dados ordenados segundo uma ca- racterística comum, sendo apresentada sob forma de tabela e/ou gráfico. A classificação de uma série é feita de acordo com a variação de três elementos que a compõem: a espécie (o fenômeno), o local (o lugar onde o fenômeno acontece) e a época (fator temporal ou cronológico a que se refere o fenômeno). O nome da série depende do(s) elemento(s) que varia(m). Assim, pode- se ter uma série específica, geográfica, temporal, mista ou uma distribuição de frequências. Exemplos de séries: Série específica (série simples): Tabela: Frequência e porcentagens dos 2000 empregados da Companhia MB, segundo o grau de instrução Grau de instrução Frequência (ni) Porcentagem Fundamental Médio Superior Total 650 1020 330 2000 32,50 51,00 16,50 100,00 Fonte: Dados Hipotéticos Figura 1.11 - 1 | Série específica (série simples). Créditos: Dados hipotéticos DEPARTAMENTO DE ESTATÍSTICA conceitos iniciais 19 Série geográfica-específica (série composta ou mista): Tabela: Opinião da populaçã, por local de residência, sobre um projeto governamental. Opinião Urbano Suburbano Rural Total Total 90 60 50 200 Local de residência A favor Contra 30 60 35 15 100 100 35 25 Figura 1.11 - 2 | Série geográfica-específica (série composta ou mista). Créditos: Dados hipotéticos 1.12 | representação gráfica Um gráfico é toda forma de representação das séries estatísticas que seja baseada no desenho. O gráfico deve ser atraente para cumprir sua finalidade de mostrar re- sultados, além de bem construído para permitir a análise do fenômeno exposto. A fim de que isso aconteça, devem-se observar alguns aspectos básicos como simplicidade, clareza e veracidade. Do mesmo modo, nas tabelas estatísticas e, nos gráficos, deve-se consi- derar um título que informe a espécie, o lugar e o tempo do fenômeno re- presentado, bem como a fonte de onde foram coletados os dados expostos. CCNE��.�UFSM estatística 20 Gráficos analíticos Classificação dos gráficos analíticos Simples Sobrepostas Justapostas Barras Pontos Linhas Superfícies Colunas Setores Simples Sobrepostas Justapostas Figura 1.12 - 1 | Gráficos analíticos. Créditos: Dados hipotéticos Exemplos de gráficos V ar iá ve is Y 10 8 6 4 2 0 1 2 3 4 5 6 7 98 Variáveis X Gráfico de pontos Figura 1.12 - 2 | Exemplo de gráficos: Gráfico de pontos DEPARTAMENTO DE ESTATÍSTICA conceitos iniciais 21 Gráfico de linha Variáveis X Va riá ve is Y 10 8 6 4 2 0 1 2 3 4 5 6 7 98 Figura 1.12 - 3 | Exemplo de gráficos: Gráfico de linha Gráfico de colunas Variáveis X Va riá ve is Y 10 8 6 4 2 0 1 2 3 4 5 6 7 98 Figura 1.12 - 4 | Exemplo de gráficos: Gráfico de colunas CCNE��.�UFSM estatística 22 Gráfico de colunas justapostas Sequência 1 Sequência 2 Variáveis X V ar iá ve is Y 10 5 0 1 2 3 4 5 6 7 Figura 1.12 - 5 | Exemplo de gráficos: Gráfico de colunas justapostas Gráfico de colunas sobrepostas Variáveis X 10 8 6 6 7 4 4 5 2 2 310 V ar iá ve is Y Série 1 Série 2 Figura 1.12 - 6 | Exemplo de gráficos: Gráfico de colunas sobrepostas DEPARTAMENTO DE ESTATÍSTICA conceitos iniciais 23 Gráfico de barras Variáveis X Va riá ve is Y 1 3 5 7 0 2 4 6 8 10 Figura 1.12 - 7 | Exemplo de gráficos: Gráfico de barras Figura 1.12 - 8 | Exemplo de gráficos: Gráfico de setores Gráfico de setores CCNE��.�UFSM estatística 24 distribuições de frequências Representação de variáveis Alguns conceitos básicos 2 CCNE��.�UFSM estatística 26 2 | Distribuições de frequências Uma distribuição de frequência é uma tabela que reúne o conjunto de da- dos, conforme as frequências ou as repetições de seus valores. Esta tabela pode representar os dados em classes ou não, de acordo com a classifica- ção dos dados em discretos ou contínuos. 2.1 | representação de variáveis 2�1�1 | Discretas Neste caso, representam-se as observações numa tabela de frequências, não agrupadas em classes, designadas de séries de magnitude por ponto. É útil quando a série apresenta poucos valores distintos. 2�1�2 | Contínuas Neste caso, utiliza-se também a tabela de frequências, mas sob forma de intervalos, mesmo que isso sacrifique algum detalhe na ordenação de va- lores individuais. É útil quando a série apresenta muitos valores distintos. DEPARTAMENTO DE ESTATÍSTICA distribuições de frequências 27 2.2 | alguns conceitos básicos 2�2�1 | Dados brutos São os valores originais, conforme foram coletados, os quais ainda não es- tão prontos para análise, pois não estão numericamente organizados ou tabelados. 2�2�2 | Rol É uma lista onde as observações são dispostas em uma determinada ordem (crescente ou decrescente). Os objetivos da ordenação são tornar possível a visualização das variações ocorridas, uma vez que os valores extremos são percebidos de imediato, e também facilitar a construção da distribui- ção de frequências. 2�2�3 | Amplitude total Simbologia: H, At ou R É a diferença entre o maior e o menor valor observado da variável em es- tudo: H = Xmáx - Xmín 2�2�4 | Classe É cada um dos grupos ou intervalos de valores em que se subdivide a am- plitude total do conjunto de tamanho n. Para a determinação do número de classes, existem diversos métodos, dentre os quais destaca-se a regra de Sturges, que estabelece que o núme- ro de classes (k) é calculado por: k = 1 + 3,3 log n O analista deverá ter em mente que a escolha do número de classes de- penderá antes da natureza dos dados e da unidade de medida em que eles forem expressos, do que de regras muitas vezes arbitrárias e pouco flexíveis. Recomenda-se considerar 4 ≤ k ≤ 12. rol crescente Xmín Xmáx CCNE��.�UFSM estatística 28 2�2�5 | Limites de classe São os dois valores extremos de cada classe. Limite inferior (Li): é o menor valor da classe considerada; Limite superior (Ls): é o maior valor da classe considerada. 2�2�6 | Amplitude de classe Simbologia: h É a diferença entre o limite superior e o limite inferior da classe, ou seja: h = Ls – Li, quando a distribuição de frequências já existe; ou h = H/k, para a determinação da amplitude das classes de uma distribuição de frequências a ser construída. 2�2�7 | Ponto médio de classe Simbologia: Xi É a média aritmética dos limites da classe. É o valor representativo da classe: i sX = L + L 2i 2�2�8 | Tipos de frequências Para construção de uma tabela de distribuição de frequência é necessário conhecer alguns de seus termos: Tipos de frequências Simples Acumulada Crescente Decrescente Absoluta Relativa Absoluta Relativa Absoluta Relativa Figura 2.2.8 – 1 | Tipos de frequências DEPARTAMENTO DE ESTATÍSTICA distribuições de frequências 29 Frequência absoluta Simbologia: fi É o número de observações que aparece em uma classe ou valor individual. Frequência relativa Simbologia: fri É o quociente entre a frequência absoluta e o número total de observações, sendo que: f = f f r i i i= 1 ki ∑ f f f ri i i i k % x= = ∑ 1 100 de: 0 < fri < 1; fri i k = = ∑ 1 1 Frequência acumulada crescente Simbologia: faci ou Fci É a soma de todas as frequências anteriores com a frequência do intervalo considerado. 2�2�9 | Exemplos de distribuições de frequências Valores Frequência (fi) 10 15 20 25 30 Total 7 12 14 8 10 51 Figura 2.2.9 – 1 | Distribuição de frequênciaspor ponto CCNE��.�UFSM estatística 30 Preço, em R$, de certo produto Preço (R$) Total 28 Limites inferiores Frequência das classes Limites superiores fi Classes 2 5 10 6 3 2 8 10 12 14 16 18 6 8 10 12 14 16 Figura 2.2.9 – 2 | Distribuição de frequências por intervalo 2�2�10 | Gráficos representativos de uma distribuição de frequências em classes Histograma É um gráfico de colunas justapostas, cujas alturas são proporcionais às frequências absolutas e cujas bases correspondem ao intervalo de classe da distribuição. Polígono de frequências É um gráfico de linha, cujos vértices são proporcionais às frequên- DEPARTAMENTO DE ESTATÍSTICA distribuições de frequências 31 cias absolutas e correspondem aos pontos médios das classes da distribui- ção. Figura 2.2.10 – 2 | Polígono de frequências Ogiva É um gráfico de linha, cujos vértices são proporcionais às frequências acu- muladas e correspondem aos limites inferiores das classes da distribuição. CCNE��.�UFSM estatística 32 Figura 2.2.10 – 3 | Ogiva Exemplo 1: Os dados abaixo apresentam as vendas diárias de um determi- nado aparelho elétrico, durante um mês, por uma firma comercial. Cons- truir uma distribuição de frequências por pontos: 14 – 12 – 11 – 13 – 14 – 13 – 12 – 14 – 13 – 14 – 11 – 12 – 12 – 14 – 10 – 13 – 15 – 11 – 15 – 13 – 16 – 17 – 14 – 14. Solução: O gráfico de bastões e o polígono de frequência são dados por: fi Figura 2.2.10 – 4 | Gráfico de bastões e polígono de frequências DEPARTAMENTO DE ESTATÍSTICA distribuições de frequências 33 Assim como o gráfico das frequências acumuladas (ogiva): Fci Figura 2.2.10 – 5 | Ogiva crescente Exemplo 2: Dado o rol de 50 notas (dadas em créditos), agrupar os ele- mentos em classe e construir os gráficos: 33 – 35 – 35 – 39 – 41 – 41 – 42 – 45 – 47 – 48-50 – 52 – 53 – 54 – 55 – 55 – 57 – 59 - 60 – 60-61 – 64 – 65 – 65 – 65 – 66 – 66 – 66 – 67 – 68-69 – 71 – 73 – 73 – 74 – 74 – 76 – 77 – 77 – 78-80 – 81 – 84 – 85 – 85 – 88 – 89 – 91 – 94 – 97 Solução: Amplitude total (H) H= 97 – 33 = 64 Número de classes (k): k ≅ 1 + 3,3 log 50 ≅ 1 + 3,3 (1,7) ≅ 7 classes Amplitude de classe (h): h ≅ 64/7 ≅ 10 A primeira classe inicia-se por 33. Assim, a distribuição de frequência será: O histograma e o polígono de frequências para os dados estão a seguir: fi Figura 2.2.10 – 6 | Histograma e polígono Assim como o gráfico das frequências acumuladas (ogiva): Fci Figura 2.2.10 – 7 | Ogiva crescente medidas descritivas Introdução Medidas de tendência central Separatrizes Medidas de dispersão Assimetria e curtose 3 CCNE��.�UFSM estatística 36 3 | Medidas descritivas 3.1 | introdução A estatística descritiva visa a descrever os dados disponíveis da forma mais completa possível sem, no entanto, preocupar-se em tirar conclusões so- bre um conjunto maior de dados (população). As medidas descritivas bási- cas mais importantes são as de posição e as de dispersão ou variabilidade. Classificação das medidas descritivas: Figura 3.1 | Classificação das medidas descritivas DEPARTAMENTO DE ESTATÍSTICA medidas descritivas 37 3.2 | medidas de tendência central Quando se trabalha com dados numéricos, observa-se uma tendência des- tes de se agruparem em torno de um valor central. Isso indica que algum valor central é característica dos dados, e que pode ser usado para descre- vê-los e representá-los. As medidas de tendência central são: média, mediana e moda. 3�2�1 | Média aritmética Simbologia: É a mais utilizada das medidas de tendência central para descrever, resu- midamente, um conjunto de dados. Média aritmética para dados não-tabelados A média aritmética consiste na soma de todas as observações Xi dividida pelo número “n” de observações do grupo. X X n X n n i i n = + = = ∑ 1 Propriedades da média aritmética: A soma dos desvios em relação à média é nula; ( )X Xi − =∑ 0 A média de uma constante é igual à constante; X k k( ) = A média do produto de uma constante por uma variável é igual ao produto da constante pela média da variável; ( )X kXi k X Xi( ) = A soma dos quadrados dos desvios em relação à média é um mínimo. ∀ ≠( ) a X− 2 2, Exemplo: Para os dados do exemplo 1, determinar a média aritmética. Solução: X X n i i n = ∑ 1 = 24 13 21, µ → → população X amostra CCNE��.�UFSM estatística 38 Média aritmética para dados tabelados Se os dados estiverem agrupados em uma tabela de frequências, pode-se obter a média aritmética da distribuição, calculando-se: X X f f i i i k i i k = = = ∑ ∑ 1 1 Onde: Xi = ponto médio da classe i; fi = a frequência absoluta da classe i. Exemplo: Para os dados do exemplo 1 e 2, determinar a média aritmética Solução: No exemplo 1: X X f n i i i k + = = ∑ 1 10 12 14 16 7 1 24 13 x ,22 No exemplo 2: X X f n i i i k = = ∑ 1 38 58 98 2 50 65 6 x , 3�2�2 | Mediana Simbologia: Md ou �X A mediana divide em duas partes o conjunto das observações ordenadas. Colocando-se os valores em ordem crescente ou decrescente, a mediana é o elemento que ocupa o valor central. Mediana para dados não-tabelados Procedimento no caso de dados brutos: 1) Colocam-se os dados em ordem (rol); 2) Se o número de elementos “n” for ímpar, a mediana será o elemento central que ocupa a posição n+1 2 do rol; DEPARTAMENTO DE ESTATÍSTICA medidas descritivas 39 Se “n” for par, a mediana será a média aritmética entre os dois elementos centrais que ocupam as posições n 2 e n 2 1+ do rol. Exemplo: Determinar a mediana para os dados do exemplo 1. Solução: Primeiro se faz o rol: 10 – 11 – 11 – 11 – 12 – 12 – 12 – 12 – 13 – 13 – 13 – 13 – 13 – 14 – 14 – 14 – 14 – 14 – 14 – 14 – 15 – 15 – 16 – 17. Como n = n° par, encontra-se os termo n/2 e n/2 + 1. P n Md = = = 2 24 2 12 º P n Md 2 1 24 2 1 13º Os números que ocupam as posições 12° e 13° são os mesmos, então Md = 13. Mediana para dados tabelados Procedimento no caso de distribuição por ponto: 1) Calcula-se a posição da mediana: PMd = n 2 (n par) ou PMd = n+1 2 (n ímpar); Onde: n = fi = número total de observações; PMd = posição da mediana. 2) Se “n” é ímpar, a mediana será o valor de Xi correspondente à primeira Fci PMd; 3) Se “n” é par, a mediana será o valor de Xi correspondente à primeira Fci > PMd. Caso Fci = PMd , será a média entre o valor de Xi correspondente a esta Fci e o próximo valor de Xi. Exemplo: Determinar a mediana para os dados do exemplo 1. Solução: Calcula-se PMd , como n = n° par, obtém-se o termo n/2; P n TermoMd = 2 24 2 12 º Como a 1ª Fci maior que 12 é 13, a mediana será o Xi correspondente a essa Fci , logo Md = 13. CCNE��.�UFSM estatística 40 Procedimento no caso de distribuição por classe: 1) Calcula-se a posição da mediana: PMd = n 2 ; 2) A mediana estará localizada na classe onde, pela primeira vez, Fci PMd; 3) Para encontrar o valor da mediana, aplica-se a seguinte fórmula: M L F f Md c Md ant −( ) Onde: Li = limite inferior da classe que contém a mediana; Fcant = frequência acumulada da classe anterior à classe que contém a mediana; h = amplitude da classe que contém a mediana; fMd = frequência da classe que contém a mediana. Exemplo: Determinar a mediana para os dados do exemplo 2. Solução: Primeiro se acha em qual classe está o termo PMd. O 25° termo se encontra na 4ª classe, assim. 3�2�3 | Moda Simbologia: Mo ou x̂ A moda de um grupo de observações é definida como a medida de frequ- ência máxima ou é (são) o(s) valor(es) que se repete(m) mais vezes. Pode ser utilizada para dados qualitativos. Moda para dados não-tabelados A moda será o valor mais frequente no conjunto de dados, podendo,este mesmo conjunto, possuir mais de uma moda (bimodal ou plurimodal), ou ainda, não apresentar moda (amodal). DEPARTAMENTO DE ESTATÍSTICA medidas descritivas 41 Exemplo: Achar a moda dos seguintes conjuntos de dados: a) 5,40 1,10 0,42 0,73 0,48 1,10 b) 27 27 27 55 55 55 88 88 99 c) 1 2 3 6 7 8 9 10 Solução: a) O número 1,10 é a moda porque é o valor que ocorre mais frequente- mente. b) Os números 27 e 55 são ambos modas porque ocorrem com a mesma maior frequência. Esse conjunto de dados é bimodal porque tem duas modas. c) Não há moda, porque nenhum valor se repete. Moda para dados tabelados Quando a distribuição é por ponto, a determinação da moda é imediata pela simples inspeção da tabela, já que a Mo é o valor de frequência máxima. Quando a distribuição de frequências é por intervalo, pode-se calcular a moda bruta que é o ponto médio da classe de maior frequência (método rudimentar). Exemplo: Determinar a moda para os dados do exemplo 1 e 2. Solução: No exemplo 1, a moda é o elemento com a maior frequência, o 14. No exemplo 2, a moda é o valor de Xi da classe onde ocorre a maior frequ- ência, neste caso o 68. Observações importantes: Não há regra fixa para se escolher entre a média, a mediana e a moda. En- tretanto algumas observações podem ser feitas quanto às suas utilizações. A média aritmética é a medida de tendência central mais utilizada, prin- cipalmente quando não há valores aberrantes (muito extremos) no conjun- to de dados, sendo a medida mais conveniente para cálculos posteriores; A mediana deve ser usada, sempre que possível, como medida repre- sentativa de distribuições fortemente assimétricas, ou seja, quando os va- lores extremos do conjunto são muito distantes dos outros, pois o seu valor CCNE��.�UFSM estatística 42 não é afetado por estes valores; A moda é usada quando há interesse em saber o ponto de concentração do conjunto ou o tipo de distribuição que se está analisando, sendo que o seu valor, em se tratando de dados agrupados, é fortemente afetado pela maneira como as classes são constituídas. 3.3 | separatrizes São valores de posição, que dividem o rol. As principais medidas separatri- zes são: mediana, quartis, decis e centis ou percentis. 3�3�1 | Quartis Simbologia: Qi Os quartis dividem um conjunto de dados em quatro partes iguais. Assim: Onde: Q1 = primeiro quartil e separa os primeiros 25% dos 75% restantes; Q2 = segundo quartil ou mediana e separa o conjunto de dados em 2 partes iguais; Q3 = terceiro quartil e separa os primeiros 75% dos 25% restantes. Quartis para dados não-tabelados Procedimento no caso de dados brutos: 1) Colocam-se os dados em ordem (rol); 2) Calcula-se a posição do quartil através da fórmula: PQi = i x n 4 ; 3) O quartil será o valor que ocupa, no rol, a posição calculada ante- riormente. Exemplo: Determinar Q1 e Q3 para os dados do exemplo 1. DEPARTAMENTO DE ESTATÍSTICA medidas descritivas 43 Solução: Calcula-se a posição do elemento. O 6° e 18° elementos são Q1=12 e Q3=14 respectivamente. Quartis para dados tabelados Procedimento no caso de distribuição por ponto: 1) Calcula-se a posição do quartil f n Qi i n k = ∑ 1 2) O quartil será o valor de Xi correspondente à primeira Fci PQi. Calcu- la-se a posição do elemento. Exemplo: Determinar Q1 e Q3 para os dados do exemplo 1. Solução: O 6° e 18° elementos são Q1 e Q3 respectivamente. Procedimento no caso de distribuição por classe: 1) Calcula-se a posição do quartil ; 2) O quartil estará localizado na classe onde, pela primeira vez, Fci PQi; 3) Para encontrar o valor do quartil aplica-se a seguinte fórmula: Q L Fc fi i Qi Qi ant− Onde: Li = limite inferior da classe que contém o respectivo quartil; Fcant= frequência acumulada da classe anterior à classe que contém o quartil; h = amplitude da classe que contém o quartil; fQi = frequência da classe que contém o quartil. Exemplo: Determinar Q1 e Q3 para os dados do exemplo 2. CCNE��.�UFSM estatística 44 Solução: No exemplo 2, calcula-se a posição do elemento. e Após verifica-se a classe onde se encontra cada posição. O Q1 encontra-se na 3ª classe e o Q3 encontra-se na 5ªclasse. Assim: 3�3�2 | Decis Simbologia: Di São valores que dividem o conjunto das observações em 10 (dez) partes iguais. Para encontrar o valor do decil desejado, procede-se como no caso dos quartis, sendo que para o cálculo da posição do decil, a fórmula será: PDi = i fi∑ 10 = i x n 10 Para encontrar o valor do decil quando os dados estão agrupados em classe, a fórmula será: D L h P Fc f Di Di ant−( ) 3�3�3 | Percentis Simbologia: Pi São valores que dividem o conjunto das observações em 100 partes iguais. Para encontrar o valor do percentil desejado, procede-se como no caso dos quartis, sendo que para o cálculo da posição do percentil, a fórmula será: Para encontrar o valor do percentil quando os dados estão agrupados DEPARTAMENTO DE ESTATÍSTICA medidas descritivas 45 em classe, a fórmula será: P L h P Fc fi i Pi Pi ant−( ) 3.4 | medidas de dispersão As medidas de dispersão visam a descrever os dados no sentido de infor- mar o grau de dispersão ou afastamento dos valores observados em torno de um valor central. Elas indicam se um conjunto é homogêneo (pouca ou nenhuma variabilidade) ou heterogêneo (muita variabilidade). A descrição do conjunto de dados é mais completa quando se considera além de uma medida de tendência central, uma medida de dispersão ou variação, porque é comum encontrar-se séries que, apesar de apresenta- rem a mesma média, são compostas de maneiras diferentes, o que mostra que as medidas de tendência central são insuficientes para descrever ade- quadamente uma série estatística. Algumas medidas de variação são: a amplitude de variação, a soma de quadrados, a variância, o desvio padrão e o coeficiente de variação. Classificação das medidas de dispersão: Figura 3.4 – 1 | Classificação das medidas de dispersão 3�4�1 | Amplitude de variação Simbologia: H É a diferença entre o maior e o menor valor do conjunto, sendo a mais CCNE��.�UFSM estatística 46 simples das medidas de dispersão, porém de grande instabilidade, porque considera somente os valores extremos do conjunto. Também é chamada de desvio extremo. H = Xmáx. - Xmín. Exemplo: Determinar H para os dados do exemplo 1 e 2. Solução: Para o exemplo 1: = 17 – 10 = 7 Para o exemplo 2: = 98 – 38 = 60 3�4�2 | Soma de quadrados Simbologia: SQ ( ) ( ) ∑∑ ∑ SQ = X X i n i i n i − = = 2 1 2 2 1 2 1 ...... ii n n = 1 2 A soma de quadrados refere-se à soma dos quadrados dos desvios em re- lação à média: 3�4�3 | Variância Simbologia σ2 2 → → população s amostra A variância populacional (2) é a soma de quadrados dividida pelo número de observações N: σ ( ) Quando a variância é calculada a partir de uma amostra para fins de esti- mação, o denominador passa a ser (n - 1), o que nos fornece uma estimativa imparcial da variância populacional. Variância para dados não-tabelados DEPARTAMENTO DE ESTATÍSTICA medidas descritivas 47 O denominador (n – 1) é denominado de “graus de liberdade” dessa estimativa. Exemplo: Determinar a variância para os dados do exemplo 1. Solução: s n i i n 2 2 1 1 10 13 21 11 13 21 11 = − − = − += ∑ ... 17 13 21 24 1 2 78 2 − − = , , Propriedades da variância A variância de uma constante é zero; s2(k) = 0 A variância da soma ou diferença de uma constante k com uma variável é igual a variância da variável; s2(k ± X) = s2(X) A variância da soma de variáveis independentes é igual à soma das variân-cias das variáveis; s2(X + Y) = s2(X) + s2(Y) A variância do produto de uma constante por uma variável é igual ao produ- to do quadrado da constante pela variância da variável. s k X k s X2 2 2( . ( )= Variância para dados tabelados 2 2 ou s X f X f n n i i i i k i i k 1 1 1 = − − = = ∑ ∑ 2 2 2 Exemplo: Determinar a variância para os dados do exemplo 1 e 2. Solução: No exemplo 1, No exemplo 2, CCNE��.�UFSM estatística 48 s 3�4�4 | Desvio padrão Simbologia σ→ → população s amostra O desvio padrão é uma das medidas mais úteis da variação de um grupo de dados. A vantagem do desvio padrão sobre a variância é que este per- mite uma interpretação direta da variação do grupo, por ser expresso na mesma unidade das medidas observadas. O desvio padrão é a raiz quadrada da variância, então, é calculado por: s s= 2. Para os dados de medição, especialmente em grandes amostras (n 30), verifica-se que cerca de 68% das observações estarão entre X s± ; 95% das observações estarão entre X s±2 e praticamente 100% entre X s±3 . Exemplo: Determinar o desvio padrão amostral para os dados do exemplo 1 e 2. Solução: No exemplo 1, s s =2 2 7 67 . No exemplo 2, . 3�4�5 | Coeficiente de variação Simbologia: CV ou CV% O coeficiente de variação é uma medida de dispersão relativa, utilizada quan- do se deseja comparar a variação de conjuntos de dados que apresentem di- ferentes unidades de medição e/ou tamanhos diferentes, pois o coeficiente de variação independe da unidade de medida dos dados. O coeficiente de variação pode também ser expresso como percentagem da média. ou = ⋅CV s X % 100 s f n i k 2 2 1 2 2 1 10 13 21 12 13 21 = − − = −= ∑ . ,( −( ) − = 3 2 24 1 2 78 . ... , DEPARTAMENTO DE ESTATÍSTICA medidas descritivas 49 Exemplo: Determinar o CV para os dados do exemplo 1 e 2. Solução: No exemplo 1, . No exemplo 2, . 3.5 | assimetria e curtose As medidas de assimetria e curtose complementam as medidas de posição e de dispersão no sentido de proporcionar uma descrição e compreensão mais completa das distribuições de frequências. Estas distribuições não di- ferem apenas quanto ao valor médio e à variabilidade, mas também quan- to a sua forma (assimetria e curtose). 3�5�1 | Assimetria Assimetria é o grau de desvio, afastamento da simetria ou grau de deforma- ção de uma distribuição de frequências. Se a curva de frequências de uma distribuição tem uma “cauda” mais longa à direita da ordenada máxima do que à esquerda, diz-se que a distribuição é desviada para a direita ou que ela tem assimetria positiva. Se ocorrer o inverso, diz-se que ela é desviada para a esquerda ou tem assimetria negativa. O coeficiente de assimetria serve para medir o “grau” de deformação da distribuição. Coeficiente de assimetria de Pearson Simbologia: C�A� Intensidade da assimetria: CCNE��.�UFSM estatística 50 Figura 3.5.1 – 3 | Coeficiente de assimetria de Pearson Interpretação: • Coeficiente negativo: distribuição assimétrica negativa (à esquerda), sendo X < Md < Mo; • Coeficiente nulo: distribuição simétrica, sendo X= Md = Mo; • Coeficiente positivo: distribuição assimétrica positiva (à direita), sen- do X> Md > Mo. Figura 3.5.1 – 1 | Simetria DEPARTAMENTO DE ESTATÍSTICA medidas descritivas 51 Figura 3.5.1 – 2 | Assimetria positiva e negativa Exemplo: Determinar a assimetria para os dados do exemplo 1 e 2. Solução: No exemplo 1: C A X Mo s . . , , ,= − = −13 21 14 1 668 0 474; C.A = 0 474, ; os dados apresentam assimetria fraca. No exemplo 2: C A X Mo s . . , , ,= − = −65 6 68 16 97 0 1414; ; os dados apresentam simetria. 3�5�2 | Curtose É o grau de achatamento (afilamento) de uma curva em relação à curva normal, tomada como padrão. Uma distribuição pode ser classificada quanto à curtose, como segue: • Platicúrtica: a curva é mais achatada do que a normal ( ou s grandes); • Mesocúrtica: a curva é normal ( ou s intermediários); • Leptocúrtica: a curva é mais alta do que a normal ( ou s pequenos). Para medir o grau de curtose de uma distribuição, podem-se usar o se- guinte coeficiente: CCNE��.�UFSM estatística 52 Coeficiente centílico de curtose Simbologia: K Onde: Q1 = o primeiro quartil; Q3 = o terceiro quartil; D1 = o primeiro decil; D9 = o nono decil. Interpretação: K < 0,263 curva leptocúrtica; K = 0,263 curva mesocúrtica; K > 0,263 curva platicúrtica. Figura 3.5.2 – 1 | Curva leptocúrtica Figura 3.5.2 – 2 | Curva platicúrtica DEPARTAMENTO DE ESTATÍSTICA medidas descritivas 53 Figura 3.5.2 – 3 | Curva mesocúrtica Exemplo: Determinar a curtose para os dados do exemplo 1 e 2 Solução: No exemplo 1, primeiro se encontra o D1 e D9; PD1 =1 24 10 x = 2,4 ou seja, o D1 = 11; PD9 = 9 24 10 x = 21,6 ou seja, o D9 = 15; Após calcula-se o coeficiente centílico de curtose K Q Q D D − − =3 1 9 12 14 12 2 1 1 - ( - ) , então a curva é leptocúrtica. No exemplo 2, primeiro se encontra o D9 e D1; PD1 1 50 10 = x = 5 ou seja, D =L + h P -Fc f = 33+ 10. 5- 0 7 = 40,141 1 D1 D1 ant( ) ( ) P = D9 9 50 10 x = 45 ou seja, D =L + h P -Fc f = 83+ 10. 45- 42 6 = 889 9 D D 9 ant 9 ( ) ( ) Após, calcula-se o coeficiente centílico de curtose: , então a curva é leptocúrtica. CCNE��.�UFSM estatística 54 probabilidade 4 Introdução Noções de experimento, espaço amostral e eventos Álgebra de eventos Conceitos de probabilidade Probabilidade condicionada Independência estatística Teorema de Bayes Resumo das propriedades do cálculo de probabilidades Avaliação de testes diagnósticos Coeficientes e índices CCNE��.�UFSM estatística 56 4 | Probabilidade 4.1 | introdução O trabalho estatístico se desenvolve a partir da observação de determi- nados fenômenos e emprega dados numéricos relacionados a eles, para tirar conclusões que permitam conhecê-los e explicá-los a ponto de poder, com determinado grau de crença, obter o desenvolvimento teórico do fe- nômeno. Para tanto, é necessário que se formule um modelo que ajude a melhor elucidá-lo. No campo da estatística, os modelos matemáticos utilizados são deno- minados, modelos não-determinísticos ou probabilísticos, ou seja, que avaliam com que probabilidade os resultados podem ocorrer. 4.2 | noções de experimento, espaço amostral e eventos 4�2�1 | Experimento aleatório Simbologia: E É uma das realizações do fenômeno sob observação. Se o fenômeno seguir DEPARTAMENTO DE ESTATÍSTICA probabilidade 57 um modelo não-determinístico, tem-se um experimento aleatório, com as seguintes características: • O experimento pode ser repetido; • embora não seja possível afirmar qual resultado em particular ocor- rerá, é possível descrever o conjunto de todos os resultados possíveis do experimento; • à medida que aumenta o número de repetições, aparece uma certa re- gularidade que torna possível a construção de um modelo matemático. 4�2�2 | Espaço amostral Simbologia: S É o conjunto de todos os possíveis resultados de um experimento aleatório. 4�2�3 | Evento Simbologia: A, B, C, ... É qualquer subconjunto do espaço amostral de um experimento. Tipos de eventos: 1) Eventos mutuamente exclusivos: dois eventos A e B são denominados mutuamente exclusivos, se eles não puderem ocorrer juntos, isto é, AB =Ø 2) Eventos complementares: são os eventos que se completam em rela- ção ao espaço amostral, isto é, A A = S, onde A é o evento comple- mentar de A. 3) Eventos impossíveis: são eventos que não possuem elementos no es- paço amostral, isto é, A = e P(A) = 0. 4) Eventos certos: são eventos que possuem todos os elementos do es- paço amostral, isto é, A = S eP(A) = 1. 5) Eventos independentes: são eventos que podem ocorrer simultanea- mente, isto é, AB ≠ e P(AB) = P(A) x P(B). 6) Eventos dependentes: são eventos em que a ocorrência de um deles está condicionada à ocorrência de outro, acontece um evento se o ou- CCNE��.�UFSM estatística 58 tro já ocorreu, isto é, AB ≠ e P(AB) = P(A) x P(B/A), com P(A)≠0. 4.3 | álgebra de eventos Podem-se combinar os eventos da mesma maneira que se faz com os con- juntos: 1) Se A e B forem dois eventos, A B significa que A e B ocorrem; 2) Se A e B forem dois eventos, A B significa que A ou B ocorrem. Exemplo: Lançar um dado e uma moeda. a) Construa o espaço amostral b) Enumere os seguintes eventos A = {coroa, marcado por número par} B = {cara, marcado por número ímpar} C = {múltiplos de 3} c) Expresse os eventos I) B II) A ou B ocorrem III) B e C ocorrem IV) A B∪ d) Verifique dois a dois os eventos A, B e C e diga quais são mutuamente exclusivos. Solução: C = cara, K = coroa: a) S={(1,C);(2,C);(3,C);(4,C);(5,C);(6,C);(1,K);(2,K);(3,K);(4,K);(5,K);(6,K)}; b) A = {(2,K);(4,K);(6,K)}; B = {(1,C);(3,C);(5,C)}; C = {(3,K);(6,K);(3,C);(6,C)}. c) i) = {(1,K);(2,K);(3,K);(4,K);(5,K);(6,K);(2,C);(4,C);(6,C)}; ii) A B = {(2,K);(4,K);(6,K);(1,C);(3,C);(5,c)}; iii) B C = {(3,C)}; iv) A B∪ = {(1,K);(3,K);(5,K);(2,C);(4,C);(6,C)}. d) A B = , são mutuamente exclusivos; A C = {(6,K)}, não são mutuamente exclusivos; DEPARTAMENTO DE ESTATÍSTICA probabilidade 59 B C = {(3,C)}, não são mutuamente exclusivos. 4.4 | conceitos de probabilidade Interpretação como frequência relativa, definição clássica e definição axiomática. O problema fundamental da probabilidade consiste em: “atribuir um número a cada evento A, o qual avaliará as chances de ocorrência de A quando o experimento for realizado”. 4�4�1 | Conceito empírico É uma interpretação da probabilidade como frequência relativa. Repetindo-se um experimento E um grande número de vezes e calcu- lando-se a frequência relativa do evento A, obtém-se um número “p” que pode ser tomado como a probabilidade da ocorrência de A, que nesse caso, poderia ser tomada como: →∞ 4�4�2 | Definição clássica de probabilidade É válida para espaços amostrais finitos e equiprováveis. Se todos os resultados de um espaço amostral finito forem igualmente prováveis, ou seja, admitindo-se que S possa ser escrito sob a forma S = {a1, a2, .... , ak}, então, a cada evento formado por um resultado simples (ai) associa-se um número “pi”, denominado probabilidade de A, que satis- faça as seguintes condições: pi 0; P(S) = p1 + p2 + .... + pk = ; p ki = 1 , já que todos os resultados são igualmente prováveis. CCNE��.�UFSM estatística 60 Disto decorre que, para qualquer evento A constituído de r resultados sim- ples, tem-se: P(A) = r . 1/k = r k , sendo que: P(A) = nº de casos favoráveis a A pelos quais E pode ocorre r n totº aal de casos pelos quais E pode ocorrer = r / k Pela definição clássica de probabilidade devida a Laplace: seja E um ex- perimento aleatório que dá origem a k resultados mutuamente excludentes e igualmente possíveis. Seja A um evento constituído por r resultados de E. A probabilidade de ocorrer o evento A é definida como sendo a razão r/k. 4�4�3 | Definição axiomática Seja E um experimento e S um espaço amostral associado a E. A cada even- to A associa-se um número real representado por P(A) e denominado pro- babilidade de A, que satisfaça aos seguintes axiomas: 1) 0 P(A) 1; 2) P(S) = 1; 3) Se A e B forem eventos mutuamente excludentes, então: P (A B) = P(A) + P(B); 4) Se A1, A2, ... , An,... forem dois a dois eventos mutuamente excludentes, então: P(∪ = ∞ i 1Ai) = P(A1) + P(A2) + ... + P(An) + ... Exemplo: Um lote é formado por 10 peças boas, 4 com defeitos leves e duas com defeitos graves. Uma peça é escolhida ao acaso. Calcular a pro- babilidade de que: a) ela não tenha defeitos graves; b) ela não tenha defei- tos; c) ela seja boa ou tenha defeitos graves. Solução: Adotando dl = peça com defeito leve; b = peça boa; dg = peça com defeito grave: a) P(dg) = P(dl b) = P(dl) + P(b) = 10/16 + 4/16 = 14/16; b) P(b) = 10/16; c) P(b dg) = 10/16 + 2/16 = 12/16. DEPARTAMENTO DE ESTATÍSTICA probabilidade 61 Teoremas fundamentais: Teorema 1: se for um evento (conjunto) vazio, então: P() = 0; Teorema 2: seAfor um evento complementar de A, então: P(A) = 1 - P(A); Teorema 3: se A e B forem eventos quaisquer, então: P(A B) = P(A) + P(B) - P(A B); Teorema 4: se A e B forem eventos de um espaço amostral S e se A B, então: P(A) P (B). 4.5 | probabilidade condicionada Sejam A e B dois eventos associados a um experimento E. Denota-se por P(B/A), a probabilidade do evento B, condicionada à ocorrência do evento A. Sempre que se calcula a P(B/A), está-se, essencialmente, calculando P(B) em relação ao espaço reduzido A e utiliza-se a seguinte fórmula, onde P(A) 0: P(B/A) =P A B P A ( ) ( ) ∩ com P(A) 0, pois A já ocorreu. Pode-se escrever também, através do teorema do produto: P(AB) = P(A/B) P(B) e P(BA) = P(B/A) P(A) O teorema do produto representa uma alternativa para o cálculo da pro- babilidade da interseção de dois eventos. Exemplo: Uma urna contém cinco bolas pretas, três vermelhas e duas brancas. Foram extraídas 3 bolas sem reposição. Qual a probabilidade de terem sido duas bolas pretas e uma vermelha? Solução: Sendo os eventos: P = bolas pretas, V = bolas vermelhas e B = bo- las brancas; P(P P V) + P(P V P) + P(V P P) = 4.6 | independência estatística Se a ocorrência ou não do evento A não afetar a probabilidade de ocorrên- cia do evento B e vice-versa, diz-se que A e B são independentes. 5 10 4 9 3 8 5 10 3 9 4 8 3 10 5 9 4 8 60 720 3 0 25= , CCNE��.�UFSM estatística 62 É compreensível que os eventos A e B sejam inteiramente não relaciona- dos. Saber que B ocorreu não fornece qualquer informação sobre a ocor- rência de A. De fato, o cálculo seguinte mostra isso: Se A e B forem independentes, pode-se escrever: P(A/B) = P(A) e P(B/A) = P(B) Nesse caso, usando-se a expressão anterior para P(AB), tem-se: P(AB) = P(A/B) P(B) = P(A)P(B) P(AB) = P(B/A) P(A) = P(A) P(B) Chega-se, então, à condição de independência, na qual A e B serão eventos independentes se e somente se: P(AB) = P(A) P(B) Exemplo: As probabilidades de 3 jogadores marcarem um pênalti são res- pectivamente 2/3, 4/5 e 7/10. Se cada um “cobrar” uma única vez, qual a probabilidade de: a) todos acertarem; b) apenas um acertar; c) todos errarem. Solução: Considerando: A o jogador 1 acertar; B o jogador 2 acertar; C o jogador 3 acertar, temos: a) P(A B C) = = = 2 3 4 5 7 10 56 150 0 3733x x , b) P(A ∩ ∩B C ) + P(A ∩B ∩ C ) + P( A B∩ ∩ C) = c) P(A B C∩ ∩ ) = 1 3 1 5 3 10 3 150 0 02 2x x = = =, % 4.7 | teorema de bayes P(B1/A) = P B A P A ( ) ( ) 1∩ DEPARTAMENTO DE ESTATÍSTICA probabilidade 63 Onde: P(A) = P(A/B1) . P(B1) + P(A/B2) . P(B2) + ... + P(A/Bk) . P(Bk) = P(B1/A) = P A B P B P A ( / )x ( ) ( ) 1 1 P(B1/A) = P A B P B P A B P B P A B P B P A B P B ( / )x ( ) ( / ) ( ) ( / ) ( ) ( / ) ( ) 1 1 1 1 2 2 3 3+ + Generalizando-se essa aplicação para Bi: P B A P A B P B P A B P B i i i i i i n( / ) ( ) ( ) = = ∑ 1 probabilidade total. Onde: P(Bi) = probabilidades à priori (conhecidas); P(A/Bi) = probabilidades condicionais (conhecidas); P(Bi /A) = probabilidades a posterior. Esse resultado é conhecido como teorema de Bayes. É também deno- minada fórmula da probabilidade das causas ou dos antecedentes. Desde que os Bi`s constituam uma partição do espaço amostral, um e somente um dos eventos Biocorrerá. Portanto, a expressão acima nos dá a proba- bilidade de um particular Bi dado que o evento A tenha ocorrido. A fim de aplicar esse teorema, deve-se conhecer os valores dos Bi`s, sendo que, se esses valores são desconhecidos, fica impossibilitada a sua aplicação. Exemplo: Três máquinas, A, B e C produzem respectivamente 0,4, 0,5 e 0,1 do total de peças de uma fábrica. As porcentagens de peças defeituosas nas respectivas máquinas são de 3/100, 5/100 e 2/100. Uma peça é sorte- ada ao acaso e se verifica que é defeituosa. Qual a probabilidade de que a peça tenha vindo da máquina B? Solução: P(A) = 0,4; P(B) = 0,5; P(C) = 0,1; P(def/A) = 3 100 ; P(def/B) = 1 20 ; P(def/C) = 1 50 ; Deseja se calcular P(B/def): CCNE��.�UFSM estatística 64 def fP A AP P P PC CPB Bde fde fde ) P PB Bfde= = + + = + + = 0 5 1 20 0 4 3 100 0 5 1 20 0 1 1 50 1 40 12 25 2 1000 1 40 1000 39 , , , , x x x x x == 0 641, 4.8 | resumo das propriedades do cálculo de probabilidades Figura 4.8 – 1 | Resumo das propriedades do cálculo de probabilidades 4.9 | avaliação de testes diagnósticos Um teste diagnóstico consiste em um instrumento capaz de diagnosticar a doença com determinada precisão. Para cada teste diagnóstico existe um valor de referência que determina a classificação do resultado do teste como negativo ou positivo. Um teste diagnóstico é considerado útil quando ele identifica bem a presença da doença. Antes de ser adotado , um teste deve ser avaliado para verificar sua capacidade de acerto do diagnóstico. Esta avaliação é feita aplicando-se o teste a dois grupos de pessoas: um grupo de pessoas doentes e outro de não doentes. Nesta fase, o diagnóstico é feito por outro DEPARTAMENTO DE ESTATÍSTICA probabilidade 65 teste chamado padrão ouro. Os resultados obtidos nesta avaliação podem ser organizados de acordo com a Tabela abaixo. Resultados de um teste para pacientes doentes e não doentes Doença Presente Total Teste Ausente Total a + b c + d n Positivo (+) Negativo (-) a c a + c b d b + d O teste é aplicado a n indivíduos, dos quais sabidamente (a + b) são do- entes e (c + d) são não doentes. 4�9�1 | Sensibilidade e especificidade Simbologia: “s” e “e” Sensibilidade: s = P(+/D) = P(+ D)/P(D) Especificidade: e = P(-/D) = P(-D)/P(D) A sensibilidade e a especificidade são estimadas por: s = a/(a + b) e e = d/(c + d) Estas duas quantidades traduzem as proporções de acerto do teste. Numa situação ideal a sensibilidade e a especificidade deveriam ser iguais a 1. Quanto mais próximas de 1 estiverem “s” e “e”, maior será a capa- cidade de acerto do teste. Observe que para calcular “s” utiliza-se apenas os doentes e para calcular “e” apenas os não doentes. Considerando que as amostras de do- entes e não doentes foram cuidadosamente selecionadas, espera-se que em repetições do experimento (nas mesmas condições), os valores de “s” e “e” permaneçam constantes. CCNE��.�UFSM estatística 66 4�9�2 | Valores de predição de um teste Simbologia: VPP e VPN Embora os índices sensibilidade e especificidade, sintetizem bem a qua- lidade de um teste, o clínico em geral, não pode depender apenas de “s” e “e”, pois estes valores são provenientes de uma situação onde se tem certeza do diagnóstico. O clínico, diante de um resultado do teste, precisa decidir se considera o paciente doente ou não. A ele interessa conhecer as probabilidades: VPP = P(D/+) VPN = P( D/-) Chamadas, respectivamente, de valor de predição positiva e valor de predição negativa. As probabilidades abaixo são chamadas de proporção de falso positivo e proporção de falso negativo. PFP = P(D /+) = 1 - P(D/+) = 1 - VPP PFN = P(D/-) = 1 - P(D/-) = 1 - VPN Usando a notação da Tabela tem-se: VPP = a/(a + c) VPN = d/(b + d) Observações: As afirmações que se faz em relação aos valores de VPP e VPN são válidas para pacientes de populações de mesma prevalência; A prevalência de uma doença é a proporção de pessoas com a doença (casos novos + antigos) na população e é estimada pela proporção de do- entes na amostra; A incidência de uma doença é a proporção de casos novos da doença na população. Exemplo: Para os dados da tabela, encontre o que é pedido. DEPARTAMENTO DE ESTATÍSTICA probabilidade 67 a) Qual a probabilidade do teste ser positivo dado que o paciente é do- ente (sensibilidade)? b) Qual a probabilidade do teste ser negativo dado que o paciente não é doente (especificidade)? c) Qual é a estimativa da probabilidade do VPP e do VPN. Solução: a) s = 815/1023 = 0,797 = 79,7% b) e = 327/442 = 0,74 = 74% c) VPP = 815/930 = 0,876 = 87,6% e VPN = 327/535 = 0,611 = 61,1% 4.10 | coeficientes e índices Na prática, a medição de saúde é difícil de ser realizada, se não impossível. A avaliação é feita através de indicadores que medem indiretamente o ní- vel de saúde, isto é, medem os desvios do estado de saúde e não a saúde propriamente dita. Em saúde pública é de interesse conhecer os valores numéricos refe- rentes a eventos como nascimentos, óbitos, casos de doenças, leitos hos- pitalares, número de consultas médicas, etc. Estes valores numéricos são as chamadas frequências relativas, os coeficientes ou taxas, os índices e os números-índices. 4�10�1 | Estatística vital É a parte da estatística que tem interesse no estudo de fatos ou eventos vi- tais como: os nascimentos vivos, óbitos, perdas fetais, doenças, casamen- tos, divórcios, etc. O trabalho com populações indica uma variação destes eventos no tempo, bem como uma variação interna relativa à composição CCNE��.�UFSM estatística 68 da população quanto ao sexo, idade, doença, etc. Uma das funções do epidemiologista é conhecer o risco de contrair as doenças em cada locali- dade, qual a razão e, também, como se distribuem estas doenças segundo a idade e o sexo, por exemplo. 4�10�2 | Frequência relativa ou proporção É a relação entre o número de elementos que apresentam um atributo e o total de elementos considerados. O tipo de frequência relativa mais usado é aquele dado em percentagem. Exemplo: N decasosdiagnosticados N totaldeóbitos º º = = 581 1831 0,3173129 ouu 31,73% 4�10�3 | Número-índice É uma maneira de apresentar a evolução, no tempo, de determinado va- lor numérico que representa a frequência de um evento, conferindo-se, a esse número, um outro número, arbitrariamente escolhido, geralmente 100 ou 1000. O número-índice é utilizado também para comparar as fre- quências de eventos em diferentes classes. O cálculo nada mais é do que uma simples regra de três. Exemplo: Número de casos de poliomelite em São Paulo Tabela: Casos de poliomelite em São Paulo Ano Número de casos Número-índice O número-índice tem a vantagem de expressar mais facilmente as varia- ções de uma frequência. DEPARTAMENTO DE ESTATÍSTICA probabilidade 69 4�10�4 | Coeficiente ou taxa É uma relação (quociente) entre dois valores numéricos, que estimaria uma probabilidade ou determinado risco. Coeficiente = n/p Onde: n = número de vezes que ocorre determinado evento; p = número de elementos expostos ao risco de apresentar o determinado evento. É usual multiplicar-se o resultado por um número múltiplo de 10 (100, 1000, 10000), que constitui a chamada base do coeficiente à qual deve, obrigatoriamente, ser acrescentada à unidade de referência usada no de- nominador (habitantes, homens, mulheres, nascidos vivos, etc). 4�10�5 | Índice É preciso distinguir índice de coeficiente ou taxa. O índice não indica uma probabilidade, é também um quociente, mas o que está expresso no de- nominador não está sujeito ao risco de vir a apresentar o evento que está expresso no numerador. Assim, quando se apresenta a relação óbito/po- pulação, trata-se de um coeficiente, no caso: coeficiente de mortalidade.