Baixe o app para aproveitar ainda mais
Prévia do material em texto
i Estatística Descritiva ii Luisa Zanolli Moreno Médica veterinária, mestranda do curso de pós-graduação em saúde pública da Faculdade de Saúde Pública da Universidade de São Paulo André Moreno Morcillo Professor Associado do Departamento de Pediatria da Faculdade de Ciências Médicas da Universidade Estadual de Campinas Pesquisador do CIPED – Centro de Investigação em Pediatria da Universidade Estadual de Campinas Estatística Descritiva Campinas – São Paulo – Brasil [Novembro de 2012] A divulgação de dados de pesquisa requer o uso de técnicas internacionalmente reconhecidas, de tal forma, que os artigos e relatórios possam ser avaliados por pesquisadores em diferentes cidades ou países. Esta parte da estatística, cujo objetivo é sintetizar, tornar clara e organizada a apresentação de dados, recebe o nome de “Estatística Descritiva”. Entre outras técnicas, podem ser utilizadas as medidas de tendência central, de dispersão e de posição, além de tabelas, gráficos, etc. Uma situação concreta Okuro et al. (2011)1 com o objetivo de avaliar a tolerância ao exercício submáximo e a força muscular respiratória em relação à anteriorização da cabeça e ao tipo respiratório em crianças com respiração bucal (RB) ou nasal (RN), avaliaram 30 crianças com respiração bucal comparando-as com 62 controles com respiração nasal. A seguir, apresentamos parte de seus resultados com os dados de Pressão Inspiratória Máxima (PImáx) e Pressão Expiratória Máxima (PEmáx). “As Tabelas 1 e 2 mostram que, no grupo RB, não houve diferenças entre as médias de PImáx e PEmáx nos subgrupos com alteração (grave e moderada) e sem alteração. No entanto, no grupo RN, as médias de PImáx e PEmáx foram maiores no subgrupo com alteração postural (70,8 ± 19,1 cmH2O vs. 54,7 ± 21,7 cmH2O; p = 0,003; e 67,7 ± 22,1 cmH2O vs. 50,5 ± 19,5 cmH2O; p = 0,004, respectivamente).” 1 Okuro RT et al. Respiração bucal e anteriorização da cabeça: efeitos na biomecânica respiratória e na capacidade de exercício em crianças. J. Bras. Pneumol. 2011; 37(4):471-479. 2 Trabalhando com informações ou “dados”2 Os resultados de uma pesquisa são traduzidos em informações ou “dados”, que podem expressar uma quantidade ou uma qualidade. Os “dados” que expressam uma “quantidade” são chamados “dados” ou variáveis quantitativas, enquanto que aqueles que expressam uma “qualidade” são chamados de dados ou variáveis qualitativas ou categóricas. O peso, a altura, o índice de massa corporal, o valor da hemoglobina são exemplos de dados quantitativos. A classificação quanto ao sexo (masculino/feminino), renda familiar (renda baixa/renda média/renda alta), escolaridade (baixa/média/alta) são exemplos de dados qualitativos ou categóricos. Temos dois tipos de dados categóricos: os nominais e os ordinais. No tipo categórico nominal, todas as categorias têm o mesmo valor, a mesma importância. Como exemplo, podemos citar o sexo, onde masculino e feminino são categorias com o mesmo grau de importância. Por outro lado, no tipo categórico ordinal as categorias têm diferentes graus de importância. Por exemplo, quando falamos em renda alta, sabemos que se trata de famílias com renda superior às das famílias com renda média e baixa. Sabemos ainda que renda baixa significa renda inferior à dos grupos de renda média e alta. Saber identificar os tipos de dados ou variáveis é fundamental, pois as técnicas de estatística descritiva e de análise de dados são específicas para cada tipo de variável. 2 Dados - elemento ou quantidade conhecida que é resultado de uma pesquisa e que serve de base para resolução de um problema. 3 Estatística Descritiva de dados quantitativos Quando o conjunto dos dados é pequeno, basta apresentá-lo de forma simples. Não há necessidade de se usar técnicas ou recursos sofisticados. Abaixo apresentamos as idades (anos) de 8 crianças. 7 6 4 7 7 8 7 12 Uma maneira simples para descrevê-las seria: a mais nova tem 4 anos, enquanto a mais velha tem 12 anos. A idade mais frequente é 7 anos. Tente repetir o mesmo processo com um grupo um pouco maior. Abaixo apresentamos as idades (anos) de 60 pacientes. 20 48 30 44 97 76 89 60 33 53 64 5 8 76 65 7 33 37 1 60 89 63 22 58 3 34 27 2 66 66 91 98 58 43 63 96 48 20 20 68 10 84 92 81 82 67 44 72 24 48 31 70 33 4 24 54 35 45 43 7 As técnicas que serão apresentadas a seguir foram desenvolvidas para facilitar a apresentação de grandes conjuntos de dados, possibilitando a sua leitura e interpretação de forma sistemática e rápida. Para a apresentação de dados quantitativos são utilizados alguns métodos numéricos, com o objetivo de descrever o que ocorre no centro da distribuição e a forma como os dados estão dispersos. Estes métodos conhecidos por medidas resumo, podem ser divididos em: • MEDIDAS DE TENDÊNCIA CENTRAL DE IMPORTÂNCIA NA ÁREA DAS CIÊNCIAS BIOLÓGICAS: média aritmética, média geométrica, mediana e moda. • MEDIDAS DE DISPERSÃO: amplitude máxima, variância, desvio padrão, coeficiente de variação e amplitude interquartil. • MEDIDAS DE POSIÇÃO: quartis e escores z 4 Medidas de tendência central 1. Média Aritmética A média aritmética ( x ) é uma das medidas mais usadas para descrever a tendência central. Seu cálculo é muito fácil: somamos os valores medidos e, a seguir, dividimos pelo número de casos avaliados. Indicamos a média de uma população por µµµµ e a de uma amostra ou grupo por x . N X∑ =µ ΣX = soma dos valores da população N = número de casos da população n x x ∑ = Σx = soma dos valores da amostra ou grupo n = número de elementos da amostra ou grupo Exemplo: dado o conjunto dos números [99, 100; 101; 102; 105], sua média será: ( ) 4,011 5 10510210110099 = ++++ =x Observação: A média aritmética tem uma grande desvantagem: sofre grande influência de valores extremos (muito grandes ou muito pequenos) em relação ao conjunto dos dados. No exemplo acima, se trocarmos o valor 100 por 60 a média passa a ser: ( ) 4,93 5 1051021019960 = ++++ =x A troca de um único elemento causou uma diminuição de 8 unidades na média do grupo. Assim, a média aritmética só é um bom parâmetro de tendência central quando os dados têm distribuição simétrica. 5 2. Média Geométrica A média geométrica (Mg) é um bom parâmetro de tendência central de dados maiores que zero, que apresentam grande assimetria à direita, tal como ocorre com os resultados de títulos de anticorpos, peso, índice de massa corporal, etc. Seu cálculo é dado pelas fórmulas: ( )xxxx n nMg ××××= ...321 1 (1) ou ( )n nxxxxMg ××××= ...321 (2) Também pode ser calculada de forma bem mais prática. Para tal trabalharmos com os logaritmos3 (logs) dos dados. Determinamos a média aritmética dos logaritmos e, a seguir, calculamos o antilogaritmo da média aritmética dos logs. O antilogaritmo da média dos logs é igual à média geométrica. Vejamos um exemplo simples: considere os cinco valores apresentados a seguir: [10, 100, 1.000, 10.000, 100.000] Determinando a média geométrica pela fórmula (1): ( )xxxx n nMg ××××= ...321 1 ( ) 000.1000.100000.10000.110010 51 =××××=Mg Determinando a média geométrica pelafórmula (2): ( )n nxxxxMg ××××= ...321 3 Neste texto usamos logaritmos na base 10 ( xLog 10 ) 6 ( ) 000.1000.100000.10000.1100105 =××××=Mg Determinando a Mg pelo método dos logaritmos: Inicialmente calculamos a média dos logaritmos ( xLogs ) ( ) ( ) 3 5 54321 5 000.100000.10000.110010 = ++++ = = ++++ = x LogLogLogLogLog x Logs Logs A seguir, determinamos o antilogaritmo da média dos logaritmos ( xLogs ) ( ) 000.11010)log( 3 === xxAnti LogsLogs ( ) 000.11010 3 === xMg Logs 3. Mediana Se ordenarmos os dados em ordem crescente, a mediana (Md) é o valor da variável observado no elemento que ocupa o centro da distribuição. A mediana divide os dados em dois grupos que têm o mesmo número de casos. Metade dos casos tem valores menores e a outra metade tem valores maiores que a mediana. A mediana é equivalente ao percentil 50º e ao 2º quartil. Para a sua determinação, inicialmente deve-se ordenar a amostra (ordem crescente) e, a seguir, procura-se o elemento que ocupa a posição central. O valor da variável deste elemento é a mediana. No exemplo anterior - dado um conjunto de números [99, 100; 101; 102; 105]: Ordem 1º 2º 3º 4º 5º Valor 99 100 101 102 105 7 O centro da distribuição é ocupado pelo 3º elemento cujo valor é 101. A mediana deste grupo é 101 (Md=101). Observe que dois elementos da distribuição são menores que a mediana (99 e 100) e dois elementos são maiores que a mediana (102 e 105). A etapa mais trabalhosa na determinação da mediana é a identificação do elemento que ocupa o centro da distribuição ordenada dos dados. Não há muita dificuldade quando o número de casos é pequeno, porém, quando trabalhamos com grandes grupos as dificuldades são enormes. O Excel tem uma rotina que faz automaticamente a ordenação dos dados, o que simplifica sobremaneira o trabalho. No entanto, a identificação do elemento central ainda é um problema quando queremos fazer a determinação manual da mediana. Para facilitar o trabalho podemos empregar os seguintes procedimentos: a) Quando o número de casos é ímpar Quando o número de casos é impar, sempre há um elemento que ocupa o centro da distribuição, cuja posição é dada por: 2 1Central Elemento do Posição += N N = número de casos b) Quando o número de casos é par Nesta circunstância dois elementos ocupam o centro da distribuição, cujas posições podem ser determinadas por: 2 NElemento Primeiro do Posição = 1 2 NElemento Segundo do Posição += N = número de casos A mediana será a “média aritmética” dos valores destes dois elementos centrais. 8 Por exemplo, considere os 10 valores apresentados a seguir: 2, 4, 6, 8, 10, 12, 14, 16, 18, 20 Aplicando-se as fórmulas acima teremos (N=10): 5 2 10 2 Elemento Primeiro do Posição === N 61 2 101 2 Elemento Segundo do Posição = += += N Posição 1º 2º 3º 4º 5º 6º 7º 8º 9º 10º Número 2 4 6 8 10 12 14 16 18 20 A mediana será a média aritmética dos valores do 5º e 6º elementos. ( ) 11 2 1210 = + =Md Observe que o valor 11 não pertence aos dados originais. Ele foi estimado por interpolação, a partir dos valores dos dois elementos que ocupam o centro da distribuição. Neste outro exemplo com 6 elementos [100;105;101;98;99;103] 1. Inicialmente ordenamos os dados: 98; 99; 100; 101; 103; 105 2. A seguir, determinamos os elementos centrais: 3 2 6 2 Elemento Primeiro do Posição === N 41 2 61 2 Elemento Segundo do Posição = += += N 9 Posição 1º 2º 3º 4º 5º 6º Valor 98 99 100 101 103 105 3. Agora, podemos calcular a mediana: ( ) 5,100 2 101100Md =+= Diferentemente da média aritmética, a mediana não sofre a influência de elementos extremos. No exemplo acima, se o sexto elemento fosse 105.000 a mediana da distribuição seria a mesma. Posição 1º 2º 3º 4º 5º 6º Valor 98 99 100 101 103 105.000 ( ) 5,100 2 101100Md =+= 4. Moda A moda (Mo) expressa os valores que têm maior frequência no grupo de estudo. Podemos ter distribuições de dados sem moda (amodais), com uma moda (unimodais), com duas (bimodais) ou mais de duas modas (multimodais). No exemplo anterior todos os valores ocorrem uma única vez, portanto, a distribuição não apresenta moda (amodal). Ao tomarmos um grupo de 15 crianças de uma escola, obtemos as seguintes idades (anos): 4; 5; 6; 7; 7; 7; 7; 7; 7; 7; 7; 7; 8; 8; 9 A idade que aparece com maior frequência é 7 anos; portanto, a moda desta distribuição é 7 anos. Esta medida de tendência central não é utilizada na prática. 10 Medidas de dispersão 1. Amplitude Máxima A amplitude máxima (AM) é a diferença existente entre o maior (máximo) e o menor (mínimo) valor observado. Por ser uma medida de dispersão calculada a partir de somente dois elementos, ignorando os demais, expressa de forma limitada a dispersão do conjunto dos dados. Exemplo: considerando as idades (anos) de um grupo de 10 crianças: 4; 5; 5; 6; 6; 6; 7; 7; 8; 8 Menor valor observado = 4 anos Maior valor observado = 8 anos 448 =−=AM 2. Variância A variância é uma medida de dispersão que leva em consideração todos os elementos do grupo. Indicamos a variância de uma população por “σσσσ2” e de uma amostra ou grupo por “s2”. Para determinar a variância calculamos a diferença (desvio) de cada elemento em relação à média aritmética do grupo [ ( )µ−X ]. A seguir, estas diferenças são elevadas ao quadrado [( )µ−X 2 ] e, finalmente, dividimos a soma dos quadrados destas diferenças [ ( )∑ − µX 2 ] pelo número de casos (N). ( ) N X∑ − = µ σ 2 2 Quando trabalhamos com grupos (amostras), temos o interesse de que a variância (s2) seja representativa da variância da população (σ2). Levando-se em conta este fato, dividimos o numerador por (N-1) e não por N. A variância é calculada pela fórmula: ( ) 1 2 2 − − = ∑ n xx s 11 Exemplo: considerando as idades (anos) de um grupo de 10 crianças: 7; 5; 6; 7; 8; 6; 6; 8; 5; 4 1. Inicialmente calculamos a média ( ) 2,6 10 4586687657 = +++++++++ =x 2. A seguir, criamos uma tabela com três colunas para facilitar os cálculos. Na primeira coluna colocamos as idades. Na segunda, as diferenças entre cada idade e a média aritmética do grupo [ ( )xx − ] e, na terceira, os valores da segunda coluna elevados ao quadrado [( )xx − 2 ]. Idades ( )xx − ( )xx − 2 7 0,8 0,64 5 -1,2 1,44 6 -0,2 0,04 7 0,8 0,64 8 1,8 3,24 6 -0,2 0,04 6 -0,2 0,04 8 1,8 3,24 5 -1,2 1,44 4 -2,2 4,84 Total 15,6 3. A seguir, calculamos a variância. ( ) anos, , n xx s 2 2 2 71 9 615 1 == − − = ∑ Com um pouco de paciência e empregando algumas transformações algébricas simples, podemos desenvolver o numerador da fórmula da variância 12 ( ( )∑ −xx 2 ), chegando a uma expressão equivalente, que apresenta a vantagem de não usar a média. ( ) ( ) n x x xx ∑ −= − ∑∑ 2 22 Assim, passamos a contar com uma maneira prática de calcular a variância: ( ) 1 2 2 2 − ∑ − = ∑ n n x x s Retomando o exemplo anterior e aplicando estanova fórmula temos: Idades X X2 7 7 49 5 5 25 6 6 36 7 7 49 8 8 64 6 6 36 6 6 36 8 8 64 5 5 25 4 4 16 Total 62 400 anosx 2,6 10 62 == ( ) anos 719 615 9 10 )62(400 1 2 2 2 22 , , n n x x s == − = − ∑ −∑ = 13 3. Desvio Padrão A variância é uma excelente medida de dispersão, no entanto, pouco usada nas publicações. Como elevamos os desvios ao quadrado, também elevamos ao quadrado as unidades de medida. Assim, a unidade da variância do peso será kg2 , da altura será cm 2 , e a do índice de massa corporal será m kg 4 2 . A interpretação destas unidades de dispersão torna-se muito confusa para o leitor. Considerando estes fatos, passou-se a usar a raiz quadrada da variância, que passou a receber o nome de desvio padrão. Indicamos o desvio padrão de uma população por “σσσσ” e de uma amostra ou grupo por “s”. σσ 2variância +=+= ou ss 2variância +=+= O desvio padrão do exemplo anterior é: anos 3,17,12 =+=+= ss Pelo fato de que o desvio padrão é a raiz quadrada da variância, tem a unidade original em que os dados foram medidos. No exemplo anterior a unidade da variância da idade era anos2 e a do desvio padrão é anos. O desvio padrão representa quanto, em média, cada observação está distante da média aritmética do grupo. Quanto mais próximos da média estiverem os valores, menor será o desvio padrão e, quanto mais distantes estiverem da média, maior ele será. A seguir apresentamos um novo grupo de 10 crianças, para calcularmos o desvio padrão da idade e o compararmos com o do exemplo anterior. 4; 8; 9; 5; 12; 13; 14; 6; 5; 5 A média aritmética da idade deste grupo é: anosx 1,8 10 81 == 14 O desvio padrão é: ( ) anos 7,3 9 9,124 9 10 )81( 2781 1 2 2 == − = − ∑ −∑ = n n x x s Observe que no primeiro grupo tínhamos uma média igual a 6,2 e o desvio padrão igual a 1,3 anos. Neste último, a média é 8,1 e o desvio padrão 3,7 anos. 4. Coeficiente de Variação O coeficiente de variação (CV) é a razão entre o desvio padrão e a média do grupo. O coeficiente de variação, expresso em porcentagem, é uma medida usada para comparar as dispersões de dois ou mais grupos. 100. x s CV = Considerando os dois exemplos anteriores temos: No primeiro grupo de crianças a média é x =6,2 e o s = 1,3 %0,21100. 2,6 3,1100. === x sCV No segundo grupo de crianças a média é x =8,1 e o s = 3,7 %7,45100. 1,8 7,3100. === x sCV A dispersão do segundo grupo é 2,2 vezes maior que a do primeiro. 15 Medidas de posição 1. Quartis Chamamos de quartil a qualquer um dos três valores que divide o conjunto ordenado de dados em quatro grupos, cada um contendo 25% dos casos. O 1º quartil separa o grupo formado por 25% dos casos com os menores valores. O 2º quartil também divide o grupo em dois subgrupos com igual número de casos, sendo que metade dos casos tem valores menores e a outra metade, valores maiores que o 2º quartil. O 3º quartil separa o grupo com os maiores valores, também com 25% dos casos, dos demais 75% que têm valores menores. O 1º quartil é equivalente ao percentil 25, o segundo é equivalente ao percentil 50 e à mediana, enquanto o 3º quartil é equivalente ao percentil 75. Chamamos de amplitude interquartil (AIQ) à diferença entre o 3º e o 1º quartil. Ela expressa a dispersão dos casos que ocupam o centro da distribuição, excluídos os 25% menores e os 25% maiores. QuartilQuartilAIQ º1º3 −= Como determinar os quartis? Inicialmente ordenamos os dados e, a seguir, identificamos os três valores que dividem o grupo todo em quatro subgrupos, cada qual com igual número de casos. Para determinar a posição do elemento que corresponde 1º Quartil (PQ1), utilizamos a seguinte fórmula: ( ) 4 1NQuartil 1º do Posição += Mínimo Máximo 1º Quartil 2º Quartil 3º Quartil 25% 25% 25% 25% 16 Para encontrar a posição do elemento do 2º Quartil (PQ2) usamos a fórmula: ( ) 4 1N2Quartil 2º do Posição +×= Para o 3º Quartil (PQ3) usamos a fórmula: ( ) 4 1N3Quartil 3º do Posição +×= Quando a posição (P) de um determinado quartil é um número inteiro, o elemento faz parte dos dados do pesquisador. Portanto, basta localizá-lo e verificar o valor da variável em estudo. O seu valor é o quartil. Nem sempre temos essa situação. Quando a posição (P) de um determinado quartil é um número decimal, o elemento que se procura não faz parte dos dados do pesquisador. Neste caso, assim como fizemos anteriormente com a mediana, o valor do quartil será obtido por interpolação. Esta interpolação é uma média ponderada, que pode ser obtida pela fórmula: ( ) ( ) ( )[ ]xxx decimalfração AnteriorPosterior AnteriorQuartil −×+= Onde, X(Posterior) – X(Anterior) é a diferença entre os valores dos elementos que delimitam o intervalo que contém o quartil e “fração decimal” é a parte decimal da posição (P) do quartil. Por exemplo, quando a posição (P) de um determinado quartil é 38, nosso trabalho torna-se muito fácil. Basta procurar na série ordenada dos dados o valor da variável do caso que ocupa a posição 38. O valor da variável é o quartil desejado Outras vezes a posição (P) é um número decimal, por exemplo, P=40,8. Sabemos que o quartil desejado está entre o 40º e o 41º elemento, mas que não existe, não é real. Portanto temos que estimá-lo a partir dos valores dos casos 40º e 41º. O 40º antecede a posição do quartil e será chamado de “Anterior” e o 41º sucede a posição do quartil e será chamado de “Posterior”. A “fração decimal” neste caso é 0,8 que é a parte decimal de P. 17 Vamos tomar um exemplo mais concreto. Na tabela abaixo os valores de altura já ordenados. Queremos determinar um determinado quartil e obtivemos P=40,8. Como proceder? Posição ... 38º 39º 40º 41º 42º 43º ... Altura ... 123 134 135 138 141 142 ... Neste caso temos: XAnterior = 135 XPosterior = 138 Fração decimal = 0,8 ( ) ( ) ( )[ ]xxx decimalfração AnteriorPosterior AnteriorQuartil −×+= [ ] 4,1371351388,0135Quartil =−×+= Neste caso, valor do quartil foi obtido por interpolação e seu valor é 137,4cm. 2. Escores Z O escore z (z-score) representa a posição relativa dos elementos de um grupo em relação à sua média aritmética. O escore z expressa, em unidades de desvio padrão, a distância que um determinado dado está em relação à média aritmética. Para o cálculo do escore z temos que conhecer a média e o desvio padrão do grupo em estudo. A partir destes dados, utilizamos a fórmula: ( ) s xx − =− scorez x : valor da variável x : média do grupo s : desvio padrão do grupo 18 Por exemplo, dado o conjunto de números [100; 101; 105,2; 99,2; 100,5]. Inicialmente calculamos a média e o desvio padrão do grupo: 18,101=x e 34,2=s . Para determinar o escore z de 105,2 fazemos: ( ) 71,1 34,2 18,1012,105 += − = − =− s xx scorez O escore z de 105,2 é +1,71, o que significa que 105,2 está situado 1,71 unidades de desvio padrão acima da média. Para determinar o escore z de 100 fazemos: ( ) 50,0 34,2 18,1010,100 −= − = − =− s xx scorez O escore z de 100 é -0,50, o que significa que 100 está situado 0,5 unidades de desvio padrão abaixo da média Para determinar o escore z de 101,18 fazemos: ( ) 034,2 18,10118,101 scorez = − = − =− s xx O escore z de 101,18 é 0, o que significa que 101,18 é igual à média do grupo. 19 Análise exploratória de dados Chamamos de “análise exploratória de dados” à avaliação criteriosa4,5 dos dados e que deve preceder a análise final, cujo resultado é o conjunto das informações que serão publicadas. Para esta avaliação utilizamos todas as técnicas discutidas neste texto, entretanto, ressaltamos que o mais importante é a experiência da pessoa que vai fazer a análise. É fundamental que se conheça a natureza e a forma de distribuição de cada uma das variáveis em estudo, assim como se deve avaliar a “qualidade” dos dados que serão analisados. Quando falamos em “qualidade” estamos nos referindo ao rigor metodológico usado no momento das medições, na qualidade da digitação, na depuração de erros de medida e dos erros de digitação, etc. A partir dessa interpretação preliminar, após avaliar a forma de distribuição dos dados e a qual modelo se ajustam, pode-se iniciar a análise descritiva e a aplicação de testes estatísticos. Cuidado especial devem receber os chamados “dados atípicos” ou “pontos fora da curva” ou “outliers”. Estes dados atípicos são aqueles que estão muito distantes do centro da distribuição, e que até podem ocorrer, embora, às vezes, resultem de erro de medida, erro de anotação ou mesmo de digitação. São considerados outliers os pontos que são maiores que 3º quartil+1,5xAIQ ou menores que 1º quartil-1,5xAIQ, onde AIQ é a amplitude interquartil. Por exemplo, em um estudo sobre altura de crianças em idade escolar, encontramos casos com valor 220cm e 240cm. O mais provável é que tenha ocorrido erro no momento do exame antropométrico, na anotação ou mesmo por ocasião da digitação, pois é impossível que haja crianças em idade escolar com estas alturas. Se estes casos não forem retirados do grupo, haverá séria distorção na média e no desvio padrão, comprometendo os testes estatísticos. O gráfico de box-plot é uma ferramenta muito útil e prática para se fazer essa análise preliminar de dados quantitativos. Este gráfico é construído a partir de cinco pontos fundamentais: o mínimo, o 1º quartil, o 2º quartil, o 3º quartil e o máximo. 4 “Exploratory data analysis is detective work – numerical detective work or counting detective work or graphical detective work”. Tukey (1977) p. 1. 20 Iniciamos marcando o mínimo e o máximo. A seguir, desenhamos um retângulo que passa pelo 1º quartil e pelo 3º quartil. Posteriormente, marcamos a mediana no interior do retângulo. Desenhamos dois segmentos de reta com comprimento igual a 1,5xAIQ. O primeiro, acima do bordo superior do retângulo e o outro, abaixo do bordo inferior. Os casos cujos valores não estão incluídos entre os dois extremos dos segmentos de reta são considerados outlliers e devem ser reavaliados antes de se prosseguir na análise dos dados. Na figura abaixo apresentamos um Box-Plot. 5 “Unless exploratory data analysis uncovers indications, usually quantitative ones, there is likely to be nothing for confirmatory data analysis to consider” Tukey (1977) p. 3. Pico de Fluxo Expiratório (m l) 500 450 400 350 300 250 200 150 100 Máximo Mínimo 1º Quartil 3º Quartil Mediana 21 Estatística Descritiva de dados categóricos ou qualitativos Para a apresentação de dados qualitativos determinamos as distribuições de frequências e as apresentamos em tabelas e gráficos. 1. Distribuição de frequências simples Para obtermos uma distribuição de frequência de dados categóricos, basta contarmos quantos casos há em cada categoria. As frequências das categorias podem ser expressas por seu número absoluto ou pela porcentagem em relação ao total. Avaliação nutricional pelo critério de Gomez de 521 crianças de pré-escolas da cidade de Paulínia – São Paulo (Zanolli,1992)6. (N) (%) Eutrofia 412 79,1 Desnutrição Leve 104 20,0 Desnutrição Moderada 5 1,0 Desnutrição Grave 0 0 Total 521 100,0 O cálculo da porcentagem de uma determinada categoria é muito simples: divide-se a frequência absoluta pelo total e multiplica-se por 100. No exemplo anterior, para o grupo dos eutróficos seria: Eutróficos (%) = 412 / 521 x 100 = 79,07869 Geralmente fazemos a aproximação para uma casa decimal que, no exemplo acima, resulta 79,1%. A interpretação destes dados é muito simples. Ao lermos a tabela verificamos que 412 crianças entre as 512 eram nutridas, o que corresponde a 79,1% do total. Em algumas circunstâncias pode interessar ao pesquisador apresentar também a frequência acumulada. 6 Zanolli ML – Avaliação do estado nutricional de pré-escolares matriculados nas escolas municipais de educação infantil de Paulínia – SP. Campinas, 1992. Tese (Mestrado em Saúde Coletiva), Faculdade de Ciências Médicas, UNICAMP. 22 Avaliação nutricional pelo critério de Gomez de 521 crianças de pré-escolas da cidade de Paulínia – São Paulo (Zanolli, 1992)7 (N) (%) (%) Acumulada Eutrofia 412 79,1 79,1 Desnutrição Leve 104 20,0 99,1 Desnutrição Moderada 5 1,0 100,1 Desnutrição Grave 0 0 0 Total 521 100,1 100,1 Quando trabalhamos com variáveis numéricas torna-se necessário agrupar os dados em categorias para poder apresentá-los na forma de distribuição de frequências. Os dados são agrupados em intervalos de classes, cujo número não deve ser pequeno ou muito grande, recomendando-se que varie de 5 a 20. Há algumas fórmulas para determinar o número de classes, mas a lógica e o bom senso parecem ser mais úteis. É necessário ter em mente que os intervalos de classes devem ser estabelecidos de tal forma que todos os dados possam ser incluídos em somente uma das classes. Abaixo temos uma distribuição de frequências de uma variável quantitativa (idade em meses) agrupada em intervalos de classe. Distribuição da idade(anos) de 521 crianças de pré-escolas da cidade de Paulínia – São Paulo (Zanolli, 1992)8. Idade (meses) (N) (%) 36,0 –| 48,0 35 6,7 48,0 –| 60,0 70 13,4 60,0 –| 72,0 168 32,2 72,0 –| 83,9 204 39,2 84,0 –| 96,0 44 8,4 Total 521 99,9 7 Id. 8 Ibid. 23 2. Distribuição de frequências em relação a duas variáveis qualitativas – tabelas de contingência Neste caso o objetivo é construir uma tabela contendo informações sobre o comportamento de uma população ou grupo com relação a duas ou mais variáveis. Distribuição de 521 crianças de pré-escolas da cidade de Paulínia – São Paulo em relação ao sexo e à idade (Zanolli,1992)9. Idade (meses) Feminino N (%) Masculino N (%) Total N (%) 36,0 – 47,9 15 (42,9) 20 (57,1) 35 (100,0) 48,0 – 59,9 41 (58,6) 29 (41,4) 70 (100,0) 60,0 – 71,9 81 (48,2) 87 (51,8) 168 (100,0) 72,0 – 83,9 99 (48,5) 105 (51,5) 204 (100,0) 84,0 – 95,9 24 (54,5) 20 (45,5) 44 (100,0) Total 260 (49,9) 261 (50,1) 521 (100,0) Avaliação nutricional pelo critério de Gomez em relação sexo de 567 crianças matriculadas nas 14 creches do município de Paulínia – SP, 1995 (Antonio,1995)10. Sexo Eutrofia D. Leve D. Moderada Total Masculino 221 (81,0) 49 (17,9) 3(1,1) 273 Feminino 227 (77,2) 66 (22,4) 1 (0,3) 294 Total 448 (79,0) 115 (20,3) 4 (0,7) 567 D. Leve – desnutrição de Iº grau; D. Moderada – Desnutrição de IIº; N (%) 9 . Ibid. 10 Antonio MARGM - Avaliação do estado nutricional e do perfil de crescimento de 568 crianças matriculadas nas 14 creches municipais de Paulínia – SP. Campinas, 1995. Tese (Mestrado em Pediatria), Faculdade de Ciências Médicas, UNICAMP 24 3. Apresentação gráfica a) Gráficos setoriais Os gráficos setoriais (pie chart, pizza) são indicados para apresentar a distribuições de frequências. A área do círculo atribuída a cada categoria é proporcional à sua frequência. A maneira mais prática para determiná-la, sabendo- se que o total (100%) corresponde a um ângulo de 360º, é: Ângulo desejado = (% x 360)/100 Por exemplo, para uma frequência de 45% devemos tomar um ângulo de 162º: Ângulo desejado = (45 x 360)/100 = 162º A seguir apresentamos um exemplo de gráfico setorial 10,28% 32,71% 57,01% negro pardo caucasiano etnia b) Gráficos de Barra Da mesma forma que o anterior, este tipo de gráfico é indicado para apresentar distribuições de frequências. Neste caso a frequência está relacionada à altura da barra, sendo que as barras devem ter a mesma largura. 25 A seguir apresentamos um gráfico de barras expressando a distribuição de frequências em relação à etnia. . etnia negropardocaucasiano (N ) 60 40 20 0 Na figura abaixo o gráfico de barras expressa a frequência em relação à etnia e sexo. etnia negropardocaucasiano (% ) 60,0% 40,0% 20,0% 0,0% sexo feminino sexo masculino sexo 26 Bibliografia Altman DG. Practical statistics for medical research. 1st edition. London: Chapman & Hall, 1991. Anderson DR, Sweeney DJ, Williams TA. Estatística aplicada à administração e economia. 2ª ed. São Paulo: Pioneira, 2002. Berquó ES, Souza JMP, Gotlieb SLD. Bioestatística. 1ª ed. São Paulo: EPU, 1981. Bland M. An introduction to medical statistics. 2nd edition. New York: Oxford University Press, 1995. Bunchaft G. Estatística sem mistérios. 4ª ed. Petrópolis, RJ: Vozes, 1997. Bussab WO, Morettin PA. Estatística básica. 5ª ed. São Paulo: Saraiva, 2003. Callegari-Jacques SM. Bioestatística: princípios e aplicações. 1ª ed. Porto Alegre: Artmed, 2003. Daniel WW. Biostatistics – A foundation for analysis in the health sciences. 6th. Edition. New York: John Wiley & Sons, Inc., 1995. Guimarães RC, Cabral JAS. Estatística. Lisboa: McGraw-Hill, 1997. Levin J. Estatística aplicada às Ciências Humanas. São Paulo: Harper & Row do Brasil, 1987. Martins GA. Estatística geral e aplicada. São Paulo: Atlas, 2001. Spiegel MR. Estatística. 3ª ed. São Paulo: Makron Books, 1993. Triola MF. Introdução à estatística. 7ª ed., Rio de Janeiro: LTC – Livros Técnicos e Científicos Editora Ltda, 1999. Tukey JW. Exploratory data analysis. London: Addison-Wesley Publishing Company, 1977. Vieira S. Introdução à bioestatística. 3ª ed., Rio de Janeiro: Editora Campus, 1980. Zar J. Biostatistical analysis. 2nd edition. Englewood Cliffs: Prentice-Hall Inc., 1984. 27 Estatística Descritiva com o SPSS Para análise de variáveis quantitativas podemos usar três módulos do SPSS: o <Frequencies ...>, o <Descriptives ...> e o <Explore ...>. 1. Usando o <Frequencies ...> Click em <Analyze> ⇒ <Descriptive Statistics> ⇒ <Frequencies ...> Selecione as variáveis, levando-as para a janela <Variable(s)> Click em <Statistics> para selecionar as opções desejadas Click em <Charts> para selecionar as opções de gráficos 28 Abaixo apresentamos um output típico do módulo Statistics anos Idade (anos) 107 0 9,681 ,9282 8,0 11,9 9,000 9,417 10,500 Valid Missing N Mean Std. Deviation Minimum Maximum 25 50 75 Percentiles 2. Usando o <Descriptives ...> Click em <Analyze> ⇒ <Descriptive Statistics> ⇒ <Descriptives ...> Selecione as variáveis, levando-as para a janela <Variable(s)> Click em <Options> para selecionar as opções desejadas A seguir apresentamos um output típico do módulo Descriptive Statistics 107 8,0 11,9 9,681 ,9282 107 anos Idade (anos) Valid N (listwise) N Minimum Maximum Mean Std. Deviation 29 3. Usando o <Explore ...> Click em <Analyze> ⇒ <Descriptive Statistics> ⇒ <Explore ...> Selecione as variáveis, levando-as para a janela <Dependent List> e <Factor List> Click em <Statistics> para selecionar as opções desejadas Click em <Plots> para selecionar as opções de gráficos Click em <Options> para selecionar as opções desejadas 30 A seguir apresentamos os outputs típicos do módulo Descriptives 9,707 ,1199 9,467 9,948 9,691 9,542 ,748 ,8649 8,1 11,8 3,8 1,5 ,236 ,330 -,778 ,650 9,656 ,1337 9,388 9,924 9,624 9,333 ,984 ,9917 8,0 11,9 3,9 1,6 ,472 ,322 -,705 ,634 Mean Lower Bound Upper Bound 95% Confidence Interval for Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Mean Lower Bound Upper Bound 95% Confidence Interval for Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis sexo sexo 1 sexo masculino 2 sexo feminino anos Idade (anos) Statistic Std. Error Percentiles 8,417 8,667 8,938 9,542 10,458 10,867 11,088 8,350 8,500 9,000 9,333 10,583 11,117 11,550 8,958 9,542 10,417 9,000 9,333 10,542 sexo sexo 1 sexo masculino 2 sexo feminino 1 sexo masculino 2 sexo feminino anos Idade (anos) anos Idade (anos) Weighted Average(Definition 1) Tukey's Hinges 5 10 25 50 75 90 95 Percentiles sexo sexo femininosexo masculino Id ad e (an o s) 12,0 11,0 10,0 9,0 8,0 31 Para análise de variáveis qualitativas podemos usar os módulos do SPSS: <Frequencies ...> e o <Crosstabs ...>. 1. Usando o <Frequencies ...> para obter lista de frequências simples Click em <Analyze> ⇒ <Descriptive Statistics> ⇒ <Frequencies ...> Selecione as variáveis, levando-as para a janela <Variable(s)> Click em <Display frequency tables> para habilitar a apresentação das frequências Click em <Charts> para selecionar as opções de gráfico A seguir apresentamos os outputs típicos do módulo sexo 52 48,6 48,6 48,6 55 51,4 51,4 100,0 107 100,0 100,0 1 sexo masculino 2 sexo feminino Total Frequency Percent Valid Percent Cumulative Percent sexo sexo femininosexo masculino Fr eq u en c y 60 50 40 30 20 10 0 sexo 32 2. Usando o <Crosstabs ...> para obter tabelas de contingência Click em <Analyze> ⇒ <Descriptive Statistics> ⇒ <Crosstabs ...> Selecione as variáveis que comporão as linhas, levando-as para a janela <Row(s)> Selecione as variáveis que comporão as colunas, levando-as para a janela <Column(s)> Click em <Cells> para habilitar a apresentação das porcentagens A seguir apresentamos um output típico do módulo sexo * etnia 24 22 6 52 46,2% 42,3% 11,5% 100,0% 37 13 5 55 67,3% 23,6% 9,1% 100,0% 61 35 11 107 57,0% 32,7% 10,3% 100,0% n % n % n % 1 sexo masculino 2 sexo feminino Total 1 caucasiano 2 pardo 4 negro etnia Total
Compartilhar