Baixe o app para aproveitar ainda mais
Prévia do material em texto
CAPÍTULO 11 VARIÁVEIS E GRÁFICOS 1. Estatística Estatística é um ramo da Matemática que se ocupa com os métodos de coleta, processamento, apreciação e análise de dados, e com a obtenção de conclusões que possibilitem tomadas de decisões razoáveis. Os dados devem relacionar-se com uma determinada característi- ca existente nos indivíduos ou objetos em estudo, Quando esses dàdos/ ·são obtidos através de um experimento, chamam-se dados experimen-: tais. · , ' ~ . I <Chama-Se univ_e7'~() 01,1 população o grupo sobre o qual está sendo ' ge~j,ü!d() () esiudoe.sfa:tístico.\Chama-se amostra uma parcela representa-=! tiva da população, _escolhida arbitrariamente e sobre a qual recairá Q' eStudo a ser feito. l Exemplo: Uma máquina produz uma determinada peça. Quer se saber o número de peças defeituosas fabricadas por dia. Pode-se colocar um operário ou diversos operários para contarem as peças defeituosas surgidas durante o dia. Este total é a população. Por outro lado, pode-se recolher uma parcela das peças fabricadas e contar entre elas as defeituosas. A esta parcela chama-se amostra. Suponhamos, ainda, que este defeito refira-se ao comprimento da peça fabricada. Ao medirem-se as peças da amostra, verifica-se que esse comprimento apresenta certa variação, que nos obrigará a determinar um critério para classificar as peças defeituosas ou não. Todas essas etapas e problemas surgidos são objeto de estudo da Estatística. 2. Variável A Estatística trabalha com dados quantitativos e qualitativos. Estes dados podem ser obtidos pela observação ,direta ou através de experimentos. Referem-se sempre a atributos inerentes ao objeto observado ou estudado. Normalmente, os trabalhos de pesquisa procuram estudar os mais diversos fenômenos, bem como os fatores associados a eles, através de atributos que são observados em condições determinadas. Atributos de unidades de o~servação podem apresentar um comportamento único, e invariável; nesse caso, são denominados constantes. Entretanto, os atributos podem também ter um comporta- mento variável, e nesse caso são denominados variáveis. É condição inerente a uma população biológica natural existir variação quanto aos seus atributos que podem ser estudados, portanto, a variabilidade é uma característica comum a dados e experimentos biológicos. Um atributo sujeito à variação é descrito em estatística por uma variável que pode ser representada por um símbolo qualquer: X, Y, w etc., indicando que a variável pode assumir qualquer valor. A variável representa um elemento genérico de um conjunto que é chamado de domínio da variável ou campo de definição da variável. Exemplo: Seja um conjunto de n elementos X 1, X2, X3 ...... Xn. A variável Xi pode, assim, representar qualquer elemento do conjunto dado ( I :s; X <: n). Utilizando-se alguns exemplos concretos de variável: -Cor VA Atributo da variável -Tamanho de ninhada RIA -Peso ÇÕES 16 Azul, verde .... I, 2, 3 30 kg, 40 kg Pode-se ver que há dois tipos gerais de variável no exemplo acima, 1 - variável qualitativa - ex. cor 2 - variável quantitativa - ex. peso As variáveis podem apresentar características diferentes em conseqüência da natureza do que se avalia e do próprio método de avaliação. Assim, podemos ter variáveis que se referem a qualidades das unidades de observação e são ditas qualitativas; por exemplo, sexo, tipo sanguíneo, condição em relação ao tabagismo etc. Nesses casos, as unidades de observação podem ser classificadas em categorias que não se sobrepõem e que são identificadas como qualidades. Um caso particular importante das variáveis qualitativas é aquele em que a variável só pode assumir dois valores, sendo, nesse caso, denominada variável binária; por exemplo, sexo, presença ou não de um determina- do sintoma etc. Nessa situação, podemos codificar os valores por O e 1. Outras vezes, as variáveis podem ser expressas numericamente e representam fenômenos que variam de maneira contínua ou quase contínua. Essas variáveis são quantitativas, podem ou não assumir qualquer valor entre dois extremos. Aquelas que podem assumir quaisquer valores (fracionários ou não) no conjunto real de valores são ditas contínuas (ex., peso). Por outro lado, aquelas que só podem assumir valores a intervalos definidos são ditas discretas ou merísticas (ex., número de dentes). Podem-se exemplificar atributos cuja descrição se faz através das variáveis discreta e contínua, como segue: Variável discr.eta- número de alunos em salas de aula, número de animais em rebanhos etc. Variável contínua- altura e peso de pessoas, de animais, d~ plantas etc.· De modo geral, pode-se dizer que medições fornecem variáveis contínuas e contagens, variáveis discretas. 17 As variáveis nonnalmente são expressas usando-se os valores de uma escala. O professor Siegel reconhece quatro escalas ou quatro níveis de mensuração que a escala pode adotar: nominal, ordinal, intervalar e de razões. As operações admissíveis em um conjunto de valores numéricos dependem do nível de mensuração atingido (Siegel, 1977). O professor Siegel, em seu livro Estatística não paramétrica, reconhece quatro níveis de mensuração que originam as quatro escalas usadas para exprimir valores das variáveis acima referidas: Escala ordinal ou classificatória- é aquela de mais baixo nível, os números são usados somente para classificar. São exemplos: sexo, em que masculino e feminino podem assumir os números 1 e 2; diagnóstico psiquiátrico, em que esquizofrenia, paranóia, psiconeurose etc. podem assumir os números 1 ;2,3 ... A única propriedade da escala é a equivalên- cia (reflexiva, simétrica e transitiva). Escala ordinal ou por postos- pennite a ordenação das unidades de observação, embora a magnitude das diferenças entre as unidades não possa ser avaliada. Exemplos de escala ordinal são o nível de escolarida- de, a hierarquia militar etc. No caso dos níveis de escolaridade, valores O, I, 2, 3 etc. podem significar "sem o primeiro grau", "com o primeiro grau", "com o segundo grau" etc. Não podemos afinnar que a diferença entre 1 e 2 é a mesma entre 2 e 3, por exemplo. Não se pode, por exemplo, calcular a média desses valores. A escala ordinal, entre suas propriedades, além da equivalência, incorpora a relação "maior do que", isto é, pode ser irreflexiva, assimétrica e transitiva. Escala intervalar - quando a escala tem todas as características de uma escala ordinal e se conhece a distância entre dois números quaisquer da escala. Contudo, em uma escala intervalar, o ponto zero e a unidade de medida são arbitrários. As escalas de medida de temperatu- ra, Celcius e .Fahrenheit, são exemplos. Além das propriedades das escalas anteriores, tem como propriedade o fato de que a "razão de dois intervalos quaisquer é conhecida". Admite a realização de provas estatísticas paramétricas, que veremos mais adiante. 18 Escala de razões - além das propriedades das anteriores, possui um ponto zero verdadeiro e a razão de dois pontos quaisquer é indepen- dente da unidade de mensuração. As medidas americanas ou inglesa (onça, libra), bem como as decimais (grama), possuem um zero verdadeiro e a razão de dois pesos é independente da medida. Nesta escala são admitidas todas a medidas estatísticas paramétricas. 3. Notação de dados Operação com valores expressos em decimais muitas vezes têm seus resultados arredondados. O arredondamento se procede sempre para uma determinada ordem de grandeza imediatamente superior à fração que se quer desprezar e .no sentido do valor mais próximo (maior ou menor). Assim, podemos arredondar 76,3 para 76 ou 76,37 para 76,4. Quando, porém, o valor a ser arredondado finaliza em 5, deixa de valer a regra do valor mais próximo. Na prática, em tais casos, usa-se arredondar para o valor par mais próximo; assim, 76,45 será 76,4 e 76,55 passará a 76,6. Outra notação bastante comum é aquela utilizada para valoresmuito elevados e com pouca precisão. Ex.: 150.000 células/ml; tais valores costumam ser expressos em potências de 1 O, assim 150.000 será 1,5 x 105• Costumam também surgir potências negativas. Exemplo: Mortalidade 8/100.000 - 8 x 1 o·5; este tipo de anotação é muito comum em Radiobiologia, quando se estuda mortalidade em função da dose de radiação. Aparece, também, nas taxas de mortalidade da população humana; por exemplo, -2 por 1.000 seria 2 x 1 o·3• 4. Funções Ocorre muitas vezes que uma população pode ser definida ou estudada por duas variáveis - X e Y. Em tais casos, se para cada valor de X corresponde um ou mais valores de Y, podemos dizer que Y é uma 1 função de X. 19 . Exemplificando: Função - Suponhamos os conjuntos: X: 1, 2, 3, 4, 5,..... naturais Y: 2, 4, 6, 8, 1 0, ..... naturais pares Se fizermos corresponder a cada elemento de X um elemento de Y, esta correspondência é chamada de função e nota-se Y = f(x). X agora é chamada variável independente. Y é chamada variável dependente. Essa correspondência entre as duas variáveis pode ser definida por meio de uma equação. No caso acima: Y=2X Observa-se facilmente que a cada valor de X corresponde um valor para Y. A este assunto voltaremos mais tarde, quando estudarmos a regressão. Podemos representar graficamente uma função com o auxílio de um sistema de eixos cartesianos. Ex.:Y=2X y X y -2 -4 - 1 -2 o o 1 2 2 4 Muitas vezes é difícil estabelecer uma equação para certas relações, porém, mesmo assim, pode-se representá-la graficamente porque dispomos de uma tabela. 20 Exemplo: Tabela 11-1 - População de Goiás de 1872 a 1960 Anos 1872 1890 1900 1920 1940 1950 1960 Pop. 160.395 227.572 255.284 511.919 826.414 1.214.921 1.954.862 5. Tabelas e gráficos A confecção de tabelas está baseada em regras gerais e normas de apresentação que serão objeto de estudo no capítulo seguinte. Contudo, desde já é possível esclarecer que as relações entre variáveis, quer definidas por uma equação ou apenas visualizadas a partir de uma tabela, podem ser graficamente representadas sob diversas formas ilustradas, genericamente. Estas representações são conhecidas como gráficos, que são de três tipos principais: diagramas, cartogramas e estereogramas. Destes, os que mais nos interessam são os diagramas. Estes serão objeto do capítulo seguinte, contudo, a título de exemplo, podemos construir um diagrama em barras verticais com os dados apresentados pela Tabela 11.1. Da Tabela 11.1 podemos também tirar o seguinte gráfico: 1.920.000 p o p u L A ç J( o 160.000 -r r- n n 1872 1890 1900 1920 1940 1950 1960 ANOS Figura 11.1 - População de Goiãs no período 1872-1960 21 Podemos também tirar o seguinte gráfico: 1.920.000 22 p o p u L A ç Ã o 160.000 1872 1890 1900 19 20 1940 19 50 1960 ANOS Figura 11.2- População de Goiâs no período 1872-1960 CAPÍTULO III DISTRIBUIÇÃO DE FREQÜÊNCIA Se o número de observações disponíveis fosse suficientemente grande, cada valor ocorreria diversas vezes e a freqüência dos valores na população a caracterizariam perfeitamente. Contudo, em uma amostra, a limitação de observações dificilmente possibilitará a repetição da ocorrência de todo e qualquer valor. Assim, o estudo da freqüência com que cada um ocorre não possibilita informações muito significativas. Uma maneira de vencer este problema é reunir valores próximos. Este grupo de valores é chamado classe. A execução das etapas que permitem o estudo de distribuição da freqüência das observações e sua apresentação em tabelas é o que estudaremos a seguir. 1. Rol Os dados são geralmente coletados desordenadamente. É preciso ordená-los segundo um critério qualquer, a fim de facilitar o seu manuseio. Se forem dados numéricos, podemos ordená-los numa ordem crescente ou decrescente. Os dados ordenados formam um rol ordenado. Exemplo: De um experimento com tomate Santa Cruz, feito pelo nosso Departamento, retiramos uma amostra de 50 frutos, cujos pesos aparecem no Rol III.l. Rol 111.1 -Peso em gramas de 50 frutos de tomate Santa Cruz da EA V (1969) 25' 28 51 40 42 39 37 49 37 40 33 ' 40 39 41 36- 42 35 25 / 41 36 33 ' 28' 43 49 32· 37 34 48 26 . 27 · 43 42 48 37 / 36 28' 42 45 44 36 40 46 30' 40 40 37 44 39 31 45 Como vemos, os dados apresentam-se desordenadamente. Podemos organizá-los em um rol, dispondo-os em ordem crescente ou decrescente. Ao organizá-los, verificamos a existência de um valor maior. 2. Classes Os dados originais podem, ainda, ser resumidos, distribuindo-se em classes ou categorias, indicando-se o número de indivíduos pertencentes a cada classe. Para se organizar uma tabela deste modo, divide-se a amplitude total por um número conveniente de classe (quando se pretende que todas tenham o mesmo intervalo). Amplitude ·total ou intervalo total é a diferença entre o valor maior e o valor menor. A experiência indica que o melhor número de classes é entre 5 e 20, dependendo da quantidade de dados disponíveis. Exemplo: - Do Rol 111.1, podemos tirar 51:- 25 .= 26, se adotarmos 6 classes temos: 26:6 = 4,3 Desta maneira fica calculado o intervalo de valores abrangido por cada classe, isto é, o que chamamos intervalo de classe. 24 Intervalo- Dados dois números a e b (a< b), chama-se intervalo o conjunto de todos os números desde a até b. Os números a e b são chamados extremos do intervalo e, respectivamente, inferior e superior. Os extremos podem pertencer ou não ao intervalo. Se pertencem, o intervalo é chamado fechado. Se os extremos não pertencem ao intervalo, este é aberto. Podemos ter intervalos abertos à esquerda ou à direita. Exemplo: (1, 5) (1, 5) ou ou l--l5 11--5 Amplitude dos intervalos- é a diferença entre o extremo superior e o inferior. Exemplo: 5 - I = 4, no caso acima Para o caso no rol anterior, se tomarmos o inteiro imediatamente superior poderemos, também, determinar o que se pode chamar de I imite real de classe; este deve estar abaixo do menor valor de que dispomos para que este valor fique incluído na primeira classe. Écomum localizar o menor valor no centro da primeira classe (ponto médio entre o limite inferior e o limite superior). Cabe, ainda, assinalar que, depois de determinada, a classe pode ser caracterizada por seu ponto médio, que é obtido pela soma dos limites inferior e superior e dividido por 2. Exemplo: 22 - 28; ponto médio = (22 + 28) : 2 = 25 3. Freqüência Contando-se o número de observações que caem em cada classe, fica determinada a freqüência destas observações por classe. A esta freqüência chama-se freqüência absoluta. 25 A freqüência relativa de uma classe é a freqüência desta classe dividida pela soma de todas as freqüências. Há, também, afreqüência relativa acumulada, que é a soma das freqüêndas relativas até a classe considerada. 4. Tabelas de freqüência Os conceitos até agora estudados permitem a construção de tabelas de freqüência fundamentais para descrever clara e organizada- mente uma amostra estudada. Há inúmeros modos de organizar uma tabela. Existem, porém, regras básicas para organização e apresentação de tabelas. Uma tabela de freqüência constitui-se de corpo, cabeçalho, coluna indicadora, título e rodapé. Exemplo: Título - Tabela III.I - População brasileira da Região Sul por Estado Cabeçalho - Estados Pop. absoluta Pop. Relativa % Coluna Paraná 7.000.000 43,75 indicadora Sta. Catarina 3.000.000 18,75 -corpo R.G.Sul 6.000.000 37,50 Total 16.000.000 100,00 Rodapé - Dados obtidos por estimativa, a partir do censo de 1960 A partir dos dados brutos contidos no rol, pode-se organizar uma tabela. O primeiro passo será determinar os limites de classes. A partir daí, toma-se fácil a organização da tabela. Exemplo: Para o nosso caso dos tomates, podemos organizar a seguinte tabela: 26 Tabela 111.2 - Freqüência de peso, em gramas, de50 frutos de tomate Sta. Cruz da EA V ( 1968) Limites das Centro da Freqüência Freqüência Freqüência classes emg classe (g) absoluta relativa% rei. acum.% 22,5-27,5 25 4 8,0 8,0 27,5-32,5 30 6 12,0 20,0 32,5-37,5 35 13 26,0 46,0 37,5-42,5 40 15 30,0 76,0 42,5-47,5 45 7 14,0 90,0 47,5-52,5 50 5 10,0 100,0 Total 50 100,0 As classes também poderiam ser arranjadas do seguinte modo: 23 H 27, 28 H 32, etc., ou 22--! 27, 27 --l 32, ... Aqui optou-se pelo método de utilizar classes com determinação de uma casa decimal além daquela presente nos dados, excluindo-se os limites. 5. Regras gerais para apresentação de tabelas estatísticas 1. Cada tabela deve ter significação própria, de modo a prescindir, quando isolada, de consultas a texto. Este critério é prescindível em muitos casos especiais. 2. Nenhuma "casa" deve ficar em branco, apresentando sempre número ou sinal. 3. Nenhuma tabela deve ser disposta de maneira que a leitura exija a colocação do volume fora de sua posição normal. 27 4. As tabelas deverão ser fechadas, no alto e embaixo, por linhas horizontais do tipo gras: a) quando a tabela tiver, no sentido vertical, continuação na página seguinte, não terá o fio gras inferior e o cabeçalho será repetido na página seguinte; b) as tabelas não serão fechadas, à direita e à esquerda, por linhas verticais. 5. As colunas muito extensas devem ter, de cinco em cinco ou de dez em dez linhas, ou na dependência de subassuntos em que se possa dividir a matéria, um intervalo em branco. 6. Quando em uma tabela mais de uma coluna for apresentada sob uma mesma especificação, separar-se-á este conjunto por uma linha mais grossa. 7. Os conjuntos tabulares devem ser precedidos de uma indicação dos sinais e, no final, deverá constar a relação completa das fontes e respectivos endereços. 6. Representação geométrica das freqüências As representações gráficas das tabelas de freqüência que mais nos interessam são os diagramas. Os diagramas são gráficos geométricos de duas dimensões. Podem ser dos tipos histograma e/ou polígono de freqüência. Histograma Histogramas são gráficos em colunas representados sobre o primeiro quadrante de um sistema de eixos cartesianos. Por regra geral se representa no eixo Y as freqüências e no eixo X o atributo que está sendo estudado pela notação do centro de classe, ou outra característica definidora da classe. Dependendo da variável representada no eixo X, as barras ou colunas podem ser contíguas ou não, dando origem a diferentes tipos de histogramas. 28 Exemplos: 30 zc 10 25 30 35 40 45 50 Figura III. l - Histograma referente à Tabela 111.2 Centro de classe - Peso em gramas de tomates Neste histograma, no eixo dos X foram utilizadas barras contínuas pois a variável (peso) é contínua. A interrupção -1 ;L é para evitar um segmento muito grande do eixo (proporcional ao tamanho de cada classe) sem nenhuma informação. Mo~da.de. po.l< 1 oo . 000 hab.<..t:a.~ ..... 200 100 20 7 1 1<1 1 28 1912 1973 1914 AWOS Figura 111.2 -Taxa de Mortalidade em Brasília, no período 1972-1974 (Fonte- Anuário Estatístico do Brasil - 1975) 29 N Polttuguuu 428 J Á c 1ta.Uanoll 1 478 I o N Alemãu (Oc.l 641 I Á L Ch.Uvwll 1 lQP I v A ÁllgentÚ'!Oll o 775 I E Ame/Ucanoll s I. 014 I 500 '.000 N9 de imigllantell Figura 111.3- Imigrantes permanentes entrados no Brasil em 1974. Neste caso, no eixo dos Y anotou-se o atributo estudado (naciona- lidade dos imigrantes) e no eixo dos X, a freqüência absoluta (n.0 de indivíduos). Polígono de freqüência O contorno externo do histograma cftama-se poligonal caracterís- tica do conjunto; está área equivale à freqüência total, pois se compõe de retângulos cujas áreas equivalem à freqüência de cada classe. Contudo, prefere-se representar a poligonal de um conjunto unindo-se o centro do topo de cada retângulo, o que dá origem ao polígono de freqüência. Caso se considere a freqüência acumulada, resultará o polígono de freqüências acumuladas. Se houver um número muito elevado de observações, números de classes e intervalos pequenos, a linha do polígono vai se aproximando de uma curva, podendo ser denominada curva de freqüência. Outros gráficos Há inúmeros tipos de gráficos. Entre os mais difundidos estão os polares, os cartogramas e os de setores. 30 Gráficos polares Figura 111.4- Variações mensais da queda da chuva (São Luis- 1928-1937) O gráfico que pode ser visto nesta figura é construído dividindo-se um círculo em tantas partes quanto os itens ( 12 neste caso), marcando-se . a seguir, em cada raio, a grandeza correspondente (apud Viveiros de Castro, L. S., 1938). Cartograma 1 ponto • 100.000 habitantes (apld Viveiros de Castro, L.S,- 1946). Figura III.5 - Densidade da população no Brasil (Recenseamento de 1940) 31 Gráficos setoriais Fig. III.6 - 32 JNVERI() Variação sazonal na fre- quência elas famÍlias Ca! liphoriclae. Sarcophagidae e ~lJsciclae. co1etadas em em Curitiba e arredores, em 1974 (TIIelo Ferreira. ~.J.- 1975). D mil ~ PRIMA.VERA Calliphoriclae Sarcophagiclae fotlsciclae 7. Escalas Para a construção de um histograma adotam-se escalas que traduzam as grandezas lançadas em cada eixo. Comumente, as escalas mais usadas são do tipo aritmético e logarítmico. É costume expressarem-se escalas aritméticas seguindo-se o padrão do sistema métrico, em que cada em vale X unidades de freqüência absoluta ou relativa; contudo, qualquer outro padrão pode ser usado. Exemplos: Freqüência relativa Ex.: I em= 15 o 15 30 45 60 75 90 Freqüência absoluta- Mort. Infantil Ex.: I em= 17,5 ind. o 35 70 105 140 Freqüência relativa Ex.: I pl. = 30% o 30 60 90 33 A utilização de logaritmos para gráficos é comum, podendo ser usado apenas em um eixo ou nos dois eixos, do que resultam gráficos monologarítmicos (monolog.) ou dilogarítmicos (dilog.). A escala logarítmica é utilizada quando uma variável se comporta crescendo ou diminuindo segundo uma lei exponencial. Isto é, considerando-se uma base fixa de uma potência, a variação é dada pelo expoente. São usadas as escalas logarítmicas de base neperiana, base I O e outras (ex.: base 2). Os exemplos seguintes ilustram a utilização de escalas logarítmi- cas. Exemplo: O exemplo seguinte, extraído de Rocha e Silva, M.F.- Funda- mentos de farmacologia-, diz respeito a uma resposta (efeito) proporci- onal ao logaritmo da dose de uma droga usada. Tabela III.3- Crescimento das cristas de galos capões submetidos ao tratamento com androsterona. Doses em mg 0,5 1,0 2,0 4,0 8,0 ------------------------ Efeitos Y medidos 8 5 13 17 17 como crescimento 6 7 14 17 das cristas em mm I 9 12 14 20 de largura vezes 3 7 10 19 18 mm de comprimento 4 li 13 15 Totais Td 14 31 53 77 87 - Médias dos grupos (yd) 2,8 6,2 10,6 15,4 17,4 Média geral yt = 10,48 34 20 y I Eóe.U:o 7S enl mm) lO s Ba4e 1 o - 0,301 o +o . 301 + LI, 602 + 0,903 Ba4e 2 - 1 o +I + 2 + 3 Oo4e I 2 2 - I o + I + 2 Ba4e 2 - )( ( Vo4e, e4ca.ta .toga.~t.<..t moi cal Figura III. 7 - Representação gráfica dose-efeito (crescimento de cristas de capões submetidos a tratamento com androsterona) Exemplo: O crescimento de populações bacterianas em função do tempo de crescimento da cultura é dado por uma exponencial - resultados da rotina do Laboratório de Radiobiologia e Genética de Microorganismos do DBGIICB/UFG tog N cetu.t.<U bac.teJW>na.~ polt 111! de cuUUIIJl 7 ~~~----~---~----~--- Tempo (lwltiUI Figura III.8- Crescimento de uma cultura de E. co/i a 37° C. 35
Compartilhar