Baixe o app para aproveitar ainda mais
Prévia do material em texto
Material de base para acompanhamento da aula Estatística Aplicada à Biologia I Bio 1002 Puc Rio 2018 Alexandre G. Christo e Richieri A. Sartori Estatística Básica – Ciências Biológicas – PUC-RIO 1 Introdução: Por que estudar estatística? Permite quantificar os resultados obtidos num estudo; Permite lidar com a variabilidade na tomada de decisões; Permite estender as conclusões baseadas em uma pequena parcela para o grupo maior de onde ela veio, com margem de erro pequena e conhecida. Um pouco de história... Vem do latim “status” = Estado Inicialmente envolvia com compilações de dados e gráficos representativos dos vários aspectos de um estado ou país: - taxa de mortalidade, - taxa de nascimento, - renda, - taxa de desemprego, etc. Embora a palavra estatística ainda não existisse, existem indícios de que há 3.000 anos A.C. já se faziam censos na Babilônia, China e Egito. A própria Bíblia leva-nos a esse resgate histórico: - O livro quatro do Velho Testamento, intitulado "Números", começa com a seguinte instrução a Moisés: "Fazer um levantamento dos homens de Israel que estivesse aptos para guerrear". - Na época do Imperador César Augusto, Saiu um edito para que fizesse o censo em todo o Império Romano. Por isso Maria e José teriam viajado para Belém. - Em 1085, Guilherme “O Conquistador”, ordenou que fosse feito na Inglaterra um levantamento de propriedades, proprietários, uso da terra, empregados, com finalidade guerreira e fiscal. - No século XVII, John Graunt e Halley após exaustivas análises sobre registros de nascimentos e mortes, geraram as “Tábuas de Mortalidade”, e entre outras coisas, se concluiu que, entre o número de nascimentos de crianças na - Inglaterra, 51% eram meninos e 49% eram meninas. - Iniciou em 1853 até atualmente, é marcado pelo aperfeiçoamento de técnicas, intercâmbio de informações, pesquisas sobre a relação causa e efeito. - Todas as ciências têm suas raízes na história do homem. A matemática, que é considerada “a ciência que une a clareza do raciocínio à síntese da linguagem”, Estatística Básica – Ciências Biológicas – PUC-RIO 2 originou-se do convívio social, das trocas, da contagem, com caráter prático, utilitário e empírico. A Estatística, ramo da matemática aplicada, teve origem semelhante. Desde a antiguidade, vários povos já registravam o número de habitantes, de nascimentos, de óbitos, faziam estimativas das riquezas individual e social, distribuíam equitativamente terras ao povo, cobravam impostos e realizavam inquéritos quantitativos por processos que, hoje, chamaríamos de "estatísticas". Na idade média colhiam-se informações, geralmente com finalidades tributárias ou bélicas. A partir do século XVI começaram a surgir as primeiras análises sistemáticas de fatos sociais, como batizados, casamentos, funerais, originando as primeiras tábuas e tabelas e os primeiros números relativos. No século XVIII o estudo de tais fatos foi adquirindo, aos poucos, feição verdadeiramente científica. Godofredo Achenwali batizou a nova ciência (ou método) com o nome de Estatística, determinando o seu objetivo e suas relações com as ciências. As tabelas tornaram-se mais completas, surgiram as representações gráficas e o cálculo das probabilidades, e a Estatística deixou de ser simples catalogação de dados numéricos coletivos para se tornar o estudo de como chegar a conclusões sobre o todo (população), partindo da observação de partes desse todo (amostra). Alguns conceitos importantes: Método: é um conjunto de meios dispostos convenientemente para se chegar a um fim que se deseja. Método Experimental: consiste em manter constantes todas as causas (fatores), menos uma, e variar esta causa de modo que o pesquisador possa descobrir seus efeitos, caso existam. Método Estatístico: admite todas essas causas presentes variando-as, registrando essas variações e procurando determinar, no resultado final, que influências cabem a cada uma delas. É uma metodologia para trabalhar com dados, consistindo em uma série de etapas: Estatística Básica – Ciências Biológicas – PUC-RIO 3 Definições e conceitos A estatística utiliza-se das teorias probabilísticas para explicar a frequência da ocorrência de eventos, tanto em estudos observacionais quanto em modelos experimentais e modelar a aleatoriedade e a incerteza de forma a estimar ou possibilitar a previsão de fenômenos futuros, conforme o caso. A estatística representa o conjunto de teorias, conceitos e métodos numéricos que estão associados ao processo de descrição e inferência, debruçando-se, de modo particular, sobre questões relativas a sumarização eficiente de dados, planejamento e análise de experimentos e levantamentos e natureza de erros de medida e de outras causas de variação em um conjunto de dados. A estatística representa o conjunto de teorias, conceitos e métodos numéricos que estão associados ao processo de descrição e inferência, debruçando-se, de modo particular, sobre questões relativas a sumarização eficiente de dados, planejamento e análise de experimentos e levantamentos e natureza de erros de medida e de outras causas de variação em um conjunto de dados. Conhecimento incerto + Conhecimento sobre a incerteza = Conhecimento útil Estatística Inferencial Descritiva Consiste em organizar, resumir e apresentar dados numéricos através de tabelas e gráficos. Consiste em métodos e técnicas utilizados para se estudar uma população baseada em amostras probabilísticas desta mesma população por meio de estimação de parâmetros e testes de hipóteses. Estatística Básica – Ciências Biológicas – PUC-RIO 4 População e amostra É difícil encontrar duas coisas exatamente iguais. Há um pouco de variabilidade em quase tudo. Embora as observações sejam variáveis é sempre possível associar a elas a ideia de regularidade e expressar essa regularidade matematicamente. Por outro lado, devido à variabilidade inerente aos indivíduos, os pontos de interesse da Estatística são referentes aos grupos de indivíduos, ou seja, estudamos os indivíduos através dos grupos. Estatística Básica – Ciências Biológicas – PUC-RIO 5 População: é o conjunto de todos os indivíduos ou objetos que apresentam uma característica em comum. É um grupo de interesse que se deseja descrever ou acerca do qual se deseja tirar conclusões. A característica numérica associada a toda a população é chamada de parâmetro. Censo: quando todos os indivíduos de uma população são estudados. A confiabilidade é de 100%, porém é caro, é lento... Amostra: é um subconjunto de uma população. A amostra deve ser obtida de uma população específica e homogênea por um processo aleatório. Este processo torna a amostra representativa da população. Dado estatístico: é um dado numérico e é considerado a matéria-prima sobre a qual iremos aplicar os métodos estatísticos. Parâmetro: são valores singulares e em comum que existem na população e que servem para caracterizá-la. Para definirmos um parâmetro devemos examinar toda a população. Ex: presença de indumento na face abaxial de folhas de Cecropia hololeuca. Estimativa: é um valor aproximado do parâmetro e é calculado com o uso da amostra. Ex: comprimento médio de folhas. Atributo: quando os dados estatísticos apresentam um caráter qualitativo, o levantamento e os estudos necessários ao tratamento desses dados são designados genericamente de estatística de atributo. Ex: variedade de uma espécie (glabra, pilosa), gênero (masculino, feminino). Escalas de medida Escala nominal Uma variável de escala nominal classifica as unidades em classes ou categorias quanto à característicaque representa, não estabelecendo qualquer relação de grandeza ou de ordem. É denominada nominal porque duas categorias quaisquer se diferenciam apenas pelo nome. Os rótulos das categorias eventualmente podem ser numéricos, mas operações aritméticas sobre esses números não têm qualquer significado com respeito aos objetos do mundo real que eles identificam. Exemplo: sexo, estado civil. Estatística Básica – Ciências Biológicas – PUC-RIO 6 Escala ordinal Uma variável de escala ordinal classifica as unidades em classes ou categorias quanto à característica que representa, estabelecendo uma relação de ordem entre as unidades pertencentes a categorias distintas. Assim como na escala nominal, operações aritméticas entre estes valores não tem sentido. Exemplo: grau de instrução Escala intervalar Uma variável de escala intervalar, além de ordenar as unidades quanto à característica mensurada, possui uma unidade de medida constante. A escala intervalar, ou escala de intervalo, aproxima-se da concepção comum de medida, mas não possui uma origem (ponto zero) única. O ponto zero dessa escala é arbitrário e não expressa ausência de quantidade. Exemplo: escala de temperatura. Escala de razão Uma variável de escala de razão ou racional ordena as unidades quanto à característica mensurada, possui uma unidade de medida constante e sua origem (ou ponto zero) é única. Nessa escala o valor zero expressa ausência de quantidade. A escala razão é a mais elaborada das escalas de medida, no sentido de que se permite todas as operações aritméticas. Exemplo: peso, comprimento. Variável: o termo é utilizado genericamente para indicar aquilo que é sujeito à variação ou à inconstância. No contexto da pesquisa científica, uma variável é definida como a função que estabelece uma correspondência entre os níveis de uma característica e os valores de um conjunto numérico, segundo uma escala de medida. Em outras palavras, uma variável é uma característica populacional que pode ser medida de acordo com alguma escala. Variáveis de interesse em um experimento (aquelas medidas ou observadas) são chamadas variáveis de resposta ou variáveis dependentes. Outras variáveis no experimento que afetam a resposta e podem ser definidas ou medidas pelo experimentador são chamadas variáveis preditoras, explanatórias ou independentes. Estatística Básica – Ciências Biológicas – PUC-RIO 7 Ex: Variáveis preditoras: Quantidade de luz, pH do solo, frequência de rega Variáveis respostas: Tamanho das folhas, altura da planta Tipos de variáveis Variáveis qualitativas (categóricas): são aquelas cujos valores representam categorias ou classes. Caracterizam por possuir um conjunto limitado de valores (níveis) que usualmente se repetem entre as unidades. Descrevem qualidades e, de acordo com a escala de medida, são classificadas em: Nominais e Ordinais. Nominais: quando não houver um sentido de ordenação entre os seus possíveis valores. Exemplo: - sexo (masculino, feminino) - raça de cavalos (crioulo, manga-larga, árabe) - região geográfica (norte, sul, leste, oeste) - estado civil (solteiro, casado, divorciado, viúvo) Ordinais: quando houver um sentido de ordenação entre os seus possíveis valores. Exemplo: - faixa de idade (criança, adolescente, adulto, idoso) - intensidade de cor (claro, escuro) - intensidade de infestação (fraco, médio, forte) Estatística Básica – Ciências Biológicas – PUC-RIO 8 - grau de instrução (fundamental, médio, graduação) Variáveis numéricas: são aquelas cujos valores são números reais, de modo que cada valor representa um valor da variável e não uma categoria ou uma classe. São classificadas em: Discretas e Contínuas. Discretas: descrevem dados discretos ou de enumeração, ou seja, obtidos por processo de contagem. Só podem assumir valores do conjunto dos números inteiros não negativos (0, 1, 2, 3, ...). Exemplo: - número de sementes germinadas - número de filhos numa ninhada Contínuas: descrevem dados contínuos ou de mensuração, ou seja, obtidos por processo de medição. Podem assumir quaisquer valores do conjunto do números reais (-10, 0, R2) Exemplo: - peso, altura - teor de umidade, temperatura corporal A classificação correta de uma variável é fundamental, uma vez que esta discriminação é que irá indicar a possibilidade e a forma de utilização dos procedimentos estatísticos disponíveis. Os números, taxas e outras informações coletados em experimentos ou levantamentos são denominados dados. Todo dado é um valor de uma variável (numérico ou não). A unidade da população em que são medidas as variáveis de interesse é chamada de unidade de observação. Exemplo: uma planta pode ser a unidade de observação em uma determinada pesquisa. Os valores obtidos para a variável medida nas unidades de observação (nas plantas) são os dados. Observação é o conjunto de valores referentes a todas as variáveis medidas em uma unidade de observação. Exemplo: peso de matéria seca, estatura, número de perfilhos, variedade. Estatística Básica – Ciências Biológicas – PUC-RIO 9 O conjunto de todas as observações, ou seja, todos os valores do conjunto de unidades de observação constituem o conjunto de dados. Em tabelas, as variáveis são representadas por letras maiúsculas (A, B, X, Y, Z) e os dados por letras minúsculas (a, b, x, y, z). Para individualizar os valores de uma variável, acrescenta-se um índice (i = 1, 2, 3, ..., n) que representa a unidade de observação. Assim o conjunto de n valores de uma variável x será representado por x1, x2, x3, ..., xn. Assim temos: i Nome Sexo Idade Estatura Peso 1 Alfredo M 20 1,85 85,7 2 Carol F 19 1,73 60,5 3 João M 23 1,81 115,2 4 Felipe M 22 1,69 63,8 5 Bárbara F 18 1,58 59,3 6 Willian M 25 1,79 76,1 i A B X Y Z 1 a1 b1 x1 y1 z1 2 a2 b2 x2 y2 z2 3 a3 b3 x3 y3 z3 ... ... ... ... ... ... 6 a6 b6 x6 y6 z6 Estatística Básica – Ciências Biológicas – PUC-RIO 10 Exercício: Em um laboratório vem sendo feita uma pesquisa com dez ratos dos quais vem sendo medidas as variáveis abaixo: Classifique as seguintes variáveis: Ind Peso Altura Ectoparasitas Cor Raça Idade(semanas) 1 25,0 22 32 Rosa 1 3 2 24,5 25 35 Branco 2 5 3 26,5 26 65 Preto 2 6 4 25,3 23 68 Preto 2 8 5 22,6 25 69 Preto 2 5 6 28,9 25 32 Branco 3 4 7 23,6 24 12 Branco 3 3 8 22,8 28 25 Branco 2 6 9 22,8 29 24 Rosa 3 5 10 25,0 25 28 Rosa 3 6 Estatística Básica – Ciências Biológicas – PUC-RIO 11 Apresentação dos dados em gráficos e tabelas: Resumo: Neste capítulo se discute e são exibidas as principais formas de apresentação dos dados, os principais gráficos e tabelas. No final do mesmo será apresentada a divisão dos dados em tabelas de frequências, tanto para dados quantitativos, como para dados qualitativos. Introdução O método científico, quando aplicado para a solução de um problema, frequentemente gera dados em grande quantidade e de grande complexidade. Desse modo, a análise da massa de dados individuais, na maioria das vezes, não revela a informação subjacente, gerando a necessidade de algum tipo de condensação ou resumo dos dados. Em resumo, a Estatística Descritiva tem por finalidade a utilização de tabelas, gráficos, diagramas, distribuições de frequências e medidas descritivas para: - examinar o formato geral da distribuição dos dados; - verificar a ocorrência de valores atípicos; - identificar valores típicos que informem sobre o centro de distribuição; - verificar o grau de variação presente nos dados. Pode-se pensar que todo método descritivo possui uma entrada, os dados, e uma saída, que pode ser umamedida descritiva ou gráfica. Se a entrada é deficiente a saída também será de má qualidade. Séries estatísticas As séries estatísticas resumem um conjunto ordenado de observações através de três fatores fundamentais: a) tempo: refere-se a data ou época que o fenômeno foi investigado; b) espaço: refere-se ao local ou região onde o fato ocorreu; c) espécie: refere-se ao fato ou fenômeno que está sendo investigado e cujos valores numéricos estão sendo apresentados. As séries estatísticas são classificadas de acordo com o fator que estiver variando, podendo ser simples ou mista. Estatística Básica – Ciências Biológicas – PUC-RIO 12 Série simples São aquelas em que apenas um fator varia. - Série histórica: onde varia o tempo, permanecendo fixos o espaço e a espécie do fenômeno estudado. Tabela 1. Casos de sarampo notificados no Brasil de 1987 a 1991. Ano Número de casos 1987 65.459 1988 26.173 1989 55.556 1990 62.435 1991 45.532 - Série geográfica: onde varia o espaço, permanecendo fixos o tempo e a espécie do fenômeno estudado. Tabela 2. Necessidades médias de energia em alguns países em 1973 País kcal/per capita/dia Brasil 2.174 Estados Unidos 2.397 Etiópia 2.12 Japão 1.125 México 2.114 - Série categórica: onde varia a espécie do fenômeno estudado, permanecendo fixos o tempo e espaço. Tabela 3. Abate de animais, por espécie, no Brasil, em 1993. Espécie Número de cabeças Aves 1.232.978.796 Bovinos 14.951.359 Suínos 13.305.932 Ovinos 926.818 Caprinos 803.188 Estatística Básica – Ciências Biológicas – PUC-RIO 13 - Série mista São aquelas em que mais de um fator varia ou um fator varia mais de uma vez. Tabela 4. Taxa de atividade feminina urbana (em percentual) em três regiões do Brasil, 1981/90. Regiões Anos 1981 1984 1986 1990 Norte 28,9 30,3 34,0 37,1 Nordeste 30,2 32,6 34,3 37,8 Sudeste 34,9 37,2 40,1 40,7 - Série de distribuição de frequência Ocorre quando nenhum dos fatores varia. Nesta série os dados são agrupados em classes (intervalos com limites predeterminados) segundo suas respectivas frequências. Para dados de enumeração Tabela 5. Número de alarmes falsos recebidos diariamente por uma empresa de segurança, em abril de 1993. Classes Frequência (número de alarmes falsos) (número de dias) 2 4 4 8 6 16 Total 28 Para dados de mensuração Tabela 6. Peso de 80 estudantes da Escola São José, em 1980. Classes Frequência (peso, em kg) (número de estudantes) 40 |--50 12 50 |--60 28 60 |--70 25 70 |--80 15 Total 80 80 Estatística Básica – Ciências Biológicas – PUC-RIO 14 Tabelas A tabela é a forma não discursiva de apresentar informações, das quais o dado numérico se destaca como informação central. Sua finalidade é apresentar os dados de modo ordenado, simples e de fácil interpretação, fornecendo o máximo de informação num mínimo de espaço. Para um melhor entendimento, as tabelas devem seguir uma série de normas técnicas para a apresentação racional e uniforme dos dados estatísticos. Elementos da tabela Uma tabela estatística é composta de elementos essenciais e complementares. Os elementos essenciais são: - Título: é a indicação que precede a tabela contendo a designação do fato observado, o local e época que foi estudado. - Corpo: é o conjunto de linhas e colunas onde estão inseridos os dados. - Cabeçalho: é a parte superior da tabela que indica o conteúdo das colunas - Coluna indicadora: é a parte da tabela que indica o conteúdo das linhas. Os elementos complementares são: - Fonte: entidade que fornece os dados ou elabora a tabela. - Notas: informações de natureza geral, destinadas a esclarecer o conteúdo das tabelas. - Chamadas: informações específicas destinadas a elucidar ou conceituar dados numa parte numa parte da tabela. Número da tabela Uma tabela deve ter número para identificá-la sempre que o documento apresentar uma ou mais tabelas, permitindo, assim, a sua localização. A identificação da tabela deve ser feita em números arábicos, de modo crescente, precedidos da palavra “tabela”. Apresentação de dados numéricos A parte inteira dos dados numéricos deve ser separada por pontos, de três em três algarismos, da direita para a esquerda. A separação da parte inteira da parte decimal deve ser feita por vírgula. Estatística Básica – Ciências Biológicas – PUC-RIO 15 No sistema inglês, a separação da parte inteira é feita por vírgula, e a separação da parte inteira da decimal é feita por ponto, ou seja, é o inverso do sistema brasileiro. Arredondamento Quando o primeiro algarismo a ser abandonado for 0, 1, 2, 3 ou 4, fica inalterado o último algarismo a permanecer. Exemplo: 48,23 48,2 Quando o primeiro algarismo a ser abandonado for 5, 6, 7, 8 ou 9, acrescenta- se uma unidade ao último algarismo a permanecer. Exemplo: 23,87 23,9 Unidade de medida Uma tabela deve ter uma unidade de medida, inscrita no cabeçalho ou nas colunas indicadoras, sempre que houver necessidade de se indicar, complementarmente ao título, a expressão quantitativa ou metrológica a dos dados numéricos. Esta indicação deve ser feita com símbolos ou palavras, entre parênteses. Exemplos: (m) ou (metros); (t) ou (toneladas) Classe de frequência A classe de frequência é cada um dos intervalos não superpostos em que se divide uma distribuição de frequências. Toda classe deve ser apresentada, sem ambiguidade, por extenso ou com notação. Toda classe que inclui o extremo inferior do intervalo (EI) e exclui o extremo superior (ES), deve ser apresentada numa dessas duas formas: EI |-- ES ou [EI; ES] Apresentação da tabela - o corpo da tabela deve ser delimitado, no mínimo, por três espaços horizontais. - recomenda-se não delimitar as tabelas à direita e à esquerda por traços verticais. É facultativo o uso de traços verticais para separação de colunas no corpo da tabela. Estatística Básica – Ciências Biológicas – PUC-RIO 16 - quando, por excessiva altura, a tabela tiver que ocupar mais de uma página, não deve ser delimitada inferiormente, repetindo-se o cabeçalho na página seguinte. Deve-se usar a palavra “continuação” no alto do cabeçalho. - a disposição da tabela deve estar na posição normal de leitura. Caso isso não seja possível, a apresentação será feita de forma que a rotação da página seja no sentido horário. Gráficos Outro modo de apresentar dados estatísticos é sob a forma ilustrada, comumente chamada de gráfico. Um gráfico é, essencialmente, uma figura construída a partir de uma tabela, mas, enquanto a tabela fornece uma ideia mais precisa e possibilita uma inspeção mais rigorosa aos dados, o gráfico é mais indicado para situações que visem proporcionar uma impressão mais rápida e maior facilidade de compreensão do comportamento do fenômeno estudado. Normas para apresentação gráfica Os gráficos, geralmente, são construídos num sistema de eixos chamado sistema cartesiano ortogonal. A variável independente é localizada no eixo horizontal (abscissas), enquanto a variável dependente é colocada no eixo vertical (ordenadas). No eixo vertical, o início da escala deve ser sempre zero, ponto de encontro dos eixos. Estatística Básica – Ciências Biológicas – PUC-RIO 17 Deverá ser respeitada a correspondência de escala com os intervalos para as medidas. Se o intervalo 10-15kg corresponde a 2cm na escala, o intervalo 40-45kg também deverá corresponder a 2cm. O gráfico deverá possuir título, fonte, notas e legenda, ou seja, toda a informação necessária à sua compreensão, sem auxílio de texto. O gráfico deverá possuir formato aproximadamente quadrado para evitar que problemas de escala interfiramna sua correta interpretação. Tipos de gráficos 1. Estereogramas: são gráficos onde as grandezas são representadas por volumes. Geralmente são construídos num sistema de eixos bidimensional, mas podem ser construídos num sistema tridimensional para ilustrar a relação entre três variáveis. Figura 1. Consumo, “em kg, de alguns tipos de alimentos per capita” anuais em algumas regiões metropolitanas do Brasil, em 1988. Fonte: Anuário Estatístico do Brasil (1992). Estatística Básica – Ciências Biológicas – PUC-RIO 18 2. Pictogramas: são gráficos puramente ilustrativos, construídos de modo a ter grande apelo visual, dirigidos a um público muito grande e heterogêneo. Não devem ser utilizados em situações que exijam maior precisão. Figura 2. Problemas a serem solucionados pelo governo brasileiro de acordo com levantamento encomendado pelo Ministério da Educação, em 1985. Fonte: Silveira- Júnior et al. (1989). 3. Diagramas: são gráficos geométricos de duas dimensões, de fácil elaboração e grande utilização. Podem ainda ser subdivididos em: gráficos de colunas, de barras, de linhas ou curvas e de setores. a) Gráfico de colunas: neste gráfico as grandezas são comparadas através de retângulos de mesma largura, dispostos verticalmente e com alturas proporcionais às grandezas. A distância entre os retângulos deve ser, no mínimo, igual a 1/2 e, no máximo, 2/3 da largura da base dos mesmos. Figura 3. Efetivo do rebanho suíno no Brasil, segundo as grandes regiões em 1992. Fonte: Anuário Estatístico do Brasil (1994). b) Gráfico de barras: segue as mesmas instruções que o gráfico de colunas, tendo a única diferença que os retângulos são dispostos horizontalmente. É usado quando as inscrições dos retângulos forem maiores que a base dos mesmos. Estatística Básica – Ciências Biológicas – PUC-RIO 19 Figura 4. Casos notificados de AIDS nos cinco estados brasileiros de maior incidência em 1992. Fonte: Anuário Estatístico do Brasil (1994). c) Gráfico de linhas ou curvas: neste gráfico os pontos estão dispostos no plano de acordo com suas coordenadas, e a seguir são ligados por segmentos de reta. É muito utilizado em séries históricas e em séries mistas quando um dos fatores de variação é o tempo, como instrumento de comparação. Figura 5. Eleitores inscritos para as eleições brasileiras – 1978/90. Fonte: Anuário Estatístico do Brasil (1992). d) Gráfico em setores: é recomendado para situações em que se deseja evidenciar o quanto cada informação representa do total. A figura consiste num circulo onde o total (100%) representa 360º, subdividido em tantas partes forem necessário para a representação. Essa divisão se faz por meio de regra de três simples. Estatística Básica – Ciências Biológicas – PUC-RIO 20 Figura 6. Hospitalizações pagas pelo SUS, segundo a natureza do prestador de serviço, 1993. Fonte: Anuário estatístico do Brasil. Distribuição de frequências Um grande número de dados necessita de uma forma eficiente de sumarização. Uma das formas mais comuns de resumir e apresentar dados são através de tabelas de distribuição de frequências. Estas tabelas podem ser de dois tipos: - de classificação simples - de classificação cruzada Tabelas de classificação simples As tabelas de classificação simples são tabelas de frequências relativas a uma variável. As características dessas tabelas variam de acordo com o tipo de variável em estudo. Se a variável é do tipo categórica, então são obtidas as frequências de ocorrência de cada nível dessa variável. Se a variável é do tipo numérica contínua, primeiro são obtidos intervalos de mesma amplitude e depois contados os valores que ocorrem em cada intervalo. Distribuição de frequências de variáveis categóricas Construção da tabela: 1. Passo: ordenar os níveis do fator, ou seja, colocá-los em ordem crescente de grandeza. Cada nível constituirá uma classe. O número de cada classe da distribuição será representado por j, tal que j = 1, 2, ..., k. 2. Passo: contar o número de elementos em cada classe, ou seja, contar quantas vezes o dado está repetido. Exemplo 1: Seja a variável em estudo o conceito obtido por 60 estudantes na disciplina de Estatística, para o qual os dados observados foram os seguintes: ruim, médio, bom, médio, ótimo, bom, ruim, médio, bom, médio, ótimo, bom, ruim, bom, médio, ótimo, , ruim, médio, médio, bom, médio, bom, ..., bom. Estatística Básica – Ciências Biológicas – PUC-RIO 21 Podemos observar que esta variável categórica qualitativa ordinal apresenta quatro níveis (ruim, médio, bom e ótimo). Portanto o número total de classes (k) é quatro. Número de classes (j) Classe 1 Ruim 2 Médio 3 Bom 4 Ótimo O passo seguinte é a contagem do número de estudantes de cada nível. Estes valores são denotados por Fj e chamados de frequências absolutas das classes. A partir dessa, se calcula as outras frequências de interesse numa distribuição: - Frequência absoluta acumulada (F’j) - Frequência relativa (fj) - Frequência relativa acumulada (f’j) Distribuição de frequências de variáveis numéricas contínuas Construção da tabela: 1. Passo: ordenar o conjunto de dados, ou seja, colocar os dados brutos em ordem crescente de grandeza. 2. Passo: determinar o número de classes da tabela. De modo geral este valor não deverá ser menor que 5 e maior que 15. Para se determinar o número de classes, seguir as seguintes fórmulas: Onde: k = número de classes; n = número de observações; log = logaritmo na base 10. k 13,32logn (Formula de Sturges) k n Estatística Básica – Ciências Biológicas – PUC-RIO 22 3. Passo: determinar a amplitude do intervalo. Para isso, podemos utilizar a seguinte expressão: Onde: i = amplitude do intervalo; at = amplitude total do conjunto de valores; k = número de classes; ES = extremo superior; EI = extremo inferior. 3. Passo: construir os intervalos de classes. O limite inferior da primeira classe será sempre o menor valor do conjunto de dados (x(1)) e o limite superior será o limite inferior acrescido do valor de amplitude do intervalo de classe (i). Na sequência, o limite inferior da segunda classe será sempre o limite superior e o limite superior da segunda classe será este limite inferior acrescido da amplitude do intervalo e assim sucessivamente. Exemplo 2: Tomemos a seguinte variável: X = peso ao nascer (em gramas) de 60 camundongos machos, para a qual os valores observados (e já ordenados) foram: 16, 17, 17, 18, 18, 18, 19, 20, 20, 20, 20, 20, 21, 21, 22, 22, 23, 23, 23, 23, 23, 23, 23, 23, 23, 25, 25, 25, 25, 25, 25, 26, 26, 27, 27, 27, 27, 28, 28, 28, 29, 29, 29, 30, 30, 30, 30, 30, 30, 30, 31, 32, 33, 33, 33, 34, 34, 35, 36, 39 Determinar o número de classes: Para n = 60, temos: Estatística Básica – Ciências Biológicas – PUC-RIO 23 k =1 +3,32*logn k =1+3,32*log60 k =6,9 k 7 j Classes 1 2 3 4 5 6 7 Determinar a amplitude da classe: Para k = 7, temos: Em distribuição de frequências de variáveis contínuas, geralmente existe interesse em uma outra quantidade conhecida como ponto médio ou centro de classe, denotada por cj. Os centros de classes são calculados da seguinte forma: Estatística Básica – Ciências Biológicas – PUC-RIO 24 Calculando as frequências, temos: Representação gráfica das distribuições de frequências As distribuições de frequências podem ser graficamente representadas de formas distintas e exclusivas: o histograma e o polígono de frequência. Histograma O histograma consiste de um conjunto de retângulos contíguos cuja base é igual àamplitude do intervalo e a altura proporcional à frequência das respectivas classes. Figura 7. Peso ao nascer (em gramas) de 60 camundongos machos. Fonte: Dados fictícios. Polígono de frequência O polígono de frequência é constituído por segmentos de retas que unem os pontos cujas coordenadas são o ponto médio e a frequência de cada classe. O polígono de frequência é fechado tomando-se uma classe anterior a primeira e uma posterior a última, uma vez que ambas possuem frequência zero. Estatística Básica – Ciências Biológicas – PUC-RIO 25 Figura 7. Peso ao nascer (em gramas) de 60 camundongos machos. Fonte: Dados fictícios. Tabelas de classificação cruzada Em algumas situações, pode haver interesse no estudo de duas ou mais variáveis simultaneamente. Assim, surgem as distribuições de frequências relativas a duas variáveis, numéricas ou categóricas. Frequências cruzadas de variáveis categóricas Quando um estudo envolve duas variáveis categóricas (fatores), a tabela de frequência dessas duas variáveis também é conhecida como tabela de dupla entrada, tabela de associação ou tabela de contingência. As regras básicas para sua construção são semelhantes às das tabelas de classificação simples. A diferença é que agora a tabela apresenta duas margens, cada qual com os totais referentes a um dos fatores. Tabela 7. Distribuição dos alunos da escola E, segundo o hábito de fumar e o conceito em Estatística. Conceito Hábito de fumar Totais Sim Não Ruim 5 8 13 Médio 10 16 26 Bom 5 10 15 Ótimo 2 4 6 Total 22 38 60 Estatística Básica – Ciências Biológicas – PUC-RIO 26 Figura 7. Distribuição dos alunos da escola E, segundo o hábito de fumar e o conceito em Estatística. Frequências cruzadas de variáveis numéricas Ao estudarmos conjuntamente duas variáveis numéricas, as tabelas de classificação cruzada são, agora, denominadas tabelas de correlação. As ideias básicas sobre a construção dessas tabelas já foram vistas anteriormente. Como exemplo, observamos a classificação dos 400 alunos do colégio C, segundo duas variáveis contínuas: natas em estatística e em matemática. Tabela 8. Distribuição dos alunos do colégio C, segundo suas notas em Estatística e Matemática. Os gráficos geralmente utilizados para descrever dados como Estes são os histogramas em três dimensões (estereogramas), nos quais os retângulos cedem lugar aos paralelogramos. Agora, a base de cada paralelogramo é definida pelas amplitudes das classes das variáveis envolvidas. Este tipo de gráfico é pouco usado em trabalhos científicos pela dificuldade de execução e interpretação. Estatística Básica – Ciências Biológicas – PUC-RIO 27 Medidas descritivas Como representar um conjunto de dados? Quase sempre os conjuntos são muito grandes, formados muitas vezes por milhares de dados e devem ser reduzidos, resumidos para que sejam apresentados. Para isto, existem diversas formas de promover esta apresentação, devemos assim saber quais são as melhores para responder a nossa hipótese. As medidas descritivas têm o objetivo de reduzir um conjunto de dados observados (numéricos) a um pequeno grupo de valores que deve fornecer toda a informação relevante a respeito desses dados. Essas medidas são funções dos valores observados e podem ser classificadas em quatro grupos: medidas de localização, medidas separatrizes, medidas de dispersão e medidas de formato. Medidas de localização: também denominadas de medidas de tendência central. Indicam um ponto central onde, em muitas situações importantes, está localizada a maioria das informações. Medidas separatrizes: indicam limites para proporções de observações em um conjunto, podendo ser utilizadas para construir medidas de dispersão. Medidas de dispersão: informam sobre a variabilidade dos dados. Medidas de formato: informam sobre o modo como os valores se distribuem. Compreendem as medidas de assimetria, que indicam se a maior proporção de valores está no centro ou nas extremidades, e as medidas de curtose, que descrevem o grau de achatamento da distribuição. Medidas de localização Média aritmética A média aritmética, pela sua facilidade de cálculo e compreensão aliada às suas propriedades matemáticas, é a medida de localização mais conhecida e utilizada. Pode ser de dois tipos: simples ou ponderada. Média aritmética simples: representada por x, é calculada considerando que todas as observações participam com o mesmo peso. Assim, um conjunto com n observações (x1, x2, x3, ...xn) a média aritmética simples é definida por: Estatística Básica – Ciências Biológicas – PUC-RIO 28 Exemplo: Se X = tempo (h) Para Xi = 9, 7, 5, 10, 4, temos: Média aritmética ponderada: representada por x p_, é calculada considerando que pelo menos uma das observações deve participar com peso diferente das demais. Assim, se as observações (x1, x2, x3, ...xn) forem associadas a pesos (p1, p2, p3, ...pn) a média aritmética ponderada é dada por: Mediana A mediada, representada por Md, é a medida que divide um conjunto de dados ordenado em duas partes iguais, ou seja, 50% dos valores ficam abaixo e 50% ficam acima da mediana. Existem dois casos diferentes para o cálculo da mediana, mas em ambos o primeiro passo a ser tomado é a ordenação dos dados. 1º caso: quando n é impar. Estatística Básica – Ciências Biológicas – PUC-RIO 29 Primeiramente determinamos a posição mais central (p) do conjunto de dados ordenado. 2º caso: quando n é par. Neste caso, temos duas posições centrais no conjunto de dados ordenado, denotadas p1 e p2. Ao utilizarmos a expressão para cálculo de p, obtemos um valor não inteiro. As posições p1 e p2 são os dois números inteiros mais próximos do valor p. A mediana será a média aritmética simples dos valores do conjunto de dados que ocupam as posições p1 e p2, ou seja: Moda A moda, representada por Mo, é o valor de maior ocorrência num conjunto de dados. É a única medida que pode não existir e, existindo, pode não ser única. Exemplo: Estatística Básica – Ciências Biológicas – PUC-RIO 30 Se X = peso (kg) 1. Para xi = 2, 3, 7, 5, 7, 5, 8, 7, 9 temos Mo = 7 kg 2. Para xi = 1, 3, 4, 5, 4, 8, 6, 8 temos Mo = 4 kg e 8 kg (conjunto bimodal) 3. Para xi = 5, 7, 8, 3, 9, 1, 4 Não existe Mo (conjunto amodal) 4. Para xi = 1, 3, 4, 4, 5, 1, 3, 5 Não existe Mo (conjunto amodal) Média Vantagens: No cálculo participam todos os valores observados; É o ponto de equilíbrio de uma distribuição, sendo tão mais eficiente quanto mais simétrica for a distribuição dos valores ao seu redor; É uma medida que sempre existe e que presta-se muito bem a tratamentos estatísticos adicionais. Desvantagens: É uma medida altamente influenciada por valores discrepantes. Mediana Vantagens: Define exatamente o centro da distribuição, mesmo quando os valores se distribuem assimetricamente em torno da média; Pode ser utilizada para definir o meio de um número de objetos, propriedades ou qualidades que possam de alguma forma serem ordenadas. Desvantagens: Estatística Básica – Ciências Biológicas – PUC-RIO 31 É uma medida que não presta a cálculos matemáticos. Moda Vantagens: Não exige cálculo, apenas uma contagem; Desvantagens: É uma medida que não presta a cálculos matemáticos; Deixa sem representação todos os valores do conjunto de dados que não forem iguais a ela. Medidas separatrizes Quartis Os quartis, representados por Qi, onde i = 1, 2 e 3, são três medidas que dividem um conjunto de dados ordenado em quatro partes iguais. São elas: Primeiro quartil (Q1): 25% dosvalores ficam abaixo e 75% ficam acima desta medida. Segundo quartil (Q2): 50% dos valores ficam abaixo e 50% ficam acima desta medida. O segundo quartil corresponde à mediana (Q2 = Md) Terceiro quartil (Q3): 75% dos valores ficam abaixo e 25% ficam acima desta medida. Observa-se que o primeiro quartil é o percentil 0,25, a mediana é o percentil 0,5 e o terceiro quartil é o percentil 0,75. O processo para obtenção dos quartis, da mesma forma que o da mediana, consiste em, primeiramente, ordenar os dados e, em seguida, determinar a posição (p) do quartil no conjunto de dados ordenados. 1o caso: quando n é impar. - Para Q1, temos: 𝑝 = 𝑛+1 4 - Para Q2, temos: 𝑝 = 2(𝑛+1) 4 Estatística Básica – Ciências Biológicas – PUC-RIO 32 - Para Q3, temos: 𝑝 = 3(𝑛+1) 4 2o caso: quando n é par. - Para Q1, temos: 𝑝 = 𝑛+1 4 - Para Q2, temos: 𝑝 = 2𝑛+1 4 - Para Q3, temos: 𝑝 = 3𝑛+1 4 Medida de dispersão: As medidas de dispersão ou de variação complementam as medidas de localização ou de tendência central, indicando o quanto as observações diferem entre si ou o grau de afastamento das observações em relação à média. Amplitude total A amplitude total, denotada por at, fornece uma ideia de variação e consiste na diferença entre o maior e o menor valor de um conjunto de dados. Assim, temos: at= ES- EI Onde: ES: extremo superior do conjunto de dados ordenado; EI: extremo inferior do conjunto de dados ordenado; Exemplo: Se x = tempo (h) Para xi = 9, 7, 5, 10 e 4, temos: at= ES- EI =10 − 4 = 6 Todos os valores do conjunto de dados diferem, no máximo, em 6h. Variância A variância, denotada por S², é a medida de dispersão mais utilizada, seja pela sua facilidade de compreensão e cálculo, seja pela possibilidade de emprego na Estatística Básica – Ciências Biológicas – PUC-RIO 33 inferência estatística. A variância é definida como sendo a média dos quadrados dos desvios em relação à média aritmética. Assim, temos: Onde: n – 1: é o número de graus de liberdade ou desvios independentes. Como a soma dos desvios é nula, existe n – 1 desvios independentes. Desvantagens da variância: Como a variância é calculada a partir da média, é uma medida pouco resistente, ou seja, muito influenciada por valores discrepantes. Como a unidade de medida fica elevada ao quadrado, a interpretação da variância se torna difícil. Exemplo: Desvio padrão O desvio padrão, denotado por s ou d.p., surge para solucionar o problema de interpretação da variância e é definido como a raiz quadrada positiva da variância. Assim, temos: Estatística Básica – Ciências Biológicas – PUC-RIO 34 Podemos observar que o desvio padrão é expresso na mesma unidade de medida dos dados, o que facilita a sua interpretação. Geralmente o desvio padrão é apresentado junto com a média do conjunto de dados da seguinte forma: Deste modo, temos a indicação da variação média dos dados em torno da média aritmética. Medidas de formato Medidas de formato devem informar a concentração dos valores em relação à media, podendo esta ser de três tipos: Análise exploratória de dados As técnicas exploratórias de dados numéricos ajudam a comprovar as condições de aplicação dos testes de hipóteses, a detectar erros ou valores discrepantes, a buscar a melhor transformação de dados quando houver necessidade, etc. Em geral, dão uma visão distinta, prévia, mas complementar às técnicas de inferência. Tudo isso repercute em melhor qualidade da análise de dados. Resumo de cinco números Estatística Básica – Ciências Biológicas – PUC-RIO 35 O resumo de cinco números descreve o conjunto de dados através de cinco valores: • Mediana (Md); • Primeiro quartil (Q1); • Terceiro quartil (Q3); • Extremo inferior (EI); • Extremo superior (ES). A partir desses valores, podemos calcular: • Amplitude interquartílica (aq): obtida entre as diferenças entre os quartis; • Dispersão inferior (DI): obtida pela diferença entre a mediana e o extremo inferior; • Dispersão superior (DS): obtida pela diferença entre a mediana e o extremo superior. Modelo: Exemplo: Os dados abaixo se referem aos pesos ao nascer (em gramas) de 61 camundongos machos: 16, 17, 17, 18, 18, 18, 19, 20, 20, 20, 20, 20, 21, 21, 22, 22, 23, 23, 23, 23, 23, 23, 23, 23, 23, 25, 25, 25, 25, 25, 25, 26, 26, 27, 27, 27, 27, 28, 28, 28, 29, 29, 29, 30, 30, 30, 30, 30, 30, 30, 31, 32, 33, 33, 33, 34, 34, 35, 36, 39, 45 Resultados: Md = 25 Q1 = 22 Estatística Básica – Ciências Biológicas – PUC-RIO 36 Q3 = 30 EI = 16 ES = 45 aq = 8 DI = 9 DS = 20 O resumo dos cinco números permite verificar que a distribuição não é simétrica, pois as distâncias entre os valores são diferentes. Identificação de valores discrepantes Este critério utiliza duas medidas denominadas cerca inferior (CI) e cerca superior (CS). A cerca inferior é calculada subtraindo-se do primeiro quartil uma e meia amplitude interquartílica, e a cerca superior, somando-se esta mesma quantidade ao terceiro quartil. Assim, temos: São considerados discrepantes os valores que estiverem fora do seguinte intervalo: Os valores menores que a cerca inferior são denominados discrepantes inferiores e os valores maiores que a cerca superior são os discrepantes superiores. No exemplo, serão considerados discrepantes os valores que estiverem fora dos limites da cerca inferior e superior: Estatística Básica – Ciências Biológicas – PUC-RIO 37 Gráfico em caixa (box plot) A informação dada pelo resumo dos cinco números pode ser apresentada em forma de um gráfico em caixa, que agrega uma série de informações a respeito da distribuição, tais como localização, dispersão, assimetria, caudas e dados discrepantes. Antes de construir o gráfico precisamos definir os valores adjacentes. São adjacentes o maior e o menor valor não discrepantes de um conjunto de dados. Para construir o gráfico de caixa, consideramos um retângulo de largura variável, onde estarão representados a mediana e os quartis. A partir do retângulo, para cima e para baixo, seguem as linhas denominadas bigodes, que vão até os valores adjacentes. Os valores discrepantes recebem uma representação individual através de uma letra ou símbolo, comumente representado por um asterisco. Assim, temos: A posição central dos valores é dada pela mediana e a dispersão pela amplitude interquartílica (aq). As posições relativas da mediana e dos quartis e o formato dos bigodes dão uma noção da simetria e do tamanho das caudas da distribuição. Nas figuras seguintes podemos observar o gráfico em caixa representando diferentes tipos de distribuições: Estatística Básica – Ciências Biológicas – PUC-RIO 38 Quando encontramos um valor discrepante num conjunto de dados, a sua origem deve ser investigada. Muitas vezes os valores discrepantes, de fato, fazem parte do conjunto de dados, reforçando a característica assimétrica da distribuição. Mas muitas vezes esses valores podem ser oriundos de erros de aferição de instrumentos ou registro da mensuração dos dados. A seguir temos o gráfico de caixa representando o conjunto de dados do exemplo: Estatística Básica – Ciências Biológicas – PUC-RIO 39 Exercícios: Exercício 1. A seguinte tabela mostra a variação no tamanho das populações, entre os anos de 1986 e 1995, de duas espécies A e B da família Leguminosae numa área de terras baixas na parte central costeira do Rio de Janeiro: Tabela 1: Dados coletados. SP 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 A 5 7 8 10 13 17 20 25 32 45 B 37 33 28 24 20 18 14 7 3 2 A. Inga edulis (Vell.) Mart. B. Pseudopiptadeniacontorta (DC.) Lewis & Lima Represente graficamente os dados empregando: a) Gráfico de Linhas b) Gráfico de colunas b) Gráfico de Barras c) Gráfico de Barras empilhadas Exercício 2. A seguir são apresentados dados sobre as tartarugas encontradas nas imediações da praia de Itaúnas, Conceição da Barra – ES, no ano de 2010, sendo registrado o sexo, peso (quilogramas), comprimento da carapaça (metros). Comprimento (m) Estatística Básica – Ciências Biológicas – PUC-RIO 40 Tabela 12. Dados coletados. Legenda: M – Macho, F – Fêmea. i Sexo Peso (g) Comprimento (Cm) 1 M 203 1,82 2 F 186 1,46 3 M 193 1,67 4 M 162 1,43 5 F 143 1,12 6 M 157 1,44 7 F 132 1,04 8 F 123 0,97 9 M 210 1,28 10 F 162 1,27 11 M 152 1,12 12 M 182 1,32 13 F 177 1,39 14 F 156 1,23 15 F 140 1,10 16 M 234 1,76 17 F 121 0,95 18 M 132 1,73 19 F 154 1,21 20 M 169 1,66 21 M 286 1,87 22 M 210 1,36 23 F 185 1,45 24 M 129 1,24 25 M 221 1,53 26 F 137 1,08 27 F 132 1,04 28 F 132 1,04 29 M 187 1,82 30 F 86 0,68 31 M 143 1,83 32 F 155 1,22 33 M 194 1,80 34 M 127 1,39 35 F 184 1,45 36 F 121 0,95 37 F 165 1,30 38 M 177 1,53 39 M 143 1,30 40 F 128 1,01 41 F 196 1,54 42 F 174 1,37 43 F 134 1,05 44 F 123 0,97 45 M 169 1,75 46 M 178 1,23 47 F 174 1,37 48 F 143 1,12 49 F 121 1,06 50 F 103 0,96 Estatística Básica – Ciências Biológicas – PUC-RIO 41 Pede-se: a) Uma tabela apresentando o número de indivíduos, as médias aritméticas para peso e comprimento e a amplitude dos valores registrados por sexo; b) A distribuição de frequência em ambos os sexos para peso e comprimento; c) Histogramas de frequência para as tabelas do item “b”; d) Gráfico de caixa para a variável “comprimento” por sexo. Exercício 3. Os dados abaixo referem-se a produção diária de leite de vacas da raça Holandesa, obtida em duas ordenhas, em quilogramas. Pede-se: a) Calcule a média aritmética, a moda e os quartis para os dados; b) Construa a tabela de distribuição de frequências, utilizando a fórmula de Sturges, apresentando as classes, as frequências absolutas (Fj), as relativas (fj) as absolutas acumuladas (F’j) e as relativas acumuladas (f’j). Exercício 4. A tabela que segue apresenta a distribuição de frequências dos tempos de vida de 101 tamanduás-bandeira (Myrmecophaga tridactyla) registrados no Parque Nacional dos Veadeiros, Goiás. Pede-se: a) Complete a tabela; b) Construa o histograma de distribuição de frequência para os dados. 5,0 5,0 5,0 5,0 5,5 5,5 6,0 6,0 6,5 6,5 6,5 6,5 7,0 7,0 7,0 7,0 7,0 7,0 7,5 8,0 8,5 8,5 9,0 9,0 9,0 9,5 10,0 10,0 10,5 10,5 11,0 11,0 12,0 Estatística Básica – Ciências Biológicas – PUC-RIO 42 Exercício 5. Para cada conjunto de dados abaixo, calcule a média, a mediana e a moda: a) 18, 25, 16, 30, 35, 27, 30, 20 e 30. b) 155, 185, 148, 212, 210, 167, 174, 136, 200 e 145. c) 300, 325, 300, 374, 395, 318, 332, 300, 377, 374 e 374. Exercício 6. Um dos principais indicadores da poluição do ar nas grandes cidades é a concentração de ozônio na atmosfera. O nível de concentração de ozônio na atmosfera foi medido em São Paulo durante o inverno de 1998, e os resultados são apresentados a seguir: 6,6 4,4 5,7 4,5 3,7 3,5 1,4 6,6 6,0 4,2 4,4 5,3 5,6 9,4 7,6 6,2 3,3 5,9 6,8 2,5 5,4 4,4 5,4 4,7 3,5 4,0 3,8 4,7 3,1 6,8 9,4 2,4 3,0 5,6 4,7 6,5 3,0 4,1 3,4 3,4 5,8 7,6 1,4 3,7 6,8 1,7 5,3 4,7 7,4 6,0 6,7 10,9 2,0 3,7 5,7 5,8 3,1 5,5 1,1 5,1 5,6 5,5 1,4 3,9 6,6 5,8 1,6 2,5 8,1 6,6 6,2 7,5 6,2 6,0 5,8 2,8 6,1 4,1 Pede-se: a) Disponha os dados de maneira crescente. Determine a amplitude total dos dados; b) Agrupe “convenientemente” esses valores em classes de igual amplitude (Distribuição de frequências); c) Determine as frequências absoluta e relativa simples e absoluta e relativa acumuladas; d) Construa o histograma e o polígono de frequências. Exercício 7. Defina: a) População b) Censo c) Amostra d) Amostragem Exercício 8. Responda: a) Em que circunstâncias é amostragem preferível a um censo? b) Quando se deve preferir um censo a uma amostragem? c) Para ser útil, que características deve ter uma amostra? Estatística Básica – Ciências Biológicas – PUC-RIO 43 Exercício 9. Uma nova ração foi fornecida a suínos recém-desmamados e deseja-se avaliar sua eficiência. A ração tradicional dava um ganho de peso ao redor de 3,5 kg em um mês. A seguir, apresentamos os dados referentes ao ganho, em quilos, para essa nova ração, aplicada durante um mês em 200 animais nas condições acima. Pede-se: a) Complete a tabela; b) Construa o histograma; Exercício 10. Como parte de uma avaliação médica em uma empresa, foi medida a frequência cardíaca (bpm) dos funcionários de um determinado setor. Pede-se: a) Obtenha o histograma. b) Frequências cardíacas que estejam abaixo de 62 ou acima de 92 requerem acompanhamento médico. Qual é a porcentagem de funcionários nestas condições? Exercício 11. Analise o rol abaixo contendo pontuações resultantes de um teste de inteligência aplicado nos funcionários de uma. 62 80 112 120 140 175 65 84 112 120 141 216 65 92 112 123 142 216 70 100 112 123 142 219 70 105 112 123 150 219 70 105 117 130 153 220 75 110 119 135 170 222 Estatística Básica – Ciências Biológicas – PUC-RIO 44 Pede-se: a) Calcule a média aritmética, a mediana e os quartis para os dados; b)Construa a tabela de distribuição de frequências, utilizando a fórmula de Sturges, apresentando as classes, as frequências absolutas (Fj), as relativas (fj), as absolutas acumuladas (F’j) e as relativas acumuladas (f’j); c) Faça um histograma de distribuição de frequência; d) Faça um gráfico box-plot para os dados. Exercício 12. Um questionário foi aplicado aos alunos do primeiro ano de uma escola. Classifique os tipos de variáveis: Tipos de variáveis: (1) Qualitativa nominal (2) Qualitativa ordinal (3) Quantitativa discreta (4) Quantitativa contínua ( ) Matrícula: identificação do aluno, em números inteiros ( ) Turma: turma a que o aluno foi colocado (A ou B) ( ) Sexo: F se feminino, M se masculino ( ) Id: idade, em anos ( ) Alt: altura em metros ( ) Peso: peso em quilogramas ( ) Filhos: número de filhos na família ( ) Fuma: hábito de fumar, sim ou não ( ) Exerc: horas de atividade física, por semana ( ) Cine: número de vezes que vai ao cinema, por semana ( ) OpCine: opinião a respeito das salas de cinema na cidade: (B) bom (R) ruim ( ) TV : horas gastas assistindo TV, por semana ( ) OpTV: opinião a respeito da qualidade da programação na TV: (R) ruim, (M) média, (B) boa e (N) não sabe Exercício 13. Abaixo é listado um conjunto de variáveis utilizadas para descrever morfologicamente a coruja buraqueira (Athene cunicularia). Classifique os tipos de variáveis: Tipos de variáveis: (1) Qualitativa nominal (2) Qualitativa ordinal Estatística Básica – Ciências Biológicas – PUC-RIO 45 (3) Quantitativa discreta (4) Quantitativa contínua ( ) Altura (cm) ( ) Classe de tamanho (cm ) (pequeno < 20; 20 < médio < 30; grande > 30) ( ) Cor dos olhos (castanhos, negros) ( ) Idade (anos) ( ) Intensidade da coloração das penas na cabeça (claro, escuro) ( ) Número de penas na região caudal (número) ( ) Ocorrência (Cerrado, Mata Atlântica, Campos) ( ) Período de incubação (dias) ( ) Peso (gramas) ( ) Sexo (macho, fêmea) Exercício 14. Para um conjunto de dados não agrupados a mediana obrigatoriamente coincide com um dos elementos do conjunto. a( ) Verdadeiro b( ) Falso Exercício 15. A mediana do conjunto 5, 2, 6, 13, 9, 15, 10 é: a( ) 13 b( ) 9 c( ) 9,5 d( ) 10 e( ) 6 Exercício 16. As medidas de posição: média, mediana e moda são suficientespara caracterizar perfeitamente um conjunto de dados. a( ) Verdadeiro b( ) Falso Exercício 17. Ao somar uma constante a um conjunto de dados a média também aumenta da mesma quantidade. a( ) Verdadeiro b( ) Falso Exercício 18. Variância, desvio-padrão e desvio médio são valores utilizados para medir a dispersão de um conjunto de dados. Estatística Básica – Ciências Biológicas – PUC-RIO 46 a( ) Verdadeiro b( ) Falso Exercício 19. Um conjunto de dados pode não possuir mediana. a( ) Verdadeiro b( ) Falso Exercício 20. Medidas de tendência central revelam o grau de dispersão dos valores em torno do ponto central. a( ) Verdadeiro b( ) Falso Exercício 21. Assinale a afirmativa correta: A ( ) a amplitude para um distribuição de frequências com intervalos de classe não pode ser calculada. B ( ) amplitude de classe é a diferença entre o maior e o menor valor de um conjunto de dados. C ( ) a amplitude total se altera se for somado um valor constante a todos os elementos do conjunto de dados. D ( ) a amplitude para um conjunto de dados que tem todos os elementos iguais é zero. Exercício 22. Os valores da média, mediana e moda são sempre iguais para qualquer conjunto de dados. A ( ) Verdadeiro B ( ) Falso Exercício 23. Considere a distribuição a seguir relativa a notas de dois alunos de informática durante determinado semestre: Aluno A 9,5 9,0 2,0 6,0 6,5 3,0 7,0 2,0 Aluno B 5,0 5,5 4,5 6,0 5,5 5,0 4,5 4,0 a) Calcule as notas médias de cada aluno. b) Qual aluno apresentou resultado mais homogêneo? Justifique. Estatística Básica – Ciências Biológicas – PUC-RIO 47 Exercício 24. A séria Estatística é chamada cronológica quando: A ( ) O elemento variável é o tempo. B ( ) O elemento variável é o local. C ( ) Não tem elemento variável. Exercício 25. A amplitude total é: A ( ) A diferença entre dois valores quaisquer de um conjunto de valores. B ( ) A diferença entre o maior e o menor valor observado da variável dividido por 2. C ( ) A diferença entre o maior e menor valor observado da variável. Exercício 26. Para obter o ponto médio de uma classe: A ( ) Soma-se ao seu limite superior metade de sua amplitude. B ( ) Soma-se ao seu limite inferior metade de sua amplitude. C ( ) Soma-se ao seu limite inferior metade de sua amplitude e divide-se o resultado por 2. Exercício 27. Na década de 1960 o Rio de Janeiro tinha 64 municípios, dos quais apenas 11 possuíam mais de 1000 quilômetros quadrados de área e somente 3 tinha menos de 100 quilômetros quadrados. Construa uma tabela estatística para os municípios em função de suas áreas. Os dados foram obtidos da Fundação do Instituto Brasileiro de Geografia e Estatística - FIBGE. Exercício 28. Calcular a moda dos seguintes conjuntos de valores: a) 4, 5, 5, 6, 6, 6, 7, 7, 8, 8 b) 4, 4, 5, 5, 6, 6 c) 1, 2, 2, 2, 3, 3, 4, 5, 5, 5, 6, 6 d) 1, 2, 3, 4, 5 Exercício 29. A parte da estatística que se preocupa somente com a descrição de determinadas características de um grupo, sem tirar conclusões sobre um grupo maior denomina-se: A ( ) Estatística multivariada B ( ) Estatística amostral C ( ) Estatística inferencial D ( ) Estatística descritiva E ( ) Estatística experimental Estatística Básica – Ciências Biológicas – PUC-RIO 48 Exercício 30. Uma série estatística é denominada Temporal quando? A ( ) O elemento variável é o tempo; B ( ) O elemento variável é o local; C ( ) O elemento variável é a espécie; D ( ) É o resultado da combinação de séries estatísticas de tipos diferentes; E ( ) Os dados são agrupados em subintervalos do intervalo observado. Exercício 31. Calcular a mediana do seguinte conjunto de valores: a) 2, 3, 6, 12, 15, 23, 30 b) 3, 6, 9, 12, 14, 15, 17, 20 Exercício 32. Os dados a seguir referem-se ao número de livros adquiridos, n ano passado, pelos 40 alunos da Turma A: 4 2 1 0 3 1 2 0 2 1 0 2 1 1 0 4 3 2 3 5 8 0 1 6 5 3 2 1 6 4 3 4 3 2 1 0 2 1 0 3 a) Classifique a variável. b) Organize os dados em uma tabela adequada. c) Qual o percentual de alunos que adquiriram menos do que 3 livros? d) Qual o percentual de alunos que adquiriram pelo menos 4 livros? e) Quantos livros foram adquiridos pelos 40 alunos? f) Quantos livros foram adquiridos em média? Exercício 33. Considere os dados abaixo referentes ao consumo de água, em m3, de 75 residências. 32 6 22 11 34 40 16 26 23 31 27 10 38 17 13 45 25 50 18 23 35 22 30 14 18 20 13 24 35 29 33 48 20 12 31 39 17 58 19 16 12 21 15 12 20 51 12 19 15 41 29 25 13 23 32 14 27 43 37 21 28 37 26 44 11 53 38 46 17 36 28 49 56 19 11 a) Organize os dados numa distribuição de frequência com 9 classes de amplitudes iguais. Estatística Básica – Ciências Biológicas – PUC-RIO 49 Exercício 34. Construa um diagrama de setores, percentual, correspondente aos empregados de uma empresa que possui a seguinte distribuição por área de trabalho: Exercício 35. Tomou-se a pressão arterial de quatorze (14) pessoas do sexo feminino, cujas idades variavam de 30 a 40 anos. Os dados obtidos em condições basais estão apresentados na tabela abaixo e representam: PAD-F: pressão arterial diastólica, sexo feminino; PAS-F: pressão arterial sistólica, sexo feminino. PAD-F 81 84 91 80 73 76 83 71 80 82 79 70 PAS-F 122 127 151 130 112 122 124 121 120 146 124 112 a) Construa gráficos box-plot com os dados acima. Exercício 36. Foi efetuada coleta de 50 peixes de uma determinada espécie em um lago criatório, cujos escores estão inseridos na tabela abaixo. 28 23 20 13 32 24 19 1 19 18 19 21 21 22 29 23 15 17 25 23 20 21 20 21 15 14 16 20 12 11 15 17 23 15 17 25 23 20 21 55 21 15 14 8 20 12 11 15 17 12 a) Construa uma tabela de distribuição de frequência; b) Construa um gráfico box-plot. Exercício 37. Em um hospital foram efetuadas cirurgias classificadas em diferentes especialidades e realizadas no mês de março de 2011. Os dados estão contidos na tabela abaixo. a) Elabore um gráfico de coluna para os dados acima. Estatística Básica – Ciências Biológicas – PUC-RIO 50 Exercício 38. A tabela abaixo apresenta o peso (gramas) e comprimento (centímetros) de folhas de gramínea coletadas na Reserva Biológica do Tinguá, Estado do Rio de Janeiro. Peso 2 5 4 8 11 9 7 4 3 1 Comp. 4 3 5 7 12 9 5 6 4 2 a) Construa um diagrama de dispersão para os dados. Exercício 39. Os dados da tabela abaixo mostra a vacinação efetuada em crianças de zero (0) a um (1) ano de idade, em um Posto de Saúde da cidade do Petrópolis, Rio de Janeiro, no primeiro trimestre de 2000. a) Construa um gráfico de setores para os dados da tabela acima. Exercício 40. Foi efetuada investigação destinada a verificar a incidência de dengue de acordo com a escolaridade. Os dados estão inseridos na tabela abaixo. a) Elabore um gráfico de colunas justapostas. Estatística Básica – Ciências Biológicas – PUC-RIO 51 Gabarito: Exercícios 1: A) B) C) D) Estatística Básica – Ciências Biológicas – PUC-RIO 52 Exercício 2 a) Sexo Indivíduos Média Peso Média Comprimento Amplitude Peso Amplitude Comprimento F 28 145.96 1,16 110 0,86 M 22 179,9 1,54 159 0,75 b) Fêmeas k= 6 at= 110 i=18.33 Pesos de fêmeas j Classes Fj F´j fj f´j cj 1 86,00|--104.33 2 2 0.07 0.07 95.165 2 104.33|--122.66 3 5 0.11 0.18 113.495 3 122.66|--140.99 8 13 0.29 0.46 131.825 4 140.99|--159.32 6 19 0.21 0.68 150.155 5 159.32|--177.65 5 24 0.18 0.86 168.485 6 177.65|--195.98 4 28 0.14 1.00 186.815 28 1 k= 6 at= 0.86i=0.1433 Comprimentos de fêmeas j Classes Fj F´j fj f´j cj 1 0.68|--0.82 1 1 0.04 0.04 0.750 2 0.82|--0.97 3 4 0.11 0.14 0.893 3 0.97|--1.11 9 13 0.32 0.46 1.037 4 1.11|--1.25 6 19 0.21 0.68 1.180 5 1.25|--1.40 5 24 0.18 0.86 1.323 6 1.40|--1.54 4 28 0.14 1.00 1.467 28 1 Machos k= 6 at= 159 Estatística Básica – Ciências Biológicas – PUC-RIO 53 i=26.5 Pesos de machos j Classes Fj F´j fj f´j cj 1 127.0|--153.5 6 6 0.27 0.27 140.25 2 153.5|--180.0 6 12 0.27 0.55 166.75 3 180.0|--206.5 5 17 0.23 0.77 193.25 4 206.5|--233.0 3 20 0.14 0.91 219.75 5 233.0|--259.5 1 21 0.05 0.95 246.25 6 259.5|--286.0 1 22 0.05 1.00 272.75 22 1.00 k= 6 at= 0.75 i=0.125 Comprimentos de machos j Classes Fj F´j fj f´j cj 1 1.12|--1.25 3 3 0.14 0.14 1.2 2 1.25|--1.38 4 7 0.18 0.32 1.3 3 1.38|--1.51 3 10 0.14 0.45 1.4 4 1.51|--1.64 2 12 0.09 0.55 1.6 5 1.64|--1.77 5 17 0.23 0.77 1.7 6 1.77|--1.90 5 22 0.23 1.00 1.8 22 1.00 c) 0 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 Pesos fêmeas 0 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 Comprimentos fêmeas Estatística Básica – Ciências Biológicas – PUC-RIO 54 d) Exercício 3. a) Média : 7.72; Moda : 7.0; Quartil : Q1 : 6,25 / Q2 : 7,0/ Q3: 9.25 b) Produção de leite j Classes Fj F´j fj f´j 1 5|--6 6 6 0.18 0.18 2 6|--7 6 12 0.18 0.36 3 7|--8 7 19 0.21 0.58 4 8|--9 3 22 0.09 0.67 5 9|--10 4 26 0.12 0.79 6 10|--11 4 30 0.12 0.91 7 11|--12 3 33 0.09 1.00 33 1.00 0 2 4 6 8 1 2 3 4 5 6 Pesos machos 0 2 4 6 1 2 3 4 5 6 Comprimentos de machos Estatística Básica – Ciências Biológicas – PUC-RIO 55 Exercício 4 a) j cj Fj F´j fj f´j 1 4.5 1 1 0.01 0.01 2 6.5 2 3 0.02 0.03 3 8.5 8 11 0.08 0.11 4 10.5 17 28 0.17 0.28 5 12.5 19 47 0.19 0.47 6 14.5 19 66 0.19 0.65 7 16.5 11 77 0.11 0.76 8 18.5 17 94 0.17 0.93 9 20.5 3 97 0.03 0.96 10 22.5 2 99 0.02 0.98 11 24.5 2 101 0.02 1 101 1 b) Exercício 5 a) Média: 25.66 Mediana : 27 Moda : 30 b) Média: 173.2 Mediana : 170,5 Moda : Amodal c) Média: 342.63 Mediana : 332 Moda : 300 e 374 Exercício 6 a) At=9,8 b e c) j classes Fj F`j fj f`j 1 1.10|--2.33 7 7 0.090 0.090 0 2 4 6 8 10 12 14 16 18 20 1 2 3 4 5 6 7 8 9 10 11 Tempo de vida de tamanduás Estatística Básica – Ciências Biológicas – PUC-RIO 56 2 2.33|--3.56 13 20 0.167 0.256 3 3.56|--4.79 17 37 0.218 0.474 4 4.79|--6.02 20 57 0.256 0.731 5 6.02|--7.25 13 70 0.167 0.897 6 7.25|--8.48 5 75 0.064 0.962 7 8.48|--9.71 2 77 0.026 0.987 8 9.71|--10.9 1 78 0.013 1 78 1 d) Construa o histograma e o polígono de frequências. Exercício 7. Defina: a) População : É o conjunto de todos os indivíduos que apresentam uma característica em comum. b) Censo : Quando todos os indivíduos de uma população são estudados. c) Amostra : É um subconjunto de um população. d) Amostragem : Técnica de escolha de amostras adequadas para análise de um todo. Exercício 8 a) Em que circunstâncias é amostragem preferível a um censo? Quando não é possível capturar ou coletar todos os indivíduos de uma população. b) Quando se deve preferir um censo a uma amostragem? Deve-se preferir um censo quando necessitar de todos os dados de uma população. c) Para ser útil, que características deve ter uma amostra? Deve ser específica, homogênea além de ter que representar a população. Exercício 9 0 5 10 15 20 25 1 2 3 4 5 6 7 8 Concentração de Ozônio Estatística Básica – Ciências Biológicas – PUC-RIO 57 a) j cj Fj F`j fj f`j 1 1.5 45 45 0.225 0.225 2 2 83 128 0.415 0.64 3 2.5 52 180 0.26 0.9 4 3 15 195 0.075 0.975 5 3.5 4 199 0.02 0.995 6 4 1 200 0.005 1 200 1 b) Exercício 10 a) j cj Fj F`j fj f`j 1 62.5 11 11 0.06875 0.06875 2 67.5 35 46 0.21875 0.2875 3 72.5 68 114 0.425 0.7125 4 77.5 20 134 0.125 0.8375 5 82.5 12 146 0.075 0.9125 6 87.5 10 156 0.0625 0.975 7 92.5 1 157 0.00625 0.98125 8 97.5 3 160 0.01875 1 160 1 0 20 40 60 80 100 Fj Ganho de peso Estatística Básica – Ciências Biológicas – PUC-RIO 58 b) São as classes as quais estes indivíduos pertencem. Exercício 11 a) méia = 127.33 mediana = 119.5 quartis = Q1=101.25; Q3=142 b) j classes Fj F´j fj f´j cj 1 62.00|--84.90 9 9 0.21 0.21 73.45 2 84.90|--107.7 4 13 0.10 0.31 96.31 3 107.7|--130.6 14 27 0.33 0.64 119.17 4 130.6|--153.4 7 34 0.17 0.81 142.03 5 153.4|--176.3 2 36 0.05 0.86 164.89 6 176.3|--199.7 0 36 0.00 0.86 187.75 7 199.2|--222.0 6 42 0.14 1 210.61 42 1 c) 0 5 10 15 Fj Exercício 11 c) 0 10 20 30 40 50 60 70 80 Fj Exercício 10 a) Estatística Básica – Ciências Biológicas – PUC-RIO 59 d) Exercício 12 1-1-1-3-4-4-3-1-4-3-1-3-2 Exercício 13 4-2-1-3-2-3-1-3-4-1 Exercício 14 b( x) Falso Exercício 15 b( x ) 9 Exercício 16 b( x ) Falso Exercício 17 a( x ) Verdadeiro Exercício 18 a( x ) Verdadeiro Exercício 19 b( x ) Falso Exercício 20 b( x ) Falso Exercício 21 c( x ) a amplitude total se altera se for somado um valor constante a todos os elementos do conjunto de dados. Exercício 22 B (x ) Falso Estatística Básica – Ciências Biológicas – PUC-RIO 60 Exercício 23 a) Média A = 5,63; Média de B = 5 b) Para saber isso teremos que encontrar o desvio padrão. Desta forma iremos descobrir que o aluno B com desvio =0,65 possui notas mais homogêneas. Exercício 24. A (x ) O elemento variável é o tempo. Exercício 25 C ( x) A diferença entre o maior e menor valor observado da variável. Exercício 26 B ( x) Soma-se ao seu limite inferior metade de sua amplitude. Exercício 27. J classes Fj F´j fj f´j 1 < 100 3 3 0.05 0.05 2 100 < x< 1000 50 53 0.78 0.83 3 > 1000 11 64 0.17 1 64 1 Exercício 28. a) 6 b) amodal c) 2 e 5 d) amodal Exercício 29. D ( x ) Estatística descritiva Exercício 30. A (x ) O elemento variável é o tempo; Exercício 31 a) 12 b) 13 Exercício 32 a) Quantitativa discreta; b) Neste caso, a variável é quantitativa discreta e os livros são as classes. Estatística Básica – Ciências Biológicas – PUC-RIO 61 J Classe (livros) Fj F´j fj f´j 1 0 7 7 0.175 0.175 2 1 9 16 0.225 0.4 3 2 8 24 0.2 0.6 4 3 7 31 0.175 0.775 5 4 4 35 0.1 0.875 6 5 2 37 0.05 0.925 7 6 2 39 0.05 0.975 8 7 0 39 0 0.975 9 8 1 40 0.025 1 40 1 c) 60% d) 77,5% e) 92 livros f) 2,3 livros por aluno Exercício 33 J Classe Fj F´j fj f´j 1 6|--11.78 5 5 0.07 0.07 2 11.78|--17.56 16 21 0.21 0.28 3 17.56|--23.34 15 36 0.20 0.48 4 23.34|--29.12 11 47 0.15 0.63 5 29.12|--34.9 7 54 0.09 0.72 6 34.9|--40.68 9 63 0.12 0.84 7 40.68|--46.46 5 68 0.07 0.91 8 46.46|--52.24 4 72 0.05 0.96 9 52.24|--58.02 3 75 0.04 1 75 1 Estatística Básica – Ciências Biológicas – PUC-RIO 62 Exercício 34 Exercício 35 Exercício 36 a) J Classe Fj F´j fj f´j 1 1.00|--8.70 2 2 0.04 0.04 2 8.70|--16.4 15 17 0.30 0.34 3 16.4|--24.1 27 44 0.54 0.88 4 24.1|--31.9 4 48 0.08 0.96 5 31.9|--39.6 1 49 0.02 0.98 6 39.6|--47.3 0 49 0.00 0.98 7 47.3|--55.0 1 50 0.02 1.00 50 1.00 Diretoria 4% Assessoria 7% Transporte 23% Administração 6% Área técnica 19% Área operacional41% Estatística Básica – Ciências Biológicas – PUC-RIO 63 b) Exercício 37 Exercício 38 0 5 10 15 20 25 0 2 4 6 8 10 12 14 0 2 4 6 8 10 12 Peso Comp. Estatística Básica – Ciências Biológicas – PUC-RIO 64 Exercício 39 Exercício 40 Bog Sabin Tríplice Saranpo Hepatite 0 10 20 30 40 50 60 Com dengue sem dengue
Compartilhar